import os import datetime import argparse import torch import torch.nn as nn import torch.nn.functional as F import torchvision from torchvision.models.feature_extraction import create_feature_extractor import copy from collections import OrderedDict import transforms from network_files import FasterRCNN, AnchorsGenerator from my_dataset import VOCDataSet from train_utils import GroupedBatchSampler, create_aspect_ratio_groups from train_utils import train_eval_utils as utils # ---------------------------- ECA注意力模块 ---------------------------- class ECAAttention(nn.Module): def __init__(self, channels, kernel_size=3): super(ECAAttention, self).__init__() self.avg_pool = nn.AdaptiveAvgPool2d(1) self.conv = nn.Conv1d(1, 1, kernel_size=kernel_size, padding=(kernel_size - 1) // 2, bias=False) self.sigmoid = nn.Sigmoid() def forward(self, x): # x: [B, C, H, W] b, c, h, w = x.size() # 全局平均池化 y = self.avg_pool(x).view(b, c, 1) # 一维卷积实现跨通道交互 y = self.conv(y.transpose(1, 2)).transpose(1, 2).view(b, c, 1, 1) # 生成注意力权重 y = self.sigmoid(y) return x * y.expand_as(x) # ---------------------------- 特征融合模块 ---------------------------- class FeatureFusionModule(nn.Module): def __init__(self, student_channels, teacher_channels): super().__init__() # 1x1卷积用于通道对齐 self.teacher_proj = nn.Conv2d(teacher_channels, student_channels, kernel_size=1) # 注意力机制 self.attention = nn.Sequential( nn.Conv2d(student_channels * 2, student_channels // 8, kernel_size=1), nn.ReLU(), nn.Conv2d(student_channels // 8, 2, kernel_size=1), nn.Softmax(dim=1) ) # ECA注意力模块 self.eca = ECAAttention(student_channels, kernel_size=3) def forward(self, student_feat, teacher_feat): # 调整教师特征的空间尺寸以匹配学生特征 if student_feat.shape[2:] != teacher_feat.shape[2:]: teacher_feat = F.interpolate(teacher_feat, size=student_feat.shape[2:], mode='bilinear', align_corners=False) # 通道投影 teacher_feat_proj = self.teacher_proj(teacher_feat) # 特征拼接 concat_feat = torch.cat([student_feat, teacher_feat_proj], dim=1) # 计算注意力权重 attn_weights = self.attention(concat_feat) # 加权融合 fused_feat = attn_weights[:, 0:1, :, :] * student_feat + attn_weights[:, 1:2, :, :] * teacher_feat_proj # 应用ECA注意力 fused_feat = self.eca(fused_feat) return fused_feat # ---------------------------- 简化版FPN实现 ---------------------------- class SimpleFPN(nn.Module): def __init__(self, in_channels_list, out_channels): super().__init__() self.inner_blocks = nn.ModuleList() self.layer_blocks = nn.ModuleList() # FPN输出层的ECA模块 self.eca_blocks = nn.ModuleList() # 为每个输入特征创建内部卷积和输出卷积 for in_channels in in_channels_list: inner_block = nn.Conv2d(in_channels, out_channels, 1) layer_block = nn.Conv2d(out_channels, out_channels, 3, padding=1) self.inner_blocks.append(inner_block) self.layer_blocks.append(layer_block) # 为每个FPN输出添加ECA模块 self.eca_blocks.append(ECAAttention(out_channels, kernel_size=3)) # 初始化权重 for m in self.modules(): if isinstance(m, nn.Conv2d): nn.init.kaiming_uniform_(m.weight, a=1) if m.bias is not None: nn.init.constant_(m.bias, 0) def forward(self, x): # 假设x是一个有序的字典，包含'c2', 'c3', 'c4', 'c5'特征 c2, c3, c4, c5 = x['c2'], x['c3'], x['c4'], x['c5'] # 处理最顶层特征 last_inner = self.inner_blocks[3](c5) results = [] # 处理P5 p5 = self.layer_blocks[3](last_inner) p5 = self.eca_blocks[3](p5) # 应用ECA注意力 results.append(p5) # 自顶向下路径 for i in range(2, -1, -1): inner_lateral = self.inner_blocks[i](x[f'c{i + 2}']) feat_shape = inner_lateral.shape[-2:] last_inner = F.interpolate(last_inner, size=feat_shape, mode="nearest") last_inner = last_inner + inner_lateral # 应用卷积和ECA注意力 layer_out = self.layer_blocks[i](last_inner) layer_out = self.eca_blocks[i](layer_out) # 应用ECA注意力 results.insert(0, layer_out) # 返回有序的特征字典 return { 'p2': results[0], 'p3': results[1], 'p4': results[2], 'p5': results[3] } # ---------------------------- 通道剪枝器类 ---------------------------- class ChannelPruner: def __init__(self, model, input_size, device='cpu'): self.model = model self.input_size = input_size # (B, C, H, W) self.device = device self.model.to(device) self.prunable_layers = self._identify_prunable_layers() # 识别可剪枝层 self.channel_importance = {} # 存储各层通道重要性 self.mask = {} # 剪枝掩码 self.reset() def reset(self): """重置剪枝状态""" self.pruned_model = copy.deepcopy(self.model) self.pruned_model.to(self.device) for name, module in self.prunable_layers.items(): self.mask[name] = torch.ones(module.out_channels, dtype=torch.bool, device=self.device) def _identify_prunable_layers(self): """识别可剪枝的卷积层（优先中间层，如layer2、layer3）""" prunable_layers = OrderedDict() for name, module in self.model.named_modules(): # 主干网络层（layer1-layer4） if "backbone.backbone." in name: # layer1（底层，少剪或不剪） if "layer1" in name: if isinstance(module, nn.Conv2d) and module.out_channels > 1: prunable_layers[name] = module # layer2和layer3（中间层，优先剪枝） elif "layer2" in name or "layer3" in name: if isinstance(module, nn.Conv2d) and module.out_channels > 1: prunable_layers[name] = module # layer4（高层，少剪） elif "layer4" in name: if isinstance(module, nn.Conv2d) and module.out_channels > 1: prunable_layers[name] = module # FPN层（inner_blocks和layer_blocks） elif "fpn.inner_blocks" in name or "fpn.layer_blocks" in name: if isinstance(module, nn.Conv2d) and module.out_channels > 1: prunable_layers[name] = module # FeatureFusionModule的teacher_proj层 elif "feature_fusion." in name and "teacher_proj" in name: if isinstance(module, nn.Conv2d) and module.out_channels > 1: prunable_layers[name] = module return prunable_layers def compute_channel_importance(self, dataloader=None, num_batches=10): """基于激活值计算通道重要性""" self.pruned_model.eval() for name in self.prunable_layers.keys(): self.channel_importance[name] = torch.zeros( self.prunable_layers[name].out_channels, device=self.device) with torch.no_grad(): if dataloader is None: # 使用随机数据计算 for _ in range(num_batches): inputs = torch.randn(self.input_size, device=self.device) self._forward_once([inputs]) # 包装为列表以匹配数据加载器格式 else: # 使用验证集计算 for inputs, _ in dataloader: if num_batches <= 0: break # 将图像列表移至设备 inputs = [img.to(self.device) for img in inputs] self._forward_once(inputs) num_batches -= 1 def _forward_once(self, inputs): """前向传播并记录各层激活值""" def hook(module, input, output, name): # 计算通道重要性（绝对值均值） channel_impact = torch.mean(torch.abs(output), dim=(0, 2, 3)) self.channel_importance[name] += channel_impact hooks = [] for name, module in self.pruned_model.named_modules(): if name in self.prunable_layers: hooks.append(module.register_forward_hook(lambda m, i, o, n=name: hook(m, i, o, n))) # 修改这里以正确处理目标检测模型的输入格式 self.pruned_model(inputs) for hook in hooks: hook.remove() def prune_channels(self, layer_prune_ratios): """按层剪枝（支持不同层不同比例）""" for name, ratio in layer_prune_ratios.items(): if name not in self.prunable_layers: continue module = self.prunable_layers[name] num_channels = module.out_channels num_prune = int(num_channels * ratio) if num_prune <= 0: continue # 获取最不重要的通道索引（按重要性从小到大排序） importance = self.channel_importance[name] _, indices = torch.sort(importance) prune_indices = indices[:num_prune] # 更新掩码 self.mask[name][prune_indices] = False def apply_pruning(self): """应用剪枝掩码到模型""" pruned_model = copy.deepcopy(self.model) pruned_model.to(self.device) # 存储每层的输入通道掩码（用于处理非连续层的依赖关系） output_masks = {} # 第一遍：处理所有可剪枝层，记录输出通道掩码 for name, module in pruned_model.named_modules(): if name in self.mask: curr_mask = self.mask[name] # 处理卷积层 if isinstance(module, nn.Conv2d): # 剪枝输出通道 module.weight.data = module.weight.data[curr_mask] if module.bias is not None: module.bias.data = module.bias.data[curr_mask] module.out_channels = curr_mask.sum().item() # 记录该层的输出通道掩码 output_masks[name] = curr_mask print(f"处理层: {name}, 原始输出通道: {len(curr_mask)}, 剪枝后: {curr_mask.sum().item()}") # 处理ECA注意力模块 elif isinstance(module, ECAAttention): # ECA模块不需要修改，因为它不改变通道数 pass # 处理FeatureFusionModule的teacher_proj elif "teacher_proj" in name: # 输入通道来自教师特征，输出通道由curr_mask决定 module.weight.data = module.weight.data[curr_mask] module.out_channels = curr_mask.sum().item() # 记录该层的输出通道掩码 output_masks[name] = curr_mask # 第二遍：处理非剪枝层的输入通道 for name, module in pruned_model.named_modules(): if name in output_masks: # 已在第一遍处理过，跳过 continue # 对于卷积层，查找其输入来源的层的掩码 if isinstance(module, nn.Conv2d): # 尝试查找前一层的输出掩码 prev_mask = None # 简化的查找逻辑，实际情况可能需要更复杂的实现 # 这里假设命名约定能帮助我们找到前一层 for possible_prev_name in reversed(list(output_masks.keys())): if possible_prev_name in name or ( "backbone" in name and "backbone" in possible_prev_name): prev_mask = output_masks[possible_prev_name] break # 应用输入通道掩码 if prev_mask is not None and prev_mask.shape[0] == module.weight.shape[1]: print( f"应用输入掩码到层: {name}, 原始输入通道: {module.weight.shape[1]}, 剪枝后: {prev_mask.sum().item()}") module.weight.data = module.weight.data[:, prev_mask] module.in_channels = prev_mask.sum().item() else: print(f"警告: 无法为层 {name} 找到匹配的输入掩码，保持原始通道数") return pruned_model def evaluate_model(self, dataloader, model=None): """评估模型性能（mAP）""" if model is None: model = self.pruned_model model.eval() # 调用评估函数 coco_info = utils.evaluate(model, dataloader, device=self.device) return coco_info[1] # 返回mAP值 def get_model_size(self, model=None): """获取模型大小（MB）""" if model is None: model = self.pruned_model torch.save(model.state_dict(), "temp.pth") size = os.path.getsize("temp.pth") / (1024 * 1024) os.remove("temp.pth") return size def create_model(num_classes): # ---------------------------- 学生模型定义 ---------------------------- try: # 尝试使用新版本API backbone = torchvision.models.resnet18(weights=torchvision.models.ResNet18_Weights.IMAGENET1K_V1) except AttributeError: # 旧版本API backbone = torchvision.models.resnet18(pretrained=True) # 提取多个层作为特征融合点 return_nodes = { "layer1": "c2", # 对应FPN的P2 (1/4) "layer2": "c3", # 对应FPN的P3 (1/8) "layer3": "c4", # 对应FPN的P4 (1/16) "layer4": "c5", # 对应FPN的P5 (1/32) } backbone = create_feature_extractor(backbone, return_nodes=return_nodes) # 添加简化版FPN fpn = SimpleFPN([64, 128, 256, 512], 256) # 创建一个包装模块，将backbone和FPN组合在一起 class BackboneWithFPN(nn.Module): def __init__(self, backbone, fpn): super().__init__() self.backbone = backbone self.fpn = fpn self.out_channels = 256 # FPN输出通道数 def forward(self, x): x = self.backbone(x) x = self.fpn(x) return x # 替换原始backbone为带FPN的backbone backbone_with_fpn = BackboneWithFPN(backbone, fpn) # 增加更多anchor尺度和宽高比 anchor_sizes = ((16, 32, 48), (32, 64, 96), (64, 128, 192), (128, 256, 384), (256, 512, 768)) aspect_ratios = ((0.33, 0.5, 1.0, 2.0, 3.0),) * len(anchor_sizes) anchor_generator = AnchorsGenerator( sizes=anchor_sizes, aspect_ratios=aspect_ratios ) roi_pooler = torchvision.ops.MultiScaleRoIAlign( featmap_names=['p2', 'p3', 'p4', 'p5'], output_size=[7, 7], sampling_ratio=2 ) model = FasterRCNN( backbone=backbone_with_fpn, num_classes=num_classes, rpn_anchor_generator=anchor_generator, box_roi_pool=roi_pooler ) # 添加多尺度特征融合模块 model.feature_fusion = nn.ModuleDict({ 'p2': FeatureFusionModule(256, 256), 'p3': FeatureFusionModule(256, 256), 'p4': FeatureFusionModule(256, 256), 'p5': FeatureFusionModule(256, 256), }) return model def main(args): # 确保输出目录存在 if args.output_dir: os.makedirs(args.output_dir, exist_ok=True) # ---------------------------- 模型剪枝流程 ---------------------------- print("开始模型剪枝...") device = torch.device(args.device if torch.cuda.is_available() else "cpu") # 加载已训练的模型 model = create_model(num_classes=args.num_classes + 1) checkpoint = torch.load(args.resume, map_location=device) model.load_state_dict(checkpoint["model"]) model.to(device) # 输入尺寸（需与训练时一致） input_size = (1, 3, 800, 600) # (B, C, H, W) # 加载验证集 val_dataset = VOCDataSet(args.data_path, "2012", transforms.Compose([transforms.ToTensor()]), "val.txt") val_data_loader = torch.utils.data.DataLoader( val_dataset, batch_size=1, shuffle=False, pin_memory=True, num_workers=4, collate_fn=val_dataset.collate_fn ) # 初始化剪枝器 pruner = ChannelPruner(model, input_size, device=device) # 计算通道重要性 print("计算通道重要性...") pruner.compute_channel_importance(dataloader=val_data_loader, num_batches=10) # 定义分层剪枝比例（中间层多剪，底层和高层少剪） layer_prune_ratios = { # 主干网络 "backbone.backbone.layer1": args.layer1_ratio, # 底层：剪10% "backbone.backbone.layer2": args.layer2_ratio, # 中间层：剪30% "backbone.backbone.layer3": args.layer3_ratio, # 中间层：剪30% "backbone.backbone.layer4": args.layer4_ratio, # 高层：剪10% # FPN层 "fpn.inner_blocks": args.fpn_inner_ratio, # FPN内部卷积：剪20% "fpn.layer_blocks": args.fpn_layer_ratio, # FPN输出卷积：剪20% # FeatureFusionModule的teacher_proj "feature_fusion.p2.teacher_proj": args.ff_p2_ratio, "feature_fusion.p3.teacher_proj": args.ff_p3_ratio, "feature_fusion.p4.teacher_proj": args.ff_p4_ratio, "feature_fusion.p5.teacher_proj": args.ff_p5_ratio, } # 执行剪枝 print("执行通道剪枝...") pruner.prune_channels(layer_prune_ratios) # 应用剪枝并获取新模型 pruned_model = pruner.apply_pruning() # 评估剪枝前后的性能和模型大小 original_size = pruner.get_model_size(model) pruned_size = pruner.get_model_size(pruned_model) original_map = pruner.evaluate_model(val_data_loader, model) pruned_map = pruner.evaluate_model(val_data_loader, pruned_model) print(f"原始模型大小: {original_size:.2f} MB") print(f"剪枝后模型大小: {pruned_size:.2f} MB") print(f"模型压缩率: {100 * (1 - pruned_size / original_size):.2f}%") print(f"原始mAP: {original_map:.4f}, 剪枝后mAP: {pruned_map:.4f}") # 保存剪枝后的模型 pruned_model_path = os.path.join(args.output_dir, f"pruned_resNetFpn_{args.num_classes}classes.pth") torch.save(pruned_model.state_dict(), pruned_model_path) print(f"剪枝后的模型已保存至: {pruned_model_path}") # 对剪枝后的模型进行微调（默认启用） print("准备对剪枝后的模型进行微调...") # 加载训练集 train_dataset = VOCDataSet(args.data_path, "2012", transforms.Compose([ transforms.ToTensor(), transforms.RandomHorizontalFlip(0.5) ]), "train.txt") # 创建训练数据加载器 train_sampler = torch.utils.data.RandomSampler(train_dataset) train_data_loader = torch.utils.data.DataLoader( train_dataset, batch_size=args.batch_size, sampler=train_sampler, num_workers=4, collate_fn=train_dataset.collate_fn ) # 定义优化器 params = [p for p in pruned_model.parameters() if p.requires_grad] optimizer = torch.optim.SGD( params, lr=args.lr, momentum=0.9, weight_decay=0.0005 ) # 定义学习率调度器 lr_scheduler = torch.optim.lr_scheduler.StepLR( optimizer, step_size=args.lr_step_size, gamma=args.lr_gamma ) # 微调训练 print(f"开始微调: 批次大小={args.batch_size}, 学习率={args.lr}, 轮数={args.epochs}") best_map = 0.0 for epoch in range(args.epochs): # 训练一个epoch utils.train_one_epoch(pruned_model, optimizer, train_data_loader, device, epoch, print_freq=50) # 更新学习率 lr_scheduler.step() # 评估模型 coco_info = utils.evaluate(pruned_model, val_data_loader, device=device) # 保存当前最佳模型 map_50 = coco_info[1] # COCO评估指标中的IoU=0.50时的mAP if map_50 > best_map: best_map = map_50 torch.save({ 'model': pruned_model.state_dict(), 'optimizer': optimizer.state_dict(), 'lr_scheduler': lr_scheduler.state_dict(), 'epoch': epoch, 'args': args }, os.path.join(args.output_dir, f"finetuned_pruned_best.pth")) print(f"Epoch {epoch + 1}/{args.epochs}, mAP@0.5: {map_50:.4f}") print(f"微调完成，最佳mAP@0.5: {best_map:.4f}") if __name__ == "__main__": parser = argparse.ArgumentParser(description=__doc__) # ---------------------------- 剪枝参数 ---------------------------- parser.add_argument('--device', default='cuda:0', help='device') parser.add_argument('--data-path', default='./', help='dataset') parser.add_argument('--num-classes', default=6, type=int, help='num_classes') parser.add_argument('--output-dir', default='./save_weights', help='path where to save') parser.add_argument('--resume', default='./save_weights/resNetFpn-zuizhong.pth', type=str, help='resume from checkpoint') # 分层剪枝比例参数 parser.add_argument('--layer1-ratio', default=0.1, type=float, help='layer1 pruning ratio') parser.add_argument('--layer2-ratio', default=0.5, type=float, help='layer2 pruning ratio') parser.add_argument('--layer3-ratio', default=0.5, type=float, help='layer3 pruning ratio') parser.add_argument('--layer4-ratio', default=0.1, type=float, help='layer4 pruning ratio') parser.add_argument('--fpn-inner-ratio', default=0.2, type=float, help='FPN inner blocks pruning ratio') parser.add_argument('--fpn-layer-ratio', default=0.2, type=float, help='FPN layer blocks pruning ratio') parser.add_argument('--ff-p2-ratio', default=0.2, type=float, help='Feature fusion P2 pruning ratio') parser.add_argument('--ff-p3-ratio', default=0.2, type=float, help='Feature fusion P3 pruning ratio') parser.add_argument('--ff-p4-ratio', default=0.2, type=float, help='Feature fusion P4 pruning ratio') parser.add_argument('--ff-p5-ratio', default=0.2, type=float, help='Feature fusion P5 pruning ratio') # ---------------------------- 微调参数 ---------------------------- parser.add_argument('--epochs', default=10, type=int, help='number of total epochs to run') parser.add_argument('--batch-size', default=8, type=int, help='batch size') parser.add_argument('--lr', default=0.05, type=float, help='initial learning rate') parser.add_argument('--lr-step-size', default=3, type=int, help='decrease lr every step-size epochs') parser.add_argument('--lr-gamma', default=0.1, type=float, help='decrease lr by a factor of lr-gamma') args = parser.parse_args() main(args)以上代码没有实现成功的剪枝，请你仔细检查并修改，帮助我实现成功的剪枝。

import os import datetime import torch import torchvision from torch import nn import torch.nn.functional as F from torch.autograd import Variable from torch.utils.data import DataLoader from torchvision import transforms from torchvision.utils import save_image from torchvision.datasets import MNIST

from future import division from models import * from utils.logger import * from utils.utils import * from utils.datasets import * from utils.parse_config import * from test import evaluate import warnings warnings.filterwarnings("ignore") from terminaltables import AsciiTable import os import sys import time import datetime import argparse import torch from torch.utils.data import DataLoader from torchvision import datasets from torchvision import transforms from torch.autograd import Variable import torch.optim as optim

from module import * 可能导致命名冲突，建议显式导入（如from models import Darknet）。 2. **警告忽略策略** warnings.filterwarnings("ignore") 会隐藏所有警告，建议针对性过滤（如仅忽略...

import argparse import math import pickle import torch import torch.nn as nn import torch.nn.functional as F from tqdm import tqdm from omegaconf import OmegaConf from sklearn.metrics import f1_score from torch.utils.data import Dataset, DataLoader from torch.nn import TransformerEncoderLayer, TransformerEncoder 导入了哪些模块

- import os 操作系统交互（文件路径操作、环境变量读取等）。 - import datetime 日期时间处理（如datetime.now()获取当前时间）。 #### 2. **第三方库**（需通过pip安装） - import numpy as np ...

import argparse import os from datetime import datetime import dataloader import numpy as np import torch from models.TC import TC from models.model import base_Model from trainer.trainer import Trainer, model_evaluate from utils import _calc_metrics, copy_Files from utils import _logger, set_requires_解释这段代码grad

这段代码是 Python 代码，用于导入 argparse、os、datetime、dataloader、numpy 和 torch 模块，并加载 TC 模型和 base_Model 模型，通过 Trainer、model_evaluate、_calc_metrics、copy_Files、_logger 和 set_...

我的代码如下：import torch.nn.functional as F import torch.nn as nn import torch import numpy as np import os import torchvision.transforms.functional as TF from PIL import Image from torchvision.transforms import ToPILImage import cv2 import datetime import matplotlib.pyplot as plt class EnhancedSpatialAttention(nn.Module): def init(self, kernel_size=7): super().init() padding = kernel_size // 2 # 多尺度特征融合 self.conv1 = nn.Conv2d(2, 32, kernel_size=3, padding=1) self.conv2 = nn.Conv2d(32, 1, kernel_size, padding=padding) self.bn = nn.BatchNorm2d(32) def forward(self, x): avg_out = torch.mean(x, dim=1, keepdim=True) max_out = torch.max(x, dim=1, keepdim=True)[0] x = torch.cat([avg_out, max_out], dim=1) x = F.relu(self.bn(self.conv1(x))) # 加入非线性 x = self.conv2(x) return torch.sigmoid(x) class EdgeAttention(nn.Module): def init(self, channels, reduction=16): super().init() # 高效通道注意力 (ECA-Net风格) self.channel_att = nn.Sequential( nn.AdaptiveAvgPool2d(1), nn.Conv2d(channels, channels//reduction, 1), nn.ReLU(), nn.Conv2d(channels//reduction, channels, 1), nn.Sigmoid() ) self.spatial_att = EnhancedSpatialAttention() # 残差连接 self.conv = nn.Conv2d(channels, channels, 3, padding=1) def forward(self, x): # 通道注意力 ca = self.channel_att(x) x_ca = x * ca # 空间注意力 sa = self.spatial_att(x_ca) x_sa = x_ca * sa # 残差连接 return self.conv(x_sa) + x class ReflectedConvolution(nn.Module): def init(self, kernel_nums = 8, kernel_size = 3): #设计8个卷积核，用于学习光照不变特征 #设置3*3卷积 #分别对三个特征进行归一化 super(ReflectedConvolution, self).init() self.kernel_nums = kernel_nums self.kernel_size = kernel_size

edge_feature = torch.abs(self.edge_conv(x)) # 边缘响应绝对值 return x + edge_feature # 原始特征与边缘特征融合 **特点**： - 初始化为Sobel算子，但允许训练中调整边缘检测模式 - 使用分组卷积（...

我在conda 安装了python3.10 和 Ultralytics YOLO V12，我希望在使用Ultralytics YOLO训练时增加一个device=dml的选项来启用DirectML计算后端，下面是 torch_utils.py 文件代码# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license import gc import math import os import random import time from contextlib import contextmanager from copy import deepcopy from datetime import datetime from pathlib import Path from typing import Union import numpy as np import torch import torch.distributed as dist import torch.nn as nn import torch.nn.functional as F from ultralytics.utils import ( DEFAULT_CFG_DICT, DEFAULT_CFG_KEYS, LOGGER, NUM_THREADS, PYTHON_VERSION, TORCHVISION_VERSION, WINDOWS, version, colorstr, ) from ultralytics.utils.checks import check_version try: import thop except ImportError: thop = None # conda support without 'ultralytics-thop' installed # Version checks (all default to version>=min_version) TORCH_1_9 = check_version(torch.version, "1.9.0") TORCH_1_13 = check_version(torch.version, "1.13.0") TORCH_2_0 = check_version(torch.version, "2.0.0") TORCH_2_4 = check_version(torch.version, "2.4.0") TORCHVISION_0_10 = check_version(TORCHVISION_VERSION, "0.10.0") TORCHVISION_0_11 = check_version(TORCHVISION_VERSION, "0.11.0") TORCHVISION_0_13 = check_version(TORCHVISION_VERSION, "0.13.0") TORCHVISION_0_18 = check_version(TORCHVISION_VERSION, "0.18.0") if WINDOWS and check_version(torch.version, "==2.4.0"): # reject version 2.4.0 on Windows LOGGER.warning( "WARNING ⚠️ Known issue with torch==2.4.0 on Windows with CPU, recommend upgrading to torch>=2.4.1 to resolve " "https://github.com/ultralytics/ultralytics/issues/15049" ) @contextmanager def torch_distributed_zero_first(local_rank: int): """Ensures all processes in distributed training wait for the local master (rank 0) to complete a task first.""" initialized = dist.is_available() and dist.is_initialized() if initialized and local_rank

print(torch.dml.device_count()) # 应显示可用设备数 --- ### **步骤3：修改训练代码** 无需直接修改torch_utils.py，而是通过**环境变量**和**训练参数**控制设备： 1. 设置环境变量（终端中执行）： ...

以下是trainer代码，告诉我哪里是数据批处理 # Ultralytics YOLO 🚀, AGPL-3.0 license """ Train a model on a dataset. Usage: $ yolo mode=train model=yolov8n.pt data=coco128.yaml imgsz=640 epochs=100 batch=16 """ import math import os import subprocess import time import warnings from copy import deepcopy from datetime import datetime, timedelta from pathlib import Path import numpy as np import torch from torch import distributed as dist from torch import nn, optim from ultralytics.cfg import get_cfg, get_save_dir from ultralytics.data.utils import check_cls_dataset, check_det_dataset from ultralytics.nn.tasks import attempt_load_one_weight, attempt_load_weights from ultralytics.utils import ( DEFAULT_CFG, LOGGER, RANK, TQDM, version, callbacks, clean_url, colorstr, emojis, yaml_save, ) from ultralytics.utils.autobatch import check_train_batch_size from ultralytics.utils.checks import check_amp, check_file, check_imgsz, check_model_file_from_stem, print_a

return torch.from_numpy(img), torch.from_numpy(labels) ##### 2.2 数据加载器配置 python # ultralytics/data/dataloaders.py def build_dataloader(dataset, batch_size=16, ...): # 自动计算工作进程...

import argparse import datetime import os import random import sys import time import cv2 import math from ultralytics import YOLO import numpy as np import torch from PyQt5 import QtWidgets, QtGui, QtCore from PyQt5.QtCore import QTimer, QDateTime, QDate, QTime, QThread, pyqtSignal from PyQt5.QtGui import * from PyQt5.QtWidgets import * from torch.backends import cudnn from ui.mainwindow_ui import Ui_MainWindow请告诉我一下这个代码主要运用了哪些深度学习算法？并且他们的相关理论是什么

model = torch.nn.DataParallel(model) --- ### 四、系统实现流程 1. **图像输入**：通过OpenCV读取摄像头/视频流 python cap = cv2.VideoCapture(0) 2. **模型推理**： python results = ...

我要做pytorch深度学习算法，还需要用paddle库，还需要用numpy pandas import imageio as iio from PIL import Image import oss2 from oss2 import SizedFileAdapter, determine_part_size from oss2.models import PartInfo from itertools import islice import crcmod._crcfunext import numpy as np from sqlalchemy import create_engine import pymysql import pandas as pd import json from collections import Counter import math import random import datetime import paddlex as pdx import os os.environ['CUDA_VISIBLE_DEVICES'] = '1' import cv2 from oss_video_03_test import * import time import yaml import glob import json from pathlib import Path from functools import reduce import pandas as pd import cv2 import numpy as np import pandas as pd from predict_shu import * import math import paddle from paddle.inference import Config from paddle.inference import create_predictor import sys 我的python是3.7 请为定制如何安装

pip install torch torchvision torchaudio 2. 安装 PaddlePaddle： pip install paddlepaddle 3. 安装 numpy： pip install numpy 4. 安装 pandas： pip install pandas 5. ...

# YOLOv5 🚀 by Ultralytics, GPL-3.0 license """ Train a YOLOv5 model on a custom dataset. Models and datasets download automatically from the latest YOLOv5 release. Usage - Single-GPU training: $ python train.py --data coco128.yaml --weights yolov5s.pt --img 640 # from pretrained (recommended) $ python train.py --data coco128.yaml --weights '' --cfg yolov5s.yaml --img 640 # from scratch Usage - Multi-GPU DDP training: $ python -m torch.distributed.run --nproc_per_node 4 --master_port 1 train.py --data coco128.yaml --weights yolov5s.pt --img 640 --device 0,1,2,3 Models: https://github.com/ultralytics/yolov5/tree/master/models Datasets: https://github.com/ultralytics/yolov5/tree/master/data Tutorial: https://github.com/ultralytics/yolov5/wiki/Train-Custom-Data """ import argparse import math import os import random import sys import time from copy import deepcopy from datetime import datetime from pathlib import Path import numpy as np import torch import torch

python -m torch.distributed.run --nproc_per_node=4 train.py --img 640 --batch 64 --epochs 50 --data custom_data.yaml --weights yolov5s.pt --device 0,1,2,3 此命令的关键部分解释如下： - -m torch....

import argparse import datetime import pathlib import sys import time import cv2 import lietorch import torch import tqdm import yaml from mast3r_slam.global_opt import FactorGraph 分析代码

def add_landmark_node(self, landmark_id: int, position: torch.Tensor): """ 添加地标顶点 """ def add_odometry_factor(self, src_pose, dst_pose, measurement): """ 添加里程计约束 """ def optimize...

# region 系统配置与依赖导入（保持原代码） import os import numpy as np import pandas as pd import torch import torch.nn as nn from torch.nn import TransformerEncoder, TransformerEncoderLayer import backtrader as bt from collections import deque import talib as ta import tushare as ts import matplotlib.pyplot as plt import random random.seed(42) np.random.seed(42) torch.manual_seed(42) TUSHARE_TOKEN = os.getenv('TUSHARE_TOKEN', '7c4345ae126e8426ac1ba9104027b91e3123f49e28ea8a81e7762b94') STOCK_LIST = ['600519.SH', '000858.SZ', '600887.SH'] START_DATE = pd.to_datetime('2018-01-01') END_DATE = pd.to_datetime('2023-12-31') INIT_CASH = 1000000 WINDOW_SIZE = 60 TECHNICAL_FEATURES = ['open', 'high', 'low', 'close', 'volume', 'macd', 'rsi', 'cci'] device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') MODEL_DIR = './models' # endregion # 核心修复：MyPandasData类（基于Backtrader官方协议） class MyPandasData(bt.feeds.PandasData): """严格遵循Backtrader数据加载协议的实现""" params = ( ('datetime', 'trade_date'), ('open', 'open'), ('high', 'high'), ('low', 'low'), ('close', 'close'), ('volume', 'volume'), ('openinterest', -1), # 无此列设为-1 ) # 声明所有自定义指标列（别名=列名，需与DataFrame列名完全一致） lines = ( 'macd', # MACD主线 'rsi', # RSI指标 'cci', # CCI指标 'ma5', # 5日均线 'ma20', # 20日均线 ) def init(self): super().init() # 调试：打印自动生成的属性（验证别名绑定） print(f"[DataFeed] 可用指标属性: {', '.join(self.lines._linealiases)}") def _load(self): # 1. 数据清洗（保留原逻辑） df = self.p.dataname.copy() df[self.params.datetime] = pd.to_datetime(df[self.params.datetime]) df = df.sort_values(self.params.datetime).reset_index(drop=True) df = df[ (df[self.params.datetime] >= self.p.fromdate) & (df[self.params.datetime] <= self.p.todate) ].reset_index(drop=True) # 2. 基础列校验（Backtrader原生加载） if not super()._load():

import backtrader as bt class MyPandasData(bt.feeds.PandasData): # 扩展lines定义（在基础数据列后增加自定义指标） lines = ('macd', 'rsi', 'cci',) # 设置对应DataFrame列名的映射关系 params = ( ('...

import torch import torch.nn as nn import torch.optim as optim import torchvision import torchvision.transforms as transforms from torch.utils.data import DataLoader import time import os # 配置参数 TOTAL_TRAIN_HOURS = 96 # 总训练时长 CHECKPOINT_INTERVAL = 4 # 每4小时保存一次 NUM_CLASSES = 10 # 类别数（根据数据集调整） BATCH_SIZE = 64 LEARNING_RATE = 0.001 # 定义简单CNN模型 class ImageClassifier(nn.Module): def init(self, num_classes=NUM_CLASSES): super().init() self.features = nn.Sequential( nn.Conv2d(3, 32, kernel_size=3, padding=1), nn.ReLU(), nn.MaxPool2d(2), nn.Conv2d(32, 64, kernel_size=3, padding=1), nn.ReLU(), nn.MaxPool2d(2), nn.Conv2d(64, 128, kernel_size=3, padding=1), nn.ReLU(), nn.MaxPool2d(2) ) self.classifier = nn.Sequential( nn.Linear(128 * 4 * 4, 512), nn.ReLU(), nn.Dropout(0.5), nn.Linear(512, num_classes) ) def forward(self, x): x = self.features(x) x = torch.flatten(x, 1) return self.classifier(x) def main(): # 设置设备 device = torch.device("cuda" if torch.cuda.is_available() else "cpu") print(f"使用设备: {device}") # 准备数据 (示例使用CIFAR-10) transform = transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) ]) train_set = torchvision.datasets.CIFAR10( root='./data', train=True, download=True, transform=transform ) train_loader = DataLoader( train_set, batch_size=BATCH_SIZE, shuffle=True, num_workers=2 ) # 初始化模型 model = ImageClassifier().to(device) criterion = nn.CrossEntropyLoss() optimizer = optim.Adam(model.parameters(), lr=LEARNING_RATE) # 训练计时 start_time = time.time() last_checkpoint = start_time total_seconds = TOTAL_TRAIN_HOURS * 3600 print(f"开始训练，总时长: {TOTAL_TRAIN_HOURS}小时...") # 创建保存目录 os.makedirs("checkpoints", exist_ok=True) # 训练循环 epoch = 0 while time.time() - start_time < total_seconds: epoch += 1 model.train() running_loss = 0.0 for i, (inputs, labels) in enumerate(train_loader): inputs, labels = inputs.to(device), labels.to(device) # 前向传播 outputs = model(inputs) loss = criterion(outputs, labels) # 反向传播 optimizer.zero_grad() loss.backward() optimizer.step() running_loss += loss.item() # 每小时打印进度 current_time = time.time() elapsed_hours = (current_time - start_time) / 3600 if current_time - last_checkpoint > 3600: print(f"已训练: {elapsed_hours:.1f}/{TOTAL_TRAIN_HOURS}小时 | " f"Epoch: {epoch} | Loss: {running_loss/(i+1):.4f}") last_checkpoint = current_time # 检查点保存 current_time = time.time() if current_time - last_checkpoint > CHECKPOINT_INTERVAL * 3600: checkpoint_path = f"checkpoints/model_{int(elapsed_hours)}h.pt" torch.save(model.state_dict(), checkpoint_path) print(f"保存检查点: {checkpoint_path}") last_checkpoint = current_time # 最终模型保存 final_path = "final_model.pt" torch.save(model.state_dict(), final_path) print(f"训练完成! 最终模型保存至: {final_path}") print(f"总训练时间: {(time.time()-start_time)/3600:.2f}小时") if name == "main": main() 为什么在23个小时之前开始了训练任务python3 test.py，现在只显示训练了14小时

print(f"实际启动时间: {datetime.datetime.now()}") start_mono = time.monotonic() start_wall = time.time() # ...训练循环中... print(f"单调时钟: {time.monotonic() - start_mono:.2f}s") print(f"系统...

coding=UTF-8 from flask import Flask, render_template, request, send_from_directory from werkzeug.utils import secure_filename from iconflow.model.colorizer import ReferenceBasedColorizer from skimage.feature import canny as get_canny_feature from torchvision import transforms from PIL import Image import os import datetime import torchvision import cv2 import numpy as np import torch import einops transform_Normalize = torchvision.transforms.Compose([ transforms.Normalize(0.5, 1.0)]) ALLOWED_EXTENSIONS = set([‘png’, ‘jpg’, ‘jpeg’]) app = Flask(name) train_model = ReferenceBasedColorizer() basepath = os.path.join( os.path.dirname(file), ‘images’) # 当前文件所在路径 def allowed_file(filename): return ‘.’ in filename and filename.rsplit(‘.’, 1)[1] in ALLOWED_EXTENSIONS def load_model(log_path=‘/mnt/4T/lzq/IconFlowPaper/checkpoints/normal_model.pt’): global train_model state = torch.load(log_path) train_model.load_state_dict(state[‘net’]) @app.route(“/”, methods=[“GET”, “POST”]) def hello(): if request.method == ‘GET’: return render_template(‘upload.html’) @app.route(‘/upload’, methods=[“GET”, “POST”]) def upload_lnk(): if request.method == ‘GET’: return render_template(‘upload.html’) if request.method == ‘POST’: try: file = request.files['uploadimg'] except Exception: return None if file and allowed_file(file.filename): format = "%Y-%m-%dT%H:%M:%S" now = datetime.datetime.utcnow().strftime(format) filename = now + '_' + file.filename filename = secure_filename(filename) basepath = os.path.join( os.path.dirname(file), ‘images’) # 当前文件所在路径 # upload_path = os.path.join(basepath,secure_filename(f.filename)) file.save(os.path.join(basepath, filename)) else: filename = None return filename @app.route(‘/download/string:filename’, methods=[‘GET’]) def download(filename): if request.method == “GET”: if os.path.isfile(os.path.join(basepath, filename)): return send_from_directory(basepath, filename, as_attachment=True) pass def get_contour(img): x = np.array(img) canny = 0 for layer in np.rollaxis(x, -1): canny |= get_canny_feature(layer, 0) canny = canny.astype(np.uint8) * 255 kernel = np.array([ [0, 1, 1, 1, 0], [1, 1, 1, 1, 1], [1, 1, 1, 1, 1], [1, 1, 1, 1, 1], [0, 1, 1, 1, 0], ], dtype=np.uint8) canny = cv2.dilate(canny, kernel) # canny = Image.fromarray(canny) return canny @app.route(‘/embedding//’, methods=[“GET”, “POST”]) def icontran(img, reference): global train_model if request.method == ‘POST’: imgPath = os.path.join(basepath, img) referencePath = os.path.join(basepath, reference) img = cv2.imread(imgPath) if img is None or img.size <= 0: return None contour = get_contour(img).astype(np.float32).copy() contour = 255 - contour reference = cv2.imread(referencePath).astype(np.float32) reference = cv2.cvtColor(reference, cv2.COLOR_BGR2RGB) reference = transform_Normalize(torch.from_numpy(reference).permute(2, 0, 1).unsqueeze(0).float()/ 255.0) contour = transform_Normalize(torch.from_numpy(contour).unsqueeze(0).unsqueeze(0).float()/ 255.0) train_model.eval() transfer = train_model(contour, reference) transfer = transfer.squeeze(0) transfer = (transfer + 0.5).clamp(0, 1).mul_(255).permute(1, 2, 0).type(torch.uint8).numpy() transfer = transfer.numpy() cv2.imwrite(imgPath, transfer) return basepath # success if name == “main”: load_model() app.run(host=‘10.21.16.144’, port=9999, debug=True) 用puthon写一个调用这个服务器的gui

它还导入了一些需要使用的库，如 werkzeug、numpy、torch 等。该代码可以对图片进行一些处理，如调整亮度、色彩等。其中包括一个可以将黑白图片变成彩色图片的算法 train_model。同时，代码中使用了一些图像处理的...

# -- coding: utf-8 -- import time import torch from datetime import datetime import os class Common: ''' 通用配置 ''' basePath = "C:\\Users\\MR\\Desktop\\模式识别实验\\实验四\\1.3-4.30\\all\\" # device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") # imageSize = (224,224) # labels = ["cloudy","haze","rainy","shine","snow","sunny","sunrise","thunder"] # class Train: ''' 训练相关配置 ''' batch_size =128 num_workers = 0 # lr = 0.001 epochs = 1 logDir = ".\log\\" + time.strftime('%Y-%m-%d-%H-%M-%S',time.gmtime()) # 日志存放位置 #logDir = os.path.join(".\log", datetime.now().strftime("%Y%m%d_%H%M%S")) modelDir = "./model/" # � import torch from torch import nn from torch.utils.data import Dataset, DataLoader from torchvision import transforms import os from PIL import Image import torch.utils.data as Data import numpy # transform = transforms.Compose([ transforms.Resize(Common.imageSize), transforms.ToTensor() ]) def loadDataFromDir(): ''' 从文件夹中获取数�? ''' images = [] labels = [] # 1. 遍历每个类别文件夹 for d in os.listdir(Common.basePath): for imagePath in os.listdir(Common.basePath + d): # 2. 遍历类别文件夹中的每个图像 # 3. 打开图像并转换为RGB格式 image = Image.open(Common.basePath + d + "/" + imagePath).convert('RGB') print("加载数据" + str(len(images)) + "") # 4. 应用变换并添加到图像列表 images.append(transform(image)) # 5. 创建one-hot编码标签 label = [0] * len(Common.labels) categoryIndex = Common.labels.index(d) # � label[categoryIndex] = 1 # label = torch.tensor(label,dtype=torch.float) # � # 6. 添加标签到标签列表 labels.append(label) # 7. 关闭图像 image.close() # return images, labels class WeatherDataSet(Dataset): ''' 自定义DataSet ''' def init(self): ''' 初始化DataSet :param transform: 自定义转换器 ''' images, labels = loadDataFromDir() # self.images = images self.labels = labels def len(self): ''' 返回数据总长�? :return: ''' return len(self.images) def getitem(self, idx): image = self.images[idx] label = self.labels[idx] return image, label def splitData(dataset): ''' 分割数据�? :param dataset: :return: ''' # total_length = len(dataset) # train_length = int(total_length * 0.8) validation_length = total_length - train_length # train_dataset,validation_dataset = Data.random_split(dataset=dataset, lengths=[train_length, validation_length]) return train_dataset, validation_dataset # 1. train_dataset, validation_dataset = splitData(WeatherDataSet()) # 2. trainLoader = DataLoader(train_dataset, batch_size=Train.batch_size, shuffle=True, num_workers=Train.num_workers) # 3. valLoader = DataLoader(validation_dataset, batch_size=Train.batch_size, shuffle=False, num_workers=Train.num_workers) import torch from torch import nn import torchvision.models as models # net = models.resnet50() net.load_state_dict(torch.load("./model/resnet50-11ad3fa6.pth")) class WeatherModel(nn.Module): def init(self, net): super(WeatherModel, self).init() # resnet50 self.net = net self.relu = nn.ReLU() self.dropout = nn.Dropout(0.1) self.fc = nn.Linear(1000, 8) self.output = nn.Softmax(dim=1) def forward(self, x): x = self.net(x) x = self.relu(x) x = self.dropout(x) x = self.fc(x) x = self.output(x) return x model = WeatherModel(net) # import time import torch from torch import nn import matplotlib.pyplot as plt from torch.utils.tensorboard import SummaryWriter from torch import optim # 1. model.to(Common.device) # 2. criterion = nn.CrossEntropyLoss() # 3. optimizer = optim.Adam(model.parameters(), lr=0.001) os.makedirs(Train.logDir, exist_ok=True) # 4. writer = SummaryWriter(log_dir=Train.logDir, flush_secs=500) def train(epoch): ''' 训练函数 ''' # 1. loader = trainLoader # 2. model.train() print() print('========== Train Epoch:{} Start =========='.format(epoch)) epochLoss = 0 # epochAcc = 0 # correctNum = 0 # for data, label in loader: data, label = data.to(Common.device), label.to(Common.device) # 加载到对应设�? batchAcc = 0 # batchCorrectNum = 0 # optimizer.zero_grad() # output = model(data) # loss = criterion(output, label) # loss.backward() # optimizer.step() # epochLoss += loss.item() * data.size(0) # # labels = torch.argmax(label, dim=1) outputs = torch.argmax(output, dim=1) for i in range(0, len(labels)): if labels[i] == outputs[i]: correctNum += 1 batchCorrectNum += 1 batchAcc = batchCorrectNum / data.size(0) print("Epoch:{}\t TrainBatchAcc:{}".format(epoch, batchAcc)) epochLoss = epochLoss / len(trainLoader.dataset) # epochAcc = correctNum / len(trainLoader.dataset) # print("Epoch:{}\t Loss:{} \t Acc:{}".format(epoch, epochLoss, epochAcc)) writer.add_scalar("train_loss", epochLoss, epoch) # writer.add_scalar("train_acc", epochAcc, epoch) # return epochAcc def val(epoch): ''' 验证函数 :param epoch: 轮次 :return: ''' # 1. loader = valLoader # 2. valLoss = [] valAcc = [] # 3. model.eval() print() print('========== Val Epoch:{} Start =========='.format(epoch)) epochLoss = 0 # epochAcc = 0 # correctNum = 0 # with torch.no_grad(): for data, label in loader: data, label = data.to(Common.device), label.to(Common.device) # batchAcc = 0 # batchCorrectNum = 0 # output = model(data) # loss = criterion(output, label) # epochLoss += loss.item() * data.size(0) # # labels = torch.argmax(label, dim=1) outputs = torch.argmax(output, dim=1) for i in range(0, len(labels)): if labels[i] == outputs[i]: correctNum += 1 batchCorrectNum += 1 batchAcc = batchCorrectNum / data.size(0) print("Epoch:{}\t ValBatchAcc:{}".format(epoch, batchAcc)) epochLoss = epochLoss / len(valLoader.dataset) # 平均损失 epochAcc = correctNum / len(valLoader.dataset) # 正确�? print("Epoch:{}\t Loss:{} \t Acc:{}".format(epoch, epochLoss, epochAcc)) writer.add_scalar("val_loss", epochLoss, epoch) # 写入日志 writer.add_scalar("val_acc", epochAcc, epoch) # 写入日志 return epochAcc if name == 'main': maxAcc = 0.95 for epoch in range(1,Train.epochs + 1): trainAcc = train(epoch) valAcc = val(epoch) if valAcc > maxAcc: maxAcc = valAcc # 保存最大模�? torch.save(model, Train.modelDir + "weather-" + time.strftime('%Y-%m-%d-%H-%M-%S', time.gmtime()) + ".pth") # 保存模型 torch.save(model,Train.modelDir+"weather-"+time.strftime('%Y-%m-%d-%H-%M-%S',time.gmtime())+".pth") 原代码是这个，怎么改进

import torch.distributed as dist def get_distributed_log_dir(base_dir): """为多GPU训练生成独立日志目录""" if dist.is_initialized(): return f"{base_dir}/rank_{dist.get_rank()}" return base_dir ...

这是main.py文件的代码：from datetime import datetime from functools import partial from PIL import Image import cv2 import numpy as np from torch.utils.data import DataLoader from torch.version import cuda from torchvision import transforms from torchvision.datasets import CIFAR10 from torchvision.models import resnet from tqdm import tqdm import argparse import json import math import os import pandas as pd import torch import torch.nn as nn import torch.nn.functional as F #数据增强（核心增强部分） import torch from torchvision import transforms from torch.utils.data import Dataset, DataLoader # 设置参数 parser = argparse.ArgumentParser(description='Train MoCo on CIFAR-10') parser.add_argument('-a', '--arch', default='resnet18') # lr: 0.06 for batch 512 (or 0.03 for batch 256) parser.add_argument('--lr', '--learning-rate', default=0.06, type=float, metavar='LR', help='initial learning rate', dest='lr') parser.add_argument('--epochs', default=300, type=int, metavar='N', help='number of total epochs to run') parser.add_argument('--schedule', default=[120, 160], nargs='', type=int, help='learning rate schedule (when to drop lr by 10x); does not take effect if --cos is on') parser.add_argument('--cos', action='store_true', help='use cosine lr schedule') parser.add_argument('--batch-size', default=64, type=int, metavar='N', help='mini-batch size') parser.add_argument('--wd', default=5e-4, type=float, metavar='W', help='weight decay') # moco specific configs: parser.add_argument('--moco-dim', default=128, type=int, help='feature dimension') parser.add_argument('--moco-k', default=4096, type=int, help='queue size; number of negative keys') parser.add_argument('--moco-m', default=0.99, type=float, help='moco momentum of updating key encoder') parser.add_argument('--moco-t', default=0.1, type=float, help='softmax temperature') parser.add_argument('--bn-splits', default=8, type=int, help='simulate multi-gpu behavior of BatchNorm in one gpu; 1 is SyncBatchNorm in multi-gpu') parser.add_argument('--symmetric', action='store_true', help='use a symmetric loss function that backprops to both crops') # knn monitor parser.add_argument('--knn-k', default=20, type=int, help='k in kNN monitor') parser.add_argument('--knn-t', default=0.1, type=float, help='softmax temperature in kNN monitor; could be different with moco-t') # utils parser.add_argument('--resume', default='', type=str, metavar='PATH', help='path to latest checkpoint (default: none)') parser.add_argument('--results-dir', default='', type=str, metavar='PATH', help='path to cache (default: none)') ''' args = parser.parse_args() # running in command line ''' args = parser.parse_args('') # running in ipynb # set command line arguments here when running in ipynb args.epochs = 300 # 修改处 args.cos = True args.schedule = [] # cos in use args.symmetric = False if args.results_dir == '': args.results_dir = "E:\\contrast\\yolov8\\MoCo\\run\\cache-" + datetime.now().strftime("%Y-%m-%d-%H-%M-%S-moco") moco_args = args class CIFAR10Pair(CIFAR10): def getitem(self, index): img = self.data[index] img = Image.fromarray(img) # 原始图像增强 im_1 = self.transform(img) im_2 = self.transform(img) # 退化增强生成额外视图 degraded_results = image_degradation_and_augmentation(img) im_3 = self.transform(Image.fromarray(degraded_results['augmented_images'][0])) # 选择第一组退化增强 im_4 = self.transform(Image.fromarray(degraded_results['cutmix_image'])) return im_1, im_2, im_3, im_4 # 返回原始增强+退化增强 # 定义数据加载器 # class CIFAR10Pair(CIFAR10): # """CIFAR10 Dataset. # """ # def getitem(self, index): # img = self.data[index] # img = Image.fromarray(img) # if self.transform is not None: # im_1 = self.transform(img) # im_2 = self.transform(img) # return im_1, im_2 import cv2 import numpy as np import random def apply_interpolation_degradation(img, method): """ 应用插值退化参数: img: 输入图像(numpy数组) method: 插值方法('nearest', 'bilinear', 'bicubic') 返回: 退化后的图像 """ # 获取图像尺寸 h, w = img.shape[:2] # 应用插值方法 if method == 'nearest': # 最近邻退化: 下采样+上采样 downsampled = cv2.resize(img, (w//2, h//2), interpolation=cv2.INTER_NEAREST) degraded = cv2.resize(downsampled, (w, h), interpolation=cv2.INTER_NEAREST) elif method == 'bilinear': # 双线性退化: 下采样+上采样 downsampled = cv2.resize(img, (w//2, h//2), interpolation=cv2.INTER_LINEAR) degraded = cv2.resize(downsampled, (w, h), interpolation=cv2.INTER_LINEAR) elif method == 'bicubic': # 双三次退化: 下采样+上采样 downsampled = cv2.resize(img, (w//2, h//2), interpolation=cv2.INTER_CUBIC) degraded = cv2.resize(downsampled, (w, h), interpolation=cv2.INTER_CUBIC) else: degraded = img return degraded def darken_image(img, intensity=0.3): """ 应用黑暗处理 - 降低图像亮度并增加暗区对比度参数: img: 输入图像(numpy数组) intensity: 黑暗强度 (0.1-0.9) 返回: 黑暗处理后的图像 """ # 限制强度范围 intensity = max(0.1, min(0.9, intensity)) # 将图像转换为HSV颜色空间 hsv = cv2.cvtColor(img, cv2.COLOR_RGB2HSV).astype(np.float32) # 降低亮度（V通道） hsv[:, :, 2] = hsv[:, :, 2] intensity # 增加暗区的对比度 - 使用gamma校正 gamma = 1.0 + (1.0 - intensity) # 黑暗强度越大，gamma值越大 hsv[:, :, 2] = np.power(hsv[:, :, 2]/255.0, gamma) * 255.0 # 限制值在0-255范围内 hsv[:, :, 2] = np.clip(hsv[:, :, 2], 0, 255) # 转换回RGB return cv2.cvtColor(hsv.astype(np.uint8), cv2.COLOR_HSV2RGB) def random_affine(image): """ 随机仿射变换（缩放和平移）参数: image: 输入图像(numpy数组) 返回: 变换后的图像 """ height, width = image.shape[:2] # 随机缩放因子 (0.8 to 1.2) scale = random.uniform(0.8, 1.2) # 随机平移 (10% of image size) max_trans = 0.1 * min(width, height) tx = random.randint(-int(max_trans), int(max_trans)) ty = random.randint(-int(max_trans), int(max_trans)) # 变换矩阵 M = np.array([[scale, 0, tx], [0, scale, ty]], dtype=np.float32) # 应用仿射变换 transformed = cv2.warpAffine(image, M, (width, height)) return transformed def augment_hsv(image, h_gain=0.1, s_gain=0.5, v_gain=0.5): """ HSV色彩空间增强参数: image: 输入图像(numpy数组) h_gain, s_gain, v_gain: 各通道的增益范围返回: 增强后的图像 """ # 限制增益范围 h_gain = max(-0.1, min(0.1, random.uniform(-h_gain, h_gain))) s_gain = max(0.5, min(1.5, random.uniform(1-s_gain, 1+s_gain))) v_gain = max(0.5, min(1.5, random.uniform(1-v_gain, 1+v_gain))) # 转换为HSV hsv = cv2.cvtColor(image, cv2.COLOR_RGB2HSV).astype(np.float32) # 应用增益 hsv[:, :, 0] = (hsv[:, :, 0] * (1 + h_gain)) % 180 hsv[:, :, 1] = np.clip(hsv[:, :, 1] * s_gain, 0, 255) hsv[:, :, 2] = np.clip(hsv[:, :, 2] * v_gain, 0, 255) # 转换回RGB return cv2.cvtColor(hsv.astype(np.uint8), cv2.COLOR_HSV2RGB) # def mixup(img1, img2, alpha=0.6): # """ # 将两幅图像混合在一起 # 参数: # img1, img2: 输入图像(numpy数组) # alpha: Beta分布的参数，控制混合比例 # 返回: # 混合后的图像 # """ # # 生成混合比例 # lam = random.betavariate(alpha, alpha) # # 确保图像尺寸相同 # if img1.shape != img2.shape: # img2 = cv2.resize(img2, (img1.shape[1], img1.shape[0])) # # 混合图像 # mixed = (lam * img1.astype(np.float32) + (1 - lam) * img2.astype(np.float32)).astype(np.uint8) # return mixed # def image_degradation_and_augmentation(image,dark_intensity=0.3): # """ # 完整的图像退化和增强流程 # 参数: # image: 输入图像(PIL.Image或numpy数组) # 返回: # dict: 包含所有退化组和最终增强结果的字典 # """ # # 确保输入是numpy数组 # if not isinstance(image, np.ndarray): # image = np.array(image) # # 确保图像为RGB格式 # if len(image.shape) == 2: # image = cv2.cvtColor(image, cv2.COLOR_GRAY2RGB) # elif image.shape[2] == 4: # image = cv2.cvtColor(image, cv2.COLOR_RGBA2RGB) # # 原始图像 # original = image.copy() # # 插值方法列表 # interpolation_methods = ['nearest', 'bilinear', 'bicubic'] # # 第一组退化: 三种插值方法 # group1 = [] # for method in interpolation_methods: # degraded = apply_interpolation_degradation(original, method) # group1.append(degraded) # # 第二组退化: 随机额外退化 # group2 = [] # for img in group1: # # 随机选择一种退化方法 # method = random.choice(interpolation_methods) # extra_degraded = apply_interpolation_degradation(img, method) # group2.append(extra_degraded) # # 所有退化图像组合 # all_degraded_images = [original] + group1 + group2 # # 应用黑暗处理 (在增强之前) # darkened_images = [darken_image(img, intensity=dark_intensity) for img in all_degraded_images] # # 应用数据增强 # # 1. 随机仿射变换 # affine_images = [random_affine(img) for img in darkened_images] # # 2. HSV增强 # hsv_images = [augment_hsv(img) for img in affine_images] # # 3. MixUp增强 # # 随机选择两个增强后的图像进行混合 # mixed_image = mixup( # random.choice(hsv_images), # random.choice(hsv_images) # ) # # 返回结果 # results = { # 'original': original, # 'degraded_group1': group1, # 第一组退化图像 # 'degraded_group2': group2, # 第二组退化图像 # 'augmented_images': hsv_images, # 所有增强后的图像（原始+六组退化） # 'mixup_image': mixed_image # MixUp混合图像 # } # return results # # def add_gaussian_noise(image, mean=0, sigma=25): # # """添加高斯噪声""" # # noise = np.random.normal(mean, sigma, image.shape) # # noisy = np.clip(image + noise, 0, 255).astype(np.uint8) # # return noisy # # def random_cutout(image, max_holes=3, max_height=16, max_width=16): # # """随机CutOut增强""" # # h, w = image.shape[:2] # # for _ in range(random.randint(1, max_holes)): # # hole_h = random.randint(1, max_height) # # hole_w = random.randint(1, max_width) # # y = random.randint(0, h - hole_h) # # x = random.randint(0, w - hole_w) # # image[y:y+hole_h, x:x+hole_w] = 0 # # return image import cv2 import numpy as np import random from matplotlib import pyplot as plt import pywt def wavelet_degradation(image, level=0.5): """小波系数衰减退化""" # 小波分解 coeffs = pywt.dwt2(image, 'haar') cA, (cH, cV, cD) = coeffs # 衰减高频系数 cH = cH * level cV = cV * level cD = cD * level # 重建图像 return pywt.idwt2((cA, (cH, cV, cD)), 'haar')[:image.shape[0], :image.shape[1]] def adaptive_interpolation_degradation(image): """自适应插值退化（随机选择最近邻或双三次插值）""" if random.choice([True, False]): method = cv2.INTER_NEAREST # 最近邻插值 else: method = cv2.INTER_CUBIC # 双三次插值 # 先缩小再放大 scale_factor = random.uniform(0.3, 0.8) small = cv2.resize(image, None, fx=scale_factor, fy=scale_factor, interpolation=method) return cv2.resize(small, (image.shape[1], image.shape[0]), interpolation=method) def bilinear_degradation(image): """双线性插值退化""" # 先缩小再放大 scale_factor = random.uniform(0.3, 0.8) small = cv2.resize(image, None, fx=scale_factor, fy=scale_factor, interpolation=cv2.INTER_LINEAR) return cv2.resize(small, (image.shape[1], image.shape[0]), interpolation=cv2.INTER_LINEAR) def cutmix(img1, img2, bboxes1=None, bboxes2=None, beta=1.0): """ 参数: img1: 第一张输入图像(numpy数组) img2: 第二张输入图像(numpy数组) bboxes1: 第一张图像的边界框(可选) bboxes2: 第二张图像的边界框(可选) beta: Beta分布的参数，控制裁剪区域的大小返回: 混合后的图像和边界框(如果有) """ # 确保图像尺寸相同 if img1.shape != img2.shape: img2 = cv2.resize(img2, (img1.shape[1], img1.shape[0])) h, w = img1.shape[:2] # 生成裁剪区域的lambda值(混合比例) lam = np.random.beta(beta, beta) # 计算裁剪区域的宽高 cut_ratio = np.sqrt(1. - lam) cut_w = int(w * cut_ratio) cut_h = int(h * cut_ratio) # 随机确定裁剪区域的中心点 cx = np.random.randint(w) cy = np.random.randint(h) # 计算裁剪区域的边界 x1 = np.clip(cx - cut_w // 2, 0, w) y1 = np.clip(cy - cut_h // 2, 0, h) x2 = np.clip(cx + cut_w // 2, 0, w) y2 = np.clip(cy + cut_h // 2, 0, h) # 执行CutMix操作 mixed_img = img1.copy() mixed_img[y1:y2, x1:x2] = img2[y1:y2, x1:x2] # 计算实际的混合比例 lam = 1 - ((x2 - x1) * (y2 - y1) / (w * h)) # 处理边界框(如果有) mixed_bboxes = None if bboxes1 is not None and bboxes2 is not None: mixed_bboxes = [] # 添加第一张图像的边界框 for bbox in bboxes1: mixed_bboxes.append(bbox + [lam]) # 添加混合权重 # 添加第二张图像的边界框(只添加在裁剪区域内的) for bbox in bboxes2: # 检查边界框是否在裁剪区域内 bbox_x_center = (bbox[0] + bbox[2]) / 2 bbox_y_center = (bbox[1] + bbox[3]) / 2 if (x1 <= bbox_x_center <= x2) and (y1 <= bbox_y_center <= y2): mixed_bboxes.append(bbox + [1 - lam]) return mixed_img, mixed_bboxes def image_degradation_and_augmentation(image, bboxes=None): """ 完整的图像退化和增强流程(修改为使用CutMix) 参数: image: 输入图像(PIL.Image或numpy数组) bboxes: 边界框(可选) 返回: dict: 包含所有退化组和最终增强结果的字典 """ # 确保输入是numpy数组 if not isinstance(image, np.ndarray): image = np.array(image) # 确保图像为RGB格式 if len(image.shape) == 2: image = cv2.cvtColor(image, cv2.COLOR_GRAY2RGB) elif image.shape[2] == 4: image = cv2.cvtColor(image, cv2.COLOR_RGBA2RGB) degraded_sets = [] original = image.copy() # 第一组退化：三种基础退化 degraded_sets.append(wavelet_degradation(original.copy())) degraded_sets.append(degraded_sets) degraded_sets.append(adaptive_interpolation_degradation(original.copy())) degraded_sets.append(degraded_sets) degraded_sets.append(bilinear_degradation(original.copy())) degraded_sets.append(degraded_sets) # # 原始图像 # original = image.copy() # # 插值方法列表 # interpolation_methods = ['nearest', 'bilinear', 'bicubic'] # # 第一组退化: 三种插值方法 # group1 = [] # for method in interpolation_methods: # degraded = apply_interpolation_degradation(original, method) # group1.append(degraded) # 第二组退化: 随机额外退化 # group2 = [] # for img in group1: # # 随机选择一种退化方法 # method = random.choice(interpolation_methods) # extra_degraded = apply_interpolation_degradation(img, method) # group2.append(extra_degraded) # 第二组退化：随机选择再退化 methods = [wavelet_degradation, adaptive_interpolation_degradation, bilinear_degradation] group2=[] for img in degraded_sets: selected_method = random.choice(methods) group2.append(selected_method(img)) group2.append(group2) # 原始图像 original = image.copy() all_degraded_images = [original] + degraded_sets + group2 # 应用黑暗处理 dark_original = darken_image(original) dark_degraded = [darken_image(img) for img in all_degraded_images] # 合并原始和退化图像 all_images = [dark_original] + dark_degraded # 应用数据增强 # 1. 随机仿射变换 affine_images = [random_affine(img) for img in all_images] # 2. HSV增强 hsv_images = [augment_hsv(img) for img in affine_images] # 3. CutMix增强 # 随机选择两个增强后的图像进行混合 mixed_image, mixed_bboxes = cutmix( random.choice(hsv_images), random.choice(hsv_images), bboxes1=bboxes if bboxes is not None else None, bboxes2=bboxes if bboxes is not None else None ) # 返回结果 results = { 'original': original, 'degraded': dark_degraded, 'augmented_images': hsv_images, # 所有增强后的图像（原始+六组退化） 'cutmix_image': mixed_image, # CutMix混合图像 'cutmix_bboxes': mixed_bboxes if bboxes is not None else None # 混合后的边界框 } return results train_transform = transforms.Compose([ transforms.RandomResizedCrop(32), transforms.RandomHorizontalFlip(p=0.5), transforms.RandomApply([transforms.ColorJitter(0.4, 0.4, 0.4, 0.1)], p=0.8), transforms.RandomGrayscale(p=0.2), transforms.ToTensor(), transforms.Normalize([0.4914, 0.4822, 0.4465], [0.2023, 0.1994, 0.2010])]) test_transform = transforms.Compose([ transforms.ToTensor(), transforms.Normalize([0.4914, 0.4822, 0.4465], [0.2023, 0.1994, 0.2010])]) # data_processing prepare train_data = CIFAR10Pair(root="E:/contrast/yolov8/MoCo/data_visdrone2019", train=True, transform=train_transform, download=False) moco_train_loader = DataLoader(train_data, batch_size=args.batch_size, shuffle=True, num_workers=0, pin_memory=True, drop_last=True) memory_data = CIFAR10(root="E:/contrast/yolov8/MoCo/data_visdrone2019", train=True, transform=test_transform, download=False) memory_loader = DataLoader(memory_data, batch_size=args.batch_size, shuffle=False, num_workers=0, pin_memory=True) test_data = CIFAR10(root="E:/contrast/yolov8/MoCo/data_visdrone2019", train=False, transform=test_transform, download=False) test_loader = DataLoader(test_data, batch_size=args.batch_size, shuffle=False, num_workers=0, pin_memory=True) # 定义基本编码器 # SplitBatchNorm: simulate multi-gpu behavior of BatchNorm in one gpu by splitting alone the batch dimension # implementation adapted from https://github.com/davidcpage/cifar10-fast/blob/master/torch_backend.py class SplitBatchNorm(nn.BatchNorm2d): def init(self, num_features, num_splits, kw): super().init(num_features, kw) self.num_splits = num_splits def forward(self, input): N, C, H, W = input.shape if self.training or not self.track_running_stats: running_mean_split = self.running_mean.repeat(self.num_splits) running_var_split = self.running_var.repeat(self.num_splits) outcome = nn.functional.batch_norm( input.view(-1, C * self.num_splits, H, W), running_mean_split, running_var_split, self.weight.repeat(self.num_splits), self.bias.repeat(self.num_splits), True, self.momentum, self.eps).view(N, C, H, W) self.running_mean.data.copy_(running_mean_split.view(self.num_splits, C).mean(dim=0)) self.running_var.data.copy_(running_var_split.view(self.num_splits, C).mean(dim=0)) return outcome else: return nn.functional.batch_norm( input, self.running_mean, self.running_var, self.weight, self.bias, False, self.momentum, self.eps) class ModelBase(nn.Module): """ Common CIFAR ResNet recipe. Comparing with ImageNet ResNet recipe, it: (i) replaces conv1 with kernel=3, str=1 (ii) removes pool1 """ def init(self, feature_dim=128, arch=None, bn_splits=16): super(ModelBase, self).init() # use split batchnorm norm_layer = partial(SplitBatchNorm, num_splits=bn_splits) if bn_splits > 1 else nn.BatchNorm2d resnet_arch = getattr(resnet, arch) net = resnet_arch(num_classes=feature_dim, norm_layer=norm_layer) self.net = [] for name, module in net.named_children(): if name == 'conv1': module = nn.Conv2d(3, 64, kernel_size=3, stride=1, padding=1, bias=False) if isinstance(module, nn.MaxPool2d): continue if isinstance(module, nn.Linear): self.net.append(nn.Flatten(1)) self.net.append(module) self.net = nn.Sequential(self.net) def forward(self, x): x = self.net(x) # note: not normalized here return x # 定义MOCO class ModelMoCo(nn.Module): def init(self, dim=128, K=4096, m=0.99, T=0.1, arch='resnet18', bn_splits=8, symmetric=True): super(ModelMoCo, self).init() self.K = K self.m = m self.T = T self.symmetric = symmetric # create the encoders self.encoder_q = ModelBase(feature_dim=dim, arch=arch, bn_splits=bn_splits) self.encoder_k = ModelBase(feature_dim=dim, arch=arch, bn_splits=bn_splits) for param_q, param_k in zip(self.encoder_q.parameters(), self.encoder_k.parameters()): param_k.data.copy_(param_q.data) # initialize param_k.requires_grad = False # not update by gradient 不参与训练 # create the queue self.register_buffer("queue", torch.randn(dim, K)) self.queue = nn.functional.normalize(self.queue, dim=0) self.register_buffer("queue_ptr", torch.zeros(1, dtype=torch.long)) @torch.no_grad() def _momentum_update_key_encoder(self): # 动量更新encoder_k """ Momentum update of the key encoder """ for param_q, param_k in zip(self.encoder_q.parameters(), self.encoder_k.parameters()): param_k.data = param_k.data self.m + param_q.data * (1. - self.m) @torch.no_grad() def _dequeue_and_enqueue(self, keys): # 出队与入队 batch_size = keys.shape[0] ptr = int(self.queue_ptr) assert self.K % batch_size == 0 # for simplicity # replace the keys at ptr (dequeue and enqueue) self.queue[:, ptr:ptr + batch_size] = keys.t() # transpose ptr = (ptr + batch_size) % self.K # move pointer self.queue_ptr[0] = ptr @torch.no_grad() def _batch_shuffle_single_gpu(self, x): """ Batch shuffle, for making use of BatchNorm. """ # random shuffle index idx_shuffle = torch.randperm(x.shape[0]).cuda() # index for restoring idx_unshuffle = torch.argsort(idx_shuffle) return x[idx_shuffle], idx_unshuffle @torch.no_grad() def _batch_unshuffle_single_gpu(self, x, idx_unshuffle): """ Undo batch shuffle. """ return x[idx_unshuffle] def contrastive_loss(self, im_q, im_k): # compute query features q = self.encoder_q(im_q) # queries: NxC q = nn.functional.normalize(q, dim=1) # already normalized # compute key features with torch.no_grad(): # no gradient to keys # shuffle for making use of BN im_k_, idx_unshuffle = self._batch_shuffle_single_gpu(im_k) k = self.encoder_k(im_k_) # keys: NxC k = nn.functional.normalize(k, dim=1) # already normalized # undo shuffle k = self._batch_unshuffle_single_gpu(k, idx_unshuffle) # compute logits # Einstein sum is more intuitive # positive logits: Nx1 l_pos = torch.einsum('nc,nc->n', [q, k]).unsqueeze(-1) # negative logits: NxK l_neg = torch.einsum('nc,ck->nk', [q, self.queue.clone().detach()]) # logits: Nx(1+K) logits = torch.cat([l_pos, l_neg], dim=1) # apply temperature logits /= self.T # labels: positive key indicators labels = torch.zeros(logits.shape[0], dtype=torch.long).cuda() loss = nn.CrossEntropyLoss().cuda()(logits, labels) # 交叉熵损失 return loss, q, k def forward(self, im1, im2): """ Input: im_q: a batch of query images im_k: a batch of key images Output: loss """ # update the key encoder with torch.no_grad(): # no gradient to keys self._momentum_update_key_encoder() # compute loss if self.symmetric: # asymmetric loss loss_12, q1, k2 = self.contrastive_loss(im1, im2) loss_21, q2, k1 = self.contrastive_loss(im2, im1) loss = loss_12 + loss_21 k = torch.cat([k1, k2], dim=0) else: # asymmetric loss loss, q, k = self.contrastive_loss(im1, im2) self._dequeue_and_enqueue(k) return loss # create model moco_model = ModelMoCo( dim=args.moco_dim, K=args.moco_k, m=args.moco_m, T=args.moco_t, arch=args.arch, bn_splits=args.bn_splits, symmetric=args.symmetric, ).cuda() # print(moco_model.encoder_q) moco_model_1 = ModelMoCo( dim=args.moco_dim, K=args.moco_k, m=args.moco_m, T=args.moco_t, arch=args.arch, bn_splits=args.bn_splits, symmetric=args.symmetric, ).cuda() # print(moco_model_1.encoder_q) """ CIFAR10 Dataset. """ from torch.cuda import amp scaler = amp.GradScaler(enabled=cuda) device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') # train for one epoch # def moco_train(net, net_1, data_loader, train_optimizer, epoch, args): # net.train() # adjust_learning_rate(moco_optimizer, epoch, args) # total_loss, total_num, train_bar = 0.0, 0, tqdm(data_loader) # loss_add = 0.0 # for im_1, im_2 in train_bar: # im_1, im_2 = im_1.cuda(non_blocking=True), im_2.cuda(non_blocking=True) # loss = net(im_1, im_2) # 原始图像对比损失梯度清零—>梯度回传—>梯度跟新 # # lossT = loss # 只使用原始对比损失 # # train_optimizer.zero_grad() # # lossT.backward() # # train_optimizer.step() # # loss_add += lossT.item() # # total_num += data_loader.batch_size # # total_loss += loss.item() * data_loader.batch_size # # train_bar.set_description( # # 'Train Epoch: [{}/{}], lr: {:.6f}, Loss: {:.4f}'.format( # # epoch, args.epochs, # # train_optimizer.param_groups[0]['lr'], # # loss_add / total_num # # ) # # ) # #傅里叶变换处理流程 # #im_3 = torch.rfft(im_1, 3, onesided=False, normalized=True)[:, :, :, :, 0] # fft_output = torch.fft.fftn(im_1, dim=(-3, -2, -1), norm="ortho")#转换为频域 # real_imag = torch.view_as_real(fft_output)#分解实部虚部 # im_3 = real_imag[..., 0]#提取频域实部作为新视图 # #该处理实现了频域空间的增强，与空间域增强形成了互补 # #im_4 = torch.rfft(im_2, 3, onesided=False, normalized=True)[:, :, :, :, 0] # fft_output = torch.fft.fftn(im_2, dim=(-3, -2, -1), norm="ortho") # real_imag = torch.view_as_real(fft_output) # im_4 = real_imag[..., 0] # loss_1 = net_1(im_3, im_4)#频域特征对比损失 # lossT = 0.8loss + 0.2loss_1#多模态损失对比融合 # train_optimizer.zero_grad() # lossT.backward() # train_optimizer.step() # loss_add += lossT # total_num += data_loader.batch_size # total_loss += loss.item() * data_loader.batch_size # # train_bar.set_description( # # 'Train Epoch: [{}/{}], lr: {:.6f}, Loss: {:.4f}'.format(epoch, args.epochs, moco_optimizer.param_groups[0]['lr'], # # loss_add / total_num)) # return (loss_add / total_num).cpu().item() # yolov5需要的损失 def moco_train(net, net_1, data_loader, train_optimizer, epoch, args): net.train() adjust_learning_rate(train_optimizer, epoch, args) total_loss, total_num = 0.0, 0 train_bar = tqdm(data_loader) for im_1, im_2, im_3, im_4 in train_bar: # 接收4组视图 im_1, im_2 = im_1.cuda(), im_2.cuda() im_3, im_4 = im_3.cuda(), im_4.cuda() # 原始空间域对比损失 loss_orig = net(im_1, im_2) # 退化增强图像的空间域对比损失 loss_degraded = net(im_3, im_4) # 频域处理（对退化增强后的图像） fft_3 = torch.fft.fftn(im_3, dim=(-3, -2, -1), norm="ortho") fft_3 = torch.view_as_real(fft_3)[..., 0] # 取实部 fft_4 = torch.fft.fftn(im_4, dim=(-3, -2, -1), norm="ortho") fft_4 = torch.view_as_real(fft_4)[..., 0] # 频域对比损失 loss_freq = net_1(fft_3, fft_4) # 多模态损失融合 loss = 0.6 * loss_orig + 0.3 * loss_degraded + 0.1 * loss_freq # 反向传播 train_optimizer.zero_grad() loss.backward() train_optimizer.step() # 记录损失 total_num += data_loader.batch_size total_loss += loss.item() # train_bar.set_description(f'Epoch: [{epoch}/{args.epochs}] Loss: {total_loss/total_num:.4f}') return total_loss / total_num # lr scheduler for training def adjust_learning_rate(optimizer, epoch, args): # 学习率衰减 """Decay the learning rate based on schedule""" lr = args.lr if args.cos: # cosine lr schedule lr = 0.5 (1. + math.cos(math.pi * epoch / args.epochs)) else: # stepwise lr schedule for milestone in args.schedule: lr = 0.1 if epoch >= milestone else 1. for param_group in optimizer.param_groups: param_group['lr'] = lr # test using a knn monitor def test(net, memory_data_loader, test_data_loader, epoch, args): net.eval() classes = len(memory_data_loader.dataset.classes) total_top1, total_top5, total_num, feature_bank = 0.0, 0.0, 0, [] with torch.no_grad(): # generate feature bank for data, target in tqdm(memory_data_loader, desc='Feature extracting'): feature = net(data.cuda(non_blocking=True)) feature = F.normalize(feature, dim=1) feature_bank.append(feature) # [D, N] feature_bank = torch.cat(feature_bank, dim=0).t().contiguous() # [N] feature_labels = torch.tensor(memory_data_loader.dataset.targets, device=feature_bank.device) # loop test data_processing to predict the label by weighted knn search test_bar = tqdm(test_data_loader) for data, target in test_bar: data, target = data.cuda(non_blocking=True), target.cuda(non_blocking=True) feature = net(data) feature = F.normalize(feature, dim=1) pred_labels = knn_predict(feature, feature_bank, feature_labels, classes, args.knn_k, args.knn_t) total_num += data.size(0) total_top1 += (pred_labels[:, 0] == target).float().sum().item() test_bar.set_description( 'Test Epoch: [{}/{}] Acc@1:{:.2f}%'.format(epoch, args.epochs, total_top1 / total_num 100)) return total_top1 / total_num * 100 # knn monitor as in InstDisc https://arxiv.org/abs/1805.01978 # implementation follows http://github.com/zhirongw/lemniscate.pytorch and https://github.com/leftthomas/SimCLR def knn_predict(feature, feature_bank, feature_labels, classes, knn_k, knn_t): # compute cos similarity between each feature vector and feature bank ---> [B, N] sim_matrix = torch.mm(feature, feature_bank) # [B, K] sim_weight, sim_indices = sim_matrix.topk(k=knn_k, dim=-1) # [B, K] sim_labels = torch.gather(feature_labels.expand(feature.size(0), -1), dim=-1, index=sim_indices) sim_weight = (sim_weight / knn_t).exp() # counts for each class one_hot_label = torch.zeros(feature.size(0) * knn_k, classes, device=sim_labels.device) # [BK, C] one_hot_label = one_hot_label.scatter(dim=-1, index=sim_labels.view(-1, 1), value=1.0) # weighted score ---> [B, C] pred_scores = torch.sum(one_hot_label.view(feature.size(0), -1, classes) sim_weight.unsqueeze(dim=-1), dim=1) pred_labels = pred_scores.argsort(dim=-1, descending=True) return pred_labels # 开始训练 # define optimizer moco_optimizer = torch.optim.SGD(moco_model.parameters(), lr=args.lr, weight_decay=args.wd, momentum=0.9) 上述问题怎么修改？

from torchvision import transforms # MoCo v2使用的增强策略 augmentation = transforms.Compose([ transforms.RandomResizedCrop(32, scale=(0.2, 1.0)), transforms.RandomApply([transforms.ColorJitter...

import os os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3' # 0=INFO, 1=WARNING, 2=ERROR, 3=FATAL os.environ['TF_ENABLE_ONEDNN_OPTS'] = '0' # 禁用oneDNN日志 import sys import glob import time import json import torch import pickle import shutil import argparse import datetime import torchvision import numpy as np from tqdm import tqdm from PIL import Image import torch.nn as nn from packaging import version from functools import partial import pytorch_lightning as pl from omegaconf import OmegaConf, DictConfig import torch.distributed as dist from typing import List, Dict, Any, Optional, Union, Tuple from ldm.util import instantiate_from_config from pytorch_lightning import seed_everything from pytorch_lightning.trainer import Trainer from torch.utils.data import DataLoader, Dataset from ldm.data.base import Txt2ImgIterableBaseDataset from pytorch_lightning.plugins import DDPPlugin from pytorch_lightning.utilities import rank_zero_info from pytorch_lightning.utilities.distributed import rank_zero_only from pytorch_lightning.callbacks import ModelCheckpoint, Callback, LearningRateMonitor from torch.cuda.amp import autocast, GradScaler # 模型路径 current_dir = os.path.dirname(os.path.abspath(file)) for path in ["download", "download/CLIP", "download/k-diffusion", "download/stable_diffusion", "download/taming-transformers"]: sys.path.append(os.path.join(current_dir, path)) class ConfigManager: """配置管理类，统一处理配置加载和解析""" def init(self, config_files: Union[str, List[str]], cli_args: Optional[List[str]] = None): # 将单个字符串路径转换为列表 if isinstance(config_files, str): config_files = [config_files] # 验证配置文件存在 self.configs = [] for cfg in config_files: if not os.path.exists(cfg): raise FileNotFoundError(f"配置文件不存在: {cfg}") self.configs.append(OmegaConf.load(cfg)) # 解析命令行参数 self.cli = OmegaConf.from_dotlist(cli_args) if cli_args else OmegaConf.create() # 合并所有配置 self.config = OmegaConf.merge(self.configs, self.cli) def get_model_config(self) -> DictConfig: """获取模型配置""" if "model" not in self.config: raise KeyError("配置文件中缺少'model'部分") return self.config.model def get_data_config(self) -> DictConfig: """获取数据配置""" if "data" not in self.config: raise KeyError("配置文件中缺少'data'部分") return self.config.data def get_training_config(self) -> DictConfig: """获取训练配置，提供默认值""" training_config = self.config.get("training", OmegaConf.create()) # 设置默认值 defaults = { "max_epochs": 200, "gpus": torch.cuda.device_count(), "accumulate_grad_batches": 1, "learning_rate": 1e-4, "precision": 32 } for key, value in defaults.items(): if key not in training_config: training_config[key] = value return training_config def get_logging_config(self) -> DictConfig: """获取日志配置""" return self.config.get("logging", OmegaConf.create({"logdir": "logs"})) def get_callbacks_config(self) -> DictConfig: """获取回调函数配置""" return self.config.get("callbacks", OmegaConf.create()) def save_config(self, save_path: str) -> None: """保存配置到文件""" os.makedirs(os.path.dirname(save_path), exist_ok=True) OmegaConf.save(self.config, save_path) print(f"配置已保存到: {save_path}") class DataModuleFromConfig(pl.LightningDataModule): def init(self, batch_size, num_workers, train=None, validation=None, test=None): super().init() self.batch_size = batch_size self.num_workers = num_workers self.dataset_configs = dict() if train is not None: self.dataset_configs["train"] = train if validation is not None: self.dataset_configs["validation"] = validation if test is not None: self.dataset_configs["test"] = test def setup(self, stage=None): self.datasets = { k: instantiate_from_config(cfg) for k, cfg in self.dataset_configs.items() } def _get_dataloader(self, dataset_name, shuffle=False): dataset = self.datasets.get(dataset_name) if dataset is None: raise ValueError(f"数据集 {dataset_name} 未配置") return DataLoader( dataset, batch_size=self.batch_size, num_workers=self.num_workers, shuffle=shuffle, pin_memory=True ) def train_dataloader(self): return self._get_dataloader("train", shuffle=True) def val_dataloader(self): return self._get_dataloader("validation") def test_dataloader(self): return self._get_dataloader("test") def worker_init_fn(worker_id: int) -> None: """数据加载器工作进程初始化函数""" worker_info = torch.utils.data.get_worker_info() if worker_info is None: return dataset = worker_info.dataset worker_id = worker_info.id if isinstance(dataset, Txt2ImgIterableBaseDataset): # 对可迭代数据集进行分片 split_size = dataset.num_records // worker_info.num_workers dataset.sample_ids = dataset.valid_ids[worker_id split_size:(worker_id + 1) * split_size] # 设置随机种子 seed = torch.initial_seed() % 232 + worker_id np.random.seed(seed) torch.manual_seed(seed) class EnhancedImageLogger(Callback): """增强的图像日志记录器，支持多平台日志输出""" def init(self, batch_frequency: int, max_images: int, clamp: bool = True, rescale: bool = True, loggers: Optional[List] = None, log_first_step: bool = False, log_images_kwargs: Optional[Dict] = None): super().init() self.batch_frequency = max(1, batch_frequency) self.max_images = max_images self.clamp = clamp self.rescale = rescale self.loggers = loggers or [] self.log_first_step = log_first_step self.log_images_kwargs = log_images_kwargs or {} self.log_steps = [2 n for n in range(6, int(np.log2(self.batch_frequency)) + 1)] if self.batch_frequency > 1 else [] def check_frequency(self, step: int) -> bool: """检查是否达到记录频率""" if step == 0 and self.log_first_step: return True if step % self.batch_frequency == 0: return True if step in self.log_steps: if len(self.log_steps) > 0: self.log_steps.pop(0) return True return False def log_images(self, pl_module: pl.LightningModule, batch: Any, step: int, split: str = "train") -> None: """记录图像并发送到所有日志记录器""" if not self.check_frequency(step) or not hasattr(pl_module, "log_images"): return is_train = pl_module.training if is_train: pl_module.eval() # 切换到评估模式 with torch.no_grad(): try: images = pl_module.log_images(batch, split=split, **self.log_images_kwargs) except Exception as e: print(f"记录图像时出错: {e}") images = {} # 处理图像数据 for k in list(images.keys()): if not isinstance(images[k], torch.Tensor): continue N = min(images[k].shape[0], self.max_images) images[k] = images[k][:N] # 分布式环境下收集所有图像 if torch.distributed.is_initialized() and torch.distributed.get_world_size() > 1: images[k] = torch.cat(all_gather(images[k])) images[k] = images[k].detach().cpu() if self.clamp: images[k] = torch.clamp(images[k], -1., 1.) if self.rescale: images[k] = (images[k] + 1.0) / 2.0 # 缩放到[0,1] # 发送到所有日志记录器 for logger in self.loggers: if hasattr(logger, 'log_images'): try: logger.log_images(images, step, split) except Exception as e: print(f"日志记录器 {type(logger).name} 记录图像失败: {e}") if is_train: pl_module.train() # 恢复训练模式 def on_train_batch_end(self, trainer: Trainer, pl_module: pl.LightningModule, outputs: Any, batch: Any, batch_idx: int) -> None: """训练批次结束时记录图像""" if trainer.global_step % trainer.log_every_n_steps == 0: self.log_images(pl_module, batch, pl_module.global_step, "train") def on_validation_batch_end(self, trainer: Trainer, pl_module: pl.LightningModule, outputs: Any, batch: Any, batch_idx: int) -> None: """验证批次结束时记录图像""" if batch_idx == 0: # 只记录第一个验证批次 self.log_images(pl_module, batch, pl_module.global_step, "val") class TensorBoardLogger: """TensorBoard日志记录器，完整实现PyTorch Lightning日志记录器接口""" def init(self, save_dir: str): from torch.utils.tensorboard import SummaryWriter os.makedirs(save_dir, exist_ok=True) self.save_dir = save_dir self.writer = SummaryWriter(save_dir) self._name = "TensorBoard" # 日志记录器名称 self._version = "1.0" # 版本信息 self._experiment = self.writer # 实验对象 print(f"TensorBoard日志保存在: {save_dir}") @property def name(self) -> str: return self._name @property def version(self) -> str: return self._version @property def experiment(self) -> Any: return self._experiment def log_hyperparams(self, params: Dict) -> None: """记录超参数到TensorBoard""" try: # 将嵌套字典展平 flat_params = {} for key, value in params.items(): if isinstance(value, dict): for sub_key, sub_value in value.items(): flat_params[f"{key}/{sub_key}"] = sub_value else: flat_params[key] = value # 记录超参数 self.writer.add_hparams( {k: v for k, v in flat_params.items() if isinstance(v, (int, float, str))}, {}, run_name="." ) print("已记录超参数到TensorBoard") except Exception as e: print(f"记录超参数失败: {e}") def log_graph(self, model: torch.nn.Module, input_array: Optional[torch.Tensor] = None) -> None: """记录模型计算图到TensorBoard""" try: # 扩散模型通常有复杂的前向传播，跳过图记录 print("跳过扩散模型的计算图记录") return except Exception as e: print(f"记录模型计算图失败: {e}") def log_metrics(self, metrics: Dict[str, float], step: int) -> None: """记录指标到TensorBoard""" for name, value in metrics.items(): try: self.writer.add_scalar(name, value, global_step=step) except Exception as e: print(f"添加标量失败: {name}, 错误: {e}") def log_images(self, images: Dict[str, torch.Tensor], step: int, split: str) -> None: """记录图像到TensorBoard""" for k, img in images.items(): if img.numel() == 0: continue try: grid = torchvision.utils.make_grid(img, nrow=min(8, img.shape[0])) self.writer.add_image(f"{split}/{k}", grid, global_step=step) except Exception as e: print(f"添加图像失败: {k}, 错误: {e}") def save(self) -> None: """保存日志（TensorBoard自动保存，这里无需额外操作）""" pass def finalize(self, status: str) -> None: """完成日志记录并关闭写入器""" self.close() def close(self) -> None: """关闭日志写入器""" if hasattr(self, 'writer') and self.writer is not None: self.writer.flush() self.writer.close() self.writer = None print(f"TensorBoard日志已关闭") class TQDMProgressBar(Callback): """使用tqdm显示训练进度，兼容不同版本的PyTorch Lightning""" def init(self): self.progress_bar = None self.epoch_bar = None def on_train_start(self, trainer: Trainer, pl_module: pl.LightningModule) -> None: """训练开始时初始化进度条""" # 兼容不同版本的步数估计 total_steps = self._get_total_steps(trainer) self.progress_bar = tqdm( total=total_steps, desc="Training Steps", position=0, leave=True, dynamic_ncols=True ) self.epoch_bar = tqdm( total=trainer.max_epochs, desc="Epochs", position=1, leave=True, dynamic_ncols=True ) def _get_total_steps(self, trainer: Trainer) -> int: """获取训练总步数，兼容不同版本的PyTorch Lightning""" # 尝试使用新版本属性 if hasattr(trainer, 'estimated_stepping_batches'): return trainer.estimated_stepping_batches # 尝试使用旧版本属性 if hasattr(trainer, 'estimated_steps'): return trainer.estimated_steps # 回退到手动计算 try: if hasattr(trainer, 'num_training_batches'): num_batches = trainer.num_training_batches else: num_batches = len(trainer.train_dataloader) if hasattr(trainer, 'accumulate_grad_batches'): accumulate = trainer.accumulate_grad_batches else: accumulate = 1 steps_per_epoch = num_batches // accumulate total_steps = trainer.max_epochs * steps_per_epoch print(f"回退计算训练总步数: {total_steps} = {trainer.max_epochs} epochs × {steps_per_epoch} steps/epoch") return total_steps except Exception as e: print(f"无法确定训练总步数: {e}, 使用默认值10000") return 10000 def on_train_batch_end(self, trainer: Trainer, pl_module: pl.LightningModule, outputs: Any, batch: Any, batch_idx: int) -> None: """每个训练批次结束时更新进度条""" if self.progress_bar: # 防止进度条超过总步数 if self.progress_bar.n < self.progress_bar.total: self.progress_bar.update(1) try: # 尝试从输出中获取损失 loss = outputs.get('loss') if loss is not None: if isinstance(loss, torch.Tensor): loss = loss.item() self.progress_bar.set_postfix({"loss": loss}) except Exception: pass def on_train_epoch_end(self, trainer: Trainer, pl_module: pl.LightningModule) -> None: """每个训练轮次结束时更新轮次进度条""" if self.epoch_bar: self.epoch_bar.update(1) self.epoch_bar.set_postfix({"epoch": trainer.current_epoch}) def on_train_end(self, trainer: Trainer, pl_module: pl.LightningModule) -> None: """训练结束时关闭进度条""" if self.progress_bar: self.progress_bar.close() if self.epoch_bar: self.epoch_bar.close() class PerformanceMonitor(Callback): """性能监控回调，记录内存使用和训练速度""" def init(self): self.epoch_start_time = 0 self.batch_times = [] def on_train_epoch_start(self, trainer: Trainer, pl_module: pl.LightningModule) -> None: """每个训练轮次开始时记录时间和重置内存统计""" self.epoch_start_time = time.time() self.batch_times = [] if torch.cuda.is_available(): torch.cuda.reset_peak_memory_stats() torch.cuda.synchronize() # 修改1：添加dataloader_idx参数 def on_train_batch_start(self, trainer: Trainer, pl_module: pl.LightningModule, batch: Any, batch_idx: int, dataloader_idx: int = 0) -> None: """每个训练批次开始时记录时间""" self.batch_start_time = time.time() # 修改2：添加dataloader_idx参数 def on_train_batch_end(self, trainer: Trainer, pl_module: pl.LightningModule, outputs: Any, batch: Any, batch_idx: int, dataloader_idx: int = 0) -> None: """每个训练批次结束时记录时间""" self.batch_times.append(time.time() - self.batch_start_time) def on_train_epoch_end(self, trainer: Trainer, pl_module: pl.LightningModule) -> None: """每个训练轮次结束时计算并记录性能指标""" epoch_time = time.time() - self.epoch_start_time if self.batch_times: avg_batch_time = sum(self.batch_times) / len(self.batch_times) batches_per_second = 1.0 / avg_batch_time else: avg_batch_time = 0 batches_per_second = 0 memory_info = "" if torch.cuda.is_available(): max_memory = torch.cuda.max_memory_allocated() / 2 20 # MiB memory_info = f", 峰值显存: {max_memory:.2f} MiB" rank_zero_info( f"Epoch {trainer.current_epoch} | " f"耗时: {epoch_time:.2f}s | " f"Batch耗时: {avg_batch_time:.4f}s ({batches_per_second:.2f} batches/s)" f"{memory_info}" ) def get_world_size() -> int: """获取分布式训练中的总进程数""" if dist.is_initialized(): return dist.get_world_size() return 1 def all_gather(data: torch.Tensor) -> List[torch.Tensor]: """在分布式环境中收集所有进程的数据""" world_size = get_world_size() if world_size == 1: return [data] # 获取各进程的Tensor大小 local_size = torch.tensor([data.numel()], device=data.device) size_list = [torch.zeros_like(local_size) for _ in range(world_size)] dist.all_gather(size_list, local_size) size_list = [int(size.item()) for size in size_list] max_size = max(size_list) # 收集数据 tensor_list = [] for size in size_list: tensor_list.append(torch.empty((max_size,), dtype=data.dtype, device=data.device)) if local_size < max_size: padding = torch.zeros(max_size - local_size, dtype=data.dtype, device=data.device) data = torch.cat((data.view(-1), padding)) dist.all_gather(tensor_list, data.view(-1)) # 截断到实际大小 results = [] for tensor, size in zip(tensor_list, size_list): results.append(tensor[:size].reshape(data.shape)) return results def create_experiment_directories(logging_config: DictConfig, experiment_name: str) -> Tuple[str, str, str]: """创建实验目录结构""" now = datetime.datetime.now().strftime("%Y%m%d_%H%M%S") logdir = os.path.join(logging_config.logdir, f"{experiment_name}_{now}") ckptdir = os.path.join(logdir, "checkpoints") cfgdir = os.path.join(logdir, "configs") os.makedirs(ckptdir, exist_ok=True) os.makedirs(cfgdir, exist_ok=True) print(f"实验目录: {logdir}") print(f"检查点目录: {ckptdir}") print(f"配置目录: {cfgdir}") return logdir, ckptdir, cfgdir def setup_callbacks(config_manager: ConfigManager, ckptdir: str, tb_logger: TensorBoardLogger) -> List[Callback]: """设置训练回调函数""" callbacks = [] # 模型检查点 checkpoint_callback = ModelCheckpoint( dirpath=ckptdir, filename='{epoch}-{step}-{val_loss:.2f}', monitor='val_loss', save_top_k=3, mode='min', save_last=True, save_on_train_epoch_end=True, # 确保在epoch结束时保存完整状态 save_weights_only=False, # 明确设置为False，保存完整检查点 every_n_train_steps=1000 # 每1000步保存一次 ) callbacks.append(checkpoint_callback) # 学习率监控 lr_monitor = LearningRateMonitor(logging_interval="step") callbacks.append(lr_monitor) # 图像日志记录 image_logger_cfg = config_manager.get_callbacks_config().get("image_logger", {}) image_logger = EnhancedImageLogger( batch_frequency=image_logger_cfg.get("batch_frequency", 500), max_images=image_logger_cfg.get("max_images", 4), loggers=[tb_logger] ) callbacks.append(image_logger) # 进度条 progress_bar = TQDMProgressBar() callbacks.append(progress_bar) # 性能监控 perf_monitor = PerformanceMonitor() callbacks.append(perf_monitor) return callbacks def preprocess_checkpoint(checkpoint_path: str, model: pl.LightningModule) -> Dict[str, Any]: """预处理检查点文件，确保包含所有必要的键，并添加缺失的训练状态""" print(f"预处理检查点文件: {checkpoint_path}") # 加载检查点 try: checkpoint = torch.load(checkpoint_path, map_location="cpu") except Exception as e: print(f"加载检查点失败: {e}") raise # 强制重置训练状态 checkpoint['epoch'] = 0 checkpoint['global_step'] = 0 checkpoint['lr_schedulers'] = [] checkpoint['optimizer_states'] = [] print("已重置训练状态: epoch=0, global_step=0") # 检查是否缺少关键训练状态 required_keys = ['optimizer_states', 'lr_schedulers', 'epoch', 'global_step'] missing_keys = [k for k in required_keys if k not in checkpoint] if missing_keys: print(f"警告: 检查点缺少训练状态字段 {missing_keys}，将创建伪训练状态") # 创建伪训练状态 checkpoint.setdefault('optimizer_states', []) checkpoint.setdefault('lr_schedulers', []) checkpoint.setdefault('epoch', 0) checkpoint.setdefault('global_step', 0) # 检查是否缺少 position_ids state_dict = checkpoint.get("state_dict", {}) if "cond_stage_model.transformer.text_model.embeddings.position_ids" not in state_dict: print("警告: 检查点缺少 'cond_stage_model.transformer.text_model.embeddings.position_ids' 键") # 获取模型中的 position_ids 形状 if hasattr(model, "cond_stage_model") and hasattr(model.cond_stage_model, "transformer"): try: max_position_embeddings = model.cond_stage_model.transformer.text_model.config.max_position_embeddings position_ids = torch.arange(max_position_embeddings).expand((1, -1)) state_dict["cond_stage_model.transformer.text_model.embeddings.position_ids"] = position_ids print("已添加 position_ids 到检查点") except Exception as e: print(f"无法添加 position_ids: {e}") # 确保有 state_dict if "state_dict" not in checkpoint: checkpoint["state_dict"] = state_dict return checkpoint # 正确继承原始模型类 from ldm.models.diffusion.ddpm import LatentDiffusion class CustomLatentDiffusion(LatentDiffusion): """自定义 LatentDiffusion 类，处理检查点加载问题""" def on_load_checkpoint(self, checkpoint): """在加载检查点时自动处理缺失的键""" state_dict = checkpoint["state_dict"] # 检查是否缺少 position_ids if "cond_stage_model.transformer.text_model.embeddings.position_ids" not in state_dict: print("警告: 检查点缺少 'cond_stage_model.transformer.text_model.embeddings.position_ids' 键") # 获取模型中的 position_ids 形状 max_position_embeddings = self.cond_stage_model.transformer.text_model.config.max_position_embeddings position_ids = torch.arange(max_position_embeddings).expand((1, -1)) state_dict["cond_stage_model.transformer.text_model.embeddings.position_ids"] = position_ids print("已添加 position_ids 到 state_dict") # 使用非严格模式加载 self.load_state_dict(state_dict, strict=False) print("模型权重加载完成") def filter_kwargs(cls, kwargs, log_prefix=""): # 关键参数白名单 - 这些参数必须保留 ESSENTIAL_PARAMS = { 'unet_config', 'first_stage_config', 'cond_stage_config', 'scheduler_config', 'ckpt_path', 'linear_start', 'linear_end' } # 特殊处理：允许所有包含"config"的参数 filtered_kwargs = {} for k, v in kwargs.items(): if k in ESSENTIAL_PARAMS or 'config' in k: filtered_kwargs[k] = v else: print(f"{log_prefix}过滤参数: {k}") print(f"{log_prefix}保留参数: {list(filtered_kwargs.keys())}") return filtered_kwargs def check_checkpoint_content(checkpoint_path): """打印检查点包含的键，确认是否有训练状态""" checkpoint = torch.load(checkpoint_path, map_location="cpu") print("检查点包含的键:", list(checkpoint.keys())) if "state_dict" in checkpoint: print("模型权重存在") if "optimizer_states" in checkpoint: print("优化器状态存在") if "epoch" in checkpoint: print(f"保存的epoch: {checkpoint['epoch']}") if "global_step" in checkpoint: print(f"保存的global_step: {checkpoint['global_step']}") def main() -> None: """主函数，训练和推理流程的入口点""" # 启用Tensor Core加速 torch.set_float32_matmul_precision('high') # 解析命令行参数 parser = argparse.ArgumentParser(description="扩散模型训练框架") parser.add_argument("--config", type=str, default="configs/train.yaml", help="配置文件路径") parser.add_argument("--name", type=str, default="experiment", help="实验名称") parser.add_argument("--resume", action="store_true", default=True, help="恢复训练") parser.add_argument("--debug", action="store_true", help="调试模式") parser.add_argument("--seed", type=int, default=42, help="随机种子") parser.add_argument("--scale_lr", action="store_true", help="根据GPU数量缩放学习率") parser.add_argument("--precision", type=str, default="32", choices=["16", "32", "bf16"], help="训练精度") args, unknown = parser.parse_known_args() # 设置随机种子 seed_everything(args.seed, workers=True) print(f"设置随机种子: {args.seed}") # 初始化配置管理器 try: config_manager = ConfigManager(args.config, unknown) config = config_manager.config except Exception as e: print(f"加载配置失败: {e}") sys.exit(1) # 创建日志目录 logging_config = config_manager.get_logging_config() logdir, ckptdir, cfgdir = create_experiment_directories(logging_config, args.name) # 保存配置 config_manager.save_config(os.path.join(cfgdir, "config.yaml")) # 配置日志记录器 tb_logger = TensorBoardLogger(os.path.join(logdir, "tensorboard")) # 配置回调函数 callbacks = setup_callbacks(config_manager, ckptdir, tb_logger) # 初始化数据模块 try: print("初始化数据模块...") data_config = config_manager.get_data_config() data_module = instantiate_from_config(data_config) data_module.setup() print("可用数据集:", list(data_module.datasets.keys())) except Exception as e: print(f"数据模块初始化失败: {str(e)}") return # 创建模型 try: model_config = config_manager.get_model_config() model_params = model_config.get("params", {}) # 创建模型实例 model = CustomLatentDiffusion(model_config.get("params", {})) print("模型初始化成功") # 检查并转换预训练权重 ckpt_path = model_config.params.get("ckpt_path", "") if ckpt_path and os.path.exists(ckpt_path): print(f"加载预训练权重: {ckpt_path}") checkpoint = torch.load(ckpt_path, map_location="cpu") state_dict = checkpoint.get("state_dict", checkpoint) # 查找所有与conv_in.weight相关的键 conv_in_keys = [] for key in state_dict.keys(): if "conv_in.weight" in key and "first_stage_model" in key: conv_in_keys.append(key) # 转换找到的权重 for conv_in_key in conv_in_keys: if state_dict[conv_in_key].shape[1] == 3: # 原始是3通道 print(f"转换权重: {conv_in_key} 从3通道到1通道") # 取RGB三通道的平均值作为单通道权重 rgb_weights = state_dict[conv_in_key] ir_weights = rgb_weights.mean(dim=1, keepdim=True) state_dict[conv_in_key] = ir_weights print(f"转换前形状: {rgb_weights.shape}") print(f"转换后形状: {ir_weights.shape}") print(f"模型层形状: {model.first_stage_model.encoder.conv_in.weight.shape}") # 非严格模式加载（允许其他层不匹配） missing, unexpected = model.load_state_dict(state_dict, strict=False) print(f"权重加载完成: 缺失层 {len(missing)}, 不匹配层 {len(unexpected)}") if missing: print("缺失层:", missing) if unexpected: print("意外层:", unexpected) except Exception as e: print(f"模型初始化失败: {str(e)}") return print("VAE输入层形状:", model.first_stage_model.encoder.conv_in.weight.shape) # 权重转换 if ckpt_path and os.path.exists(ckpt_path): print(f"加载预训练权重: {ckpt_path}") checkpoint = torch.load(ckpt_path, map_location="cpu") state_dict = checkpoint.get("state_dict", checkpoint) # 增强：查找所有需要转换的层（包括可能的变体） conversion_keys = [] for key in state_dict.keys(): if "conv_in" in key or "conv_out" in key or "nin_shortcut" in key: if state_dict[key].ndim == 4 and state_dict[key].shape[1] == 3: conversion_keys.append(key) print(f"找到需要转换的层: {conversion_keys}") # 转换权重 for key in conversion_keys: print(f"转换权重: {key}") print(f"原始形状: {state_dict[key].shape}") # RGB权重 [out_c, in_c=3, kH, kW] rgb_weights = state_dict[key] # 转换为单通道权重 [out_c, 1, kH, kW] if rgb_weights.shape[1] == 3: ir_weights = rgb_weights.mean(dim=1, keepdim=True) state_dict[key] = ir_weights print(f"转换后形状: {state_dict[key].shape}") # 加载转换后的权重 try: # 使用非严格模式加载 missing, unexpected = model.load_state_dict(state_dict, strict=False) print(f"权重加载完成: 缺失层 {len(missing)}, 不匹配层 {len(unexpected)}") # 打印重要信息 if missing: print("缺失层:", missing[:5]) # 只显示前5个避免过多输出 if unexpected: print("意外层:", unexpected[:5]) # 特别检查conv_in层 if "first_stage_model.encoder.conv_in.weight" in missing: print("警告: conv_in.weight未加载，需要手动初始化") # 手动初始化单通道卷积层 with torch.no_grad(): model.first_stage_model.encoder.conv_in.weight.data.normal_(mean=0.0, std=0.02) print("已手动初始化conv_in.weight") except RuntimeError as e: print(f"加载权重时出错: {e}") print("尝试仅加载兼容的权重...") # 创建新的状态字典只包含兼容的键 model_state = model.state_dict() compatible_dict = {} for k, v in state_dict.items(): if k in model_state and v.shape == model_state[k].shape: compatible_dict[k] = v # 加载兼容的权重 model.load_state_dict(compatible_dict, strict=False) print(f"部分权重加载完成: {len(compatible_dict)}/{len(state_dict)}") # 配置学习率 training_config = config_manager.get_training_config() bs = data_config.params.batch_size base_lr = model_config.base_learning_rate ngpu = training_config.get("gpus", 1) accumulate_grad_batches = training_config.get("accumulate_grad_batches", 1) if args.scale_lr: model.learning_rate = accumulate_grad_batches * ngpu * bs * base_lr print(f"学习率缩放至: {model.learning_rate:.2e} = {accumulate_grad_batches} × {ngpu} × {bs} × {base_lr:.2e}") else: model.learning_rate = base_lr print(f"使用基础学习率: {model.learning_rate:.2e}") # 检查是否恢复训练 resume_from_checkpoint = None if args.resume: # 优先使用自动保存的last.ckpt last_ckpt = os.path.join(ckptdir, "last.ckpt") if os.path.exists(last_ckpt): print(f"恢复训练状态: {last_ckpt}") resume_from_checkpoint = last_ckpt else: # 回退到指定检查点 fallback_ckpt = os.path.join(current_dir, "checkpoints", "M3FD.ckpt") if os.path.exists(fallback_ckpt): print(f"警告: 使用仅含权重的检查点，训练状态将重置: {fallback_ckpt}") resume_from_checkpoint = fallback_ckpt else: print("未找到可用的检查点，从头开始训练") # 如果需要恢复训练，预处理检查点 if resume_from_checkpoint and os.path.exists(resume_from_checkpoint): try: # 预处理检查点 - 添加缺失的状态 checkpoint = preprocess_checkpoint(resume_from_checkpoint, model) # 创建新的完整检查点文件 fixed_ckpt_path = os.path.join(ckptdir, "fixed_checkpoint.ckpt") torch.save(checkpoint, fixed_ckpt_path) print(f"修复后的完整检查点已保存到: {fixed_ckpt_path}") # 使用修复后的检查点 resume_from_checkpoint = fixed_ckpt_path except Exception as e: print(f"预处理检查点失败: {e}") print("将尝试使用默认方式加载检查点") # 配置日志记录器 tb_logger = TensorBoardLogger(os.path.join(logdir, "tensorboard")) # 配置回调函数 callbacks = setup_callbacks(config_manager, ckptdir, tb_logger) # 检查是否有验证集 has_validation = hasattr(data_module, 'datasets') and 'validation' in data_module.datasets # 计算训练批次数 try: train_loader = data_module.train_dataloader() num_train_batches = len(train_loader) print(f"训练批次数: {num_train_batches}") except Exception as e: print(f"计算训练批次数失败: {e}") num_train_batches = 0 # 设置训练器参数（先设置基础参数） trainer_config = { "default_root_dir": logdir, "max_epochs": training_config.max_epochs, "gpus": ngpu, "distributed_backend": "ddp" if ngpu > 1 else None, "plugins": [DDPPlugin(find_unused_parameters=False)] if ngpu > 1 else None, "precision": 16, "accumulate_grad_batches": accumulate_grad_batches, "callbacks": callbacks, "logger": tb_logger, # 添加日志记录器 "resume_from_checkpoint": resume_from_checkpoint, "fast_dev_run": args.debug, "limit_val_batches": 0 if not has_validation else 1.0, "num_sanity_val_steps": 0, # 跳过初始验证加速恢复 "log_every_n_steps": 10 # 更频繁的日志记录 } # 动态调整验证配置 if has_validation: if num_train_batches < 50: # 小数据集：使用epoch验证 trainer_config["check_val_every_n_epoch"] = 1 # 确保移除步数验证参数 if "val_check_interval" in trainer_config: del trainer_config["val_check_interval"] else: # 大数据集：使用步数验证 val_check_interval = min(2000, num_train_batches) if num_train_batches < 100: val_check_interval = max(1, num_train_batches // 4) trainer_config["val_check_interval"] = val_check_interval # 创建训练器 try: print("最终训练器配置:") for k, v in trainer_config.items(): print(f" {k}: {v}") trainer = Trainer(**trainer_config) except Exception as e: print(f"创建训练器失败: {e}") tb_logger.close() sys.exit(1) # 执行训练 try: print("开始训练...") trainer.fit(model, data_module) print("训练完成!") except KeyboardInterrupt: print("训练被用户中断") if trainer.global_rank == 0 and trainer.model is not None: trainer.save_checkpoint(os.path.join(ckptdir, "interrupted.ckpt")) except Exception as e: print(f"训练出错: {e}") if trainer.global_rank == 0 and hasattr(trainer, 'model') and trainer.model is not None: trainer.save_checkpoint(os.path.join(ckptdir, "error.ckpt")) raise finally: # 关闭日志记录器 tb_logger.close() # 打印性能分析报告 if trainer.global_rank == 0 and hasattr(trainer, 'profiler'): print("训练摘要:") print(trainer.profiler.summary()) if name == "main": main()运行报错:模型初始化失败: Error(s) in loading state_dict for CustomLatentDiffusion: size mismatch for first_stage_model.encoder.conv_in.weight: copying a param with shape torch.Size([128, 3, 3, 3]) from checkpoint, the shape in current model is torch.Size([128, 1, 3, 3]).

但是错误信息说“copying a param with shape torch.Size([128, 3, 3, 3]) from checkpoint”，这意味着在检查点中这个权重仍然是3通道？所以我们的转换可能没有生效，或者没有正确修改state_dict。我们打印出...

docker

docker 操作镜像操作操作命令查看所有镜像 docker images 拉取镜像 docker pull 镜像名称:版本号删除镜像 docker rmi 镜像名称:版本号删除所有的镜像 docker rmi $(docker images -aq) 容器操作参数说明 -i 运行容器 -t 以交互式的方式运行容器，会进入容器的命令行内部 -d 以守护式的方式运行容器，在后台运行 -p(小写) 端口映射 -P(大写) 端口映射 -v 目录挂

zhangkunliang_OCR-Java_49536_1755323264808.zip

相关推荐

AI实战-Netflix股价数据分析预测实例（含20个源代码+73.17 KB完整的数据集）.zip

AI实战-沃尔玛销售分析预测实例（含20个源代码+15.29 MB完整的数据集）.zip

AI实战-社交媒体情感数据集分析预测实例（含19个源代码+166.77 KB完整的数据集）.zip

import argparse import datetime import pathlib import sys import time import cv2 import lietorch import torch import tqdm import yaml from mast3r_slam.global_opt import FactorGraph 分析代码

docker

zhangkunliang_OCR-Java_49536_1755323264808.zip

大家在看

WIN2003网卡驱动.

yolov5_weights.zip

OGG(oracle golden date)详细部署 Oracle 11g

MPU9250-MPL-STM32F1

FRET的R0：程序为给定的供体-受体FRET对计算重叠积分和R0值。-matlab开发

最新推荐

rust-std-static-1.54.0-3.module_el8.5.0+1023+0c63d3d6.tar.gz

GHCN气象站邻接矩阵的Python实现及地理距离应用

并发编程：多语言实践与策略选择

3utools使用教程

探索更多视频功能的JavaScript实现

并发编程中的Clojure代理与相关技术解析

windows电脑如何安装华为电脑管家

社交媒体与C#技术的结合应用

深入探索Akka中Actors与STM的融合应用

代码解释 ```c if (n == 0) return -1; ```