- 博客(356)
- 收藏
- 关注
原创 [2025wacv-最佳学生论文]GeoDiffuser:使用扩散模型进行基于几何的图像编辑
《GeoDiffuser:基于几何的扩散模型图像编辑》提出了一种无需训练的通用图像编辑框架。该方法通过几何变换场统一处理2D/3D编辑(平移、旋转、缩放、移除),在扩散模型的注意力层中注入几何变换以保持物体风格,并采用多目标损失函数优化编辑效果。实验表明,该方法在编辑准确性(MD↓7.304)、保真度(WE↓0.091)和一致性(CS↑0.967)上优于现有技术,94.06%用户认可其修复效果。核心贡献在于将几何变换与扩散模型相结合,为生成式图像处理提供了新范式。
2025-08-04 22:26:09
101
原创 【2025WACV-最佳论文】RayGauss:基于体积高斯的光线投射,用于逼真的小说视图合成
摘要: 本文提出RayGauss,一种结合各向异性3D高斯分解与射线投射积分的新视角合成方法,旨在解决现有神经辐射场(高计算成本)与3D高斯溅射(近似误差导致伪影)的不足。方法核心包括:1) 各向异性高斯建模密度与辐射场,结合球谐函数与球面高斯增强方向性表达;2) 分板式射线积分,通过包围体层次加速计算,避免全局排序误差;3) 自适应优化策略控制高斯数量与参数。实验表明,RayGauss在Blender(PSNR 34.53dB)和Mip-NeRF360(29.71dB)数据集上均优于3D高斯溅射,渲染速度
2025-08-04 22:18:13
99
原创 【2025ICCV-目标检测方向】WaveMamba:用于 RGB-红外目标检测的小波驱动曼巴融合
摘要: WaveMamba提出了一种基于小波变换和Mamba的RGB-红外图像融合目标检测方法。通过离散小波变换(DWT)分析,发现红外图像富含低频结构信息,而RGB图像高频细节更丰富。核心模块WaveMambaFusionBlock(WMFB)采用低频Mamba融合块(LMFB)进行跨模态交互,高频部分通过"绝对最大值"策略保留关键细节。改进的检测头集成逆DWT(IDWT)减少上采样信息损失。实验在M3FD等四个数据集上验证了其优越性,mAP平均提升4.5%,推理速度优于Transfo
2025-08-03 18:18:15
232
1
原创 [2025ICCV-目标检测方向]DuET:通过无示例任务算术进行双增量对象检测
本文提出同时解决类别增量学习和领域增量学习的DuIOD任务,设计DuET框架实现双增量目标检测。通过任务算术分解共享参数和任务特定参数,结合动态融合与增量头部技术,有效应对背景偏移和双重偏移问题。实验表明,DuET在跨领域/类别场景中显著提升RAI指标(最高+13.12%),保持89.3%的旧知识保留率,且推理速度达47ms/帧,为实时目标检测系统提供新解决方案。
2025-08-03 18:05:26
176
原创 【2025ICCV-语义分割】 Vision-Language Models for Generalized Few-shot Semantic Segmentation
摘要:FewCLIP提出一种概率原型校准框架,解决广义少样本语义分割(GFSS)中的新类别泛化与基础类别遗忘问题。通过融合CLIP文本原型与可学习视觉校准原型,并引入高斯混合模型建模原型分布,该方法在PASCAL-5i 1-shot设置下新类mIoU达52.70%,较SOTA提升13.26%,同时保持基础类性能。实验表明概率建模有效缓解过拟合,支持类增量学习,代码已开源。
2025-08-02 14:51:32
101
原创 【2025ICCV】RAGNet: Large-scale Reasoning-based Affordance Segmentation Benchmark towards General Gra
本文提出RAGNet数据集和AffordanceNet模型,解决机器人抓取中的affordance感知难题。RAGNet包含273k图像、180个类别和26k推理指令,整合了多源数据(野外、机器人、第一人称视角等),并采用五级优先级注释工具链。AffordanceNet结合视觉语言模型和抓取位姿生成,在分割、真实机器人抓取和模拟任务中表现出色:零样本分割IoU达60.5%,真实抓取成功率70%,模拟任务与专用模型相当。该研究为开放世界机器人抓取提供了新基准和方法。
2025-08-02 14:27:35
162
原创 [2025CVPR-图象生成方向]ODA-GAN:由弱监督学习辅助的正交解耦比对GAN 虚拟免疫组织化学染色
本文提出ODA-GAN框架,解决虚拟染色技术中染色不真实和病理不一致性问题。通过弱监督分割流程(WSSS)生成抗原阳性区域掩码,降低标注成本;采用正交解耦模块(O-MLP)分离染色相关与无关特征;设计双流对比损失(DPNCE)优化样本划分;结合多层域对齐模块(MDA)缩小分布差异。实验表明,在BCI、MISTHER2和GPC3数据集上,ODA-GAN在染色真实性和病理一致性方面显著优于现有方法,为病理诊断提供了高效可靠的虚拟染色解决方案。
2025-08-01 15:04:33
211
原创 [2025CVPR-图象处理方向]Z-Magic:零样本多属性引导图像创建器
《Z-Magic:零样本多属性条件扩散模型》提出了一种创新方法,通过建模属性间的条件依赖关系解决现有独立条件扩散模型生成图像缺乏连贯性的问题。核心创新包括:1)将多属性生成重新形式化为链式条件概率问题,采用梯度细化机制优化生成过程;2)引入多任务学习视角,通过冲突避免梯度下降处理多条件情况;3)完全基于采样过程修改的零样本框架,兼容多种预训练模型。实验表明,该方法在面部生成、风格迁移等任务中显著优于现有技术(如FID指标提升10%),同时保持高效率。该研究为多属性图像生成提供了新思路,在创意设计等领域具有应
2025-08-01 14:56:13
128
原创 [2025CVPR-小样本方向]ImagineFSL:基于VLM的少样本学习的想象基集上的自监督预训练很重要
本文提出ImagineFSL框架,通过自监督预训练和微调两阶段方法,利用合成图像作为独立知识库解决少样本学习的数据稀缺问题。创新点包括:1)构建大规模合成数据集iBase;2)提出HoM-DINO自监督方法,融合高阶矩特征和掩码图像建模;3)开发自动化合成数据生成管道。在11个基准测试中,该方法在少样本识别、域泛化和零样本任务上表现优异,平均准确率提升2-5%。研究证明合成数据可作为有效知识源,为数据稀缺场景提供新解决方案。
2025-07-31 23:10:14
109
原创 [2025CVPR-小样本方向]UNEM: UNrolled Generalized EM for Transductive Few-Shot Learning
本文提出UNEM框架,将广义EM算法(GEM)展开为神经网络,解决转导式少样本学习中超参数调优难题。GEM显式引入类平衡参数λ和温度参数T,支持高斯分布(vision-only)和Dirichlet分布(vision-language)两种数据建模。通过将10层迭代展开为可训练网络,UNEM能自动学习层间动态超参数,避免传统网格搜索的低效性。实验表明:在mini-ImageNet等数据集上,UNEM-Gaussian比最佳基线提升10%(5-shot);CLIP模型中UNEM-Dirichlet在Stanf
2025-07-31 23:00:15
101
原创 CONTRASTIVE-KAN:一种用于稀缺标记数据的网络安全半监督入侵检测框架
本文提出Contrastive-KAN框架,解决工业物联网入侵检测中标签稀缺和数据不平衡问题。该框架结合半监督对比学习与Kolmogorov-Arnold网络(KAN),通过掩蔽增强生成多视图预训练特征,利用KAN的可学习样条函数提升模型表达能力。实验表明,在标记数据仅1.28%-8%的情况下,该框架在UNSW-NB15等三个数据集上F1值达86.70%-93.66%,推理时间0.13-0.41ms。KAN相比传统MLP参数更少、性能更优,其可解释性支持安全规则提取。研究为工业场景提供了高效、可解释的实时入
2025-07-30 20:50:43
519
原创 LNN+XGBoost:优化多层供应链订购:缓解牛鞭效应
本文提出一种结合液态神经网络(LNN)和XGBoost的混合模型,用于优化多级供应链管理。针对传统方法难以应对动态市场需求的问题,该模型利用LNN的动态适应性和低计算成本(O(n)复杂度)处理实时订单波动,结合XGBoost的全局优化能力提升决策效率。实验表明,在四层供应链结构中,该模型显著减轻牛鞭效应,使累积利润提升20-30%,优于LSTM、Transformer等基准模型。SHAP分析显示"历史订单"和"订单波动率"是关键特征。该方法为动态供应链提供了高效、可扩
2025-07-30 20:41:34
785
原创 【2025CVPR-参数微调方向】视觉识别中参数高效微调 (PEFT)
本文系统研究了参数高效微调(PEFT)方法在视觉任务中的应用。研究发现:1)在低样本场景下,各类PEFT方法经调优后性能相当且优于全参数微调;2)不同PEFT方法的预测结果具有多样性和互补性;3)PEFT在多样本任务中能匹配全参数微调性能,且具有参数效率优势;4)PEFT展现出更强的分布偏移鲁棒性。研究揭示了PEFT兼具高容量学习能力和正则化作用,并提出了具体应用指南,打破了"PEFT仅适用低样本"的认知,为集成学习和鲁棒性优化提供了新方向。
2025-07-29 14:01:26
661
原创 [2025CVPR-图象分类]ProAPO:视觉分类的渐进式自动提示优化
本文提出ProAPO框架,通过渐进式优化解决视觉语言模型提示词设计的局限性。该方法分两阶段:先优化任务特定模板,再优化类特定描述,采用演化算法和分组采样策略降低计算成本。实验在13个数据集上显示,ProAPO显著提升细粒度分类准确率(最高达23.1%),且无需训练即可跨网络迁移。关键创新在于平衡生成效率与提示质量,通过熵约束适应度得分抑制过拟合。该工作为视觉语言模型的高效适配提供了新思路。
2025-07-29 13:44:04
1201
原创 [2025CVPR-少样本学习方向]使用 CLIP 进行 Logits DeConfusion 以进行少样本学习
摘要:本文提出Logits DeConfusion (LDC)方法,解决CLIP模型在少样本学习中存在的类间混淆问题。LDC通过Multi-level Adapter Fusion (MAF)模块增强特征表示,利用Inter-Class Deconfusion (ICD)模块建模并移除logits中的混淆噪声,最后通过Adaptive Logits Fusion (ALF)融合输出。在11个基准数据集上的实验表明,LDC在16-shot设置下平均准确率达79.78%,显著优于现有方法。该方法有效提升了CLI
2025-07-29 13:33:11
1002
原创 [2025CVPR]HUGNet2架构:事件相机光流估计
摘要: 本文提出HUGNet2+PA架构,实现事件相机微秒级光流估计。通过双分支设计(异步事件图+周期性聚合),在保持50μs超低延迟的同时提升精度。改进的HUGNet2移除未来数据依赖,结合历史事件特征;周期性分支提供全局上下文而无延迟代价。实验表明,该方法在MVSEC和RockScenes数据集上延迟降低1000倍,计算量减少48倍,尤其擅长检测快速突变运动(比传统方法快2帧)。研究为自动驾驶等实时系统提供了新方案,未来可优化动态负载与多模态融合。
2025-07-29 13:20:58
562
原创 [2025CVPR-图象超分辨方向]HVI:用于低光图像增强的新色彩空间
本文提出HVI颜色空间和CIDNet网络解决低光图像增强中的噪声问题。HVI通过偏振HS平面消除红色伪影,采用可学习强度函数压缩低光噪声,有效改善了HSV空间的局限性。CIDNet网络采用双分支结构分别处理色度和亮度信息,结合交叉注意力机制实现高效去噪。实验表明,该方法在多个数据集上优于现有技术,PSNR最高提升3.562dB,且具有轻量级优势(1.88M参数)。HVI空间还可作为插件提升其他方法的性能,展现出良好的通用性。
2025-07-28 10:15:00
957
原创 [2025CVPR-目标跟踪方向]SPMTrack:通过混合专家进行时空参数高效微调,实现可扩展的视觉跟踪
《SPMTrack:基于专家混合的高效时空跟踪模型》提出了一种创新的视觉目标跟踪方法,通过任务特定专家混合模块(TMoE)和时空建模机制实现高效跟踪。该模型采用多专家结构动态适应不同关系模式,保留预训练知识的同时仅需微调少量参数(<30%)。实验表明,SPMTrack在LaSOT等基准数据集上性能超越现有SOTA方法,最高提升3% AO,且ViT-G训练成本仅相当于ViT-B。核心创新包括细粒度专家组合、跨帧目标状态传递和参数高效训练策略,为视觉跟踪领域提供了轻量化高性能的新范式。
2025-07-28 10:00:00
978
原创 [2025CVPR-图象超分辨方向]DORNet:面向退化的正则化网络,用于盲深度超分辨率
摘要: DORNet提出了一种新型盲深度超分辨率(DSR)框架,针对真实场景中深度图的未知降级(如传感器噪声、结构失真)进行自适应恢复。其核心创新包括自我监督降级学习策略(无需降级标签建模隐式退化表示)和降级导向融合模块(利用学到的先验选择性融合RGB与深度特征)。实验表明,在RGB-D-D等真实数据集上,DORNet以3.05M参数实现RMSE 3.42cm,优于SFG等现有方法;轻量版DORNet-T在合成数据(NYU-v2)上RMSE仅1.33cm,推理效率提升35%。该框架首次通过隐式降级建模解决了
2025-07-27 21:35:12
1078
原创 【2025CVPR-扩散模型方向】TKG-DM:免训练的色度关键内容生成扩散模型
摘要:本文提出TKG-DM,一种无需训练的扩散模型优化方法,通过操控初始噪声实现前景与纯色背景分离。核心创新包括通道均值偏移技术(调整噪声通道均值控制背景色)和高斯掩码融合策略(精确控制前景位置)。实验表明,该方法在FID/m-FID指标上提升超33%,媲美需微调的模型,且支持多前景生成和ControlNet集成。与现有方案相比,TKG-DM无需数据集或微调,在广告设计、视频编辑等需前景分离的场景具有应用潜力。论文同时指出了在复杂背景生成方面的局限性,并提出了未来改进方向。
2025-07-27 09:00:00
1001
原创 [2025CVPR:图象合成、生成方向]WF-VAE:通过小波驱动的能量流增强视频 VAE 的潜在视频扩散模型
《WF-VAE:基于小波能量流的视频变分自编码器》提出了一种新型视频压缩方法,通过小波变换分解视频信号并优化能量流路径,显著提升了潜在视频扩散模型(LVDM)的效率。该方法创新性地结合多级小波分析和CausalCache机制,在保持重建质量(PSNR 35.87)的同时,将吞吐量提高2倍、内存消耗降低4倍。实验表明,WF-VAE有效解决了现有方法的高计算成本和潜在空间不连续问题,为大规模视频生成提供了高效解决方案。
2025-07-26 20:09:41
222
原创 [2025CVPR-图象合成、生成方向]ODA-GAN:由弱监督学习辅助的正交解耦比对GAN 虚拟免疫组织化学染色
摘要:论文提出ODA-GAN框架,通过正交特征解耦和弱监督学习解决虚拟免疫组化染色中的关键问题。该方法包含三个核心组件:(1)基于UNI基础模型和Grad-CAM的弱监督分割管道,可在无专家标注下生成语义分割掩码(AUC达0.933);(2)双流对比学习策略(DPNCE),通过样本重划分解决病理一致性问题;(3)多层域对齐模块(MDA)提升染色真实性。在三个基准数据集上的实验表明,ODA-GAN在KID、FID等指标上均优于现有方法,视觉评估也证实其生成结果具有更高的真实性和病理准确性。该框架为虚拟染色提供
2025-07-26 19:55:31
102
原创 [2025CVPR-图象分类方向]CATANet:用于轻量级图像超分辨率的高效内容感知标记聚合
摘要:本文提出CATANet,一种基于内容感知令牌聚合的高效图像超分辨率网络。针对Transformer计算复杂度高的问题,该方法通过共享全局令牌中心并仅在训练阶段更新,结合子组划分策略和双注意力机制(组内自注意力IASA与组间交叉注意力IRCA),在降低计算量的同时有效捕获长距离依赖。实验表明,CATANet在轻量化设计(535K参数)下,PSNR显著提升(最高+0.33dB),推理速度达SPIN的5倍,且适用于移动设备。核心创新包括内容感知令牌聚合模块和双注意力机制,实现了性能与效率的平衡。 (149字
2025-07-25 21:55:59
998
原创 [2025CVPR-图象分类方向]SPARC:用于视觉语言模型中零样本多标签识别的分数提示和自适应融合
本文提出SPARC方法,针对视觉语言模型在零样本多标签识别中的性能瓶颈展开研究。通过分析发现,模型在复合提示下存在"OR-like"行为偏差,导致多标签识别准确率下降。SPARC创新性地提出双重解决方案:首先采用分数标准化技术消除图像级和提示级偏差,使mAP提升6-10%;其次设计复合提示生成与自适应融合策略,通过PCA分析选择第二高分数作为可靠指标,有效捕捉"AND-like"行为。实验表明,该方法在COCO等数据集上平均提升mAP 8-12%,且与现有方法具有良好
2025-07-25 21:37:36
924
原创 WaveToken:基于小波词元化的高效时序预测基础模型
本文提出WaveToken,一种基于小波变换的时间序列离散化方法,用于构建通用预测基础模型。通过多级小波分解、阈值处理和量化,将连续时间序列转化为1024个token的紧凑表示,在保持时频局部化特性的同时简化学习过程。在42个数据集上的实验表明,WaveToken在域内和零样本预测任务中均优于现有方法,尤其在处理非平稳数据和长时预测时表现出色。消融研究验证了小波族选择、词汇量等关键设计。该方法为开发高性能时间序列基础模型提供了新思路,但自回归解码效率有待提升。
2025-07-24 13:26:14
838
原创 [2025LCLR]AutoTCL:用于参数化增强用于时间序列对比学习模型
本文提出AutoTCL框架,通过参数化增强解决时间序列对比学习中的数据增强难题。传统基于预设规则的增强方法难以捕捉时间序列的复杂模式,AutoTCL利用因子化网络和变换网络自适应生成高质量视图,保留语义同时增加多样性。理论证明该方法能提升信息量并保持标签一致性,实验在6个预测和30个分类数据集上验证其优越性,平均MSE降低6.5%,分类准确率达0.742。框架兼容多种编码器,为时间序列表示学习提供了新思路。
2025-07-24 12:42:56
1076
原创 [2025CVPR-小目标检测方向]基于特征信息驱动位置高斯分布估计微小目标检测模型
本文提出了一种名为FIP-GDE的新型框架,用于解决微小目标检测中特征表示弱、区分度低的关键问题。该方法通过像素特征信息建模(PFIM)模块,基于信息熵理论无监督地识别信息量丰富的区域;并创新性地设计了位置高斯分布预测(PGDP)模块,通过动态调整协方差矩阵使微小目标获得更高权重。实验表明,该框架作为即插即用模块,在多个数据集上显著提升了微小目标的检测性能,尤其对2-32像素的目标效果突出,性能超越当前最优方法。核心创新在于直接从像素信息量角度增强特征表示,为微小目标检测提供了新思路。
2025-07-22 23:27:19
965
原创 [2025CVPR]ViKIENet:通过虚拟密钥实例增强网络实现高效的 3D 对象检测
ViKIENet论文摘要:ViKIENet提出一种高效的多模态3D物体检测框架,通过虚拟关键实例(VKIs)解决LiDAR点云稀疏性和传统虚拟点方法的高计算噪声问题。其核心创新包括:1)语义关键实例选择(SKIS),仅提取关键区域的虚拟点,减少90%计算量;2)多阶段融合模块(VIFF),结合BEV与RoI特征增强关键区域;3)深度校准模块(VIRA),抑制深度补全噪声。扩展版ViKIENet-R引入旋转等变特征,平衡精度与效率。实验显示,在KITTI、nuScenes等数据集上,ViKIENet以22.7
2025-07-22 23:05:26
1253
原创 [2024LCLR]MG-TSD:具有引导学习过程的多粒度时间序列扩散融合模型
本文提出MG-TSD模型,通过多粒度引导机制改进时间序列预测中的扩散模型。创新性地利用数据内在粒度层级(1小时→24小时)作为扩散过程约束,通过粗粒度数据正则化采样路径。模型采用共享降噪网络和基于KL散度的共享比率选择策略,在6个数据集上CRPSsum指标平均提升15%。实验证实多粒度引导能稳定预测、捕捉峰值特征,且适用于长期预测。研究揭示了扩散过程与数据平滑的数学关联,为无标签时间序列预测提供了新思路。
2025-07-21 13:00:33
712
原创 [2025CVPR-图象分类方向]基于DVHGNN的图像分类模型
DVHGNN是一种新型视觉架构,通过多尺度超图有效捕捉图像中的高阶相关性,同时降低计算开销。该架构采用多尺度超图构建和动态卷积机制,解决了传统方法(如ViG和ViHGNN)在计算效率和关系建模上的局限性。实验表明,DVHGNN在ImageNet-1K分类(83.1% Top-1准确率)、COCO目标检测(43.3% mAP)和ADE20K语义分割(46.8% mIoU)等任务中均优于现有方法,且计算效率更高(如DVHGNN-S的FLOPs比ViG-S低18%)。这一创新为视觉识别任务提供了更高效且强大的解决
2025-07-21 09:00:00
459
原创 [CVPR]DVFL-Net:用于时空动作识别的轻量级蒸馏视频调焦网络
摘要:本研究提出轻量化视频识别框架DVFL-Net,通过师生蒸馏机制将157M参数的Video-FocalNet压缩至22M。创新性采用时空解耦的焦点调制层替代自注意力,在UCF101等基准上达到88.4%准确率(仅比教师模型低0.5%),计算量降低87.7%(27 vs 220 GFLOPs)。实验表明,该框架在保持时空建模能力的同时显著提升效率,特别适合边缘设备部署,为视频理解任务提供新的轻量化解决方案。
2025-07-20 23:00:52
54
原创 基于卷积傅里叶分析网络 (CFAN)的心电图分类的统一时频方法
本研究提出CFAN架构,创新性地将傅里叶分析嵌入卷积层,通过CONV-FAN模块(含独立权重的正弦/余弦/GELU混合激活)实现端到端时频特征融合。在MIT-BIH(98.95%)、ECG-ID(96.83%)和Apnea-ECG(95.01%)三个ECG分类任务上均超越传统方法(SPECT/CNN1D/FFT1D),验证了周期性激活函数对生物医学信号的有效性。相比频谱图转换方法,CFAN避免了信息丢失,且参数量与1DCNN相当。该工作为时频敏感型信号处理提供了新范式,具有扩展至脑电、语音等领域的潜力。
2025-07-20 22:47:49
1110
原创 FAN-UNET:用于生物医学图像分割增强模型
本文提出FAN-UNet模型,通过结合傅里叶分析层(FANLayer2D)与自注意力机制,创新性地解决了医疗图像分割中的长程依赖和周期性建模问题。研究采用经典论文结构,详细阐述了Vision-FANBlock模块的设计原理,该模块能同时捕捉全局和周期性特征。在ISIC2017/2018数据集上的实验表明,FAN-UNet在mIoU(78.99%)、DSC(88.25%)等指标上优于主流模型,且通过消融实验验证了核心组件的有效性。该模型特别适用于皮肤病变、肿瘤分析等具有周期性纹理特征的医疗图像分割任务,展现了
2025-07-20 22:36:12
1101
原创 [故障诊断方向]基于二维时频图像和数据增强技术的轴承故障诊断模型
本文提出了一种基于连续小波变换(CWT)和生成对抗网络(GANs-QP)的轴承故障诊断方法。针对传统方法在特征提取和样本生成质量上的不足,创新性地将一维振动信号转换为二维时频图像,并采用QP-Div损失函数提升生成样本的真实性。实验表明,在CWRU标准数据集和实验室真实数据集上,该方法分别达到99.29%和99.35%的诊断准确率,显著优于传统数据增强方法。通过CWT-GANs-QP-CNN的端到端框架,有效解决了小样本条件下的过拟合问题,为旋转机械故障诊断提供了新思路。核心代码基于PyTorch实现,包含
2025-07-19 23:17:15
957
原创 [故障诊断方向]SNNs:针对小样本轴承故障诊断的孪生神经网络模型
本文提出一种基于孪生神经网络(SNN)与多源特征融合的电机轴承故障诊断方法,有效解决工业场景中的小样本和数据不平衡问题。方法创新包括:1)设计多阶段训练策略缓解SNN训练停滞问题;2)构建多尺度卷积模块增强特征提取能力;3)开发注意力机制实现多传感器特征融合。实验表明,在样本高度不平衡(10:1)时,该方法在公开和实验室数据集上的准确率分别达94%和93%,显著优于传统方法。核心贡献在于提供了一种鲁棒性强、可扩展的小样本故障诊断框架,并为多源数据融合提供了新思路。未来工作将探索更优化的参数调校方法和极端场景
2025-07-19 22:59:27
806
原创 [2025CVPR-目标检测方向] CorrBEV:多视图3D物体检测
本文提出CorrBEV框架,针对自动驾驶中多视图3D物体检测的遮挡问题,通过引入视觉和语言原型作为先验知识来补偿特征损失。该即插即用框架包含多模态原型生成器、相关引导查询学习器和遮挡感知训练器,采用深度相关操作实现高效知识融合。实验表明,CorrBEV在nuScenes数据集上显著提升基准模型性能(BEVFormer提升2.6%mAP),尤其对低可见性物体召回率提升8.7%,同时增强雪天等恶劣场景的鲁棒性。该方法为自动驾驶安全提供了有效的遮挡问题解决方案。
2025-07-18 22:57:18
1143
原创 [2025CVPR-目标检测方向]FSHNet:一种用于3D物体检测的全稀疏混合网络。
FSHNet是一种创新的全稀疏混合网络,用于解决3D物体检测中的长距离交互弱和中心特征缺失问题。该网络结合稀疏卷积的高效性和注意力机制的全局交互能力,通过SlotFormer块实现无限长距离交互,采用动态稀疏标签分配优化训练,并引入稀疏上采样模块增强细节。在Waymo、nuScenes和Argoverse2数据集上均达到SOTA性能,显著提升了大物体和小物体的检测精度。
2025-07-18 22:48:51
1139
原创 [2025CVPR-目标检测方向]SET:用于微小物体检测的光谱增强
本文提出SET框架解决微小目标检测难题。研究发现高频背景噪声是导致微小目标检测性能差的主要原因,通过频域分析发现抑制背景高频噪声可提升AP达15%。SET采用异构架构:分层背景平滑模块(HBS)通过自适应滤波抑制背景噪声,对抗扰动注入模块(API)增强目标特征显著性。实验表明,在AI-TOD等4个数据集上,SET将FCOS等检测器的微小目标AP最高提升3.2%,推理成本仅增加1%。该方法为自动驾驶等场景的微小目标检测提供了有效解决方案。
2025-07-17 10:00:00
2612
原创 [2025CVPR-图象检索方向]CCIN:用于合成图像检索的合成冲突识别和中和模型
本文提出了一种新的组合图像检索(CIR)框架CCIN,用于解决多模态查询中的组合冲突问题。该框架包含冲突识别(CCI)和冲突中和(CCN)两个核心模块:CCI利用大型语言模型显式识别参考图像与修改指令间的冲突属性;CCN通过双重指令机制分离并融合非冲突特征。实验表明,CCIN在FashionIQ、CIRR和Shoes数据集上的检索性能显著优于现有方法,平均Recall@K提升达2.44%。该工作首次系统化解决了CIR中的组合冲突问题,为多模态检索提供了新思路。
2025-07-16 22:08:10
988
1
原创 [2025CVPR-图像检索方向] COBRA:一种用于小样本自适应检索增强模型
本文提出COBRA(组合检索增强)方法,通过组合互信息优化框架解决少样本学习中的检索冗余问题。相比传统相似性检索,COBRA引入多样性指标,使用设施位置互信息(FLMI)和软类平衡约束,从大型辅助数据集中高效检索高质量样本。实验表明,在ImageNet等数据集上,COBRA在1-16样本设置下平均准确率提升0.4%-1.2%,且适配多种少样本学习技术。该方法为数据稀缺场景提供了有效的检索增强方案。
2025-07-16 21:55:06
963
基于Hive的大数据分析与智能分类推荐系统-多媒体作品集管理解决方案
2025-01-15
神经网络源码-GoogLeNet源码
2024-11-22
神经网络源码+AlexNet模型源码+人工智能
2024-11-22
人工智能KAN神经网络+python代码
2024-11-22
基于PyTorch的故障检测CNN模型训练与应用
2024-11-22
基于一维CNN和LSTM的融合网络用于时间序列数据的预测分类
2024-10-19
机器学习基于鸢尾花数据集的决策树与随机森林分类模型对比:特征工程、模型训练及性能评估
2025-04-28
医学领域基于CatBoost与贝叶斯优化的高原脑水肿风险预测模型研究:多模态数据挖掘与性能评估
2025-04-28
【软件工程、计算机专业】基于Java SSM的图书管理系统开发与实现:需求分析、架构设计及性能优化摘要
2025-04-28
【无人机识别技术】基于射频信号与改进视觉Transformer的无人机检测与识别系统设计
2025-04-27
TA创建的收藏夹 TA关注的收藏夹
TA关注的人