自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

hasakie的博客

专注于人工智能算法分享

  • 博客(356)
  • 收藏
  • 关注

原创 [2025wacv-最佳学生论文]GeoDiffuser:使用扩散模型进行基于几何的图像编辑

《GeoDiffuser:基于几何的扩散模型图像编辑》提出了一种无需训练的通用图像编辑框架。该方法通过几何变换场统一处理2D/3D编辑(平移、旋转、缩放、移除),在扩散模型的注意力层中注入几何变换以保持物体风格,并采用多目标损失函数优化编辑效果。实验表明,该方法在编辑准确性(MD↓7.304)、保真度(WE↓0.091)和一致性(CS↑0.967)上优于现有技术,94.06%用户认可其修复效果。核心贡献在于将几何变换与扩散模型相结合,为生成式图像处理提供了新范式。

2025-08-04 22:26:09 101

原创 【2025WACV-最佳论文】RayGauss:基于体积高斯的光线投射,用于逼真的小说视图合成

摘要: 本文提出RayGauss,一种结合各向异性3D高斯分解与射线投射积分的新视角合成方法,旨在解决现有神经辐射场(高计算成本)与3D高斯溅射(近似误差导致伪影)的不足。方法核心包括:1) 各向异性高斯建模密度与辐射场,结合球谐函数与球面高斯增强方向性表达;2) 分板式射线积分,通过包围体层次加速计算,避免全局排序误差;3) 自适应优化策略控制高斯数量与参数。实验表明,RayGauss在Blender(PSNR 34.53dB)和Mip-NeRF360(29.71dB)数据集上均优于3D高斯溅射,渲染速度

2025-08-04 22:18:13 99

原创 【2025ICCV-目标检测方向】WaveMamba:用于 RGB-红外目标检测的小波驱动曼巴融合

摘要: WaveMamba提出了一种基于小波变换和Mamba的RGB-红外图像融合目标检测方法。通过离散小波变换(DWT)分析,发现红外图像富含低频结构信息,而RGB图像高频细节更丰富。核心模块WaveMambaFusionBlock(WMFB)采用低频Mamba融合块(LMFB)进行跨模态交互,高频部分通过"绝对最大值"策略保留关键细节。改进的检测头集成逆DWT(IDWT)减少上采样信息损失。实验在M3FD等四个数据集上验证了其优越性,mAP平均提升4.5%,推理速度优于Transfo

2025-08-03 18:18:15 232 1

原创 [2025ICCV-目标检测方向]DuET:通过无示例任务算术进行双增量对象检测

本文提出同时解决类别增量学习和领域增量学习的DuIOD任务,设计DuET框架实现双增量目标检测。通过任务算术分解共享参数和任务特定参数,结合动态融合与增量头部技术,有效应对背景偏移和双重偏移问题。实验表明,DuET在跨领域/类别场景中显著提升RAI指标(最高+13.12%),保持89.3%的旧知识保留率,且推理速度达47ms/帧,为实时目标检测系统提供新解决方案。

2025-08-03 18:05:26 176

原创 【2025ICCV-语义分割】 Vision-Language Models for Generalized Few-shot Semantic Segmentation

摘要:FewCLIP提出一种概率原型校准框架,解决广义少样本语义分割(GFSS)中的新类别泛化与基础类别遗忘问题。通过融合CLIP文本原型与可学习视觉校准原型,并引入高斯混合模型建模原型分布,该方法在PASCAL-5i 1-shot设置下新类mIoU达52.70%,较SOTA提升13.26%,同时保持基础类性能。实验表明概率建模有效缓解过拟合,支持类增量学习,代码已开源。

2025-08-02 14:51:32 101

原创 【2025ICCV】RAGNet: Large-scale Reasoning-based Affordance Segmentation Benchmark towards General Gra

本文提出RAGNet数据集和AffordanceNet模型,解决机器人抓取中的affordance感知难题。RAGNet包含273k图像、180个类别和26k推理指令,整合了多源数据(野外、机器人、第一人称视角等),并采用五级优先级注释工具链。AffordanceNet结合视觉语言模型和抓取位姿生成,在分割、真实机器人抓取和模拟任务中表现出色:零样本分割IoU达60.5%,真实抓取成功率70%,模拟任务与专用模型相当。该研究为开放世界机器人抓取提供了新基准和方法。

2025-08-02 14:27:35 162

原创 [2025CVPR-图象生成方向]ODA-GAN:由弱监督学习辅助的正交解耦比对GAN 虚拟免疫组织化学染色

本文提出ODA-GAN框架,解决虚拟染色技术中染色不真实和病理不一致性问题。通过弱监督分割流程(WSSS)生成抗原阳性区域掩码,降低标注成本;采用正交解耦模块(O-MLP)分离染色相关与无关特征;设计双流对比损失(DPNCE)优化样本划分;结合多层域对齐模块(MDA)缩小分布差异。实验表明,在BCI、MISTHER2和GPC3数据集上,ODA-GAN在染色真实性和病理一致性方面显著优于现有方法,为病理诊断提供了高效可靠的虚拟染色解决方案。

2025-08-01 15:04:33 211

原创 [2025CVPR-图象处理方向]Z-Magic:零样本多属性引导图像创建器

《Z-Magic:零样本多属性条件扩散模型》提出了一种创新方法,通过建模属性间的条件依赖关系解决现有独立条件扩散模型生成图像缺乏连贯性的问题。核心创新包括:1)将多属性生成重新形式化为链式条件概率问题,采用梯度细化机制优化生成过程;2)引入多任务学习视角,通过冲突避免梯度下降处理多条件情况;3)完全基于采样过程修改的零样本框架,兼容多种预训练模型。实验表明,该方法在面部生成、风格迁移等任务中显著优于现有技术(如FID指标提升10%),同时保持高效率。该研究为多属性图像生成提供了新思路,在创意设计等领域具有应

2025-08-01 14:56:13 128

原创 [2025CVPR-小样本方向]ImagineFSL:基于VLM的少样本学习的想象基集上的自监督预训练很重要

本文提出ImagineFSL框架,通过自监督预训练和微调两阶段方法,利用合成图像作为独立知识库解决少样本学习的数据稀缺问题。创新点包括:1)构建大规模合成数据集iBase;2)提出HoM-DINO自监督方法,融合高阶矩特征和掩码图像建模;3)开发自动化合成数据生成管道。在11个基准测试中,该方法在少样本识别、域泛化和零样本任务上表现优异,平均准确率提升2-5%。研究证明合成数据可作为有效知识源,为数据稀缺场景提供新解决方案。

2025-07-31 23:10:14 109

原创 [2025CVPR-小样本方向]UNEM: UNrolled Generalized EM for Transductive Few-Shot Learning

本文提出UNEM框架,将广义EM算法(GEM)展开为神经网络,解决转导式少样本学习中超参数调优难题。GEM显式引入类平衡参数λ和温度参数T,支持高斯分布(vision-only)和Dirichlet分布(vision-language)两种数据建模。通过将10层迭代展开为可训练网络,UNEM能自动学习层间动态超参数,避免传统网格搜索的低效性。实验表明:在mini-ImageNet等数据集上,UNEM-Gaussian比最佳基线提升10%(5-shot);CLIP模型中UNEM-Dirichlet在Stanf

2025-07-31 23:00:15 101

原创 CONTRASTIVE-KAN:一种用于稀缺标记数据的网络安全半监督入侵检测框架

本文提出Contrastive-KAN框架,解决工业物联网入侵检测中标签稀缺和数据不平衡问题。该框架结合半监督对比学习与Kolmogorov-Arnold网络(KAN),通过掩蔽增强生成多视图预训练特征,利用KAN的可学习样条函数提升模型表达能力。实验表明,在标记数据仅1.28%-8%的情况下,该框架在UNSW-NB15等三个数据集上F1值达86.70%-93.66%,推理时间0.13-0.41ms。KAN相比传统MLP参数更少、性能更优,其可解释性支持安全规则提取。研究为工业场景提供了高效、可解释的实时入

2025-07-30 20:50:43 519

原创 LNN+XGBoost:优化多层供应链订购:缓解牛鞭效应

本文提出一种结合液态神经网络(LNN)和XGBoost的混合模型,用于优化多级供应链管理。针对传统方法难以应对动态市场需求的问题,该模型利用LNN的动态适应性和低计算成本(O(n)复杂度)处理实时订单波动,结合XGBoost的全局优化能力提升决策效率。实验表明,在四层供应链结构中,该模型显著减轻牛鞭效应,使累积利润提升20-30%,优于LSTM、Transformer等基准模型。SHAP分析显示"历史订单"和"订单波动率"是关键特征。该方法为动态供应链提供了高效、可扩

2025-07-30 20:41:34 785

原创 【2025CVPR-参数微调方向】视觉识别中参数高效微调 (PEFT)

本文系统研究了参数高效微调(PEFT)方法在视觉任务中的应用。研究发现:1)在低样本场景下,各类PEFT方法经调优后性能相当且优于全参数微调;2)不同PEFT方法的预测结果具有多样性和互补性;3)PEFT在多样本任务中能匹配全参数微调性能,且具有参数效率优势;4)PEFT展现出更强的分布偏移鲁棒性。研究揭示了PEFT兼具高容量学习能力和正则化作用,并提出了具体应用指南,打破了"PEFT仅适用低样本"的认知,为集成学习和鲁棒性优化提供了新方向。

2025-07-29 14:01:26 661

原创 [2025CVPR-图象分类]ProAPO:视觉分类的渐进式自动提示优化

本文提出ProAPO框架,通过渐进式优化解决视觉语言模型提示词设计的局限性。该方法分两阶段:先优化任务特定模板,再优化类特定描述,采用演化算法和分组采样策略降低计算成本。实验在13个数据集上显示,ProAPO显著提升细粒度分类准确率(最高达23.1%),且无需训练即可跨网络迁移。关键创新在于平衡生成效率与提示质量,通过熵约束适应度得分抑制过拟合。该工作为视觉语言模型的高效适配提供了新思路。

2025-07-29 13:44:04 1201

原创 [2025CVPR-少样本学习方向]使用 CLIP 进行 Logits DeConfusion 以进行少样本学习

摘要:本文提出Logits DeConfusion (LDC)方法,解决CLIP模型在少样本学习中存在的类间混淆问题。LDC通过Multi-level Adapter Fusion (MAF)模块增强特征表示,利用Inter-Class Deconfusion (ICD)模块建模并移除logits中的混淆噪声,最后通过Adaptive Logits Fusion (ALF)融合输出。在11个基准数据集上的实验表明,LDC在16-shot设置下平均准确率达79.78%,显著优于现有方法。该方法有效提升了CLI

2025-07-29 13:33:11 1002

原创 [2025CVPR]HUGNet2架构:事件相机光流估计

摘要: 本文提出HUGNet2+PA架构,实现事件相机微秒级光流估计。通过双分支设计(异步事件图+周期性聚合),在保持50μs超低延迟的同时提升精度。改进的HUGNet2移除未来数据依赖,结合历史事件特征;周期性分支提供全局上下文而无延迟代价。实验表明,该方法在MVSEC和RockScenes数据集上延迟降低1000倍,计算量减少48倍,尤其擅长检测快速突变运动(比传统方法快2帧)。研究为自动驾驶等实时系统提供了新方案,未来可优化动态负载与多模态融合。

2025-07-29 13:20:58 562

原创 [2025CVPR-图象超分辨方向]HVI:用于低光图像增强的新色彩空间

本文提出HVI颜色空间和CIDNet网络解决低光图像增强中的噪声问题。HVI通过偏振HS平面消除红色伪影,采用可学习强度函数压缩低光噪声,有效改善了HSV空间的局限性。CIDNet网络采用双分支结构分别处理色度和亮度信息,结合交叉注意力机制实现高效去噪。实验表明,该方法在多个数据集上优于现有技术,PSNR最高提升3.562dB,且具有轻量级优势(1.88M参数)。HVI空间还可作为插件提升其他方法的性能,展现出良好的通用性。

2025-07-28 10:15:00 957

原创 [2025CVPR-目标跟踪方向]SPMTrack:通过混合专家进行时空参数高效微调,实现可扩展的视觉跟踪

《SPMTrack:基于专家混合的高效时空跟踪模型》提出了一种创新的视觉目标跟踪方法,通过任务特定专家混合模块(TMoE)和时空建模机制实现高效跟踪。该模型采用多专家结构动态适应不同关系模式,保留预训练知识的同时仅需微调少量参数(<30%)。实验表明,SPMTrack在LaSOT等基准数据集上性能超越现有SOTA方法,最高提升3% AO,且ViT-G训练成本仅相当于ViT-B。核心创新包括细粒度专家组合、跨帧目标状态传递和参数高效训练策略,为视觉跟踪领域提供了轻量化高性能的新范式。

2025-07-28 10:00:00 978

原创 [2025CVPR-图象超分辨方向]DORNet:面向退化的正则化网络,用于盲深度超分辨率

摘要: DORNet提出了一种新型盲深度超分辨率(DSR)框架,针对真实场景中深度图的未知降级(如传感器噪声、结构失真)进行自适应恢复。其核心创新包括自我监督降级学习策略(无需降级标签建模隐式退化表示)和降级导向融合模块(利用学到的先验选择性融合RGB与深度特征)。实验表明,在RGB-D-D等真实数据集上,DORNet以3.05M参数实现RMSE 3.42cm,优于SFG等现有方法;轻量版DORNet-T在合成数据(NYU-v2)上RMSE仅1.33cm,推理效率提升35%。该框架首次通过隐式降级建模解决了

2025-07-27 21:35:12 1078

原创 【2025CVPR-扩散模型方向】TKG-DM:免训练的色度关键内容生成扩散模型

摘要:本文提出TKG-DM,一种无需训练的扩散模型优化方法,通过操控初始噪声实现前景与纯色背景分离。核心创新包括通道均值偏移技术(调整噪声通道均值控制背景色)和高斯掩码融合策略(精确控制前景位置)。实验表明,该方法在FID/m-FID指标上提升超33%,媲美需微调的模型,且支持多前景生成和ControlNet集成。与现有方案相比,TKG-DM无需数据集或微调,在广告设计、视频编辑等需前景分离的场景具有应用潜力。论文同时指出了在复杂背景生成方面的局限性,并提出了未来改进方向。

2025-07-27 09:00:00 1001

原创 [2025CVPR:图象合成、生成方向]WF-VAE:通过小波驱动的能量流增强视频 VAE 的潜在视频扩散模型

《WF-VAE:基于小波能量流的视频变分自编码器》提出了一种新型视频压缩方法,通过小波变换分解视频信号并优化能量流路径,显著提升了潜在视频扩散模型(LVDM)的效率。该方法创新性地结合多级小波分析和CausalCache机制,在保持重建质量(PSNR 35.87)的同时,将吞吐量提高2倍、内存消耗降低4倍。实验表明,WF-VAE有效解决了现有方法的高计算成本和潜在空间不连续问题,为大规模视频生成提供了高效解决方案。

2025-07-26 20:09:41 222

原创 [2025CVPR-图象合成、生成方向]ODA-GAN:由弱监督学习辅助的正交解耦比对GAN 虚拟免疫组织化学染色

摘要:论文提出ODA-GAN框架,通过正交特征解耦和弱监督学习解决虚拟免疫组化染色中的关键问题。该方法包含三个核心组件:(1)基于UNI基础模型和Grad-CAM的弱监督分割管道,可在无专家标注下生成语义分割掩码(AUC达0.933);(2)双流对比学习策略(DPNCE),通过样本重划分解决病理一致性问题;(3)多层域对齐模块(MDA)提升染色真实性。在三个基准数据集上的实验表明,ODA-GAN在KID、FID等指标上均优于现有方法,视觉评估也证实其生成结果具有更高的真实性和病理准确性。该框架为虚拟染色提供

2025-07-26 19:55:31 102

原创 [2025CVPR-图象分类方向]CATANet:用于轻量级图像超分辨率的高效内容感知标记聚合

摘要:本文提出CATANet,一种基于内容感知令牌聚合的高效图像超分辨率网络。针对Transformer计算复杂度高的问题,该方法通过共享全局令牌中心并仅在训练阶段更新,结合子组划分策略和双注意力机制(组内自注意力IASA与组间交叉注意力IRCA),在降低计算量的同时有效捕获长距离依赖。实验表明,CATANet在轻量化设计(535K参数)下,PSNR显著提升(最高+0.33dB),推理速度达SPIN的5倍,且适用于移动设备。核心创新包括内容感知令牌聚合模块和双注意力机制,实现了性能与效率的平衡。 (149字

2025-07-25 21:55:59 998

原创 [2025CVPR-图象分类方向]SPARC:用于视觉语言模型中零样本多标签识别的分数提示和自适应融合

本文提出SPARC方法,针对视觉语言模型在零样本多标签识别中的性能瓶颈展开研究。通过分析发现,模型在复合提示下存在"OR-like"行为偏差,导致多标签识别准确率下降。SPARC创新性地提出双重解决方案:首先采用分数标准化技术消除图像级和提示级偏差,使mAP提升6-10%;其次设计复合提示生成与自适应融合策略,通过PCA分析选择第二高分数作为可靠指标,有效捕捉"AND-like"行为。实验表明,该方法在COCO等数据集上平均提升mAP 8-12%,且与现有方法具有良好

2025-07-25 21:37:36 924

原创 ​WaveToken:基于小波词元化的高效时序预测基础模型

本文提出WaveToken,一种基于小波变换的时间序列离散化方法,用于构建通用预测基础模型。通过多级小波分解、阈值处理和量化,将连续时间序列转化为1024个token的紧凑表示,在保持时频局部化特性的同时简化学习过程。在42个数据集上的实验表明,WaveToken在域内和零样本预测任务中均优于现有方法,尤其在处理非平稳数据和长时预测时表现出色。消融研究验证了小波族选择、词汇量等关键设计。该方法为开发高性能时间序列基础模型提供了新思路,但自回归解码效率有待提升。

2025-07-24 13:26:14 838

原创 [2025LCLR]AutoTCL:用于参数化增强用于时间序列对比学习模型

本文提出AutoTCL框架,通过参数化增强解决时间序列对比学习中的数据增强难题。传统基于预设规则的增强方法难以捕捉时间序列的复杂模式,AutoTCL利用因子化网络和变换网络自适应生成高质量视图,保留语义同时增加多样性。理论证明该方法能提升信息量并保持标签一致性,实验在6个预测和30个分类数据集上验证其优越性,平均MSE降低6.5%,分类准确率达0.742。框架兼容多种编码器,为时间序列表示学习提供了新思路。

2025-07-24 12:42:56 1076

原创 [2025CVPR-小目标检测方向]基于特征信息驱动位置高斯分布估计微小目标检测模型

本文提出了一种名为FIP-GDE的新型框架,用于解决微小目标检测中特征表示弱、区分度低的关键问题。该方法通过像素特征信息建模(PFIM)模块,基于信息熵理论无监督地识别信息量丰富的区域;并创新性地设计了位置高斯分布预测(PGDP)模块,通过动态调整协方差矩阵使微小目标获得更高权重。实验表明,该框架作为即插即用模块,在多个数据集上显著提升了微小目标的检测性能,尤其对2-32像素的目标效果突出,性能超越当前最优方法。核心创新在于直接从像素信息量角度增强特征表示,为微小目标检测提供了新思路。

2025-07-22 23:27:19 965

原创 [2025CVPR]ViKIENet:通过虚拟密钥实例增强网络实现高效的 3D 对象检测

ViKIENet论文摘要:ViKIENet提出一种高效的多模态3D物体检测框架,通过虚拟关键实例(VKIs)解决LiDAR点云稀疏性和传统虚拟点方法的高计算噪声问题。其核心创新包括:1)语义关键实例选择(SKIS),仅提取关键区域的虚拟点,减少90%计算量;2)多阶段融合模块(VIFF),结合BEV与RoI特征增强关键区域;3)深度校准模块(VIRA),抑制深度补全噪声。扩展版ViKIENet-R引入旋转等变特征,平衡精度与效率。实验显示,在KITTI、nuScenes等数据集上,ViKIENet以22.7

2025-07-22 23:05:26 1253

原创 [2024LCLR]MG-TSD:具有引导学习过程的多粒度时间序列扩散融合模型

本文提出MG-TSD模型,通过多粒度引导机制改进时间序列预测中的扩散模型。创新性地利用数据内在粒度层级(1小时→24小时)作为扩散过程约束,通过粗粒度数据正则化采样路径。模型采用共享降噪网络和基于KL散度的共享比率选择策略,在6个数据集上CRPSsum指标平均提升15%。实验证实多粒度引导能稳定预测、捕捉峰值特征,且适用于长期预测。研究揭示了扩散过程与数据平滑的数学关联,为无标签时间序列预测提供了新思路。

2025-07-21 13:00:33 712

原创 [2025CVPR-图象分类方向]基于DVHGNN的图像分类模型

DVHGNN是一种新型视觉架构,通过多尺度超图有效捕捉图像中的高阶相关性,同时降低计算开销。该架构采用多尺度超图构建和动态卷积机制,解决了传统方法(如ViG和ViHGNN)在计算效率和关系建模上的局限性。实验表明,DVHGNN在ImageNet-1K分类(83.1% Top-1准确率)、COCO目标检测(43.3% mAP)和ADE20K语义分割(46.8% mIoU)等任务中均优于现有方法,且计算效率更高(如DVHGNN-S的FLOPs比ViG-S低18%)。这一创新为视觉识别任务提供了更高效且强大的解决

2025-07-21 09:00:00 459

原创 [CVPR]DVFL-Net:用于时空动作识别的轻量级蒸馏视频调焦网络

摘要:本研究提出轻量化视频识别框架DVFL-Net,通过师生蒸馏机制将157M参数的Video-FocalNet压缩至22M。创新性采用时空解耦的焦点调制层替代自注意力,在UCF101等基准上达到88.4%准确率(仅比教师模型低0.5%),计算量降低87.7%(27 vs 220 GFLOPs)。实验表明,该框架在保持时空建模能力的同时显著提升效率,特别适合边缘设备部署,为视频理解任务提供新的轻量化解决方案。

2025-07-20 23:00:52 54

原创 基于卷积傅里叶分析网络 (CFAN)的心电图分类的统一时频方法

本研究提出CFAN架构,创新性地将傅里叶分析嵌入卷积层,通过CONV-FAN模块(含独立权重的正弦/余弦/GELU混合激活)实现端到端时频特征融合。在MIT-BIH(98.95%)、ECG-ID(96.83%)和Apnea-ECG(95.01%)三个ECG分类任务上均超越传统方法(SPECT/CNN1D/FFT1D),验证了周期性激活函数对生物医学信号的有效性。相比频谱图转换方法,CFAN避免了信息丢失,且参数量与1DCNN相当。该工作为时频敏感型信号处理提供了新范式,具有扩展至脑电、语音等领域的潜力。

2025-07-20 22:47:49 1110

原创 FAN-UNET:用于生物医学图像分割增强模型

本文提出FAN-UNet模型,通过结合傅里叶分析层(FANLayer2D)与自注意力机制,创新性地解决了医疗图像分割中的长程依赖和周期性建模问题。研究采用经典论文结构,详细阐述了Vision-FANBlock模块的设计原理,该模块能同时捕捉全局和周期性特征。在ISIC2017/2018数据集上的实验表明,FAN-UNet在mIoU(78.99%)、DSC(88.25%)等指标上优于主流模型,且通过消融实验验证了核心组件的有效性。该模型特别适用于皮肤病变、肿瘤分析等具有周期性纹理特征的医疗图像分割任务,展现了

2025-07-20 22:36:12 1101

原创 [故障诊断方向]基于二维时频图像和数据增强技术的轴承故障诊断模型

本文提出了一种基于连续小波变换(CWT)和生成对抗网络(GANs-QP)的轴承故障诊断方法。针对传统方法在特征提取和样本生成质量上的不足,创新性地将一维振动信号转换为二维时频图像,并采用QP-Div损失函数提升生成样本的真实性。实验表明,在CWRU标准数据集和实验室真实数据集上,该方法分别达到99.29%和99.35%的诊断准确率,显著优于传统数据增强方法。通过CWT-GANs-QP-CNN的端到端框架,有效解决了小样本条件下的过拟合问题,为旋转机械故障诊断提供了新思路。核心代码基于PyTorch实现,包含

2025-07-19 23:17:15 957

原创 [故障诊断方向]SNNs:针对小样本轴承故障诊断的孪生神经网络模型

本文提出一种基于孪生神经网络(SNN)与多源特征融合的电机轴承故障诊断方法,有效解决工业场景中的小样本和数据不平衡问题。方法创新包括:1)设计多阶段训练策略缓解SNN训练停滞问题;2)构建多尺度卷积模块增强特征提取能力;3)开发注意力机制实现多传感器特征融合。实验表明,在样本高度不平衡(10:1)时,该方法在公开和实验室数据集上的准确率分别达94%和93%,显著优于传统方法。核心贡献在于提供了一种鲁棒性强、可扩展的小样本故障诊断框架,并为多源数据融合提供了新思路。未来工作将探索更优化的参数调校方法和极端场景

2025-07-19 22:59:27 806

原创 [2025CVPR-目标检测方向] CorrBEV:多视图3D物体检测

本文提出CorrBEV框架,针对自动驾驶中多视图3D物体检测的遮挡问题,通过引入视觉和语言原型作为先验知识来补偿特征损失。该即插即用框架包含多模态原型生成器、相关引导查询学习器和遮挡感知训练器,采用深度相关操作实现高效知识融合。实验表明,CorrBEV在nuScenes数据集上显著提升基准模型性能(BEVFormer提升2.6%mAP),尤其对低可见性物体召回率提升8.7%,同时增强雪天等恶劣场景的鲁棒性。该方法为自动驾驶安全提供了有效的遮挡问题解决方案。

2025-07-18 22:57:18 1143

原创 [2025CVPR-目标检测方向]FSHNet:一种用于3D物体检测的全稀疏混合网络。

FSHNet是一种创新的全稀疏混合网络,用于解决3D物体检测中的长距离交互弱和中心特征缺失问题。该网络结合稀疏卷积的高效性和注意力机制的全局交互能力,通过SlotFormer块实现无限长距离交互,采用动态稀疏标签分配优化训练,并引入稀疏上采样模块增强细节。在Waymo、nuScenes和Argoverse2数据集上均达到SOTA性能,显著提升了大物体和小物体的检测精度。

2025-07-18 22:48:51 1139

原创 [2025CVPR-目标检测方向]SET:用于微小物体检测的光谱增强

本文提出SET框架解决微小目标检测难题。研究发现高频背景噪声是导致微小目标检测性能差的主要原因,通过频域分析发现抑制背景高频噪声可提升AP达15%。SET采用异构架构:分层背景平滑模块(HBS)通过自适应滤波抑制背景噪声,对抗扰动注入模块(API)增强目标特征显著性。实验表明,在AI-TOD等4个数据集上,SET将FCOS等检测器的微小目标AP最高提升3.2%,推理成本仅增加1%。该方法为自动驾驶等场景的微小目标检测提供了有效解决方案。

2025-07-17 10:00:00 2612

原创 [2025CVPR-图象检索方向]CCIN:用于合成图像检索的合成冲突识别和中和模型

本文提出了一种新的组合图像检索(CIR)框架CCIN,用于解决多模态查询中的组合冲突问题。该框架包含冲突识别(CCI)和冲突中和(CCN)两个核心模块:CCI利用大型语言模型显式识别参考图像与修改指令间的冲突属性;CCN通过双重指令机制分离并融合非冲突特征。实验表明,CCIN在FashionIQ、CIRR和Shoes数据集上的检索性能显著优于现有方法,平均Recall@K提升达2.44%。该工作首次系统化解决了CIR中的组合冲突问题,为多模态检索提供了新思路。

2025-07-16 22:08:10 988 1

原创 [2025CVPR-图像检索方向] COBRA:一种用于小样本自适应检索增强模型

本文提出COBRA(组合检索增强)方法,通过组合互信息优化框架解决少样本学习中的检索冗余问题。相比传统相似性检索,COBRA引入多样性指标,使用设施位置互信息(FLMI)和软类平衡约束,从大型辅助数据集中高效检索高质量样本。实验表明,在ImageNet等数据集上,COBRA在1-16样本设置下平均准确率提升0.4%-1.2%,且适配多种少样本学习技术。该方法为数据稀缺场景提供了有效的检索增强方案。

2025-07-16 21:55:06 963

提供了一个详细的Kali 2023安装教程,并附带了镜像资源

kali linux安装教程

2025-03-06

基于深度学习的故障检测,包含CNN\RNN\LSTM等神经网络

基于深度学习的故障检测,包含CNN\RNN\LSTM等神经网络

2025-03-06

智慧病房系统(呼叫系统)

智慧病房系统

2025-03-06

行人跌倒检测,安全监控系统,老年人安全监控

专注于行人跌倒检测,可作为毕业设计,包含一整套源码。

2025-03-06

基于Python的图书馆大数据可视化分析系统(含源码和论文)

基于Python的图书馆大数据可视化分析系统(含源码和论文)

2025-01-15

基于Hive的大数据分析与智能分类推荐系统-多媒体作品集管理解决方案

内容概要:该研究针对多媒体作品内容管理和个性化推荐的问题,结合Hive大数据技术和深度学习模型设计了一个多功能、智能的管理系统。系统包括作品上传与分类、OCR识别以及个性化推荐三大模块。首先,解决了多格式文件的兼容性和上传处理,保证不同类型作品的质量不受损失;然后,通过对上传的作品使用卷积神经网络和OCR技术,实现了高效的分类和信息提取;最后,在推荐引擎上采用了基于用户的协同过滤和内容匹配方法,提高用户的参与度和互动体验。研究还涉及到了MYSQL与HDFS之间的稳定数据同步,确保跨数据库间的数据流通性。 适合人群:适用于高校计算机专业学生特别是那些关注大数据技术发展及其实际应用的人群;同时也吸引希望从事多媒体作品集管理和展示工作的设计专业人士。 使用场景及目标:该项目旨在建立一套面向设计师的作品管理系统,使他们可以方便地上传作品,同时也能让访问者更容易找到自己感兴趣的素材;长远目标是为了推动多媒体领域的技术创新和服务质量提升。 其他说明:文中详细阐述了从系统框架构建到具体实施过程中面临的问题及解决方案,同时提出了未来发展方向。整个方案强调技术创新、用户体验和经济效益三个方面的平衡,并引用了大量的文献作为理论支持和实证依据。

2025-01-15

ToDESK安装包,用于远程写作的高效软件

ToDESK安装包,用于远程写作的高效软件

2025-01-15

python爬虫实战:猫眼数据

python爬虫实战:猫眼数据

2025-01-06

基于JAVA的智能货物追踪系统源码

基于JAVA的智能货物追踪系统源码

2025-01-06

基于Unet的树种分别识别模型

基于Unet的树种分别识别模型

2025-01-06

基于ZigBee+Wifi的婴儿床智能监控系统报告

基于ZigBee+Wifi的婴儿床智能监控系统报告

2025-01-06

婴儿床只能监控系统软件

婴儿床只能监控系统软件,涵盖了整个系统的全流程,包含了硬件组成和软件组成,以及系统相关需求。

2024-12-14

神经网络源码-GoogLeNet源码

GoogLeNet 是 Google 团队在 2014 年提出的卷积神经网络,荣获 ILSVRC 2014 图像分类竞赛的冠军。该网络通过引入 Inception 模块 提高了计算效率和分类性能。

2024-11-22

神经网络源码+AlexNet模型源码+人工智能

AlexNet 网络简介 AlexNet 是深度学习发展史上的一个里程碑,由 Alex Krizhevsky 等人在 2012 年提出,并在 ImageNet 大规模视觉识别挑战赛(ILSVRC)中取得了压倒性的胜利。该网络引入了一系列关键技术,大幅提高了深度学习模型的性能。

2024-11-22

人工智能KAN神经网络+python代码

KAN: Kolmogorov-Arnold神经网络,通过引入可学习的激活函数和无线性权重的设计,克服了传统神经网络在处理复杂数据时的局限性。其在准确性、参数效率和可解释性等方面的优势,使其成为对多层感知器(MLP)的有力替代方案,为深度学习模型的进一步发展提供了新的方向和机会。KAN 网络不仅在机器学习领域具有广泛的应用潜力,还能够为科学研究提供重要的支持,促进数学和物理等领域的发现与创新。适用于科研工作者,学生,论文创新点研究,数据拟合,分类领域研究。

2024-11-22

基于PyTorch的故障检测CNN模型训练与应用

内容概要:文章展示了一个用于故障检测的深度学习项目,采用PyTorch构建了一个一维卷积神经网络(CNN),针对工业故障诊断问题。文中详细地解释了从数据加载、预处理、模型搭建、训练到性能评估的全过程。通过归一化原始数据集,设计多层一维卷积与全局最大池化的网络架构,并应用交叉熵作为损失函数,利用Adam算法进行梯度下降最优化,最终实现了高精度的分类任务。 适用人群:对于机器学习尤其是深度学习领域感兴趣的科研人员或者工程师,特别是那些想要深入了解或实操如何使用深度学习技术解决实际问题如工业设备状态监测的研究者和技术开发者。 使用场景及目标:本项目的目的是为了提高机械设备运行状态监控系统的效率与准确性,可以应用于制造业、电力等行业,帮助实时监控设备健康状况,及时发现潜在故障点,从而减少非计划停机时间和维修成本。 其他说明:除了提供了一套完整的解决方案之外,本文还展示了如何计算模型的参数量,以便于控制模型复杂度。此外,文中也包含了模型训练过程中每轮迭代的耗时记录,这对于大规模数据集下优化算法选择具有重要参考价值。

2024-11-22

基于一维CNN和LSTM的融合网络用于时间序列数据的预测分类

它们各自具有独特的优势,并在不同的应用场景中发挥着重要作用。 一维卷积神经网络(1D CNN)的优势: 局部连接和参数共享:CNN通过局部连接和参数共享的方式减少了模型参数,这不仅降低了模型的复杂度,还减少了过拟合的风险 。 特征提取能力:CNN擅长自动学习输入数据的特征,尤其在图像处理领域,能够捕捉到图像中的局部特征,如边缘、纹理等,并用于分类和识别 。 空间信息保留:与全连接网络相比,CNN在处理图像时不会丢失空间信息,这对于图像识别等任务至关重要 。 降维和避免过拟合:通过池化层(Pooling),CNN可以有效地降低数据维度,减少计算量,同时避免过拟合 。 多维数据处理:CNN不仅可以处理二维图像数据,还可以通过一维卷积处理序列数据,如音频信号,使其能够捕捉序列数据中的局部模式和特征。 长短期记忆网络(LSTM)的优势: 解决梯度消失问题:LSTM通过引入门控机制(遗忘门、输入门、输出门)有效地解决了传统RNN在处理长序列时的梯度消失问题,能够捕获并利用长期依赖关系 。 记忆能力:LSTM的细胞状态(Cell State)允许信息在链上稳定传递,减少了梯度消失的问题,使其能够

2024-10-19

机器学习基于鸢尾花数据集的决策树与随机森林分类模型对比:特征工程、模型训练及性能评估

内容概要:本文介绍了鸢尾花数据集及其分类任务,详细描述了数据预处理、特征工程、模型建立与评估的完整流程。首先对鸢尾花数据集进行了简要介绍,该数据集包含150个样本,每个样本有4个特征(花萼长度、花萼宽度、花瓣长度、花瓣宽度),并分为三个类别(山鸢尾、变色鸢尾、维吉尼亚鸢尾)。接着进行了数据标准化和划分(70%训练集,30%测试集)。随后建立了决策树和随机森林两种分类模型,并对模型进行了训练和预测。最后通过混淆矩阵、准确率曲线、损失函数曲线以及精确率、召回率、F1-Score等指标对两个模型进行了全面的对比分析,结果显示随机森林模型性能优于决策树模型,特别是在迭代过程中表现更加稳定。 适合人群:对机器学习感兴趣的研究人员或学生,尤其是希望深入了解分类算法及其应用的人群。 使用场景及目标:①理解鸢尾花数据集的基本结构和特点;②掌握数据预处理方法如标准化、数据集划分;③学习如何构建和训练决策树与随机森林模型;④通过多种可视化手段对比分析模型性能,选择最优模型。 其他说明:本文不仅提供了完整的代码实现,还详细解释了每一步骤的目的和意义,有助于读者更好地理解和实践机器学习分类任务。建议读者在学习过程中亲自运行代码,观察模型训练过程和结果变化,从而加深对模型的理解。

2025-04-28

医学领域基于CatBoost与贝叶斯优化的高原脑水肿风险预测模型研究:多模态数据挖掘与性能评估

内容概要:本文研究了高原脑水肿(HACE)风险预测模型,基于CatBoost与贝叶斯优化算法,提出了CatBoost_BayesOpt模型。该模型利用5000条多模态特征数据(MRI指标、生理监测参数及环境因素),经过缺失值填补与标准化预处理,采用高斯过程代理模型和Expected Improvement采集函数,迭代搜索超参数。实验结果表明,CatBoost_BayesOpt模型在AUC、Accuracy、F1等多项指标上优于随机森林、XGBoost、LightGBM等模型,能够准确挖掘出胼胝体水肿、血氧波动幅度、微出血灶数量等关键预测因子,为早期干预提供依据。 适合人群:医学研究人员、数据科学家、从事高原健康监测的从业人员。 使用场景及目标:①适用于高原地区的健康监测系统,提前预测个体发生高原脑水肿的风险;②帮助医生在临床诊断中提前识别高风险患者,制定个性化预防和治疗方案。 其他说明:本文展示了机器学习在高原脑水肿预测中的应用潜力,未来可以结合更多临床影像、时序数据和多任务学习,进一步提升模型的泛化能力和预测精度。

2025-04-28

【软件工程、计算机专业】基于Java SSM的图书管理系统开发与实现:需求分析、架构设计及性能优化摘要

内容概要:本文探讨了基于Java SSM框架的图书管理系统的开发与实现,旨在解决传统人工图书管理方式繁琐、易混淆、记录困难的问题。文中详细介绍了Java SSM框架的概述、特点及其应用领域,为系统设计和开发提供了基础。系统需求分析包括用户需求、功能需求和非功能需求,涵盖了用户和管理员的各类操作。系统架构采用三层架构(表现层、业务逻辑层、数据访问层),并使用RESTful风格接口设计。数据库设计部分详细描述了实体关系、表结构、索引和约束的设置。开发过程中实现了用户管理、图书管理、借阅管理、归还管理和数据统计分析等模块。最后,通过单元测试、集成测试、系统测试和性能测试确保系统的稳定性和可靠性,并提出了优化策略,如数据库优化、代码优化和系统资源优化。研究结果表明,该系统具有较高的可行性和实用性。 适合人群:具备一定编程基础,尤其是对Java SSM框架有一定了解的研发人员、计算机专业学生和图书馆管理人员。 使用场景及目标:①适用于学校图书馆等需要高效管理图书的机构;②帮助管理员轻松进行图书的增删改查、借阅管理、归还管理等操作;③为用户提供便捷的借阅、查询和个性化服务;④通过性能评估与优化,提升系统的响应速度和稳定性。 其他说明:本文不仅详细描述了系统的开发过程和技术实现,还对未来的研究方向进行了展望,如引入图书推荐机制、优化系统性能、提升安全性和可靠性,以及开展用户行为研究等。建议读者在学习过程中结合实际操作,深入理解各模块的功能和实现原理,并关注系统的优化策略。

2025-04-28

基于机器学习的高原脑水肿识别模型代码

基于机器学习的高原脑水肿识别模型代码

2025-04-28

【无人机识别技术】基于射频信号与改进视觉Transformer的无人机检测与识别系统设计

内容概要:本文档为中国大学生计算机设计大赛人工智能挑战赛的作品报告,聚焦于基于射频传感器与改进视觉Transformer的无人机检测与识别方案。文档首先阐述了无人机广泛应用带来的公共安全和国防安全挑战,强调了无人机识别技术的重要性。随后介绍了现有无人机识别技术的分类及其局限性,包括光学、声学、雷达和射频检测技术。本文提出的方案通过IQ数据解析、时频分析、频谱图生成与保存和无人机识别四个核心环节实现精准识别。创新点包括采用改进的视觉Transformer模型、频段定位技术和FPGA加速,实现了96.2%的识别准确率、低附带损伤和低于50ms的推理延迟。 适用人群:对无人机识别技术感兴趣的科研人员、高校学生及从事无人机防御技术研发的专业人士。 使用场景及目标:①研究和开发无人机识别系统,提升无人机检测的准确性、鲁棒性和实时性;②应用于公共安全和国防安全领域,保障空域安全;③为后续的反制措施提供技术支持,实现精准反制。 其他说明:文档详细描述了技术方案的各个环节,包括信号处理和深度学习目标检测两大部分。信号处理部分涵盖IQ解析、降噪与时频转换,深度学习部分则介绍了局部感知模块和多任务学习框架。文档还展示了系统实现的具体步骤,如STFT原理与应用、模型架构、训练样本及实时性优化。最后,文档总结了作品的特色与创新点,展望了未来发展方向,如多模态融合、飞行状态监测和分布式计算技术的应用。

2025-04-27

基于Python的手势识别

基于Python的手势识别

2025-03-31

大模型使用指南、DEEPSEEK实战指南

大模型使用指南、DEEPSEEK实战指南

2025-03-28

基于zigbee和STM32的环境监测监控系统

基于zigbee和STM32的环境监测监控系统

2025-03-28

毕设论文模板(LaTeX版本)

毕设论文模板(LaTeX版本)

2025-03-28

物联网工程、实验报告,智能家居

物联网工程、实验报告,智能家居

2025-03-28

基于python的网络舆情分析系统

基于python的网络舆情分析系统

2025-03-28

基于Nodemcu智能蔬菜滴灌系统

基于Nodemcu智能蔬菜滴灌系统

2025-03-28

《Java 面试进阶指北 》 质量很高,专为面试打造

《Java 面试进阶指北 》 质量很高,专为面试打造

2025-03-28

机器学习、数据结构与算法、计算机基础、前端开发

机器学习、数据结构与算法、计算机基础、前端开发

2025-03-28

毕设源码+论文,计算机、软件工程、智慧物业系统

毕设源码+论文,计算机、软件工程、智慧物业系统

2025-03-28

毕设源码+论文,计算机、软件工程专业

毕设源码+论文,计算机、软件工程专业

2025-03-28

毕业设计源码+计算机、软件工程专业毕设(机票订购系统)

毕业设计源码+计算机、软件工程专业毕设(机票订购系统)

2025-03-28

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除