自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(195)
  • 收藏
  • 关注

原创 ICCV 2025 | 仅需少量样本!华科大推出工业异常图像生成新框架SeaS

构建一个统一的生成模型,该模型仅需少量样本,即可同时生成多样化的异常图像、与真实产品一致的正常图像、以及像素级精确的异常掩码。现有方法或功能受限(仅生成异常或正常图像),或效率低下(需为每种异常训练独立模型),且无法生成高质量掩码。论文的核心技术贡献是方法。该方法基于一个共享的U-Net,通过以下设计实现目标:1)非平衡异常文本提示 (Unbalanced Abnormal Text Prompt, UA),使用一个正常产品词元(token)和多个异常词元来解耦正常与异常语义;2)

2025-08-14 14:56:55 248

原创 ICCV 2025 | 南大提出新机制,终结CLIP持续学习中的灾难性遗忘,刷新SOTA!

本文旨在解决基于CLIP的类增量学习(CIL)中,模型因仅匹配类别名而忽略丰富上下文信息,并因此加剧灾难性遗忘的问题。核心技术贡献是提出了框架。该框架通过一个双分支注入调优机制,在训练时(on-the-fly)注入外部知识:视觉分支通过数据增强丰富视觉特征,文本分支则利用GPT-4生成并编码具有判别性的类别描述。此外,在推理时引入后调优知识注入,通过对预测的Top-k结果生成成对判别性特征来进行重排序,从而校准预测。

2025-08-13 15:50:20 370

原创 STOC 2025 | 清华段然团队超越经典 Dijkstra 算法,40年“排序障碍“被粉碎,打破图灵奖得主证明的普遍最优性

研究提出了一种确定性算法,在比较-加法模型下,针对具有实数非负边权的有向图单源最短路径(SSSP)问题,时间复杂度为Omlog23nOmlog2/3n,首次打破了Dijkstra算法在稀疏图上OmnlognOmnlogn的时间界限,证明Dijkstra算法并非SSSP的最优算法。该算法融合了Dijkstra算法与Bellman-Ford算法的优势,通过递归分区技术和前沿顶点集缩减方法,减少了排序操作带来的时间开销,同时也是首个在无向图中打破O。

2025-08-11 15:24:42 927

原创 南大周志华团队最新力作:一个算法适用所有函数,为在线学习带来全新可能?

本文提出了具有双重适应性的通用算法框架,通过元专家框架动态创建和聚合专家,实现了对函数性质(凸、指数凹、强凸)和环境变化的自动适应。该框架采用二阶界元算法和休眠专家技术,通过增加专家数量或增强专家能力两种策略构建专家,在在线凸优化和复合优化场景下,均能同时最小化多种凸函数的自适应遗憾,且允许函数类型在轮次间切换,理论分析验证了算法的有效性和最优性。

2025-08-08 12:09:46 777

原创 ICML 2025 | 标点符号影响LLM记忆能力,微调处理带来显著性能提升

本文旨在解决 Transformer 长序列推理时 KV 缓存随长度二次膨胀的问题。作者发现分隔符 token(如“.”、“,”)在注意力中权重显著高于语义 token,推测其已将所在片段信息压缩于自身。据此提出SepLLM:一种仅保留aaa个)、(全部)与nnn个)KV 的稀疏注意力机制;其余 token 在注意力中被掩码。

2025-08-05 12:10:10 950

原创 ICCV 2025|可灵团队新作 ReCamMaster:从单视频到多视角生成,多角度看好莱坞大片

ReCamMaster提出了一种基于单条输入视频,生成新相机轨迹下再渲染目标视频的生成框架。核心在于将源视频和目标视频的潜在表示按帧维度拼接,充分利用Transformer跨帧-跨空间的自注意力机制,通过简单而高效的视频条件注入,重用预训练文本到视频模型的强大生成能力。

2025-08-04 12:22:14 1245

原创 ICLR 2025 | RLHF本质是模仿学习?新框架DIL在多任务上全面超越DPO,无需调参、性能更强!

本研究从模仿学习的角度出发,探讨大型语言模型与偏好数据的对齐问题。研究者建立了人类反馈强化学习 (RLHF) 与模仿学习 (IL) 之间的紧密理论联系,揭示了RLHF在偏好数据分布上隐式地执行模仿学习。基于这一联系提出了DIL,这是一个直接优化模仿学习目标的原则性框架。DIL为对齐问题提供了一个统一的模仿学习视角,将现有的对齐算法作为特例包含在内,同时自然地引入了新的变体。通过将 IL 和 RLHF 联系起来,DIL 为与 RLHF 的对齐提供了新的见解。大量实验表明,DIL 在各种具有挑战性的基准测试上优

2025-07-31 11:16:24 1074

原创 ICCV 2025|南洋理工提出UV-CoT:摆脱人工标注依赖,偏好优化重塑图像级思维链

论文提出UV-CoT,首个通过偏好优化实现无监督视觉CoT推理的框架。自动偏好数据生成:目标模型(如LLaVA-1.5-7B)生成候选边界框,评估模型(如OmniLLM-12B)基于响应质量评分排序,构建偏好对;sDPO损失函数:扩展标准DPO,引入偏好分差Δr\Delta_rΔr​LsDPOθ−Elog⁡σβlog⁡πθyw∣xπrefyw∣x−βlog⁡πθyl∣xπrefyl∣x−ΔrLsDPO​θ。

2025-07-30 11:23:35 782

原创 CVPR 2025 | 华科&精测:无需人工标注也能精准识别缺陷类别,AnomalyNCD 实现多类别缺陷自主分类

华中科技大学慢工团队提出创新工业缺陷检测方法AnomalyNCD,实现无需训练和标注的自主化质检。该方法通过三大技术革新解决传统工业质检难题:主元素二值化(MEBin)自动提取缺陷主体,掩膜引导表征学习聚焦真实缺陷区域,以及区域面积加权合并实现精准分类。实验表明,AnomalyNCD在MVTecAD和MTD数据集上各项指标显著提升(F1最高提升12.8%),并能与主流异常检测模型灵活集成。该技术为工业质检提供了高迁移性的自主化解决方案,助力产线智能化升级。

2025-07-29 17:22:25 971

原创 Nature子刊 | 边也能做注意力?剑桥大学打造 Edge-Set Attention,实现图学习与注意力的双向奔赴

近年来,transformer架构在图学习领域中的应用日益增多,这些模型架构的核心是利用注意力机制运算代替传统的信息传递(message pass)方法。然而,有多项研究指出,由于消息传递往往依赖于显示的图结构,且多数时候transformer的模型在预处理、参数数量、计算成本上较为复杂,基于transformer的新图学习模型架构与传统的图神经网络(GNN)相比,并没有在性能效果、可扩展性及复杂性上体现出明显的优势。

2025-07-23 12:15:16 952

原创 CVPR 2025 | 港大 全新语义分割标杆 SegMAN :状态空间模型与局部注意力双剑合璧,全面超越SOTA!

在计算机视觉任务中,语义分割(Semantic Segmentation)是一项基础且关键的技术,它需要对图像中的每一个像素进行分类,以理解图像中不同区域的语义信息。全局上下文建模:建立长距离依赖,理解整体场景结构局部细节建模:捕捉细粒度特征与边界信息,区分相邻语义区域多尺度特征提取:适应类内尺度变化,增强类间区分度然而,当前主流方法往往难以同时兼顾这三者。为解决上述问题,香港大学计算与数据科学学院的研究团队提出了一种全新架构——SegMAN,通过局部注意力与动态状态空间模型。

2025-07-22 11:25:51 820

原创 ICML 2025 | Preference Optimization登场,用偏好信号重塑 强化学习 效率与精度上限!

近年来,强化学习(Reinforcement Learning, RL)在解决组合优化问题(Combination Optimization Problems, COPs)中的应用已经取得了显著进展。与传统的启发式算法不同,RL不依赖于人类专家进行规则制定,而是通过与环境间的交互,从数据中自发地探索出近似最优策略,这样的特点也使得RL成为求解旅行商问题(Travelling salesman problem, TSP)

2025-07-18 11:42:58 802

原创 CVPR 2025 | 西湖团队领衔打造风格迁移新标杆:即插即用 StyleStudio,让文本提示与图像风格“双管齐下“

在计算机视觉与生成模型领域,图像风格迁移(Style Transfer)是一个经典但充满想象力的研究方向,其目标是在保留图像结构和内容的基础上,将参考图像的风格特征(如色彩、纹理、笔触等)迁移到目标图像中。随着扩散模型(Diffusion Models)的兴起,研究人员试图利用文本提示(Text Prompts)结合风格图像,实现更加灵活、可玩性更丰富的文本驱动风格迁移(Text-Driven Style Transfer)。尽管现有各种模型已经取得了一定成效,但他们普遍存在以下问题:风格的过拟合。

2025-07-17 11:32:39 721

原创 CVPR 2025 | 清华团队打造轻量级网络新范式:即插即用 LSNet 让模型小巧却更精确

如今各种视觉网络设计,包括卷积神经网络(Convolutional Neural Network)和视觉Transformer(Vision Transformer),都已经在计算机视觉领域取得了显著成效。但是这些网络中复杂的计算过程,又让我们难以进行实地部署,为实时应用造成困难。研究人员试图从将模型轻量化或设计更高效的神经网络结构上入手解决上述问题,然而现有的模型在进行token混合时主要利用自注意力机制和卷积计算相结合,在轻量级网络中会造成性能上的限制,无法达到预算与实际效率间的最优平衡。

2025-07-16 11:14:06 1006

原创 CVPR 2025 | 顶会重头戏,当线性建模遇上全局注意力,MambaVision 在 CV 领域杀出新一代 SOTA

Nvidia团队在2025CVPR会议上提出了一种新型混合视觉模型MambaVision,结合了Mamba状态空间模型(SSM)和Transformer架构的优势。该模型通过将Mamba中的因果卷积替换为普通卷积,并设计对称分支结构来补偿SSM带来的信息损失,显著提升了在视觉任务中的性能。实验结果显示,MambaVision在ImageNet-1K图像分类任务中达到84.2%的Top-1准确率,在目标检测、实例分割和语义分割等下游任务中也展现出优越性能。该研究为Mamba模型在视觉领域的应用提供了新思路,展

2025-07-15 10:52:07 812

原创 ICML 2025 | Transformer 性能大提升:CCA-Attention 替代自注意力模块,LLM长文本建模突破

摘要 本文提出了一种新型注意力机制——核心上下文感知注意力(CCA-Attention),用于解决大语言模型在长上下文建模中的冗余信息与计算效率问题。该方法通过全局感知池化模块压缩冗余信息,结合局部保留模块维持细粒度上下文,并通过可微分融合策略平衡全局与局部信息。实验表明,CCA-Attention在计算效率(复杂度降至O(Lm+Ls))和性能上均优于传统方法,且支持灵活微调策略,可无缝集成现有预训练模型。代码已开源,适用于Llama、GPT等主流架构。

2025-07-14 11:55:13 793

原创 从 AdamW 到 C-AdamW:训练更稳,只需一行代码即可提升训练效果!

优化器是深度学习模型训练的核心组成。尽管 Adam 和 AdamW 等基于动量的优化器已经成为默认选择,随着大语言模型(LLM)等任务的模型参数持续扩展、训练成本不断增加,其在训练效率与收敛性方面的瓶颈逐渐显现。近年来,虽然如 Lion、Adan、SHAMPOO 等一系列新优化器相继被提出,但大多存在实现复杂、超参数敏感或开销较大等问题,难以替代 AdamW 的广泛地位。在此背景下,提出一种无需重构优化器结构、能够普适提升训练性能的增强策略,成为当前优化研究的关键突破口。损失函数的单调下降性;

2025-07-11 12:22:46 3772

原创 Meta新注意力机制给 Transformer 升了级!底层架构的革命!

为回应这一挑战,本文提出了用三线性(trilinear)函数替代传统的点积注意力(dot-product attention)机制。标准 Transformer 中,每个 query 通过点积获取 key 的相关性。而 2-simplicial 注意力引入第三个向量(第二组 key),构成更高阶的三元交互。这一机制本质上从“一维边”跃迁为“二维面”的信息建模方式,显著增强了注意力机制对复杂关系的捕捉能力。

2025-07-10 11:00:43 959

原创 邱锡鹏老师团队重磅!首次证明 SFT 与 DPO 竟是同一枚硬币的两面,LLM 后训练认知被彻底颠覆!

论文提出统一理论框架,证明监督微调(SFT)与直接偏好优化(DPO)均在最优策略-奖励子空间中运行,SFT是隐式奖励学习的特例。传统SFT中KL散度项在优化时退化为常数,导致模型更新缺乏约束,通过降低SFT学习率(如Llama3-8B降至5×10⁻⁶)可提升Post-DPO模型性能,相对增益达25%。此外,基于Pearson χ²、Squared Hellinger等f-散度推导的替代SFT目标能保留KL项,进一步提升模型表现,且LLM对数几率在SFT中可作为隐式奖励的Q函数,为后训练提供理论支撑。

2025-07-09 09:57:59 602

原创 昆昆爆大料!LeCun 瞒着 Meta 搞 “世界模型”,PEVA 让 AI 用 “人体视角” 预测未来

摘要 Yann LeCun团队提出PEVA模型,通过人体动作预测第一人称视角视频。该模型采用结构化动作表示与条件扩散Transformer架构,在大规模Nymeria数据集上训练,实现了从人类视角对真实环境动态的系统性建模。实验表明,PEVA在单步和长期预测中均优于基线模型,LPIPS、DreamSim和FID指标分别提升3%-6%,尤其在16秒长时预测中仍保持高视觉连贯性。研究还验证了模型对原子动作(如导航和手部运动)的细粒度控制能力,为具身智能的视觉预测与规划提供了新范式。这一成果标志着"世界

2025-07-08 10:23:50 1002

原创 周志华团队新作:LLM不再需要奖励模型?我们已经“预训练“了它!首次理论证明RL对LLM有效性

摘要: 南京大学团队提出“内生奖励”(Endogenous Reward)新理论,揭示大语言模型(LLM)通过next-token预测训练时,其输出logits已隐含通用奖励函数。研究表明,该函数等价于逆强化学习推导的奖励,可直接用于对齐优化,无需额外训练奖励模型。理论证明,内生奖励能将强化学习误差从O(H²)降至O(H),显著提升稳定性。实验显示,该方法在多个基准任务上超越传统奖励模型和LLM-as-a-Judge框架,如MATH-lighteval任务性能平均提升5.8%。这一发现为LLM对齐提供了高效

2025-07-07 17:50:32 915

原创 比Transformer还快?新型递归模型Comba横空出世,CV与NLP双双刷新SOTA!

Comba提出了一种创新的闭环控制双线性RNN架构,通过引入输入/输出反馈校正机制和SPLR状态衰减矩阵设计,显著提升了超长序列建模的效率与性能。该方法在状态更新和输出生成两个阶段实现精细记忆管理,结合块级并行技术将推理速度提升约40%。实验表明,Comba在语言建模(WikiText-103困惑度降低10%)、视觉任务(ImageNet分类准确率提升0.5%)等多个基准测试中优于现有线性注意力和状态空间模型,尤其在回忆密集任务上表现突出。该研究为突破Transformer的推理瓶颈提供了新思路,未来可进一

2025-07-03 16:07:43 682

原创 PINN × KAN 联动成功!可解释物理建模新范式轻松拿捏SCI一区Top

摘要:物理信息神经网络(PINN)因MLP的"谱偏差"问题在多尺度建模中存在局限。近期研究通过引入Kolmogorov-Arnold网络(KAN)取得突破:混合并行KAN-MLP架构(HPKM-PINN)采用动态权重平衡机制,在典型PDE求解中相对误差降低2个数量级;KAN信息神经网络(KINN)利用B样条基函数特性,有效处理异质材料和逆问题。这些方法在航空航天等对可解释性要求高的领域展现潜力,但复杂边界问题中的性能仍有提升空间。相关研究为物理建模提供了新思路,11篇前沿成果的整理为理论

2025-06-06 11:05:02 817

原创 想发顶刊?特征工程这些热门方向你必须知道!(特征提取+特征选择+特征融合+......)

特征工程正推动机器学习进入"知识增强"新阶段。针对高维复杂数据,研究提出三大创新方法:FSFC算法结合功能主成分和自适应DAL算法,实现多变量纵向数据的高效特征选择和分类;CVOCA加速器通过合成波长技术进行复杂值特征提取,计算速度显著提升;EchoVideo模型利用多模态特征融合模块IITF,实现文本引导的身份保持视频生成。这些方法在工业预测、遥感分析和视频生成等领域展现出强大潜力,揭示了特征工程在强化智能系统表征能力方面的关键作用。

2025-06-05 11:05:26 682

原创 CVPR 2025 | 港科大 提出MultiGO:单图重建逼真3D人体,精度超越所有SOTA!

本文针对从单目图像重建3D着衣人体这一研究任务展开探讨。由于单视图输入存在固有歧义性,现有方法多借助预训练的SMPL(-X)估计模型或生成模型为人体重建提供辅助信息。然而,这些方法仅能捕捉人体的整体几何结构,却忽略了特定的几何细节,进而导致骨骼重建不准确、关节位置错误以及衣物褶皱不清晰等问题。为解决上述问题,本文提出了一种多层次几何学习框架。骨骼层增强模块关节层增强策略以及褶皱层细化模块。

2025-06-04 11:36:01 961

原创 顶会最爱的注意力机制,我整理了2025最新魔改方案,高效涨点!

在人工智能领域,注意力机制模拟人类“选择性关注”的认知能力,使模型能够聚焦关键信息,从而提升任务表现,在计算机视觉、自然语言处理等方向展现出巨大潜力。传统CNN与RNN在建模长距离依赖方面存在局限,而注意力机制通过“动态权重分配”有效增强特征表达能力,成为Transformer及其变体的核心思想。当前研究正致力于解决其计算效率、局部与全局信息平衡、多模态融合等挑战,推动注意力机制向更轻量、更具泛化能力的方向发展。理解其内在逻辑,有助于把握深度学习的发展脉络,并加速实际应用落地。

2025-06-03 12:01:42 1284 1

原创 改进Transformer就能入选 CVPR!这份人人都能用的魔改Transformer创新点,学到就是赚到!

摘要:Transformer架构在AI领域应用广泛,但其注意力机制的高计算复杂度限制了长序列处理效率。本文精选5种高效Transformer改进方案:1)ACWI-Former融合小波变换与自适应注意力机制;2)MambaVision混合Mamba与Transformer模块;3)HyperKAN基于KAN定理重构网络层;4)Spiking Resformer结合脉冲神经网络与自注意力;5)太阳能预测模型利用Transformer处理多维度时序数据。这些方案通过算法创新与架构优化,在视觉、时序分析等任务中实

2025-05-28 11:36:01 836

原创 2025年强化学习依然会是重点研究方向!登上《Nature》正刊!

强化学习技术正加速革新,在自动驾驶、机器人控制等领域展现强大决策能力。该领域呈现三大趋势:1)通用化发展,如Dreamer算法实现150+任务通用决策;2)效率提升,RLHF成为工业界焦点;3)多智能体协同演进,在5G网络等场景释放价值。前沿研究包括:Nature论文提出的第三代Dreamer算法、AAAI论文的序列奖励建模方法、样本效率优化的DeepSeek-R1模型,以及5G负载均衡的多智能体框架。这些突破推动RL与神经科学、边缘计算等交叉创新,为研究者提供丰富机遇。(149字)

2025-05-27 14:05:15 1738

原创 高效特征提取之道!“注意力+多尺度卷积”这组模型搭配你必须掌握!助你抢发Nature

计算机视觉领域正聚焦多尺度特征提取与注意力机制融合的研究。主流方法通过并行多尺寸卷积核(1×1至5×5)捕获不同粒度特征,并结合通道/空间注意力动态加权关键信息,显著提升图像识别性能。最新研究体现在三个方面:1)多尺度卷积增强局部特征多样性;2)混合注意力机制实现全局-局部特征优化;3)轻量化架构设计(如MobileNet基模型)。典型应用包括小样本分类(CA-EGNN算法)、路面缺陷检测(MANet网络)等场景,在保持精度的同时降低计算成本。当前12篇顶会论文显示,该方向正向多分支优化、Transform

2025-05-26 11:48:54 639

原创 何恺明团队新作,MeanFlow:无需预训练、无需蒸馏、不搞课程学习,即可完成生成!

何恺明团队提出了一种名为MeanFlow的单步图像生成框架,通过引入平均速度的概念来表征流场,显著提升了一步生成模型的性能。MeanFlow框架基于平均速度与瞬时速度之间的恒等式,设计了自洽的神经网络训练机制,无需预训练、蒸馏或课程学习。实验结果表明,在ImageNet 256×256数据集上,MeanFlow通过单次函数评估(1-NFE)实现了3.43的FID值,显著优于现有的一步扩散/流模型,并大幅缩小了一步模型与多步模型之间的性能差距。该研究为生成模型提供了新的理论视角,具有广泛的适用性和可扩展性。

2025-05-23 11:38:48 1275

原创 顶会青睐,2025年好发论文的方向——多模态特征融合!

多模态特征融合是人工智能领域的关键技术,旨在整合文本、图像、语音等不同模态的数据,以挖掘深层关联并提升模型性能。早期方法依赖简单拼接,难以处理模态间的巨大差异,而深度学习虽能实现动态交互,却面临信息冗余与模态特性模糊的挑战。技术演进从单任务适配走向多层次交互,多模态大模型(MLLMs)通过分层融合显著提升了生成与推理能力,为内容创作、智能交互等领域带来新突破。本文提供了12篇多模态特征融合相关论文和代码,涵盖顶刊顶会研究成果,为研究与实践提供参考。其中,EchoVideo模型通过多模态特征融合模块IITF和

2025-05-22 14:18:29 1104

原创 CVPR 2025 | 清华华科大联手!INP-Former刷新工业检测天花板,单图秒级检测异常!

该研究提出了一种名为INP-Former的新型异常检测方法,旨在解决现有方法依赖训练集正常参考导致的对齐难题。研究者观察到,即使在异常图像中也存在有价值的正常信息,且这些信息与异常同属同一图像,可能更易于对齐。基于此,INP-Former直接从测试图像中提取内在正常原型(INPs),而非依赖训练集的外部正常性。具体而言,该方法通过INP提取器对正常标记进行线性组合以表示INPs,并引入INP一致性损失确保INPs准确表征测试图像的正常性。

2025-05-21 11:25:28 935

原创 重大突破!港大&字节:DanceGRPO,首个统一视觉生成的强化学习框架发布!

本文介绍了 DanceGRPO,这是首个将群体相对策略优化(GRPO)适配到视觉生成范式的统一框架,实现了跨两种生成范式(扩散模型和整流流)、三项任务(文本到图像、文本到视频、图像到视频)、四种基础模型(Stable Diffusion、HunyuanVideo、FLUX、SkyReels-I2V)和五种奖励模型(图像 / 视频美学、文本 - 图像对齐、视频运动质量和二元奖励)的单一强化学习算法。DanceGRPO 是首个能够在不同生成范式、任务、基础模型和奖励模型之间无缝适配的基于 RL 的统一框架。

2025-05-20 11:10:48 1005

原创 创新点!贝叶斯优化、CNN与LSTM结合,实现更准预测、更快效率、更高性能!

在能源与环境领域,时空数据预测面临特征解析与参数调优的双重挑战。CNN-LSTM混合模型通过卷积神经网络(CNN)提取空间特征,长短期记忆网络(LSTM)捕捉时序依赖,实现深度建模。然而,混合模型的超参数调优复杂,传统方法效率低且易陷局部最优。贝叶斯优化通过概率模型与采集函数,对超参数空间进行高效全局搜索,以有限迭代逼近最优解,显著降低调优成本。结合贝叶斯优化的CNN-LSTM模型,既能通过分层结构解析复杂数据的时空规律,又能提升参数配置效率,兼顾精度与效能。这一组合为高维动态系统的预测需求提供了新方案,增

2025-05-19 11:15:42 1253

原创 视觉Transformer(ViT ):它凭什么超越CNN,看懂这篇文章你就什么都不缺了!

视觉Transformer(ViT)在计算机视觉领域取得了显著进展,通过自注意力机制建模全局依赖,广泛应用于图像生成和视频理解等任务。然而,早期ViT在密集预测任务如语义分割和实例分割中表现不佳,主要因局部细节建模和多尺度特征能力不足。为此,研究者提出了多种改进方案,包括构建CNN与Transformer的混合架构、引入多尺度融合与双向交互机制,以及优化预训练策略与模型压缩技术。这些改进显著提升了ViT在医疗影像分析和自动驾驶等场景中的应用效果。本文还介绍了两种前沿改进方法:ViT-CoMer和AIQViT

2025-05-16 11:49:21 901

原创 CVPR 2025 | CNN:我又活过来了!港大 OverLoCK 重塑即插即用视觉Backbone网络,性能碾压传统模型!

现代卷积神经网络(ConvNets)常采用金字塔结构,忽略了人类视觉系统中自上而下注意力机制这一仿生原理。本文提出的OverLoCK是首个集成该机制的纯卷积骨干网络架构,它通过Base-Net、Overview-Net和Focus-Net三个协同子网络实现“先概览、后细看”的功能。同时,论文提出上下文混合动态卷积(ContMix),能有效建模长距离依赖关系并保留局部归纳偏差。

2025-05-15 11:16:24 966

原创 2025顶刊聚焦:物理信息深度学习新成果,频繁亮相于《Nature》等权威期刊

物理信息深度学习(PINNs)作为科研前沿热点,通过将物理定律嵌入深度学习模型,显著提升了求解复杂偏微分方程的能力,减少了对大量实验数据的依赖,并在材料科学、生物医学、气候建模等领域取得广泛应用。本文整理了近一年内20篇PINN领域的创新论文,涵盖从仿射非线性系统控制到多相场模拟、无袖血压估计等多个研究方向。这些研究通过优化训练策略、改进网络架构、引入自适应网格优化和动态修正机制等创新方法,提升了模型的效率和准确性。论文链接和开源代码可供参考,助力科研人员紧跟前沿动态。

2025-05-14 11:50:10 1715

原创 解锁Nature发文小Tips:LSTM、CNN与Attention的创新融合之路

近期,多篇LSTM+CNN+Attention主题论文发表在Nature上,成为一个极具前景的研究方向,在各大顶会、顶刊上都涌现了不少成果。传统预测模型在处理复杂数据和捕捉长期依赖关系时存在局限,难以满足日益增长的高精度预测需求,这促使研究人员不断探索新的技术手段。深度学习的蓬勃发展为解决这类问题带来了新契机。其中,LSTM、CNN和Attention机制展现出独特优势。LSTM擅长处理时间序列数据,能有效捕捉长期依赖信息,解决梯度消失和爆炸问题。

2025-05-13 11:46:57 827

原创 ICLR 2025 | 天大×腾讯开源COME方案,5行代码让模型告别“过度自信”,实现TTA鲁棒性飞跃!

机器学习模型必须不断自我调整,以适应开放世界中新颖的数据分布。作为主要原则,熵最小化(EM)已被证明是现有测试时适应(TTA)方法中简单而有效的基础。然而,其致命的局限性(即过度自信)往往会导致模型崩溃。针对这一问题,研究人员提出保守最小化熵(COME),这是一种简单的、可直接替代传统EM的方法,能够很好地解决上述局限性。本质上,COME在TTA过程中通过对模型预测的狄利克雷先验分布进行表征,显式地对不确定性进行建模。通过这样做,COME自然地对模型进行正则化,使其在不可靠样本上倾向于保守的置信度。

2025-05-12 15:17:21 964

原创 顶刊有望了!频域结合PINN,发高分SCI就在你股掌之间!

频域与物理信息神经网络(PINN)的结合为求解复杂物理问题提供了新思路。PINN通过将物理方程融入神经网络损失函数,无需网格即可求解偏微分方程,但存在训练效率低、精度有限等问题。频域分析通过离散傅里叶变换将方程转化到频域,降低维度,提升求解效率。这种结合在流体力学、传热学、风场预测等领域展现出巨大潜力。例如,频域PINN(FD-PINN)在三维风场预测中,通过整合频域信息,显著提升了预测精度,减少了对测量点的依赖,并有效解决了传统模型的数据不足问题。此外,FD-PINN在求解Burgers方程等线性偏微分方

2025-05-09 11:11:36 561

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除