关注gongzhonghao【学术鲸】,解锁更多SCI相关资讯!
在自动驾驶、生物识别和视频理解等领域,多模态数据融合正成为解锁新应用场景的关键技术。然而,现实中的多模态数据往往面临着模态缺失、数据异构和质量参差不齐等挑战,这使得有效融合变得异常困难。
尽管如此,随着顶会如 CVPR、ICCV 和 ECCV 等不断涌现的新研究,多模态数据融合领域正迅速发展,研究者们正尝试通过创新的编码器 - 解码器架构、注意力机制、图神经网络(GNN)和生成式神经网络等方法来攻克这些难题。以下三篇最新论文,分别从不同的角度展示了多模态数据融合的前沿进展,为这一领域的研究者提供了宝贵的参考!
Beyond Label Semantics: Language-Guided Action Anatomy for Few-shot Action Recognition
方法:
这篇文章首先利用大型语言模型(LLM)将动作标签分解为一系列原子动作描述,这些描述聚焦于动作的主体、运动和对象三个核心要素。同时,通过视觉解剖模块将视频分割为对应的原子动作阶段,捕捉动作的起始、进展和结束阶段。接着,文章通过细粒度多模态融合模块将文本和视觉特征在原子动作级别进行融合,构建更具泛化能力的行为原型。最后,文章通过多模态匹配机制,结合视频-视频匹配和视频-文本匹配,确保在少样本场景下实现鲁棒的行为分类。
创新点:
-
这篇文章首次提出将动作标签分解为原子动作描述序列的方法,利用大型语言模型(LLM)生成详细的主体、动作和对象描述,从而捕捉动作的细微时空变化。
-
这篇文章创新性地引入了一种细粒度多模态融合策略,将文本和视觉特征在原子动作级别进行融合,构建更具泛化能力的行为原型。
-
这篇文章提出了一种多模态匹配机制,结合视频-视频匹配和视频-文本匹配,显著提高了少样本行为识别的鲁棒性和准确性。
论文链接:
https://arxiv.org/pdf/2507.16287
关注gongzhonghao【学术鲸】,获取多模态最新选题和idea
LIDAR: Lightweight Adaptive Cue-Aware Fusion Vision Mamba for Multimodal Segmentation of Structural Cracks
方法:
这篇文章首先通过语义和深度引导的视图变换模块,将相机数据中的语义分割掩码和深度分布与LiDAR提供的稀疏深度信息相结合,通过局部扩散和双线性离散化生成虚拟点,从而构建精确的深度分布。接着,文章提出了一个融合到占用驱动的主动蒸馏模块,该模块在鸟瞰图(BEV)空间中融合LiDAR和相机特征,并根据LiDAR识别的区域选择性地将多模态知识转移到图像特征中。最后,文章通过一个占用预测头,从粗略的BEV特征中生成3D预测输出,实现了从2D图像到3D语义占用的有效转换。
创新点:
-
这篇文章提出了一种语义和深度引导的视图变换方法,通过结合像素语义和共点深度信息,显著提高了深度估计的准确性,并减少了冗余的虚拟点种子,提升了语义占用的速度和精度。
-
这篇文章引入了一种融合到占用驱动的主动蒸馏模块,该模块能够基于LiDAR识别的区域,将多模态特征选择性地转移到图像特征中,进一步增强了模型的性能。
-
这篇文章通过引入SDG-Fusion和SDG-KL两种模型变体,分别实现了高性能和更快的推理速度,展示了其在不同应用场景下的灵活性和效率。
论文链接:
https://arxiv.org/pdf/2507.17083
关注gongzhonghao【学术鲸】,获取多模态最新选题和idea
AQuality-Guided Mixture of Score-Fusion Experts Framework for Human Recognition
方法:
这篇文章首先通过质量估计器(QE)预测每个模态的输入质量,利用预训练模型生成的伪质量标签进行训练,从而避免了人工标注的需要。接着,文章设计了一个混合专家(MoE)层,其中包含多个分数融合专家,每个专家专注于处理特定的输入条件,并通过质量估计器的预测动态调整权重。最后,文章通过分数三元组损失函数优化模型,确保匹配分数和非匹配分数之间的边界,从而直接提升验证和开放集搜索的性能。
创新点:
-
这篇文章引入了一种新颖的伪质量损失函数和模态特定的质量估计器(QE),用于在无需人工标注的情况下评估生物识别模态的质量。
-
这篇文章提出了一个基于混合专家(MoE)的分数融合方法,每个专家学习不同的融合策略,通过质量估计器动态调整权重,以适应传感器噪声、遮挡和缺失模态的情况。
-
这篇文章引入了一种新的分数三元组损失函数,通过强制匹配/非匹配分数之间的边界,直接优化关键指标(如验证准确率和开放集搜索的有效性)。
论文链接:
https://arxiv.org/pdf/2508.00053
► 论文发表难题,一站式解决!
TURING
选题是论文的第一步,非常重要!
但很多学生找到了热门的选题,却卡在代码和写作上!可见论文要录用,选题-idea-代码-写作都缺一不可!
图灵学术论文辅导,汇聚经验丰富的实战派导师团队,针对计算机各类领域提供1v1专业指导,直至论文录用!
关注gongzhonghao【学术鲸】,解锁更多SCI相关资讯!