【导读】
内河航道识别难在哪?光照复杂、雾气频发、船型多样。本文构建MEIWVD数据集,覆盖多种极端环境,并提出MSG-Net算法,从图像增强、几何感知到多尺度融合,全面提升检测效果。为智能航运注入新突破!>>更多资讯可加入CV技术群获取了解哦
随着人工智能技术的快速发展,智能船舶和智能航运逐渐成为水运领域的研究热点,尤其在内河航运和海上监督领域推动了显著进展。然而,在多样化海洋环境中实现对船只、浮标等水面物体的精准实时检测,仍面临重大挑战。水面物体检测不仅需要高精度和可靠性,还需考虑不同环境条件对传感器性能的影响。尽管深度学习在物体检测领域取得了革命性突破,但内河船舶物体检测仍面临一系列技术挑战,其中数据集匮乏、场景覆盖有限以及内河航道复杂多变的天气条件尤为突出。这些问题直接限制了深度学习模型在实际应用中的泛化能力和检测精度。
本文的主要贡献总结如下:
(1) 构建了一个多样化且环境丰富的内河航道数据集。该数据集涵盖了内河航道中广泛的真实世界场景,包括常见的船舶类别(如货轮、客轮、集装箱船)以及各种天气条件(如晴天、阴天、雾天等)和特定时间条件(如白天、日落后和有人工照明的夜晚)。该数据集的全面性和多样性为深度学习模型的训练和测试提供了丰富的资源,有效反映了内陆环境的复杂性,并提升了目标检测器的性能。
(2) 为应对内陆环境的复杂性和多样性,本文提出场景引导图像增强(SGIE)模块。通过结合场景嵌入向量与引导提示,该方法能够准确建模退化条件,实现针对不同场景的特征增强,从而提升多环境设置下检测模型的鲁棒性和准确性。此外,该方法在未见退化场景中也展现出强大的泛化能力。
(3) 鉴于表面物体形状相对均匀且纵横比固定,本文提出参数限制膨胀卷积(PLD-Conv)模块。通过在水平和垂直方向设计不同的卷积策略,该模块有效捕获表面物体的几何特征,提升模型在表面物体检测与识别任务中的性能。
(4) 为解决数据集中的多尺度对象特征问题,本文设计了多尺度膨胀残差融合(MS-DRF)模块。该模块通过从不同感受野高效捕获多尺度信息,旨在提升特征表示能力并降低计算开销。此外,MS-DRF还能有效融合多尺度对象特征,提升检测器对多尺度对象的检测能力。
论文标题:
Inland Waterway Object Detection in Multi-environment: Dataset and Approach
论文链接:
https://arxiv.org/pdf/2504.04835
一、相关工作
-
表面物体数据集
在表面物体检测领域,数据集是研究和算法开发的基础,其规模、多样性、标注准确性和实际应用性是关键因素。多个广泛使用的数据集已被应用于船舶检测任务,极大地推动了表面物体检测领域的发展,但现有数据集存在某些局限性,阻碍了其全面捕捉真实世界环境复杂性的能力。通过对现有文献的分析,尽管这些数据集推动了船舶检测研究的进展,但其在规模、多样性和现实世界适用性方面的局限性,凸显了需要更全面的数据集来应对表面物体检测的复杂性。为填补这一空白,我们基于长江流域收集的数据构建了大规模内河船舶数据集MEIWVD。
-
表面物体检测方法
基于视觉的表面物体检测技术是智能船舶感知领域的核心技术之一,主要用于实时感知周边环境信息,以辅助自主导航、避障及自动化海上监管。在智能船舶领域,YOLO 系列算法常被修改用于表面目标检测以确保实时性能。表面物体检测相较于通用物体检测的发展滞后现象,归因于缺乏广泛认可的基准数据集。现有表面物体检测算法研究挑战在于小目标检测以及复杂背景和天气条件带来的干扰。D3-Net该网络结构将去雾、去模糊和目标检测任务整合于单一架构中。对当前最先进的实时目标检测算法进行了系统性深入评估,特别关注其在自主表面车辆(ASVs)中的适用性。通过向数据集添加15种不同类型的失真,如噪声、模糊、雾化和对比度变化,得出结论:现有实时目标检测方法在这些天气变化下缺乏鲁棒性。
基于深度学习的物体检测算法近年来取得了显著进展,并被广泛应用于各个领域。这些算法利用深度神经网络自动识别图像或视频中的物体,并输出其位置和类别信息,具有效率高、准确性强、鲁棒性好等优势。在实际应用中,根据具体需求和场景选择或设计合适的物体检测算法尤为重要。
二、多环境内河船舶数据集
在本节中,我们将对多环境内河船舶数据集(MEIWVD)的构建过程进行全面描述。该数据集专为船舶目标检测设计,包含32,478张图像,涵盖四类常见内河水面目标:货轮、客轮、浮标和集装箱船。尽管MEI-WVD在类别多样性方面可能无法与某些海洋数据集相媲美,但它在两个关键方面具有独特价值。首先,它在环境场景多样性方面表现出色,涵盖了各种条件下的真实内河场景,包括白天、日落后、雨天、雾天以及夜间人工照明等。其次,与海洋船舶数据集不同,内陆船舶数据集的目标组成具有显著差异,主要包括大型货轮、小型客轮和微型浮标,由于其极端尺寸差异和特定运营环境,每个目标都带来独特的检测挑战。
首先,我们将系统性地阐述数据集构建方法,重点关注数据采集、标注及预处理流程,并突出数据集的关键特征与优势。此外,我们将提供数据集的基本统计信息,包括图像数量、类别分布及天气条件等,以协助研究人员更好地理解和利用该资源。
(1) 多视角:数据集涵盖了从正面、背面和侧面视角观察的表面物体,以增加数据多样性。
(2) 多种光照条件:候选图像在多种光照条件下拍摄,如强光、弱光和人工照明,以反映不同光照条件对自然环境的影响。
(3) 多种天气条件:数据集涵盖了多种气象条件,包括晴天、多云、雨天、雾天等,以确保环境的全面性。
(4) 多种场景:考虑了遮挡和背景的多样性。
如图2所示,本数据集的数据收集时间跨度为上午8:00至晚上9:00,其中数据量最高峰出现在上午10:00以及下午4:00至5:00之间。
经过仔细筛选,我们选取了涵盖多种天气条件的真实世界数据,包括自然光照、晴朗天气、雾天和雨天。图3展示了不同类别中收集的图像分布情况。在晴朗天气条件下拍摄的图像共有7,184张,占数据集的22.1%。由于雾天在内河航道中频繁出现,此类条件下的图像数量为13,886张,占42.1%。
阴天条件下的图像数量为4,584张,占14.1%,而雨天条件下的图像数量为1,295张,占4.0%。包含城市灯光秀和客轮灯光的图像数量为2,780张,占数据集的8.6%。此外,同时包含灯光和雾天条件的图像数量为2,749张,占8.5%。值得注意的是,雾天图像在数据集中占主导地位,反映了内河航道中雾天现象的实际普遍性。多环境条件示例图像如图4所示。
为了让算法研发从“概念验证”快速过渡到“实战部署”,Coovally平台不仅提供了丰富的开源数据资源和算法组件,更在开发体验和训练效率上进行了全面优化。
你可以在平台上使用自己熟悉的开发工具(如 VS Code、Cursor 等),通过 SSH 协议直连云端算力,享受如同本地一样的实时开发与调试体验,同时调用高性能 GPU 环境,加速实验进展。
而当你在模型训练过程中遇到效果瓶颈时,Coovally还提供多模态大模型智能推荐功能,根据你的数据特征与任务目标,自动生成训练优化方案,帮助你精准迭代模型,大幅提升精度和效率。
三、提出的物体检测方法
为了解决MEIWVD的独特特性,我们提出了一种在多环境中进行水面物体检测的新型算法,该算法被命名为多场景引导水面物体检测网络(MSG-Net)。MSG-Net的网络架构基于YOLOv8,如图7所示。
-
场景引导图像增强
MEIWVD突显了多样化环境与场景的复杂性。水蒸气、雾气和光线等多种因素会显著影响水面图像质量,并以不同程度降低图像清晰度。这些因素不仅影响图像的视觉清晰度,还为下游目标检测任务带来重大挑战。因此,通过提升图像质量来增强目标检测性能已成为迫切且关键的研究方向。在此背景下,现有水面图像增强方法常聚焦于特定场景(如除雾或除雨),这可能因场景变异导致泛化能力不足。为解决此问题,部分研究者提出在单一网络结构内采用多任务增强方法。然而,在处理内容特征相似但退化类型不同的图像时,仅依赖基于内容的提示生成策略可能耗时过长,尤其在水面监测场景中。
-
参数受限的膨胀卷积
基于深度学习的物体检测方法通常由三个主要组件构成:特征提取模块、特征融合模块和检测头。特征提取模块扮演着至关重要的角色,因为它负责从输入图像中提取丰富的特征信息,这直接影响后续目标检测任务的性能。传统卷积操作通过在输入特征图上滑动固定大小的卷积核来提取特征,但其 receptive field 受限于卷积核大小和步长。为克服这一限制,膨胀卷积通过在卷积核元素间引入间隙来显著扩展受限区域,且无需增加参数数量。
在水面物体检测任务中,常见的船只物体具有明显的几何结构,通常表现为规则的矩形形状,宽度和高度相对固定,且宽度显著大于高度,如图6b所示。为提升卷积操作的灵活性并聚焦水面物体的几何特征,受蛇形动态卷积和可变形卷积启发,我们提出基于几何特征的参数限制膨胀卷积(PLD-Conv)。其目标是通过在不同尺度方向施加不同约束,高效捕捉水面物体的几何特征。
通过这种双向策略,PLD-Conv能够有效适应水面目标的矩形特征,提升模型对几何特征的感知能力和特征提取精度。通过引入几何约束和双向卷积策略,PLD-Conv能够灵活捕获局部邻域特征的同时限制感知范围,使卷积核更专注于水面目标的结构特征,从而提升模型性能。图9比较了若干典型卷积操作的感受野范围。
-
多尺度膨胀残差融合
通过对MEIWVD的统计分析发现,水面物体具有双重复杂特征:多尺度表示特异性和空间分布密度。这些特征给物体检测算法带来了显著挑战。
为解决这些问题,我们提出了一种创新的多尺度特征融合模块,名为多尺度膨胀残差融合(MS-DRF),如图10所示。受深度可分离卷积的启发,MS-DRF采用不同膨胀率的特征提取策略和分层特征融合,以实现多尺度特征整合。
为了详细说明MS-DRF的具体过程,假设使用三个膨胀率(r = 1, 3, 5)进行渐进式膨胀卷积。MS-DRF过程由式(7)至式(10)描述。式(7)通过3×3卷积压缩特征图的特征长度。式(8)提取多尺度特征,式(9)通过1×1卷积融合全局特征,式(10)通过跳跃连接增强原始信息,实现深度传播。
四、实验结果
在本节中,我们对MEIWVD进行了基准验证和深入分析。通过采用基于深度学习的物体检测模型,我们系统地评估了这些模型在各种场景和复杂天气条件下的性能。此外,为验证所提方法MSG-Net的有效性,我们通过提升多场景适应性、几何特征提取及水面物体多尺度特征描述等方面的改进,开展性能提升的比较分析,旨在识别在真实世界环境中进行内河船舶检测的潜在优化策略。
-
定性检测结果
本节通过可视化展示检测结果,定性评估所提MSG-Net的性能。定性分析重点关注模型在复杂天气、多尺度场景及多样化环境设置下,对物体进行准确检测与定位的能力。为清晰展示检测结果,图像中使用缩写表示类别,例如CG代表货轮、CS代表集装箱船、PS代表客轮,以及BY代表浮标,以确保可视化呈现的清晰与简洁。在本节中,我们随机选取部分图像并对比了各方法的检测结果。由于图像分辨率较高且水面上的船舶物体比例相对较小,我们裁剪了关键区域以突出检测结果,便于更清晰地呈现。实验场景涵盖了多种复杂环境,包括晴天、多云、中度雾、浓雾、雨天以及混合人工照明与薄雾的条件。
如图11所示,在第一行(晴天场景)中,尽管天气条件良好,YOLOv8和YOLOv11仍未能检测到小型物体(如浮标)。这是由于水面上的强烈阳光反射导致小型物体的特征与光照信息混淆。相比之下,MSG-Net通过环境增强和特征融合显著提升了对小型物体的检测能力。在第二行(多云场景)中,YOLOv8和YOLOv11在密集船只场景中将货轮误识别为客轮。这是由于景深效应导致特征混淆所致。MSG-Net凭借其专用的特征融合技术,准确识别了同类远距离船只并提供了更高的置信度分数。在第三行(中等雾天场景)中,由于小型物体能见度降低,YOLOv8未能检测到浮标,而YOLOv11和MSG-Net成功检测到它们。MSG-Net在检测小型物体时表现出更高的置信度。在第四行和第五行(浓雾场景)中,YOLOv8和YOLOv11要么漏检浮标,要么将其误识别为货轮。经过SGIE增强的MSG-Net准确识别了浮标类别,展现了其在挑战性场景中的鲁棒性。在第六行(雨天场景)中,YOLOv8和YOLOv11漏检了客轮。MSG-Net 通过环境特征增强有效解决了这一问题。在最后一列(混合人工照明与薄雾场景)中,检测器常将照明游艇误认为岸边照明,导致检测遗漏。MSG-Net 准确识别出停靠在岸边的客轮,展现了其在复杂光照条件下的优异性能。
在平台上,你可以一键调用YOLO、Transformer等热门模型,快速对任务进行训练与验证。平台支持零代码配置:
-
免环境配置:直接调用预置框架(PyTorch、TensorFlow等);
-
免复杂参数调整:内置自动化训练流程,小白也能轻松上手;
-
高性能算力支持:分布式训练加速,快速产出可用模型;
-
无缝部署:训练完成的模型可直接导出,或通过API接入业务系统。
!!点击下方链接,立即体验Coovally!!
平台链接:https://www.coovally.com
为了帮助用户更高效地掌握模型训练全过程,Coovally平台还可以直接查看“实验日志”。在每一个实验详情页中,用户都可以实时查看训练日志、输出信息或报错内容,无需额外配置、无缝集成于工作流中!
不论是模型调参、错误排查,还是过程复现,这项新功能都将大幅提升你的实验效率。
结论
本文介绍了多环境内河船舶检测(MEIWVD)数据集,该数据集是研究复杂内河环境中船舶目标检测的基础资源。我们详细阐述了数据集的构建过程,包括数据采集、标注及分类标准,并对其特征进行了深入分析,以突出其在多环境和多尺度场景中的优势。
为应对数据集的独特特征,我们提出了针对三个方面的改进方案:增强并适应多环境特性、水面物体特征提取,以及多尺度特征的融合与处理。这些方法不仅提升了模型在多样化环境条件下的检测性能,还为类似场景下的未来研究提供了新的见解和方法论。然而,尽管本研究取得了成果,仍有若干潜在研究方向值得进一步探索。首先,不同光照条件(如昼夜转换及自然光与人工光)对目标检测的影响仍需深入研究。其次,当前数据集仅限于长江流域,且船只类型受该区域特征限制。未来研究需重点扩展数据集,涵盖更多多样化的内河环境及船只类型。此外,尽管MEIWVD为内河水域物体检测提供了坚实基础,我们希望它能激励更多研究者深入该领域,应对现实场景中的多样化挑战。我们计划继续扩展和优化数据集,探索其更广泛的应用潜力,并通过合作与开放数据共享推动内河水域物体检测技术的发展。