- 博客(4258)
- 收藏
- 关注
转载 自动驾驶二十年,这个自动驾驶黄埔军校一直在精打细磨...
星球内部的成员来自国内外知名高校实验室、自动驾驶相关的头部公司,其中高校和科研机构包括但不限于:上海交大、北京大学、CMU、清华大学、西湖大学、上海人工智能实验室、港科大、港大、南洋理工、新加坡国立、ETH、南京大学、华中科技大学、ETH等等!几个运营的小伙伴每天都在复盘,什么样的社区才是大家需要的?针对2025年最火的自动驾驶VLA,我们详细梳理了最新的综述、VLA开源数据集、作为语言解释器的相关算法、模块化VLA、端到端VLA和推理增强VLA,更有诸多关于VLA量产的讨论,在这里有你想知道的一切~
2025-08-10 00:01:37
22
转载 给自动驾驶感知工程师的规划速成课
点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近15个方向学习路线>>点击进入→自动驾驶之心『规划控制』技术交流群本文只做学术分享,如有侵权,联系删文在我们熟知的模块化自动驾驶系统中,通常包含感知、预测、规划和控制等几个部分。截至2023年,机器学习带来的巨大影响主要发生在感知部分,但对下游组件尚没有产生太大的变革。有趣的是,虽然规划栈中AI的渗透率较低,但端到端的感知系统(比如鸟瞰图BEV感知)已经大规模在量产车上得到应用。为什么会这样呢?因为传统的基于人工设计的系统更加容易解释,而且一旦
2025-08-09 00:02:40
34
转载 基于开源Qwen2.5-VL实现自动驾驶VLM微调
微调后的模型被保存在 /home/hy/source/code/transformer/LLaMA-Factory/saves/Qwen2.5-VL-7B-Instruct/lora/train_2025-07-27-12-30-16 中, ui会显示loss进度和进度条。下面是图片 2022-07-14--14-32-55--11_first/0553.png 的一些对话. 对话内容在QA_from_CoVLA_zh.json。综合看来通过使用微调后的模型进行对话,可以获得更具参考价值的回答。
2025-08-09 00:02:40
33
转载 自动驾驶中常提的VLM是个啥?与VLA有什么区别?
当车辆行驶在突遇施工、积水、落石等危险区域时,VLM会识别路面状况,结合图像中出现的施工标志、警示牌或水坑轮廓,自动生成“前方道路施工,请提前减速”或“前方积水较深,请绕行”的自然语言提示,并将该提示通过仪表盘或车载语音播报给驾驶员。VLA则是VLM的进一步扩展,它不仅需要理解图像中的视觉信息和语言指令,还要将两者融合后生成可执行的动作决策,输出不再是文本,而是物理控制信号或动作计划,例如加速、刹车、转弯等。路标与路牌文字识别,它不仅对交通标志的图形进行分类,还能识别标志牌上的文字信息,将。
2025-08-09 00:02:40
20
转载 从自动驾驶到具身智能,这几个社区撑起了半边天!
这里主要关注VLA/VLM、端到端、BEV感知、Occupancy、多传感器/多模态融合感知、规划控制与预测、SLAM与在线高精地图、AI模型部署、领域方案与行业招聘等方向!聚焦数据采集、多模态大模型、VLA、VLN、Diffusion、sim2real、强化学习、运动控制、感知融合、规控与端到端、机器人仿真、双足机器人、四足机器人、机械臂、产品开发、自动标注等多个方向。覆盖人工智能(CV、AI、NLP、ML、机器人、语音)、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统科学等方向。
2025-08-09 00:02:40
17
转载 死磕技术的自动驾驶黄埔军校,4000人了!
星球内部的成员来自国内外知名高校实验室、自动驾驶相关的头部公司,其中高校和科研机构包括但不限于:上海交大、北京大学、CMU、清华大学、西湖大学、上海人工智能实验室、港科大、港大、南洋理工、新加坡国立、ETH、南京大学、华中科技大学、ETH等等!公司包括但不限于:蔚小理、地平线、华为、大疆、广汽、上汽、博世、轻舟智航、斑马智行、小米汽车、英伟达、Momenta、百度等等。扩散模型作为当下的研究热点,星球内部也做了非常详细的梳理,从算法原理,到数据生成、场景重建、端到端、世界模型结合、大模型结合等等!
2025-08-08 11:20:00
48
转载 DriveBench:VLM在自动驾驶中真的可靠吗?(ICCV‘25)
然而关于VLM是否能为驾驶提供基于视觉的、可靠的且可解释的解释,这一假设在很大程度上尚未得到验证。为填补这一空白,我们推出了DriveBench,这是一个基准数据集,旨在评估VLM在17种设置下的可靠性,包含19,200帧、20,498个问答对、三种问题类型、四种主流驾驶任务以及总共12个流行的VLM。DriveBench涵盖感知、预测、规划和行为四大核心任务,并引入 15种OoD类型,以系统性测试VLMs 在复杂驾驶场景中的可靠性。完整版深度内容已独家上线知识星球「>>直播和内容获取转到 →。
2025-08-08 07:30:36
21
转载 快慢双系统评测!Bench2ADVLM:专为自动驾驶VLM设计(南洋理工)
点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近30个方向学习路线>>自动驾驶前沿信息获取→自动驾驶之心知识星球论文作者 | Tianyuan Zhang等编辑 | 自动驾驶之心视觉-语言模型(VLMs)最近已成为自动驾驶(AD)中一个有前景的范式。然而当前对基于VLM的自动驾驶系统(ADVLMs)的性能评估协议主要局限于具有静态输入的开环设置,忽略了更具现实性和信息性的闭环设置,后者能够捕捉交互行为、反馈弹性和真实世界的安全性。为了解决这一问题,我们引入了BENCH2ADVLM,这是一个统
2025-08-08 07:30:36
8
转载 具身智能数采方案:全身动捕工作一览
TWIST使人形机器人在现实世界中仅通过单一神经网络控制器,即可实现前所未有的、多功能的、协调的全身运动技能——涵盖全身操作、腿臂协同操作、移动以及富有表现力的动作。本研究提出的基于混合专家(MoE)的闭环纠错系统CLONE,仅通过MR头显的头手追踪即可实现前所未有的全身操作保真度,在长距离移动中保持极低的位置漂移。最近很多同学咨询我们全身动捕数据的方案,相比于遥操作/VR+动捕手套,这种方案技术难度上更大,今天也为大家汇总几篇行业里面比较知名的全身动捕方案。第一时间将您的简历送到心仪公司的手上。
2025-08-07 07:31:55
31
转载 自动驾驶大模型方案:视觉语言模型VLM工作一览,面向量产和研究~
点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近30个方向学习路线视觉语言模型(Vision-Language Model, VLM) 正以其独特的跨模态理解与推理能力,成为赋能下一代自动驾驶系统的关键引擎。VLM的核心在于打通视觉与语言之间的壁垒,让自动驾驶不仅能“看见”道路,更能像人类一样“理解”场景、意图并进行深层次的推理。在自动驾驶的复杂环境中,VLM展现出强大的应用潜力:环境感知与深度理解: VLM能够超越传统视觉模型,结合相机图像或视频流,理解交通场景中的语义信息。例如,它不仅能
2025-08-07 07:31:55
74
转载 新势力提前批,跪了。。。
星球内部的成员来自国内外知名高校实验室、自动驾驶相关的头部公司,其中高校和科研机构包括但不限于:上海交大、北京大学、CMU、清华大学、西湖大学、上海人工智能实验室、港科大、港大、南洋理工、新加坡国立、ETH、南京大学、华中科技大学、ETH等等!花拳绣腿的不行、没人交流的也不行、找不到工作的更不行。针对2025年最火的自动驾驶VLA,我们详细梳理了最新的综述、VLA开源数据集、作为语言解释器的相关算法、模块化VLA、端到端VLA和推理增强VLA,更有诸多关于VLA量产的讨论,在这里有你想知道的一切~
2025-08-06 19:25:29
42
转载 这几个方向,从自驾转大模型会比较丝滑......
Agent无疑是当前大模型最火的一个大方向,单智能体、多智能体、智能体强化学习、Agent中的通信怎么高效实现、自进化Agent、RAG和Agent结合等等方向。我们对大模型整体分为几个大模块,大模型RAG、大模型AI Agent、多模态大模型(预训练、微调、强化学习)和大模型部署推理优化等等。多模态大模型、视觉语言模型、预训练数据集、PEFT、微调自己的大模型,之后部署、推理并做耗时优化。相关方向实在是太多了。更多大模型相关内容,欢迎关注我们的大模型之心Tech社区,大模型之心Tench公众号平台。
2025-08-06 19:25:29
30
转载 研二多发几篇论文,也不至于到现在这个地步...
无论你目标是CCF-A/B/C、SCI1-4区,还是EI会议,这些 “大牛导师” 都从选题、调研、idea验证、代码、实验、润色、投稿、直至中稿一站式科研服务。A:我们有精准匹配系统:填完咨询表后,学术顾问会根据你的研究方向、目标期刊、基础水平,从300+导师中筛出3-5位最契合的,你选满意的再开始辅导。如果你现在面临导师放养,在论文写作过程中,你时常陷入选题迷茫、框架混乱、论证无力的困境,迟迟无法产出满意的论文,不妨考虑寻求专业助力,在读计算机专业硕、博,导师放养,无人指导,希望获取论文创新思路。
2025-08-06 11:25:41
21
转载 SLAM的最终形态应该是什么样的?
当然这一切原因很可能就是,单纯的,数据不够多,模型不够大,端上性能不够强,然后slam也没怎么搞过几十T带真值pose的数据,花个几百万去训的。性能不够:在千元级别硬件上,建图至少要到100ms/帧,定位至少要在20ms/帧,才有可能落地。我们找到了最具性价比的3D扫描仪,支持方便的二次开发,传感器有激光雷达、超高精度9DOF IMU、RTK、双广角相机、深度相机。定位:给定一个地图模型,输入传感器数据,输出该数据对应的pose。不够通用,性能跟数据分布相关,而传统方法几乎是无限通用的,跟数据无关。
2025-08-06 11:25:41
9
转载 征稿!ICCV 2025:“人机场景交互与协作”研讨会&挑战赛
-----------------------------挑战赛----------------------------✨ 知识迁移创新:从人与人以及人与场景的交互和协作中转移知识,为人形和其他具身智能体的开发提供信息(例如,通过重定向)。-------------------------研讨会简介---------------------------------------------------组织委员会--------------------------
2025-08-06 07:30:20
22
转载 大模型究竟是个啥?都有哪些技术领域,面向小白的深度好文!
点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近30个方向学习路线很多刚入门大模型的小伙伴往往一头雾水,不知道大模型是个啥?什么LLM、VLM、MLLM、推理大模型,这些名词熟悉又陌生,今天星球内部的这篇文章就从大白话的角度给大家讲解一下~大语言模型(Large Language Model,LLM)是基于海量文本数据训练的深度学习模型,其核心能力在于理解并生成自然语言文本。这类模型通过在大规模数据集上进行预训练,学习语言的统计规律、语义关联以及世界知识,从而能够完成各种语言相关任务。LLM
2025-08-06 07:30:20
82
转载 高精厘米级重建!点云/视觉全场景重建,超高性价比3D扫描仪~
每秒20万级点云成图,70米测量距离,360°全域覆盖,支持20万平米以上的大场景,扫描可选配3D高斯数据采集模块,实现高保真实景还原。GeoScan S1是国内目前最强性价比实景三维激光扫描仪,轻量化设计,一键启动,便可拥有高效实用的三维解决方案。GeoScan S1设备自带手持Ubuntu系统和多种传感器设备,手柄集成了电源,可通过D-TAP转XT30母头输出至GeoScan S1设备本体,给雷达、摄像头以及主控板提供电源。3DGS渲染版本来啦,支持离线渲染和在线渲染两种,直接看一下效果吧!
2025-08-06 07:30:20
23
转载 即将开课!彻底搞懂端到端与VLA全栈技术(一段式/二段式/VLA/扩散模型)
然后是基于扩散模型的端到端方法:从去年下半年开始,扩散模型的思想就被引入到多模轨迹预测中,相比单模轨迹的输出,多模轨迹可以更好的适应自动驾驶不确定的环境!第一章主要是针对端到端自动驾驶概括性的内容讲解,这一章老师会带大家盘一下端到端的发展历史,端到端这个概念是怎么来了,为什么从模块化的方法发展到端到端。为什么会出现二段式端到端?现任国内TOP主机厂算法专家,目前从事端到端、大模型、世界模型等前沿算法的预研和量产,并已主持和完成多项自动驾驶感知和端到端算法的产品量产交付,拥有丰富的端到端算法研发和实战经验。
2025-08-06 07:30:20
192
转载 自动驾驶论文速递 | 扩散模型、轨迹预测、TopoLiDM、VLA等~
TUM提出了一种统一的感知-语言-动作(PLA)框架,通过整合多传感器融合和GPT-4.1增强的视觉-语言-动作推理核心,实现了自适应自动驾驶的上下文感知决策,在nuScenes数据集的城市交叉路口场景中,速度预测的平均绝对误差(MAE)降至0.39 m/s、R²分数达0.923,轨迹跟踪的平均位移误差(ADE)为1.013米。提出统一的感知 - 语言 - 动作(PLA)框架,将多模态感知与基于大语言模型(LLM)的推理及运动规划紧密耦合,实现复杂城市环境下连贯且自适应的决策。
2025-08-05 11:09:11
53
转载 面向量产VLA方案!FastDriveVLA:即插即用剪枝模块,推理加速近4倍(北大&小鹏)
但是技术的进步不止于此,随着视觉-语言大模型(VLM)在视觉问答任务中展现出令人称奇的推理能力,很多研究人员及算法团队开始将其扩展至具身智能和自动驾驶领域,通过引入动作生成功能,形成了视觉-语言-动作(VLA)模型。训练时,依据 ReconPruner 预测的显著性分数,选取分数最高的子集视觉 token,用于被遮挡前景区域的重建。如图 4 所示,ReconPruner 能够精确保留与前景物体相关的 token,并清晰区分背景区域,在显著降低 token 冗余的同时,仍能高质量地重建关键视觉信息。
2025-08-05 07:31:34
52
转载 自动驾驶秋招&社招求职群成立了!
大家都感觉到自动驾驶技术栈开始趋同,以前大大小小几十个方向都需要算法工程师,现在one model、VLM、VLA,统一方案的背后其实是更高的技术壁垒。博主一直在鼓励大家坚持、多多交流,但归根结底个人的力量是有限的。我们希望共建一个大的社群和大家一起成长,真正能够帮助到一些有需要的小伙伴,成为一个汇集全行业人才的综合型平台。所以我们也开始正式运营求职与行业相关的社群。社群内部主要讨论相关产业、公司、产品研发、求职与跳槽相关内容。如果您想结交更多同行业的朋友,第一时间了解产业。
2025-08-05 07:31:34
27
转载 机器人不只会抓和放!北大x银河通用「世界-动作模型」来了
目前的学习方法如 CORN、HACMan 等,主要侧重于仅根据几何信息推理动作,例如 “向左推物体会往左移动”,但它们缺乏对环境中潜在动力学属性(如摩擦、质量、弹性等)的建模与适应能力,导致在面对真实物理扰动时表现急剧下降。同时,历史信息还包含更完整的几何线索,弥补了单帧观测中的缺失。第一作者为北京大学计算机学院前沿计算研究中心博士生吕江燃,主要研究方向为具身智能,聚焦于世界模型和机器人的灵巧操作,论文发表于 ICCV,TPAMI,RSS,CoRL,RAL 等机器人顶会顶刊。这对感知系统提出了极高的要求。
2025-08-04 15:31:00
32
转载 暑期打比赛!PRCV 2025空间智能与具身智能视觉感知挑战赛报名即将截止~
定义为:对于成功完成的任务,位姿误差为0,而对于失败的任务,位姿误差为物体最终位置与正确位置范围之间的最短归一化欧氏距离。各参赛队在赛前需签订数据使用协议,承诺本竞赛提供的测试数据集仅能用于本竞赛,不用于除本竞赛外的任何其他用途,并承诺数据用后即刻删除,不可扩散,组织方保留追究法律责任的权利。竞赛期间,组委会坚持公开、公平、公正的原则。各参赛队需要承诺本队提交的结果可重复,参赛队所有的方案、算法以及相关的知识产权均属于参赛队伍所有,组织方承诺履行保密义务,并不用于除本比赛外的任何其他用途。
2025-08-04 15:31:00
160
转载 性能暴涨30%!港中文ReAL-AD:类人推理的端到端算法 (ICCV‘25)
最后,轨迹解码器(通常是一个多层感知机,MLP)通过从自我特征进行回归,预测未来的航点。提出了 ReAL-AD,这是一个增强型的端到端自动驾驶学习框架,通过利用视觉语言模型在策略、决策和操作层面进行结构化推理,从而提升自动驾驶的性能。值得注意的是,我们的性能也优于其他使用相同基线的 VLM 辅助方法(如 VLP 和 VLM-AD),在 nuScenes 数据集上实现了最低的平均 L2 误差(0.48 米)和碰撞率(0.15%),在 Bench2Drive 数据集上则分别为 0.84 米和 0.12%。
2025-08-04 07:30:33
51
转载 性能暴涨30%!港中文ReAL-AD:类人推理的端到端算法 (ICCV‘25)
最后,轨迹解码器(通常是一个多层感知机,MLP)通过从自我特征进行回归,预测未来的航点。提出了 ReAL-AD,这是一个增强型的端到端自动驾驶学习框架,通过利用视觉语言模型在策略、决策和操作层面进行结构化推理,从而提升自动驾驶的性能。值得注意的是,我们的性能也优于其他使用相同基线的 VLM 辅助方法(如 VLP 和 VLM-AD),在 nuScenes 数据集上实现了最低的平均 L2 误差(0.48 米)和碰撞率(0.15%),在 Bench2Drive 数据集上则分别为 0.84 米和 0.12%。
2025-08-04 07:30:33
29
转载 性能暴涨30%!港中文ReAL-AD:类人推理的端到端算法 (ICCV‘25)
最后,轨迹解码器(通常是一个多层感知机,MLP)通过从自我特征进行回归,预测未来的航点。提出了 ReAL-AD,这是一个增强型的端到端自动驾驶学习框架,通过利用视觉语言模型在策略、决策和操作层面进行结构化推理,从而提升自动驾驶的性能。值得注意的是,我们的性能也优于其他使用相同基线的 VLM 辅助方法(如 VLP 和 VLM-AD),在 nuScenes 数据集上实现了最低的平均 L2 误差(0.48 米)和碰撞率(0.15%),在 Bench2Drive 数据集上则分别为 0.84 米和 0.12%。
2025-08-04 07:30:33
141
转载 性能暴涨30%!港中文ReAL-AD:类人推理的端到端算法 (ICCV‘25)
最后,轨迹解码器(通常是一个多层感知机,MLP)通过从自我特征进行回归,预测未来的航点。提出了 ReAL-AD,这是一个增强型的端到端自动驾驶学习框架,通过利用视觉语言模型在策略、决策和操作层面进行结构化推理,从而提升自动驾驶的性能。值得注意的是,我们的性能也优于其他使用相同基线的 VLM 辅助方法(如 VLP 和 VLM-AD),在 nuScenes 数据集上实现了最低的平均 L2 误差(0.48 米)和碰撞率(0.15%),在 Bench2Drive 数据集上则分别为 0.84 米和 0.12%。
2025-08-04 07:30:33
4
转载 自动驾驶运动规划(motion planning)发展到了什么阶段?
这次报告以interaction的建模和求解为切口,分析了近些年常用的框架范式,比如将ego trajectory和agent trajectory的关系加入loss function或constraint中,ego/agent trajectory从lane routing或neural network生成等。大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制。自动驾驶感知(大模型、端到端自动驾驶。
2025-08-03 08:31:23
40
转载 4000人了,我们搭建了一个非常全栈的自动驾驶社区!
星球内部的成员来自国内外知名高校实验室、自动驾驶相关的头部公司,其中高校和科研机构包括但不限于:上海交大、北京大学、CMU、清华大学、西湖大学、上海人工智能实验室、港科大、港大、南洋理工、新加坡国立、ETH、南京大学、华中科技大学、ETH等等!花拳绣腿的不行、没人交流的也不行、找不到工作的更不行。针对2025年最火的自动驾驶VLA,我们详细梳理了最新的综述、VLA开源数据集、作为语言解释器的相关算法、模块化VLA、端到端VLA和推理增强VLA,更有诸多关于VLA量产的讨论,在这里有你想知道的一切~
2025-08-03 08:31:23
32
转载 准备扩大自驾团队了,欢迎家入我们~
当行业进入下沉期,简单的事情已经逐渐收敛,更多的是要面对复杂和困难的未知事物,这时候更需要坐得住冷板凳,才能做的出真功夫。如果您是大模型/多模态大模型、Diffusion、VLA、VLA+RL、端到端、强化学习、运动规划、世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们一起为行业输出最优秀的教程。自动驾驶之心已经进入第四个年头,我们邀请全球自动驾驶领域的开发研究者,一起和我们参与智能驾驶项目合作、自动驾驶教育研发。我们将提供大比例的分红,和全行业的资源共享。自驾教育研发与咨询服务。
2025-08-03 08:31:23
30
转载 准备扩大自驾团队了,欢迎加入我们~
当行业进入下沉期,简单的事情已经逐渐收敛,更多的是要面对复杂和困难的未知事物,这时候更需要坐得住冷板凳,才能做的出真功夫。如果您是大模型/多模态大模型、Diffusion、VLA、VLA+RL、端到端、强化学习、运动规划、世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们一起为行业输出最优秀的教程。自动驾驶之心已经进入第四个年头,我们邀请全球自动驾驶领域的开发研究者,一起和我们参与智能驾驶项目合作、自动驾驶教育研发。我们将提供大比例的分红,和全行业的资源共享。自驾教育研发与咨询服务。
2025-08-03 08:31:23
16
转载 自动驾驶之心VLA技术交流群成立了~(数据/模型/部署等方向)
自动驾驶之心VLA技术交流群成立了,欢迎大家加入一起交流VLA相关的内容:包括VLA数据集制作、一段式VLA、分层VLA、基于大模型的端到端方案、基于VLM+DP的方案、量产落地、求职等内容。感兴趣的同学欢迎添加小助理微信进群:AIDriver005,备注:昵称+VLA加群。
2025-08-02 19:49:26
46
转载 智元机器人罗剑岚老师专访!具身智能的数采、仿真、场景与工程化~
罗剑岚:应该是在工商业先落地,因为工业制造服务场景这些比较受限,或者说半开放的这些环境里面,这些场景结构化的程度相对比较高,需求也比较明确,商业需求比较明确,大家现在也对具身智能抱有比较大的期待,因为现在是短期,是比较理想的技术跳板,长期来看家庭来说具身智能是更大市场。1. 想问一个比较技术性的问题,因为我有聊过很多企业,但是他们对于具身智能大模型的评估没有很好的一个标准,生成大模型那种,目前来说您从外界来说,你觉得有没有必要建立这样的benchmark,这个benchmark怎么建立?
2025-08-02 00:01:21
60
转载 ACM MM‘25 | 自驾2D目标检测新SOTA!超越最新YOLO Series~
这种模块引入顺序的设计,避免了低层特征提取阶段过早引入复杂运算导致的学习干扰,同时充分利用高层特征的上下文信息,对目标进行更精确的识别与定位。整体而言,FAFCE 通过频率增强机制,在保证轻量化的同时,显著提升了特征融合的一致性与精度,特别适用于自动驾驶等对边界与小目标敏感的任务场景。的情况下,模型的特征响应主要集中在图像中心区域,响应范围较窄,颜色变化不明显,说明模型的感受野较小,无法充分利用图像中的上下文信息。机制能动态地为不同空间位置的多层特征分配权重,从而增强模型对不同尺度与空间目标的适应性。
2025-08-02 00:01:21
46
转载 ACM MM‘25 | 自驾2D目标检测新SOTA!超越最新YOLO Series~
这种模块引入顺序的设计,避免了低层特征提取阶段过早引入复杂运算导致的学习干扰,同时充分利用高层特征的上下文信息,对目标进行更精确的识别与定位。整体而言,FAFCE 通过频率增强机制,在保证轻量化的同时,显著提升了特征融合的一致性与精度,特别适用于自动驾驶等对边界与小目标敏感的任务场景。的情况下,模型的特征响应主要集中在图像中心区域,响应范围较窄,颜色变化不明显,说明模型的感受野较小,无法充分利用图像中的上下文信息。机制能动态地为不同空间位置的多层特征分配权重,从而增强模型对不同尺度与空间目标的适应性。
2025-08-02 00:01:21
15
转载 ACM MM‘25 | 自驾2D目标检测新SOTA!超越最新YOLO Series~
这种模块引入顺序的设计,避免了低层特征提取阶段过早引入复杂运算导致的学习干扰,同时充分利用高层特征的上下文信息,对目标进行更精确的识别与定位。整体而言,FAFCE 通过频率增强机制,在保证轻量化的同时,显著提升了特征融合的一致性与精度,特别适用于自动驾驶等对边界与小目标敏感的任务场景。的情况下,模型的特征响应主要集中在图像中心区域,响应范围较窄,颜色变化不明显,说明模型的感受野较小,无法充分利用图像中的上下文信息。机制能动态地为不同空间位置的多层特征分配权重,从而增强模型对不同尺度与空间目标的适应性。
2025-08-02 00:01:21
13
转载 ACM MM‘25 | 自驾2D目标检测新SOTA!超越最新YOLO Series~
这种模块引入顺序的设计,避免了低层特征提取阶段过早引入复杂运算导致的学习干扰,同时充分利用高层特征的上下文信息,对目标进行更精确的识别与定位。整体而言,FAFCE 通过频率增强机制,在保证轻量化的同时,显著提升了特征融合的一致性与精度,特别适用于自动驾驶等对边界与小目标敏感的任务场景。的情况下,模型的特征响应主要集中在图像中心区域,响应范围较窄,颜色变化不明显,说明模型的感受野较小,无法充分利用图像中的上下文信息。机制能动态地为不同空间位置的多层特征分配权重,从而增强模型对不同尺度与空间目标的适应性。
2025-08-02 00:01:21
12
转载 智源研究院具身智能大模型研究员岗位开放了 ,社招、校招、实习都可!
这是一个给自动驾驶、具身智能、机器人方向同学求职交流的地方,目前近1000名成员了,成员范围包含已经工作的社招同学,如智元机器人、宇树科技、地瓜机器人、地平线、理想汽车、华为、小米汽车、momenta、元戎启行等公司。这一点结合我们已有的优势,给大家汇总了面试题目、面经、行业研报、谈薪技巧、还有各类内推公司、简历优化建议服务。具备大模型领域的研究经验,对主流视觉与语言大模型有深入理解,具备预训练、微调、部署等流程的工作经验;智源研究院招募具身智能大模型研究员岗位了 ,开放了社招、校招、实习等形式,都可以!
2025-08-01 15:05:18
224
转载 聊聊算法秋招岗该如何准备?2025我的秋招总结~
这是一个给自动驾驶、具身智能、机器人方向同学求职交流的地方,目前近1000名成员了,成员范围包含已经工作的社招同学,如智元机器人、宇树科技、地瓜机器人、地平线、理想汽车、华为、小米汽车、momenta、元戎启行等公司。从1面到3面,从写代码题目、到项目细节,都给大家梳理了一遍。这一点结合我们已有的优势,给大家汇总了面试题目、面经、行业研报、谈薪技巧、还有各类内推公司、简历优化建议服务。主要关于小厂、大厂面试,秋招的校招如何准备、公司选择等主要问题,以及大模型、自动标注、端到端一些岗位的介绍和分析。
2025-08-01 07:31:30
197
转载 4000人了,死磕技术的自动驾驶黄埔军校到底做了哪些事情?
星球内部的成员来自国内外知名高校实验室、自动驾驶相关的头部公司,其中高校和科研机构包括但不限于:上海交大、北京大学、CMU、清华大学、西湖大学、上海人工智能实验室、港科大、港大、南洋理工、新加坡国立、ETH、南京大学、华中科技大学、ETH等等!公司包括但不限于:蔚小理、地平线、华为、大疆、广汽、上汽、博世、轻舟智航、斑马智行、小米汽车、英伟达、Momenta、百度等等。扩散模型作为当下的研究热点,星球内部也做了非常详细的梳理,从算法原理,到数据生成、场景重建、端到端、世界模型结合、大模型结合等等!
2025-07-31 14:18:38
25
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人