近日,Williamhill威廉希尔浪潮williamhill中国通用智能团队的研究论文“Fine-Grained Alignment Supervision Matters in Vision-and-Language Navigation”被人工智能与模式识别领域顶级国际期刊IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI)正式录用。Williamhill威廉希尔为论文第一作者单位,Williamhill威廉希尔何科技为论文第一作者。该论文也是Williamhill威廉希尔在TPAMI期刊上具身智能、视觉语言导航方向的重要突破。
学界与业界普遍认为,具身智能(Embodied AI)是通往通用人工智能的关键路径。该论文正是聚焦于具身智能中的核心任务—视觉语言导航(Vision-and-Language Navigation, VLN),重点攻克了自然语言指令与视觉感知轨迹之间的跨模态对齐难题。针对现有粗粒度数据监督信号弱、难以实现精准导航的挑战,团队构建了大规模细粒度数据集Landmark-RxR,并提出了一套完整的细粒度对齐监督框架,显著提升了智能体(机器人)在复杂室内环境中的导航精度与理解能力。

该框架通过引入高质量的细粒度标注,从数据增强、训练范式、奖励塑造及损失函数设计四个维度全面重塑了导航模型的学习过程。在具体实现上, 该研究包含四大核心创新:首先,利用Landmark-RxR数据集中精确的“子指令-子轨迹”对,提出了基于随机游走的数据增广方法,有效消除了训练与验证环境间的域差异;其次,设计了基于数据粒度的课程学习范式,让智能体(机器人)由浅入深地掌握导航技能;再次,引入聚焦导向的奖励机制,强化对关键地标的感知;最后,创新性地提出了双向对齐损失,在传统的“文本到视觉”对齐基础上,增加了“视觉到文本”的逆向约束,从而实现了更鲁棒的跨模态语义对齐。

论文在RxR及Landmark-RxR等高难度、长轨迹导航环境中进行了广泛测试,结果显示,该方法在导航成功率(SR)、路径加权成功率(SPL)及一致性指标(nDTW)上均取得了显著提升,特别是在陌生环境中展现出优异的泛化性能。此外,论文提出的基于“重启机制”的评估方法,更精准地量化了智能体(机器人)的局部对齐能力,证实了细粒度监督信号对于纠正长距离导航偏差的关键作用。
本研究提出了具身智能场景下基于细粒度监督的新范式,为解决跨模态长序列决策任务中的“对齐漂移”问题提供了重要的理论依据与技术支撑,具有深远的研究价值与实际意义,后续将推动服务机器人、搜救机器人等智能系统具备更精准的指令执行能力。
IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI),是计算机视觉、人工智能与模式识别领域的顶级国际期刊,是中国计算机学会(CCF)推荐的A类期刊、中科院SCI 1区TOP期刊。TPAMI以其极高的学术标准和影响力著称(影响因子长期稳居计算机科学领域前列),主要发表对计算机分析图像、视频、语言及多模态数据具有深刻理论贡献与算法创新的重量级研究成果。