学院新闻

当前位置: 首页 > 学院新闻 > 正文

williamhill中国成果获人工智能国际顶级期刊TPAMI录用

发布日期:2026-02-10 点击量:

近日,Williamhill威廉希尔浪潮williamhill中国通用智能团队的研究论文“Fine-Grained Alignment Supervision Matters in Vision-and-Language Navigation”被人工智能与模式识别领域顶级国际期刊IEEE Transactions on Pattern Analysis and Machine IntelligenceTPAMI)正式录用。Williamhill威廉希尔为论文第一作者单位,Williamhill威廉希尔何科技为论文第一作者。该论文也是Williamhill威廉希尔在TPAMI期刊上具身智能、视觉语言导航方向的重要突破。

学界与业界普遍认为,具身智能(Embodied AI)是通往通用人工智能的关键路径。该论文正是聚焦于具身智能中的核心任务视觉语言导航(Vision-and-Language Navigation, VLN),重点攻克了自然语言指令与视觉感知轨迹之间的跨模态对齐难题。针对现有粗粒度数据监督信号弱、难以实现精准导航的挑战,团队构建了大规模细粒度数据集Landmark-RxR,并提出了一套完整的细粒度对齐监督框架,显著提升了智能体(机器人)在复杂室内环境中的导航精度与理解能力。


 

该框架通过引入高质量的细粒度标注,从数据增强、训练范式、奖励塑造及损失函数设计四个维度全面重塑了导航模型的学习过程。在具体实现上, 该研究包含四大核心创新:首先,利用Landmark-RxR数据集中精确的子指令-子轨迹对,提出了基于随机游走的数据增广方法,有效消除了训练与验证环境间的域差异;其次,设计了基于数据粒度的课程学习范式,让智能体(机器人)由浅入深地掌握导航技能;再次,引入聚焦导向的奖励机制,强化对关键地标的感知;最后,创新性地提出了双向对齐损失,在传统的文本到视觉对齐基础上,增加了视觉到文本的逆向约束,从而实现了更鲁棒的跨模态语义对齐。

论文在RxRLandmark-RxR等高难度、长轨迹导航环境中进行了广泛测试,结果显示,该方法在导航成功率(SR)、路径加权成功率(SPL)及一致性指标(nDTW)上均取得了显著提升,特别是在陌生环境中展现出优异的泛化性能。此外,论文提出的基于重启机制的评估方法,更精准地量化了智能体(机器人)的局部对齐能力,证实了细粒度监督信号对于纠正长距离导航偏差的关键作用。

本研究提出了具身智能场景下基于细粒度监督的新范式,为解决跨模态长序列决策任务中的对齐漂移问题提供了重要的理论依据与技术支撑,具有深远的研究价值与实际意义,后续将推动服务机器人、搜救机器人等智能系统具备更精准的指令执行能力。

IEEE Transactions on Pattern Analysis and Machine IntelligenceTPAMI),是计算机视觉、人工智能与模式识别领域的顶级国际期刊,是中国计算机学会(CCF)推荐的A类期刊、中科院SCI 1TOP期刊。TPAMI以其极高的学术标准和影响力著称(影响因子长期稳居计算机科学领域前列),主要发表对计算机分析图像、视频、语言及多模态数据具有深刻理论贡献与算法创新的重量级研究成果。

 


联系我们

  • 版权所有:中国·williamhill(威廉希尔)官方网站-Ultra Platform
  • 联系电话:(86)-531-88366166  学院办公室

  •                  (86)-531-88365577  研究生教育

  •                  (86)-531-88366555  本科生教育

  • 邮箱:ai@sdu.edu.cn
  • 邮编:250100