高德发布全球首个由大模型驱动的视觉认知步行导引系统

近日，高德地图正式推出全球首个由大模型驱动的 " 视觉认知步导 " 系统——地标 AI 领航，该系统深度融合千问大模型、亿级 POI 与千万级街景图像，让导航系统首次具备了 " 视觉认知与人类语言理解 " 的空间智能感知能力。它不再只是距离和方向指令，而是能像真人一样，通过用户眼前真实世界的地标进行引导，实现 " 所见即所导 "，从根本上解决了步行场景下的导航认知难题。

在导航场景中，用户常常面临三个主要痛点：起步时方向感模糊、对距离与步行进度缺乏直观感知、到达目的地附近仍无法确认准确终点。

高德基于多模态人机交互、地理语义理解与生成式 AI 应用上的突破，推出了更符合人类指路习惯的视觉认知导航，有效解决了上述痛点，为用户提供零认知负担的 " 直觉式行走 " 体验。

人类在日常指路时常用 " 在那边 "" 走那条路 "" 穿过红色建筑 "" 下个路口有排餐饮店 " 等表达方式，通过融入当前环境的地标参考，让路线信息更明确，其核心依赖 " 方向语义 + 地标锚定 + 上下文感知 " 的认知逻辑。导航工具若要达到人类语境下的指路效果，首先需要构建覆盖真实世界、可听可视的地理语义网络。

为此，高德地图基于三大核心能力，建立导航系统对空间关系的深度理解：超亿级 POI 数据库、高精度步行路网拓扑，以及覆盖全国大部分城市及景区的千万级高精街景图像。结合千问的多模态能力，系统可识别交通设施、商铺、地标建筑等实体，并评估其视觉显著性，从而生成更符合人类习惯的自然语言描述。

真实场景中，并非所有 POI 都适合用于指引，地标不清、提示不准会导致用户拿不准 " 第几个路口转 "" 何时该提醒 "。为提升指引有效性，高德地标 AI 领航采用 " 双重筛选 "：一是时空关键节点筛选，仅在起点、转弯、偏航及临近终点等决策点播报；二是显著感知筛选，优先选择更醒目、更易识别的参照物，如地铁标识、银行大牌、餐饮招牌等。

同时，播报文案采用更口语化、具象化的表达，突出颜色、形态与相对位置（如 " 左侧第二个玻璃门 "），并根据场景动态调整详略。实测显示，用户在听到视觉地标提示后，平均比传统导航快 2 秒确认正确路径，减少看手机频次，进一步降低老人、亲子家庭、游客及注意力易分散人群的步行出行门槛。

此次推出的地标 AI 领航，是高德在空间智能领域深耕的又一力证。通过多模态大模型对物理世界进行视觉语义蒸馏，高德构建起可视、可感、可用的空间智能应用。

宙世代

一起剪

相关标签