近日,高德地图宣布上线全球首款基于大模型技术的“视觉认知步导”系统——地标AI领航。该系统通过整合千问大模型、超亿级地理兴趣点(POI)数据及千万级街景图像,首次赋予导航系统“视觉感知+语言理解”的双重空间智能,让步行导航更贴近人类自然认知习惯。
传统步行导航长期存在三大痛点:起步阶段方向辨识困难、行程中距离感知模糊、临近终点时定位不精准。高德研发团队通过分析人类指路行为发现,人们习惯用“穿过蓝色大楼”“右转见红色招牌”等具象化描述传递路线信息,其核心逻辑在于结合方向指引、地标锚定与场景上下文。为复现这种认知模式,系统需构建覆盖真实世界的动态地理语义网络。
技术实现层面,该系统依托三大基础能力:包含1.2亿个POI的数据库、高精度步行路网拓扑结构,以及覆盖全国主要城市的千万级街景图像库。通过千问大模型的多模态分析能力,系统可自动识别道路设施、商业标识、建筑特征等实体,并评估其在视觉场景中的显著程度。例如,在复杂路口会优先选择地铁标识、银行招牌等高辨识度地标作为参照物。
为提升指引效率,系统采用双重筛选机制:在空间维度上,仅在起步、转向、偏航纠正等关键节点播报;在视觉维度上,通过算法评估地标的颜色对比度、尺寸大小、位置关系等特征,筛选出最易识别的参照物。播报文案设计摒弃机械式指令,转而使用“左侧第二个玻璃门”“经过星巴克后右转”等口语化表达,并根据环境复杂度动态调整信息密度。
实际测试数据显示,使用该系统的用户在关键路口的路径确认速度平均提升2秒,低头查看手机的频率下降37%。特别对于老年群体、带儿童家庭及异地游客等场景,这种“直觉式导航”显著降低了步行出行的认知负担。系统目前已在200余个城市上线,后续将扩展至更多语言版本及特殊场景适配。


