智快网
快讯 行业 产业 汽车 科技 AI+ 热点

哥大博士突破机器人交互瓶颈:唇部同步技术让机器人脸告别“面瘫” 跨11国语言

2026-02-10来源:快讯编辑:瑞雪

在人与人的交流中,我们的目光常常聚焦于对方的眼睛,这不仅是情感传递的窗口,更是理解彼此意图的重要途径。然而,当环境变得嘈杂,视线便不自觉地转向嘴唇,试图通过唇形变化捕捉言语中的微妙信息。这种自然的交流方式,却成为当前人形机器人研发中的一大挑战——如何让机器人的面部表情,尤其是唇部动作,更加自然流畅,成为跨越“恐怖谷效应”的关键。

哥伦比亚大学博士胡宇航创立的首形科技,正致力于破解这一难题。这家初创公司不走寻常路,将研发重心放在赋予机器人面部情绪表达能力上,而非追求运动或操作能力的极致。这一策略成效显著,不仅赢得了多轮融资,更在社交媒体和市场上引发广泛关注。近日,胡宇航团队的研究成果登上《科学·机器人学》封面,展示了其研发的Emo面部机器人如何实现与语音、歌曲同步的唇部运动,标志着人脸机器人领域的一大突破。

胡宇航指出,嘴唇是面部动作最丰富的部位,其运动复杂性远超想象。不同于眉毛等单一方向运动的面部特征,嘴唇由多个肌肉群驱动,运动过程中频繁接触与分离,对时间精度极为敏感,同时承载语言、情感与社交信号。这使得嘴唇运动的建模成为一项高维、非线性、强闭环的生成式形变问题,挑战重重。

面对如此复杂的任务,如何客观衡量机器人嘴唇运动的“真实性”成为关键。胡宇航团队提出创新方法,利用合成参考视频作为理想同步基准,在VAE编码器的潜空间中计算机器人嘴唇运动与参考视频之间的距离,从而刻画整体嘴型动态与时序结构的偏差。这一方法避免了依赖易受噪声干扰的二维关键点,为连续语音与多语言场景下的音频-视觉同步误差评估提供了客观度量标准。

传统机器人嘴唇同步方法主要依赖手工预定义的运动规则和固定的音素-视位映射表,存在明显局限。同一音素的发声速度因说话人、场景或情绪而异,多语言、歌唱或方言等场景下基于音素设计规则需投入巨大手工工作量,且机器人硬件升级时所有动作几乎需重新编排。这种方法隐含音素与嘴型稳定一对一映射的假设,与真实人类发音机制不符,导致生成嘴型序列“正确但僵硬”。

相比之下,数据驱动方法能够从真实人类与机器人发音数据中学习复杂统计规律与隐含约束,突破规则方法在泛化性、可扩展性和自然性上的瓶颈。胡宇航团队设计的两阶段“自监督学习系统”正是这一思路的体现:第一阶段机器人“照镜子”建立自我模型,明确自身硬件与软体结构下可实现的运动;第二阶段观看人类视频学习嘴唇运动规律,并通过自我模型将这些规律投射到自身可执行的动作空间中。

实验结果显示,该系统能在11种语言中实现自然的嘴唇同步,包括英语、法语、日语、韩语等。这一“跨语言”能力源于系统学习的是人类发音过程中更底层的肌肉运动模式,而非具体语言或音素。在两阶段自监督框架下,模型捕捉声音节奏与嘴唇动作之间跨越语言边界的共性规律,如张合节律、闭合-释放结构等,从而适应多种语言、语速和说话风格。

尽管成果显著,系统仍面临技术挑战,尤其是硬辅音(如/b/、/p/、/m/、/w/)的处理。这些音素发音速度快,涉及多重约束条件,如/b/、/p/、/m/需在极短时间内完成“闭合—保持—释放”动作,/w/则要求双唇闭拢、前突形成圆形,同时配合口腔形状连续变化。模型需在毫秒级时间精度下协调多个高度耦合的自由度,应对软体接触、非线性阻尼等物理因素,难度极高。

当前方法在极端语音场景下表现欠佳,如语速极快、多人同时说话、歌唱颤音等。胡宇航认为,这反映了方法的本质边界,即模型主要学习典型对话语境下声学时序与嘴唇运动之间的关系。然而,这些失效案例也为未来研究指明了方向,随着训练数据丰富和模型能力提升,边界场景处理能力有望逐步改善。

当被问及技术是否会从唇部动作扩展到整个面部表情系统时,胡宇航给出肯定回答。他表示,团队最终目标是实现完整的类人交互,协调唇部动作与眼神、眉毛等其他面部要素,形成统一而细腻的情感表达。这不仅是技术上的自然延伸,更是对人机交互本质的深度探索。当机器人能够用整张脸来表达和理解情绪时,它与人类的关系将发生更深刻的转变。

iQOO 15 Ultra登场:全能旗舰配置拉满 畅玩大型游戏无压力
运营商财经 康钊/文本次发布的iQOO 15 Ultra正是属于数字系列,所以是全能旗舰手机,尤其是听在iQOO手机的语境中,“Ultra”代表了该品牌数字系列中的顶级旗舰型号,是性能与体验的终极形态,远超普…

2026-02-10

科大讯飞回应脑科学研究进展:目前处于前瞻阶段 将持续关注并适度投入
转自:证券时报 人民财讯2月9日电,科大讯飞(002230)在互动平台表示,由于脑本身的复杂性和特殊性、医学伦理等限制,脑科学当前尚处于前瞻性研究阶段,相关商业应用尚处于技术早期探索期,公司会保持关注和适当投…

2026-02-10

字节跳动Seedance 2.0:AI视频生成新突破,重塑行业未来挑战并存
Seedance2.0带来的变革远不止于生成一段视频这么简单,以它为首的AI视频生成模型正在深层影响传统影视工作。技术是一把双刃剑,Seedance 2.0在展示中国AI实力的同时,也迫使我们思考如何建立…

2026-02-10

iPhone17e延续经典刘海屏设计 性能升级或成实用派苹果用户新宠
作为2026年苹果发布的首款机型,它不仅是目前产品线中最亲民的选择,也将成为今年价格门槛最低的iPhone。iPhone17e将换装性能更强悍的A19处理器,这不仅提升了系统的运行流畅度,也为未来更复杂的AI…

2026-02-10

Anthropic联合创始人:AI时代人文学习价值凸显 人类特质愈发珍贵
2月9日消息,据Fortune报道,Anthropic 联合创始人兼总裁丹妮拉·阿莫迪近日在采访中表示,在人工智能时代,人类独有的品质实际上会变得更加重要。“很多模型其实在理科方面都很出色。我认为,批判性思维…

2026-02-10

Seedance 2.0实测:AI导演时代来临,视频创作门槛大幅降低
不过,Seedance 2.0也并非“完美无缺”,如新京报贝壳财经记者在提示词中本意为让其生成“人与宇树机器人”对战的视频,但最终生成视频中的机器人并非市面上常见的宇树机器人,更类似科幻电影中的机器人形象,…

2026-02-10

2026小折叠屏手机怎么选?这5款标杆机型闭眼入不踩雷
最让人震惊的是,在如此轻薄的机身里,小米通过创新的“三连杆、四浮板”龙骨转轴结构,硬是塞进了一块5165mAh的巨无霸电池,配合67W有线秒充和50W无线秒充,这续航能力甚至比很多直板机都恐怖,彻底终结了折叠…

2026-02-09