智快网
快讯 行业 产业 汽车 科技 AI+ 热点

阿里万相2.6视频生成模型来袭!多项功能升级,开启创作新体验

2025-12-17来源:快讯编辑:瑞雪

阿里近日正式发布新一代视频生成模型——万相2.6系列,凭借音画同步、多镜头生成及角色扮演等创新功能,迅速成为行业焦点。该模型不仅被宣称是全球功能最全面的视频生成工具,更是国内首个支持角色扮演能力的视频模型,标志着国产AI技术在视觉创作领域迈入新阶段。

相较于前代万相2.5,新版本针对专业影视与图像创作场景进行了深度优化。其核心升级包括画质与音效的显著提升、指令响应能力的增强,以及单次生成视频时长延长至国内领先的15秒。更引人注目的是,新增的角色扮演与分镜控制功能,让用户能够通过文本指令实现复杂叙事视频的自动化生成。例如,用户上传一张数字人照片并输入分镜脚本后,模型可在几分钟内生成包含多场景切换、人物动作连贯的15秒剧情短片,且画面主体一致性较高,无明显逻辑漏洞。

在实际测试中,万相2.6展现了强大的场景适应能力。当输入“男生向女生表白”主题的脚本时,模型生成的视频不仅准确还原了递花、对视、拥抱等动作细节,人物嘴型与声音同步度也达到较高水平,尽管情绪表现仍略显机械,但已优于多数同类产品。而在角色扮演功能测试中,用户上传马斯克采访视频后,模型成功将其替换为女性数字分身,神态与姿态高度还原原角色,仅在声音保留男性特征方面存在细微偏差。模型对多人互动场景的处理也有所突破,例如在“赫敏飞奔拥抱哈利”的测试中,虽偶有角色替换误差,但整体动作流畅度与情感表达已接近真实拍摄效果。

技术层面,万相2.6通过多模态联合建模实现画面与声音的全维度一致性。其创新架构可同时解析视频中的主体情绪、姿态、视觉特征,以及音色、语速等声学信息,并在生成阶段将这些特征作为控制条件,确保单人或多人表演的连贯性。在分镜控制方面,模型通过高层语义理解技术,将文本脚本转化为具备叙事张力的专业级多镜头段落,即使在复杂场景切换中,也能保持主体、布局与环境氛围的统一建模。

目前,万相2.6已开放个人用户通过官网直接体验,企业用户则可通过阿里云百炼平台调用模型API。据透露,千问APP也将于近期集成该模型功能。从文生图、图像编辑到文生视频、图生视频,再到人声生视频与动作生成,万相模型家族现已覆盖超过10种视觉创作能力,持续刷新全球功能记录。此次升级不仅巩固了阿里在AI视频生成领域的领先地位,更为专业影视制作、短视频创作等领域提供了高效工具,推动行业向自动化、智能化方向加速演进。

荣耀WIN系列12月登场:旗舰芯片配超大电池 打造电竞性能新标杆
快科技12月16日消息,今日,荣耀正式宣布全新升级的电竞旗舰系列——荣耀WIN。 该系列首款产品定位“年度电竞夯机”,将于本月发布。 同时,荣耀WIN还将配备超大容量电池,通过软硬件协同优化,实现重度使用场景…

2025-12-17

华为Mate80与Mate70同价选谁?新品诚意足,老款有亮点咋抉择?
不过需要注意的是,这里的Mate70系列价格都是以官方售价为准,实际上第三方平台的华为Mate70系列要便宜很多,比如华为Mate70标准版12GB+512GB售价也就不到4200元,Pro版也就不到470…

2025-12-17

苹果新品计划曝光:折叠屏iPhone、iPhone Air 2等多款设备蓄势待发
苹果要发布折叠屏手机已经不再是什么秘密,大家也对苹果首款折叠屏手机备受期待,根据最新的消息,苹果预计将会在2026年发布旗下首款折叠屏手机,而在最新的一份泄露名单中,苹果正在研发二十余款设备,包括平板、Mac…

2025-12-17

华为语音转文字工具大比拼:听脑AI、通义听悟、觅讯谁更值得入手?
重点看准确率、转写速度、功能完整性。开会议时,参会人扫码就能一起看转写内容,还能实时标重点。听脑AI云端免费给10G,够用30小时录音。但功能太简单,只能录音转写,别的啥都没有。用听脑AI,转写+整理10分钟…

2025-12-17