智快网
快讯 行业 产业 汽车 科技 AI+ 热点

字节开源视频新框架Bernini:多模态规划+Diffusion渲染,AI视频编辑精准可控再升级

2026-06-02来源:天脉网编辑:瑞雪

在视频生成领域,创作者们长期面临一个棘手难题:模型难以精准理解人类意图。当用户要求将晴天画面转为雪景时,系统可能仅在画面上机械添加雪花;尝试将动画嵌入商场LED屏时,又会出现边界扭曲、透视错乱等问题。这种"听懂话却做不对事"的困境,正在被字节跳动商业化技术团队推出的开源框架Bernini打破。

这个采用"先理解后生成"策略的创新框架,通过多模态大模型与扩散模型的分工协作,实现了视频生成与编辑的精准控制。其核心架构包含两大模块:基于多模态大模型的规划器(MLLM-based planner)负责解析文本指令、分析源素材并规划目标画面,扩散变换器渲染器(DiT-based renderer)则将语义规划转化为高质量视频。这种分工模式使系统能同时处理参考生成、视频编辑等复杂任务,在保持帧间一致性的同时实现风格迁移、主体替换等精细操作。

在天气变换测试中,系统展现了对环境要素的深度理解能力。当用户指令将城市航拍从晴天转为雨天时,模型不仅调整了天空色调,还同步修改了路面反光、建筑湿润度等细节,使天气变化自然融入原始场景。更令人印象深刻的是三维空间处理能力——在视角编辑任务中,系统能准确把握场景深度关系,确保镜头移动时建筑轮廓符合透视原理,避免出现结构扭曲。

针对视频编辑中的动作连贯性难题,研发团队设计了专门的解决方案。在棕熊视频测试中,系统在保持环境光照和镜头关系稳定的前提下,成功实现了从静卧到起舞的动作转换。这种突破得益于渲染器对源视频VAE特征的巧妙运用,既能保留非编辑区域细节,又能确保主体动作自然嵌入原有画面。测试数据显示,在复杂动作编辑场景中,系统能将主体变形率降低至3%以下,动作断裂现象减少92%。

参考素材处理能力是该系统的另一大亮点。在材质替换测试中,系统能根据布料、金属等参考图,精准修改盘子表面纹理,并确保材质特征随物体移动保持稳定。风格迁移功能支持跨维度视觉转换,可将水墨、赛博朋克等不同风格特征完整迁移至动态视频,同时保留原始主体运动轨迹。特别值得关注的是图像植入功能,当测试人员将油画图片嵌入街头招牌时,系统自动处理了光照反射、边缘融合等细节,使植入画面与实拍场景浑然一体。

技术实现层面,研发团队创新性地引入Segment-Aware 3D Rotary Positional Embedding(SA-3D RoPE)机制。该技术通过为不同视觉片段添加唯一标识符,有效解决了多参考素材混合处理时的时空坐标混淆问题。在自建的Arena评测体系中,Bernini框架在视频一致性、语义理解准确度等核心指标上,已达到国际主流闭源模型水平,部分场景表现甚至更优。

目前,Bernini-R版本已开源,完整包含MLLM Planner的升级版本正在进行代码整理,预计近期开放下载。这个允许创作者使用自有素材进行视频生成的系统,正在重新定义AI辅助创作的边界——从被动响应指令到主动理解创作意图,从生成单帧美图到打造连贯视觉叙事,技术进步正在让视频创作摆脱"开盲盒"式的随机性,向着精准可控的方向稳步迈进。

华为畅享100 Pro Max立项!代号“叶问”,大屏大电池年底登场中端市场
PChome 6月2日消息,据知名数码博主@数码闲聊站的最新爆料,华为畅享系列新机“畅享100 ProMax”已正式立项,内部研发代号定为“叶问”,预计将于今年年底前后正式登场,瞄准中端手机市场。 依据爆料…

2026-06-02

谷歌Pixel Watch 5智能手表原型现身,竟由潜水员在加勒比海意外发现
IT之家 6 月 2 日消息,消息源 @DuvalMagic 昨日(6 月 1 日)在 X 平台发布推文,分享了一组照片,展示了谷歌 PixelWatch 5 智能手表原型。 本次原型曝光多少存在魔幻色彩,…

2026-06-02

苹果WWDC前夕爆料:Siri将推独立App,大模型赋能开启全场景服务新篇
来源:环球网 据彭博社等外媒披露,新版Siri跳出过往弹窗唤醒形态,转型为对标ChatGPT的通用对话 AI,打通系统底层权限,可调用手机本地短信、相册、日程、文档等全量个人数据,结合联网搜索实现全场景服务…

2026-06-02

AMD锐龙AI Max+电脑阵容揭晓,小米携多品牌强势入局AI新赛道
IT之家 6 月 2 日消息,AMD 官方今天上午在 X 平台发文,公布锐龙 AI Max+ 处理器电脑产品阵容。 从图片中可以看到,AMD宣称使用锐龙 AI Max+ 的厂商有宏碁、华硕、惠普、Frame…

2026-06-02

苹果首款折叠屏iPhone Ultra机模现身,配色简约或因产能,售价超2000美元
PChome 6月2日消息,据知名数码博主@i冰宇宙最新曝光的机模谍照,苹果首款折叠屏手机(内部命名为iPhone Ultra)的首款外观配色正式浮出水面。照片显示,该机采用了纯白色的机身设计,这也是目前唯一…

2026-06-02

夜景实况拍摄难题如何破?荣耀600系列影像硬实力全解析与推荐
此外,8600mAh青海湖大电池为高负载的影像运算提供了持久底气,0.98mm极窄四等边绿洲护眼屏与IP68、IP69、IP69K级防尘防水,更是将全能体验拉满,绝对是夜景实况照片效果好的手机推荐中的不二之选…

2026-06-02

英伟达GTC Taipei 2026将启,黄仁勋揭秘新微处理器首批主要用户
英伟达(NVDA.US)GTC Taipei2026将于6月1日至4日在中国台北国际会议中心举行。英伟达CEO黄仁勋6月1日上午11:00发表主题演讲,揭晓驱动新一代 AI的突破性技术进展。 黄仁勋表…

2026-06-02

英伟达DLSS 4.5光线重建技术8月登场,27款游戏率先适配,画质再升级
IT之家 6 月 1 日消息,NVIDIA(英伟达)今日发布 DLSS 4.5 光线重建 (Ray Reconstruction)技术。这项技术将于今年 8 月正式推出,适用于所有 GeForce RTX …

2026-06-02