智快网
快讯 行业 产业 汽车 科技 AI+ 热点

港科大贾佳亚团队新突破:DreamOmni2开源,AI多模态创作迈入新阶段

2025-10-24来源:快讯编辑:瑞雪

当语言无法精准传递灵感时,AI能否跨越文字的局限,直接捕捉创作者心中的视觉想象?香港科技大学贾佳亚团队最新推出的DreamOmni2模型,通过突破性的多模态编辑技术,为这一难题提供了创新解决方案。该成果在GitHub上线两周即收获1600颗星,引发YouTube创作者群体热议,被视为AI图像生成领域的里程碑。

传统AI创作工具长期受困于指令依赖困境。当用户试图将照片中的背包替换为波西米亚风格图案时,复杂纹理的语义描述往往导致结果偏差;而模仿老照片的复古光影或画家笔触时,现有模型更因抽象属性处理能力不足而束手无策。DreamOmni2的突破性在于,其构建的FLUX Kontext基座模型通过多参考图像解析机制,首次实现了对具体物体与抽象概念的同步编辑。

实测数据显示,该模型在人物替换任务中展现出惊人精度。将赛博场景中的男性角色替换为女性形象时,生成的画面不仅完整保留了背景光影与文字细节,更通过面部光线迁移技术,使新角色自然融入原始环境。在风格迁移测试中,模型成功将像素艺术、二次元画风等视觉特征完整迁移,相较GPT-4o的色调复制和Nano Banana的简单变色,展现出对艺术风格的深度理解。

技术白皮书揭示,研究团队通过三阶段数据工程构建了新型训练范式。首先利用特征混合技术生成包含相同物体/属性的高质量图像对,解决数据稀缺难题;继而开发提取-编辑双模型架构,自动生成(源图+指令+参考图)→目标图的完整训练链;最终通过多参考图像生成机制,形成覆盖具体物体与抽象属性的综合数据集。这种创新方法使模型在基准测试中,抽象属性处理得分超越GPT-4o与Nano Banana。

模型架构创新同样引人注目。针对多图像输入的混淆问题,研究团队引入索引编码与位置偏移技术,使模型能精准区分不同参考图像。通过视觉语言模型(VLM)与生成模型的联合训练机制,系统可自动将用户模糊指令转化为结构化操作,显著提升真实场景下的指令理解能力。LoRA微调策略的运用,则在保持基座模型性能的同时,实现了多模态能力的无缝激活。

在四图组合生成测试中,DreamOmni2将三位不同角色的特征与第四张图的画风完美融合,生成画面中人物服饰细节、动物品种特征与艺术笔触均得到准确呈现。这种跨图像、跨模态的编辑能力,使设计师能直接通过视觉参考进行创作,而非依赖文字描述。YouTube教程作者评价该模型为"免费工作流中的性能王者",其多图编辑精度已达到专业创作工具水准。

网友苦等一加15终有回应 李杰称值得等 165帧游戏体验即将登场
快科技10月23日消息,有网友给一加中国区总裁李杰留言:前面那么多新机都没买,就一直等着一加15。李杰回复:“等等党不会输”。 从120帧到165帧,游戏帧率的突破不仅是参数上的跃升,更是手游体验的一次大换代…

2025-10-24

NFC认证新版本CR15发布,读取距离提至20毫米,用户体验再升级
近场通信论坛(NFC Forum)今日(10 月 23 日) 宣布推出 NFC 认证版本 15(Certification Release15,简称 CR15),该版本引入了一项重要更新,显著提升了 NFC…

2025-10-24

OPPO Find X9系列首销热潮涌动:追光红受追捧,Pro版销量占比超六成
其中,Pro版的热度居高不下,追光红配色更是备受消费者欢迎,甚至一些男性客户也选择了该配色,这在手机行业销售中较为少见,也进一步突显了OPPOFind X9系列在设计上的独特魅力和对不同消费群体的广泛吸引力…

2025-10-24

华为鸿蒙6系统登场:流畅度大幅提升,跨生态互传成亮点,用户体验全面升级
就在刚刚,华为HarmonyOS 6 正式亮相,这次流畅度直接暴增40%,用余承东的话来说,体验就像换了新手机。接下来就是AI了,作为当下大厂都在卷的能力,这次鸿蒙直接自带 “智能体”。 10 月 22 …

2025-10-23

2025旗舰手机怎么选?荣耀Magic8系列凭全能实力成热门之选
从性能表现到AI体验,再到影像与设计,Magic8系列用实际体验证明了它为何能被列为“最好旗舰”的代表。更重要的是,Magic8在手感上做了细腻优化,机身弧线与掌心贴合,带来更舒适的握持体验。对那些追求稳定性…

2025-10-23

华为鸿蒙6系统新突破:支持与苹果设备“碰一碰”互传文件,个性化功能升级
值得注意的是,鸿蒙操作系统6还可以通过简单的“碰一碰”轻松分享照片、音乐、链接等丰富内容。与大部分国产智能厂商类似,为了增加和苹果生态的协同性,鸿蒙操作系统6可以通过碰一碰和iOS、iPadOS、macOS设…

2025-10-22

鸿蒙操作系统5问世一年终端破2300万,6代系统今日下午将正式登场
2025年10月22日,华为召开鸿蒙操作系统6发布会,发布会一开始,华为常务董事、终端BG董事长余承东对外表示,鸿蒙操作系统5终端数量突破2300万。 据了解,鸿蒙操作系统5是华为于2024年10月22日推出…

2025-10-22

性能旗舰之争:荣耀Magic8凭软硬件协同优势成今年热门之选
荣耀Magic8的影像系统结合AI算力,在长焦、夜景、人像等场景中都有显著提升。 对于正在考虑入手一款顶级旗舰的用户而言,荣耀Magic8无疑是今年最值得关注的答案——在众多高性能机型中,它以稳、快、智的综合…

2025-10-22

售价13000元!三星Galaxy XR头显发布 直面苹果Vision Pro高端之争
【CNMO科技消息】10月21日,三星正式发布了其首款混合现实头戴设备——GalaxyXR,官方售价定为1799.99美元(约合人民币13000元),直接瞄准了苹果Vision Pro的高端市场。借助头显的…

2025-10-22

真我GT8 Pro深度体验:影像创新联动理光GR,性能越级再升级
使用真我GT8 Pro拍摄后就会发现,它可以说是把理光GR的整套理念和色彩科学都塞进了手机里。 长焦还上了2亿像素1/1.56英寸大底潜望,在3倍、6倍和12倍变焦下,画质都有很高可用性,也是长焦街拍的很好补…

2025-10-22