2026年2月,AI多模态模型哪家强?智源Emu3脱颖而出

我国科研机构主导的大模型成果首次登上Nature__我国科研机构主导的大模型成果首次登上Nature

近年以来,人工智能范畴展现出“专科化”的发展趋向,不同模态的模型各自履行职责,然而,这样的技术路径是不是反映出了机器智能内在的碎片化限制呢?智源研究院最近发布的统一多模态模型Emu3,凭借其特有的“预测下一个符号”范式,针对此一根本性问题展开了直接挑战,为构建通用世界模型提供了全新的可行途径。

我国科研机构主导的大模型成果首次登上Nature_我国科研机构主导的大模型成果首次登上Nature_

专科化发展的潜在隐忧

如今,AI技术图谱呈现出高度分化的态势,Stable Diffusion专门致力于图像生成方面,GPT - 4在语言领域展现得极为出色,而各类视觉 - 语言模型在跨模态任务上不断取得进步。这样的分工造就了高效率,然而其中还隐含着一种假设:机器智能或许天生就是模块化的,非得为视觉、语言、视频各构建独立的系统,是这样的情况。

如此这般的技术现实,催生出了繁杂的模型堆栈,以及高昂的运维成本,一个完备的AI应用,常常需要串联多个专门的模型,这不但致使系统变得复杂,延迟有所增加,更有可能因为各个模型对于世界的理解并不一致,进而产生认知隔阂,业界始终在探寻,是否能够借助一个统一的模型,去完成所有的任务。

统一范式的核心洞见

智源团队有个关键突破,此突破在于一个核心洞见,这个洞见是,要是把图像、视频、文字等所有模态数据全都转化成同一种“语言”,也就是离散的符号序列,那么让模型学着去做“预测下一个符号”这一单一的-task,从理论上讲这件事就全然能够够涵盖所有多模态的理解以及形成能力。

我国科研机构主导的大模型成果首次登上Nature_我国科研机构主导的大模型成果首次登上Nature_

这一思想源自自然语言处理范畴的成功经历,2020年时GPT - 3证实了,只是凭借预测文本序列里的下一个词,模型便能够展现出翻译、编程、推理等繁杂能力,然而,把这一范式延伸至视觉领域遭遇极大挑战,这是由于图像和视频的数据结构跟传统线性文本有着本质区别。

跨越模态的本质差异

主要面对的挑战在于,数据表征所具有的复杂性。有一张尺寸为512×512的普通图像,要是没有经过压缩就直接转变为符号序列,那么有可能产生数十万个token,这远远超出了当前Transformer架构的常规处理能力。而且,图像所具备的空间结构,视频呈现出的动态连续性,和亲文字的线性逻辑关系截然不同。

Emu3团队把这一难题给解决掉了,借助的是创新的视觉分词器设计,该设计仅仅使用传统方法四分之一的符号数量,就能够达成与逐帧处理不相上下的重建质量,这不止极大地提升了计算效率,还意味着模型能够有效地捕捉视频的动态本质,而不是简单地处理静态帧的集合。

激进的技术路线选择

面临挑战时,行业里的主流方案是去复用预训练的组件,比如说,Meta的Chameleon模型,尽管其架构是统一的,然而依旧要靠独立的视觉编码器以及语言模型来进行拼接,这样的方案能够快速地去集成现有的技术优势,不过有可能致使模态之间的表征出现不一致的情况,而且系统的复杂度也是比较高的。

Emu3挑选了一条更为彻底的途径 , 革除所有预先训练的视觉编码器以及复杂的融合机制 , 仅仅运用一个从头开端训练的只含解码器的Transformer。 所有的多模态知识 , 都在统一的 “ 下一符号预测 ” 任务当中 , 从原始数据里直接学习而得 , 保证了表征的内在一致性。

生成与理解的统一突破

_我国科研机构主导的大模型成果首次登上Nature_我国科研机构主导的大模型成果首次登上Nature

试验数据表明,Emu3于诸多基准测试里展现出卓越表现,在图像生成任务当中,它的性能等同于专用扩散模型,在视觉问答以及描述任务方面,也达到了顶尖视觉 - 语言模型水准,这冲破了“擅长生成的模型不擅长理解”的传统认知。

在科学价值方面更具突出表现的是,Emu3首次针对多模态学习开展了系统的验证工作,验证结果表明多模态学习同样遵循那种具备可预测特性的规模定律,并且不同的模态之间共享着同一套用于数据扩展的指数。这所蕴含的意义在于,在未来的相关操作中,仅仅需要把多种模态的数据进行混合操作,并且运用统一的目标来进行训练,随着规模不断地扩大,各项能力就有可能自然而然地涌现出来,而不需要针对每一种能力去分别设计相应的策略。

通向世界模型的现实意义

这一突破有着深远的技术意义以及哲学意义,从技术层面来讲,它证实作为多模态学习统一框架的“下一符号预测”,为构建能够同时进行感知、理解、生成还有推理的“世界模型”开拓了路径,而这种模型被视作达成更高级AI的关键基础。

以应用层面来观察,统一的模型必定会极为大限度地将 AI 服务的部署以及维护予以简化。教育领域、创作领域、交互等领域将会从一个能够毫无缝隙地处理图像、视频、文本任意组合的智能体那里有所收益,冲破传统“输入 - 输出”那种僵硬的界限,进而提供更加自然连贯的体验。

当然了,Emu3依旧存在着局限,像是推理的速度,还有长视频的处理能力等方面都有待于进一步提升。不过,它的出现标志着一种新的研究范式得以确立。要是它的路径能够被成功地扩展,那么AI领域说不定正处于一次深刻的范式转移的起始点上。您觉得,这种对于统一智能范式的追求所做出的努力,最终究竟会使得我们更加靠近通用人工智能的本质,还是很有可能忽略了智能本身所固有的多元性?欢迎在评论区分享您自己的见解。

注册地址:遂宁市政务服务中心3号花瓣4楼3426号
办公地址:遂宁市船山区遂州北路169号6楼‌
联系电话:0825-2317729