
2026年1月28日,源自北京的智源多模态大模型成果正式上线国际顶级学术期刊Nature,预计2月12日纸质版正式刊发,这是我国科研机构主导的大模型成果首次在Nature正刊发表,成为2026年开年以来科技领域最具影响力的热点事件。这项名为Multimodal learning with next-token prediction for large multimodal models的研究,核心突破在于证明了仅采用自回归路线,就可以统一多模态学习,训练出优秀的原生多模态大模型,彻底解决了长期以来多模态模型路线分散的行业难题,推动生成式人工智能进入统一发展的新阶段。
自2018年GPT采用预测下一个词元的自回归路线实现语言大模型重大突破以来,生成式人工智能浪潮席卷全球,但多模态模型领域却长期处于路线分散的状态。此前,多模态模型主要依赖对比学习、扩散模型等专门路线,自回归路线是否可以作为通用路线统一多模态,一直是全球人工智能领域的未解之谜。智源研究团队历经多年攻关,推出的Emu3多模态大模型,彻底破解了这一难题,为多模态智能系统的构建提供了全新的通用范式。
Emu3大模型的核心创新的是将图像、文本和视频统一离散化到同一个表示空间中,从零开始在多模态序列混合数据上联合训练一个单一的Transformer。与传统多模态模型要么简单拼接语言模型与扩散模型,要么在特定任务上性能不足的问题不同,Emu3仅凭预测下一个词元的单一框架,就同时实现了高水平的生成能力与理解能力,并且能够自然扩展到机器人操作以及多模态交错等复杂生成任务。Nature编辑对这项研究给予高度评价,认为Emu3在生成与感知任务上的性能可与使用专门路线的模型相当,对构建可扩展、统一的多模态智能系统具有重要意义。
实验数据显示,Emu3在多项核心任务中表现突出,在文生图任务中,其效果达到了主流扩散模型的水平,能够生成高保真、高还原度的图像内容;在视觉语言理解方面,可以与融合CLIP和大语言模型的主流方案比肩,精准实现图像与文本的双向理解与匹配。更值得关注的是,Emu3还具备强大的视频生成能力,不同于以噪声为起点的扩散式视频生成模型,Emu3通过自回归方式逐词元预测视频序列,实现基于因果的视频生成与延展,展现出对物理世界中环境、人类与动物行为的初步模拟能力。
在Emu3的基础上,智源团队后续迭代推出的Emu3.5版本,进一步实现了能力跃迁,达成了预测下一个状态的核心突破,获得了可泛化的世界建模能力。Emu3.5通过大规模长时序视频训练,深入学习时空与因果关系,展现出随模型与数据规模增长而提升的物理世界建模能力,并且观察到多模态能力随规模扩展而涌现的趋势,实现了从预测下一个词元到预测下一个状态的范式升级,为原生多模态助手、世界模型以及具身智能等方向的发展奠定了坚实基础。
为了推动该方向的持续研究,智源研究团队对相关研究的多项关键技术与模型进行了开源,其中包括一个稳定且通用的视觉分词器,可将图像与视频高效转换为离散词元来表示,降低了多模态模型的研发门槛。同时,研究团队通过大规模消融实验,系统分析了分词器码本尺寸、初始化策略、多模态dropout机制以及损失权重配置等关键技术的设计选择,揭示了多模态自回归模型在训练过程中的动态特性,为行业提供了宝贵的技术参考。
值得注意的是,Emu系列模型的迭代历程,展现了我国在多模态大模型领域的持续创新能力。2022年6月,智源正式布局多模态大模型研发;2023年7月,发布并开源首个版本,成为最早打通多模态输入到多模态输出的统一多模态模型;2023年12月,Emu2发布,通过大规模自回归生成式多模态预训练,展现出可泛化的多模态上下文学习能力;2024年10月,Emu3推出,实现了单一自回归框架统一多模态生成与感知;2025年10月,Emu3.5迭代升级,实现了世界建模能力的突破。这一系列成果的落地,标志着我国在多模态大模型领域已经跻身全球领先行列。
除了Emu系列多模态模型,智源在2025年6月发布的新一代大模型系列悟界,更是构建起覆盖宏观具身智能、介观生命系统到微观构象动力学的多层次技术基座,其中包括RoboBrain跨本体具身大脑、数字孪生心脏、Brainμ脑科学多模态基础模型以及OpenComplex全原子生命模型等。FlagOS开源系统软件栈则为这些模型的训练和推理带来了效率突破和多元AI硬件适配能力,进一步完善了我国自主可控的AI技术生态。
智源多模态大模型登Nature,不仅是国际学术界对我国人工智能原创技术路线的认可,更推动了生成式人工智能行业的发展变革。自回归路线成为多模态模型的通用范式,将大幅简化复杂的模型设计,聚焦统一词元,在训练与推理阶段均展现出显著的可扩展性,为AI技术的规模化应用提供了新的可能。未来,随着Emu系列模型的持续迭代,以及更多企业和科研机构的参与,多模态AI将在更多领域落地应用,推动人工智能从数字世界迈向物理世界,为千行百业的数字化转型注入新动力。
从行业影响来看,智源的这项突破打破了海外企业在多模态大模型领域的技术垄断,提升了我国在全球人工智能领域的话语权。此前,全球多模态大模型的核心技术主要掌握在少数海外科技巨头手中,我国企业多处于跟随状态,而Emu3的研究成果,证明了我国在人工智能基础研究领域的原创能力,为我国AI产业的自主发展奠定了坚实基础。同时,这项成果也将带动国内AI产业链的协同发展,从芯片、算法到应用,形成完整的产业生态,推动我国从AI大国向AI强国转变。
对于普通用户而言,多模态AI技术的发展将彻底改变数字生活方式。未来,基于Emu系列模型的原生多模态助手,将能够实现更自然的人机交互,不仅可以听懂语音、看懂图像、生成视频,还能理解人类的情感与意图,提供个性化的服务。在办公场景中,可自动生成图文并茂的文档、视频教程;在生活场景中,能够根据用户需求生成个性化的影像内容、家居设计方案;在教育场景中,可打造沉浸式的教学内容,提升学习效率。多模态AI的普及,将让科技真正融入日常生活,带来更便捷、更智能的体验。
当然,多模态AI技术的发展仍面临一些挑战,比如模型训练的数据安全、隐私保护、伦理规范等问题。随着模型能力的不断提升,如何保障用户数据安全,避免技术滥用,成为行业需要解决的重要课题。未来,需要政府、企业、科研机构协同发力,建立完善的行业标准与监管体系,规范多模态AI技术的应用与发展,确保技术创新始终服务于人类社会的进步。
2026年智源Emu3登Nature,是我国人工智能领域的重要里程碑,标志着我国在多模态大模型基础研究领域实现了重大突破,也推动全球生成式人工智能进入统一路线的发展新阶段。随着技术的持续迭代与应用的不断拓展,多模态AI将重塑行业格局,改变人类生活方式,为数字经济高质量发展注入强大动力,我国也将在全球人工智能竞争中占据更有利的地位。