当前位置：首页 > 科技前沿 > 正文内容

2026年智源Emu3登Nature 自回归路线统一多模态AI开启全新纪元

admin2个月前 (03-21)科技前沿19

c0aad07652e9405597d3f247fa738503.jpeg~tplv-a9rns2rl98-downsize_watermark_1_6_b.png

2026年1月28日，源自北京的智源多模态大模型成果正式上线国际顶级学术期刊Nature，预计2月12日纸质版正式刊发，这是我国科研机构主导的大模型成果首次在Nature正刊发表，成为2026年开年以来科技领域最具影响力的热点事件。这项名为Multimodal learning with next-token prediction for large multimodal models的研究，核心突破在于证明了仅采用自回归路线，就可以统一多模态学习，训练出优秀的原生多模态大模型，彻底解决了长期以来多模态模型路线分散的行业难题，推动生成式人工智能进入统一发展的新阶段。

自2018年GPT采用预测下一个词元的自回归路线实现语言大模型重大突破以来，生成式人工智能浪潮席卷全球，但多模态模型领域却长期处于路线分散的状态。此前，多模态模型主要依赖对比学习、扩散模型等专门路线，自回归路线是否可以作为通用路线统一多模态，一直是全球人工智能领域的未解之谜。智源研究团队历经多年攻关，推出的Emu3多模态大模型，彻底破解了这一难题，为多模态智能系统的构建提供了全新的通用范式。

Emu3大模型的核心创新的是将图像、文本和视频统一离散化到同一个表示空间中，从零开始在多模态序列混合数据上联合训练一个单一的Transformer。与传统多模态模型要么简单拼接语言模型与扩散模型，要么在特定任务上性能不足的问题不同，Emu3仅凭预测下一个词元的单一框架，就同时实现了高水平的生成能力与理解能力，并且能够自然扩展到机器人操作以及多模态交错等复杂生成任务。Nature编辑对这项研究给予高度评价，认为Emu3在生成与感知任务上的性能可与使用专门路线的模型相当，对构建可扩展、统一的多模态智能系统具有重要意义。

实验数据显示，Emu3在多项核心任务中表现突出，在文生图任务中，其效果达到了主流扩散模型的水平，能够生成高保真、高还原度的图像内容；在视觉语言理解方面，可以与融合CLIP和大语言模型的主流方案比肩，精准实现图像与文本的双向理解与匹配。更值得关注的是，Emu3还具备强大的视频生成能力，不同于以噪声为起点的扩散式视频生成模型，Emu3通过自回归方式逐词元预测视频序列，实现基于因果的视频生成与延展，展现出对物理世界中环境、人类与动物行为的初步模拟能力。

在Emu3的基础上，智源团队后续迭代推出的Emu3.5版本，进一步实现了能力跃迁，达成了预测下一个状态的核心突破，获得了可泛化的世界建模能力。Emu3.5通过大规模长时序视频训练，深入学习时空与因果关系，展现出随模型与数据规模增长而提升的物理世界建模能力，并且观察到多模态能力随规模扩展而涌现的趋势，实现了从预测下一个词元到预测下一个状态的范式升级，为原生多模态助手、世界模型以及具身智能等方向的发展奠定了坚实基础。

为了推动该方向的持续研究，智源研究团队对相关研究的多项关键技术与模型进行了开源，其中包括一个稳定且通用的视觉分词器，可将图像与视频高效转换为离散词元来表示，降低了多模态模型的研发门槛。同时，研究团队通过大规模消融实验，系统分析了分词器码本尺寸、初始化策略、多模态dropout机制以及损失权重配置等关键技术的设计选择，揭示了多模态自回归模型在训练过程中的动态特性，为行业提供了宝贵的技术参考。

值得注意的是，Emu系列模型的迭代历程，展现了我国在多模态大模型领域的持续创新能力。2022年6月，智源正式布局多模态大模型研发；2023年7月，发布并开源首个版本，成为最早打通多模态输入到多模态输出的统一多模态模型；2023年12月，Emu2发布，通过大规模自回归生成式多模态预训练，展现出可泛化的多模态上下文学习能力；2024年10月，Emu3推出，实现了单一自回归框架统一多模态生成与感知；2025年10月，Emu3.5迭代升级，实现了世界建模能力的突破。这一系列成果的落地，标志着我国在多模态大模型领域已经跻身全球领先行列。

除了Emu系列多模态模型，智源在2025年6月发布的新一代大模型系列悟界，更是构建起覆盖宏观具身智能、介观生命系统到微观构象动力学的多层次技术基座，其中包括RoboBrain跨本体具身大脑、数字孪生心脏、Brainμ脑科学多模态基础模型以及OpenComplex全原子生命模型等。FlagOS开源系统软件栈则为这些模型的训练和推理带来了效率突破和多元AI硬件适配能力，进一步完善了我国自主可控的AI技术生态。

智源多模态大模型登Nature，不仅是国际学术界对我国人工智能原创技术路线的认可，更推动了生成式人工智能行业的发展变革。自回归路线成为多模态模型的通用范式，将大幅简化复杂的模型设计，聚焦统一词元，在训练与推理阶段均展现出显著的可扩展性，为AI技术的规模化应用提供了新的可能。未来，随着Emu系列模型的持续迭代，以及更多企业和科研机构的参与，多模态AI将在更多领域落地应用，推动人工智能从数字世界迈向物理世界，为千行百业的数字化转型注入新动力。

从行业影响来看，智源的这项突破打破了海外企业在多模态大模型领域的技术垄断，提升了我国在全球人工智能领域的话语权。此前，全球多模态大模型的核心技术主要掌握在少数海外科技巨头手中，我国企业多处于跟随状态，而Emu3的研究成果，证明了我国在人工智能基础研究领域的原创能力，为我国AI产业的自主发展奠定了坚实基础。同时，这项成果也将带动国内AI产业链的协同发展，从芯片、算法到应用，形成完整的产业生态，推动我国从AI大国向AI强国转变。

对于普通用户而言，多模态AI技术的发展将彻底改变数字生活方式。未来，基于Emu系列模型的原生多模态助手，将能够实现更自然的人机交互，不仅可以听懂语音、看懂图像、生成视频，还能理解人类的情感与意图，提供个性化的服务。在办公场景中，可自动生成图文并茂的文档、视频教程；在生活场景中，能够根据用户需求生成个性化的影像内容、家居设计方案；在教育场景中，可打造沉浸式的教学内容，提升学习效率。多模态AI的普及，将让科技真正融入日常生活，带来更便捷、更智能的体验。

当然，多模态AI技术的发展仍面临一些挑战，比如模型训练的数据安全、隐私保护、伦理规范等问题。随着模型能力的不断提升，如何保障用户数据安全，避免技术滥用，成为行业需要解决的重要课题。未来，需要政府、企业、科研机构协同发力，建立完善的行业标准与监管体系，规范多模态AI技术的应用与发展，确保技术创新始终服务于人类社会的进步。

2026年智源Emu3登Nature，是我国人工智能领域的重要里程碑，标志着我国在多模态大模型基础研究领域实现了重大突破，也推动全球生成式人工智能进入统一路线的发展新阶段。随着技术的持续迭代与应用的不断拓展，多模态AI将重塑行业格局，改变人类生活方式，为数字经济高质量发展注入强大动力，我国也将在全球人工智能竞争中占据更有利的地位。

返回列表

上一篇：2026 年华龙一号核电机组并网交付国产核电技术引领全球清洁能源转型

下一篇：2026年量子计算商业化爆发多技术路线齐发力开启算力新革命