腾讯混元文生图大模型开源，采用首个中文原生Sora同款DiT架构

时间：2024-05-14 来源：未知作者：Gushan

2024年2月15日，OpenAI放出大招，发布了为震惊全球的文生视频模型Sora，而Sora之所以能收获震撼人心的效果，很大程度上是由于其底层采用了DiT架构。DIT即Diffusion Transformer, 采用了扩散模型和Transformer相结合，由Meta开源。

在中文世界里，DiT也取得了可喜的进展。5月14日，业内首个中文原生的DiT架构文生图开源模型——腾讯混元文生图大模型宣布全面升级并对外开源，目前已在 Hugging Face 平台及 Github 上发布，包含模型权重、推理代码、模型算法等完整模型，支持中英文双语输入及理解，参数量15亿，可供企业与个人开发者免费商用。升级后的混元文生图大模型采用了与 Sora 一致的DiT架构，因此在支持文生图的基础上，为多模态视觉生成提供了工具和能力。

评测数据显示，最新的腾讯混元文生图模型效果远超开源的 Stable Diffusion 模型，是目前效果最好的开源文生图模型;整体能力属于国际领先水平。

十月怀胎，孕育新一代文生图模型

过去，视觉生成扩散模型主要基于 U-Net 架构，但随着参数量的提升，基于 Transformer 架构的扩散模型展现出了更好的扩展性，有助于进一步提升模型的生成质量及效率。腾讯混元是业界最早探索并应用大语言模型结合 DiT 结构的文生图模型之一。从 2023 年 7 月起，腾讯混元文生图团队就明确了基于DiT架构的模型方向，并启动了新一代模型研发。今年初，混元文生图大模型已全面升级为DiT架构。

在DiT架构之上，腾讯混元团队在算法层面优化了模型的长文本理解能力，能够支持最多 256 字符的内容输入，达到行业领先水平。同时，在算法层面创新实现了多轮生图和对话能力，可实现在一张初始生成图片的基础上，通过自然语言描述进行调整，从而达到更满意的效果。

中文原生也是腾讯混元文生图大模型的一大亮点，此前，像 Stable Diffusion 等主流开源模型核心数据集以英文为主，对中国的语言、美食、文化、习俗都理解不够。混元文生图是首个中文原生的DiT模型，具备中英文双语理解及生成能力，在古诗词、俚语、传统建筑、中华美食等中国元素的生成上表现出色。

评测结果显示，新一代腾讯混元文生图大模型视觉生成整体效果，相比前代提升超过 20%，在语义理解、画面质感与真实性方面全面提升，在多轮对话、多主体、中国元素、真实人像生成等场景下效果提升显著。

腾讯混元文生图大模型开源，采用首个中文原生Sora同款DiT架构

全面开源，共建下一代视觉生成开源生态

腾讯混元文生图能力，已经广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初，腾讯广告基于腾讯混元大模型，发布了一站式 AI 广告创意平台腾讯广告妙思，可为广告主提供文生图、图生图、商品背景合成等多场景创意工具，有效提高了广告生产及投放效率。《央视新闻》《新华日报》《深圳特区报》《南方都市报》《羊城晚报》等20余家媒体，也已经将腾讯混元文生图用于新闻内容生产。

腾讯文生图负责人芦清林表示：“腾讯混元文生图的研发思路就是实用，坚持从实践中来，到实践中去。此次把最新一代模型完整开源出来，是希望与行业共享腾讯在文生图领域的实践经验和研究成果，丰富中文文生图开源生态，共建下一代视觉生成开源生态，推动大模型行业加速发展。”

基于腾讯此次开源的文生图模型，开发者及企业无需从头训练，即可直接用于推理，并可基于混元文生图打造专属的AI绘画应用及服务，能够节约大量人力及算力。透明公开的算法，也让模型的安全性和可靠性得到保障。

同时，基于开放、前沿的混元文生图基础模型，也有利于在以 Stable Diffusion 等为主的英文开源社区之外，丰富以中文为主的文生图开源生态，形成更多样的原生插件，推动中文文生图技术研发和应用。

据了解，腾讯在开源上一直持开放态度，已开源了超 170 个优质项目，均来源于腾讯真实业务场景，覆盖微信、腾讯云、腾讯游戏、腾讯AI、腾讯安全等核心业务板块，目前在GitHub上已累计获得超 47 万开发者关注及点赞。

更多推荐