竞逐文生图大模型，百度、快手、网易“明争暗斗”

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

竞逐文生图大模型，百度、快手、网易“明争暗斗”

刘旷

2023-10-24

0 评论 1904 浏览 1 收藏

14 分钟

随着科技的发展，AIGC技术助推了新的人工智能浪潮，文生图大模型即使还不是很完善，但终归时间还长。下面这一篇文章是笔者整理分享的关于文生图的相关内容，大家一起来看看吧！

自从进入2023年以来，AIGC技术助推了新的人工智能浪潮，AI大模型的创新应用也按下了加速键。随着AI写作、AI作曲成功在多个领域落地，AI在内容创作方面的应用也变得越来越广泛，而AI绘画作为大模型最火热的应用领域之一，近几年也取得了突破性进展。

AI绘画简单来说就是“文生图”，是指输入一些描述性语言，AI可以以此生成创意画作。AIGC 技术的飞速发展使得“文生图”模型不断实现更加良好的生成效果，得益于此，无论是百度、网易这样的互联网大厂，还是快手这样的新锐公司纷纷争相入局，试图借助“文生图”这一新事物，探索业务上的更多新可能。

一、快手“出其不意”

前不久有消息称，快手在推出“文生文”大语言模型“快意”（KwaiYii）之后，又在“文生图”赛道取得了新的进展，推出了自研大模型“可图”（Kolors），并且已在公司内部全面开启测试。

据介绍，可图大模型能够基于开放式文本生成各类的绘画作品。

它有着三大突出特点：强大的文本理解、丰富的细节刻画，以及多样的风格转化。

而在可图大模型强大的图像生成能力背后，则与快手多年的积淀息息相关。

首先，快手海量的短视频素材，能为可图提供数十亿的图文训练数据。发展至今，快手上的短视频素材已经数以万计，根据这些短视频，可图可以收集到更多的数据信息，帮助大模型准确理解用户的需求，让用户通过简单描述即可生成更加多样化风格的图片。

据了解，快手拥有数十亿来自开源社区和自研AI技术合成的图文训练数据，这些数据覆盖了常见的三千万中文实体概念，能更好地生成更加贴近文字描述的图片。

其次，快手较强的用户粘性，为可图的落地提供了最佳的应用场景。众所周知，快手应用的累计互关用户对数超过311亿对，同比增长近50%，日均互动（包括点赞、评论和转发等）总量达80亿次，而且AI玩评也能够极大地提升用户参与评论的积极性和满意度。

不同用户画像可以丰富可图训练数据，促使可图生成更多样化的图片。因此，拥有较强用户粘性的短视频评论区，可以看做可图大模型最佳的落地应用场景之一。

最后，快手在大模型上的创新性探索，有助于可图形成差异化优势。快手研发了一个强大的中文CLIP模型，并且利用自研的中文LLM加上融合CLIP的图文特征作为文生图的文本理解模块，能让可图大模型更好地理解中文特色概念。

不仅如此，快手还更改了去噪算法的底层公式和加噪公式，实现了单一基座模型在主体完整的前提下，可生成具有丰富细节和纹理的图片。而可图大模型也具有了基于Prompt的自动学习模型，能够生成不同的风格模版。

二、百度“声东击西”

在文生图领域，快手的自研大模型“可图”可谓是独具一格，作为国内领先的AI技术公司，百度的AI作画产品“文心一格”自然也备受期待。

据了解，文心一格是基于百度文心大模型能力的AI艺术和创意辅助平台，它可以根据用户输入的文本描述和选择的风格，自动生成独一无二的画作。而百度文心一格之所以能对用户的作画需求实现精准理解，其中的原因自然不言而喻。

一是文心大模型强大的语言理解能力，使文心一格对中文的理解变得更加精准。

文生图技术对中文语义的理解尤为关键，而文心一格的技术基础是百度文心知识增强跨模态理解大模型，百度文心学习了海量优质图文数据，能全面提升图像生成质量和语义一致性。因此，文心一格不仅能利用知识辅助更好地理解用户的输入，并自动丰富语义细节，有效降低用户输入描述成本，还能根据不同的需求，灵活适配多种风格画作生成能力。

二是文心大模型在技术上的深厚积淀，在一定程度上解决了文心一格在实际应用中的技术难题。

众所周知，文心一格AI作图产品顺利落地，是百度依托于飞桨、文心大模型持续进行技术创新的结果。而百度的文心跨模态大模型ERNIE-ViLG 2.0是全球首个知识增强的AI作画大模型，也是目前全球参数规模最大的AI作画大模型。百度在训练大模型方面取得了长足的进步，也让文心一格有效解决了复杂概念、属性混淆等文生图领域的常见问题。

三是文心大模型丰富的产业应用场景，有助于文心一格实现商业化快速落地。

目前，文心大模型已大规模应用于搜索、信息流、智能音箱等互联网产品，并已通过飞桨开源开放平台、百度智能云等赋能工业、能源、金融、通信、媒体、教育等各行各业。而在这个基础模型职场，文心一格也能结合各个领域的、少量的任务数据，再进行训练、调优，之后就可以适用更多场景，从而进一步拓宽落地的广度，加深产业应用的深度。

三、网易“蓄谋已久”

无论是新晋独角兽快手，还是老牌互联网大厂百度都相继进入了AI绘画领域，互联网科技公司网易自然不会落后。事实上，网易很早就对“文生图”领域有所研究。网易旗下专业从事游戏与AI研究和应用的顶尖机构网易伏羲，就自研了文生图模型——“丹青”。而网易丹青之所以能生成让用户满意的图片，自然也与其独一无二的优势息息相关。

一是，网易伏羲对中文和美的理解深刻，有助于丹青生成更高质量的图片。生产好的内容之前，需要先理解好的内容。

丹青模型基于原生中文语料数据及网易自有高质量图片数据训练，不仅对中文的理解能力更强，对中华传统美食、成语、俗语、诗句的理解和生成也更为准确。

比如，与其他文生图模型相比，丹青模型更容易听懂用户的意思，在丹青生成的图片中，鱼香肉丝没有鱼，红烧狮子头也没有狮子，生成的图片效果用户满意度更高。

二是，网易伏羲顶尖艺术家的真实反馈，使得丹青创作出的作品更能满足中式审美。网易会请一些美术专家对模型进行把控，让其从艺术的角度对生成图片效果、插件、版本给予专业意见，丹青则会及时根据艺术家们的反馈意见，进一步迭代优化。

比如，依赖于较强的中文理解能力，以及对美学的专业理解，丹青模型生成的图片更具东方美学，既能生成“飞流直下三千尺”的水墨画，也能生成符合东方审美的古典美人。

三是，网易伏羲对文生图的多年研究，能为丹青的快速落地和推广提供助力。事实上，网易伏羲对文生图的研究起步较早，在Stable Diffusion还没开源之前，就已经在不断地投入，到现在已经有了很多积累。

据了解，网易伏羲团队已在世界顶级学术会议发表论文200余篇，申请发明专利550余项。不仅如此，网易伏羲还根据实际应用效果不断对文生图模型进行迭代优化，以便将其更好更快地应用于实际场景中。