大模型「涌现」的四个关键

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

深响

2023-04-13

0 评论 2537 浏览 3 收藏

11 分钟

随着ChatGPT热潮来袭，国内许多公司也纷纷发布或预计发布自己的大模型，很有一番较量角逐的意思。那么，这次大模型的涌现意味着什么？本文作者认为关键在四点，一起来看看吧。

“最近大模型的涌现，比大模型能力的「涌现」都要快。”

「涌现」是一个专业概念，放在大模型的语境里，指的是模型在突破某个规模时，出现了意想不到的能力。这话虽然是调侃，但也高度概括了行业现状。

ChatGPT在全球掀起热潮以来，国内已有多家公司发布或将发布自己的大模型，这些公司中既有阿里巴巴、百度、京东、华为等互联网或科技大厂，也有以商汤为代表的AI公司，以及备受瞩目的初创企业（例如王慧文的光年之外，王小川的百川智能）。

如果再把科研院所算上，据民生证券的统计，国内目前已有超30个大模型亮相。行业俨然有大模型“军备竞赛”的意思。

大模型「涌现」的四个关键

“混战”本身说明了不少事情，比如各家都已认识到大模型的价值，试图通过大模型升级已有业务和打开新增长空间。即使人们普遍认为大模型门槛高，但“百花齐放”也折射出业界认为大模型的发展尚处早期，且并不是只有极少数大玩家才能参与的游戏。

机会看上去很多，但拨开冗杂的信息，我们需要判断，大模型的“涌现”是不是昙花一现？以下四点值得关注。

一、产业融合成共识

相比ChatGPT在用户端的热潮，国内厂商更愿意谈大模型和产业的结合。“客户”是高频词，“接入我们的大模型”是共同目标。

以阿里巴巴的通义大模型为例，近期，阿里云官宣自研大模型“通义千问”并面向企业开始邀请测试，在阿里云峰会上，包括张勇在内的阿里云高管频频强调大模型能为各行业企业带来的价值。据阿里云智能CTO周靖人介绍，未来企业在阿里云上既可以调用通义千问的全部能力，也可以结合企业自己的行业知识和应用场景，训练自己的企业大模型。

早些时候发布“文心一言”的百度，也是将B端“生态圈”作为宣传和业务重点。华为云盘古大模型提出了“AI for Industries”理念。推出大模型“日日新”体系的商汤，更是只面向政企客户开放API。

大环境对于生成式人工智能服务相对谨慎的态度、企业各自的资源和能力禀赋、以及在C端体验上和ChatGPT的差距，都可能是造成差异的原因。上述案例的共性是，大模型对于各家企业并非一个“另起炉灶”式的新业务，而是对已有业务方向的延伸和突破，对大模型的理解依然要放在公司已有的业务发展框架里来看。

依然以阿里云为例，云计算公司容易陷入“低毛利集成商”困境，难以在标准化和定制化之间找到平衡。预训练大模型带来了新的可能——在阿里云方面的设想中，企业只需将数据放在专属数据空间，用于大模型自动学习，然后就能生成企业专属的大模型。相比原本“什么都要从头做”的业务模式，大模型提供了效率更高的选择。

二、扬长避短，各秀肌肉

目前，国内的大模型厂商并不讳言和OpenAI、ChatGPT的差距，只是各家对于“差距有多大”有一些不同的判断。

相比OpenAI，国内互联网大厂有成熟的业务矩阵，多元的能力架构，以及在多年实战中锻炼出来的差异化能力，因此大公司们愿意强调的能力和方向也有所不同。

例如张勇在云峰会上表示，阿里巴巴所有产品未来都将接入“通义千问”大模型。此举意在利用大模型升级甚至改造现有业务体系，阿里云方面将这种融合视为未来发展的关键，称“阿里巴巴和所有企业都在同一起跑线上”。

除了拿自家业务当试炼场，阿里云还在峰会上提及其他优势，比如指出大模型的研发不是简单的“堆叠算力”问题，强调阿里云在低碳低能耗方面的能力积累。这也是阿里云提出为企业打造专属大模型的重要原因。

百度的优势来自其在中文搜索引擎的领导地位，因此公司在发布文心一言时，着重强调了其“更懂中文”的特性。商汤则更多强调其在参数和算力上的优势。“日日新”体系包含自然语言处理模型“商量”（SenseChat）、文生图模型“秒画”和数字人视频生成平台“如影”（SenseAvatar），其中“商量”参数约1800亿。商汤方面还强调，SenseCore大装置已完成2.7万块GPU的部署，并实现了5.0 exaFLOPS的算力输出能力，最高可支持万亿参数超大模型的训练。

除了应用，在和大模型相关的芯片和框架方面，国内大公司也有现成的积累。百度有昆仑芯、深度学习框架飞桨，华为有昇腾310和910芯片，ModelArts平台。这些同样是大厂在发展大模型时着重利用的对象。