我们内测了文心一言，结果令人意想不到 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

我们内测了文心一言，结果令人意想不到

硅兔赛跑

2023-03-17

3 评论 5666 浏览 2 收藏

12 分钟

3月16日下午，百度新一代大语言模型文心一言发布了。根据发布会上的展示，文心一言具备五种能力，分别是文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成，本文作者在进行测试后，对这五种能力进行了分析，一起来看一下吧。

文心一言的初体验，确实还没ready。

硬着头皮也好，万众期待也罢，北京时间3月16日下午，百度新一代大语言模型文心一言发布了。

怎么说呢，虽然一开始就知道可能会输给GPT-4（李厂长自己说：这个门槛有点高），但还是盼着文心一言好，盼着百度好，盼着中国首个生成式AI产品好。

但伴随着发布会的，是百度港股市值的大跳水，虽然最后回调了一波，但二级市场对中国版“ChatGPT”似乎信心不足。

我们内测了文心一言，结果令人意想不到

发布会期间百度股价实时数据

即使吸取了谷歌发布Bard时的前车之鉴，用提前准备好的录制视频展示，但依然没能阻止股价受挫。反而李厂长的皮带链接和容颜青春永驻，成了弹幕留言关注的焦点。

据百度透露，文心一言新闻发布会后三小时，企业版API调用服务测试的企业用户达6.5万，与百度智能云基于文心一言展开合作咨询达到5590条。

01 测试开始，有惊有喜

根据发布会上的展示，文心一言具备五种能力，包括了文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成。

硅兔君拿到了内测邀请码后，第一时间开始了测试。

1. 文学创作

发布会紧跟潮流，用最近热度上的《三体》，对文心一言的文学创作进行展示。提出的6个问题，文心一言都可以从容应答。

硅兔君用《哈利波特》再考了考他（毕竟都是史诗级巨作）。

对于《哈利波特》的创作背景和作者简介，文心一言刚开始给了一个“省事”的答案。

我们内测了文心一言，结果令人意想不到

但我并不满意，又问了一遍，这个版本就明显学术了很多。

我们内测了文心一言，结果令人意想不到

紧接着我问了发布会上同样的问题，让文心一言为续写《哈利波特》提供思路，答得还可以。

我们内测了文心一言，结果令人意想不到

硅兔君又问了个比较八卦的感情线问题：赫敏和哈利波特之间，有爱情吗？

文心一言给出的答案建议各大明星经纪公司参考一下，以后回应恋情别只会发律师函。

我们内测了文心一言，结果令人意想不到

2. 商业文案创作

针对商业文案创作这块，硅兔君就拿自己做个测试，提问：

如果要新建一个关于硅谷科技创投新闻的自媒体账号，融入“兔”这个字，可以给账号起个什么名字？

我们内测了文心一言，结果令人意想不到

文心一言给出的答案其实挺赞，考虑到硅谷的属性，甚至也有英文的名字。

VentureBuddies这个名字你别说，你还真别说～

在我给这个名字予以肯定后，让文心一言帮我写个简介，画风直接变成了英文，不过直接给我安上了“最近在居家办公”的设定，不知为何。

我们内测了文心一言，结果令人意想不到

说实话不咋地，乱七八糟的。

3. 逻辑数理

逻辑数理推算是生成式大模型的一道坎儿，不仅考数理，更考逻辑。

发布会上用了ChatGPT刚上线时翻车过的的鸡兔同笼，文心一言能发现问题中的错误并在纠正后正确回答出来。

可当硅兔君尝试问了几个小学生逻辑数学题，文心一言翻车了！

张老师15年前15岁，15年后多少岁？

我们内测了文心一言，结果令人意想不到

文心一言答错了，怕描述不够清楚又问一遍，依然令人遗憾……

（知道答案的朋友可以评论区见，看看多少人答对）

我们内测了文心一言，结果令人意想不到

接着问了个更绕的：

一个西瓜进价50元，卖了70元，老板收了100元假币，请问老板一共损失多少钱？

我们内测了文心一言，结果令人意想不到

这个问题同样问了ChatGPT，它一顿逻辑推理疯狂输出之后，给出了一个不同答案。

我们内测了文心一言，结果令人意想不到

事情变得很有意思了，你们说谁对？

4. 中文理解

在中文理解上，硅兔君用了常被错误理解的成语来提问，结果ChatGPT确实错误地学习了现代用法。

“差强人意”是什么意思？

正确答案：

我们内测了文心一言，结果令人意想不到

错误答案：

我们内测了文心一言，结果令人意想不到

一题见分晓，这一局文心一言完胜了。

5. 多模态生成

最后，也是最令人期待的多模态生成。硅兔君按照发布会的语言范本试了两次，都没有给出满意的答案，不得不说和GPT-4的差距不是一点半点。

我们内测了文心一言，结果令人意想不到

生成视频方面也没有实现，并且给出了“无法生成视频”的回复（难怪发布会上用的录像，不然大型翻车现场）。

我们内测了文心一言，结果令人意想不到

还有一个被忽略的点就是编程能力，在发布会上并没有展现，也是ChatGPT的优势之一。硅兔君让文心一言用C语言编一个小游戏，这是它给出的回答：

我们内测了文心一言，结果令人意想不到

02 文心一言 vs ChatGPT

作为一个人工智能语言模型，ChatGPT也存在一些缺点和局限性。以下是我对ChatGPT的缺点评价：

1. 知识库的深度和广度仍需要进一步提高：虽然ChatGPT可以回答各种领域的问题，但它的知识库还不够完备，有些问题可能无法找到合适的回答。

2. 生成式对话的质量还有待提高：尽管ChatGPT可以生成自然流畅的对话，但它的生成式对话还不如人类专业演员，有时可能会出现口误或重复等问题。

3. 某些情况下可能会出现错误或不准确的回答：由于训练数据的限制，ChatGPT在某些情况下可能无法正确理解用户的意图，或者回答内容可能不够准确或恰当。

4. 依赖于预先训练的数据集：目前的ChatGPT主要是基于文本进行对话生成的，如果未来想要扩展功能或使用场景，可能需要更多地依赖于预先训练的数据集，这会增加开发难度和维护成本。

5. 中文表达能力有待改进：作为一个英文名称为GPT的机器学习模型，其中文名称“小微”似乎并没有体现出与真实世界中的Micronesia相关的含义和特点，这可能会影响其普及程度和应用范围。

总之，尽管ChatGPT在许多方面都表现出色，但它也存在一些缺点和局限性。

以上是文心一言对ChatGPT的评价，把人家的缺点安排得明明白白。

麦克风交给ChatGPT，很遗憾，它好像还不知道文心一言的到来……

我们内测了文心一言，结果令人意想不到

总的来讲，百度这波发布，正如李彦宏所说：“因为有市场需求，百度各个产品线，大家都在等着用这样的技术。”

（都在催，不得不赶紧上线）

也如李彦宏所说：“怀胎十月，一朝分娩。”

（我们还只是个孩子）

不过全世界都知道前一天GPT-4的问世，在这个节骨眼上顶着压力发布产品的勇气还是值得肯定的。

硅兔君认为我们需要做的，是再给一些耐心。就如开头说的那样——我们都盼着它好。

作者：蔓蔓周

来源公众号：硅兔赛跑（ID：sv_race），10万创投人都关注的创新媒体，坐标硅谷

本文由人人都是产品经理合作媒体 @硅兔赛跑授权发布，未经许可，禁止转载。

题图来自 Unsplash，基于 CC0 协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

硅兔赛跑

坐标硅谷，十万人关注的创投媒体

63篇作品 304827总阅读量

明星+电视台，淘宝直播打起怀旧牌

06-122918 浏览

明星+电视台，淘宝直播打起怀旧牌

年轻人春节搞钱：上门做饭一单上千，做手机壳月入2万

01-2511320 浏览

年轻人春节搞钱：上门做饭一单上千，做手机壳月入2万

微信公开“补课”

03-313341 浏览

微信公开“补课”

职场人想搞事业？按这个思路试试

12-133173 浏览

职场人想搞事业？按这个思路试试

完蛋！我被羊毛党包围了（第二部）

12-052790 浏览

完蛋！我被羊毛党包围了（第二部）

评论

Pontiff

张老师15年前15岁，15年后多少岁？这个问题本身就有歧义，参照点存在歧义。ai无法理解就只能基于历史经验来聊，目前chat有可能回答对，给出两种不同的答案来。

历史经验可以基于，明天是星期几那个题。

最近来自北京回复
汪仔9430

小边有必要去了解一下“差强人意”的意思再来当评判

最近来自江苏回复
1. Pontiff 回复汪仔9430
  
  文心直接引用的百科的原文。但是两个ai表达的意思都贴近。所以小编这个评判表述不太对。
  
  最近来自北京回复