人美声甜GPT，数学题哪里不会讲哪里 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

注册 | 登录

人美声甜GPT，数学题哪里不会讲哪里

2023-04-21

2 评论 2074 浏览 4 收藏

渴望踏入产品经理行业但无从下手？我们的1V1私教陪跑实战营，由大厂导师手把手带你入门，从理论到实践，助你快速掌握核心技能，轻松上手！

近期，ChatGPT出现了新的趋势，它开始逐渐向大模型相关的在线教育应用行业发展。这不仅会导致在线教育要面临重塑，而且整个教育产业都要面临巨大挑战。本文作者分析了AI技术在教育领域的发展，感兴趣的童鞋不妨来看看。

大模型的颠覆和变革，还只是开始。

ChatGPT一炮而红，重塑搜索、办公协同等多个场景和行业后，在线教育，被视为最重要的垂直场景——毕竟大语言模型展示出的能力，正是之前在线教育、AI老师所亟需的。

而且这种趋势已经开始，背靠大模型相关的在线教育应用，已经率先在海外火爆。

看过来！让GPT化身二次元美少女AI家教来讲数学题的方案，每步都有解法，再不用担心看见参考答案的“略”字：

人美声甜GPT，数学题哪里不会讲哪里

基础到某个三角函数的定义，复杂到不同的解题方法与技巧，都能得到答案：

人美声甜GPT，数学题哪里不会讲哪里

这就是最近在海外火爆的AI解题类应用，背后App已经在App store商店教育分类板块刷榜。

这种火爆在情理之中：背靠LLM，加上二次元画风颇似《原神》——不得不说，真实拿捏住了流量密码。

在这之前，在线教育行业的主流“AI家教”，背后的本质只是推荐算法，换句话说，就是推荐录好的教学视频或解题方法，但无法针对视频和方法中的某些细节给出解答。

而现在，LLM涌现的解题准确性和语言理解能力，开始对之前可望不可即的技术实现带来了突破——不是在线教育面临重塑，是整个教育产业正在面临重塑。

01 背后技术原理：GPT+在线教育=？

二次元美少女家教身后，就是LLM在AI自动解题方面发挥着作用。

基本思路是在原有流程的一头一尾，接入LLM，与原有流程中的CLM（可计算语言模型，Computational Language Model）形成Joint Model模式。

CLM，相比其他AI模型展现出不错的逻辑能力，不过它在语言理解能力和输出等方面，遇上如今包括GPT-4在内的大语言模型还是相形见绌。

Joint Model模式，就是让LLM提供NLP能力，CLM提供逻辑推理能力。

人美声甜GPT，数学题哪里不会讲哪里

也就是说，现在的整个AI解题的过程是这样的：

题干输入——LLM处理文本——CLM解题——LLM形成文本——讲解输出

二者结合，能完成的推理任务比单个模型处理的更复杂，并在必要时收集相关数据。

由是，AI家教能很好地理解题干内容，从而提供讲解。

在两端接入LLM之前，这条AI解题流程也能利用CLM，提供AI家教所需的数理逻辑和推理能力。

主要依靠CLM对文本信息进行数据升维，把一维文字信息进行高维展开，让机器在同一时间接受文本背后诸如实体、关系、参数、知识等多维度的隐含信息，理解题干背后最终想要求解的东西是什么。

再对CLM进行“部分不召回”设定，即“不能保证100%做对的题，AI不会输出结果”，从而保证AI家教的讲解和最终答案一定正确。

人美声甜GPT，数学题哪里不会讲哪里

这也能解释为什么现在的Joint Model模式中，对LLM的应用重点在NLP领域，而非逻辑和推理能力上——

GPT-3.5起，大模型毫无征兆地涌现出数理逻辑和推理能力，但它们既不稳定，也不绝对可靠，AI家教无法在接入后直接落地使用。

与其执着于纠正LLM的“胡说八道”，不如转而重点利用它相对稳定发挥的NLP能力。

02 二次元美少女AI家教背后是谁

有意思的是，这位AI家教背后还是一家中国公司。

来自悉之智能，2017年成立，核心创始团队都来自清北。

创始人兼CEO孙一乔，清华大学电子系2017届学生，在校期间参与搭建清华XLP超限学习团队，并深度参与校内某院系课程体系深度改革，带领数十人搭建了清华大学首个自适应学习引擎。

联合创始人兼CPO代佩霖，北京大学金融系毕业，曾入选福布斯亚洲30 under30；算法合伙人林东生，也毕业于清华大学电子系，是悉之智能自研CLM背后的发明者之一。

几位合伙从一开始杀入AI教育行业，就主攻自动解题。

入局之初，还算赶上了个好时候，加上是国内第一家做出多模态解题家教的公司，成立次年就拿下新东方旗下“东方新创” 的1000万元天使轮融资。等到2020年，公司已完成近亿元A轮融资。

直到2021年经历双减风暴……

好在双减来临的同月，仍然顺利拿到2000万美金的A+轮融资，投资方是启明、经纬和真格等一线VC。

但是，公司业务重心不得不开始向海外市场转移。

等到在新的市场站稳脚跟开拓市场，涌现逻辑能力的ChatGPT却突然现世，突破了业界的传统认知，也打乱了他们的阵脚：

我们原本以为AI不会这么快出现逻辑能力。

不仅低估了OpenAI在GPT系列上的进度，还低估了GPT涌现出的能力的强度。

早些时候，谷歌用一个36B的LaTeX数据集Fine-tuning PaLM540B，在MATH上取得了50分。同一测试集上选出CLM覆盖的高中数学部分，悉之智得分在70分左右。

“比谷歌最引以为傲的PaLM得分高，也高于市场上的Photomath等产品，包括ChatGPT3.5最开始的解题能力得分也低于我们。”孙一乔边笑着复盘边挥舞胳膊，外化他的兴奋。

人美声甜GPT，数学题哪里不会讲哪里

结果GPT-4光速出现，出场即碾压所有玩家的解题能力。

但他好像并不沮丧，“这一波就是全世界看OpenAI装逼嘛，惊得谷歌的下巴都掉下来了”。孙一乔的逻辑里，OpenAI虐了全世界，悉之智能的AI又能虐其他人，“没什么不值得骄傲的。”

他还笑着补充，自家AI能力也不是为了刷榜好看，主要是能落到教育AI行业应用，这才是“至关重要”。

孙一乔很爱笑，熟悉他的人都这么说，尤其是在谈到GPT系列对传统带来颠覆性影响和可能性的时候。

3月底，欧盟批准谷歌收购了我们在国际市场上最大的竞争对手，也是传统解题公司的代表——PhotoMath。

每每提到这点，孙一乔都嘴角上扬，难掩兴奋，要埋下头用双手捂脸数秒来平复心情。

PhotoMath纳入谷歌麾下，有了技术、资金靠山，也代表着PhotoMath的一条快读通道被封死了——这家数学应用程序公司接入GPT-4及后续GPT系列API的可能性几乎为零。

但是GPT和CLM的组合，可以让解题能力继续突破。

这也是孙一乔“不沮丧”的数据支撑。在一个GPT-4解题率为82%的测试集上，悉之最新fine-tuning GPT的Joint Model最新解题率在92%。

究其原因，他的解释是Joint Model天然包含大量解耦好的NLP任务，最新工作中，团队把之前基于Bert的CLM换为fine-tuning后的GPT，将GPT作为预训练模型，将CLM作为逻辑校验模型，继续提高解题上限。

人美声甜GPT，数学题哪里不会讲哪里

孙一乔还表示，LLM不只提升AI家教背后模型的NLP能力，对多模态交互也有不少帮助。

现在的AI家教形象，比以前声音更好听，形象也更好看。在接下来的计划中，对话交互能力也将得到增强，在授课过程中随时提问，都能得到AI家教的解答。

计划中，旗下AI家教还会拓展数学之外的学科版图，也将开启新一轮的融资。

人美声甜GPT，数学题哪里不会讲哪里

深陷双减风暴之后，教育底色的公司们都逐渐找到了新的打法。

‍改弦更张的，如新东方，在直播领域大杀四方；继续探索在线教育之路的，悉之智能利用LLM提升解题能力，优化多模态交互，据悉，猿辅导也已经用AIGC在传统教育领域寻找新的机会。

LLM能力应用在教育领域后，不知道继续深耕在线教育的这些公司里，谁又是新一轮的最大赢家？

作者：衡宇

来源公众号：量子位（ID：QbitAI），追踪人工智能新趋势，关注科技行业新突破

本文由人人都是产品经理合作媒体 @量子位授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于CC0协议。

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

追踪人工智能新趋势，关注科技行业新突破

91篇作品 218979总阅读量

小红书双11有戏吗？怎么做？

10-106062 浏览

小红书双11有戏吗？怎么做？

拆解 HubSpot —— 年订阅收入近17亿美元的国外CRM SaaS 软件

07-117584 浏览

拆解 HubSpot —— 年订阅收入近17亿美元的国外CRM SaaS 软件

成功B端产品经理的年终总结秘诀：掌握这几个技巧！

刚刚

北上广Citywalk火爆背后：旅游“特种兵”付费百元为遛弯，小而美生意难成持续业务

07-254778 浏览

北上广Citywalk火爆背后：旅游“特种兵”付费百元为遛弯，小而美生意难成持续业务

做图文自媒体还有前景吗？怎么才能做好内容？

11-021782 浏览

做图文自媒体还有前景吗？怎么才能做好内容？

终极辩论：产品和营销哪个更重要？

12-064740 浏览

终极辩论：产品和营销哪个更重要？

AI产品落地困局？南京专场闭门会，破解“场景-技术”闭环密码

AI产品落地困局？南京专场闭门会，破解“场景-技术”闭环密码

推荐

评论

汪仔8328

请问博主，用魔法棒后进入GPT-4即可使用？

最近来自广东回复
汪仔3369

这样对接的成本会不会很高？如果一个用户是学霸他刷了一天的题，花的token岂不是很多

最近来自广东回复

开发转产品的成功之路：我给你的3个建议

16920人已学习12篇文章

支付体系的设计指南

本专题的文章分享了支付体系的设计指南。

11925人已学习12篇文章

品牌方法论

任何理论都有它的局限性和前提条件，没有一种方法论是永远有效的。品牌方法论一直处在变化阶段，它随着时代发展的变化而变化。本专题的文章分享了品牌方法论。

54112人已学习19篇文章

如何用Axure玩游戏

让我们来看一下Axure的高端操作：用Axure实现游戏功能

13460人已学习13篇文章

产品异常场景设计指南

产品设计与用户的体验感息息相关，但是很多时候产品经理在产品设计过程中会忽略掉可能影响到用户体验感的一些因素，比如一些异常状态的出现会让用户产品卸载的想法。本专题的文章分享了产品异常场景设计指南。

37447人已学习17篇文章

运营新人入行手册

如果你们有志于在运营路上深耕，并实现快速成长，你需要知道以下这些！

12209人已学习12篇文章

如何做好数字化运营？

很多公司都在谈论数字化转型，而数字化的基础即是大量的、繁杂的、高度业务关联的基础数据。数字化运营是其中的一个分支。本专题的文章分享了如何做好数字化运营。