一场高考志愿填报,把五个大模型的老底都试出来了

0 评论 158 浏览 0 收藏 21 分钟

高考志愿填报这个关键时刻,几款主流AI工具竟然上演了一场「能力内卷」大戏。从Claude的规则梳理、Gemini的院校数据整合,到GPT的决策验证与元宝的翻车现场,这场充满意外与惊喜的AI协作实验,揭示了大模型在复杂生活场景中的真实表现与局限性。

高考出分后就在帮表妹填高考志愿,我全程挂着一堆AI搞。

在这篇文章快写完的时候,我才想起来看看网上。一搜,出来的都是千问、夸克这类专用志愿工具的使用教程分享。我当时都没想到这些工具,就拿平常自己会用到的几个通用AI,Claude、Gemini、GPT、元宝、还有家里姐妹们爱用的豆包,一起把志愿给搞完了。

中间也是有被AI气死好几次,我是真想跳起来揍它。

这篇文章不是志愿填报教程,也不是推荐哪个AI好用,就是分享一下,在填志愿这么一个需要高度决策、又很生活化的场景下,真拿AI来搞事情会是啥样。

我跑完志愿填报整个流程,回顾下来觉得,不管对人对AI来说,主要用到四种能力:信息搜索、信息整合、规则理解、判断决策。所以我就按这四块来分享。

(一些必要的背景信息:我和家里其他姐妹都是十多二十年前高考的,规则已过时,表妹是四川艺体类考生,25年是四川新高考“3+1+2”模式下的首次落地实施。)

一、考前:让Claude帮我把规则捋清楚

考前一周,我前后花了一天的时间,用 Claude Opus 4.8 整理了一份四川艺考详细攻略和一份操作清单,想着表妹考完给她先看看,心里有个数。

我填志愿已经是十多年前了,对现在的规则,还是艺考,完全不了解,下不了手。直接让 Claude 先帮我搭了个框架,后面就在这个框架上边聊边完善文档。

这里值得说的点是,Claude 一开始就主动提醒我要以2026 四川省官方为准、25数据才有参考价值、23及更早口径差别很大,参考价值不高。

这个提醒非常管用。因为后面我发现,有的AI并不是一开始就能识别到时间实效这点,我就反问它“你这是26年最新政策吗?”,它才会去搜索核实最新信息给我。

这个阶段Claude很够用的,效率很高。整个过程跑完,我对今年的艺考规则就摸得七七八八了,最终文档也很详细。

就是Claude 5小时额度不够用。两份文档细化完,上下文就逐渐庞大。这也是我后面启用其他AI的一个很大因素。

二、出分后:搜院校数据,AI够不到的地方只能人肉

高考出分后,需要搜索的信息量剧增。加上艺考的一分一段表、艺考志愿辅助填报系统都比普通类要晚一天开放,我们就只能先开始人工搜索。主要搜索各院校、各专业往年录取分和位次这些信息。

这些数据分散在各个学校官网,民办甚至不公布,艺体类比普通类难找太多,有的学校官网AI不能访问。

这个阶段,Claude我用的相对少些。主要是用来做一些初步的水平预估,和决策建议类的疑问解答,没有用来进行搜索。

因为Claude上沟通的上下文信息比较丰富,有些个人层面背景信息再交代给其他AI比较麻烦,我个人觉得搜索查询用Claude有点大材小用了。

百度搜索(唯一用到的非AI工具):

我绝大部分都是直接用百度搜,非常方便。它会直接把学校官网信息展示在最前面,直接点击链接就可以。不过它搜索展示的历史录取分数线是普通类的,艺体类必须自己进官网去查。

这里没用AI来搜索,还有一个原因是,我觉得历史分数位次这个信息很重要,我不太相信让AI直接给我把这类信息搜索出来,我必须要亲自去官网看,以学校官网的信息为准。

一个有意思的发现,家里的姐妹们是用豆包来搜索。她们有问题都是说“来,问下豆包”,然后直接语音豆包“xxxx学校xxx专业25年的录取分数线是多少啊”

豆包结果出来后,她们又会说一句“不晓得这豆包说的是不是真的”。我就再去官网核实一遍,后面发现能对上的不多,就都主要在官网上查了。

AI的搜索能力很强,但是在这种紧要关头,人还是很难对AI百分之百的信任啊。

搞笑的是,等我们都查完了,才发现表妹学校发了本纸质《报考指南》上面就有去年分数,结果还傻乎乎人工查。

Gemini(客户端版本):

历年分数和位次这个信息还不算复杂,只是步骤繁琐些,一步步总能找到。但学校特点与硬件、核心优势和专业、学生就业去向与网络综合评价等等,这些信息就比分数更分散了,人工查已经不现实了。

这时候我想到了Gemini,我使用的客户端版本。我想的是后面要是持续沟通,客户端会比较方便,chrome版本发送的附件截图只能一张,而且我之前经常出现发送长文本内容,chrome版本就无法阅读,太长了,要分段发。

Gemini 直接给了我一个汇总表格,我当时看到后心里就觉得“Gemini真好,Gemini真棒”,哈哈哈哈。

为了检查Gemini查询到的信息是否真实,我最后是让它把每个学校的专业介绍官网链接也放在表格里了,我可以直接点击链接核实。

这个表,最终和招生计划信息表,一起作为高考信息的两大表,是我们决策判断的主要信息集。

不过,Gemini也是有把我气到过的。我在进一步向它提表格内容、字段维度优化的时候,它会擅自做主把一些字段列删掉,我甚至都没提到那个字段名,也没对那个字段提任何反馈。

这个问题,在我之前用Gemini的时候也遇到过,它好像总是会犯这个错,不知道啥原因。

三、把查到的信息汇总成表:元宝和Gemini各翻各的车

主要是把26年的招生专业、招生计划数、学费,和25年的录取分数、位次整合在一起,方便筛选出学校范围。

这个时候,我们知道要运用好手里的两本纸质资料了,加上人工查过信息,心里有数了。

我只有一个招生计划资料的电子版,但因为是html格式,Control+F搜索不了。我就在想能不能让AI帮我把这些信息提取出来做成电子版,这样我就能快速搜索了。

我想到了元宝,主要是觉得官方文档,国外AI访问可能有限制。元宝给的方案是需要把格式转换成OCR格式,我的mac系统不是最新的,要用上这个格式转换还得搞半天,我就放弃了。

我又想到一个办法,截图或者拍成照片给元宝,让它把图片信息识别出来,汇总成表格发我就行。

我还窃喜自己想到了解决办法,马上就可以Control+F解放了。

结果看到元宝回复的结果,我先是被气死了,然后被自己蠢笑了。

当时我让它把几张招生册照片里的学校、和”26年在四川的招生计划、学费、住宿费”一起去官网查出来做成表。它没干,还回复我“我联网不了、教你个自己查的绝招”,把活踢回给我,当时给我气到了,还以为是它识图不行。

结果这两天写这篇文章,我又拿同样的图去测,单纯让它”识别图片做成表”,它好好的、认得清清楚楚。才反应过来是我一句话里既要它识图、又要它联网去官网查最新数据,它做不到后半截,干脆整件事都推给我。这不是识图不行,是我自己把任务说混。

经验教训就是,给AI派任务还是一件件说清楚,不要混在一起。

四、最后,几个AI交叉Check:各有各的风格

经过了前面的信息搜索整合,我们手里有了两个大表:招生计划数&学费&25年位次表、院校专业分析表。并基本有了一个院校范围,接下来是要敲定志愿的填写顺序。

需要结合表妹个人情况等比较多的主观因素来考量志愿顺序。每个人情况不一样,决策逻辑也不一样。

比如我们比较明确的可能是:省内>省外,省内省会城>周边城市,公办>民办,学费不能超过xxx元,至于是学校优先还是专业优先、未来可能的职业方向,这些都讨论了好久。

在讨论开始前,过程中,结束后,我都有找AI给建议。我清楚不能全信一个AI,于是就几个AI都问了。

给AI交代的信息都是,分数位次类别情况、已经筛选出来的学校范围、调研出来的学校信息,让AI先在不考虑个人因素的情况下给建议,这样可以补充理性视角,避免我们人过于的考虑感性因素。

我们一共筛选出了二十几个院校和专业组,并将两个大表信息一并给到AI。

元宝- DeepSeek:

我先只看回复结果的时候气的半死,然后我一看它的思考过程,它从一开始就错了,它检索信息的时间点是2025年!!

回看了一下我的交代,确实,我没有在这次会话中交代清楚是26年的考生,但我前面的沟通信息里,包括分数信息等等都指明了是26年的考生,当时它也提取到了这个信息。也就是上下文信息里是有的,但它没用。

还有,作为高考志愿填报如此重要的决策,哪年高考是最重要的时间信息,它不确定的话,完全可以主动向我提出问题确认,但它没有。

元宝重要提醒中,第1点里提到的学校是今年首次独立招生,它检索的相关资料里没有搜索到这个学校,因此它直接判断没有这个学校。在我给它补充说了这个学校今年首次独立招生,它又去查到这个学校了。

并且这个学校很关键,一开始没查到,它建议是删除这条志愿,在查到后,它建议要把志愿顺序提前了。。。excuse me??

提醒里的第2点,核实的时间点是25年,这个问题就不说了,它自己提醒了务必去官网核实,但没说顺便就先去核实后再来决定报不报这个志愿,而是让我自己去核实。Claude一般自己提出的质疑,自己就会先去核实完再来决定是否有必要报出来,我更倾向Claude的方式。

提醒里的第3点,我给到的学校范围里,已经把超预算的学校、专业排除在外了,我给到的信息已经是招生计划上公布了的信息。它做了这个提醒我也理解,但它只是告诉我这些学校学费通常是多少,但不同专业、年份学费是不一样的,又没去核实这个信息。

最后,元宝给的志愿填报顺序是以位次和费用预算作为主要逻辑来排序的,我给了二十几个院校,它最后只选了7个院校来填志愿。

今年四川高考平行志愿,能填45个院校专业组啊。我后面非常明确的告诉它,它才get到了这个意思。

GPT 5.5 Thinking(Deep Research):

在志愿已经基本确定,讨论结束了后,我还不放心,心想还得让其他AI看看。我这才想到了GPT的deep research(平常用codex比较多)。于是又把定好的志愿顺序发给GPT,让它评估是否OK并给建议。一开始我没给它交代主观考量因素,只给了分数,把联网、agent功能全给打开。

天啊,GPT 是唯一一个认可我志愿方案的AI,我都怀疑它是不是在顺从我。

第一轮它认可我的逻辑,但指出了两个问题。这两个问题我们在讨论顺序的时候是有主观因素考量的,我把主观因素考量告诉GPT之后,它就很理解我的方案了。

GPT的上下文信息没有那么丰富,但是它给我一种能直击到核心问题的感觉,上来就能把我的逻辑先识别出来,会分析这个逻辑对不对,有一种人狠话不多,一击要害的感觉。

Gemini(Chrome版本):

前面院校专业信息搜索整合是用的Gemini独立客户端,这里改用了Gemini Chrome版。

我当时还不了解Gemini 客户端版本和Chrome版本的区别,单纯觉得可能Chrome版本检索更强大,我想刚好可以用Chrome版本来检验客户端版本的信息(后来我特意研究了一下,原来两个版本都是可以全网实时检索)。

Gemini(Chrome版本)体验上不太好的就是,附件截图只支持一张,只能多轮会话追加,还有如果发送的会话内容太长,它就读取不了,得分段发。

Gemini给的志愿填报顺序,不能说是完全可参考,但重点是给到了一些填报逻辑启发和参考。比如,它提到了考编、怎么利用新增专业捡漏。而且她给的志愿顺序格式完全是可以直接照着填报到志愿系统的格式,这让我们看起来非常清晰,而且方便填写。后面也是受这个启发在飞书里搞了个Excel表,方便讨论挪动顺序,也方便填报的时候誊写。

但Gemini也存在自己不先核实就直接报风险提醒的情况,而且会用emoji警报器,加粗大写警示,这种体感很不好,我个人觉得还是倾向于AI自己提出的风险,先自己核实一遍再来报给用户。

Claude Opus 4.8:

后面我又想着,还是让Claude 也评估一下志愿方案,毕竟上下文信息它是知道最多的,一些主观因素考量也有和它沟通过。

不出意外,Claude 很理解这个志愿方案,针对我们前面沟通过的主观因素它做了一些提醒,比如“xxx学校你之前说不喜欢的,现在志愿方案里出现了,要不要留?”、“xxx专业是师范专业,之前说过你表妹不是很倾向xxx方向”。

Claude最大的痛苦就是额度不够。。。

五、回头看:要是一开始就给AI分好工,会更省力吗?

现在看这个过程中的AI调度,完全没有章法,哈哈哈哈。

主要两个原则:哪个AI趁手方便、哪个AI有额度。

放弃Claude,主要是因为额度不够用,上下文信息太大了,经常是额度刚刷新,我一个问题(就是一句话的问题)发过去,直接干掉25%的额度。

浏览器内置AI,Gemini用起来很顺手。百度搜索也超级方便。

写这篇文章的时候,我在想:那如果一开始就按谁适合什么来分工,是不是更省力一些呢?

这个问题的前提是,对各种AI的优劣势、适用场景很了解。但平常我们几乎不太能充分使用到所有的AI工具,所以很难做到都有深度了解,更多是通过官方介绍、网上宣传来获得一些字面的感知。

志愿填报这个场景,会天然给到人一种压力和紧迫感,这时候理性往往被大量用在了志愿的讨论分析、人之间的沟通上,在工具的使用上就是哪个方便哪个来。

所以说,是不是会更省力,我觉得还不好说。

还有一个非常重要的是,使用AI的人怎么把自己的需求、背景情况、任务说清楚。

虽然现在AI很厉害了,理解能力很强了,但也不能做到百分之百。像我前面的识图问题,就是自己没说清楚任务,这同样很影响AI对任务的处理。

同样的工具,不同的人,用出来的效果也不一样。

一些感想

志愿填报总算结束了。

我那会填志愿痛苦的就是信息不对称,自己也不会用网络,完全懵的,现在有AI辅助了啥都能找出来。

经历过这次,我觉得对孩子有多了解、孩子自己是否有清晰的想法,这些会更重要,也是主观考量最多的方面。

每个人的情况不同,决策逻辑可能就完全不一样。都没有绝对正确的答案,就是找一个最适合自己的。

其实我很清楚,这次志愿填报也是在帮过去的我自己。队友都说,这个志愿填的辛苦,我太投入、太上头了,哈哈哈哈。因为我很清楚自己当时是怎么过来的,我就是在帮当时的自己。

本文由 @AI Second 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!