字节【大模型评测平台】产品岗-面试总结与复盘

9 评论 3255 浏览 38 收藏 26 分钟

在面试的过程中,我们总可能遇到这样或者那样的困难和疑问,这个时候,我们不妨多看看别人的面经。这篇文章里,作者就分享了自己面试复盘总结,包括面试前准备、面试中表现及面试后思考,一起来看看吧。

此篇文章,旨在为个人24年年后复工第一面的全面总结回顾,包括面试前准备面试中表现面试后思考,以期帮助自我成长,也期望将此次宝贵的面试过程分享出来,帮助更多产品er轻松拿捏面试,尤其为那些争取大模型相关岗位、字节跳动公司岗位的产品er们提供一些参考~

注:本次分享,并无任何冒犯面试官、HR、字节等公司的意图,旨在客观回顾、分析整场面试经历,为自己、为他人提供一个借鉴与参考~

一、面试过程回顾

  1. 面试岗位:字节跳动-大模型评测平台产品岗(投的不是这个岗,后被转到这个岗面,但HR全程无告知,我自己发现JD不一样,但HR给我的回复是:面试官一样、面试流程一样。//我就不做过多评价了…大家自行体会HR的专业性~);
  2. 面试时间:3.5晚7:00(面试官推迟了2次时间后定的时间)
  3. 面试总时长:50min+(40min面试官想结束了,被我硬拖了10多分钟…)
  4. 本场面试问题及过程回顾(字数过多…可跳过直接看【面试总结】):以下是面试经过:

(1)面试官没有主动自我介绍,关于迟到+推迟时间也没有任何解释——这在我所有面试里,都是比较罕见的(可能我面的还不够多,或者过于理想化)。

建议其它面试者面对这种情况,也不要慌乱,把这种归为“正常”情况处理即可~

(2)面试的第一个问题不是自我介绍,而是问我对面的什么岗位了解不?需要我给你讲讲不?

这里有些小插曲,我以为这句话的意思是,他已经知道我起初投的岗和要面的岗并不是一个这个前提,所以过来问我准备好没有、是否要他讲讲之类的。但我的一些回答,现在想想…直接注定了这场面试的失败。

我说我起初投的AIGC的,JD比较泛,后面转到这个评测岗,我认为我过往经历也挺合适的,我也挺感兴趣的,所以就也准备着了。我说我仔细看了这个JD,而且一直准备的就是这个岗,我大致知道,不用详细介绍了…(实际可以让他介绍一下,我为什么没让他介绍呢?我一直寻思着,这就开始了么,怎么不让我自我介绍呢?)。

这里,通过面试官的表情和行为,马后炮地猜测一下面试官的心理:面试者起初投递的并不是这个岗位,我还要面她这个岗…这不是浪费时间么?我还有很多活没干完…

(3)他让我直接说一个最近的项目。额..自我介绍呢?我没有顺着他,我还是简单地做了个自我介绍(我不知道这样对不对,但我还是想做一个自我介绍)。——这里在他那估计也是扣分项,不听他的问题。

(4)自我介绍完了之后。面试官说,好,那你说一个你做的项目吧。

我说好,我说我做的xxx产品,我跟他说我先讲一下这个产品是什么,然后我说我再展开讲为什么做、我怎么做的、结果如何。他没吭声,我就继续讲~

在我讲完这个产品是什么,以及在用STAR法则展开讲到我具体产品规划完,该到产品设计的时候,他开始打断,认为我讲的过于宏观,不听了。

——1个项目介绍5min时间,应该不算长吧?我自己面试前练习过,整个项目介绍也就5-6min。

——所以,在讲产品规划时,即使是宏观的东西,也要讲的具体,比如调研了多少份报告、走访了多少个客户,远比你说“运用xxx方法论”…更有信服力。

(5)okay,那我停。听他问问题。

他问(Q1):你这个产品里面有几个模型?都是啥模型?模型怎么工程化到产品里面的?以及产品的指标是准确率还是什么?如何评估的?

我答:我们产品里面的模型主要有文本分类、图像分类模型,文本分类模型我们是多个二分类模型,图像分类是一个多分类模型,像涉稳、涉政、涉恐这些,客户核心关注的一些涉政的 标签,我们也会拆到3个层级,模型个数具体也没细数,一共有16个模型吧,一共16个。

然后我们这个产品的评估指标分为两个层次,一个是业务层面的指标,比如线索发现准确率;一个是模型层面的指标,像精确、召回、F1值这些。

关于线上业务准确率效果指标如何评估的,我们是这么做的:

先根据业务需求制定评估指标,然后对模型基于前期准备的测试集进行测试,然后采用人工评估和自动化评估相结合的方式对模型效果进行评估,评估完之后,对一些业务效果不好的case进行分析,然后后续基于此进行优化。

然后关于模型效果指标的评估,我们主要是在模型出厂正式上线前进行精确、召回、f1的离线评估。像我们这个场景,我们线上业务指标主要考虑的是精确率,因为没办法评估召回。

他打断问到(Q2):你们和客户说准确率指标,模型的这些指标,客户认吗?为何不能评估召回?不是测试集上就能评么?

我答:我说客户认的。像一些违法犯罪的分类准确率,文本分类、图像分类这些,客户已经被“教育”的很好了,被培训的很好了,客户都知道的,而且在我们这个场景里,模型指标基本上就等同于业务指标了。

我解释为何线上场景不能评估召回率的原因:我说海量的信息,因为不能预判到底有多少违法犯罪,所以只能评估精确率。但是在模型效果评估层面,就可以评估精确、召回和f1了,因为测试样本是有限的。

他继续问到(Q3):你说你们产品是网络内容安全领域,那你们处理的内容是啥内容?以及这个内容治理的整个链路是什么?

我答:我们这个产品里面的内容,主要是网络上采集到的文本数据、图片数据、还有短视频数据,我们使用的模型有文本分类、图像分类模型还有一些关键词策略模型,包括涉稳、涉恐、涉政、涉违法犯罪这些,然后给文本、图片打上相应的标签。

整个内容的治理链路就是:先从网上采数据,然后过模型对数据进行分类,打上相应的类别标签,然后进行信息预警,体现在业务前台上就是信息预警。

他说,好的。他问(Q4):那你们这个信息预警的线上效果如何观测?

我答:我说,线上效果一方面是我这边会去使用产品,发现问题;另一方面是收集客户反馈给我们的问题,然后分析问题原因,然后去针对性解决。如果是数据层面的比如数据质量差,我们就相应的解决数据问题,比如数据量不够,还是标注的质量不够,就相应的去解决。如果数据没问题,是算法层面的原因,那就优化算法,由算法工程师去优化。

他问(Q5):你们有没有线上反馈打分的机制?

我答:我们这个xx产品,目前没有这个机制,没做,因为是基于产品当下的一个重心资源情况,决定先不做这块,但未来会考虑做这方面的功能,人机协同嘛。但是我在百度做的几个产品,像xxx、xxx产品,发现了一些问题上报给客户之后,客户那边的问题处置流转系统里面,会有相应的人工反馈、人工打分的机制,反馈给我们,我们基于这些问题去优化。

他答:奥。他继续问(Q6):那你知道什么是过拟合吗?

我答:知道。过拟合的一个原因,主要是样本分布不均衡导致的,比如一个分类模型,有的样本类别数据特别多,有的类别样本特别少,那这样训出来的模型就会过拟合。过拟合可以在模型训练前,将训练数据样本尽量搞成均衡分布的,就可以解决这个问题了。(我忘记答什么是过拟合了,答非所问了)

他问(Q7):那如果像一些模型,刻意给他训成过拟合了,你怎么识别?

我答:(此处空白了一会)。额,这个一般都是算法去优化。

他问(Q8):那到底什么是过拟合?

我答:就是模型在一部分数据集上效果表现的非常好,准确率能有98%、99%,但是在另一部分数据集上测试,效果就很差,比如可能只有50%,甚至50%都不到。

他说:嗯是的。他继续问(Q9):那你这个都是小模型的一些评估,大模型的评估知道吗?我看你那个xx功能里,写了大模型。有对比过大模型和小模型的效果吗?

我答:知道,我们那个xx里,就用了大模型,我们主要对客户指定网站上的一些文章,然后运用大模型对其进行总结和要点提炼,生成日报月报,报送给我们的订阅客户们。我们在进行技术选型时,是有对比大模型效果和小模型效果的,比如百度的那个NLP抽取模型什么的,但是最终考虑到我们这个场景针对的都是一些长文本,对模型能力要求很高,所以就最终还是选择了大模型。

他接着问(Q10):小模型和大模型评估,都有准确、召回这些指标,这些都是基本的。那除了这些,大模型评估和小模型评估有哪些差异?知道吗?

我答:嗯,是的。首先不论是大模型还是小模型,其评估过程都是类似的,都需要评估指标,然后设计评估方案,然后进行评估。但是大模型评估和小模型评估还是有非常大的差异的,差异我认为主要有这样几个方面:

第一,大模型因为其本身能力特点,泛化能力特别强,所以其评估任务之一 就是要评估他的通用性、泛化能力。

第二,大模型的评估非常耗资源,而且会需要一些专门的评估工具会评估平台来评估。

第三,大模型的安全性和伦理也是需要重点考虑的,我觉得。

也就是总的来说,大模型和小模型评估的差异在于,大模型需要评估泛化能力,以及评估难度更大、评估指标和评估体系复杂,需要考虑很多东西,还有安全性隐私性问题等等。

他答:嗯。继续问(Q11):那你觉得大模型评估都应该包括哪些方面?

我答:嗯,刚刚说的通用泛化能力、安全性问题、还有就是在一些特定领域任务上的效果。比如我们那个运用大模型生成月报的功能,就需要针对具体的业务场景来评测。像通用泛化能力评估,可以用一些比如说像一些权威的数据集,比如GLUE、superGLUE这些英文的常见的NLP任务评估集,有问答的、情感分析的、分类的等等,在这个上可以去评通用泛化能力。

他答/问:嗯呢是的,GLUE,嗯 superGLUE(点头了)。那像一些榜单,C-Eval,我插话了:我说是的,C-Eval这些榜单。他问:那你怎么保证或怎么识别,他们的一些结果可能是过拟合的?

我答:嗯,首先这个好像也没办法避免,因为超大规模的模型,我们也没办法保证哪些语料他们训模型用过了,哪些训模型时候没用过。

他问(Q12):你现在离职还是在职?看你在xxx工作了1年半不到。

我说:我离职了,我xx离职的,我是主动辞职的,两家公司,都是我主动辞的,不是被裁的。

他问(Q13):xx看起来挺大的一个国企还是央企,为什么离职呢?

我答:这里我主要围绕着个人规划和公司提供的平台不符合,但也很感激前公司,这样去回答的。我提到了上中下游。

他问(Q14):什么是上游、中游、下游?

我说:以这个模型这个链路为例。上游就是模型生产商,中游就是提供模型平台的这样的厂商,链接供需双方的厂商,而上游是像政务、电商、出行这些应用。而我自己一直想锻炼的是自己平台化的能力这块,目标岗位就是这样的。

他说:奥也就是,大模型平台能力呗?

我:(emmmm)(心想,什么跟什么啊?)嗯,对。

他说(Q15):我们也聊了四十多分钟了,你有什么想要问我的么?

我说:那我想问一个比较具体的问题,就我刚刚回答的不太好的那个问题,怎么去识别过拟合?过拟合有什么特征?

他答:此处省略50字,他说了挺多,在解释过拟合的现象(和我前面说的基本没差,就是一些任务上表现很好,一些任务上表现的效果很差….)最终好像扯到了大模型一些榜单的结果并不可信,然后他们都是根据自己的业务来具体评,那些榜单也会去参考,但自己也会去评估。搞一些黑盒测试、盲评、众包、甚至是一些没有标准的评估方法….

我紧接着又问了一个问题:想知道咱们这个目标岗位做的产品,是对内部的还是对外的。(额…针对上个问题,我貌似没有说谢谢面试官之类的,忘了)。

他答:暂时是for内部的,评大模型的业务效果,针对字节的各种业务,比如说抖音的一些特效,生成的图片的效果。

我问:那模型是字节自研的,还是外部模型也会评估?

他答:都有,会根据实际情况,比如像一些开源的Midjourney,SD这些也会去评。根据具体的业务情况来评。

我又追着问:我说那这个业务指标都是业务PM来主要负责呗,平台化PM会去制定么?

他答:平台化PM也会去跟业务对接什么的嘛,肯定也是要制定的。

我又说:这里我讲了挺多,主要是想突出自己过往的经历既有业务PM经验,也有平台型产品经验,但面试官貌似不是很感冒,明显感到听不进去…

他:一直揉头发,liao额头上的头发。(我感觉到,他好像没太听懂….有点不耐烦了…)ernie?

我:百度的文心大模型啊,ernie。

他:行。那我们回去商量下,后面有结果告诉你。我:好的面试官。他:那今天就先这样。

我:好的面试官。他:辛苦了。我:您也辛苦了,谢谢面试官。他:拜拜。我:拜拜。

二、面试感受与总结

1)整场面试体验差

双方愉悦的面试体验,是求职者与面试官所希望得到的。但现实中,往往也会出现面试不愉悦的情况,面试也是看缘分和气场。所以我们也不要因为一次面试,就怀疑自己的能力。负面的事情,能从中学到对自己有益的事情,也是收获、也是成长~

2)本场面试问题汇总(岗位是大模型评测平台产品岗位):

  1. 介绍项目;
  2. 你们产品xxx,有多少个模型?模型指标是如何评价的?
  3. 什么这个产品治理的内容是什么,以及内容治理的治理链路是什么?
  4. 是过拟合?如何发现过拟合?
  5. 大模型评测与小模型评测异同?
  6. 对目标岗位的理解
  7. 离职原因
  8. 你有什么想问我的么?

3)面试不足与改进

不足①:答非所问。比如面试官没让自我介绍,我却做了自我介绍。这可能是个例情况,但要避免答非所问。比如问我对目标岗位是否了解,我不应该扯那么多,什么投的不是这个之类的……完全是给自己不合适找依据……

不足②:问题回答语言不够精炼、且空洞套话易引起反感、且前后存在矛盾。许多问题准备不充分,或平时积累不深入。比如“过拟合问题如何发现?”(虽然我答上了什么是过拟合,但对于怎么发现回答的不好)。再比如项目介绍被打断,根本原因在于说的太宽、太空泛,无数字实例,不够打动人。比如产品指标,我一开始仅回答了一个产品的过程性指标(信息预警准确率),虽说这个模块也单独对外使用,但实际我们的核心指标是线索最终落地的核查率。就好比电商产品的北极星指标是GMV,我只答了中间某个环节的指标,说着说着发现自己说漏了,开始找补……

不足③:心态问题。因为是字节岗,我看的比较重,所以在准备这场面试,而且是第1场面试,我付出了太多时间和精力(两个礼拜,每天10+小时学习),太想好好表现了,以至于看到面试官一上来就愁眉苦脸、眉头紧锁,我瞬间就不想答了。

不足④:有些问题回答深度不足,其实可以答的更好。比如一个简单的问题3:治理的是什么内容?我直接答的是内容是指网络上采集的图片、视频…一个内容模态维度。实际完全可以有:内容来源维度、内容形态维度、数量维度、频次维度(这个回答相较于上面那个回答,哪个好、哪个坏,高下立刻而见)。

治理的内容主要是:网络上实时采集的账号、群组、网站等信源发布的图片、文本、视频模态数据,数量上:每日需要入库治理xx消息数据、xx账号数据、xx群组数据;

关于治理:包括统一的数据入库前的数据去重、脏数据剔除等清洗等常规治理,还包括利用各类算法模型对文本、图片进行打标等实时和离线治理这种复杂的数据治理…

不足⑤:这点我认为是面试官的不足。(如他在讲到他们内部在尝试一些“众包”等没有标准的评测方式。可以理解,但也不能这么说吧,任何评估都是有标准的,没有随心所欲评估的……)

4)面试收获与成长

通过本次面试前期的准备,以及本场面试,虽然结果不理想,但也有许多收获和成长~

① 前期学习准备的许多关于大模型及评测的知识,还有面试常规Q&A,虽然本次面试没有被问到,但也不会浪费;

比如:

  1. 机器学习7大经典算法及其优劣势、深度学习3大算法模型原理及其优劣势;
  2. chatGPT的训练过程,GPT的演进历程;
  3. 微调、RAG与langchain的概念、优劣势;
  4. SD原理;
  5. 大模型评测框架、大模型评测数据集、大模型评测平台;
  6. 大模型应用的长文本限制问题如何解决;
  7. 基于大模型的自动化评测;
  8. 关于平台化产品的理解。

② 心态和经验层面的进步

面试就像一场约会,更重要的是双方匹配、气场合、缘分到位。面试这个过程是企业在挑选你的过程,也是你在挑选企业的过程。

面试未通过,并不意味着你这个人就不行,面试遇到的一些突发情况等都会影响最终结果(比如我恰好面试那天姨妈期身体不适等),一次面试代表不了你整个人的全貌。所以,整理好心态,总结经验教训,再次出发就好~

③ 在准备面试问题层面的经验。

比如我面的是岗位A,在面试前,一定要自己提前准备好除了离职原因、个人规划、自我介绍这些常规问题外,一定要深挖简历上与目标岗位相近或相似的经历:以大模型评测岗为例,你不仅要准备目标岗位(大模型评测)相关的东西(宏观+拆分),还要横向“对比”,比如大模型v.s.小模型、大模型评测v.s.小模型评测。

此外,还有一些高频问题,比如:

  1. 你产品的核心指标是什么?以及你们是如何制定的?为什么这么制定?你们是如何评估的?评估效果如何?下一步动作是什么?——这个问题,一定要先进行拆解,核心指标(北极星指标)是什么?然后一层层拆解,漏斗的每层指标分别是什么?有逻辑性地将产品指标问题回答清楚、简练基础上完整。
  2. 你们产品的竞品有哪些?(你不仅要回答出竞品有1、2、3、4…还要回答出与竞品的优劣势比较,以及相应的应对措施回答才算完整);
  3. 你有没有遇到什么困难,你是如何解决的?
  4. 如何收集和管理需求?
  5. 与研发等的冲突等问题如何解决?
  6. AI产品的必问问题:你产品哪里用了什么AI技术,解决了什么业务问题?以及为何非得是AI?

以上,共勉~加油~

本文由 @南方碟道 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 现在再回头来看面试官说的“没有标准的大模型评估”,能理解了,他指的就是:大模型 Arena这种竞技模式(就是AB test,比如司南Compass平台上有这个功能模块,其它伙伴们可以去康康了解下~)

    来自北京 回复
  2. 专业性可以了,可能自主发挥太多,引起面试官反感了

    来自北京 回复
  3. 好棒的面经,感谢

    来自北京 回复
  4. 感觉已经很专业了,想请问下这个类型的岗位,薪资待遇能给到多少?

    来自北京 回复
  5. 很有收获,感觉跟着作者视角体验了一场面试

    来自美国 回复
  6. 棒,能分享下面试准备的资料吗

    来自四川 回复
  7. 很棒

    来自广东 回复
  8. 文章中有笔误,应用是下游哈

    来自北京 回复
  9. 社招面试确实太看运气了,即使你和某个岗位100%匹配,也有可能因为面试当天下雨导致面试官心情不好而擦肩而过。

    来自广东 回复