字节【大模型评测平台】产品岗-面试总结与复盘

6 评论 2709 浏览 32 收藏 26 分钟

在面试的过程中,我们总可能遇到这样或者那样的困难和疑问,这个时候,我们不妨多看看别人的面经。这篇文章里,作者就分享了自己面试复盘总结,包括面试前准备、面试中表现及面试后思考,一起来看看吧。

此篇文章,旨在为个人24年年后复工第一面的全面总结回顾,包括面试前准备面试中表现面试后思考,以期帮助自我成长,也期望将此次宝贵的面试过程分享出来,帮助更多产品er轻松拿捏面试,尤其为那些争取大模型相关岗位、字节跳动公司岗位的产品er们提供一些参考~

注:本次分享,并无任何冒犯面试官、HR、字节等公司的意图,旨在客观回顾、分析整场面试经历,为自己、为他人提供一个借鉴与参考~

一、面试过程回顾

  1. 面试岗位:字节跳动-大模型评测平台产品岗(投的不是这个岗,后被转到这个岗面,但HR全程无告知,我自己发现JD不一样,但HR给我的回复是:面试官一样、面试流程一样。//我就不做过多评价了…大家自行体会HR的专业性~);
  2. 面试时间:3.5晚7:00(面试官推迟了2次时间后定的时间)
  3. 面试总时长:50min+(40min面试官想结束了,被我硬拖了10多分钟…)
  4. 本场面试问题及过程回顾(字数过多…可跳过直接看【面试总结】):以下是面试经过:

(1)面试官没有主动自我介绍,关于迟到+推迟时间也没有任何解释——这在我所有面试里,都是比较罕见的(可能我面的还不够多,或者过于理想化)。

建议其它面试者面对这种情况,也不要慌乱,把这种归为“正常”情况处理即可~

(2)面试的第一个问题不是自我介绍,而是问我对面的什么岗位了解不?需要我给你讲讲不?

这里有些小插曲,我以为这句话的意思是,他已经知道我起初投的岗和要面的岗并不是一个这个前提,所以过来问我准备好没有、是否要他讲讲之类的。但我的一些回答,现在想想…直接注定了这场面试的失败。

我说我起初投的AIGC的,JD比较泛,后面转到这个评测岗,我认为我过往经历也挺合适的,我也挺感兴趣的,所以就也准备着了。我说我仔细看了这个JD,而且一直准备的就是这个岗,我大致知道,不用详细介绍了…(实际可以让他介绍一下,我为什么没让他介绍呢?我一直寻思着,这就开始了么,怎么不让我自我介绍呢?)。

这里,通过面试官的表情和行为,马后炮地猜测一下面试官的心理:面试者起初投递的并不是这个岗位,我还要面她这个岗…这不是浪费时间么?我还有很多活没干完…

(3)他让我直接说一个最近的项目。额..自我介绍呢?我没有顺着他,我还是简单地做了个自我介绍(我不知道这样对不对,但我还是想做一个自我介绍)。——这里在他那估计也是扣分项,不听他的问题。

(4)自我介绍完了之后。面试官说,好,那你说一个你做的项目吧。

我说好,我说我做的xxx产品,我跟他说我先讲一下这个产品是什么,然后我说我再展开讲为什么做、我怎么做的、结果如何。他没吭声,我就继续讲~

在我讲完这个产品是什么,以及在用STAR法则展开讲到我具体产品规划完,该到产品设计的时候,他开始打断,认为我讲的过于宏观,不听了。

——1个项目介绍5min时间,应该不算长吧?我自己面试前练习过,整个项目介绍也就5-6min。

——所以,在讲产品规划时,即使是宏观的东西,也要讲的具体,比如调研了多少份报告、走访了多少个客户,远比你说“运用xxx方法论”…更有信服力。

(5)okay,那我停。听他问问题。

他问(Q1):你这个产品里面有几个模型?都是啥模型?模型怎么工程化到产品里面的?以及产品的指标是准确率还是什么?如何评估的?

我答:我们产品里面的模型主要有文本分类、图像分类模型,文本分类模型我们是多个二分类模型,图像分类是一个多分类模型,像涉稳、涉政、涉恐这些,客户核心关注的一些涉政的 标签,我们也会拆到3个层级,模型个数具体也没细数,一共有16个模型吧,一共16个。

然后我们这个产品的评估指标分为两个层次,一个是业务层面的指标,比如线索发现准确率;一个是模型层面的指标,像精确、召回、F1值这些。

关于线上业务准确率效果指标如何评估的,我们是这么做的:

先根据业务需求制定评估指标,然后对模型基于前期准备的测试集进行测试,然后采用人工评估和自动化评估相结合的方式对模型效果进行评估,评估完之后,对一些业务效果不好的case进行分析,然后后续基于此进行优化。

然后关于模型效果指标的评估,我们主要是在模型出厂正式上线前进行精确、召回、f1的离线评估。像我们这个场景,我们线上业务指标主要考虑的是精确率,因为没办法评估召回。

他打断问到(Q2):你们和客户说准确率指标,模型的这些指标,客户认吗?为何不能评估召回?不是测试集上就能评么?

我答:我说客户认的。像一些违法犯罪的分类准确率,文本分类、图像分类这些,客户已经被“教育”的很好了,被培训的很好了,客户都知道的,而且在我们这个场景里,模型指标基本上就等同于业务指标了。

我解释为何线上场景不能评估召回率的原因:我说海量的信息,因为不能预判到底有多少违法犯罪,所以只能评估精确率。但是在模型效果评估层面,就可以评估精确、召回和f1了,因为测试样本是有限的。

他继续问到(Q3):你说你们产品是网络内容安全领域,那你们处理的内容是啥内容?以及这个内容治理的整个链路是什么?

我答:我们这个产品里面的内容,主要是网络上采集到的文本数据、图片数据、还有短视频数据,我们使用的模型有文本分类、图像分类模型还有一些关键词策略模型,包括涉稳、涉恐、涉政、涉违法犯罪这些,然后给文本、图片打上相应的标签。

整个内容的治理链路就是:先从网上采数据,然后过模型对数据进行分类,打上相应的类别标签,然后进行信息预警,体现在业务前台上就是信息预警。

他说,好的。他问(Q4):那你们这个信息预警的线上效果如何观测?

我答:我说,线上效果一方面是我这边会去使用产品,发现问题;另一方面是收集客户反馈给我们的问题,然后分析问题原因,然后去针对性解决。如果是数据层面的比如数据质量差,我们就相应的解决数据问题,比如数据量不够,还是标注的质量不够,就相应的去解决。如果数据没问题,是算法层面的原因,那就优化算法,由算法工程师去优化。

他问(Q5):你们有没有线上反馈打分的机制?

我答:我们这个xx产品,目前没有这个机制,没做,因为是基于产品当下的一个重心资源情况,决定先不做这块,但未来会考虑做这方面的功能,人机协同嘛。但是我在百度做的几个产品,像xxx、xxx产品,发现了一些问题上报给客户之后,客户那边的问题处置流转系统里面,会有相应的人工反馈、人工打分的机制,反馈给我们,我们基于这些问题去优化。

他答:奥。他继续问(Q6):那你知道什么是过拟合吗?

我答:知道。过拟合的一个原因,主要是样本分布不均衡导致的,比如一个分类模型,有的样本类别数据特别多,有的类别样本特别少,那这样训出来的模型就会过拟合。过拟合可以在模型训练前,将训练数据样本尽量搞成均衡分布的,就可以解决这个问题了。(我忘记答什么是过拟合了,答非所问了)

他问(Q7):那如果像一些模型,刻意给他训成过拟合了,你怎么识别?

我答:(此处空白了一会)。额,这个一般都是算法去优化。

他问(Q8):那到底什么是过拟合?

我答:就是模型在一部分数据集上效果表现的非常好,准确率能有98%、99%,但是在另一部分数据集上测试,效果就很差,比如可能只有50%,甚至50%都不到。

他说:嗯是的。他继续问(Q9):那你这个都是小模型的一些评估,大模型的评估知道吗?我看你那个xx功能里,写了大模型。有对比过大模型和小模型的效果吗?

我答:知道,我们那个xx里,就用了大模型,我们主要对客户指定网站上的一些文章,然后运用大模型对其进行总结和要点提炼,生成日报月报,报送给我们的订阅客户们。我们在进行技术选型时,是有对比大模型效果和小模型效果的,比如百度的那个NLP抽取模型什么的,但是最终考虑到我们这个场景针对的都是一些长文本,对模型能力要求很高,所以就最终还是选择了大模型。

他接着问(Q10):小模型和大模型评估,都有准确、召回这些指标,这些都是基本的。那除了这些,大模型评估和小模型评估有哪些差异?知道吗?

我答:嗯,是的。首先不论是大模型还是小模型,其评估过程都是类似的,都需要评估指标,然后设计评估方案,然后进行评估。但是大模型评估和小模型评估还是有非常大的差异的,差异我认为主要有这样几个方面:

第一,大模型因为其本身能力特点,泛化能力特别强,所以其评估任务之一 就是要评估他的通用性、泛化能力。

第二,大模型的评估非常耗资源,而且会需要一些专门的评估工具会评估平台来评估。

第三,大模型的安全性和伦理也是需要重点考虑的,我觉得。

也就是总的来说,大模型和小模型评估的差异在于,大模型需要评估泛化能力,以及评估难度更大、评估指标和评估体系复杂,需要考虑很多东西,还有安全性隐私性问题等等。

他答:嗯。继续问(Q11):那你觉得大模型评估都应该包括哪些方面?

我答:嗯,刚刚说的通用泛化能力、安全性问题、还有就是在一些特定领域任务上的效果。比如我们那个运用大模型生成月报的功能,就需要针对具体的业务场景来评测。像通用泛化能力评估,可以用一些比如说像一些权威的数据集,比如GLUE、superGLUE这些英文的常见的NLP任务评估集,有问答的、情感分析的、分类的等等,在这个上可以去评通用泛化能力。

他答/问:嗯呢是的,GLUE,嗯 superGLUE(点头了)。那像一些榜单,C-Eval,我插话了:我说是的,C-Eval这些榜单。他问:那你怎么保证或怎么识别,他们的一些结果可能是过拟合的?

我答:嗯,首先这个好像也没办法避免,因为超大规模的模型,我们也没办法保证哪些语料他们训模型用过了,哪些训模型时候没用过。

他问(Q12):你现在离职还是在职?看你在xxx工作了1年半不到。

我说:我离职了,我xx离职的,我是主动辞职的,两家公司,都是我主动辞的,不是被裁的。

他问(Q13):xx看起来挺大的一个国企还是央企,为什么离职呢?

我答:这里我主要围绕着个人规划和公司提供的平台不符合,但也很感激前公司,这样去回答的。我提到了上中下游。

他问(Q14):什么是上游、中游、下游?

我说:以这个模型这个链路为例。上游就是模型生产商,中游就是提供模型平台的这样的厂商,链接供需双方的厂商,而上游是像政务、电商、出行这些应用。而我自己一直想锻炼的是自己平台化的能力这块,目标岗位就是这样的。

他说:奥也就是,大模型平台能力呗?

我:(emmmm)(心想,什么跟什么啊?)嗯,对。

他说(Q15):我们也聊了四十多分钟了,你有什么想要问我的么?

我说:那我想问一个比较具体的问题,就我刚刚回答的不太好的那个问题,怎么去识别过拟合?过拟合有什么特征?

他答:此处省略50字,他说了挺多,在解释过拟合的现象(和我前面说的基本没差,就是一些任务上表现很好,一些任务上表现的效果很差….)最终好像扯到了大模型一些榜单的结果并不可信,然后他们都是根据自己的业务来具体评,那些榜单也会去参考,但自己也会去评估。搞一些黑盒测试、盲评、众包、甚至是一些没有标准的评估方法….

我紧接着又问了一个问题:想知道咱们这个目标岗位做的产品,是对内部的还是对外的。(额…针对上个问题,我貌似没有说谢谢面试官之类的,忘了)。

他答:暂时是for内部的,评大模型的业务效果,针对字节的各种业务,比如说抖音的一些特效,生成的图片的效果。

我问:那模型是字节自研的,还是外部模型也会评估?

他答:都有,会根据实际情况,比如像一些开源的Midjourney,SD这些也会去评。根据具体的业务情况来评。

我又追着问:我说那这个业务指标都是业务PM来主要负责呗,平台化PM会去制定么?

他答:平台化PM也会去跟业务对接什么的嘛,肯定也是要制定的。

我又说:这里我讲了挺多,主要是想突出自己过往的经历既有业务PM经验,也有平台型产品经验,但面试官貌似不是很感冒,明显感到听不进去…

他:一直揉头发,liao额头上的头发。(我感觉到,他好像没太听懂….有点不耐烦了…)ernie?

我:百度的文心大模型啊,ernie。

他:行。那我们回去商量下,后面有结果告诉你。我:好的面试官。他:那今天就先这样。

我:好的面试官。他:辛苦了。我:您也辛苦了,谢谢面试官。他:拜拜。我:拜拜。

二、面试感受与总结

1)整场面试体验差

双方愉悦的面试体验,是求职者与面试官所希望得到的。但现实中,往往也会出现面试不愉悦的情况,面试也是看缘分和气场。所以我们也不要因为一次面试,就怀疑自己的能力。负面的事情,能从中学到对自己有益的事情,也是收获、也是成长~

2)本场面试问题汇总(岗位是大模型评测平台产品岗位):

  1. 介绍项目;
  2. 你们产品xxx,有多少个模型?模型指标是如何评价的?
  3. 什么这个产品治理的内容是什么,以及内容治理的治理链路是什么?
  4. 是过拟合?如何发现过拟合?
  5. 大模型评测与小模型评测异同?
  6. 对目标岗位的理解
  7. 离职原因
  8. 你有什么想问我的么?

3)面试不足与改进

不足①:答非所问。比如面试官没让自我介绍,我却做了自我介绍。这可能是个例情况,但要避免答非所问。比如问我对目标岗位是否了解,我不应该扯那么多,什么投的不是这个之类的……完全是给自己不合适找依据……

不足②:问题回答语言不够精炼、且空洞套话易引起反感、且前后存在矛盾。许多问题准备不充分,或平时积累不深入。比如“过拟合问题如何发现?”(虽然我答上了什么是过拟合,但对于怎么发现回答的不好)。再比如项目介绍被打断,根本原因在于说的太宽、太空泛,无数字实例,不够打动人。比如产品指标,我一开始仅回答了一个产品的过程性指标(信息预警准确率),虽说这个模块也单独对外使用,但实际我们的核心指标是线索最终落地的核查率。就好比电商产品的北极星指标是GMV,我只答了中间某个环节的指标,说着说着发现自己说漏了,开始找补……

不足③:心态问题。因为是字节岗,我看的比较重,所以在准备这场面试,而且是第1场面试,我付出了太多时间和精力(两个礼拜,每天10+小时学习),太想好好表现了,以至于看到面试官一上来就愁眉苦脸、眉头紧锁,我瞬间就不想答了。

不足④:有些问题回答深度不足,其实可以答的更好。比如一个简单的问题3:治理的是什么内容?我直接答的是内容是指网络上采集的图片、视频…一个内容模态维度。实际完全可以有:内容来源维度、内容形态维度、数量维度、频次维度(这个回答相较于上面那个回答,哪个好、哪个坏,高下立刻而见)。

治理的内容主要是:网络上实时采集的账号、群组、网站等信源发布的图片、文本、视频模态数据,数量上:每日需要入库治理xx消息数据、xx账号数据、xx群组数据;

关于治理:包括统一的数据入库前的数据去重、脏数据剔除等清洗等常规治理,还包括利用各类算法模型对文本、图片进行打标等实时和离线治理这种复杂的数据治理…

不足⑤:这点我认为是面试官的不足。(如他在讲到他们内部在尝试一些“众包”等没有标准的评测方式。可以理解,但也不能这么说吧,任何评估都是有标准的,没有随心所欲评估的……)

4)面试收获与成长

通过本次面试前期的准备,以及本场面试,虽然结果不理想,但也有许多收获和成长~

① 前期学习准备的许多关于大模型及评测的知识,还有面试常规Q&A,虽然本次面试没有被问到,但也不会浪费;

比如:

  1. 机器学习7大经典算法及其优劣势、深度学习3大算法模型原理及其优劣势;
  2. chatGPT的训练过程,GPT的演进历程;
  3. 微调、RAG与langchain的概念、优劣势;
  4. SD原理;
  5. 大模型评测框架、大模型评测数据集、大模型评测平台;
  6. 大模型应用的长文本限制问题如何解决;
  7. 基于大模型的自动化评测;
  8. 关于平台化产品的理解。

② 心态和经验层面的进步

面试就像一场约会,更重要的是双方匹配、气场合、缘分到位。面试这个过程是企业在挑选你的过程,也是你在挑选企业的过程。

面试未通过,并不意味着你这个人就不行,面试遇到的一些突发情况等都会影响最终结果(比如我恰好面试那天姨妈期身体不适等),一次面试代表不了你整个人的全貌。所以,整理好心态,总结经验教训,再次出发就好~

③ 在准备面试问题层面的经验。

比如我面的是岗位A,在面试前,一定要自己提前准备好除了离职原因、个人规划、自我介绍这些常规问题外,一定要深挖简历上与目标岗位相近或相似的经历:以大模型评测岗为例,你不仅要准备目标岗位(大模型评测)相关的东西(宏观+拆分),还要横向“对比”,比如大模型v.s.小模型、大模型评测v.s.小模型评测。

此外,还有一些高频问题,比如:

  1. 你产品的核心指标是什么?以及你们是如何制定的?为什么这么制定?你们是如何评估的?评估效果如何?下一步动作是什么?——这个问题,一定要先进行拆解,核心指标(北极星指标)是什么?然后一层层拆解,漏斗的每层指标分别是什么?有逻辑性地将产品指标问题回答清楚、简练基础上完整。
  2. 你们产品的竞品有哪些?(你不仅要回答出竞品有1、2、3、4…还要回答出与竞品的优劣势比较,以及相应的应对措施回答才算完整);
  3. 你有没有遇到什么困难,你是如何解决的?
  4. 如何收集和管理需求?
  5. 与研发等的冲突等问题如何解决?
  6. AI产品的必问问题:你产品哪里用了什么AI技术,解决了什么业务问题?以及为何非得是AI?

以上,共勉~加油~

本文由 @南方碟道 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 感觉已经很专业了,想请问下这个类型的岗位,薪资待遇能给到多少?

    来自北京 回复
  2. 很有收获,感觉跟着作者视角体验了一场面试

    来自美国 回复
  3. 棒,能分享下面试准备的资料吗

    来自四川 回复
  4. 很棒

    来自广东 回复
  5. 文章中有笔误,应用是下游哈

    来自北京 回复
  6. 社招面试确实太看运气了,即使你和某个岗位100%匹配,也有可能因为面试当天下雨导致面试官心情不好而擦肩而过。

    来自广东 回复