人工智能PM系列文章（二）PM要学会使用数据

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

人工智能PM系列文章（二）PM要学会使用数据

特里

2017-09-30

0 评论 7226 浏览 64 收藏

11 分钟

本期和大家聊聊产品经理在机器学习领域该如何理解数据、使用数据、以及面对大数据的治理需要具备的一些基本素质。

机器学习三要素：

业内公认的机器学习三大要素：算法、计算能力、数据。

1、算法：随着Google的Tensorflow的诞生，将算法迅速应用到产品中的门槛大幅度降低。使用Tensorflow可以让应用型研究者将想法迅速运用到产品中，也可以让学术性研究者更直接地彼此分享代码，从而提高科研产出率。因此，这个趋势就类似当年做网站设计还需要编写复杂的代码，而今天连一个不会编程的人都会做出精美的网站了。

通过TensorBoard查看即时数据的情况

2、计算能力：大公司会通过强大的云计算能力提供全行业的人工智能计算能力，而小公司无需搭建自己的计算平台，直接使用大公司提供的现成的云平台，即实现了可以用很少的硬件投入就可以进行深度学习产品的开发。因此在这方面公司显然也不是公司或产品可以建立门槛的方向。

3、数据：数据在机器学习领域领域显然已经变成了兵家必争之地，而且优质的数据可以帮助企业快速建立门槛。好的数据通常要比好的算法更重要，而且数据本身的属性决定了应用的机器学习算法是否合适。假设你的数据集够大，那么不管你使用哪种算法可能对分类性能都没太大影响。

如何理解数据

数据对于机器学习的重要性其实源于于机器学习的本质，在专家系统（expert system, ES）作为人工智能重要领域并广泛应用的年代，人们已经发现专家系统的缺陷。

计算机无法在某些领域穷尽全世界所有该领域专家的经验和智慧，且很多领域的专家也很难总结出处理问题的原因和规律，况且对于企业来说在很多领域中通过创造专家系统解决问题的ROI也并不理想，因此出现了机器学习（Machine Learning, ML）。

如果说专家系统是一种手把手式的填鸭式的教学方法，而机器学习更像一种在寺庙高僧传授徒弟的方式，高僧对于武功和修行的提升通常是只可意会不能言传的，因此通常要依赖“悟性”。徒弟只能通过长期的实践-碰壁-再实践提升自身武功及悟性。机器学习就是凭借这样一种内在逻辑诞生的，尤其在某些判断模式相对复杂但是结果明确的领域，机器比人强的事实已经被广泛证明，例如商品推荐、法律文书整理、投资策略的推荐等等。

实际上机器学习已经成为数据分析技术的重要创新来源，而几乎所有学科都要面对大量的数据分析任务，但是机器学习只是数据挖掘的工具中的一种。

产品经理在设计产品的时候除了要考虑到如何将机器学习利用到极致，还要解决数据分析过程中遇到的一些其他问题比如数据存储、数据清洗、数据转换等一系列关于数据治理的问题。

毕竟产品经理不是算法工程师，除了关注算法和模型训练以外还要协调资源将数据怎么来的、哪些数据需要存、存多久、以及数据质量遇到问题是是否需要数据治理工具去完善等等。现实项目中没有那么多理想情况，而且涉及到跨团队的协作。

因此这就要求产品经理应理解行业数据标准，对行业标准数据类型、数据分布（数据在哪）、数据量预估、以及每种数据背后的含义了如指掌。只有理解了这些数据的维度，才能进一步指导产品经理去获取行业优质数据，并判断是否需要搭建大数据架构进行对数据的处理。下面举个机器学习和大数据架构结合的案例：

Eagle是eBay开源的分布式实时安全监控方案。通过离线训练模型和实时流引擎监控，可以立即监测出对敏感数据的访问或恶意的操作，并立即采取应对措施。

Eagle需要被部署在多个大型Hadoop集群上，这些机群拥有数百PB数据量。如果你是这个产品的产品经理你至少要考虑到产品的这三个层面：视觉展现、数据处理分析、采集和存储数据。

Eagle

另外，许多传统行业的数据积累在规范程度和流转效率上远未达到可充分发挥人工智能技术潜能的程度，产品经理要识别这方面的风险，产品的占领市场先机固然重要，但过早的进入市场也可能有巨大的投资风险。

产品经理该如何利用数据设计机器学习产品

1、当需求确定后，产品经理应该判断是否有质量足够好的数据作为训练集来完成对模型的训练，数据的质量决定了模型的训练效果能否满足用户需求，甚至决定了产品经理对产品设定的目标是否能够实现。

产品经理应该明确所设计的功能目标是否明确且容易判断和量化，越明确就越容易被自动标记。越容易被自动标记就越容易帮助机器快速进行学习和建模，即功能的实现成本较低且比较容易实现较好的效果。

例如在某些领域中就天然带有闭环的、自动标注的数据：基于互联网平台的广告平台可以自动根据用户在页面上的点击动作及后续操作，收集到第一手转化率数据，而这个转化率数据反过来又可作为关键特征，帮助AI系统进一步学习。这种从应用本身收集数据（训练集不需要外部采集），再用数据训练模型，用模型提高应用性能（容易判断和容易量化的性能目标）的闭环模式更加高效。

2、在设计机器学习产品的时候产品经理应该转变传统产品设计的思路和逻辑，过去产品经理的设计逻辑是画原型、PRD文档交付研发，研发会按照原型设计的去开发，页面都是设计好了的，页面上有几个按钮，每个按钮的交互反馈是什么，每种用户的数据、页面权限都是设计好的。

而在机器学习产品设计中，可能就没那么多事先就能确定好的事情了。比如产品的目标是分析导致某超市销售业绩提升的最重要的因素，并根据每天搜集到的数据输入到训练好的模型中预测即将到来的一周的销售业绩。

那么产品经理在设计这样的数据分析功能的时候是无法在训练集都没输入并训练的时候给出的原型的，整个页面的元素大部分是又训练出来的结果决定的。而最终该功能能否成功不是依赖页面开发工程师，而很大程度上依赖于算法团队是否能获得足够优质的数据并训练比较精准的模型进行预测分析。这也是为什么需要产品经理和算法团队进行充分的交流，因为机器学习产品的设计往往当目标定好后，其他的工作不是人说的算，而是数据和算法说的算，一味死板的设计产品只能让技术团队陷于挣扎。

3、测试算法，产品经理是端到端负责人，一个功能的算法做出来了，但实际效果（或准确度）是需要产品经理亲自去检验的，这不仅需要大量生产数据的监测，而且有些时候是需要用户认可才行。

就拿上面那个预测超市业绩的例子来说，产品最终要实现的是帮助超市管理者能够有的放矢的进行管理决策，那么就需要产品经理实际参与到预测结果和实际效果的比对中，只有获得了用户的认可，才是产品设计的圆满。而如果效果不好，则需要产品经理想办法获得更多维度的数据进行训练，必要的时候需要聘请行业专家参与到算法调优中。

最后，本文只是针对数据问题讨论的冰山一角，篇幅有限也只能抛砖引玉式的提出一些问题和观点。更多有关数据治理的内容将会在后续系列文章中详细描述。希望你能持续关注我的人工智能产品经理系列文章。

作者：特里，头条号：“人工智能产品设计”。毕业于University of Melbourne，人工智能领域产品经理，专注于AI产品设计、大数据分析、AI技术商用化研究和实践。

本文由 @特里原创发布于人人都是产品经理。未经许可，禁止转载。

题图来自PEXELS，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App