能否借助AI破译婴儿哭声？

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

于长煦AI洞察

2017-12-21

8 评论 14489 浏览 47 收藏

19 分钟

偶然想到一个场景：借助机器学习精准识别宝宝啼哭的原因。仔细想想，感觉挺有意思。作者没有AIPM的经验和算法基础，希望通过白话描述起到抛砖引玉作用。欢迎大家一起讨论，多提建议。

哭闹是宝宝表达情感和寻求帮助的主要方式，也是一种健康的表现。就像在告诉父母：“我需要你！”如果父母能够理解宝宝的需求并及时解决，会对宝宝的成长发育很有好处。

现实中的年轻父母有“辅助破译哭声”的需求么？翻了翻各种育儿社区，截了几张图，大家可以换位思考，自行体会下。

一、简单调研

1.1 用户调研

为了迅速获取更多信息，牺牲精度飙速度，做了一轮4道选择题的迷你调研。目标人群是曾经带过0-6个月宝宝的家长，未要求“正在6个月中”这一苛刻条件。共采集到176份样本，情况如下：

a）父母判断啼哭原因的准确度

全部正确（22%）：这些父母拥有绝对的自信，几乎不需要借助工具。通过访谈，我了解到他们能够准确判断的主要原因有两点，经验丰富+宝宝让人省心。给他们打个标签叫“胸有成竹型”，后面会用到。

多数正确（64.2%）：大部分父母处于这种状态，打动他们需要一定的条件，卓越的用户体验是前提，同时要帮助他们提升诊断效率、准确率。给他们打个标签叫“经常找对型”。

很难找到（13.5%）：有这么多父母面对宝宝啼哭不知所措，这里存在大量的机会可以挖掘。想想吧，中国人口基数这么大，13.5%的数量真的少么？他们的标签叫“困惑型”。

b）常见的啼哭原因有哪些

覆盖度：调研中设定的9种原因已经覆盖了95%的情况，排名最高的6种是饥饿口渴、尿布湿、要抱抱、困了、疾病和疼痛。另有5%的父母选择了其他原因，包括受到惊吓、身体被挤压等，这些原因可以通过一进步的调研来补全。

认知度：家长们认定的啼哭原因不一定符合真实情况。举个例子，“本能运动”这个选项仅有17%的家长勾选。科学研究表明，任何一位宝宝的都曾因为“本能运动”而啼哭过，这个过程有助于宝宝生理和心理的发育，也是日后语言发育的一种启蒙。“本能运动”与“要妈咪抱”的解决办法类似又不完全相同，一个是要逗逗，一个是要抱抱。二者的声学特征都富有节奏感，前者是响亮而后者是平和。这说明：帮助家长提升育儿认知，可能也是AI破译的可挖掘点之一。

c）父母对“破译啼哭APP”的感兴趣程度

该问题的条件是APP免费，样本的反馈完全超出预期：仅有6%的父母表示不会使用，53%的人愿意尝试，更有41%的人表示一定会使用。

对比几种类型的父母：不仅“困惑型”，就连“胸有成竹型”和“经常找对型”也对该技术抱有强烈的兴趣。是啊，科技不就是帮人们偷懒么，能省点力为啥要绕弯呢？这里的“免费”可能有一定的杀伤力，父母们的真实需求+对新技术的好奇心也发挥着强大作用。

由于调研维度有限、粒度不细、样本数量较少，没能得出更多有价值的结论。不过我们可以看到一定的需求和机会，借着这股动力，继续寻找类似的竞品。

1.2 竞品调研

a）模拟声音类

通过模拟胎儿在母体内听到的声音，来安抚宝宝。这类产品的主要作用是安抚情绪，无法解决例如“生病”、“疼痛”、“尿布湿”等情况，治标不治本。

b）婴语翻译器

美国、中国台湾、西班牙、日本都有团队做过相关研究，程序通过分析哭声可给出肚子疼、尿布湿、想睡觉等原因。各团队都声明可覆盖95%以上的宝宝哭啼原因、准确度比人提高3倍等，但各团队找到的原因不一致。此类产品目前未在大陆市场化，APP没找到可用的，独立设备倒是有，感兴趣的可以搜一下“贝客来婴儿哭声分析器”。这类产品已经是AI辩声的前辈了，其精准度、易用性、市场化均有提升空间。

c）人工智能类

2016年日本First-Ascent公司声称推出了一项以人工智能为基础的技术，可根据婴儿的哭声分析原因，并计划将该技术加入到APP中。我本文写到90%才看到这条新闻，继续查阅时发现：它没实验数据、没可用产品、没有本土化。

比较有趣的是，很多竞品是因为程序猿爸爸觉得带娃困难，才萌生了技术解决的想法。下面就从这几方面做个浅析：科学合理性、工具定位、语音识别、数据准备、学习模型。

2、科学合理性

抛开那些竞品的干扰，推敲一下：【哭声特征】与【哭的原因】的关联到底可不可靠？如果二者之间具备真实的相关性，那是否意味着：无论映射逻辑多复杂，我们都有可能用机器学习拟合出预测模型？

2.1 经验常识

宝宝树这类育儿社区列举出大量听声音搞定哭闹的例子，百度经验中更是详细列举了15种哭声特点、原因以及解决办法。有经验的月嫂通过哭声能快速搞定婴儿，这些都说明靠声音特征判断很可能OK。

2.2 专业研究

学术界对婴儿哭声含义的研究并不少，最前沿的甚至声称能诊断婴儿是否患有自闭症、脑损伤、神经类疾病和早产相关的疾病。我觉得这个方向还是有戏的，值得继续研究，若感兴趣可以搜几份相关链接：

2.3 综合判断

哭声不是将原因归类的唯一信号。我们可以将声音特征做主要线索优先预测一波，再用其他方法辅助判断。不苛求靠AI搞定100%的问题，只要能搞定一部分，提升解决效率，就可以发挥应用价值。

这与智能手环的绿光测心率的道理类似，光电法的准确度比不上心电信号法（医疗级别），只靠心率也很难预测心脑血管疾病。但手环的天然优势就是佩戴方便+实时监控+主动提醒。若使用者结合经验、血压等指标综合判断，就有改善生活习惯、预测风险的可能。这类产品符合早预防、早治疗的养生理念，经常能取得较好的市场反馈。

按照综合按断的思路，梳理出如下表格，训练模型就是要预测出其中高亮的“哭声原因”。

根据查阅的资料，图中9种哭声原因的分类未必准确，但至少人类可以感知到细微差异。

上图描述了一个模拟场景：家长先通过APP锁定原因范围，再根据APP的提示观察婴儿，给出判断。像中耳炎这种特殊情况，父母操作过一次，基本就记住识别方法了。这就引出了我对该工具的定位：通过正确判断+有效提示，帮助父母尽快掌握读懂宝宝的技能，用完即走不粘人。

3、工具定位

3.1 小工具

“破译哭声”还没到产品设计阶段，更像是一个补充工具而非产品。目前各大育儿类应用已经相当成熟，提供了丰富的内容和服务，但一些服务的使用频次很低。若将“破译哭声”也集成进去，不会用力过猛，还可能锦上添花。例如下图这些就是不错的入口，宝宝哭的频次远远比打疫苗、起名字这些高，是吧？

3.2 目标人群

经验少的父母遇，在0-6个月遇到宝宝哭闹很久不停的情况，会派上用场。6个月后宝宝就适应了周围的环境，模型预测也逐渐失效，此时的父母已经积累了充足的经验。西方提倡父母多与宝宝沟通交流，学会读懂他们的内心，这更像是一种玄学。“读懂”的能力是父母与孩子的纽带，会影响双方一生的情感沟通。所以不鼓励父母依赖工具，还要帮助爸妈掌握读懂宝宝的本领。

3.3 扩展性

工具虽小，也有点想象空间。例如为宝宝做个啼哭档案，记录每次“哭声+原因+解决方式”。宝宝长大看到自己的成长日志，就会理解父母把自己拉扯大真心不易。

3.4 产品形态

访谈几位表示不愿使用的家长，问他们为什么不愿意用这样一款APP。

一位家长说没时间，想靠自己沟通情感读懂宝宝；另一位家长说想不到用APP，他家宝宝特别乖，从未久哭不停。这就涉及到用户理念、习惯、个体差异的问题了，三言两语还真说不清楚。

这里我只举一个例子：小米的小蚁智能摄像头已经能监控婴儿哭声并提醒父母，如果加个分析原因、给出建议的功能并不会突兀，反而很人性化、很精准。总之产品形态不局限于APP，只要内在逻辑科学合理，一定会存在某些交互方案能够受用户欢迎。

4、语音识别

考虑到成本等因素，将小工具插入到APP中很适合快速打样、试错。这属于近场语音识别，信噪比较高，不过环境中还是难免有噪音。识别的过程大概分这几步：

4.1 降噪

对获取的声波信号做降噪，排除父母对话、物体碰撞、气流等噪音。目前市场上已经有成功监测婴儿哭声的产品，比如小蚁智能摄像机、三星S5手机内置APP等，识别的过程不会困难。还有些相关的专利可以借鉴，网上一搜一大把。

4.2 过滤

对目标婴儿与其他婴儿的信号做区分，这需要采集目标婴儿的数据，并单独创建学习模型。

4.4 特征

从信号中抽取出声学特征让机器去学习，具体就交给神奇的算法团队吧。

5、数据准备

5.1 实例设定

每个实例由2部分组成：【啼哭声】+【结果标识】，监督学习的结果标识是个封闭集合，训练数据类似下图。

5.2 样本标准

声音信号：录音声强＞40分贝，时长为10-15秒，录音中仅包含1名婴儿的哭声。
结果标识：听到哭声后，父母采取行动，采集员按照有效的行动来推测1种哭声原因，记录下来。
有效行动：父母采取行动后，宝宝在1分钟内停止哭闹。或者已找到哭啼原因，需要一段时间解决（例如疾病无法很快治好，医生可以开具诊断证明）。
宝宝年龄：0-6个月

5.3 样本采集

采集区域：宝宝密集区，也就是儿科医院、妇幼保健医院、月子中心、儿童福利院等。
采集人员：尽可能专业，若现场记录错误的标识，后期修正的难度很大。
考虑体验：采集过程人性化，不诱导宝宝啼哭，不影响家属与宝宝的正常生活。
其它参考：台湾的某团队声称成功采集到10万+类似样本，可以借鉴类似的方法或合作。

6、学习模型

我们要在目标集合中准确的预测出分类，采用监督学习。这里不谈训练模型和评估指标，只提两个简单的小问题：

6.1 模型应该输出“哭啼原因”还是“解决方案”？

按通常的思维是用A方案，但直觉告诉我B方案也许可行。B的思路是：先预测新数据的解决方案，再根据符合期望的行动来反推出哭啼的原因。

现实中“啼哭原因”与“解决方案”是多对多的复合因果关系，如果直接取哭声+有效方案来拟合模型，可能最终效果相同甚至更好。

PS：无论A还是B，只是模型设计的问题，最终给到用户的体验是一样的。

6.2 个性化模型

训练集与实际数据有差异，多个婴儿也可能同时啼哭，所以需要给每位婴儿创建个性化模型。家长们每次修正，都是对模型的训练，帮助提升预测的效果。

以上就是本篇浅析的主要内容，抛出一个场景的可能性。可衍生的类似场景也不少，未来科学对声音的研究不会止步于婴儿，宠物、野生动物等都有可能取得进展。也许有一天我们能通过AI翻译机与较聪明的动物交流，比如猩猩、海豚和大象。

写在最后

作者向很多人提过这个idea，感谢朋友们的支持和建议。下笔之前还有点犹豫的，因为作者没带过宝宝，无法切身体会那种感受。后来AI产品大本营团长@黄钊鼓励我尝试写个短篇，我就决定试一试。

这也促使我反复思考一个问题：非科班出身、零AI经验的PM，怎样才能有出路？首先要敢想，这是迈出的第一步！

挖需求、挖场景、挖机会！模拟场景做调研，发现问题找方法，而不是跳到工程师赛道上拼算法。等咱们上了船，在实战中学习理解算法会达到事半功倍的效果。

这是个需要想象力的时代，或许能借助AI搞定过去从未解决的难题。在大数据没出现的年代，谁也想不到啤酒与尿布湿之间隐藏着惊人的秘密。

有太多场景需要我们去发现，限制我们想象力的不是贫穷，而是勇气。

世之奇伟瑰怪非常之观，常在于险远而人之所罕至，非有志者不能至。任何问题都一定有办法解决，我们的任务就是找到它，无论这个概率多么微乎其微！

作者：于长弘，微信公众号：AI小宇宙

本文由 @于长弘原创发布于人人都是产品经理。未经许可，禁止转载。

题图来自unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

于长煦AI洞察

AI，机器人

9篇作品 179868总阅读量

Sam Altman最新透露：OpenAI未来的计划

06-029417 浏览

双十一走向简单化：平台、主播求变，消费者不再“萌圈”

11-032253 浏览

浅析支付场景中的资金流

01-1311400 浏览

深度解析淘宝为何对标拼多多推出“仅退款”功能

12-287695 浏览

谷歌版ChatGPT支持中文了！Bard实测结果在此

07-192181 浏览

旎~

现在识别哭声的技术实现了吗？

最近来自福建回复
DBK

虽然我对AI不是很了解，但是要让AI能够识别出来的一个前提就是给AI结果反馈，然后持续进行训练
现有的情况是，人工都没办法识别出小孩啼哭和需求之间的关联性，自然给的反馈结果的正确性也是存疑的
AI能做的是通过输入和输出自己去积累结果，建立规则

最近来自上海回复
1. 于长煦AI洞察作者回复DBK
  
  其实我这篇，在“科学合理性”一节探讨的就是你说的那个“存疑”，其实人能够识别出一部分，AI能解决的也是一部分。在工程界，一部分就有价值和意义，重要的是整体方案，而不是让AI解决100％的问题😀
  
  最近回复
游所得

不错，不知道准确度如何

最近来自江苏回复
1. 于长煦AI洞察作者回复游所得
  
  需要继续研究，国内好像还没有这个方向的研究论文
  
  最近来自江苏回复
2. 毁灭杰伦街回复于长煦AI洞察
  
  继续研究！加油
  
  最近来自广东回复
3. 于长煦AI洞察作者回复毁灭杰伦街
  
  谢谢支持
  
  最近回复