用AI加强产品设计·识别篇——如何利用文字识别（OCR）、语音识别（ASR）和机器翻译（NMT）提升用户体验

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

用AI加强产品设计·识别篇——如何利用文字识别（OCR）、语音识别（ASR）和机器翻译（NMT）提升用户体验

王也弱

2023-02-12

0 评论 14102 浏览 35 收藏

16 分钟

作为一名产品经理，超自然地满足用户需求，用户体验就会更好。在日常中，大家很难将自己看不懂的文字或者不同APP的一些信息直接转化到这个APP中，这时候使用一点AI是我们的最佳选择。本文带你快速地了解到如何应用AI到你的产品里，希望对你有所帮助。

作为一个产品经理，让我们负责的产品成功的关键在于场景、需求和痛点——越自然地满足用户的需求，用户的体验就会越好。

比如我们看看这几个例子——

在快递、闪送这个场景下，用户的收件人地址信息通常在另外一个App里，想要有时甚至复制和粘贴都做不到。是否能对收件人的姓名、地址这些信息进行截图、识别、智能填写？至少我们需要把这个截图里的文字识别出来。
在旅游的过程中，用户如何快速看懂身边的文字？有时用户不只是看不懂——大概率连输入都做不到（日语的假名、泰语的文字），至少我们要先把它转成文字，然后再进行翻译，对吧？

为了解决这些痛点问题，人工智能（AI）能力很有可能是你最佳的选择，而做一个“懂一点AI”的产品经理很可能在这个新的时代里是PM的必备技能。在这篇博客里，我们会探索三种特定的人工智能功能——图像文本识别(OCR)、语音识别(ASR)和机器翻译——以及如何应用它们来增强我们的产品并为用户提供价值。

当然，值得注意的是，还有很多其它的AI能力，在日后的文章中我们会一一介绍。在这篇博客中，我会只关注这些和文字、识别和快速理解相关的三个能力，而这三个作为整个AI世界里最容易理解的基础能力，能快速地带你了解到如何应用AI到你的产品里。

I. 图像文字识别（OCR）
II. 语音识别 (ASR)
III. 机器翻译
IV. 总结
V. 一些额外的阅读建议

一、图像文字识别 (OCR)

很多人应该都有这样的困扰，比如在逛淘宝的时候，想要去搜索详情页的大图里的文字简直难于上青天，因为图片里的文字是没法复制的。一些不太懂一些“歪门斜道技术”的人也很难破解那些“禁止右键”或“禁止复制”的破网站的限制，拿到想要的文字。有时你也可能需要从截图里获取文字，或者快速扫描手头的文档、电子化课堂里的板书。这些场景正是OCR的用武之地。OCR是Optical Character Recognition（光学字符识别）的缩写，更多的我们会叫它“文字识别”或者“图像文字识别）。在现在的手机App里很容易找到OCR的身影，如微信最近的更新使得你可以在聊天记录中搜索文字，会找到提到这个文字的图片；iOS的实况文本功能可以在输入框中快速录入现实生活中的文字等等。

OCR是一种让计算机能识别和提取图像中的文字的AI技术。它的工作原理（简化到六岁小孩能理解的难度的话）可以认为是AI通过研究各种图片里文字的形状和模式，学会了在图片里“找文字”并把每个文字与已知的字符去匹配，最后告诉你“字在哪”和“这些字是什么”的技术（当然这个解释非常地不科学，你就将就看吧）。有了这个技术，再加上一些非常简单的交互和UI就可以做到根据需要去编辑、搜索或存储你提取的文本了。

如引入部分提到的，OCR的一个常见用例是在快递行业。在填写收件人信息时，用户通常会截取表单的截图并提取文本以便快速填写。OCR使这个过程更快更有效，因为用户不必手动输入所有的信息。而且在截图场景下，像手机号的识别准确率会非常非常高。

OCR还可用于各种其他行业，如医疗保健、金融和教育。例如，OCR可用于从医疗记录、财务文档和学生成绩单中提取和组织信息。在一些特殊的模版下,OCR能力结合一些图像处理的技术,也可以把一些固定格式的内容快速提取出来,形成结构化的信息并录入到数据库中;当结合一些自然语言处理(NLP)技术时,也可以做到一些非结构化的信息提取。

然而，在使用OCR时还是会有一些需要考虑的问题的。其中一个挑战是，你想让OCR识别得准，你的图片就得很高清优质。如果图像模糊或扭曲，OCR可能就没办法很准确地识别了。有一个比较容易理解的评估方式就是，如果人能轻松认出这个字是什么，机器的准确率通常会很高；但如果人需要费很大的劲，甚至需要结合上下文去猜测，那么机器一般就不是很能准确地进行识别。

另外，像一些潦草的手写，用通用的OCR有时也会识别困难。当然，通用的AI能力在特殊的场景下，一般比不过对这个场景做专门优化的能力。比如在有道智云这个AI开放平台里，通用文字识别、手写文字识别和公式识别是三个不同的接口。比如在教育场景下的公式识别，可以识别出LaTeX格式的公式，让在客户端渲染公式时更轻松容易。在我们的产品中如果有相应的场景，可以去接入试试看。

二、语音识别 (ASR)

语音识别，或者说ASR（Automatic Speech Recognition，自动语音识别），则是让计算机听懂“语音”的技术。它能将语音转换为文本，使用户无需打字就能更方便地输入信息或发出命令。

ASR通常用于智能语音助手，如Siri和小爱同学，以及各种叫“转录”或“听写”的软件。还是拿微信举例子，微信的语音转文字就是一个非常典型的ASR能力的例子，没有它你可能每天都被（你讨厌的）某些朋友进行60s轰炸。其它的例子比如如语音输入法、语音导航等等。它还可以用于各种行业，包括客户服务、教育、音视频行业等等。

例如，在客户服务行业，ASR可用于创建交互式语音应答(IVR)系统，让用户可以用语音就和“外呼机器人”对线。当然更早期还没有现在这么智能的机器人，早期其实是做一些简单的“回答”就可以让用户找到他们需要的信息，有效减少了（某些公司——合理怀疑——根本就不存在的）人工客服。在教育行业，ASR应用还是很广泛的，比如在线课程的字幕识别、学生的课文背诵和语音问答等等。最新的B站也终于加了“字幕自动识别”，结合后文的机器翻译就可以快速理解原本不懂的外文影片了。

在产品里集成ASR的好处可太多了。主要的原因其实就是它能解放双手，不需要再去打字，这样无论是输入速度还是精确性都会提高不少，产品的可用性也会有提升。

和所有其它AI能力一样，在使用语音识别能力的时候，要特别注意使用场景，同时也会搭配一些额外的能力使用。如实时交流的过程中，需要加入VAD能力来判断用户的一段话是否已经说完（在有道智云这些能力都已经集成进了接口中），同时对时延的要求非常高，通常要求时延在200ms以内。相对的，在长语音文件转写的场景里，用户等待的时间就可以适当放宽，在产品设计上可以批量提交后系统转写再通知用户完成（异步处理）。一般来说，一个商用的ASR系统的加速比一般是在1:30、1:50甚至更高，即半小时的音频，在一分钟就可以转写完毕，大家可以在产品设计的过程中参考这一数字。

然而，在使用ASR时也有一些问题需要考虑。其中一个挑战是，这项技术可能并不总是能准确识别不同的口音或方言。此外，背景噪声会干扰ASR过程的准确性。当然，和OCR一样，如有道智云这种面向开发者的AI平台一方面会充分考虑通用性，在系统内部进行了对噪声的处理，同时兼容不同的方言和口音，有必要的时候还可以考虑通过声纹识别等新的技术进行优化，另一方面如果有特殊的需求（如对某种特定方言的准确识别），也可以和他们的商务联系来获得更积极的支持和优化。

三、机器翻译

机器翻译是一种让计算机将文本内容从一种语言转换成另一种语言的技术。它可以用来实时翻译网站、文档，甚至是对话。

机器翻译适用于各种行业和场合。例如，在社交相关的产品上，跨语种的交流总是会有语言障碍。加入了机器翻译后，跨语种的交流就成为了可能。同时像产品描述或客户服务查询这种官方提供的文档，也可以在低成本的条件下可以轻易拓展更多国家的用户群。同时，翻译能力可以让我们的产品更容易为说不同语言的人所接受，从而使我们能够接触到更广泛的受众，也可以提高沟通的效率和信息传递的速度。

和上文我们提到的OCR、ASR能力结合在一起，会起到更奇妙的化学反应。

当输入是图片时，可以进行图片翻译，这种翻译方式除了结合了OCR、机器翻译外，还使用了多种新技术（如对抗生成网络、篇章语义理解等等），使得不仅能让用户快速理解图片中的文字，甚至可以把文字直接绘制在背景上，就好像原本照片上就是目标语种的文字一样，这样能大大降低用户的理解难度。

而当输入是语音时，又有一些新的玩法。比如可以实时地进行会议场景下的字幕翻译，还可以和一些其它的语音技术相融合。比如可以直接把翻译后的内容读出来（TTS技术），甚至可以用你自己的声音读出来（声音复刻的PR稿，链接）。

当输入是PDF这类文档时，由于文档有可能是图片格式、有可能是文字格式，需要配合针对性的解析服务（pdf转word）来使用。有道智云也提供了“文档翻译”这样的能力（可以公有云接入，也可以私有化部署），直接上传pdf、excel、ppt等格式的文档，就可以下载对应的译文。

然而，在使用机器翻译时，也有一些需要考虑的问题。翻译的质量不一定在任何情况下都很好，特别是对于那些更复杂或有很多习语和文化参考的语言。在这种情况下，有可能需要一些术语库（链接）甚至是专业领域模型的支持。比如有道智云提供了医学、金融、计算机等多个领域的专有领域模型。此外，机器翻译过程有时会改变原文的语气或意图。比如日语中的敬体、敬语，在和中文互译时，受限于语言本身的差异，有时就会丢失掉原本听话人的感受（比如中文很难表述出日本人花样繁多的敬语之间的细微差异）。当然，随着技术的发展，这些问题也在慢慢地解决中

四、总结

在这篇博客文章中，我们探讨了如何将图像文本识别（OCR）、语音识别（ASR）和机器翻译应用于识别信息并为不同行业的用户解决他们的痛点。作为产品经理，重要的是在了解这些AI能力之后，考虑这些技术如何提高产品的价值和吸引力。有了像有道智云（链接）这样的AI开放平台，将这些AI功能集成到产品中是很容易的。他们提供了所需的基础设施和算法，因此你就可以专注于改善用户体验并为客户解决挑战。

如果你有兴趣将这些AI功能集成到你的产品中，接下来你可以采取以下几个步骤：