AI与产品| NLP技术及其在百度APP中的应用

0 评论 3077 浏览 36 收藏 16 分钟

编辑导语:NLP的技术应用十分广泛,应用的场景也十分广泛。本篇文章作者分享了NLP的四大经典任务——文本分类、文本匹配、序列标注和文本生成,介绍了这几个任务以及相关的业务,感兴趣的一起来看看吧。

百度文心(ERNIE)是大规模语义理解技术与平台,依托百度深度学习平台飞桨打造,集先进的预训练模型、全面的NLP算法集、端到端开发套件和平台化服务于一体,提供一站式NLP开发与服务,让开发者更简单、高效地定制企业级文本模型。

通过百度文心的NLP技术,现在的百度APP不仅是搜索引擎,还有各种生活化服务以及智能应用场景。

一、NLP及其任务介绍

要走进百度,我们先来了解一下NLP是什么?

NLP是Natural Language Processing的缩写,中文意思是自然语言处理,是人工智能和语言学领域的分支学科。

此领域探讨如何处理及运用自然语言;自然语言处理包括多方面和步骤,基本有认知、理解、生成等部分。

通俗点理解,NLP就是让机器理解自然语言(人类的文字),然后让机器处理,并进行运用。

NLP应用非常广泛,例如搜索引擎,机器翻译,各种输入法如搜狗、微软、谷歌等以及带有语音识别的计算机和手机。

NLP有四大经典任务,文本分类、文本匹配、序列标注和文本生成。接下来我来为您一一介绍这几个任务及其相关应用:

1. 文本分类

文本分类是指用计算机对文本(或其他实体)按照一定的分类体系或标准进行自动分类标记。为了方便理解,我们用下面的方式介绍:

  • 输入用文本X表示,输出标签用Y表示
  • 如果Y表示X属于某一个类别的概率,或者一组类别的概率分布,则可抽象成文本分类问题。

如上图是文本分类的几种应用案例。文本分类可以分为单标签分类、多标签分类和句对分类。

在情感分析的例子里,我们要判断一句话是消极的还是积极的,比如评价一个房子“房间太小,其他的都一般”,它要么属于消极要么属于积极,是一种二分类,也叫单标签分类。

还有一类问题是新闻主题分类,比如说“中美元首就经贸关系通话“,这个新闻标题同时属于时政、国际和财经三个类别,这三个类别是相互独立的,可以同时出现,所以是多标签分类。

还有一类是文本蕴含,它输入的不是一段文本而是两段文本,要判断两段文本之间是否存在逻辑上的包含关系,是相关关系、对立关系还是说中立的,没有任何关系。比如”大家觉得她好看吗“和”大家觉得跑男好看吗“这两句话就是中立的,没有任何关系。

2. 文本匹配

  • 输入文本用X表示,输出标签用Y表示
  • 如果X是两段文本(X1,X2), Y表示二者的相似度,则可抽象为文本匹配问题。

如图两句话“喜欢打篮球的男生喜欢什么样的女生”和“爱打篮球的男生喜欢什么样的女生”这两句话基本意思是一样的,所以是相似的,标签Y为1。

若不相似,则为0。或者有一定的相似度,则在0-1之间打一个分。

文本聚类问题可以通过文本相似度问题进行处理。而相似度是两个文本之间语义层面距离的远近。

3. 序列标注

  • 输入文本用X表示,输出标签用Y表示;
  • 如果X是一段文本, Y是一段与X等长的文本, 且X与Y的每个字符一一对应,可抽象为序列标注问题。

序列标注的一个经典任务是命名实体识别。比如“海钓比赛地点在厦门与金门之间的海域”这句话,我们抽出两个实体,厦门和金门,这两个实体都是地址,我们就可以将其标注为地址,而其他词语标注为非地址,用O表示。

分词、词性标注、组块分析、语义角色标注、词槽挖掘都是典型的序列标注任务。

相信大家都做过阅读理解,阅读理解其实就可以理解为特殊的序列标注,X是2段文本(X1,X2),分别表示正文篇章和问题,Y是篇章中的一小段文本,表示对应问题的答案。

4. 文本生成

  • 输入文本用X表示,输出标签用Y表示;
  • 如果X是一段文本,Y是一段不定长的文本,则可抽象为文本生成问题。

最典型的文本生成问题是机器翻译。如图例,我输入的是一段英文,输出的是一段其他语言的文字,这两段文字的语言和词可能不是那么一一对应的,可能原语句宾语在前谓语在后,后面那段目标语句可能是宾语在后谓语在前。

文本摘要、标题生成、闲聊等都是典型的文本生成任务。

二、NLP应用

NLP典型应用场景有新闻咨询推荐、商品评价分析、智能客服对话、社交言论分析、金融风险洞察等,业务的需求千差万别,所以场景的需求都是定制化的需求。

企业级NLP应用要着重考虑三个指标,效率、效果和效能。

  • 第一是效率,效率指的是开发的效率,如人力成本、时间成本等,人效要越高越好。
  • 第二是模型的效果,这是定制化需求里最关注的指标,有时候甚至会不计成本一定要拿到最好的效果,因为有时候模型效果高一两个点就可能对公司或者集团带来巨大的收益。这样就需要进行高精度标注数据以及专家级的经验。
  • 第三是效能,这是一个更加宏观的点,它关注的是应用部署上的灵活,应用为整体业务带来的价值。它关注的是从产品和用户的角度来说带来的收益。

三、百度文心(ERNIE)

ERNIE是百度开创性提出的基于知识增强的持续学习语义理解框架,该框架将大数据预训练与多源丰富知识相结合,通过持续学习技术,不断吸收海量文本数据中词汇、结构、语义等方面的知识,实现模型效果不断进化。

ERNIE在情感分析、文本匹配、自然语言推理、词法分析、阅读理解、智能问答等16个公开数据集上全面显著超越世界领先技术,在国际权威的通用语言理解评估基准GLUE上,得分首次突破90分,获得全球第一。

1. ERNIRE2.0(持续学习语义理解框架)

ERNIRE2.0是基于持续学习的语义理解预训练框架,使用多任务学习增量式构建预训练任务。在ERNIE2.0中,新构建的预训练任务类型可以无缝的加入训练框架,持续的进行语义理解学习。 通过新增的实体预测、句子因果关系判断、文章句子结构重建等语义任务,ERNIE 2.0 语义理解预训练模型从训练数据中获取了词法、句法、语义等多个维度的自然语言信息,极大地增强了通用语义表示能力。

ERNIE2.0的优点就在于持续学习,不断的基于海量的数据以及先验的知识集成到ERNIE模型中,不断的在不同任务中训练来提升模型的效果,而且还不会忘记。

在多任务学习或者持续学习中,模型特别容易发生灾难性遗忘。在一个场景下训练好了模型,在另一个模型下效果可能就不好了。甚至本来原来场景下效果比较好的模型,在新的场景下训练后,再去之前的场景下得到的效果是灾难性下降的。所以就需要多任务学习、持续性学习,使得模型有非常好的泛化能力和通用效果。

2. ERNIE 3.0 (基于知识增强的多范式统一预训练框架)

ERNIE3.0是基于知识增强的多范式统一预训练框架。

在 ERNIE 3.0 中,自回归和自编码网络被创新型地融合在一起进行预训练,其中自编码网络采用 ERNIE 2.0 的多任务学习增量式构建预训练任务,持续的进行语义理解学习。

通过新增的实体预测、句子因果关系判断、文章句子结构重建等语义任务。

同时,自编码网络创新性地增加了知识增强的预训练任务。自回归网络基于 Tranformer-XL 结构,支持长文本语言模型建模。

多范式的统一预训练模式使得 ERNIE 3.0 能够在理解任务、生成任务和零样本学习任务上获取 SOTA 的表现。

ERNIE2.0的优点就在于基于同一个网络进行多种自然语言处理学习范式的统一学习,以及加入了大规模知识图谱类数据。

四、百度文心NLP技术在百度APP中的应用

百度文心NLP大模型体系涵盖基础大模型、任务大模型和行业大模型。

百度文心的基础大模型,包括词向量、句子理解、文章理解这些基础技术,另外还提供多模态、多语言、图理解的拓展技术。

第二类是任务大模型,如文本匹配场景、文本生成场景等,这些是跟任务跟应用相关的预训练模型。

第三类是行业大模型,包括ERNIE健康、ERNIE金融等等。

在预训练模型探索好之后,文心会有一些轻量化技术帮助进行模型压缩、结构化搜索和模型蒸馏。使得原来非常大的、非常重的模型变成轻量级模型,从而更好的应用于生产实践。

使用百度文心NLP技术可以为产品赋能。比如百度的搜索引擎,新闻咨询推荐,人工智能客服,以及百度健康,百度律师等等都用到了百度文心的NLP技术。

1. 百度搜索引擎

今天的用户完全可以直接输入任何想到的需求或者问题,甚至直接通过话筒向百度语音助手提问。

譬如用户可以搜“天气”、“日历”、“机票”、“汇率”这样的模糊需求,百度会直接在搜索结果呈现结果。

2. 百度新闻

通过文本分类技术,可以将新闻进行分类显示;通过新闻摘要技术,可以准确的为针对待发布的新闻进行摘要,从而提高传统人工提炼摘要的效率。

3. 百度问答

当我们在百度中搜索“花生发芽了还能吃吗”,得到的答案已不再是互联网上五花八门的原始网页答案,而是让人一目了然的汇总式答案摘要。

除了这样的“一问一答”,用户还可以与百度对话,问它一个又一个问题,NLP最终可以让用户使用自然语言进行搜索,并且采用多轮交互的方式来逐步澄清和满足需求,从而完成深度决策型的搜索任务。

4. 百度健康

依托百度文心 ERNIE 先进的知识增强预训练语言模型打造,通过医疗知识增强技术进一步学习海量的医疗数据,精准地掌握了专业的医学知识。

同时,通过医疗问答匹配任务学习病患病状描述与医生专业治疗方案的对应关系,获得医疗实体知识之间的内在联系。

实现智能诊疗对话模型,智能分析预诊导诊,通过AI学习构建适合临床辅助诊断的体验流程,深度将筛查、自测、诊断等多环节嵌入到诊疗流程中,自然、及时、流畅的应答患者提问,极大的提升了诊疗效率。

五、小结

技术是百度的基因,技术和数据积累形成的用户、产品和品牌优势是百度的护城河。

NLP则是百度技术的基石,它赋予了百度技术“智能化”的基因,在过去智能化的搜索让百度越来越好用为其在中文搜索市场奠定了王者地位。

在未来智能化连接用户与服务成为百度与阿里腾讯等巨头最大的区隔时,NLP技术只会更加重要。

因此毫不夸张地说,NLP就是百度的技术基石。

 

本文由 @灼华一品 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自 Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!