QQ看点日报内容优化——基于BERT的热点召回系统

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

QQ看点日报内容优化——基于BERT的热点召回系统

腾讯大讲堂

2019-12-12

1 评论 10523 浏览 41 收藏

14 分钟

基于BERT搭建了看点日报热点召回系统，大大提升了看点日报热点内容量等核心指标，本文将会详解看点日报热点召回系统的总体框架及核心方法。

一、业务背景

看点日报旨在为用户提供新热、优质的文章，对热点事件及文章的及时捕捉有着非常强的需求，从海量文章中人工发现热点文章无疑是巨大的运营成本，所以自动发掘热点文章是必要的需求。

而发掘热点事件的时效性、热点事件的覆盖度、文章聚合成事件的效果、热点事件召回文章的召准率、热点文章的质量等是热点召回系统的核心指标。

我们通过高频实时爬取大量互联网数据，以及基于BERT模型进行热点事件聚类及文章标题匹配等方式，有效提升我们热点文章召回系统的各项核心指标。

在热点文章召回量方面，每天召回热点文章的数量从1K+上升到1W+。每天看点内被启用的文章数量为8W左右，其中有超过10%的文章会被我们的热点系统召回作为热点文章。
在召准情况方面，在找最match标题的测试中，我们基于BERT模型准确率高达98.4%，能召回看点中被启用文章的热点事件比例也高达93.5%。

二、Why BERT？

在应用BERT之前，我们实现了一版BiLSTM-DSSM的模型，但由于准确率不够高被弃用。

在找最match的标题测试中，BERT与BiLSTM-DSSM的效果对比如下：

QQ看点日报内容优化——基于BERT的热点召回系统

BERT的原理在网上已经有很多详细的资料，这里就不再重复，本小节简单描述BERT有哪些强大的优势使它能比LSTM等其它模型强大。

优势1

BERT采用pre-train+fine-turning的训练模式，基于超大量语料进行pre-train，在pre-train过程BERT已经能学好单词、句法、语义等特征，具体任务只需用较少量的数据进行fine-truning。

像我们的任务需要标注语料进行训练，提供超大量的标注数据是难以实现的，而使用BERT则能以较少量的标注数据完成好我们的训练任务。

优势2

BERT是双向语言模型，拥有上下文信息。相比GPT（单向语言模型）和ELMO（粗暴的双向语言模型，前向和后向简单相加），BERT有得天独厚的优势。

QQ看点日报内容优化——基于BERT的热点召回系统

优势3

BERT采用Transformer作为特征提取器，在Transformer诞生之前，RNN占据着NLP领域的主导地位。而相比RNN系列的特征提取器，Transformer具有两点优势：RNN不可并行，BERT可并行；RNN很难捕捉长序列的依赖关系，Transformer可以。

RNN结构如下，从h[t-1]到h[t]经过激活函数，变化极大，在距离较远的传递过程会产生梯度消失和梯度爆炸。

QQ看点日报内容优化——基于BERT的热点召回系统

为了解决这一问题，又提出LSTM等RNN的变种，其结构如下。

从下面公式中可以看出，细胞状态从C[t-1]到C[t]只经过线性的变化，不会马上有很大的变化。但当C[x]与C[y]相距很远时，C[x]与C[y]也很可能变得完全不相关，C[x]的变化可能不会对C[y]有太大影响，从而丢失很远的信息。

QQ看点日报内容优化——基于BERT的热点召回系统

而Transformer每个位置都公平地相互做self attention，self attention中任意位置之间进行比较，长度都只有1，因此无论序列多长都不会出现信息丢失的现象。

QQ看点日报内容优化——基于BERT的热点召回系统

基于self attention的Transformer是更强的序列特征提取器，self attention=探索序列内部的关系，对每个位置提取q、k、v向量，通过Attention公式计算当前位置对其他位置的关注程度。

QQ看点日报内容优化——基于BERT的热点召回系统

三、模型训练

keyterm-aware masking

我们的BERT模型是12层Transformer的中文字模型，为了能更好适应业务数据，我们先以看点内的标题和爬取的新闻标题数据让BERT模型进行自监督学习。

具体做法是mask一些词语并让bert预测，一些如流量明星、游戏、动漫等看点中高频出现的tag，会以更大的概率被mask掉。先基于业务语料的自监督学习让BERT更熟悉业务数据，再进行语义匹配的fine-turning。

fine-turning

BERT针对语义匹配问题，最常见的网络结构如下图所示，直接输入句子pair，判断pair中的两个句子是否匹配。

QQ看点日报内容优化——基于BERT的热点召回系统

但这种网络结构不利于我们的业务使用，因为每新发现一个热点事件话题，就得用此话题与所有的文章标题组成标题pair再输入到BERT里预测是否属于同一个事件。

看点内一天被启用的文章量在8w左右，这无疑需要很长的时间去计算，会严重影响热点文章的时效性。为了提高性能，我们采用了DSSM（深度语义匹配模型）的网络结构，如下图所示，DSSM的表示层为BERT模型。

QQ看点日报内容优化——基于BERT的热点召回系统

这种DSSM网络结构的优势在于，BERT可将单个标题进行向量化处理，而不是处理标题pair。这样我们能预先计算BERT标题向量并存储到内存数据库，线上文章召回时可直接读取BERT标题向量进行匹配。

四、数据构造

难点

需要标注数据规模大，且标注难度大
训练数据需要切合业务，同时保证多样性

第一期训练数据：自动构建数据集+公开数据集

标注数据问题是NLP模型训练的一个难题，对我们的任务来说也是非常难解决的问题。

我们的模型训练需要大量标注数据，需标注标题pair是否同属于一个事件。大规模数据进行人工标注的难度非常的大，成本极高，所以在第一期的训练数据中我们应用自动构建数据集的方法。

我们自动构建的数据格式为‘title1 tiltle2’的标题pair，title1是互联网上爬取回来的标题，title2是看点中的文章标题，所有标题pair都是正样本。训练时采用多分类的方法，当前标题pair作为正样本，当前title1与其余标题pair中随机找255个title2组成255个标题pair作为负样本。

训练数据采用关键词匹配的方式自动产生，具体产生方法如下：