用“斗渣男”的方法,与低质内容做斗争

1 评论 2760 浏览 14 收藏 14 分钟

编辑导读:对于内容产品来说,内容审核是必不可少的环节之一,特别是针对低质内容的筛选和删改更是劳心劳神。如何快速有效识别低质内容,营造平台良好生态?本文作者以“斗渣男”的例子,对此展开了分析说明,一起来看看~

直击灵魂一问:你遇到过渣男吗?

直击灵魂二问:你被渣过吗?

直击灵魂三问:你被渣过后,怎样反击?

要是没有,这篇文章就到这儿结束了?

不!结束不了!

现在没遇到,可以看看渣男的套路,防患于未然。

反渣男套路四部曲:

  • 第一步:发现—透过蛛丝马迹,发现存疑迹象
  • 第二步:分析—寻找证据,证明他的身份
  • 第三步:识别—利用确凿证据,坐实渣男身份
  • 第四步:反击—多种手段齐上阵,绝地反击

净化生态,打击低质内容,同样适用四部曲:

  • 第一步:发现—透过蛛丝马迹,发现疑似低质
  • 第二步:分析—寻找证据,证明它是低质内容
  • 第三步:识别—利用模型、人工,精准识别低质
  • 第四步:反击—降权、过滤等手段齐上阵,绝地反击

一、透过蛛丝马迹,寻找证据,揪住低质内容

我们都知道,世上渣男千千万,普遍性中都带有独特性,先来看看常见的有哪些?那些不常见的,可以通过什么方法来发现?

最常见的就是徒有外表,没有内涵,利用精致外表来迷惑人心,让你放下戒备,彻底沦陷。

另外就是花言巧语,利用人性的弱点,让你放下戒备,彻底沦陷。

看到这里,也许你会反问!

  • 只要外表光鲜,就是渣男吗?
  • 只要花言巧语,就是渣男吗?
  • ……

其实不然,这些只是列举的存疑迹象,当出现这些迹象后,我们需要小心啦,进一步搜集证据,进行综合分析。

  1. 试探他对你的各种表达,是否忽冷忽热?是否行为异常?
  2. 看他是否向你坦白过往的历史,日常所做的事,是否有所隐瞒?
  3. 看他是否会把你介绍他的朋友,是否允许你进入他的世界,承认你的存在?
  4. 走访他的周边朋友,听最“真实的反馈”

当然,要是有最直接的证据,就不用费力去做这些了。

比如《三十而已》中,顾佳似乎已经通过许幻山的异常行为发现了端倪,始终没有直接证据。直到通过林有有身上的饰品,以及闺蜜拍的照片等直接证据,才坐实了许幻山出轨的事实。

……

当把这些渣男特征投射到内容上,分别对应着标题党与低俗色情内容等,这类内容利用各类吸引眼球的关键字,夸大其词,刺激用户点击欲望。利用人性的弱点,刺激荷尔蒙分泌,刺激用户点击的欲望。

低质内容特征除了这些之外,还有很多很多,随着自媒体的发展,自媒体创作者发挥着无穷无尽的“聪明才智”获取流量。

对于可枚举低质内容,按照不同内容体裁可有以下枚举值:

对于不可枚举低质内容,没法通过模型或者人工立马将其干掉,但可通过一些蛛丝马迹,将其揪出重点监控与分析。

1. 用户反馈-最真实的声音

内容类产品都有设置用户反馈渠道,除了固定反馈选项,用户也可主动填写意见建议,那么应该怎样用好这些资源?

A)搭建数据监控报表,针对每一类负反馈选项,整体负反馈投诉等,监测小时级、天级的用户反馈趋势变化,定期进行分析。建立报警机制,当某类投诉超出一定阈值(比如xx小时内投诉内容猛增xxx+),发出报警信息,重点排查监控。

B)定期分析用户主动填写的意见反馈,除了人工一条条查阅总结,也可通过python切词进行词频分析,统计用户负向反馈集中于哪些方向。笔者拉出了所在公司一定时间周期内用户负反馈数据,用python切词处理得到如下结果:

通过词频统计发现,用户反馈比较高频的词语基本没什么实际意义,但也不乏“胡说八道”“废话”等反应用户情绪的词语,再联系情景语境与被反馈的文章内容,也可总结出一批低质内容特征(慢工出细活,这里需要很强的总结归纳能力)。

附上python切词代码,墙裂推荐超好用的一款工具-VS code。

import jieba

txt=open(“d:\负反馈内容.txt”,”r”,encoding=’utf-8′).read()

words=jieba.lcut(txt)

counts={}

forwordinwords:

iflen(word)==1:

continue

else:

counts[word]=counts.get(word,0)+1

items=list(counts.items())

items.sort(key=lambdax:x[1],reverse=True)

foriinrange(1000):

word,count=items[i]

print(“{0:<5}{1:>5}”.format(word,count))

2. 审核当好把门关

随着自媒体时代到来,人人都是发声者,每日海量内容涌入各大平台,内容安全变得越来越重要。机器模型无法做到100%准确识别,人工的力量变的愈发重要。

众所周知,审核同学会在审核时为内容打标(主要针对既有的枚举低质内容标签),业界常规做法是利用机器模型辅助人审,提升审核效率。

无法枚举的低质内容,该怎样发现,监控爆发增长趋势?

此刻,搭建一套监控机制体系显得尤为重要!

第一步:审核工具增加“疑似低质”tag选项,标识没有被既有低质标签覆盖的内容。

注意点:加强审核人员培训,包括内容审核标准培训(了解实际工作,提升专业能力)、业务培训(拓展知识边界,加深业务理解)等,只有审核同学更了解业务,才能在审核打标时理解更透彻。

第二步:建立监控报表,针对每一类既有低质内容,疑似低质内容等,监测这些标签内容在不同类目、不同时段的数量变化趋势,对于一定周期内爆发式增长、某个类目爆发式增长的低质内容,重点监控与排查分析。

第三步:定期分析疑似低质内容,从中总结归纳新的低质内容,建立模型标准,推进样本标注与模型训练,输出满足上线要求的内容质量模型,辅助人审或者应用线上。

二、精准识别低质内容,绝地反击

我们透过蛛丝马迹,发现了渣男的可疑迹象,通过各种方法搜集到证据,怎样让他现出原形?

  • 当面对质
  • 将他说的假话念给他听
  • 将隐瞒的种种事实说给他听
  • 将朋友的真实反馈说给他听
  • 将最直接的证据扔他脸上
  • ……

如果

渣男,鉴定无疑,怎么处理?

当然,一脚把它踢开呀!

那么,通过模型、人审精准识别的低质内容,应该怎样处理?

想要回答这个问题,首先我们来看看推荐系统怎样运转。

推荐系统大致分为5个环节:推荐内容候选池(正排)→召回→粗排→精排→机制策略

  1. 推荐内容候选池:从内容库中通过一定过滤条件,筛选可用内容。
  2. 召回:从推荐内容候选池中,通过一定规则(内容特征特征、模型、功能等)找到对应内容。
  3. 粗排:针对各路召回内容,利用用户特征、内容特征、环境特征、交叉特征等进行粗粒度排序。
  4. 精排:再次利用精细化特征信息,利用cyr预估等模型,为内容打分排序,产生一个用户的待推荐内容列表。
  5. 机制策略:使用各种机制策略(打散、去重、提权、过滤等)得到用户最终推荐内容列表。

由此来看,处理低质内容可作用于召回、机制策略等环节。

1. 作用于召回-召回过滤

适用范围:严重影响用户阅读体验的强低质内容,比如视频无声音、模糊、音画不同步等。

实现形式:直接将命中的tag内容过滤掉,不会进入排序环节。

2. 作用于机制策略-推荐降权

适用范围:不严重影响用户阅读体验,比如标题党、低俗等内容。

实现形式:

1)机制策略侧加上降权逻辑,降低此类内容在推荐列表排序,从而减小曝光量。

注意点:对于标题党、低俗等内容打压,势必会对大盘数据造成影响,因此需要AB实验验证打压策略的实际效果。

  1. AB实验随机分桶,进行小流量实验
  2. 关注核心数据指标:人均人均点击、人均阅读时长、次日留存、3日留存等。
  3. 若实验收益负向,观察核心指标浮动区间是否稳定,找到平衡点,再上报领导层,对于实验的负向收益区间是否可接受。若可接受,可分阶段扩大流量上线。若不可接受,需要调整策略(建立低质内容分档分级,由严重到一般分级打压,给用户适应周期)。

2)搭建一套生态净化平台工具,灵活管控内容生态

生态净化工具可大致分为三个模块:模型内容特征参数配置→净化过滤任务配置→生效范围配置

  1. 模型内容特征参数配置:可实现对不同模型内容特征设定阈值,卡档分级,根据模型迭代优化效果,灵活调整参数配置。可支持随时增添新模型内容特征配置。
  2. 净化过滤任务配置:针对图文/视频/小视频等不同体裁分别配置过滤任务,可从一二级分类、标题关键字、内容属性特征(模型特征+人审标签)等维度进行配置。可支持随时添加新模型特征与人审标签。
  3. 生效范围配置:针对配置好的净化过滤任务,再次配置生效范围,可从用户性别与年龄,地域、手机型号与系统、bucket(流量分桶)等进行生效用户圈定。可支持随时添加新的特征字段。

通过生态净化工具,灵活管控,在重大节日、特殊时期等节点,可实现快速、灵活响应。

渣男千千万,永远斗不完。

低质内容万万种,永远打不完。

对待渣男,要擦亮双眼,不要沉迷!

对待低质内容,要擦亮双眼,不放过一个!

这场战役,将是场持久战!

 

本文由 @珂然 原创发布于人人都是产品经理,未经许可,禁止转载

题图来自 Unsplash,基于 CC0 协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 确实是个持久战,敌进我退,敌驻我扰,敌疲我打,敌退我追。

    回复