内容审核基础:审核方式、流程与审核维度

32 评论 49301 浏览 334 收藏 11 分钟

对于资讯类产品和内容内产品来说,内容审核是必不可少的环节之一。借助人工智能的发展,可以让机器替代一部分审核工作,但由于内容的复杂性,人工审核必不可少,而且还有其他需要考虑的点。这篇文章,作者为我们讲解内容审核的方式与流程,希望能对你有所帮助。

何为内容审核?

简单来说就是:对用户在社交平台上上传、发布或共享的内容(文字,图片,音频,视频)进行审查。

其主要目的是对低质庸俗的内容进行过滤筛选,从而生产高质量的内容、防止降低用户体验、保持良好的内容调性。

而在这个过程中,平台会对于内容有一个专业的标准作为参考,这个时候有一个很大的问题就是人工筛选效率低,而且成本大。

所以很多内容平台采用了算法进行过滤,通过人工和算法的有效结合来提升效率。

经过过滤后的内容基本上能保证无害,即使质量不高,但也不存在风险问题。这时企业就会面对选择是先发后审还是先审后发:

  • “先发后审”:即用户先发表UGC内容,再经过审核;
  • “先审后发”:即用户提交UGC内容后,先经过审核,审核通过后才能发表上线。

“先发后审”和“先审后发”的适用场景:

  • “先发后审”:适用于对发表内容时效性要求较高的场景,如阅读、听歌等场景下的用户评论,此时用户发表评论更多出于即兴,因此从用户的角度考虑,希望自己发表的评论能够马上看到成功、有效。比如:网易云音乐评论。
  • “先审后发”:适用于在社区、论坛、新闻平台等场景下发表文章、观点、讨论等,此时对于平台方来说需要对内容负责、并构建权威性,因此通常要审核后才能发表。比如:抖音、人人都是产品经理。

一、审核方式

不管是什么内容的审核,都应该包含以下四个基础模块:机器审核、人工审核、用户投诉审核、结果复审。

1. 机器审核

是按照制定好的规则或机器学习算法对内容进行审核.

通常,成熟的审核系统能将95%甚至99%以上的内容都自动审核并做出处理。确定有问题的会被自动删除,难以判断是否有问题的会被标注,进入人工审核程序。

2. 人工审核

虽然用户投诉审核和结果复审大多时候也是人工审核,但这里所说的人工审核,特指审核机器无法判别的内容,通常占平台内容数量的比例不超过5%.

但对于一些大型的内容平台,绝对数量已经很多了。在内容爆炸的时代,我们看到许多平台在全国都有多个审核中心,每个审核中心的员工数量都成千甚至上万。

3. 用户投诉审核

是前两者的弥补,有很多违规内容以前没有出现过;所以不在规则可以过滤的范围内,或者非常隐蔽,规则难以严格过滤。

用户的投诉是发现新问题的重要渠道。通过知乎的危机事件,我们更应该重视对投诉的审核,并及时据此对机器审核做出补充。

4. 结果复审

通常采取抽查方式,比如通过复审机器删除的内容,看规则或算法是否过于严格;比如通过查看人工删除和通过的内容,看员工的工作是否按要求执行;比如通过内容的整体巡查,看是否存在新的问题未被注意到。

二、审核流程

具体流程,以下图为例:

  1. 先过机器审核,机器审核 通过 或 不通过;
  2. 对机器审核不通过的,再进行人工复审;
  3. 对机器审核通过的,再进行人工抽样审核。

三、审核的四个维度

这里一般都是对四个维度进行审核,关键字审核,用户发布次数限制,重复内容过滤和白/黑名单用户。

1. 关键词审核

词语过滤的环节,关键词主要分为三类:

1)禁止关键词

只要匹配到这个词,内容就被自动删除或禁止提交。通常只有极少数词会被纳入禁止关键词,比如明确的色情、邪教以及广告的专属关键词。

2)审核关键词

这是最常见的关键词种类,只要匹配到就会自动进入后台进行审核,文章中的关键词会被高亮并罗列出来,有助于审核人员快速判断。审核关键词也应该尽量是专属关键词,以防止太多内容被拦截到后台。

3)替换关键词

在许多平台,我们会在文中看到莫名的号或字母缩写*,这可能不是文章作者写的,而是这个词被系统自动替换。平台不希望出现这个关键词,但用别的代替读者通常也能读懂。比如一些政治、宗教、不文明用语类词语,都有可能被自动替换。

当然,管理员在添加关键词时,很多时候并不是直接把关键词添加到后台。否则用户用很简单的方式就可以避过关键词过滤,比如在关键词内加一个空格,系统就难以匹配到。

所以,一般后台都会支持限定符{x} 以限定相邻两字符间可忽略的文字,x 是忽略的字节数。在Discuz!网站后台有明确说明,如 “a{1}s{2}s”(不含引号) 可以过滤 “ass” 也可过滤 “axsxs” 和 “axsxxs” 等等。

对于中文字符,若使用 GBK、Big-5 版本,每个中文字符相当于 2 个字节;若使用 UTF-8 版本,每个中文字符相当于 3 个字节。

另外,关键词还可以支持正则表达式,来匹配具有一定模式的关键词。比如”/1\d{10}([^\d]+|$)/”(不包括引号)用来匹配手机号码。正则表达式的内容过多,大家有兴趣可以搜索学习一下。

2. 用户发布次数限制

主要限制一名用户无限制地发送评论。

对这种情况可以设置同一用户一分钟内最多发送一条评论;一小时内最多发送10条评论,一天最多发送三十条评论,评论次数如果超出时则弹出toast“发言太多累了吧,请休息下”的提示。

其实这个限制上线后,发现发广告的人会不断注册新号来规避这个问题,后续可以考虑再加上。新用户需注册多长时间才可发布评论,或需绑定手机号才可以发布评论这些严格的条件。

3. 重复内容过滤

这种一般都是对于发广告的。

对比时去掉除汉字外的任何符号,如“抖丶音”、“快aabb手”,对比时用“抖音”“快手”;将评论与同一用户上条评论作对比,10个汉字以上的若与其中一条重复率达70%(20,60%;30,50%)则弹出toast“请不要发布重复内容”;同时将评论仅与评论库最近发布50条的评论作对比,20个汉字以上的若与其中一条重复率达80%则机审失败(30,70%;50,60%);

在对比重复内容时一定要去掉一些无关的符号。因为很多小广告喜欢加空格,逗号这些。他们也通常备用好几条文案,可以将评论库的拿出来对比;这样也可以规避他们换号,换文案的问题。

4. 白名单用户,黑名单用户

白名单用户、黑名单用户需要有个可编辑的后台,可随时增减;若同一用户一天内机审失败的评论超过10,则自动列入黑名单。

白名单的用户不受发布次数限制,但内容需要检查广告词、敏感词、屏蔽词,如果一天内发布的评论超过10条机审失败,也自动列入黑名单。列在黑名单的用户发布评论时,弹出toast“您暂时无法发布评论”或机审直接失败。

最后补充下,其实没有对IP进行限制是因为在公共区域的wifi好像IP是一样的,尽管非常希望处理掉垃圾评论这一问题,但我还是希望在不影响到普通用户的前提下。

以上基本是一个内容审核都需要了解的点了。

 

本文由 @咩咩咩 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 审核

    来自上海 回复
  2. 审核需不需要保留审核记录?

    来自福建 回复
    1. 当然需要

      回复
  3. 审核

    回复
    1. 1

      回复
  4. 后台功能设计怎样考虑减轻审核人员的负担呢

    来自上海 回复
    1. 快捷键、任务流式推送、在加一些辅助识别关键词什么的

      回复
  5. 为甚跟这一篇这么像,谁抄谁的?http://www.woshipm.com/it/3844120.html

    来自上海 回复
  6. 试一下评论是否有审核

    来自广东 回复
    1. 人人怕是先审后发吧

      来自四川 回复
    2. 看来结果是先发后审

      来自四川 回复
    3. 看来结果是先发后审大大大大大大

      来自四川 回复
  7. 好的

    回复
  8. 好想

    回复
  9. 试一下先审后发

    回复
  10. 写的浅显易懂,逻辑清晰

    来自广东 回复
  11. 大佬方便留个微信嘛?

    来自广东 回复
  12. 人工图审 的任务分配可以指点一下吗 谢谢

    来自北京 回复
  13. 请教一下楼主,如果一篇文章后台人工审核通过了,是否还需要保留审核不通过的按钮呢?就是这篇文章在后台有审核通过和拒绝两种操作,如果我操作审核通过了,那么审核拒绝这个按钮后面还需要保留吗?

    来自湖北 回复
    1. 通常状况下是保留的 或者采用其他留置按钮以备随时下线

      回复
  14. 111

    来自北京 回复
  15. 感谢分享。看到文章发布有一段时间了,想请问一下作者,对于大量注册新号以规避发布次数限制的现象(黑灰产账号),现在有办法解决吗?

    来自北京 回复
    1. 这种就不能依托简单的审核策略了,大量的注册新号和发布黑灰产内容是存在共性特征的,这部分如果用人审解决的话成本很高识别率也会低,一般大厂会专门的做对应的反作弊算法模型。

      来自北京 回复
  16. 现在好像还挺做内容审核服务平台诶,什么情况下自己做,什么情况下直接买服务好呢?

    来自广东 回复
    1. 同问+1

      回复
    2. 1、在公司本身有内容风控框架或内容风控体系能人,满足公司运营成本的情况下可以自己做。
      2、公司本身无内容风控体系相关能力,短期仅为应急的情况下,可直接买服务,在使用服务的过程中逐步完善公司内部内容风控体系,说到底,内容安全风控掌握在公司内部的安全性比买服务要高很多很多

      来自四川 回复
  17. 赞一个

    回复
  18. 写实操内容的作者不多了,点个赞

    来自北京 回复
  19. 图文审核的话感觉会更加复杂 🙁

    来自上海 回复
    1. 还行,就是熟练度的问题,上手很容易

      来自北京 回复
    2. 图片是怎么样的审核?有对应的策略吗?

      回复
    3. 要先确定内容是否合规以及是否有版权风险,第二点的话可以接入相关API辅助检测。

      来自上海 回复