你拍的短视频竟被它“看懂”了？无理解，不AI | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

你拍的短视频竟被它“看懂”了？无理解，不AI

小连同学

2018-11-21

0 评论 5668 浏览 13 收藏

10 分钟

或许你还以为视频仅能依靠用户数据间接地进行理解，其实不然，“它”也可以……

每当你观看短视频的精彩内容时，可曾想过，这或许是你这一天距离AI最近的时刻？

也许你是互联网圈的业内人士或者互联网技术的爱好者，你会说：“知道啊，不就是智能推荐、分发系统吗？很多产品都有啊。”然而，AI对于短视频的应用仅限于此吗？

Of course not！事实上，从视频的录制，到视频的编码，从视频内容的理解，到用户画像的建模，从审核过滤，到分发推荐，AI几乎走完了每一个环节。其中，最让人意想不到的是，在视频理解环节，AI是用“看”的！

那么下面就为大家科普一下，共同揭开快手AI的神秘面纱！

“视频一直被视为计算机视觉里的暗物质。”谷歌云首席科学家、ImageNet发起人李飞飞曾这样描述，视频理解之难可想而知。为了更好的理解视频，我们通常会为它打好标签，下面是几种常见的方法：

发布者或审核人员人工添加标签：发布者添加标签不需要依赖算法技术，但容易出现未标注、弱标注和误标注的情况。而审核人员逐个标注视频，对于每日产生1500万条视频的快手来说，将会带来巨大的人力成本。
将视频看作黑盒，直接依靠用户行为数据进行推荐：比如，与你有着相似用户画像的人中，大多数都点赞了的某个视频，就把它直接推荐给你。这种方法不需依靠计算机视觉这种高难度技术，且能取得不错的效果，目前非常主流。
用户行为数据与视频内容理解相结合：也是快手正在使用的，更考验技术人员对“多模态”技术的理解（视频的多种模态可以理解为视觉、听觉、文本的综合信息形式），再加上用户行为数据也是另外一种模态的数据，所以理解短视频成了一种极为复杂的多模态问题。

那么，如此高深的视频理解技术是如何发展出来的呢？又将走向何方呢？且听我慢慢道来。

一切的一切，从认识事物开始——最初的它

为了让AI识别物体，科学家们可谓是煞费苦心，甚至为此建立了世界上最大的图像数据库——ImageNet，里面的每张图片都人为打好了标签，来让AI进行视觉训练。

在去年的ImageNet视觉识别挑战赛中，有八成参赛队伍的图像识别准确率超过95%。

别小看了这个基础的物体识别，实际上它大大丰富了短视频的趣味性！

其中，正是因为有了人脸关键点的识别，才有了“快手时光机”等众多魔法表情；正是因为有了肢体识别技术，才有了“跳舞机”有趣的魔法表情游戏；也正是因为有了对平面、边角的识别，才有了逼真的AR玩法。

今年乌镇的世界互联网大会上，快手科技的展台被围得水泄不通，人们都想体验一把“找到世界上另一个自己”的黑科技。

如图，体验者走到屏幕前，点击拍摄按钮，右边的屏幕上就会出现了一个与自己长相非常相似的人！并播放这段用户公开视频。

其实，这些数据是事先提取出来的，在用户将视频上传到服务器后，AI就会根据视频的内容进行理解，提取一些基本信息，包括面部的三维特征，另外，AI还会进一步分析，进而得出人脸的年龄、性别、甚至是颜值。

知晓你的忧，洞悉你的愁——现在的它

前面提到了AI对图像的物体识别有了巨大突破，那么一组图像和一个视频有什么差别吗？视频不就是由图片组成的吗？

其实两者之间是有区别的。

首先，视频的图像间是有时间顺序的，比如，运动的物体的通常具有特殊语义，把一组舞蹈动作图片分开来看，就很难知道这是什么舞，而识别物体的移动、变化对AI来讲不是一件易事。

再者，正如前面提到的，视频是多模态的，包括图像、人脸、音频、文本多个部分，AI需要对同一时刻的音频、视频等多个维度综合分析，才能形成更为“立体”的认知，而这对于技术人员又是巨大的挑战。

而为了丰富AI的认知，我们又不得不为它创立一套认知体系——知识图谱。

知识图谱可以理解为AI的“记忆”，图谱里面的每一个概念都不是简单的文本，而是立体的形象，比如一只小狗，在AI的印象里，会有它的大量照片，以及狗叫声，还会知道它爱吃骨头，这和我们人类对狗的记忆颇为一致，但是也存在着遗漏，像是触觉这种，目前无法达到。

在快手的知识图谱中，除了种类繁多的实体概念，还存在着高级的精神概念，如喜怒哀乐、亲情和爱情。

那么短视频是如何被读懂的呢？我们举个实际的例子，一场球赛的最后几分钟（视频）：梅西带球破门，踢出关键一球，全场观众欢呼庆祝，解说员宣布比赛胜利。

在这个视频中，AI首先进行人脸识别，识别出梅西和其他球员；同时，场景识别和物体识别会确认“球场”和“足球”，确定这是场足球比赛；而在情绪识别上面，AI会通过观众的欢呼和球员的表情确定“喜悦、庆祝”的氛围；并且，解说员的语音，也会被读懂，更直观地理解视频里发生的内容（即便是非常嘈杂的比赛环境，聪明的AI也会智能地为其降噪）。

机器亦有“心”——未来的它

虽然目前的AI在情感层面的理解上，无法达到较高的准确性。但是，以现在的AI发展速度来看，相信在不远的将来，AI就会成为精神世界的一道风景线。

关于未来的AI（视频理解、视觉理解方向），我想到了未来可能发生的三种应用，一起来分享给大家：

率先发生的是无人驾驶，AI对于物体（尤其是运动的物体）可以无障碍识别，完美解决路况分析问题。
第二阶段是影评大师，AI对于人类的情感以及电影的艺术手法有了深刻的认识，可以做出权威的评价。
第三阶段是AI男/女朋友，各项人工智能技术发展成熟，相互融合，而计算机视觉不再是一个独立体，而更像是一个器官——“眼睛”，最终的AI成品可以作为我们的灵魂伴侣（完美解决我国男性的单身问题，笑）。

无论如何，AI的萌芽已经被种下了，到底会结出怎样的果实呢，相信大家也满怀期待吧，欢迎大家在评论区留言，说说自己心中未来的“它”！

本文由 @ 信管专业学生原创发布于人人都是产品经理。未经许可，禁止转载

题图来自Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

小连同学

互联网从业者

3篇作品 48661总阅读量

大模型再发展5年，搜索引擎还在么？

09-073916 浏览

大模型再发展5年，搜索引擎还在么？

在抖音卖车，在快手卖房

02-063062 浏览

在抖音卖车，在快手卖房

抖音加码自营电商，怎么做出差异化？

06-153462 浏览

抖音加码自营电商，怎么做出差异化？

花300万加盟，做喜茶“打工人”？

03-204178 浏览

花300万加盟，做喜茶“打工人”？

短视频与长视频的2022

01-032829 浏览

短视频与长视频的2022

评论

目前还没评论，等你发挥！