【知识图谱系列01】初识知识图谱:了解基础原理、应用与价值

1 评论 5555 浏览 46 收藏 9 分钟
🔗 B端产品经理需要更多地进行深入的用户访谈、调研、分析,而C端产品经理需要更多地快速的用户测试、反馈、迭代

编辑导语:“无知识图谱,不AI”,知识图谱一直是AI领域不可不谈的话题,各大公司都在搭建各自领域的知识图谱,还有许多靠做知识图谱起家的独角兽公司。那么知识图谱到底是什么?它为什么会被大家热衷?它与传统的数据库存储数据的方式有何不同?让我们一起看看吧。

一、知识图谱是什么?

如字面意思,知识图谱可以拆解为“知识”和“图谱”去理解。

知识,是人们在改造世界的实践中所获得的认识和经验的总和。

图谱,是一种强调链接的存储方式。

知识图谱其实就是存储及表达知识的一种方式。

但一个知识的储存方式为什么会被单独提出来?甚至被Google作为一项技术项目单独提出来?

首先得了解知识在认知中起到的作用。

其实在Google之前,知识图谱的前身:语义网络早在1960年代就被提出,当时是作为知识表示的一种方法被提出,主要应用于自然语言理解领域(让机器能够理解语言)。

【知识图谱入门】初识知识图谱

知识图谱演化的重要节点

正如人去理解一段话所表达的意思时,也用到了知识,比如“阿伟手上拿着刚发布的苹果”,这句话要能被正确理解,离不开对应的知识,至少得知道苹果除了是吃的,还可以是个手机牌子。

也就是说知识图谱起源是为了让机器更好的理解语言,通过建立起知识库,这种方法企图让机器拥有更多的“知识点”,能进行更多的联想及推理,对信息的理解更到位。

【知识图谱入门】初识知识图谱

知识图谱在人工智能中充当“记忆”的角色

知识的作用不仅限于文本,对图片也一样。

解读出的感受是又油又土十分好笑,这其中也运用了知识联想,联想了演员在社交媒体中的人设形象,当前的表情及动作,联想了发图者与自己的关系,于是会心一笑。

二、为什么是图谱?

为什么演化到目前阶段,是通过图谱去存储知识,而不是传统数据库?

我认为有两点:

第一是因为图谱的存储结构足够简单,图谱通过“三元组”存储知识,即头实体、关系,尾实体组成;

比如:苹果手机是苹果公司旗下的产品,抽象成知识表达的三元组即是:

【知识图谱入门】初识知识图谱

几乎所有的能通过符号表示的知识都能用这个结构进行储存。

第二是因为互联思维的普及,在强调万物互联的时代,图谱这种注重链接的存储方式能串联不同领域的知识,从而挖掘其中关系隐藏的价值。

三、知识图谱有什么用?

目前知识图谱应用主要有两个大方向:

1. 辅助语言理解

知识图谱在辅助语言理解方面起的作用有:

实体消歧:对文中提到的多义词进行精准判断,如上文提到的苹果案例。

指代消解:对文中的代词做出解释,如他和它。

其中代表性的应用如下:

(1)搜索

传统搜索只提供对网页的搜索(红框部分),图谱提供了对事物本身的描述,让结果更直观,更符合查询的语义。

【知识图谱入门】初识知识图谱

图谱搜索效果展示

(2)问答

垂直领域的问答系统会涉及到许多专业知识面的问题,举个保险行业的例子:

比如当客户问到:“xx保险能不能保障脊髓灰质炎?”

知识图谱可以通过结合保险领域知识与医疗知识进行推理,从而给出精准答案。

【知识图谱入门】初识知识图谱

知识推理简化示意图

2. 辅助大数据分析

图谱可以结合各类领域的知识,打造领域型的知识图谱,目前在大数据分析方面,工业落地主要应用如下:

(1)推荐

知识图谱中包含了丰富的关联性,可以为推荐系统提供部分信息来源;比如常见的推荐有电影推荐、音乐推荐。

加入图谱推荐的好处主要是可解释性强,能基于设定好的推荐路径进行精准推送。

比如小丁喜欢听《艾米莉》,《艾米莉》的乐队是回春丹,那么同个乐队的歌可以作为推荐。

【知识图谱入门】初识知识图谱

(2)风控

图结构能非常好的与SNA(社交网络分析)理论相结合,对团伙欺诈这类型的风险能起到非常好的挖掘作用;如洗钱行为可以综合多笔交易、企业信息等看是否出现资金汇集等。

图的优势在于能跨多度计算,能挖出埋藏较深度的风险关系,比起传统的侦察手段对团伙作案的风险能摸查得更全面。

三、无图谱,不AI?

这句话在现阶段,大家当pr稿理解就好了,事实上很多的AI落地应用,并没有用到知识图谱,知识图谱本身也存在着相当多的局限。

1. 工业落地视角

至少在目前阶段,许多项目中知识图谱的平替方案有很多,比如风控场景,通过传统的数据分析也能抓出许多问题案件;问答场景,搭建简单的问答知识库比直接建立知识图谱效率更高,投入更小。

究其原因还是在于这项技术需要非常大的资源投入,需要大量的具有丰富业务知识的专家,图算法专家等。

实际的工业落地项目中,几乎有70%的时间投入在图谱数据的获取、清洗、结构化上,而像知识框架的建设、图应用只占了不到30%的时间。

2. 技术视角

上文提到,知识图谱的三元组形式能表示几乎所有的符号型知识,即能被很好表达的显性知识,但现实中存在着很多知识是隐性的,比如一项技能,弹钢琴光知道乐理但没有熟练的指法也不行。

且知识图谱对于数据的结构化程度要求十分之高,但现实中大部分业务数据是非结构化的,如何将非结构化数据转为结构化,而这是一道还没有被解决的业界难题,是NLP的瓶颈。

四、结语

对每项新技术,我们应看到技术未来的发展空间,同时也要看到技术在当下的局限性。

保持对技术的理解、思考与反思,才能将技术真正落地。

 

本文由 @产品哲思 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 写的很好,希望能看到后续内容

    来自浙江 回复
专题
12282人已学习12篇文章
退款是支付平台的一个重要业务,本专题的文章分享了退款功能的设计思路。
专题
16770人已学习14篇文章
本专题的文章分享了拼团功能的设计指南。
专题
11475人已学习12篇文章
从二维到三维空间的过渡,其交互范式也会随之从2D GUI时代转换到3D UI时代。本专题的文章分享了XR空间交互指南。
专题
13096人已学习15篇文章
该如何有效推广?有效推广的策略有哪些呢?本专题的文章分享了产品推广策略。
专题
13639人已学习11篇文章
本专题的文章以To G领域为例,从产品经理的角度,分享TO G产品设计指南。