搜索联想词产品实践系列之浅见(一)定位-评估和召回篇

0 评论 10849 浏览 49 收藏 12 分钟

导语:为了能够更方便的使用搜索,联想词是在产品设计的过程中必然要加入的一项功能。而对人们的意图进行联想和预测,也是未来人工智能语音助手变得更好用的基础前提。本文作者针对搜索联想词产品,分析了其定位-评估和召回策略。

搜索联想词功能提供者:

  1. 免费搜索:百度;
  2. 交易类搜索:阿里、京东、PDD、携程、美团;
  3. 中小网站:基本无此功能,联想词功能不仅仅是工程问题,还需要一定的AI能力支撑,中小网站往往无力支撑。

一、联想词定位

降低用户输入成本,在用户输入部分信息就能推荐出用户想搜索的关键词。

当然直接推荐出用户想搜索的关键词,也有其他产品设计手段来部分达成,比如在PC版搜索,用户在输入搜索词之前,第一动作是点击搜索框,这时会出现历史搜索词,如下图:

搜索联想词产品实践系列之浅见(一)定位-评估和召回篇

因为用户常常会重复搜索行为,比如昨天想找什么信息,这个事情当时没有解决,今天继续进行,就需要重复使用相同的搜索词继续搜索。在APP上,通过历史搜索(或者最近搜索)+热门搜索(或者搜索发现)两种方式完成的,如下图:

搜索联想词产品实践系列之浅见(一)定位-评估和召回篇

搜索历史是用户自身过去一段时间的搜索词,而热门搜索是网站所有用户过去一段时间的搜索量大的搜索词。当然在具体策略上,召回搜索词的排序顺序可能是综合多种因素的结果,比如时间衰减、搜索词引导的绩效表现等,并不一定完全是进过时间衰减的搜索次数。

二、效果评估

联想词产品改进目标主要是提升推荐搜索词的经营绩效和改善用户体验,前者根据公司的考核方案,比如点击率的提升,引导的订单量提升,引导的GMV提升等,也可以是综合考量,比如各自占一定的权重,可以通过AB测试看综合提升效果。

比如:我们将点击率提升权重设置为40%,引导的订单提升权重设置为30%,引导的GMV提升占比设置为30%,假定点击率提升10%,引导订单提升5%,引导GMV下降4%,那么最终的综合提升为40%*10%+30%*5%+30%*(-4%)=4.3%。

改善用户体验涉及到如何衡量用户体验,主要是质量/用研团队构建测试场景,通过人工测试,能够盲测更好。

测试主要有两种方式,第一种方式是与竞对对标,对标结果的体验优势(我们比竞对好)是否持续提升,或者体验劣势(我们比竞对差)持续减少,提升或者减少的幅度;第二种方式是仅仅测试自身网站产品,通过改进前后badcase场景数量来衡量。

联想词功能包含如下环节:

  1. 联想词召回
  2. 候选词条的排序
  3. 排序后处理
  4. 前端展示和交互
  5. 其他问题

三、联想词召回

问题描述:通过用户确定的字符召回联想词条。

在中文输入环境下,用户通过输入法先输入拼音,再确定要输入的字符,如果是英文输入环境,输入的字符就是用户确定的字符,程序根据用户确定的字符来召回联想词条。

解决方案:根据用户确定的字符进行前缀匹配,这些字符类型有字母、汉字,不仅要考虑用户正确输入的情况,也要考虑用户可能错误的输入。另外如果用户确定的是字母,除了纯字母前缀匹配外,还需要将字母转换成可能的汉字,通过汉字进行前缀匹配。

在中文网站,用户可能输入是汉字,也可能是字母(拼音或者英文单词)。

  • 当输入是汉字时候:直接利用汉字进行前缀匹配召回,这种情况下,还要考虑同音字、音近字的补充召回。同音字主要是输入法选词时用户的误选或用户只知道目标词条的拼音,但是不知道目标词而选错了词条。

输入法中选错同音字,比如:用户要买“五香豆腐干”,结果选成了“五箱豆腐干“,这时候需要给出正确的候选词条,我体验了各类网站,百度和美团将候选列出来了。

搜索联想词产品实践系列之浅见(一)定位-评估和召回篇

容易混淆的词条,用户记错了或者不知道正确的到底是哪一个,比如:红岩洞和洪崖洞,都是重庆的旅游景点,用户常常容易混淆,我们看百度的联想词。

搜索联想词产品实践系列之浅见(一)定位-评估和召回篇

我看这个能力在其他网站都不具备。百度的自然语言理解能力确实积累很深厚,其他公司在自身业务相关板块的积累至少需要数年时间。

音近字主要是用户由于平翘舌(si、shi)不分、前后鼻音(xin、xing)、地域差异的模糊音(比如南方人将“牛奶”发音为liulai/niulai)导致的拼音输入错误导致的选词错误。现在搜狗输入法已经将音近字的问题解决的很好。比如牛奶这个错误的输入就有纠正之后的词条选项:

搜索联想词产品实践系列之浅见(一)定位-评估和召回篇

同音字和音近字的召回处理是先将字还原成拼音,通过拼音找同音字和音近字,再将这些字本身,同音字、音近字一起参与召回,并将召回的来源进行打标区分,在排序的时候给与不同的策略处理。

容易混淆的词条通过大数据挖掘方法离线挖掘,挖掘线索可以通过搜索session中词条时序,以及词条的拼音差异来挖掘。比如红岩洞和洪崖洞,中间仅仅岩(yan)和崖(ya)的拼音区别一个字母。

也可以通过百度知识库来补充,通过爬百度的联想词结果和搜索结果前3条结果,比如我们百度搜索“红岩洞”,第二个结果为“洪崖洞”百科词条,说明很多用户是找“洪崖洞”而不是“红岩洞”。

搜索联想词产品实践系列之浅见(一)定位-评估和召回篇

我们可以将所有的词条调用百度搜索,看TOP-N搜索结果中是否有其他词条的结果,有则说明搜索词表与结果词条之间存在一定的混淆关系,人工审核获得知识词典,进而补充到联想词可以大大提升联想词的搜索体验。

  • 当输入是字母,这些字母可能是英文单词,也可能是拼音自身。
  1. 先假定输入的字母是正确的,通过字母(英文和拼音)直接前缀召回;
  2. 再假定输入是正确的拼音,先转换成汉字,通过汉字召回,再增加同音字和近音字拼音作为召回补充;
  3. 最后考虑英文拼写错误的问题,英文错误的纠错通过英文拼写纠错算法来完成正确的召回。

输入拼音的联想召回处理:不仅是作为完整拼音的全部汉字作为召回,还召回认为当前是拼音前缀的汉字。

比如:用户输入拼音“lian”,不仅召回“联通客服电话是多少”、“莲雾”、“莲藕”、“李安(li-an)”这样作为完整拼音的词表前缀,也召回了“梁(liang)晶”作为拼音的前缀。

搜索联想词产品实践系列之浅见(一)定位-评估和召回篇

用户输入“pin”,作为字母召回“pin码是什么”,作为英文单词前缀匹配召回“pink”,“pinterest”,作为完整拼音召回“拼多多”、作为拼音前缀召回“苹果”、“平安保险”。

搜索联想词产品实践系列之浅见(一)定位-评估和召回篇

我们看英文拼写纠错的召回,用户输入“pinerest”,正确的应该是“pinterest”,英文的拼写纠错算法现现在已经非常成熟,稍微查一下都可以找到大量的文献和成熟的软件包解决这个问题。

搜索联想词产品实践系列之浅见(一)定位-评估和召回篇

四、召回截断

在召回环节,往往会出现召回候选词条过多的情况,依然需要引入诸如搜索召回的策略:截断。

在召回环节,设置最大召回池(假定K条结果),事先对每条结果的表现,比如点击率做出预估,在召回池子满了的时候,每增加一条候选,需要剔除当前池子最差表现的候选,这样初步筛选召回前K条候选结果。

联想词候选排序见下一篇内容,我们不见不散。

#专栏作家#

毛新年,公众号:资深电商专家毛新年,人人都是产品经理专栏作家。起点学院讲师,2021年B端产品经理大会演讲嘉宾。主导搭建主流电商平台搜索推荐商品三大体系,熟悉电商平台策略-产品-运营-数据及研发各环节。

本文原创发布于人人都是产品经理,未经许可,禁止转载

题图来自Unsplash,基于CC0协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!