成为搜索产品经理(1):搜索引擎

8 评论 20870 浏览 150 收藏 12 分钟

本文作者从了解搜索产品经理的目的出发,对搜索引擎的发展进行了梳理分析。希望通过此文能够加深你对搜索产品的认识。

最近和百度大搜的产品同学交流他的工作,交流之后,自我觉察到我对该岗位的工作认知仍不够系统,当然,对一个工作岗位的认知也不是三言两语,1个小时的沟通就能了解透彻的。

我尝试在网络上找一些资料,但发现,网络上很少有系统化讲解这一岗位的文章。本着罗老师在2020年时间的朋友里面讲到的「躬身入局」的精神,我尝试查阅了一些枯燥无味的书籍以及文献,并将其整理如下,与大家分享。

一、互联网的发展

在讨论如何成为搜索产品经理之前,我们需要了解搜索引擎的发展。想要了解搜索引擎的发展,我们先将时间轴拉回20世纪90年代,回顾互联网的发展。

20世纪90年代,技术与产品的发展,为互联网的快速普及和发展做好了准备。

1.1 技术上的发展

1991年,Tim Berners-Lee(蒂姆·伯纳斯-李、万维网的发明者)将超文本的概念引入互联网,同时推出www雏形、配套的HTTP传输协议以及相应的Web服务技术

我来解释一下,蒂姆·伯纳斯-李做出这些发明,意味着什么。

1.1.1 超文本概念
超文本(Hypertext)简单来说是一种可以显示在电脑显示器或其他电子设备的文字,其中的文字包含了可以链接到其他字段或文档的超链接,允许从当前阅读位置直接切换到超链接所指向的文字。

从其技术上来说,超文本是指使用超文本标记语言(HTML, Hyper Text Markup Language)编辑包含标记指令的文本文件,通过资源定位符(URL, United Resource Location )指向其他内容,在不同的文档或同一文档的不同部分质检建立联系。使得使用者可以通过一个网址访问不同网址的文件。

1.1.2 万维网
万维网WWW(World Wide Web)是一个通过互联网访问的,由许多互相链接的超文本组成的系统。是一个大规模的联机式的信息储藏所,英文简称Web。万维网用链接的方法能方便地从互联网的一个站点访问另一个站点,从而主动地按需获取丰富的信息。

5个万维网站点

上图画了5 个万维网的站点,它们可以远隔数千里,但都必需连接在互联网上。每一个万维网站点都保存了许多文档。这些文档之间通过链接(link),有时候也被称为超链接(hyperlink)的方式彼此相连。可以通过这个文档链接到相隔很远的另一个文档,经过一定的时延,我们的屏幕上就可以将远方发送过来的文档显示出来。

万维网的出现使得网站数按指数增长,所以万维网的出现可以说是互联网发展中的一个里程碑。

1.1.3 HTTP传输协议

HTTP协议是Hyper Text Transfer Protocal(超文本传输协议)的缩写,是用于从万维网服务器传输超文本到本地浏览器的传送协议。

1.2 产品上的发展

1993年,第一个图形浏览器mosaic诞生,网页浏览客户端趋于成熟。

Mosaic是第一个可以在同一个窗口显示文本和图片的浏览器。

MOSAIC

由于上述技术与产品的发展,互联网的用户群体也发生了变化,从开始的军队和高等科研院校,普及到了普通个人用户。扩大的用户群,为互联网的商业化奠定了基础。

二、搜索引擎的发展

综合因素,导致互联网上的信息产生爆炸式增长。如何从海量信息中找到满足用户需求的信息,成为重点。

技术与产品的发展,降低了人们发布信息的门槛,同时,由于用户群体的扩增,网络上产生了大量的信息。

为了满足用户从海量信息中找到所需信息的诉求,一系列搜索引擎商业公司开始建立。比如yahoo、InfoSeek、Fast Search等

搜索引擎是对Internet上的信息资源进行搜集整理,然后供用户查询的系统。包含信息采集、信息整理、与用户查询3个部分。

2.1 目录搜索引擎

目录搜索引擎是指搜索引擎的信息采集方式,也是搜索引擎的搜索方法。

目录搜索把搜集到的信息资源按照一定的主题分门别类,建立多级目录结构。大目录下面包含子目录,子目录下面又包含子目录。依次原则建立多层具有包含关系的目录。用户查找信息时,采取逐层浏览打开目录,逐步细化,就可以查到所需信息。

目录搜索引擎中,需要以人工方式采集信息,编辑人员对信息进行查看,形成信息摘要,然后将信息放置在对应的分类结构中。

2.1.1 雅虎
Yahoo是当时著名的搜索和门户网站。yahoo的目录搜索引擎。

例如,中文雅虎网站的目录搜索引擎:

如果我们要在其中查找关于著名作家金庸的网页,可以逐步搜索“艺术与人文” | “人文” | “文学” | “文学类别” | “小说” | “武侠” | “作者” | “金庸”,即可实现目的。

2.1.2 常用的中文目录型搜索引擎

  1. 搜狐
  2. 网易
  3. 新浪

目录搜索引擎的利与弊:

  • 利:由于加入了人工的因素,因此信息准确、导航质量高。
  • 弊:需要人工介入,维护量大,信息量少,信息更新不够及时。

2.2 搜索引擎技术的发展

随着信息进一步快速发展,信息呈现爆发式增长,目录搜索引擎的弊端显现,不能好地满足用户需求。

在目录型搜索引擎技术发展之后,出现了不同的搜索引擎技术:

  • 文本检索
  • 链接分析
  • 用户中心

在这不做详细阐述。

三、搜索引擎的目标

搜索引擎的应用形式简单:用户输入查询词,搜索引擎返回查询结果。

在这个过程中,只涉及两个主体,用户与搜索引擎。

搜索引擎的目标是提供更全、更准、更快的搜索服务。

在上面的3个目标中,更准是最关键的。

四、搜索引擎的3个核心问题

在我们来分析搜索引擎的3个核心问题之前,我们先来看一下单个搜索的简单流程:

4.1 用户需求

根据上图,当用户输入查询词,搜索引擎需要返回查询结果。这个过程,我们可以将其视作一次人机互动。

人机互动,即人与计算机的互动,第一步是获取用户的意图。

对于搜索引擎来说,这也是非常重要的。只有获取了用户的真正意图,后续的信息-意图匹配才能展开。

用户的意图到底是什么?

  • 不同的用户,输入搜索框的同一个查询词,有可能背后的意图是不一样的。
  • 同一个用户,输入搜索框同一个查询词,也有可能因为其所处场景不同,其意图也是不一样的。

如何识别上述的差异。这也是搜索系统需要解决的第一个核心问题,即此时此刻,用户的真实搜索意图是什么?

4.2 与用户需求相关的信息

明确了用户查询的真实意图后,搜索系统需要从海量的信息中,找到能够匹配用户需求的内容。

搜索系统为用户搜索意图匹配关键信息方式的指导思想,还是基于关键词的匹配。

当算法系统搜索到包含与用户查询词相同的的网页,这便是搜索到的信息可能是用户想要查找的内容相关的最基本信号。如果是网页或者文本的标题出现了这些关键字,则表示该信息与用户想要查找的内容相关的可能性更大。

4.3 分辨出可信赖的信息

搜索的本质是找到满足用户需求的信息。

相关性是衡量信息是否满足用户需求的一个指标,信息的可靠性,同样也是衡量搜索系统质量的重要指标。

「成为搜索产品经理」我会将其做为一个系列来写,从互联网的发展开始,抽丝剥茧,将我所了解的与大家分享,也期待能与大家讨论,共同进步。

本篇是「成为搜索产品经理」的第一篇,后续我会陆续更新~

#参考资料#

1. Tim Berners-Lee 谈网络的未来
2. ~[https://en.wikipedia.org/wiki/Mosaic_(web_browser)](https://en.wikipedia.org/wiki/Mosaic_(web_browser))~
3. Internet应用基础教程 | 尤晓东
4. 信息检索 | 陈雅芝
5. 这就是搜索引擎核心技术详解
6. 超文本传输协议HTTP https://blog.csdn.net/codejas/article/details/79002339
7. Google 搜索 | 搜索算法的工作方式

 

本文由 @一颗西兰花 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 期望有个圈内产品的群,大家一起学习

    回复
    1. 我也想有一个这样的群啊!

      来自北京 回复
    2. 那就搞起吧

      回复
    3. 大佬们 求拉!

      回复
    4. 求拉18600809134

      来自北京 回复
    5. 求拉

      来自江苏 回复
  2. 哈哈期待长期更新

    回复
    1. 会持续更新!

      来自北京 回复