他说:作为产品经理,不懂技术和代码也一样可以数据抓取(web篇)

王也
0 评论 18162 浏览 119 收藏 6 分钟
B端产品经理要负责对目标行业和市场进行深入的分析和调研,了解客户的需求、痛点、期望和行为,找到产品的价值主张 🔗

上一篇文章聊完不懂技术的情况下,怎么通过app抓包获取用户数据。今天分享一下上次抓web数据的经历。

文章主要提供一些解决问题的思维方法。这篇文章可能很啰嗦,先把思路写出来:

  1. 利用Xenu检索全站URL地址
  2. 用Excel筛选出有用的URL
  3. 网页爬取工具,爬取页面中指定的内容信息
  4. Excel信息整理
  5. 寻找竞品的典型用户
  • 目的:调研竞品主播基本情况。我想知道他们的主播粉丝数量分布、用户关注数量分布、用户送礼额度。
  • 背景:一个不懂技术的产品经理。

1.数据爬取

需要的数据都在竞品用户个人空间,所以第一个想到的是让开发用 Python 写个爬虫。跟开发确认了一下时间,说要三天,果断放弃,自己来。

先找了个网页信息爬取工具(百度一搜一大把),我用的是火车采集器。它可以对指定的URL中的页面内容进行抓取。抓取的规则是通过H5标签识别,所以输入需要抓取字段的起止标签就可以了。

我想了解的是主播收入、大R的送礼金额、还有个人空间的地址。

大R的送礼记录个人空间就有。不过主播个人总收益是没有展示的,所以我只能假定主播的粉丝越高,他的收益越多。

所以我最终抓取的是三个字段是:粉丝量、送礼总额、个人空间地址。

在爬取工具上设置好抓取字段,测试了几个页面,数据可用。然后麻烦的问题来了,没办法知道触手更多个人空间地址。

2.获取URL

个人空间的 URL 是这样的“//chushou.tv/u/用户ID.htm”。观察了一下,用户ID是不规则的,从6位到9位都有。如果直接从一个一个 URL 循环过去,抓到999999999不现实。

最后选择了Xenu,这是一个检查网站死链的工具,据说会模拟百度蜘蛛爬取网站URL,检测是否为死链。最重要的是会把检查结果显示出来,这样我可以拿到竞品域名下所有的URL,再通过Excel筛选出我需要的个人空间URL。

避免URL爬取不完整,连续抓了3个晚上。再放到Excel中去重。Xenu在运行时比较消耗内存,早上来的时候都会发现软件已经崩溃,所以我三天累计抓到了近100w个URL,实际可用的只有7w个。

这样我拿到了竞品的7w个用户个人空间地址,不过这个数字跟他们PR出去的数字相差甚远。(严格来说,由于不确定这些数据的来源,所以即便得出结论也是不可信的。)

3.数据整理

拿到这些数据就有了排行榜。我可以按照粉丝量最高的来排,寻找大主播;也可以按照送礼金额(平台的虚拟货币)来排,寻找土豪粉。

寻找用户进行访谈:

利用百度的站内搜索site:在竞品网站中搜索用户联系方式。比如QQ site:www.chushou.tv 或 主播 Q site:www.chushou.tv等。

这样我能找到好多在个人签名或公告中留有 QQ 的用户。然后加了好友,开始聊天。

后记

这些文字是在半年前写的,时隔半年,还是觉得这个过程很有趣,不断提出问题,解决问题。

实际上还有很多问题,没啥可以实操的东西,比如:网站有反爬虫;被封 IP ;页面中都是各种 JS 导致无法顺利完成抓取,等等。看个热闹就好了。 ^_^

相关阅读:

他说:作为产品经理,不懂技术和代码也一样可以数据抓取(App篇)

 

作者:王也,上海,产品经理,个人公众号:野生产品经理。

本文由 @王也 原创发布于人人都是产品经理。未经许可,禁止转载。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!
专题
16779人已学习14篇文章
本专题的文章分享了拼团功能的设计指南。
专题
20517人已学习19篇文章
好的权限系统可以明确公司内不同人员、不同部门的分工,便于管理等优势。本专题的文章提供了后台权限管理设计指南。
专题
13303人已学习14篇文章
好的产品是对人性的窥视,无论是做产品,做运营,懂点心理学还是很有帮助的。本专题的文章分享了消费者心理学。
专题
12483人已学习12篇文章
关于如何写简历、简历上些什么的文章大家看了很多。那么细分到产品经理这个岗位来说,写简历又有什么需要注意的呢?本专题的文章分享了产品经理如何写简历。
专题
13438人已学习16篇文章
本专题的文章分享了心理学如何影响用户决策。
专题
15412人已学习12篇文章
本专题的文章分享了用户精细化运营---用户分群的建立指南。