起点学院课程

大数据分析:研究武汉新型肺炎的发展历程

iCheer
2 评论 2.6万 浏览 38 收藏 12 分钟
15天0基础极速入门数据分析,掌握一套数据分析流程和方法,学完就能写一份数据报告!了解一下>>

最近武汉发现新型肺炎2019-nCov牵动着大家的心,药店里的口罩就和酒精也是抢购一空。本文将通过对百度资讯中,以“肺炎”一词作为关键词,检索出来所有新闻标题和新闻摘要进行分析,了解新型肺炎相关新闻在互联网上的传播情况。

本文使用的工具:

  • 编程:Python;爬虫:Scrapy;中文分词:jieba
  • Excel生成图表、wordclouds生成词云

数据源:百度资讯、百度指数

1. 新闻采集

通过百度资讯,搜索“肺炎”一词,将所有搜索结果收集起来,并且对新闻内容进行去重。去重标准是同一天、同一个新闻媒体、同一个标题、同一个摘要时,将重复内容去除。

2. 初步统计

简单的对12月起,每天肺炎相关新闻的数量用excel进行了简单的统计。截止到1月23日下午,去重后,共检索到424条新闻。

近期最早新闻中出现“肺炎”的字眼,是在2019年12月31日,接着逐渐消退,1月3号再次出现一波小热潮,然后完全消退。

第二波大热潮是在2020年1月9日左右,但是热潮很快又退了下去。

直到2020年1月16日,肺炎新闻才开始爆发性增长,然后经历1月19日的一个小低谷后,热度迅速上升。大家的感受也应该是在1月20日左右,就发现各种微信群消息里,开始大量的转发武汉发现新型肺炎相关的消息吧。

通过百度指数搜索全网对“肺炎”这个关键词的搜索热度,可以看出发展舆论的发展趋势,基本与新闻的数量一致。

在12月底开始出现肺炎的新闻,过了月20天后,新型肺炎的新闻才“突然间气势汹汹”的传播开来。

3. 热词分析

通过对19年12月31日、20年1月9日、20年1月16日这三个比较有标志性的日期,以及20年1月20日往后的每一天,利用NLP(Natural Language Processing,自然语言处理)的工具“jieba”,统计这些日期当天的新闻中,相对于往前日期的新闻内容,出现了哪些新的词语。

阶段1:2019年12月31日,进展:不明原因

可以看出,此时新闻都还集中在武汉,肺炎还是“不明原因”,部分新闻提到了日后出了名的“华南海鲜市场”,“通报、通知、记者”说明,大家对此事还处于一个较为好奇状态。

阶段2:2020年1月3日,进展:事情发酵

新增了“患者”、“病毒性”、“诊断” 这样的关键词,说明肺炎已经开始产生了危害。“传言”、“发酵”、“不要”、“相信”这些关键词,说明大家开始产生了恐慌,但是媒体也很理性的让大家不要惊慌,大家不信谣、不传谣。

阶段3:2020年1月9日,进展:发现病因

“初步判断”、“新型”、“冠状病毒”,代表着导致新型肺炎的元凶已经被初步找到。此事过后,肺炎相关新闻就开始减少。

阶段4:2020年1月16日,进展:国际事件

我们看到了“日本”、“越南”这样的国外地名的出现,并且有了“隔离”、“传人”这样的词出现。(其实应该是人传人,不过被分词系统分成了两个词)

说明了此时肺炎已经“冲出国门,走向国际”,并且引起了国际媒体的注意。但是在国内却依然还未能引起重视。

阶段5:2020年1月20日,进展:事件爆发

1月20号是肺炎新闻大规模出现的标志点,此时我们看到了“北京”、“深圳”等城市的字眼,国内真 · 一线城市开始有确认的病情了!

2020年1月21日至1月23日,进展:持续升级

1月21日:终南山院士回归,“口罩”的出现,接着引起了药店、电商网站的各种口罩抢购。“全国”、“首例”、“疑似病例”,说明病情正朝着全国发展。

1月22日:重点是“防控工作”,同时出现了“春节”,春运大潮来临。

1月23日:“口罩”一词重新出现!对应的新闻是很多药店口罩抢购一空,然后有的良性厂家加班生产,而有的黑心店家却故意哄抬物价!

与此同时,阿里京东的电商平台通知,禁止商家涨价。“方案”、“工作委”表明,各地已经开始有了对应肺炎传播的应对措施,是春节前的大好消息!“首例”表明,肺炎在更多地区被发展,传播迅猛。

为什么“口罩”、“首例”等关键词重复上榜?

因为我写的新词分析算法是,从当天新闻中抽取出热词,然后从过去的所有新闻中,再抽取出热词。然后对比两组热词,找出新增的词。

例如“口罩”在短暂的一两天内可能是热点,但是相对比其他一些关键词,如“武汉”、“肺炎”等,“口罩”在过去20多天内的影响力就弱的多了,无缘过去新闻的热词榜。所以,当口罩又火了的时候,新词分析就又发现了它。

4. 地区分析

利用前文的方法,我们把热词的类型缩小到“地域名词”,再次查看那些关键的时间节点,看看肺炎的地域传播趋势。

由于时间仓促,加上用来生成词云的网站无法访问了,无法对程序分析地域名词输出的结果做过多的深入研究和数据过滤,结果仅供参考。

阶段1:2019年12月31日,地区:小范围影响

此时肺炎的传播,还局限在武汉的华南海鲜市场。

注意检索结果有“浙江”,经过分析,是某个媒体在发布新闻后,一直用同一个链接更新最新内容。

阶段2:2020年1月3日,地区:小范围影响

此阶段并未发现新的地区,说明肺炎还未被发现广泛传播。

阶段3:2020年1月9日,地区:小范围影响

此阶段出现了两个新的地名“钦州”、“杭州”,本着认真负责的态度,我去看了一下当时的新闻。

  • 钦州相关:钦州9名新生儿陆续患肺炎,数名宝妈找月子中心讨说法;
  • 杭州相关:武汉不明原因肺炎判定为新型冠状病毒!杭州专家权威解读。

钦州月子中心的事件,可能刚好是个巧合。所以我认为这个阶段,从新闻内容来看,肺炎传播范围依然以武汉为主。

阶段4:2020年1月16日,地区:亚洲其他国家

越南和日本发现了新型肺炎的疫情。但是此时国内其他地方并未有新型疫情的报道。

阶段5:2020年1月20日,地区:国内一线城市

一线城市北上深广的出现,标志着新型肺炎开始在国内传播。

2020年1月21日至1月23日,地区:国内大面积蔓延、海外也逐步蔓延

大量的国内外地名出现了新闻内容中,说明新型肺炎蔓延十分的迅速。

5. 总结

通过对“肺炎”相关的关键词进行新闻检索、数据整理分析,可以有效还原新型肺炎从发现到发展的全流程,并且发现每个阶段不同的特征。

最后,放一个产品生命周期的图,如果把新型肺炎当做一款产品,那么它现在就处在快速的成长期,所以千万不能掉以轻心,必须加大防护措施,认真严肃对待。

时近年关,正值春运高峰期,人流量大,也希望大家出门尽可能戴口罩,多看新闻关心了解新型肺炎的发展态势,听从社区、公共场所安排,注意身体健康。

给大家拜个年 :)

 

本文由 @iCheer 原创发布于人人都是产品经理,未经作者许可,禁止转载。

题图来自Unsplash,基于CC0协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
起点学院课程
评论
评论请登录
  1. nice中。国 加 油

    回复
  2. 武汉加油,共度时艰。
    ———————–
    学习了热门事件数据分析的入门法子

    回复