关于数据采集:你需要了解这些

7 评论 4020 浏览 6 收藏 15 分钟

导读:通过上一系列《10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系》,我们了解了目前较为流行的几种发生在企业业务活动中数据存储方式的区别与联系。有了“锅碗瓢盆”,想要做出色香味俱全的“大餐”,食材也是不可或缺的,所以我们就需要进行数据采集。

一、数据采集的必要性

数据采集是数据分析挖掘的根基:

数据分析与挖掘过程中比较基础且重要的一个环节是数据采集,再好的特征选取,建模算法,没有了优质的元数据,也会“巧妇难为无米之炊”。

采集的数据决定了数据分析挖掘的上限:

经验告诉我们怎样从历史数据的展现和分析过程中得到有用知识,不管你是通过报表或多维分析得到企业各领域指标相关性,还是通过挖掘模型的实施来根据历史数据预测企业未来发展,这一切都是基于企业历史数据的。没有数据质量基础的保证,展现得多华丽的走势图表都是垃圾。

如下图所示,garbage in , garbage out(垃圾进,垃圾出),指如果将错误的、无意义的数据输入计算机系统,计算机自然也一定会输出错误、无意义的结果。(该谚语在数据分析领域也同样适用)

garbage in garbage out(垃圾进垃圾出)

二、数据采集方式

数据采集方式按照线上采集,线下采集两大类进行分类,下面对于每种采集方式及相关技术进行简单的介绍。

1. 线上采集

1)开放数据

开放数据指的是互联网中面向所有人公开的数据,其中包括面向特定行业公开的数据,各级政府公开的数据以及网页中相关的内容数据,例如下图所示为北京市公共数据开放平台。

获取开放类数据,我们可以使用爬虫技术,这里简单介绍一下爬虫技术。

爬虫技术是一种可以使开发人员自动化,系统化收集互联网上相关数据的技术,爬虫不是内容的生产者,而是内容的搬运者。关于爬虫技术的各类学习资料在网上可以说是“汗牛充栋”,笔者在这里就不展开说了,但是这里关于爬虫要讲的就是爬虫的安全问题,一定要遵守相关法律,切记不要触碰红线。

a. 个人信息,商业秘密与国家秘密是数据爬取的红线。

b. 遵守职业道德,控制爬虫访问频次,不要干扰被爬方的正常业务活动。

c. 遵守robots协议,做到什么能爬,什么不能爬。

2)第三方平台数据

比如说开发者想获取相关各类金融数据,除了可以利用爬虫技术外,我们可以通过某第三方平台提供的API接口来调取相关数据,例如下图所示为Toshare大数据开放平台,开发者可以获取各类金融数据。

笔者曾接到过这样一个任务,获取某市所有的禁止机动车左转,禁止机动车右转,禁止机动车掉头的路段,在没有条件获取准确的数据时,我们可以通过高德或百度的地图开放平台的API接口,分别在路口处设置起讫点,通过对比机动车与步行的路径规划距离来分析该路口是否禁左,禁右,禁掉头,如下图所示为百度开放平台,我们可以在这里通过API接口,完成各类数据采集。

对应的功能有相应的服务文档讲解如何使用,大家有兴趣可以打开网址进行尝试。

3)物理数据

物理数据指的是用户在物理世界产生的数据,例如用户使用手机时手机的各类传感器(指纹传感器:记录用户指纹用于解锁手机或支付等行为,陀螺仪:通过角动量守恒原理记录角速度用于手机导航等行为)

相较于日常应用,物理数据大量存在于传统制造业中,一般有如下几类数据采集方式:

各类传感器:

正如上面提到的手机中各类传感器,传统制造业中的传感器品类繁多,涵盖光敏,气敏,力敏,磁敏,声敏等不同类别的工业传感器,这部分的数据尽管单条数据内容很少,但是频率非常高。

RFID技术:

RFID(Radio Frequency Identification,射频识别)技术是一种非接触式的自动识别技术,通过射频信号自动识别目标对象并获取相关的数据信息。利用射频方式进行非接触双向通信,达到识别目的并交换数据。

RFID技术可识别高速运动物体并可同时识别多个标签,操作快捷方便。如下图所示,我们用手机的NFC读取的电子标签数据,可以看到ISO/IEC 14443-3(Type A),这个是当前电子标签的协议,目前大部分公交卡,一卡通,门禁卡等都是基于ISO 14443 Type A协议的,下方则是该电子标签的详细信息,如果配合专业的读写器及特定的软件可读性会更好,在这里只是为大家展示一下。

由于各类设备品牌类型繁多,厂家和数据接口各异,有可能一套生产线的设备来自于好几个国家,数据采集一直是传统制造业的痛点。

4)APP数据

我们日常生活中,在各类App,Web端应用,小程序上的操作行为称为事件,例如打开某个电商App→浏览某个商品→查看商品信息,评论→放入购物车→下单→支付→查看物流信息→确认收货→对商品进行评价。当事件被触发时,我们想进行监控,那么只需要研发为事件植入监控代码,这样每当事件触发时,后台就可以采集该事件的相关信息,上传到服务器。

关于数据埋点,是互联网业务中比较重要的一部分,由于篇幅所限,这里简单的介绍一下,这里笔者现挖个坑,后续会专门出一个系列,详细与读者对数据埋点进行探讨与交流。一般来说,埋点类型分为Web埋点和App埋点,其中主要的埋点技术又分为有埋点技术,无埋点技术,可视化埋点等。

  • 有埋点技术:开发手动在程序中写代码实现埋点,通过用户触发某个行为后,程序自动发送数据;
  • 无埋点技术:前端自动采集全部事件,当事件触发时就会调用相关接口上报数据,流量与采集数量教育庞大。
  • 可视化埋点:近年主流的埋点趋势,以前端可视化的方式,通过可视化的界面拖拽配置实现,由于活动控件元素都带有唯一标识。通过埋点配置后台,将元素与要采集事件关联起来,可以自动生成埋点代码嵌入到页面中。

2. 线下采集

关于线下采集数据,笔者认为更倾向于主观性数据的采集,因为定量,客观的数据公共场所面对面的线下采集,易使被采集者产生戒备感,非常容易造成数据采集准确程度非常差,影响数据质量,比如:笔者读书时参与过线下的数据采集,某市交通规划部门在火车站,地铁换乘站等交通枢纽随访乘客去填写出行调查问卷,尽管问卷设计的如何规范与精良,在填写完成后进行奖励等方法,乘客填写接受程度依旧很低。

所以后期此种采集方式也在调整改革,例如:定量,客观数据采用线上收集,通过与三大运营商合作,利用手机信令与基站的关系精确获得乘客们的出行记录。

另外,同学们经常在商场,超市看到各类银行宣传办信用卡的活动点,在现场填写资料,办理信用卡都可以获得礼品奖励,但是尽管如此通过观察行人接受程度较差,笔者的学校/公司食堂也举办过类似的活动,但对比之下填写调查问卷的意愿更为强烈。

线下采集数据的方式有很多种,例如:问卷调查,用户访谈,实地调研,焦点小组,用户反馈等等,接下来选取几个常用的方式进行介绍。

1)问卷调查

问卷调查是目前广泛采用的调查形式,根据调研目的设计问卷,并采用抽样方式确定调查样本,完成调查。问卷调查的步骤一般为:确定用户及样本量(根据调查目标选择符合特征的用户,尽可能多的涵盖符合目标的各类人群)——设计调查问卷框架——发放问卷(试调研/正式调研)——汇总数据,撰写报告

2)用户访谈

用户访谈是用户研究中非常常用的一种方式,运用有目的,有计划,有方法的口头交谈向用户了解事实的方法。一般用户访谈的步骤为:确定调研的目标与内容——确定用户和样本——确定访谈与提纲——进行访谈——汇总报告

三、采集数据类别

当我们通过上述方式采集数据后,获取的数据一般有三种类型,即结构化数据,非结构化数据,半结构化数据。关于结构化与非结构化数据,我们在上文《10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系(二)》提过,大家有兴趣可以点击查看。

那么何为半结构化数据呢?

半结构化数据,顾名思义就是介于结构化数据(关系型数据库)和非结构化数据(声音,视频)之间的数据。半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。下图所示就是JSON简单实例,我们可以观察发现其存储这某些书籍信息,一般日志文件,XML文档,JSON文档等就是半结构化数据。

四、小结

本文带领大家快速了解各类数据采集方式,各类采集技术固然重要,但要结合所在行业,所在企业规模情况进行选取,减少“杀鸡焉用牛刀”的情况出现。

随着国家安全重要性及居民个人隐私观念的提升,在保证数据采集的精确性的同时,更应注意数据采集中如何保护用户隐私问题的情况以及涉及到国家关键基础设施相关数据的安全性。

笔者在写这篇文章时,朋友正好像我推送微信公众号的一片关于Flightradar24涉及信息安全违规下架的文章,笔者与朋友对无线电以及AIS系统较为感兴趣,深知此类数据的重要性。

本篇文章就写到这里,关于数据分析,数据产品相关的知识笔者会继续与大家分享交流,文中不准确的地方欢迎并希望大家批评指正。

 

本文由 @快乐的给予 原创发布于人人都是产品经理,未经许可,禁止转载

题图来自 Pexels,基于 CC0 协议

给作者打赏,鼓励TA抓紧创作!
更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 期待埋点的文章 关注你了哈哈哈

    回复
  2. 随着国家安全重要性及居民个人隐私观念的提升,在保证数据采集的精确性的同时,更应注意数据采集中如何保护用户隐私问题的情况以及涉及到国家关键基础设施相关数据的安全性。

    回复
  3. 数据分析如果用的不好,会有大乱子的,我们要注意使用。

    回复
  4. 虽然爬虫技术十分方便好用,但是运用时一定要遵守法律法规,不能做触犯法律红线的事情。

    回复
  5. 半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。

    回复
  6. ”采集的数据决定了数据分析挖掘的上限“这句话说的好,任何的结论都需要坚实的论据支撑

    回复
  7. 爬虫一定不能触及法律红线,爬虫技术虽然便捷,但是也有很大的隐患

    回复