平行坐标系:高维数据可视化分析的必备杀手锏

3 评论 3986 浏览 6 收藏 11 分钟

编辑导语:数据可视化并不是简单的把数据变成图表,而是以数据为视角,看待世界,换句话说,数据可视化的客体是数据。如果能够很好的运用平行坐标系,便能高效地进行高维数据可视化分析。

今天聊聊一种不太常见但又挺好用的可视化图形:平行坐标系。

关于数据可视化,我们很久之前分享过Excel基础图表以及Excel进阶图表,都是Excel支持的我们常用的一些图表逻辑。今天分享一个数据人应该见过但是不那么熟悉的图形:平行坐标系(Parallel Coordinates)。

一、定义及适用场景

首先,聊聊平行坐标系的一些整体概述内容。

1. 基础定义

平行坐标系,是一种含有多个垂直平行坐标轴的统计图表。每个垂直坐标轴表示一个字段(维度),每个字段(维度)又用刻度来标明范围,如下示例图。

平行坐标系:高维数据可视化分析的必备杀手锏

这样,一个多维的数据可以很容易地在每一条轴上找到“落点”,从而连接起来,形成一条折线。随着数据增多,折线堆叠,分析者则有可能从中发现特性和规律,比如发现数据之间的聚类关系。

2. 历史发展

大约在一百多年前,就已经有人运用平行坐标,来对复杂事件做可视化。

平行坐标系:高维数据可视化分析的必备杀手锏

在20世纪70年代,作为一种统计图表,平行坐标系被特拉维夫大学的Alfred Inselberg系统发展起来。

3. 适用场景

平行坐标图最适用于多维数据(尤其是维度大于3个时,3个以内的维度可以用散点图)的分析和比较。例如,多个学科、多个考核指标、多个关键参数等。

当然,前提是用来比较的对象都具有这些维度。比如,一个经典的案例(下文中的场景案例2),是用平行坐标系来比较世界各国汽车在性能上的差异。对于汽车而言,这些维度是共有的(包括耗油量、汽缸数、加速度等等),因而适合比较。

二、图表详细逻辑

我们以一个例子,理解一下图表的数据逻辑。

例如,某班主任想分析班级学生的优劣势科目,以及每个学生的偏科情况。下面是具体数据表:

平行坐标系:高维数据可视化分析的必备杀手锏

做完平行坐标图后:

平行坐标系:高维数据可视化分析的必备杀手锏

平行坐标系的每个坐标轴,很可能有不同的数据范围,这一点很容易造成读者误解。作图时,最好显著标明每一根轴上的最小值、最大值。

使用平行坐标系时,如何确定轴的顺序,是可以人为决定的。一般来说,顺序会影响阅读的感知和判断。两根坐标轴隔得越近,人们对二者的对比就感知地越强烈。因此,要得出最合适、美观的排序方式,往往需要经过多次的试验和比较。反过来讲,尝试不同的排布方式,也可能有助于得出更多的结论。

三、与其他图表的关系

下面我们看一看平行坐标系和其他比较相似的图表的对比。

1. 与折线图

平行坐标系与折线图完全不同。

平行坐标系:高维数据可视化分析的必备杀手锏

折线图的数据是通过时间组织起来的(每个数据点之间包含着时间前后的关系),但平行坐标轴并没有时间序列,它的坐标轴是可以人为设定顺序的,点与点之间也没有因果关系,折线并不代表趋势。各个坐标轴之间也没有因果关系。

2. 与桑吉图

桑吉图在之前的 路径分析 中有过介绍。

平行坐标系:高维数据可视化分析的必备杀手锏

看着挺像的,但是桑吉图有个重要的逻辑是:每个竖轴前后是有顺序关系的,而平行坐标系没有先后顺序。

因此,桑吉图更多作为用户路径先后顺序的分析,以及层次拆分的分析。

3. 与雷达图

其实,平行坐标系和雷达图是最相近的。

平行坐标系:高维数据可视化分析的必备杀手锏

雷达图表示的是多个维度上的分布情况,平行坐标系也是。因此可以将平行坐标系理解成雷达图的展开。大多数情况下,这两者确实可以互换。

四、劣势以及交互提升

平行坐标系的弊端在于折线太多、看上去十分庞杂,过于凌乱。但平行坐标系在处理多维数据上的优势,仍然是其他统计图难以比拟的。尤其是,当平行坐标系配合交互功能使用时,其价值就会立刻显现。

最好的解决方法是加入交互——“Brushing”,用户可以通过“刷”的方法,在坐标轴上“刷”出他们想要探索的部分。基本操作是,用户可以在每一根垂直坐标轴上“刷”出自己想要的范围,处于范围内的折线高亮,其余的呈灰度。这样一来,我们既可以看到所有折线堆叠出来的整体景观,又可以自由定制想看的范围,可以说是“见树又见林”。

当然,交互的设计可以不限于此,比如下图将平行坐标系与表格结合起来,对于小型的数据集来说,会更加一目了然。

平行坐标系:高维数据可视化分析的必备杀手锏

此外,如下图所示,也可以通过技术将繁杂的折线“捆”在一起(Bundling Technique),这样,人们的视觉就更能集中于起始的刻度。

平行坐标系:高维数据可视化分析的必备杀手锏

五、典型案例

最后,我们看两个典型的利用平行坐标系的案例。

1. 历年世界500强排名

下图总结了1955-2010年来的世界五百强公司排名、收入和利润情况。

平行坐标系:高维数据可视化分析的必备杀手锏

每一根竖轴代表一年的排名,通过将每家公司历年的排名描点、连线,就形成了一条折线。鼠标滑动时,相应的公司会高亮显示,方便读者探索它的兴衰变化。例如上图中,我们看到可口可乐公司的排名,尽管有所波动,但始终位于高位,并且稳中有升,在1994年达到巅峰,之后有所回落。

原文链接:https://fathom.info/fortune500/

2. 汽车参数对比

在平行坐标系的众多简介中,几乎都会涉及到这个汽车的案例——数据包括上世纪70、80年代的32款汽车,以及这些汽车的气缸数(cylinders)、引擎大小(displacement)、每加仑汽油行驶的里程(MPG)、功率(horsepower)、重量(weight)等等。

平行坐标系:高维数据可视化分析的必备杀手锏

从图中(Evans, no date),我们可以清晰地看出一些关系,例如从里程与气缸数呈负相关、气缸数与功率呈正相关。再比如,随着时间发展,汽车越来越轻了。通过“Brushing”功能,还有更多新奇发现。

关于平行坐标系,我们就先介绍这些吧。如果大家对可视化图表感兴趣,后面我作为系列展开多分享分享。我觉得这种基础的数据产品以及数据分析的知识点,还是有必要扎实掌握的。

#专栏作家#

NK冬至,公众号:首席数据科学家,人人都是产品经理专栏作家。在金融领域、电商领域有丰富数据及产品经验。擅长数据分析、数据产品等相关内容。

本文原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自Unsplash,基于CC0协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 当我们需要对所使用的高位数据进行数据分析的时候往往感到束手无策。

    来自山东 回复
  2. 太酷了,作者的这些文章,码住学习了,希望能够多掌握一些知识

    来自云南 回复
    1. 感谢关注~欢迎关注同名公号

      回复