折线图(line)是由折线或曲线构成的图形。
一般由2个变量绘制,一个变量作为分析的变量,即途中线所代表的含义,另一个变量常常是定性变量或时间变量,作为分类变量或参照变量,用以考察分析变量的变动状况。折线图也可以同时考察多个变量的变动情况,并从中找出数据之间的关系
将折现图下方用不同颜色天长并堆积在一起,则可得到面积图(area plot) 。
面积图常常用来显示数据的构成或结构。
直方图(histogram)是根据变量的取值来显示其频数分布的图形。
横轴代表数据分组,纵轴可用频数或百分比(频率)来表示,横纵轴的角色可以互换。对于等距分组的数据,矩形的高度即可直接代表频数的分布,而对于不等距分组的数据,则需要用矩形面积来表示各组的频数分布特征。
条形图(bar chart)可以用来描述分类变量本身的分布状况,以及按照分类变量分组的其他变量的情况。
通常将图的横轴指定为数据的分组标志,纵轴则为频数、频率或百分比、其他变量的统计量等。通常情况下魅族标志都用相同宽度的条形表示,条形的长度等于观测数值的大小;在一些特殊情况下也可用宽度或面积不同的条形来表示分组情况。在绘图时,通常把条形分割开来以突出每组数据的独立性
龙卷风图(tornado)实际上是两个柱状图或条形图拼叠在一起形成一个形如龙卷风样式的图形,因其图形酷似龙卷风而得名。
它可以对多维度变量在不同方面的表现进行对比分析,尤其适用于对一同一变量的不同测度水平值进行对比考察。其本质就是两个数据值方向相反的条形图进行叠加
饼图(pie chart)是一种用来描述定性数据频数或百分比的图形,通常以圆饼或椭圆饼的像是出现。
饼图的整个圆即代表一个整体的全部数据,圆中的一个扇形表示总体的一个类别,其面积大小由相应部分占总体的比例来决定,且各部分比例的加总必为100%。在统计分析中,主要用阿莱研究结构性问题。
阶梯图(step)可以很好地反映变量的发展趋势,同事也体现该变量在其发展趋势中与别的变量之间的关系。
盒须图(box-plot)是用一个类似盒子的图形来描述数据的分布状况的图形,有时也叫盒形图、盒式图或箱线图。
盒须图可显示出数据的如下特征值:最大值、最小值、中位数和上下四分位数。如果把多个盒须图并列起来,还可以考察不同变量或变量不同属性之间的离散程度和数据的平均水平
默认情况下,盒须图将1.5倍内距的数据点显示为异常值。而小提琴图(violin)可以显示全部数据。
散点图(scatter)主要只用于考察两个变量之间的关系,广泛用与统计数据整理和建模过程中。
其主要特点就是分别用坐标轴的x轴和y轴来代表其所反映的变量,然后把每个数据点按照x轴和y轴所代表变量的值,绘制在二维坐标系中
气泡图(bubble)可视为散点图的延伸,即使用气泡来表示散点图中的数据点,这些气泡又可以反映除了横纵坐标轴之外的其他变量的数值大小,其数值越大,气泡就越大,反则反之。气泡图常用于3个变量之间的统计关系分析。
六边形箱图(hexagnal bin plot)也叫蜂窝图,是一种利用二元直方图对大样本数据结构捷星可视化的有效形式。当数据过于密集而不能单独绘制每个点时是替代散点图的一个好的选择
雷达坐标图(Radviz, radio coordinate visualization)是基于圆形平行坐标系的思想,将一系列多维空间的点通过非现行方法映射到二维空间的可视化技术。在高纬数据投影、海量数据投影、反映数据聚类信息等方面有较多应用,是一种多元数据可视化的重要方法。
轮廓图(parallel coordinate plots)的横坐标上依次表示需要进行分析的各个变量,纵坐标则对应各个指标的值(或经过标准化变换后的值),然后将每一个数据在横坐标所表示的变量所对应的点依次用线条连起来。轮廓图能够展示数据在多个变量构成的不同维度的数据分布状况。
调和曲线图(Andrews curves)的思想与傅里叶变换相似,时根据三角变换方法将高纬空间上的点映射到二维平面的曲线上。
等高线图(contour)常用于地理上的地形描述,在统计数据分析中也可用来描述数据的分布情况
极坐标图(polar)是在平面内由极点、极轴和极径组成的坐标系中绘制图形
词云图(word clouds)是由文字组成的图形,在文本数据挖掘中非常常见。
该图形绘制的一般过程是:先读入文本信息,然后进行分词(jieba/Yaha)和词频统计,最后用词云生成器(WordCloud/pytagcloud)绘制词云图
将数据映射到对应区域地图上的数据地图(map)是也是可视化的常用手段。