空间分析的数学基础

Posted by Keling Ma on 2018-04-24

GIS的价值除了在一张图上为我们浓缩下整个世界,还提供了大量的空间分析和统计的方法,可以针对地理数据进行空间分析,挖掘隐藏在数据背后的信息,帮助我们更深刻的洞察世界。

在大数据和人工智能时代,人人皆知数据的重要性,数据是驱动智能的燃料,而统计学为之提供了燃炉。在震惊统计学为今天人工智能在自然语言处理,翻译,图像识别等诸多领域爆发的惊人威力后,低头看看脚下,原来GIS也一直都在用统计学来分析和解决地理问题。

为了更好的理解ArcGIS提供的空间分析工具,特别是GA提供的专用于矢量大数据分析的工具,我们十分有必要认真的学习一下统计学中常用的各项统计指标。

统计指标

常用的统计学指标包含样本总数(Count),总值(Sum),中值(median), 最小值(Minimum),最大值(Maximum),极差(Range),均值(Mean),方差(Variance)和标准差(Standard Deviation)。这些指标在空间分析和统计中将被反复用到,在这里通过一个简单的例子来说明他们的含义。

一个数字序列:[20, 18, 24, 9, 15, 33, 2, 10 ], 分别计算样本总数,总值,中值,最小值,最大值,极差,均值,方差和标准差。

统计指标 描述 公式 结果
Count 样本个数。 =N [20, 18, 24, 9, 15, 33, 2, 10] = 8
Sum 所有样本值的总和。 (20+18+24+9+15+33+2+10)= 131
Median 中值就是样本的中间值,计算中值需要先排序。奇数列,中值=数列中间值;偶数列,中值=数列两个中间值的平均值。 [2, 9, 10, 15, 18,10, 24, 33] = (15 + 18) /2 = 16.5
Minimum 样本中的的最小值。 [2, 9, 10, 15, 18,10, 24, 33] = 2
Maximum 样本中的最大值。 [2, 9, 10, 15, 18,10, 24, 33] = 2
Range 极差通常用来分析样本数据的分散度。 [2, 9, 10, 15, 18,10, 24, 33] = 33 - 2 = 31
Mean 样本的平均值=样本总值/样本个数。 131/8 = 16.375
Variance 方差用来表达样本空间的距离,即样本的分布趋势。
Standard Deviation 标准差是方差的开方,标准差的意义是将方差获得的结果回归样本本来的真实单位。

进一步理解方差

在统计学中,方差用来度量样本和总体的分散趋势,实质计算的是样本空间的距离。方差越大,代表数据越偏离均值,也就是数据越分散,方差越小,代表样本都围绕在均值周围,越集聚。

我个人认为最直观,最能清楚表达方差含义的就是上面表格中的公式。

方差公式一:

有一点存疑: 为何分母是除以(n-1), 而不是n? 这个n-1可以理解为是根据经验得出的解决方案。在统计学中,实际要统计的总体数据可能非常大,是海量的,没办法逐个计算统计出均值和方差。更具实践意义的解决办法是抽样,既然是抽样就相当于通过样本来估计总体,由于抽样的样本分布可能存在偏差,用样本方差模拟总体方差往往低估,所以按经验除以(n-1),样本方差会更接近总体方差。

方差公式一虽然直观,含义明确,但是对于计算机运算来说,效率却可能不高。事实上公式一通过推导,还可以变身为:

方差公式二:

这个方差公式正是Esri采纳的公式,虽然理解起来晦涩,但是计算起来方便,如果不经过推导,按照直觉,无论如何你可能也不会相信这两个公式得出的结果相等。两个公式的变换推导过程相当复杂,这里有个偷懒的验证办法,可以直接用上面我提供的示例数值队列,分别代入到两个公式,验证结果是否相等。

动手试试吧,可能你会怀疑自己的眼睛,但是真的会体验到数学之美!