统计距离(statistical distance)是多元统计的基础概念。它是为了解释变异差异和引入相关概念而发展起来的。试想我们测量两个变量,得到一系列数值对,每个变量的数值均值为0。两个变量的测量相互独立。而我们假定变量X1的变异量比变量X2要大。那么在以二维坐标图上(X1为x 轴,X2为y轴)表现为一个形状类似扁长椭圆的散点图。因为x轴的变异量大于y轴(因为X1变异量大于X2),所以在统计上认为将两个坐标赋予相同的权重并不合适。因此我们引进了一个标准化后的坐标
\inline$x_{1}^{*}=x_{1}/\sqrt{s_{11}}$
和 \inline$x_{2}^{*}=x_{2}/\sqrt{s_{22}}$
从而定义了统计距离为:\inline$d(O,P)=\sqrt{(x_{1}^{*})^{2}+(x_{1}^{*})^{2}}$ $=\sqrt{\frac{x_{1}^{2}}{s_{11}}+\frac{x_{2}^{2}}{s_{22}}}$
(引自理查德 A约翰逊,迪安 W威克恩(2008),实用多元统计分析(影印版),清华大学出版社,以下同上)
因此统计距离是对欧式距离的推广(二维是
\inline$d(O,P)=\sqrt{(x_{1})^{2}+(x_{2})^{2}}$
),当变量间变异量一致时,我们用欧式距离来计算距离,当变异量不一致时我们考虑统计距离。当统计距离为常量c时, 有以下方程
\frac{x_{1}^{2}}{s_{11}}+\frac{x_{2}^{2}}{s_{22}}=c^{2}$
该方程是一个中心在原点的椭圆方程,与x轴的交点为
\inline$-c\sqrt{s_{11}}$
和\inline$c\sqrt{s_{11}}$
与y轴的交点为\inline$-c\sqrt{s_{22}}$
和 \inline$c\sqrt{s_{22}}$
如果对统计距离在进行推广对任何一个点P(X1,X2)到固定点Y(Y1,Y2)的统计距离是:
\inline$d(O,P)=\sqrt{\frac{(x_{1}-y_{1})^{2}}{s_{11}}+\frac{(x_{2}-y_{2})^{2}}{s_{22}}}$
统计距离还可以推广到啊更高的维度
以上的统计距离公式考虑的是变量之间相互独立的情形,因此有必要考虑变量之间相关的情形,所以引进了旋转角度的方法,如果把相关变量的散点图的坐标轴旋转至符合独立变量的情形那么可以得出
\inline$d(O,P)=\sqrt{\frac{(x_{1}^{'})^{2}}{s_{11}^{'}}+\frac{(x_{2}^{'})^{2}}{s_{22}^{1}}}$
x1’和x2’分别为
\inline$x_{1}^{'}=x_{1}cos(\theta)+x_{2}sin(\theta)$
和 \inline$x_{2}^{'}=-x_{1}sin(\theta)+x_{2}cos(\theta)$
最终我们得出:
\inline$d(O,P)=\sqrt{a_{11}x_{1}^{2}+2a_{12}x_{1}x_{2}+a_{22}x_{2}^{2}}$
其中a11,a12,a22是由角度θ决定的
同样对于P(X1,X2)到固定点Y(Y1,Y2)统计距离为
\inline$d(O,P)=\sqrt{a_{11}(x_{1}-y_{2})^{2}+2a_{12}(x_{1}-y_{1})(x_{2}-y_{2})+a_{22}(x_{2}-y_{2})^{2}}$
同时可以把统计距离推广到更高维的地方。
要指出的是k距离并不只是和椭圆或圆联系在一起,任何距离测量只需符合以下特征:
d(P,Q)=d(Q,P)
d(P,Q)>0 如果P!=Q
d(P,Q)=0,如果P=Q
d(P,Q)<=d(P,R)+d(R,Q) (三角不等式)
对于统计距离的解释可以根据以下定理:
\inline$(x-\mu)\sum^{-1}(x-\mu)$
为 \inline$\chi_{p}^{2}$
分布,其中 \inline$\chi_{p}^{2}$
为自由度为p的卡方分布,\inline$(x-\mu)\sum^{-1}(x-\mu)$
为多元正态分布的形式根据卡方分布的定义我们可以得出
\inline$(x-\mu)\sum^{-1}(x-\mu)$$=Z_{1}^{2}+Z_{2}^{2}+........+Z_{P}^{2}$
其中
\inline$Z=\sum^{-\frac{1}{2}}(X-\mu)$$
是\inline$N_{p}(0,I_{p})$
的正态分布所以统计距离平方可以转化为p个 独立的标准正态分布变量的平方和,即把标准正态分布变量数值看成坐标值。其中
\inline$(x-\mu)\sum^{-1}(x-\mu)$
也称作Mahalanobis距离(由P. C. Mahalanobisi在1936年提出)。Mahalanobis距离可以检测线性回归模型中的异常值。统计距离在聚类分析中有着更广泛的应用,聚类分析有通过距离测度来获得相似性测度的方法,即通过统计距离的远近来判断案例(在坐标系中视作点)是否相似,属于同一类别(这也是统计距离的初衷所在)。所用的距离测度有:
欧式距离

(引自郭志刚《社会统计分析方法——SPSS软件应用》p122)
绝对值距离

(引自郭志刚《社会统计分析方法——SPSS软件应用》p122)
Minkowski距离

(引自郭志刚《社会统计分析方法——SPSS软件应用》p122)
Mahalanobis距离

(引自郭志刚《社会统计分析方法——SPSS软件应用》p122)
统计距离此外还有Cook距离 (http://en.wikipedia.org/wiki/Cook%27s_distance) 、Hellinger 距离 (http://en.wikipedia.org/wiki/Hellinger_distance)和Bhatta charyya距离 (http://en.wikipedia.org/wiki/Bhattacharyya_distance)等
参考文献
1.郭志刚(1999)郭志刚《社会统计分析方法——SPSS软件应用》,人民大学出版社
2.理查德 A约翰逊,迪安 W威克恩(2008),实用多元统计分析(影印版),清华大学出版社
3.维基有关statistical distance的相关条目