2009年1月24日星期六

应用多元统计笔记之统计距离

(最近在看图书馆借的《实用多元统计分析》(A约翰逊,迪安 W威克恩),觉得其用线性代数的方式解释统计的方式很受启发,再加上是借的书,所以希望作些笔记,算是总结以下自己读书的收获,准备用专题的方式把书中的一些概念记下来,同时参考一些其他资料。这也利于以后查阅)

统计距离(statistical distance)是多元统计的基础概念。它是为了解释变异差异和引入相关概念而发展起来的。试想我们测量两个变量,得到一系列数值对,每个变量的数值均值为0。两个变量的测量相互独立。而我们假定变量X1的变异量比变量X2要大。那么在以二维坐标图上(X1为x 轴,X2为y轴)表现为一个形状类似扁长椭圆的散点图。因为x轴的变异量大于y轴(因为X1变异量大于X2),所以在统计上认为将两个坐标赋予相同的权重并不合适。因此我们引进了一个标准化后的坐标 \inline$x_{1}^{*}=x_{1}/\sqrt{s_{11}}$\inline$x_{2}^{*}=x_{2}/\sqrt{s_{22}}$ 从而定义了统计距离为:
\inline$d(O,P)=\sqrt{(x_{1}^{*})^{2}+(x_{1}^{*})^{2}}$ $=\sqrt{\frac{x_{1}^{2}}{s_{11}}+\frac{x_{2}^{2}}{s_{22}}}$
(引自理查德 A约翰逊,迪安 W威克恩(2008),实用多元统计分析(影印版),清华大学出版社,以下同上)

因此统计距离是对欧式距离的推广(二维是 \inline$d(O,P)=\sqrt{(x_{1})^{2}+(x_{2})^{2}}$ ),当变量间变异量一致时,我们用欧式距离来计算距离,当变异量不一致时我们考虑统计距离。
当统计距离为常量c时, 有以下方程
\frac{x_{1}^{2}}{s_{11}}+\frac{x_{2}^{2}}{s_{22}}=c^{2}$

该方程是一个中心在原点的椭圆方程,与x轴的交点为 \inline$-c\sqrt{s_{11}}$\inline$c\sqrt{s_{11}}$与y轴的交点为\inline$-c\sqrt{s_{22}}$\inline$c\sqrt{s_{22}}$

如果对统计距离在进行推广对任何一个点P(X1,X2)到固定点Y(Y1,Y2)的统计距离是:
\inline$d(O,P)=\sqrt{\frac{(x_{1}-y_{1})^{2}}{s_{11}}+\frac{(x_{2}-y_{2})^{2}}{s_{22}}}$
统计距离还可以推广到啊更高的维度

以上的统计距离公式考虑的是变量之间相互独立的情形,因此有必要考虑变量之间相关的情形,所以引进了旋转角度的方法,如果把相关变量的散点图的坐标轴旋转至符合独立变量的情形那么可以得出
\inline$d(O,P)=\sqrt{\frac{(x_{1}^{'})^{2}}{s_{11}^{'}}+\frac{(x_{2}^{'})^{2}}{s_{22}^{1}}}$
x1’和x2’分别为 \inline$x_{1}^{'}=x_{1}cos(\theta)+x_{2}sin(\theta)$\inline$x_{2}^{'}=-x_{1}sin(\theta)+x_{2}cos(\theta)$

最终我们得出:
\inline$d(O,P)=\sqrt{a_{11}x_{1}^{2}+2a_{12}x_{1}x_{2}+a_{22}x_{2}^{2}}$

其中a11,a12,a22是由角度θ决定的

同样对于P(X1,X2)到固定点Y(Y1,Y2)统计距离为
\inline$d(O,P)=\sqrt{a_{11}(x_{1}-y_{2})^{2}+2a_{12}(x_{1}-y_{1})(x_{2}-y_{2})+a_{22}(x_{2}-y_{2})^{2}}$
同时可以把统计距离推广到更高维的地方。

要指出的是k距离并不只是和椭圆或圆联系在一起,任何距离测量只需符合以下特征:
d(P,Q)=d(Q,P)
d(P,Q)>0 如果P!=Q
d(P,Q)=0,如果P=Q
d(P,Q)<=d(P,R)+d(R,Q) (三角不等式)

对于统计距离的解释可以根据以下定理: \inline$(x-\mu)\sum^{-1}(x-\mu)$\inline$\chi_{p}^{2}$ 分布,其中 \inline$\chi_{p}^{2}$ 为自由度为p的卡方分布,\inline$(x-\mu)\sum^{-1}(x-\mu)$ 为多元正态分布的形式

根据卡方分布的定义我们可以得出
\inline$(x-\mu)\sum^{-1}(x-\mu)$$=Z_{1}^{2}+Z_{2}^{2}+........+Z_{P}^{2}$

其中 \inline$Z=\sum^{-\frac{1}{2}}(X-\mu)$$\inline$N_{p}(0,I_{p})$ 的正态分布

所以统计距离平方可以转化为p个 独立的标准正态分布变量的平方和,即把标准正态分布变量数值看成坐标值。其中 \inline$(x-\mu)\sum^{-1}(x-\mu)$ 也称作Mahalanobis距离(由P. C. Mahalanobisi在1936年提出)。Mahalanobis距离可以检测线性回归模型中的异常值。

统计距离在聚类分析中有着更广泛的应用,聚类分析有通过距离测度来获得相似性测度的方法,即通过统计距离的远近来判断案例(在坐标系中视作点)是否相似,属于同一类别(这也是统计距离的初衷所在)。所用的距离测度有:

欧式距离


(引自郭志刚《社会统计分析方法——SPSS软件应用》p122)


绝对值距离


(引自郭志刚《社会统计分析方法——SPSS软件应用》p122)

Minkowski距离

(引自郭志刚《社会统计分析方法——SPSS软件应用》p122)

Mahalanobis距离

(引自郭志刚《社会统计分析方法——SPSS软件应用》p122)


统计距离此外还有Cook距离 (http://en.wikipedia.org/wiki/Cook%27s_distance) 、Hellinger 距离 (http://en.wikipedia.org/wiki/Hellinger_distance)和Bhatta charyya距离 (http://en.wikipedia.org/wiki/Bhattacharyya_distance)等

参考文献
1.郭志刚(1999)郭志刚《社会统计分析方法——SPSS软件应用》,人民大学出版社
2.理查德 A约翰逊,迪安 W威克恩(2008),实用多元统计分析(影印版),清华大学出版社
3.维基有关statistical distance的相关条目

2009年1月15日星期四

chernoff face

今天读《实用多元统计分析》(“applied multivariate statistical analysis”)时,读到有关 chernoff face的介绍,觉得挺有意思。Chernoff face是一种有趣的数据呈现方法。它把多元数据用二维的人脸的方式整体表现出来。各类数据变量经过编码后,转变为脸型,眉毛,眼睛,鼻子,嘴,下巴等面部特征来,数据整体就是一张表情各异的人脸。Chernoff在70年代提出了chernoff face的技术。他认为chernoff face可以用来表示最多为18种变量的数据。Bernhard Flury和Hans Riedwy(1981)认为,保持chernoff face脸对称并没有意义,因此他们主张用另外18个不同的数据点来表示另外半张脸(在我看来这为数据的分半信度提供了很好的方法)。所以chernof face可以表示36个数据点。

Chernoff face是一个需要计算机才能实现的技术,很多软件提供了此类服务,比如有专门制作chernoff face的软件Faces 2.1(下载地址为http://bradandkathy.com/files/Faces2.zip)R中也有相应的代码,具体代码和使用可以看http://rss.acs.unt.edu/Rdoc/library/TeachingDemos/html/faces.html。

利用人对人脸识别的天生能力来鉴别数据的整体特征。这是一个有意思的创意。但是转化后的人脸意味着什么?我们如何把多元数据真正合理地类比为人脸,这不是一个容易回答的问题。最初的chernoff face中,变量编码为哪一个面部特征是随意的,这就使得数据呈现无法利用面部识别的特点(整体性),而且也很容易对数据的真正意义产生误解。Morris, Ebert和Rheingans等人(1999)对chernoff face的实际效果进行了实验研究,发现对被试chernoff face的识别是序列搜索任务,而不是发生在平行搜索的前注意阶段。chernoff faced的眼部表情在识别作用最大。但总体上chernoff face并不见得比其他数据呈现图形效果更好。同时chernoff face虽然有助于知觉,但是不同的面部特征之间可能会出现交互作用,因此对面部特征的知觉空间可能是非线性的。(http://eagereyes.org/VisCrit/ChernoffFaces.html)

最近有人提出了EVA(empathic visualization algorithm)的方法(http://www.cs.ucl.ac.uk/staff/a.loizides/218.pdf),对chernoff face进行了修正和扩展。EVA方法将语义上重要的数据变量编码为情绪上重要的面部特征(如脸的表情,肌肉紧张度等)。EVA强调数据的特征对面部特征起着决定作用,整体值对整体特征,缺失值对缺失特征,两者严格对应,这样的话chernoff face的面部特征就是数据的真实体现。然而要做到这一点,必须对数据进行预先的严格分析,这就要耗费比较大的精力。也许chernoff face只是一个说服别人的工具,而不是一个探索问题的工具。Chernoff face最重要的功能就是分类和校准。我们可以通过chernoff face很轻易地把一个不同于其他的数据样本挑出来。

对面部的精确识别,这是人的一个很奇妙的能力,也是心理学家试图探索而没有完整解决的问题。chernoff face应用的得与失,也许只有随着面部识别的研究进展才能更好的回答了。现在还是欣赏一下我找到的chernoff face吧:)

R中 关于chernoff face 的例子:


真人版chernoff face:
(引自http://alexreisner.com/baseball/stats/chernoff)


参考文献
1.Wiki: chernoff face http://en.wikipedia.org/wiki/Chernoff_face
2.理查德 A约翰逊,迪安 W威克恩(2008),实用多元统计分析(影印版),清华大学出版社
3.Morris CJ, Ebert DS, Rheingans(1999) "An Experimental Analysis of the Pre-Attentiveness of Features in Chernoff Faces", published by the conference "Applied Imagery Pattern Recognition: 3D Visualization for Data Exploration and Decision Making".
4.Social Science Statistics Blog: Chernoff face:
http://www.iq.harvard.edu/blog/sss/archives/2006/11/chernoff_faces_1.shtml