最近一两天把李老师热情推荐的八卦书《女士饮茶》给读完了,虽然大多时候是当八卦读,但是感觉收获确实很多,至少从统计史的角度认识了统计学的意义。下面是一些自己感兴趣的片段的记录,算是纪念这本书的阅读历程吧。
奇人奇事
1.皮尔逊读的是政治学博士,研究的是科学哲学问题。这位统计学的奠基者创造了统计学,也创造了统计的哲学思考了吧。也许统计学就是对数据的哲学思考。从皮尔逊的身上我们可以看到统计学和政治学、科学哲学如何紧密联系起来的。
2.皮尔逊对头骨和骨骼的统计学分析用来解决历史上的难题。
3.从达尔文到高尔顿我们可以看到生物学与行为科学对早期统计的影响。回归趋势、正态分布、相关,这些都是高尔顿的贡献。我在想生物学为基础的统计和政治社会学为基础的统计如何融合为一起的,从生物进化论到社会进化论?这种影响对日后的统计学发展又会有什么影响?
4.《生物统计》是高尔顿创立的第一个重要的统计杂志,高尔顿的经费是如此充足,以至于杂志都为全彩照片,这让我想到自己刚看到《科学·科学美国人中文版》时的感受了,不知道《生物统计》那时侯售价多少,个人是否订的起?现在拍卖的价格又是多少?
5.戈塞特用自己化学的背景进入酿酒企业,用自己的数学背景研究统计学问题,随后他的统计学研究文章成了企业重要资产,他还升上了企业管理层,真是一个工作、研究两不误的好典型。T-分布起源于戈塞特以学生(student)为笔名发表的文章,戈塞特当年的谨慎弄的我们现在刚学统计时对t-分布的意思摸不着头脑。
6.费歇尔,务过农,当过兵、教过书,就差没做过工了。他的近视造成他极强几何直觉能力,但他的几何直觉能力又让他不被人理解,塞翁失马,焉知非福。
7.费歇尔从农田里收获了统计学的果实:随机化、方差分析、自由度。费歇尔大概用统计学描述了农业收成的谱写了一曲华丽的乐章。
8.世态炎凉:艾森哈特想去拜访老年的皮尔逊,被同事所阻止:看那个老家伙有什么收获?于是那个老家伙只能孤零零地住在远离两个系(优生学系和生物统计学系)和生物统计研究所的办公室,庆幸的是他的儿子当了生物统计系的系主任,只是不知道英国人是否有中国人的想法。
9.皮尔逊的代表作:《科学的法则》 费歇尔的代表作:《研究工作者的统计方法》
10.布利斯研究杀虫剂提出概率单位分析,在列宁格勒布利斯和克格勃的对话让我感到做一个单纯的人真好。度过了大清洗的残酷和卫国战争的血腥,布利斯迎来了温馨的秋季,秋季虽然美好但很多人和事都凋零了。
11.奈曼通过勒贝格的书进入了数学殿堂,可是亲身接触勒贝格时被他的傲慢所伤害了。后来为了弥补所带来的伤害,奈曼成了平易近人的老师。奈曼把文章写的非常的简单、自然,这是学术文章的最高境界吧。
趣事:奈曼在国际会议上宣讲一篇法语文章时,已经做好准备迎接费歇尔刻薄而强力的批评,结果费歇尔表现的非常平静,原因是他不会讲法语。
12.柯尔莫戈洛夫,一个天才加全才的数学家,他在莫斯科大学数学系从没考过试,原因是他写出了14篇独创性的论文来代替14门基础课的考试(当然他后来承认有一篇的结果其实是错的)。他70多岁的时候还爬山、海洋探险、滑雪、和教皇讨论宗教史,背普希金的诗歌。
13.饼图是护士行业的传奇女性南丁格尔发明的,大概是为了和愚蠢无知的军事将领打交道时更好的说明自己的观点吧。她的女儿大卫是皮尔逊晚年的研究生,不过相当怕皮尔逊。因为费歇尔对女生不屑一顾,所以大卫想向费歇尔提问时总是请旁边的男生代劳。大卫后来写了一本组合数学,很经典的著作。
14.皮特曼解决了非参数检验中关于检验效力和检验范围的问题,他是一个墨尔本大学的数学本科学生,但当他担任统计学教授,他还没正式接触过统计学的理论。
15.大萧条中大学生找不到合适的工作,结果他们去了劳工部和商务部,从实际问题中提出了抽样理论。
16.斯内德克建立了美国第一个统计系。
17.古德说,2的开方是无理数的发现“如果是当今的大人物所为,我会觉得很平常,但在两千五百年前是个惊人之举”,因为他在10岁时就通过心算发现了这一点。古德对偶然出现的数字巧合很感兴趣,所以后来他的书有了哲学的意味。
18.迪亚科尼斯14岁时离家出走跟着一个魔术师学魔术,24岁时回来开始念纽约市立学院的成人教育班。他为了看懂一本研究生概率数学教材而想上大学。
19.博克斯因为看过费歇尔《研究工作者的统计方法》,所以被军方送去学统计。战后他报考伦敦大学的统计学研究生时,向皮尔逊大谈费歇尔的理论,结果皮尔逊静静听完后同意了他的申请,但希望他会知道统计界除了费歇尔还有别人存在。(皮尔逊真是一个厚道人!)后来博克斯还娶了费歇尔的女儿。
20.戴明提出用统计的方法进行质量的管理,启发了日本产业界人士,结果重塑了日本产业界,促进了日本经济的崛起。可惜的是墙内开花墙外香美国人很长时间不买他的帐。戴明嘲笑假设检验的广泛应用,提出有意义的是差异大小程度而不是差异显著性水平。
统计技术思想
1.费歇尔关于吸烟是否制癌的讨论,开始了统计学中什么是因果关系的讨论。实验设计能否揭示出因果关系。
2.皮尔逊用分布的概念重塑了人们对世界的理解,世界不再是精确的公式所简单描述的,而是随机图景中的概率分布。
分布的四个参数:平均数、标准差、对称性、峰度
如果一个分布接近正态分布,它只需考虑前两个参数:平均数和标准差
3.皮尔逊和皮尔逊个人矛盾演化为两种统计学派的矛盾,皮尔逊认为统计分布是真实分布的描述,费歇尔认为统计分布只是用来估计真实分布的参数。皮尔逊用假设检验,费歇尔用显著性检验。“知道如何设计实验,这个实验就几乎一定能给出一个显著性的结果”
4.中心极限定理:一个被广泛应用但到20世纪30年代还未证明的定理。
要证明中心极限定义,必须先证明符合Lindeberg-Levy 条件,要证明符合Llindeberg-Levy条件,先证明是U-统计量(可惜的是书中还是没告诉我什么是Lindeberg-Levy条件和U-统计量)也许这就是八卦书的无奈吧。
5.拟合度检验:混沌理论的一个缺陷:没有给出数据绘出的图形和混沌理论预测图形的拟合度,拟合度是皮尔逊的贡献,他最早提出了卡方检验。不过费歇尔批评他比较两种比例时得出的参数值弄错了。
6.概率论,柯尔莫戈洛夫解决了概率论的基础,把求解概率和求一个不规则图形的面积联系起来,把概率论和数学测试理论,随机过程联系起来。(逆命题我曾经在一本书中见到,如果要求一个不规则图形的面积,就把分布在图形内的随机点的数量和另一个已知面积的规则图形中的随机点的数量进行比例关系)
7.极大似然法,费歇尔提出,用迭代算法计算来逼近一致而有效的统计量。(书中就到这里,我还是不能理解,于是又查了一本比较普及的书极大似然法就是让概率密度函数的值尽可能最大化,用来使数据尽可能的符合特定的参数估计。具体怎么计算等我好好看百科全书吧:))
8.置信区间上奈曼提出的,置信区间中提出的概率是统计学家使用某种方法从长期以来看作出正确陈述的频率。
9.非参数检验:从几何的角度看就是将观测数据的散点图和纯随机分布的预期图形进行比较。
10.贝叶斯发现条件概率的公式是内部对称的,那么条件概率公式倒过来代表什么?用分布估计参数变到由参数估计分布?贝叶斯学派的两个取向:通过积累数据获得分布的信息,主观概率(先验概率和后验概率)
11.快速傅立叶变换:一种以电脑为基础的数据分析方法,可以用来分析一长串相互关联因素的影响结果,一种向临近频率借力的方法。
12.鞅(martingale):如果数列满足变异是有界的和下一个数字的最佳估计值是他的前一个数值时,这样的数列称作鞅。鞅这类数列将趋向于正态分布。如果能把长时间得到的数据看成是鞅,那么我们就可以解决生存分析之类的问题。
13.格利文科-坎泰利引理:如果有一些数,我们对它们的概率一无所知,那么我们可以构造一个非参数分布,尽管构造的数学函数结构不雅观,我们还是可以通过增大观测值的数量使经验分布函数越来越逼近真实分布函数。
14.Bootstrap:通过对自身样本进行有放回的全抽样,从而提升数据自身的模拟过程。
核密度回归估计(kernel density-based regression estimation):一种有关运算密集(在数学上对重复抽样方法的推广)的程序,由两个参数确定:核(kernel)和带宽(bandwidth)
统计与世界观
1.统计革命的基本观点:科学真实的主体是数字的分布,这个分布可以通过参数来描述。
2.在当今统计应用急剧发展的世界,统计学家已经失去对统计的控制权,各种各样的统计方法是从在应用行业使用统计的人手中直接得出。
3.坎利夫女士的忠告:人类本身在偏爱方面充满了变异,在产品制造和质量管理等方面要要注意这些变异。统计学家的工作就是阅读数据,并质疑它为什么这样。将数学问题尽可能的用数学模型的方式表达出来,会促进科学家充分了解会出现什么问题。“如果我们一本正经地对一个不懂统计的男人或女人说“P 值小于0.001”意味着什么,我们就不会成功,所以,我们必须用他们的语言来解释我们的发现,以增强说服工作的效力。”
统计学的三个哲学问题:
4.可以用统计模型做决策么?L·乔纳森·科恩的彩票悖论和无票入场者悖论
5.当概率应用于现实社会时,其含义是什么?
柯尔莫哥洛将概率定义为一个抽象空间里对一事件集合的一种测量。但我们如何来确定现实中的抽象空间。威廉·S·戈塞特试图为一个设计好的试验描述其事件空间。而第二种方法是用样本调查理论来选择抽样的方法来尽可能的使样本反映总体。
6.人们真的懂得什么是概率么?
凯恩斯在博士论文《关于概率的讨论》中指出概率的含义的结论取决于人类对不确定性量化的愿望,是一个和人的主观判断和文化背景有关的概念。(牛人的一篇牛文,有想看的冲动)凯恩斯的观念是进行统计决策的基础,影响到了卡尼曼等人关于主观概率和启发式的研究(李老师推荐了很多他的文章)
奇人奇事
1.皮尔逊读的是政治学博士,研究的是科学哲学问题。这位统计学的奠基者创造了统计学,也创造了统计的哲学思考了吧。也许统计学就是对数据的哲学思考。从皮尔逊的身上我们可以看到统计学和政治学、科学哲学如何紧密联系起来的。
2.皮尔逊对头骨和骨骼的统计学分析用来解决历史上的难题。
3.从达尔文到高尔顿我们可以看到生物学与行为科学对早期统计的影响。回归趋势、正态分布、相关,这些都是高尔顿的贡献。我在想生物学为基础的统计和政治社会学为基础的统计如何融合为一起的,从生物进化论到社会进化论?这种影响对日后的统计学发展又会有什么影响?
4.《生物统计》是高尔顿创立的第一个重要的统计杂志,高尔顿的经费是如此充足,以至于杂志都为全彩照片,这让我想到自己刚看到《科学·科学美国人中文版》时的感受了,不知道《生物统计》那时侯售价多少,个人是否订的起?现在拍卖的价格又是多少?
5.戈塞特用自己化学的背景进入酿酒企业,用自己的数学背景研究统计学问题,随后他的统计学研究文章成了企业重要资产,他还升上了企业管理层,真是一个工作、研究两不误的好典型。T-分布起源于戈塞特以学生(student)为笔名发表的文章,戈塞特当年的谨慎弄的我们现在刚学统计时对t-分布的意思摸不着头脑。
6.费歇尔,务过农,当过兵、教过书,就差没做过工了。他的近视造成他极强几何直觉能力,但他的几何直觉能力又让他不被人理解,塞翁失马,焉知非福。
7.费歇尔从农田里收获了统计学的果实:随机化、方差分析、自由度。费歇尔大概用统计学描述了农业收成的谱写了一曲华丽的乐章。
8.世态炎凉:艾森哈特想去拜访老年的皮尔逊,被同事所阻止:看那个老家伙有什么收获?于是那个老家伙只能孤零零地住在远离两个系(优生学系和生物统计学系)和生物统计研究所的办公室,庆幸的是他的儿子当了生物统计系的系主任,只是不知道英国人是否有中国人的想法。
9.皮尔逊的代表作:《科学的法则》 费歇尔的代表作:《研究工作者的统计方法》
10.布利斯研究杀虫剂提出概率单位分析,在列宁格勒布利斯和克格勃的对话让我感到做一个单纯的人真好。度过了大清洗的残酷和卫国战争的血腥,布利斯迎来了温馨的秋季,秋季虽然美好但很多人和事都凋零了。
11.奈曼通过勒贝格的书进入了数学殿堂,可是亲身接触勒贝格时被他的傲慢所伤害了。后来为了弥补所带来的伤害,奈曼成了平易近人的老师。奈曼把文章写的非常的简单、自然,这是学术文章的最高境界吧。
趣事:奈曼在国际会议上宣讲一篇法语文章时,已经做好准备迎接费歇尔刻薄而强力的批评,结果费歇尔表现的非常平静,原因是他不会讲法语。
12.柯尔莫戈洛夫,一个天才加全才的数学家,他在莫斯科大学数学系从没考过试,原因是他写出了14篇独创性的论文来代替14门基础课的考试(当然他后来承认有一篇的结果其实是错的)。他70多岁的时候还爬山、海洋探险、滑雪、和教皇讨论宗教史,背普希金的诗歌。
13.饼图是护士行业的传奇女性南丁格尔发明的,大概是为了和愚蠢无知的军事将领打交道时更好的说明自己的观点吧。她的女儿大卫是皮尔逊晚年的研究生,不过相当怕皮尔逊。因为费歇尔对女生不屑一顾,所以大卫想向费歇尔提问时总是请旁边的男生代劳。大卫后来写了一本组合数学,很经典的著作。
14.皮特曼解决了非参数检验中关于检验效力和检验范围的问题,他是一个墨尔本大学的数学本科学生,但当他担任统计学教授,他还没正式接触过统计学的理论。
15.大萧条中大学生找不到合适的工作,结果他们去了劳工部和商务部,从实际问题中提出了抽样理论。
16.斯内德克建立了美国第一个统计系。
17.古德说,2的开方是无理数的发现“如果是当今的大人物所为,我会觉得很平常,但在两千五百年前是个惊人之举”,因为他在10岁时就通过心算发现了这一点。古德对偶然出现的数字巧合很感兴趣,所以后来他的书有了哲学的意味。
18.迪亚科尼斯14岁时离家出走跟着一个魔术师学魔术,24岁时回来开始念纽约市立学院的成人教育班。他为了看懂一本研究生概率数学教材而想上大学。
19.博克斯因为看过费歇尔《研究工作者的统计方法》,所以被军方送去学统计。战后他报考伦敦大学的统计学研究生时,向皮尔逊大谈费歇尔的理论,结果皮尔逊静静听完后同意了他的申请,但希望他会知道统计界除了费歇尔还有别人存在。(皮尔逊真是一个厚道人!)后来博克斯还娶了费歇尔的女儿。
20.戴明提出用统计的方法进行质量的管理,启发了日本产业界人士,结果重塑了日本产业界,促进了日本经济的崛起。可惜的是墙内开花墙外香美国人很长时间不买他的帐。戴明嘲笑假设检验的广泛应用,提出有意义的是差异大小程度而不是差异显著性水平。
统计技术思想
1.费歇尔关于吸烟是否制癌的讨论,开始了统计学中什么是因果关系的讨论。实验设计能否揭示出因果关系。
2.皮尔逊用分布的概念重塑了人们对世界的理解,世界不再是精确的公式所简单描述的,而是随机图景中的概率分布。
分布的四个参数:平均数、标准差、对称性、峰度
如果一个分布接近正态分布,它只需考虑前两个参数:平均数和标准差
3.皮尔逊和皮尔逊个人矛盾演化为两种统计学派的矛盾,皮尔逊认为统计分布是真实分布的描述,费歇尔认为统计分布只是用来估计真实分布的参数。皮尔逊用假设检验,费歇尔用显著性检验。“知道如何设计实验,这个实验就几乎一定能给出一个显著性的结果”
4.中心极限定理:一个被广泛应用但到20世纪30年代还未证明的定理。
要证明中心极限定义,必须先证明符合Lindeberg-Levy 条件,要证明符合Llindeberg-Levy条件,先证明是U-统计量(可惜的是书中还是没告诉我什么是Lindeberg-Levy条件和U-统计量)也许这就是八卦书的无奈吧。
5.拟合度检验:混沌理论的一个缺陷:没有给出数据绘出的图形和混沌理论预测图形的拟合度,拟合度是皮尔逊的贡献,他最早提出了卡方检验。不过费歇尔批评他比较两种比例时得出的参数值弄错了。
6.概率论,柯尔莫戈洛夫解决了概率论的基础,把求解概率和求一个不规则图形的面积联系起来,把概率论和数学测试理论,随机过程联系起来。(逆命题我曾经在一本书中见到,如果要求一个不规则图形的面积,就把分布在图形内的随机点的数量和另一个已知面积的规则图形中的随机点的数量进行比例关系)
7.极大似然法,费歇尔提出,用迭代算法计算来逼近一致而有效的统计量。(书中就到这里,我还是不能理解,于是又查了一本比较普及的书极大似然法就是让概率密度函数的值尽可能最大化,用来使数据尽可能的符合特定的参数估计。具体怎么计算等我好好看百科全书吧:))
8.置信区间上奈曼提出的,置信区间中提出的概率是统计学家使用某种方法从长期以来看作出正确陈述的频率。
9.非参数检验:从几何的角度看就是将观测数据的散点图和纯随机分布的预期图形进行比较。
10.贝叶斯发现条件概率的公式是内部对称的,那么条件概率公式倒过来代表什么?用分布估计参数变到由参数估计分布?贝叶斯学派的两个取向:通过积累数据获得分布的信息,主观概率(先验概率和后验概率)
11.快速傅立叶变换:一种以电脑为基础的数据分析方法,可以用来分析一长串相互关联因素的影响结果,一种向临近频率借力的方法。
12.鞅(martingale):如果数列满足变异是有界的和下一个数字的最佳估计值是他的前一个数值时,这样的数列称作鞅。鞅这类数列将趋向于正态分布。如果能把长时间得到的数据看成是鞅,那么我们就可以解决生存分析之类的问题。
13.格利文科-坎泰利引理:如果有一些数,我们对它们的概率一无所知,那么我们可以构造一个非参数分布,尽管构造的数学函数结构不雅观,我们还是可以通过增大观测值的数量使经验分布函数越来越逼近真实分布函数。
14.Bootstrap:通过对自身样本进行有放回的全抽样,从而提升数据自身的模拟过程。
核密度回归估计(kernel density-based regression estimation):一种有关运算密集(在数学上对重复抽样方法的推广)的程序,由两个参数确定:核(kernel)和带宽(bandwidth)
统计与世界观
1.统计革命的基本观点:科学真实的主体是数字的分布,这个分布可以通过参数来描述。
2.在当今统计应用急剧发展的世界,统计学家已经失去对统计的控制权,各种各样的统计方法是从在应用行业使用统计的人手中直接得出。
3.坎利夫女士的忠告:人类本身在偏爱方面充满了变异,在产品制造和质量管理等方面要要注意这些变异。统计学家的工作就是阅读数据,并质疑它为什么这样。将数学问题尽可能的用数学模型的方式表达出来,会促进科学家充分了解会出现什么问题。“如果我们一本正经地对一个不懂统计的男人或女人说“P 值小于0.001”意味着什么,我们就不会成功,所以,我们必须用他们的语言来解释我们的发现,以增强说服工作的效力。”
统计学的三个哲学问题:
4.可以用统计模型做决策么?L·乔纳森·科恩的彩票悖论和无票入场者悖论
5.当概率应用于现实社会时,其含义是什么?
柯尔莫哥洛将概率定义为一个抽象空间里对一事件集合的一种测量。但我们如何来确定现实中的抽象空间。威廉·S·戈塞特试图为一个设计好的试验描述其事件空间。而第二种方法是用样本调查理论来选择抽样的方法来尽可能的使样本反映总体。
6.人们真的懂得什么是概率么?
凯恩斯在博士论文《关于概率的讨论》中指出概率的含义的结论取决于人类对不确定性量化的愿望,是一个和人的主观判断和文化背景有关的概念。(牛人的一篇牛文,有想看的冲动)凯恩斯的观念是进行统计决策的基础,影响到了卡尼曼等人关于主观概率和启发式的研究(李老师推荐了很多他的文章)
没有评论:
发表评论