打印纸张 字号选择:超大 行高 带图打印 返回原文

首页 > 报告 文稿 综合

纪宏:统计改变您的人生

2011年10月16日 18:38

 

 

(本稿未经报告人审核。作者观点不代表宣讲家网立场。未经宣讲家网站同意,请勿转载。)

 

今天和大家聊聊统计。统计学是一门很枯燥的学科,我尽量用最通俗的语言与大家分享我对统计学的认识。

中国有个成语叫“井底之蛙”,由于学历、资历、阅历的限制,我们每一个人实际上都是井底之蛙,只能看见头顶上的那一片天。学会统计后,我们就可以把头顶上那片天看作是万里蓝天的一个样本。通过这个样本,我们可以看到蓝天、白云、阳光,甚至还有天使。还有一个成语叫“盲人摸象”,是形容人们认识片面性的。我们每一个人对这个世界的认识都可能是片面的,都可能是四个盲人中的一个。学会统计后,每个人就会长出八只雪亮的眼睛,整体地观察这个精彩的世界。学会统计使我们视野开阔、心胸开阔、人生开阔。

统计改变人生

南丁格尔有一句名言:如果要想了解上帝在想什么,我们就必须学统计,因为统计学就是在测量上帝的旨意。这里所说的上帝是我们的客观世界。统计可以改变您的人生。我想从三个方面跟大家说说统计如何改变人生。

第一,统计改变了世界。关于我们对这个世界的认识,学术界有两种不同的观点。第一种观点认为,世界是确定的,规律是完善的,制度是精美的,那么统计学只是我们在研究规律过程中使用的一种工具。在这种情况下,统计学实际上是人类的一种发明。如果我们所生活的世界是确定的,数学便是上帝的宠儿,统计学则是人类的智慧。爱因斯坦说过一句名言:你信仰掷骰子的上帝,我却信仰客观存在的世界中的完备定律和秩序。爱因斯坦和牛顿描述的自然法则,描绘了一个确定性的世界。世界是按照一个特定的规律在运行,这些规律是完备的、精美的,可以用数学来表述它。但在实际生活中,各种规律表现出来的是一种偶然性、随机性。而随机性或者偶然性只是确定性世界的一种表象,概率和统计只是人类暂时“无知”的一个代名词,是人类无法充分认识规律时的一种工具。也就是说,可以通过统计方法来逼近确定的世界的各种客观规律。在20世纪甚至更早以前,在每一项改变世界的发明创造过程中,统计学都是功不可没的。

第二种观点是,世界本身就是随机的、不确定性的。这种情况下,统计学就是客观存在的一个东西,是人类发现了统计。这样,统计学便是天籁之音,数学则是表现为数学的极限。各种客观规律都是观念上的东西。例如,我们上中学时学过的自由落体运动是一个完备的确定性的数学公式。但很早的时候,先人做一次实验时发现自由落体运动不是完全符合数学规律的,把无数次实验后的结果通过计算才得到自由落体运动的完备公式。19世纪,拉普拉斯写了一本历史性的权威著作,论述如何根据地球上少数的观察数据来计算行星和彗星的未来位置。他把书献给拿破仑。拿破仑问道:拉普拉斯先生,我发现你的论述中没有提到上帝啊。拉普拉斯回答:我不需要这个假设条件。但拉普拉斯需要一种被他称之为误差函数的东西,就是概率和统计学。实践表明,从量子力学到耗散结构证明了我们生活的世界是概率世界,是随机的、波动的。

第二,统计学改变了思想。科学从理论上到实践上都充分证明了因果决定论对描述客观现象的不适应性和不归结性,布朗运动、混沌动力学、量子力学、耗散结构都证明伴随统计学的产生和发展,经典决定论、因果决定论、机械决定论已经逐渐向统计决定论转移。所以,统计决定论是我们近现代哲学认识论中不可或缺的一个部分。但是同时有这样一个争议的问题:统计决定论只是给出了现象之间的显象规律性,其内在的因果关系不能仅仅依靠统计推断。举一个最简单的例子,比如吸烟以后患癌的概率高一些,这是统计规律证明了的。但吸烟为什么会得癌,这是医学或者生物学的研究任务。所以,统计学表示了现象之间的表象关联。

常识还告诉我们,从摇篮到墓地,时间不会倒退的。但爱因斯坦却说,时间是一种错觉,因为宇宙是确定的。统计学告诉我们,从宇宙学到分子生物学都存在着不稳定性和涨落。时间可逆过程在现实中是罕见的,这也是统计学的产生、发展和进步改变了我们的思维方式、思想和认识。

从复杂学的角度也可以做出说明。举一个例子,人的眼睛是一个构造精美、有独特功能的复杂系统,其系统中有很多未知的领域。如果按仿生学、生物学、医学等学科构造一个相同的组织,只能造出一个肉丸子。由于复杂系统的元素太多,必然使元素间的耦合失去个性。但是我们用统计方法去研究,就可以形成一个简单的系统。

再举例子,谁能证明我从来没骂过人。大致有三种证明的方法。第一种方法是推理式的,由理论到理论的证明:因为我是老师,老师是为人师表的,所以没骂过人。这种证明很苍白。由于前提是不一定正确的,谁说老师就不骂人?第二种方法是完备的推理。要证明我纪宏没有骂过人,就要把纪宏从会说话开始到现在五十几岁,说话的录音录像、写的书籍、做的笔记等都毫无遗漏地保存下来,还要证明材料的真实性、不间断性。这简直是不可能的。第三种方法是要证明纪宏骂过人,就跟着他、盯着他。所以在科学的论证过程之中,我们要证伪很容易,证实很难。通过证伪,说通俗点就是给人挑点毛病,然后来进行科学上的一些创新。这也是科学研究的一种基本的途径,是一种统计学检验的最基本的思想。

另外举一个例子,最大的无序对应的是最大的信息量。比如某人说,明天要下雨。他说的这个话无疑是正确的,世界这么大,说不定哪儿下雨。他没有说什么时间、什么地点下雨。如果有人说,明天上午海淀地区要下暴雨。这种判断是有风险的,有可能会犯错误。即便是比较准确的天气预报,也不能百分之百预测成功,虽然有犯错误的可能性,第二句话显然包含着有用的信息。我至少可以根据他的判断,来决定出门是否带上雨具。所以说,确定性的东西中没有什么新的信息。

 

第三,统计改变了生活。讲几个我们身边的统计学故事。

第一个故事:文学家王蒙先生的统计悟性。有一天,王蒙先生在北戴河海滨遇到一个骗人的游戏,一个经营游戏者放四种颜色的玻璃球在口袋里,每种颜色的球都是五个,让人从口袋里摸出十个球,并规定了摸出不同球的比例下的不同奖惩办法。王蒙先生发现,十有八九摸出来的球得不到奖。回家后,王蒙就按照这种玩法用扑克牌或是麻将做过实验,同样得奖的概率是小概率。王蒙先生不懂统计、不懂数学,他就写了一篇小文,认为命运是数学的公式和规律,数学就是上帝,就是主——总想得到好运不是完全不可能,只是机会极少、概率极低。所以,在生活中,我们可以少一点怨天尤人,少一点愤愤不平。从这篇文章中可以看出王蒙先生深刻的思想内涵和人生悟性。“三个代表”提出的“最广大人民群众”,在统计学中是众数的思想。我们都是芸芸众生中的一员,应用平和的态度、平静的心情对待生活、对待人生。

第二个故事:有了统计学,世上没有破译不了的密码。密码也是有规律的,只是和正常的文字排列规律不同,没有规律的密码是鬼画符,不仅敌人看不懂,自己人也看不懂,起不到传输信息的作用。统计学可以寻找出密码的规律,将其破译。最古老的密码是公元前五世纪使用的置换密码,其规律是:每一个字母由它后面的第三个或第K个字母来替代,如何确定K值就是破译的关键。这时需要用到概率统计原理。经过研究大量的文献索引,统计学家得出来英文字母出现频率表,例如A出现的频率是0.0856,B是0.0139,而出现频率最多的是E,为0.1304,这样我们把它可以作为一个总体或是训练样本。当接到这样一个密文:wklvyhulilrughubrxjdyhphdwwkhphhwlqjlqpbrilifh。密文中出现频率最大的字母是h。我们就假定h就是e,那么可得出K=3,于是经过调整得到相应的有明确意义的明文就是:thisverifiorderyougavemeatthemeetinginmyoffice。这句话没有特别明确的含义,可能是暗语,但已经像一句话了。这就是因为英文字母出现频率表是从大量的文献中得出的,有统计规律性。而密文字数太少,规律性可能有偏差。根据上下文的含义和当时的背景,可以做一些小的估计,就有可能得到较为准确的意思。现在的科学技术使密码变异更加复杂,破译的难度很大,但间谍中有一句名言:世界上没有破译不了的密码,只是时间问题,因为有了统计学。统计学、代数学为我们破译密码提供了良好的工具。

第三个故事:曹雪芹懂统计么?《红楼梦》第六十三回宝玉过生日,晚上请来了林黛玉、史湘云、薛宝钗、李纨、探春、薛宝琴等在怡红院玩掷骰子抽签的游戏。大家围成一团,按照摇出骰子的点数数到谁,谁就从签筒里抽出一根签,按照签上的要求或罚做诗、或罚喝酒。我们感兴趣的是四个骰子出现的点数分布。假设这四颗骰子均为没有出老千的骰子,经计算其分布,如无限次数的扔硬币,正反面概率为1/2,那么扔一个骰子每个面出现的概率就是1/6,同时扔四个就要算一算了。人民大学袁卫教授把它算出来了,有四个参数:点数、理论频数、频率(概率)、实际频数(贾宝玉和众美女实际扔的次数)。贾宝玉和众美女实际扔的次数一共扔了八次,分别是五点一次、六点一次、八点一次、十六点一次、十八点一次、十九点两次、二十点一次。这些点数所相应对的概率都非常小,有六次结果是小于0.05的小概率。小概率在一次实验中几乎是不可能发生的,而曹雪芹先生竟摇了八次,就有六次结果是小概率。特别是晴雯和香菱分别摇出了0.0031、0.0077的小概率,相当于雨点打在香头上。这该做何解释呢?曹雪芹在写这一回时,实际上事先确定了摇骰子的几位人物,并为这些人物设定了骰子及诗词作为与此人命运的写照。如果曹雪芹有一点概率统计的知识,他就会合理安排人物的顺序和给出合理的点数,就不会发生小概率了。所以,我们分析的结果是曹雪芹不懂统计。因为在曹雪芹的时代,西方的概率统计刚刚产生。

 

 

第四个故事:超市销售额有规律吗?1993年一位美国人发现,在超市里有67%的顾客在买啤酒的同时,也买了尿布。是顾客喝完啤酒以后用尿布吗?显然不是。进一步调查发现,购买尿布的人80%都是年轻的父亲,在购买尿布的时候,他们顺便为自己买点啤酒。商家发现这样的规律,便在妇产医院及相关的机构的超市里,把啤酒和尿布放在一个货架上,以方便年轻的父亲,结果,销售额大增。这种用于商品的货架设计、存货安排,根据购买模式对客户进行分类的方法,就叫数据挖掘。数据挖掘是统计学一个比较新的研究方向和领域,把统计学、数学、计算机、人工智能、继续学习等各种方法融合在一起的一个边缘学科。数据挖掘的商用价值相当大,利用数据挖掘可以使统计学在为社会服务方面走得更远。

第五个故事:数据胜过轶闻。轶闻引人注目,是因为它很突出,容易深入人心,但轶闻使议题人性化,所以不少新闻报道常常是以轶闻开场或结尾,但它并不足以当成决定的根据,只是能影响收视率罢了。例如美国住在高压线附近的一个儿童得了白血病,孩子的母亲认为是高压线使她的孩子得了白血病,能说会道的母亲在电视台露面,字字血声声泪地控诉,引起公众的同情。而美国国家癌症研究所花了5年时间和500万美元进行研究,资料显示,白血病和高压线产生的磁场并无关系,但人们还是相信轶闻,相信没有代表性的“典型”,而不相信科学推断的数据。所以,我们应该用科学态度来对待事实,而不应该相信轶闻。

第六个故事:《静静的顿河》的作者是谁?1928年有人提出《静静的顿河》作者不是肖洛霍夫,而是克留柯夫。1974年,一个匿名的作者在巴黎写了一本书,断言克留柯夫是《静静的顿河》的真正作者,肖洛霍夫则是一个剽窃者。为了弄清真相,一些学者用统计方法进行了考证,具体做法是把《静静的顿河》同肖洛霍夫与克留柯夫两个人没有疑问的作品用计算机量化,采集数据,加以分析比较。研究结果表明,《静静的顿河》与肖洛霍夫的其它作品非常接近,与克留柯夫的作品则相距甚远,有充分把握推断出《静静的顿河》的作者就是肖洛霍夫,从而了结了长达数十年的文坛公案。这种统计学的新分支叫做文献计量学,主要的功能就是通过文献来搜寻信息。比如要判断《红楼梦》前80回和后40回是不是一个人写的?如果不学统计,你可能要下数十年的工夫,使自己几乎成为一个红学家,要对那段生活的历史、文化、民俗,对曹雪芹、高鹗的风格,做一个全方位的比较,才能够做出一个判断。如果学了统计,把前80回和后40回一对比,看看虚词的使用、句子的长度、标点使用的一些习惯,就可以判出来,国外把这叫做文字DNA。日本京都大学村上教授有一个著名的案例。有一个人去世以后,别人伪造了一份遗嘱。村上教授把这个人生前所有写的信件、书籍作为一个新的样本,与假遗嘱进行对比,发现遗嘱不是此人的行文风格,法院就以此为依据作出相应的判决。

 

 

统计学及其作用

现在,我们用一句话来概括统计学,统计学是关于收集和分析数据的科学和艺术,这是比较权威的一个版本,来自《大不列颠百科全书》。据我了解,世界上各门学科只有统计学把科学和艺术放在一起下定义,因为科学研究事物的一般规律,讲究的是共性;艺术张扬是个性,两者相差很远。而统计学是通过张扬有差别的个性来寻求背后的一般规律,所以它是连接科学和艺术的一个桥梁。这是对统计学一个很高的评价。第一,统计学是研究数据的科学。这个数据不是数学中的数据,不是抽象的数和形,而是实际发生的数据、实测的数据、观测的数据、实验的数据。第二,统计学是以归纳推理为研究方法的科学。它用的是归纳推理,而不是演绎。演绎推理的结论蕴含在它的前提中。举个简单的例子,咱们这个会场几十个同志考试,统计考试都合格,这是一个前提。这个老先生是咱们班的一员,所以他考试也合格了。如果前提正确,推理过程正确,结论必然正确,这是演绎推理的一个特点。但演绎推理由于结论蕴藏在前提之中,所以不会突破现有前提,不会有更大的创新。归纳推理是由个别到一般,由样本到总体的独特研究方法。第三,统计学的研究往往带有不确定性。由于不确定性,统计学的研究往往伴随着新的思想的产生。此外,统计学具有广泛的研究领域,理、工、农、艺、文,几乎没有不用统计学的地方。所以,它形成了一个学科群。

统计学的用途很多,我讲两个基本用途。

第一个用途,统计学是科学的研究方法。任何科学都是研究客观规律的,规律可以在反复试验中重复。没有重复的事物不是科学研究的对象。我们周围的事物每天都在重复,太阳每天东升西落,春夏秋冬四季更替,宏观经济每天运行,只有运行、重复,才有规律。但人不能两次踏入同一条河,事物的每一次重复决不是前一次的克隆。统计学就是变化中研究规律的科学。所以统计学是任何学科进行科学研究的工作母机,没有统计学就没有科学研究、没有创新。

第二个用途,统计学是管理工作的工具。政治家无法脱离统计而施政,军事家无法脱离信息而指挥,企业家无法脱离统计而决策,任何管理工作都要做到心中有数。学好统计,是搞好任何工作的前提。

学习统计只能干两件事。一是干统计工作。不学统计不可能干统计工作,只有学过统计的人才能干统计工作。统计工作涵盖面很广,包括精算、农学、动物学、人类学、考古学、审计学、晶体学、人口统计学、牙医学、生态学、经济计量学、教育学、选举预测和策划、工程、流行病学等,几乎无所不包。二是不干统计工作。人们有时形容某人“缺数”,译成专业术语就是“这个人没学过统计”。所以,不干统计工作也要学统计。

人类是孤独的。从时间序列来看,据考证,人类发源于上一个冰川期之后,结束于地球消失之前。虽然时间很漫长,却是收敛的、有限的。从截面数据来看,我们是茫茫宇宙的孤儿,因为至今尚未发现外星文明。我们紧紧依靠地球为我们提供水、食物等生存所需要的条件。从面板数据来看,我们只是时空中的一个点。为了解决生命的寂寞、贫困、艰辛和短暂,人类开始探索自身和自然,寻求真理和秩序,建立可以帮助我们获取有关生存奥妙的知识体系和结构模型,而我们辉煌成就之一就是统计学。尽管我们现在还不清楚,统计学的出现是由于人的聪明,还是“天籁之音”。我们学统计可以更好地组织生活,谋划人生。我们对未来充满了向往,需要努力,才能获得美好的理想、美好的爱情、美好的生活。谢谢大家!

(报告人系首都经济贸易大学统计学系主任,

据国家图书馆学术讲座中心提供资料整理)

文章来源:http://www.71.cn/2011/1016/638567.shtml