首页 > 文化博览博古通今独家讲稿

朱利平：统计与大数据

2019年11月18日 17:12

搜狗截图19年11月18日1701_1

朱利平中国人民大学统计与大数据研究院副院长、博士生导师

大约五六年前，我听到的报告绝大部分都是属于“大数据给我们带来的机遇与挑战”这一类的。但最近一些年，很多问题开始陆续落地了，感觉能够听到一些比较有意思的大数据应用。

我来之前，主办方让我给大家介绍一下统计和大数据。那么该介绍些什么呢？那就从入门的地方开始，尽量让大家能听懂。我大学选专业的时候，不知道统计是什么，以为统计就是加加减减。现在开始对统计有重新的认识。所以我再给大家介绍一下，怎么认识统计？怎么去认识这些数据？怎么去分析这些数据？一些统计数据是怎么误导大家的？这里面有很多误区。另外，一些统计数据为什么会与大家的常识或者印象有偏差？最后给大家看看几个简单的应用。

一、如何认识数据？有哪些数据类型？

什么是数据？在我们看来，声音、文字、图片、视频音频、文本等，这些都可以算作我们分析的数据。比如之前网上有一个很有意思的游戏，你在网上拍一张图片，然后上传，由此可以判断你的年龄是多少。

数据一般长什么样？我们假设猪八戒、唐僧、孙悟空、沙和尚师徒四人一起去考试，考试有准考证号码或身份证号码，身份证号码的前面六位一般表示你的地区信息。第二个信息是你的名字。还有一个性别，以及你是哪个年级的。最后，现在考试成绩我们都要求有ABCD四个等级，然后这个成绩要转换成基点，以及你的原始成绩是多少、考试时长。这个表格（如上图）特别简单，但是却几乎囊括了我们所有要接触的数据类型。从以上表格可以看出，猪八戒考试得了100分，孙悟空坐不住，12分钟就交卷了。

我们常常会接触的数据有哪些呢？第一类叫名义变量。什么是名义变量？比如性别、年龄这一类的数字，它没有大小的关系，只是一个代码。例如我用“1”来表示男，用“2”来表示女，用身份证号码的前面六位表示你的出生地信息。这些数字的大小，没有高低，也没有先后，是没有任何含义的，只是一个记号。上图表格中，我们看到的第一类数据就是名义变量。

第二类是次序变量。次序变量是跟顺序有关的数据，它有很多用途。每一个变量的大小，是表示先后顺序的，而不是倍数关系。比如1号店做的一个简单的大数据分析，统计上海市高校购买零食的情况，然后看看哪一所大学买零食最多。这是很容易统计的，我们只要看看邮寄地址，就可以知道哪个地方“吃货”最多。但这个数据是按绝对数量统计的，比如上海大学，它在上海有特别多校区，本身人数上的规模就非常大。所以这并不是上海大学每个同学都好吃，而是它的学校本身的绝对量大。

再比如上面这个例子，颜值最高大学。这也是1号店做的统计，怎么统计的呢？看哪一个大学，买化妆品买得最多。化妆品买得最多的，颜值最高。

第三个，哪个高校潮人最多。怎么衡量是不是潮人？这也全是1号店的数据。看潮人就看买单反，只看这一个指标，这个指标不一定准确。但是很多大数据现在都停留在娱乐阶段。当然，娱乐之外，还有真正跟科学有关的一些问题。

他们统计了很多指标，其中一个叫暖男最多的大学。这就是统计男性给女性买用品。

这些排行榜谁排第一，谁排第二，有一个高低、先后顺序。但不是说排第二的就是排第一的两倍。我们回头看之前的成绩表。成绩表分了ABCD四段，A段的学生排第一段，B段的学生就排第二段，C段的学生就排第三段。所以成绩表中也有第二类数据。

第三类是定距变量，也称间距变量。就是说2是比1更有价值的，它的差距为1，比如你是2012年入学的，就会比2013年入学的早一年。它就不仅仅有先后顺序，而且这个间隔大小是有含义的。2013年入学的比2012年入学的晚一年，2016年入学的就会比2013年入学的要晚三年，这个间隔本身是有含义的，它不像之前的ABCD，B减A是没有任何含义的。但现在减了以后是有含义的。第三类数据定距变量在之前那表中也是有的。

第四类是定比变量，也称“定比尺度”或“比率尺度”。这是我们最常用的一类数据。数据有先后，有高低，加减乘除都是有含义的。2就比1要多1，3就比1要多2，2就是比1要多1倍的，这个数据是能够做加减乘除运算的，而且数据之间的差距是有含义的，有绝对的零点。比如孙悟空做题花了12分钟（0.2个小时），唐僧做了2个小时，那么差1.8个小时。1.8个小时就是0.2个小时的9倍。这中间的差距是有具体含义的。这是我们最常用的一类数据，大家所说的数据，绝大部分时候指的是这一类。以下是我们常用的四类数据：

名义：男女、颜色

次序：名次、等级（军衔）

间隔：时间

比率：距离、体重

第一类数据，名义变量，数据大小只是一个符号，没有任何的大小含义。

第二类数据，数据大小有先后的含义，但是数据差之间是没有具体含义的。比如A段可能比B高一段，但是如果B减A不知道等于多少，那这也没什么实际含义的。

第三类数据，间隔数据，这个时候数据的间隔就有含义了，2013级的就比2012级的要晚一年入学。这个差距是有含义的。

第四类数据是我们最常用的，比如体重多少，距离多少。根据不同分类方法、标准，你会分成很多不同类型的数据。

数据还可以按来源来分，比如现有的数据、预测的数据以及国家统计局收集得各种历史数据等。

关于大数据，大家还常常会在书上看到这样一种说法，说大数据就是总体，我们以前分析的数据就是样本，其实这个说法不是很准确。大数据也不一定是全样本分析的，要做到全样本分析是非常非常困难的。

有一些数据就是一个常数，比如π、光速，这是一直不动的，这一类数据是常量。那么，变量是哪些呢？比如你的年龄是多少，这个数据会变，但它不会随机变，今年你是10岁，明年就会是11岁。我们最关心的是最后这一类：随机变量，这一类其实是我们常常会碰到的，所以这里面问题会特别多。比如你预测一下明天来听报告的人会有多少人，这只能预计一个大概范围，具体到多少人，你是不知道的。再比如你知道你明年大概会赚多少钱，但是你不能准确估计你明年能赚多少钱。

大家也常常会举一个例子，说本科生不要谈恋爱，因为谈恋爱成功的比例很低。统计其实关心的就是这类不确定性的问题，不一定是属于加加减减的问题。

二、如何分析数据并从中提取有用信息

怎么分析数据？不同的数据，我们有不同的分析方法。我尽可能用一些图形来表达。

比如上图，一个自动售货机有五种饮料，分别是Coke Classic、Diet Coke、Pepsi、Sprite。这台自动售货机一共有五款饮料，这五款饮料一共卖了50罐。这个例子我们去分析它的时候，常常会把它汇总，这个数据是一个名义变量。

Coke卖了多少瓶，Diet Coke卖了多少瓶，Pepsi卖了多少瓶，Sprite卖了多少个，总共卖了多少瓶，这是第一组最简单的分析。

然后，你可能会统计一下每种卖出的饮料占卖出的总数的百分比，这是很容易算的。

但是，我们看到更多的是图形表达，用柱状图展示每一种饮料卖了多少瓶，可能小学二年级就要开始画这个图了。

你还可以画一个饼图。你发挥自己的想象，想画什么图就画什么图。绝大部分时候，我们都是用图形来表达我们所看到的一些数字。因为图形给大家看起来最直观。大家在汇报某项工作时，也可以尽可能地用图形去表达，因为图形去表达能够让你的上司在第一时间就知道你大概想表达的意思。你说了很长的话，不如画一个图管用。所以，我们用得最多的还是各种各样的图形。

有些数据是连续的，比如一门课旁听的情况，我们可以统计旁听了10天到14天的有多少人，15天到19天的有多少人，20天到24天的有多少人，这是个连续数据。一个连续的数据，我们可以把它分段以后再统计出来。总共有20个人，其中有4个人旁听了10到14天，这个数据也会是常用的数据。为什么会是一个常用的数据呢？比如统计局就可以用这种统计方法去调查一下，有多少人的年收入在1000块钱以下，有多少人的收入会在1001到2000元之间，有多少人收入在2001到3000元之间。这是按区间去分的，你的收入也会是一个连续的变量。

数据分好区间之后，我们也可以把它做成各式各样的表格。但是这个柱状图与之前饮料销售情况的柱状图有区别。饮料销售情况的柱状图中，Coke Classic、Diet Coke、Pepsi、Sprite的柱状是分开画的，但是对连续的数据而言，我们常常会把它画得连在一起。连在一起画，是表达数据本身类型不同。连在一起与不连在一起所表达的含义也是不一样的。

大家看这个图，这叫直方图。左上角这个图形左边的“尾巴”很长，右上角的图形右边的“尾巴”很长，右下角的图形右边的“尾巴”是又瘦又长。我们最常用的，可能是右下角这个图形的，我们叫做数据有很大偏差。左下角这个图形是指数据看起来比较对称。数据看起来比较对称，是什么时候你会需要呢？我自己在高校工作，你的卷子出得好不好，如果考试的人足够多，考80分的人应该占大部分，考90分以上的人比较少，不及格的也不太多。也就是说，这个数据本身靠近正态，那么这是大家认为出得比较好的卷子。但现实中基本碰不到完全对称的情况。我们碰到的绝大多数图形都是右下角这种图形，这种图形特别有用。有一本书叫《长尾理论》，长尾理论指的就是图标上那个“尾巴”拖得很长的时候，如何在“尾巴”上赚钱。比如谷歌广告，谷歌打广告跟很多公司打广告不一样，他很少会去找一些特别大的公司打广告，而是会找来一些小公司打广告，那些公司都不太有名，但是他从每个公司下面赚少一点钱，最后合起赚一大笔钱。

如果这个数据是指收入的话，那么绝大部分人的收入指的是柱状比较高这一块，但是有些人特别有钱，所以他们把“尾巴”拖得很长很长（横轴是收入，纵轴是人数）。所以很多数据都满足这一种情况，就是有一些人赚得特别多。

数据是怎么来的？

数据有各种各样的来源途径，但是收集这些数据特别不容易。比如一个很简单的例子，问哪一个国家的人撒谎最多。这是不太好问的一个问题，那么怎么去问呢？有人设计了两个实验。第一个实验，每一个国家挑一千个人，在网上做一个调查，但是不直接问你有没有撒谎。他就说，只需要你在家里面来参加这个实验，你在家里面自己抛一枚硬币。如果硬币的正面朝上，我给你5块钱；如果硬币的反面朝上，你就不能拿到钱了。从这个实验可以知道什么呢？比如调查1000个人，如果有900个人都告诉我硬币正面朝上了，中间肯定有人撒谎了。这个撒谎的比例是很高的，因为有利益的驱动。我并不需要知道每一个人有没有撒谎，只需要一个比例。这是第一个小实验，看看这个国家的人是不是诚实。

第二个实验，一批人选进来以后，同时会参加两个小测试，这两个小测试都是很简单的。然后他会问你一堆问题，也告诉你如果你把这些问题答对了，我就给你一些钱。比如有五个问题，其中有两个问题特别简单，不管你是哪一个国家的人，一眼就能看出来答案，但是其他三个问题设置得特别难，而且很生僻，如果不去查资料，几乎不可能找到答案。但是测试之前就告诉你，不许查资料。这样为了得到钱，有些人就会去查资料。在五个问题中，正常情况下应该只有两个题能答对了，如果五道题全答对了，一般就是认为你肯定是查了资料。

名义变量：大数据文本分析

第二类数据怎么来的？这是跟大数据有关系的。现在大数据会有一些舆情分析，做一些文本分析。这个例子特别多。

上图是统计情侣之间聊天时出现频率较高的语句。聊得越多的话，字就越大。统计出来之后，算一下频数就行了。聊得少的字就特别小，聊得越多的字就越大。字有大有小，大小是由它出现的频率来决定的。

还有一些应用，看搜索的哪些关键词出现频率最高，就是大家最关心什么问题。这对做舆情分析是非常有用的。某一个新闻事件出现以后，搜索量会增加，这就可以统计一下频数，看哪些词出现的频率高，出现频率越高的字体就越大，出现频率越低的字体就越小。

做舆情分析有什么用途呢？做舆情分析有很多用途。你自己一个人在网上检索某个关键词，这个信息没什么太大的用途，但是全中国人都在搜索一些关键词，我把它统计出来，就可以知道绝大部分中国人在关心什么问题。我只要看看这段时间，中国人都在搜索一些什么关键词，再过一阵子以后，中国人又在搜索一些什么关键词，就可以大概判断你这个国家的科研走向，它不一定很准，是一个很粗糙的办法。

第二个小例子很有意思，是我们常常用的。把横轴改一改，把纵轴改一改，这些数据都是真实的，但是横轴和纵轴改一改，看到的情况就会大不相同。没造任何假，但是图形展示的方式不一样，给你看到的结果会完全不一样。

再看第三个，这是美国的一个真实数据，每一个季度的财政收入。左边这个图形是逐年增长的，能看到这个很明显的趋势，但是真实图形是右边的图形。它怎么做的呢？为了显示出逐年增长，他只把右边图形最上面那一段给截取出来给你看。他的横轴不是从0开始，而是从94开始。从94开始截取，只是展示图形的一段给你看，那我们视觉所看到的增长速度就是非常快的，但事实是没怎么动。这样截取一部分很容易给你一个视觉上的误差，觉得收入在不断增长。所以我们在看图形的时候，要稍微小心点，不要被误导了。

怎样提取数据中的信息？

数据中的信息量是非常大的，我们怎么样去把数据中的信息提取出来，尤其是数据特别大的时候，我们怎么把重要的信息都给提取出来？目前在数据量特别大的时候，我们其实只做一些加减的工作，但是这些加减的工作本身也是很麻烦的。

名义变量无法进行四则运算，不存在平均数，比如性别男或女，这时候求一个平均值没任何意义，男的有100个，女的有100个，最后你求出一个均值是个啥呢？对这一类数据而言，你就不要去管均值，只要关心哪一个数出现的次数最多。出现次数最多的那类叫众数，比如每次要投票的时候，我们总是要求2/3以上出席，说明把出席的人分成了两类，出席的人和不出席的人，出席的人占到2/3了，这是最多的了，不可能再比这个更多了。出席1/2以上通过，那就是同意这个方案的人只要超过1/2，那么这就是出现次数最多的一个数了，另外一个数肯定少于1/2了。1/2以上表决通过，这就是一个出现次数最多的意见了。所以，我们就按次数出现最多的来做，这个名词叫“众数”。这就是一些没有办法做加减运算的数。

做加减运算是我们最熟悉的变量，这样的数据求均值是很有价值的。但是这个价值，常常给大家的感觉是与现实不吻合，比如你每个月收入10万块钱，我每个月收入1块钱。那这一平均，变成5万块左右，我就被平均了。这就是一个被平均的概念。

收入情况是最容易被平均的一个量。什么原因呢？如上图，横轴是收入，纵轴可以理解成比例，是跟比例非常有关系一个量。也就是说，你可以看到，绝大部分人的收入其实都是比较低的。尾巴拖得很长很长，但是一百万以上还是有不少人。这样一算平均值，绝大部分人的收入达不到这个值。所以这个时候，你会感觉自己被平均了。长尾的数据最后会导致你很容易被平均，所以统计局报的数据确确实实是真实的。

AMAZON经常会弄一些十大畅销书排行榜，这个时候横轴就是某些书，纵轴是销量。他就发现一个现象，AMAZON绝大部分利润并不来自于这些畅销书，而是来自于那些销量比较低的书，销量比较低的数据占了很大一部分。销量比较低的数据，卖得并不是那么畅销，但是这类书特别多。所以销量很低的书籍给他创造很多利润，这就是长尾理论一个很惊人的例子。

还有一类变量，我们叫几何均值。算均值有很多种算法。一种是把数据简单拿过来平均，第二种就是算大概50%的人的收入是多少。第三种是算一个几何均值。如果总水平、总成果等于所有阶段、所有环节水平、成果的连乘积总和时，求各阶段、各环节的一般水平、一般成果，要使用几何平均法计算几何平均数，而不能使用算术平均法计算算术平均数。这个算起来比较麻烦一点。

我们会关心的是什么呢？比如，你测量有多准。大家看看以下哪个测量比较准。测量某地球同步卫星离地球高度，误差1千米（地球同步轨道距地面的平均高度是36000公里）。测量一个人的身高，误差大概在2厘米（假定某男性身高为1.7米）。这两个测量结果谁测得准一些？这看你怎么比，这是有一些标准的。如果比绝对值，一公里的误差比两厘米的误差大多了；如果比相对值，那就很难说了。所以我们认为，相对值可能是我们更关心的一个量。你要去描绘这个数据本身有多准确时，需要根据一定的准则来思考这个量，如果只思考这个均值本身，不一定太管用，要看数据的波动到底多大。如果它的误差是1千米之内，那么他有可能会报35999千米，也可能会报36001千米。就是说，数据会在一定范围内波动。而如果是170厘米高，误差两厘米就是会在168厘米和172厘米这个范围内波动，但是谁更准一些，这很难说。

有一个可能大家会感兴趣的量，这是警察去破案的时候，常常会感兴趣的一个量——脚印长度，根据脚印长度算出犯罪嫌疑人的身高。一个人的身高大概是脚印长度的6.876倍，脚长乘以6.876大体就是你一个成年男性的身高。

这是一个单变量数据统计分布，这个数据是比较好的，正态分布，这是大家会常用的一个量。

微博有很多大V，但是事实上很多人的粉丝是“僵尸粉”，那些其实是机器自动生成的ID。这时候，你可以统计一下上图这个比例，曲线中间有个鼓包，粉丝越多，这个鼓包应该越来越少。在在个曲线上，两万、三万、五万等有一个小鼓包，这就说明什么呢？机器可能自动给你生成两万“僵尸粉”了。刚好这个数据算出来还是一个整数，那么，这个整数（粉丝）非常有可能就是机器生成的。这样看起来粉丝挺多，但是事实上很多都属于“僵尸粉”。

这是关于科比的一个大数据分析例子。有人把科比打所有比赛的录像全部拿出来了，然后统计他总共投球多少次、在哪个位置投的球，并把位置标记好，如果投中了颜色深一点是紫色，如果投失败了是另外一个颜色。科比20年共投篮三万次，他整个职业生涯的投篮命中率是44.7%，命中率最高的位置区块颜色最深。途中三分线位置有一圈明显的空白区域，这应该是刻意避免踩三分线投篮留下的痕迹。还有不少球是在篮板后方命中的。我查看了一下，科比最远一个投篮距离是74英尺（约22.6米），可惜没有投中。投中最远一个球距离是43英尺（13.1米）。NBA球场距离是94英尺。科比的主要攻击区占到45%的出手机会。

科比为什么退役？给大家简单讲一下。从上图可以看出，从某一年龄段开始，他每年的投球命中率是在逐年降低的。所以这是非常无奈的，年龄大了以后，反应速度确实是要下降的，这是完全没办法的事情。所以他选择退役也是合理的，尽管大家觉得很遗憾，但是他自己是非常理智的。

这是关于科学的，我家里面不是很同意我来做老师的，但是我自己觉得做科学是很有意思的。

我跟大家看一些简单例子，上图这个人叫安吉丽娜·朱莉。我为什么把这个人列出来呢？在一些数据比较大的时候，比如想知道这个人得病不得病，由基因决定的，这时候我就会知道是哪个基因会有问题。哪个基因会有问题呢？首先要找到这个基因，左边这个人是好莱坞巨星，叫安吉丽娜·朱莉。她干了一件什么事情呢？安吉丽娜·朱莉当时做了一个基因检测，检测查出她不幸携带了一种强致癌基因。当时她并没得乳腺癌。于是她就主动把乳房给切除了，这对于电影明星来说是一个巨大损失。但是提前干预比事后要好很多了，这不是早期的问题了，而是更早期。但是并不是每一个癌症我们都了解得那么清楚，比如肺癌这样的问题，我们没了解清楚的。复旦大学一个老师，做了一个基因检测，预测他以后会得肺癌。结果后来得了癌症死了，但是却是死于咽喉癌。有很多病，现在我们都在探测是哪些基因引起的。

上图是我们自己做的一个数据，就是一只老鼠得不得红眼病的数据。你可能不关心，但是真正去做的时候，你会发现很有意思。你可以看到哪个基因在起重要作用。这个图形都是通过统计的办法分析出来的，乱糟糟的，我们看不到什么现象，需要把这个图形放大，放大成左下角的图形，结果发现还不太规律，那么继续放大，最后看到右下角的图形。这很显然可以知道，基因非常重要。这是我们自己做的一个小老鼠的实验，而且只有120只老鼠，但是我们要分析的数据大概有多大？有10个G，要分析出这么一个图形出来，其实挺不容易的。

最后给大家一个建议，提醒大家提早锻炼。年龄越大的时候，血管的弹性会越差，然后血压会变高。我们看看不同年龄段血压与年龄之间的关系。上图可以看出，不管男性还是女性，在39或40这个年龄段时，你会突然发现随着年龄的增长，血管的弹性会很快变弱，也就是说血压与年龄的相关性会变得更高了。而在此之前，它的相关性是比较弱的。也就是说，年龄增加一点，血压就会增加一点；年龄增加一点，血压增加的速度也会比较快。所以，39、40岁左右就要小心身体了。现在公园里都是老年人锻炼身体，但是到年老的时候再锻炼身体已经没有多大用处了。到80岁时，锻炼身体已经基本没什么用了，血管的弹性已经恢复不过来了。所以到80岁的时候，年龄再增长，跟血压的升高程度已经关系非常弱了。这中间有一个变弱的过程，而血管一旦脆了以后，这是不可逆的，锻炼身体要趁早。

以上是我要给大家讲的全部内容。谢谢大家！

（根据宣讲家网报告整理编辑，

未经许可，不得印刷、出版，违者追究法律责任）

责任编辑：叶其英

文章来源：http://www.71.cn/2019/1118/1067259.shtml