让幂定律告诉你多高算高,多富算富

陈清华
查看全部 内容介绍:
收起 内容介绍:

 

 

 

面对着纷繁复杂的世界,我们首先呈现的是一种定性式的经验感性思维图景,或许是由于逻辑的惯性,我们更习惯于这种直接式的图像展示.然而,陈清华老师的这节课却从量的角度认识这个世界,用定律告诉你多高算高,多富算富

 

 

大家好,我叫陈清华,来自北京师范大学系统科学学院。现在有很多网络流行语,例如高富帅,白富美,实际上是给大家一个非常新的择偶标准,但是问题也来了,到底多少算高,多少算富,这个问题实际上并没有给出一个可以借鉴的东西。那么今天,我就从人类的身高和财富的分布差异,给大家一个感觉,到底多高算高,多富算富。

 

先来看身高问题,那么身高问题,我们如果关注一个人群,我们就会发现,这个身高会有一定的特点,如果我们关注的是解放军仪仗队,你就会发现各个人的身高都差不多。但是事实上并不是这样,以一些普通的人群来看,每个人的身高并不一样,例如我现在是1.76米,应该属于中等偏上,但是比我高的人也有,比我低的人也有。那么这一些人的身高到底有什么样的特点,如何去研究它,以及从研究的结果,我们能得到什么样的信息,我们都需要去做一些探索。

   

那么这种探索方式是这样,首先我们可以把人的身高收集出来,例如这样对数,实际上就是收集了一些人的身高数据。那么这样一些人的身高数据,我们去看的时候,实际上是很难的一件事情,看不出来它到底有什么样的规律,有的大,有的小。但是大的是多少,小的是多少,从这一些数上是很难有一个感觉。那么怎么办呢,我们可以有一些方法来重新梳理这个数据,让大家来更容易看清楚,例如我们可以把这个身高,收集的这些人群的身高从小到大排一个顺序,例如这样。那么我们这个时候就从信息上面就可以得到一些感觉,很容易我们就会发现最低的身高是多少,最高的身高是多少,以及中间到底哪些身高可能是一样的。

   

与此同时,社会统计学家就会给出一些概念,来让大家对这一堆数据的统计有一个比较直观的认识。例如最小值,再如最大值,是代表这一些身高里面最小的数和最大的数。另外还有中位数,就是把这个身高从小到大排成一个序列的时候,最中间的那个人他是多高,显然这个中位数应该对于整体来讲具有一定的代表性意义,但是除了中位数之外,还有一个数,也可能更具有代表性意义,就是叫做平均值,就是把所有人的身高加起来,再除以它的总数,就可以得到这个平均值。

 

另外还有一个大家可能不太清楚的,就叫重数,这个重数的意思就是在这些身高里面,哪个身高有更多的人在这里面,例如在这一些长度里面,我们发现,我们现在指数的重数一共是有三个长度是一样的,所以我们称之为最多的那个身高是多少。

   

那么有了一些这些特征值,那我们实际上是对这些人的身高有了一个比较好的了解。但是这些还不太够,例如我们可以给出一个例子,大家就很明白了,就说从上到下实际上是两组不同的数据,我们会发现这两组不同的数据最小最大中位数平均值重数可能都是一样的。但是它在细节上会不一样,

 

例如这一个数,就说我们会发现这两组数在最小值中位数重数最大数这些特征值上是完全一样的,但是他们在细节上会有所不同。例如这两个数据,这个会比我们上面的这个数据会高,而在这个位置的数据,要比上面的数据要矮一点,但是它们在我们刚才所说的这些特征值上面是毫无差异的,也就是说从我们给定的几个特征值上面是看不出这两个数据的一些细节上的差异。那么如何来更加精确,更加精准地来描述这个数据上的一些特征,是我们这些做科学研究所需要关注的和需要注意的。

   

那么一种比较巧妙的办法是用直方图,比如说我们设定一些身高的区间,看看在这个区间里面的身高有多少个人,例如我们可以画出1.72米到1.75米,然后再看看我们所观察的这些对象里面到底有多少个人在1.72米到1.75米之间,或者我们就用高度把这一个具有这个身高范围的人数把它表征出来,那么这一个在统计上我们称之为直方图,这是一个非常有效,并且也非常直观的图示的方式,它可以把我们的这些统计的对象的特征表示出来。

    

那么有了直方图之后,随着我们收集的这些对象,它的人数的增加,我们会发现人的身高他实际上具有非常稳定的特征,就说这个直方图在少量的数据的时候,它长得不太一样,但是如果这一个数据量非常的大,它会长的非常一样,也就是说如果我们在北师大去收集一些数据,那么得到的直方图和我们去北大收集的人的身高的数据得到的直方图会非常一样,当这个大学的规模人数达到一定的程度的时候。

 

那么当我们的这个数据越来越大,越来越大,如果趋于无穷的时候,我们实际上可以根据大数定理得到这个直方图它会趋于一个概率密度函数,这是统计学上的一个概念,代表了这一个人类身高的本质,它是受什么样的分布所控制的。

   

例如这一个图,我们蓝色的部分实际上是直方图,而这个橙色的线就是我们的概率密度函数,就可以看出这个直方图它是无限地去趋于橙色的这条线。

 

那么这个过程,实际上我们可以有一个说法,可以是透过现象看本质,就说现象是我们收集到的这些数据,而本质上,看看这些身高到底符合什么样的规律。人类身高的本质曲线,就是我们这一个外露的这个包围线,那么相对于前面刚才提到的小数最大值以及中位数这些概念来讲,我们这个概率密度函数,应该是具有更多的信息含量,我们从里面可以提炼出更多的信息,甚至包括很多的一些细节上的一些考虑。

   

那么研究发现,特定的人群的身高它服从的是正态分布,那么正态分布它的存在是非常广泛的,它又名高斯分布,这个发现由来已久,而且是在我们上几个世纪得到了非常多的验证。具体的分布函数形式我们放在这儿,主要是强调一点,正态分布实际上是受两个参数所控制,也就是说虽然这个图形上,有很多细节,有很多的信息,但是本质上,它主要的信息应该有两个参数就可以给定,当我们知道它的期望值在这个图上应该是最中间,最高的那一个,因为它是一个对称的。另外如果知道标准差的话,那么整个正态分布的函数的形式,我们就可以完全确定下来,确定完了之后,我们就可以得到很多的规律,有助于我们去应用它,例如去判断到底多高才算高。

   

   那么身高为什么是正态分布呢,实际上就是中心极限定理给我们说的是当一个因素受到很多个独立的不同因素的作用之后,它的综合效果往往就会表现出这个正态分布的特征。那么身高实际上也是这样,就是说我们来决定身高的因素有非常多,包括遗传,包括你的营养以及你的运动状态,甚至包括你的睡眠情况等等。这些情况或者是这些因素,它的影响实际上对身高都是相对独立的,当它们把影响的效果加起来之后,决定你的身高就会服从这种正态分布。

 

那么如果身高是正态分布,那么我们就实际上可以来从某种角度来推知一些人群他身高的概率是多少,例如我们知道身高是正态分布的话,那么大部分的人都应该集中在身高在期望值附近。例如在中国的话,男性大概是1.70米左右,也就是说,大概80%的人基本上都在1.70米左右,那么到底这个区间是多大呢,这个就回到我们刚才说的,有两个重要的参数来决定正态分布,一个是期望,一个是标准差。我们会发现就说如果你查正态分布表的话,你会发现在1.96,就是减去1.96的标准差以及加1.96的标准差,也就是我们这里面减去差不多两倍的标准差和加上两倍的标准差之间,那么这个人群应该是占整个人群的95%。换句话说,我们如果随机去把人找出来,我们会发现,95%的人的身高都应该在1.70米减去2倍的标准差和1.70米加上2倍的标准差之间。那如果在1倍的标准差之间,它是,人数是68%。如果再偏远一点的话,如果到3倍的标准差之间,那么可以达到99.7%,也就是说99.7%的人的身高是完全集中在这一个期望减去3倍的标准差和加上3倍的标准差之间的。

   

那么对于我们来说,高富帅这一个问题,我们更加关注的是更高的那一部分。那么这个问题怎么看呢,我们可以看一下这个图。例如大于期望值的这个总的人口,应该是50%,原因是我们的正态分布它是完全对称的图,那么刚好在期望的右边它应该是占整个图形的一半,所以50%的人群的身高都会大于等于我们刚才说的大概1.70米的身高,当然这是指男性。而大概有16%的人,它是大于期望加上1倍的标准差的,也就是说从我们这一个点开始,比它高的人应该是整个人群里的16%,显然它这是一个显然相对身高比较高的那些人,它的数量就会有下降。那么更极端,我们到这儿,就是大于我们的这一个平均或者应当算期望身高达到2倍标准差的这一个地方,它的人数已经少了很多了,就只有2.5%的人才会身高达到期望加上2倍的标准差,当然因为现在大家对期望和标准差可能不太清楚,那么我们会有一些具体的数字给大家看。

   

例如这是我们从互联网上摘取的有关于中国人身高的分布的均值和样本标准差。当然我们统计的这一个均值比较多的时候,根据大数定理,我们认为它是接近于期望值的。那么样本标准差当数量很多的时候,我们认为它也会逼近于真实的总体的标准差,也就是说我们可以通过这个均值和样本标准差去对我们这个人群的特征做一些简单的估计。那么在这里面,我们分了不同的区域,它这里面分为东北华北西北东南华中华南和西南这些地区,它会发现男性和女性的平均的身高和标准差会有所差异。

   

那么从这个里面,我们如果关注男性的话,我们就会发现,男性的平均身高或者将来我们使用的这个身高的期望,大概是在1.70米左右,比1.70米少一点,这个数据相对比较早一些,现在应该是比1.70米应该多一点,但是因为没有这么全的数据,我们只好用这个数据来先给大家做一个展示。

 

当我们收集到这个标准差和期望之后,我们就可以做这样一个计算,我们把正态分布表查出来,看看大于某一个百分位的点,它的临界值是多少标准差,然后我们去把期望加上这个标准差,去乘上我们分位点的位置,就是多少个标准差,我们就可以算出来。例如我们从中间开始,50%的时候,它就在均值或者是在期望那儿,偏离了这个地方是0,那我们就直接使用这个刚才收集到的均值。但是如果我们到2.5%,也就是前2.5%,我们通过正态分布表可以查出来,你偏离要达到正的1.96的标准差,然后我们把这1.96个标准差乘上这个正数的标准差,刚才说了1.96是倍数,1.96乘上这个标准差,加上我们的期望,我们就可以得到1.84米这个高度。也就是说大于等于身高1.84米的人,它是占整个中国的,这里面应该是华北东北的男性里面是前2.5%。那10%这个数据也就是说,当它的身高大于等于1.765米的时候,它实际上是占我们所关注的东北华北成年男性的10%左右。这样的话,大家就可以有一个参考,到底你选多高算高,我们说如果你要关注,我要找到10%的话,那么你就看1.76这一个数据。

   

这个是关于身高,要注意一下,这个身高,我们这个数据是基于前面的这一部分,而这一个数据是从互联网上查到的,也就是最近的更加科学的统计目前没有查到,我们要稍微做一些调整。从目前的角度来看,因为营养好了,那么身高会更加偏高一点,那么大家在上面要做一些稍微的调整。

 

   

那么下面就是关于收入和财富这一个问题。收入和财富这一个问题,我们可以首先给大家一个了解,那么收入和财富从研究上来讲,大家认为它可能服从于律分布,那么律分布对于大部分人应该是不太熟悉的,那么我们先给大家解释一下,什么是律分布以及它有什么样的特点。那么律分布我们为了解释它,我们先看一下这样的一个数据。那么这个数据是美国的家户的收入的数据,在2014年做的调查。那么我们会发现它跟前面的正态分布有一些相同特点,例如都是中间高,两边低。但是我们会发现这一个数据和正态分布还是有一些不一样,不一样在什么地方呢,如果我们把它跟一个具有相同均值和相同方差的正态分布拿来比,我们会发现在右端的部分,它会非常不一样,例如我们会发现在右端部分,我们的正态分布很快趋于0,它已经非常接近0了,也就是说当,假如我们的这一个财富或者这一个收入,也是服从正态分布的话,也就是说大于这个收入的人数,它只有这一部分的阴影面积,也就是说非常小。但是实际上从我们的统计上看,大于我所说的这一条线右边的它的这个数据,它下面围成的这个面积还是相对比较大。那么更形象地说,我们这一个新的,就是收入分布,它相对正态分布来讲,它具有尖峰胖尾的特征,尖峰是说这一个峰非常的陡,它要比正态分布下降,在这一部分要快。但是胖尾是说明在这一个尾端,特别是比较大收入的这一部分,它会延缓很长时间才会趋于0,也就是说它没有像正态分布那样很快到达0。

   

那么更直观地来讲,就说应该是说收入比较大的人,它要比我们用正态分布想象的要多很多。那么在右端,那么从数学上来讲,它是逼近于我们所说的律分布。那么律分布,我们从数学上看,大概是一个这样的特征,它是一个非常陡峭,然后在右边它会拖的很长,这个图非常好地展示了尖峰胖尾的特征,跟正态分布是非常不一样的。

 

那么律分布还有一个非常令人吃惊的特征,这个吃惊的性质,我们可以用这个图表示出来,如果我们把上面的这个概率密度函数,给它取一个双对数坐标,横轴是例如刚才的收入,纵轴是代表了在这个收入上集中的人群的概率是多大,在我们的双对数的情况下,就是同时给它取一个对数的操作,那么我们就会发现,它是一条直线,这个斜率是负的。

   

那么从我们这个律分布的形式上,到我们这个,它只是做了一个数学上的推导,如果大家对数学不熟悉的话,也没有关系。那么我们来看,律分布和正态分布是否是一样,它也是普遍的呢,因为我们前面已经说过很多东西它是服从于正态分布的,而且有中心极限定理可以说明为什么正态分布是非常普遍的。那么最近的研究也发现,律分布实际上它也是普遍存在的,例如我们这一个,看见的这一个图是来自于2005年,他们做的一个研究工作,它是把爱因斯坦和达尔文他们回信的这样一个操作,把他从收到某一个信开始,到他回复这个邮件,中间的间隔时间把它取出来。我们会发现这一个间隔时间也有的长,有的短,大部分就是非常快的就回复了,但是有少部分的邮件会过了很长时间才回复,甚至可能过了好几年,才去回复这个事。那么同样,如果我们的横轴是他的回复时间,纵轴是这些邮件,他回复的时候,同样的时间到底有几封。我们把它划成这样的一个概率密度函数,然后我们取一个双对数坐标,我们就会发现它也是在这个双对数坐标下,它是直线,并且爱因斯坦和达尔文这两个直线的斜率也是一样的,也就是说这说明它具有某种普适性的规律,是在其背后。

   

那么除了它之外,包括了地震,包括地震的等级,就说地震的等级和它的这个数量之间,也是具有这样的规律。另外我们还可以知道,如果我们把英语,甚至汉语找出来,给一个大的语料库,我们把它进行分词,然后用词进行统计,看看相同的这个词出现了几次,以及出现相同的次数的词到底有多少种,我们把它画出图来,例如这一个,是代表了我们出现的频次最高的词,它到底是多少次。比如说在英语里面,the是用的最多的这个词,在汉语里面,的这个词用的最多,我们会发现它的频率是最高的,我们把它按频率从大到小排成一个序列,然后画在这个图上,这个图称之为Zipf图,如果加上双对数坐标,我们就可以发现,这一个双对数坐标下,我们的这个词出现的频率,它如果按它的顺序,从大到小排列的话,就说小的这个Rank,它具有大的频率的话,也是具有负的斜率的直线。

   

那么从数学上,我们可以证明,Zipf律跟我们刚才说的律是一致的。另外我们还有一个大家可能比较熟悉的帕累托法则,就是80/20法则,实际上也是律。80/20法则是说当时研究的时候发现20%的人口掌握了80%的土地,从现在我们财富的角度来讲,也是20%的人口掌握了80%的财富。那么同样在这20%的人口里面,有更加顶端的20%,它掌握了刚才80%的财富里面的80%,它有这种我们说的相互无穷的先导性和自相似性。那么从数学上也可以证明这个所说的帕累托法则,它也意味着这个数据是具有律分布特征的。

 

那么为了让大家去计算,到底多富才算富呢,我们必须还是要有一定的数学。那么这个数学大概是这样,就是说我们把这一个大于等于某一个财富的人,按它的频率把它区分出来,然后比上总的积分,我们就可以算出它的份额。例如50%的人的财富应该是大于等于财富的这一个平均值或者是重数那一部分,或者是中位数那一部分。那么平均值那一部分,我们用50%的表述出来,那么这一部分,就说假如这一个平均值和中位数很近的话,因为大部分数据它确实也是比较相近的,那么我们就可以得到这样一个数据。

   

实际上另外一个大家所熟知的帕累托法则,实际上也是意味着它的这些数据服从于律分布,那么帕累托法则,当时的研究是发现,20%的人口掌握了80%的土地,那么换作我们今天财富的研究来说,是20%的人口掌握了80%的财富。那么同时这个帕累托法则它有无穷的先导性和自相似性,也就是说20%的这些占有80%的财富的这些人口里面,其中顶级的20%的人口又占据了他们所共同占有的80%的财富中的80%。那么从数学上,我们可以证明,服从帕累托法则的这些数据,它确实具有律的分布的特征。

   

那么前面我们已经知道律分布实际上它只有一个参数,就相当于正态分布的两个参数来讲,有一个参数就可以决定整个律分布的特征。那么从数学上,我们可以讨论,这一个平均财富和我们所研究的这些人群里面的最少的财富以及排名在前R%的这些人口的财富之间的联系。那么平均财富可以得到律的参数减1除以律参数减2,再乘上最小的财富。而这个事实就表达了排名前R%的这些人口,他所具有的财富值应该和我们的平均财富所具有的关系是什么样的。

 

那么我们可以收集具体的数据来得到这些参数,进一步的我们来得到,到底哪些多大的财富才算高的财富,财富多高才算高。这一个数据是我们收集的2017福布斯中国富豪榜的一部分的数据,我们可以看出,第一名许家印的财富,达到2000多亿元人民币,那么接着是马化腾马云等人。如果我们把这些财富的值按从大到小排序,用这样的一个坐标表示出来,横轴表示它的排名,纵轴表示它的财富值。那么我们在这样一个双对数坐标下,我们会发现中国的前400名的富豪,他们所具有的财富值,在这个双对数坐标下,它是直线,说明这些数据它是服从于律分布的。

   

同时我们可以得到这一个直线它的斜率的大小,大概是负的0.69,如果我们换算出律分布的指数,我们就可以得到这个律指数,大概是2.45。那么有了这一些数据之后,我们就可以对中国的人群它的财富程度进行预测,或者是进行一个估计。

 

那么根据我们前面得到的公式,我们就可以得到前R%的人口,它和平均财富的关系,平均财富据调查发现,中国人它的家庭人均财富是达到16.9万美元,这大概是2016年的数据,就是大概合人民币是100万人民币。那么通过计算,我们会发现在中国有50%的人,他的财富是达到50万人民币以上,有10%的人,他的财富达到152万人民币以上,只有1%的人,他的财富可以达到743万元人民币。

   

那么因为我们的数据是从,我们的数据的估计是通过福布斯中国富豪榜1到400名的数据,它实际上并不是对中国人进行的一个比较好的抽样,它只是抽出了最大的财富,所以整个的这个计算,它可能会存在一些偏差,我们这里面的结果仅供参考。

 

那么总结一下,第一,我们是认为概率密度函数是研究随机变量的有利武器,也就是我们一旦知道了它是服从于什么概率密度函数的,那么在此基础上,我们就可以做很好的一些预测和判断。

 

第二个,特定的人群身高从科学上研究发现,它是近似服从于正态分布的。

 

第三个,财富可能是近似服从于律分布,这两个分布具有不一样的特征,那么后者对于前者来讲它具有尖峰胖尾的特征,特别是胖尾这一个部分,它是说明很大的这个财富值,它出现的概率是相对于正态分布来讲,它是比较大的。换句话说,就是我们现在网上比较流行的,就是贫穷限制了我们的想象力,是指的有一些人,他的财富值是出乎我们意料的,富可敌国的人并不少。

   

最后要特别强调一点,就是我们这里面所采用的数据很多是来自于互联网,它在权威性时效性和代表性方面会存在着一些偏差。分析过程和最后的结果,我们仅做参考。

 

那么最后我们用一个图表来展示关于身高和财富的一个总结。那么从这一个表上来看,先看身高,我们会发现,50%的人如果用我们前面以东北和华北地区作为全中国的参考的话,那么50%以上的人他的身高是在1.69米以上,只有10%的中国男性身高会超过1.76米,只有1%的人口的身高会超过1.82米,而我们已知的最高的身高的人,他的身高超过中位数是87.24%,也就是最高的人他没有我们中位数身高的人的两倍那么大。

 

但是从财富角度来讲,我们可以看见,50%的人的财富是超过50万人民币,我们刚才给出的从网上调查得到的100万人民币是平均的这一个财富,但是因为它是服从于律分布,所以大部分人的财富是要比,有相当大一部分人的财富是低于我们的平均值的。有10%的人,他的财富达到152万,只有1%的人,他的财富值是可以超过743万。那里面,我们把目前在2017福布斯排行榜最高的许家印,他的财富是2813亿人民币,放在这儿,我们会发现他超过中位数达到了56万。

   

那么最后我们如果用图形的方式,我们可以展示出来,这个是从身高上,就是说最高的人和我们的普通大众其实区别并不是很大,我们从一个图上可以把它都清楚地展示出来。但是,如果我们把财富也换成人的身高的话,我们就会发现很多人在我们的这一张图上实际上是看不见了,因为他们大概只有50万人民币的财富,那么这些富豪,他的财富是大大地超过了我们普通人的财富,那么从这个图上,就是只能表现出这些大财富的这些人。好谢谢大家,这就是我给大家带来的关于身高和财富的分布,我们如何从身高和财富的分布来去估计多高算高,多富算富,谢谢大家。

 

读书人简介:

作者(译者)面对面为你讲解一本书的核心要义。
喜欢就下载APP试用吧!

读书人简介:

作者(译者)面对面为你讲解一本书的核心要义。
喜欢就下载APP试用吧!