《爆发》

http://dushuren123.com/lecture-2145008959.mp4

吴金闪
查看全部 内容介绍:
收起 内容介绍:

 

 

 

这本书企图用物理学的方式来描述整个世界的这样一个梦想,巴拉巴西在这本书提出来的梦想是什么呢?物理学的模型就是构造一个整个自然界的,没有任何外生变量的模型。巴拉巴西的梦想就是如果我们能够把整个社会,包含人的思维,包含人的决策的这样整个社会的行为,用这样一个纯粹内生的模型来描述,那这个社会很多的问题也都可以得到研究,也会更简单了。

 

 

第二本《爆发》这本书的主题,我认为它的深刻性和普遍性要比《链接》还要来得高。他然后这个梦想在多大程度上,或者说在迄今为止探索过的模型里头,探索过的事情里头多大程度上能够实现?那什么是一个物理学的角度,或者一个物理学关于这个世界的模型?

 

如果我面对的对象是自然界的系统的话,物理学的模型是这样子的,它希望构建一个完全内生的模型。所谓完全内生的模型就是在这样一个模型里头,所包含的所有的子系统,它们的行为都是通过它们的相互联系来实现的:这是A的行为,它有跟A连在一起的,比如说BC来决定,以及A的当前位置来决定,当前状态来决定;同样的B由和它连在一起的AC的状态,以及它自己的当前状态来决定。

 

如果有外生的变量,相当于是什么样的一个情况?就是说ABC的行为,它受一些不被研究的对象所包含进来的,比如说F 它的特征所决定,F本身它的动力学,并不是有ABC这些内生的系统的状态所决定,而是由某种寄予假设,或者寄予某些理念上外界给出来的。比如说你可以认为,F它给出来的随机变量是f是符合某个正态分布的等等这样子的,这种带有外生系统的模型。

 

物理学的模型就是构造一个整个自然界的,没有任何外生变量的模型。如果这样一个模型,有一天我们找到了,那这个世界就成了什么呢?那物理学就成了,只需要去观测每一个变量当前的初始状态,然后写下来变量之间联系的方程,通常在物理学里的这种联系的方程是表现为某种力,表现为某种微分方程。那一旦有了这两个东西之后,剩下的整个世界,就成了一个非常非常简单的世界。你只要把这个相互作用力的方程写下来,再把初始条件放进去,剩下你就让这个系统往前去演化,你就知道这个世界所有的状态。

 

当然如果你更多地了解一点物理学,比如说你了解什么是量子力学的话,它会牵扯到稍微复杂的一些问题,因为它有所谓内生随机性的问题,但是这个问题我们暂时不管,因为就算考虑了那样的内生随机性,本质上来说,我们的世界仍然符合我刚才说的纯粹内生的世界,仍然符合我刚才说的图景。就是原则上你只需要知道所有的初始条件,你知道各个变量是如何相互联系在一起的,把那个力写下来,你就知道这个系统将来的一切。

 

当然,如果你再稍微了解点物理学,你发现这一切也不是真的一切,牵涉了一些技术问题,这些技术问题比如说,你的方程能不能解的开?这个是不一定的。第二,你的方程就算能够解得开,数值也解得开,它这个解是不是稳定的?所谓稳定的意思就是说,是不是它对误差是收敛的。也就是一个小小的误差,随着你演化方程的传播,是不是会被放大?这个就是物理学当中关于混沌学科研究的问题,我们先这些都不管,也就是说原则上物理学对于整个世界的梦想就是找到一个所有的系统,所有的子系统,它们之间都仅仅有内生的关系的整个世界的描述。

 

那么有了这样一个背景铺垫之后,这时候我们再来看巴拉巴西在这本书提出来的梦想是什么呢?他的梦想就是说:好吧,如果我们能够把整个社会,包含人的思维,包含人的决策的这样整个社会的行为,也用这样一个纯粹内生的模型来描述,那这个社会很多的问题也都可以得到研究,也会更简单了。就是这样一个梦想。当然大家知道这样一个梦想,成立的可能是非常非常的小的,因为人类的思维是怎么来的?人类的灵感是怎么来的?这样的问题目前还没有得到研究。

 

在这样的一个前提下,这本书问了一个什么问题?那好,我们看看有哪一些。尽管它也包含了人类的思维、灵感和人类的决策,但是整体上来说,还是能够比较客观的用类似于像物理学的这种纯粹内生的变量模型来描述。就是这样一个问题。然后这本书的故事就告诉大家,其实你千万别看人类有这么多的灵感,有这么多的出于自由意志的决策,但是很多很多的行为是可以由客观模型所描述的,有的人把刚才这样一个梦想称为计算社会学,或者社会物理学。

 

那除了这样一个主题之外,这本书的第二个主题是什么呢?是爆发无处不在。第二个主题我会用具体的一些例子来展开告诉大家大概什么是爆发,为什么说爆发无处不在?我用书里面的关于钞票的旅行和人的回复邮件的这样两个例子来说一下,什么是社会物理学,什么是人类客观模型能够把握的那一部分的人类行为,以及什么是爆发。

 

这个关于钞票旅行的问题是这样子的,就是有一个钞票旅行的网站,它希望大家把它看见的这些特定编号的钞票在哪里都在这个网站上做一个汇报,然后就有科学家拿着这些数据做一个研究。做完研究发现什么呢?大部分时候,大部分钞票,它在局域做旅行,也就是说,它从社区的这个角跑到街区的另外一角,这种做非常短程的旅行,可是有一定比例的钞票,它在做长程的旅行。

 

那我们对于人类社会,我们当然知道这个长程旅行的原因是什么。比如说,假设某个人带了一张钞票,坐了一个飞机,假设某个人带了一张钞票,开着车从一个城市跑到另外一个城市,这种都会成为这张钞票的长程旅行。这个时候就发现原来基于物理学的一些,关于描述粒子运动的理论,当然我们说了希望它还能用,可是就不一定能用了。比如说,如果大家知道爱因斯坦关于花粉颗粒的理论,我们就知道这些花粉颗粒的运动,它随时随刻会受水分子的碰撞,于是它每次跑的距离都不是很长,因为它跑的过程当中,只要有一个随机的力改变它的方向,它就会做一个折线,它就会改变它的运动。

 

所以,它的这段跑的距离,一般来说都是小的量,而且基于某些假设可以证明,这些小的量其实符合某种随机分布,这种随机分布是可以用基于正态分布的这样的结果来描述的。那好,一旦有了这样一个模型之后,我们可以简单的把这个模型尝试着套到这个钞票运动当中来,发现根本就不是这个样子的。那些长程的移动,它出现的概率远远大于花粉颗粒运动这些长程移动该出现的概率。

 

第一,我们发现了什么呢?没准原来模型的这种思想还能用,但是具体这个模型的机制就不能拿来用了,而需要改成什么呢?后来科学家就发现,可以改成什么呢?改成一个叫做列维(Levy)飞行的东西,就是一旦你在原来的随机运动的情况下,再考虑了这个长程旅行的概率,你用这样的模型再来描述钞票运动的时候,以及钞票运动的背后,理念上对应着人的跑动。

 

因为大家总是假设,钞票本身的运动都是由携带钞票那个人的运动造成的,这种在空间尺度上,大规模事件出现的概率远远大于基于正态分布,或者相应的类似的列维(Levy)分布预测出来它该出现概率的这样子的行为,就叫做一种爆发,以后我们还可以看见一个在时间尺度上的爆发,这样的现象发现在人类的运动当中是非常普遍的,于是大家就把原来的基于正态分布的理论,改成基于列维(Levy)分布的理论,就基本上能描述这些事情。

 

可是深入的研究发现,如果按照这个模型来预测,找到一个叫做混合均匀的时间尺度,这样一个时间尺度和现实统计非常的不符合。这个时间尺度大概是什么意思呢?就是如果我们要去看一下多长时间以后,你收到的钞票完全不可跟踪它从哪里来。或者反过来,多长时间以后你就完全不可预测这张你手上拿着的钞票会跑到哪里去。基本上全国各地它跑的几率都差不多,这样一个时间尺度按照我刚才说的,基于列维(Levy)分布的模型算出来,大概是68天,而按照统计结果算出来,差不多对于钞票来说是100天,这个时候,这个矛盾又怎么解决呢?这个就是时间上爆发的模型所解决的一个问题。

 

时间上的爆发我们先用回复电子邮件的模型,这个回复电子邮件的模型是这样子说的。它说很多经典的排队理论是基于泊松分布的,大家就去看这个泊松分布,多大程度上对于实际系统是符合的。比如说,如果是泊松分布的话,单位时间里头出现多少个事件,或者你排的队,过一段时间多少人会来,需要你替他们服务,这样一个事情是有一个特定的分布,也就是泊松分布所描述的。这样一个泊松分布就可以拿来跟实际的问题检验,大家发现在回复真实的邮件和回复电子邮件这两件事情上,它们单位时间里头回复了多少次?

 

这个事情它根本不是由泊松分布所描述的,或者倒过来,它们每做两件事情之间的时间间隔,也就是回复电子邮件,前后两次的时间间隔,把这样一个东西统计出来,它其实是符合幂律分布的。所谓幂律分布是什么意思?就是说,很短时间里头回复很多很多邮件,这样的事情,按照泊松分布来说是非常非常的不可能。当然按照幂律分布来说,也是相对于回复比较少的邮件来说,也是更加的不可能的,可是它的可能性远远高于按照泊松分布得到的可能性,这个就叫做爆发。

 

也就是说,大部分人回邮件遵循的是这样的模式,我现在有空看一会儿邮件,我就把该回的全都回了,然后那些我不怎么想回的,拖着不知道拖多少天,然后忽然又有一件别的事情,让我离开电脑,不能在电脑面前再回复邮件了。很长的这段时间,就是要去干一件别的事情的时间,所以我不是按照某种均匀的,或者按照某种泊松的分布来调整我回复邮件的频率的,而是有这样一个间歇性的过程来描述的。而这个间歇性的过程,一旦出现这种大规模的集中的回复邮件的时间点,就叫做爆发。

 

也就是说回复邮件的时间点,这种时间上的规模,它不是符合正态分布的。这个事情结合前面钞票运动的模型,就自然想到的一个结合起来的问题,也就是说,第一我每一步跑多远这件事情,不一定是正态的,而是幂律的。第二,我多长时间过来跑一步这个事情也不一定是泊松的,或者是正态的,而是幂律的。那这个时候大家把这两件事情结合起来就发现,前面我说的68100的这个时间尺度的问题,大概就解决了。

 

从这个例子当中,我们看见什么?第一就是回复邮件是有很多随机因素的。也是有很多人类的决策的过程在后面的。同样的钞票运动也是。但是我们发现什么?其实这些运动的背后有共性,而且这个共性可以通过跟物理学一样类似的这种花粉粒子的运动这样的过程来描述。尽管实际上这个花粉粒子的运动的机制被改变了,但是整个描述的框架大概还是差不多的。

 

这样一个例子所反应的,就是我们前面所说的两个主题。第一没准这些千变万化的,由自由意志决定的行为当中,一大部分也是能够通过客观模型来描述的;第二,描述他们的这些模型当中存在着很多这种类似爆发的现象。刚才讲的这两本书是科普书。很多时候这些例子只能够通过讲故事的方式让大家来体会。然后另外一方面,网络科学也不仅仅局限在我刚才前面提到的“度”。“度”分布平均计算距离,集聚系数,以及幂律分布等等这样的现象。它还有很多其它的分析问题的工具。

 

例如你在识别哪个点是关键节点上,这个问题在网络科学里头叫中心性问题,就有很多的方法。比如说除了看这个点,它的连接数,也就是“度”的多少,你还可以看这个点它在所有的最短路径的集合当中出现了多少次,这个量叫介数。就是这样的东西,它多大时候是整个网络当中交流的瓶颈。如果这样的一个东西出了很多很多次的话,说明如果你去掉它,整个网络的最短距离会发生非常大的变化,当然还有别的量。

 

比如说还有大家可能听说过的谷歌的google算法,它算的每个顶点的中心性,就这个PageRank的中心性,它反应的中心问题是,如果一个顶点被更多的顶点所联系,它是重要的。但是并不是所有的顶点连到它这来,给它贡献的重要性都是等权的。那些自己就很重要的顶点,如果一旦引用那个顶点,那它会把它的重要性携带的放到它身上来。

 

也就是说这个联系不仅要考虑我跟多少人连着,还得考虑我跟谁连着,所谓跟谁连着。这个谁怎么定义的呢?就是他又和他的什么样的邻居有关。所以这样一个过程就是把这个“度”直接联系变成的间接联系,不仅跟多少个人连着是有价值的。跟谁连着,也就是跟连着多少人的那个人连着也是重要的。如果连着的那个人自己很重要,自然就会造成我本身的重要性。

 

 

读书人简介:

作者(译者)面对面为你讲解一本书的核心要义。
喜欢就下载APP试用吧!

读书人简介:

作者(译者)面对面为你讲解一本书的核心要义。
喜欢就下载APP试用吧!