复杂网络研究的起兴--汪小帆

查看全部内容介绍：

......更多详情>>

收起内容介绍：

复杂网络的研究起点在于欧拉当初的哥尼斯堡七桥问题。经过了匈牙利的数学家爱多斯Erdős和伦伊Rényi建立随即图论，1998年Watts和Strogtz发表关于小世界模型的文章，直至 Barabási在1999年介绍了无大规模网络的概念，网络科学的研究在今天信息丰富的大环境下，正对我们生活的方方面面产生极大的影响

如果要找复杂网络或者叫网络科学研究起点的话，我那本书上写到了。我觉得可以从欧拉当初研究的哥尼斯堡七桥问题开始。你想想有一个小镇上，小镇上有七座桥，人们能不能经过这七座桥，而且每座桥只经过一次？能不能找到这样的路径？发现找不到。后来欧拉非常巧妙的把这个问题抽象为一个包含几个节点几条边的这么一个简单的图。一旦抽象为这个简单的图，我们今天就称之为网络。当然今天你看这个网络会觉得非常的简单。抽象为这样一个简单网络之后，很容易的三句话就完成了数学证明，就是告诉大家不要去走了，这样的路径就是不存在的。所以非常的巧妙，一旦把一个具体的实际的问题抽象成了一个网络之后，问题就变得迎刃而解了。

而且欧拉对七桥问题给出的这样一个解决方式，实际上引申到网络科学中是非常重要的观念。这个观念就是网络的结构是影响着网络的性质和性能的。正是由于这个网络具有这样的结构，所以我们找不到那样子的路径。而且确实这个七桥问题是图论这样一个开端。

但是在此后如果再找下一个节点的话，这个节点马上就跳到20世纪50年代末了。20世纪50年代末匈牙利的数学家爱多斯Erdős和伦伊Rényi ，他们建立了数学当中的一个方向，叫随机图论。就是说如果研究一堆节点，在它们之间有没有边是完全随机的情况下，这样建成的网络叫随机网络。他们对这种随机网络建立了一堆数学理论，非常的巧妙，而且非常的惊奇。他们的随机图理论最主要的结论是什么？它告诉你我们复杂性研究当中一个非常重要的概念――涌现。

涌现在这里的体现是什么呢？他说假设我们任意两个节点之间有没有连接的概率是P的话，对于任何一个给定的连接概率P，你在做仿真的时候，会不会说我这次做仿真的时候产生这个网络是连通的，怎么下次我参数不变还是这个P，做仿真的时候又不连通了呢？这两个伟大数学家告诉你，不会的，你不用担心。他说对于一个给定的P，要么每一次仿真产生的网络都是连通的，要么你每一次产生的网络都是不连通的。所以这个涌现就在于随着两个节点之间有没有连边这个连接概率的增加。原来都没有这种连通的聚变，然后当这个P到达某个阈值的时候突然就涌现出一个连通的聚变，到达某个阈值的时候突然整个网络就变得连通了。所以这就是涌现性质，你不用担心的，原来大家都是一个性质，到某一个阶段的时候大家又都是另外一个性质。这是它最主要的一个结论，非常巧妙。

再下来一个节点的话，实际上就是面向应用了。这个就是我们普通大众有的时候会听到的，所谓六度分离，小世界原理。这是20世纪60年代，哈佛大学心理学家米尔格伦所做的一个实验。他这个实验的基本结论，就是实际上我们任意两个人之间，中间只需要通过几个人就建立起了联系。所以这是20世纪60年代，当然在70年代还有所谓的弱连接，弱连接的力量这样一些研究。

整个这个理念的话，其实是从世纪之交，也就是1998，1999年，然后到这世纪初这样子兴起的。1998年关于小世界网络的研究，1999年关于无标度网络的研究，两篇文章分别在《Science》和《Nature》上发表。我想这两篇文章是网络科学兴起的最主要的标志。所以到现在大概有接近20年的时间，我觉得这个内容兴起的话，有这样几个原因。第一个我想最主要的原因就是我们整个人类社会这种网络化的趋势确实不断地在加深。当然这个主要是由互联网为代表的这样一个技术变革带来的。现在整个人类越来越生活在各种各样，越来越复杂的网络当中。依从互联网，交通网络，电力网络，甚至于到经济网络，金融网络，以及基于互联网上的各种社交网络，以及我们现在对越来越多生物网络等等这样一些研究。现在一方面，整个社会变得越来越网络化。另外一方面，第二个原因就是我们掌握的数据也越来越丰富，整个社会开始越来越进入这样一个数据时代，这种掌握数据的丰富使得我们可以开始来对各种各样不同领域的网络数据做分析。那么在这个分析基础上，网络科学它就自然地涌现出来了。在以前你想研究你没数据，其实在1998，1999年那两篇文章发表的时候，作者Barabási事后就回忆，他在当初研究的时候，他还是很难拿到数据的。因为我们说到科学，科学是什么？实际上它很重要的一个目的，就是要解释各种不同现象背后的共性的机理和规律。

刚才我前面说的两个条件，恰好使得我们这个研究水到渠成。就是我们可以开始借助于强大的计算技术的手段，开始来研究各种各样不同的复杂网络，它们之间共性的科学规律和处理它们共性的这样一种方法。所以这个网络科学的兴起，简单的归纳就是人类社会变得越来越网络化。我们对各种各样数据的采集能力也空前的提高，我们计算的能力也空前的提高。所以导致网络科学有这样一个兴起。

我就以网络上面的传播为例，便于大家理解这个网络科学它是研究什么的。比如说到传播，你看金融危机实际上是某个局部的动荡在全球的这样一个传播。这是我们说金融危机的传播。在人类网络当中传染病的传播，这是传染病在我们每个个体人之间的传播。第三个互联网上有病毒的传播，这是涉及到互联网，电力网络当中，我们有大规模相继故障，某一个局部的事故导致大面积的停电。你看我刚才已经举了四个网络传播了，分别涉及到互联网，电力网络，社会网络，金融网络。原本他们看上去好像是各种不同的现象，但网络科学就是要研究，在这样一个复杂网络上面的传播，它到底有哪些规律性的东西？我们可不可以建立一套科学的方法来分析这种复杂网络上面的传播行为，从而可以用于指导刚才我列举的各种各样不同的实际网络上面传播的行为。所以网络科学我想通过这个例子就可以知道它研究关注的是一个什么样的问题？目前它的前沿研究方向还是蛮多的。从理论上来讲，我们在开发各种各样的分析这种大规模的复杂网络的理论和算法。比如说我就举一个方向，在我们复杂网络里有一个研究，我们叫社团机构挖掘，或者叫社区挖掘。这个对应到实际当中，就是比如说在这个淘宝上面，我怎么样子把淘宝用户自动的把他挖掘出，这一组用户兴趣在哪个地方？那一组用户兴趣在哪个地方？这个就是物以类聚，人以群分。我们搞网络科学的，就像我们要设计如何有效的算法，使得你给我一个网络，我就能够自动的给你把它分成各种不同的群。所以这方面就是涉及到很多理论和算法的这样一个研究。

在应用方面它也在不断拓展。比如说我觉得从大的方向来说，在社交网络分析中的应用。不管是国际上的facebook也好，还是我们的腾讯微信也好，一定都有很多的技术人员在分析我这个facebook上面的用户之间的关系网络。我在微信上的用户之间的关系网络做的分析，这是以人为本的这样一个社会网络分析。第二个大类是在生物和医学中的应用。这个看来也是已经取得很多的进展，并且我想后续还是非常重要的一个方向。你想想看，因为现在这个数据采集越来越多，如果我们真的能够基于各种不同的基因和各种不同的疾病之间，如果随着这个数据丰富，我们真的能够在疾病和基因之间，把它的关系网络建的比较好的话，那么对我们很多疾病的治疗就会带来一种变革。比如说在网络科学当中，现在研究的另外一个前沿方向是控制，复杂网络的控制。那么大，几百万几千万个节点的网络，我可能做不到对每个节点都去控制它。代价成本都太高。我如何只控制很少量的一些节点就能够使这个网络达到我期望的？比如说癫痫病的治疗，我到底要刺激哪些部位，就做到最有效？我想在今后就有可能，我们把复杂网络控制的这样一个理论的前沿方向跟生物医学当中这样一些疾病的治疗能够结合起来。所以这是网络科学在生物学在医学中的应用。我想是一个非常非常重要的方向，既有理论价值也有应用价值。

第三个大类比如说，现在全球我想很重要的一个趋势就是城市化，不断的城市化。城市化的进程中，这个城市变得越来越大的话，城市当中关键基础设施网络的有效运行就变得越来越重要。这些关键基础设施网络的有效运行，它的其中的一个复杂性就在于这些网络不是孤立的。所谓不是孤立就是什么？你想想看通信网络是靠电支撑的，如果电网发生事故了，通信网络也会中断。而现在电力网络又是通过通信网络来控制的，所以这片电力网络坏掉了，导致那个通信网络坏掉了，那个通信网络坏了又导致更大的电网坏掉。而且通信网络发生事故，交通网络也会导致瘫痪。所以城市当中的各种网络是耦合在一起的，我们能不能提供一些对这些相耦合的网络科学的分析，能够保证这种网络的运行。我们说现在有一些这种词，叫它的弹性，现在有个词叫弹性城市。所谓弹性城市就是我这个网络发生一些事故的时候，受到一些攻击的时候，我仍然能够保证它的基本运行，不能使它发生严重的瘫痪。所以我刚才举的像社会网络，生物和医学，在这样一个，我们叫智慧城市建设也好等领域，它今后的应用应该来说还是有很大价值和前景的。

我现在都有一种习惯，比如说开会的时候，中午吃饭的时候，坐着碰到不认得的学生，我就会跟他们主动聊一聊。出差旅行的时候飞机坐我旁边的人也会主动聊一聊。比如说今天中午吃饭的时候，一个学生，原来完全都不认得，我问他“你是从哪来的？”“我是从普林斯顿来的。”再问他，他说“我在普林斯顿读博士。”他说：“汪老师，我上周去了交大的，我还看到了你的办公室的”。我说：“你去那干嘛了？”他说我去那找了张何朋老师和周栋焯老师。问到这儿的时候，张何朋和周栋焯老师都跟我是很好的朋友。你看原来我跟这个同学之间没有任何关系，我们就这么聊了几分钟，发现我们两个之间的距离就变成2了，他跟张何朋老师认识，张何朋老师跟我认识。你看不聊的话根本大家不知道的。所以我们在日常生活当中经常会遇到这样一些现象，原来两个看上去毫无关系的人，结果发现我们之间只要通过很少的这么一两个人，两三个人或者是三四个人就能建立起联系。这就是所谓的这样一个小世界现象。所谓六度分离的话，实际上“六”只不过就是一个，我们说表示小的一个数字。因为网络的规模很大，比如说十的六次方一取对数就变成六了，所以我们说所谓一个网络是不是小世界？如果从数学角度简单来说的话，就是假设这个网络当中任意两个节点之间的距离和它的网络的规模对数成正比的话，我们就认为这个网络就具有这样所谓的小世界特征的。就是说网络规模可以非常大，但是网络当中任意两个节点之间只要中间通过很少几个节点就能够联系在一起。所以这就是所谓的小世界现象。而且这个，现在大家通过大量的实证研究，比如说最大规模实证的研究，那就是像facebook，微信。facebook的研究是公开出来的，微信的研究没有公开，但是他们也说他们做过类似研究。像facebook，你想想看啊，他公开出来的这么十亿左右用户之间的连接数据，他们公开出来的记录比六还要小，对吧？任意两个用户之间，因为在facebook跟微信上是一样的，我们之间是好友我们就有一条边嘛，就是这么定义的。发现确实就有这样一个小世界现象，平均而言，两个facebook用户，中间通过三四个好友，就能连在一起，那么大量的实证研究其实不仅在社会网络，在生活网络，在一些工程网络上面都存在着这样一个现象，所以这是复杂网络的小世界特征。

无标度特征的话，确实它是说的另外一件事情。这个事情非常有趣的一个现象在什么地方呢？其实1998年Watts和Strogtz，他们发表关于小世界模型这篇文章的时候，他们计算了三个实际网络的节点之间的平均距离，就是小世界特征。还计算了另外一个性质，就是网络的聚类系数。这个聚类系数简单一句话，就是看我的好友当中，他们是不是也互相为好友呢？这个可能写有多大？这个可能性大就表示，我的好友他们也互相认识，概率很高。唯独他们就没有计算这个网络的度分布。所谓度分布，一个节点的度，就是在社会网我这个节点有多少个好友，就是我的度。但他们就是没有计算这个节点度的分布到底是什么？后来Watts他专门回忆到，表示遗憾，他说当初我要计算一下节点度的分布，也就是说社会网络当中每个节点的好友的多少到底是怎么样的？是比较均匀还是不均匀的？无标度网络也许就是我发现的了，他说很遗憾。为什么遗憾？就是因为大家头脑里面，天经地义的就觉得，分布嘛，正态分布。他说即使不是正态分布，也基本上是由于各种偏差造成的。但是Barabási他们这种物理学的背景，当时他想到，到底这个网络当中节点的度的大小分布是怎么分布的？他们从万维网开始做起，结果发现，这个分布是高度的不均匀的。少量节点的度值很大。也就是在我们社会网络当中有少量人他的好友数很多，但大部分节点的度值都相对较小。这就是所谓的无标度特征，或者叫非均匀特征，或者我们叫异质性特征。就是它分布的特别不均匀。因为正态分布的话，大家都会在平均值附近，离的很远的是不存在的。但是对无标度网络而言，无标度分布而言，平均值不是一个特征量了。大家可能都离平均值很远。比如说这个无标度网络它的平均度值是10，但是这个网络当中可能有度值为100的节点，这是正态分布完全无法预测的。正态分布预测可能20个节点可能都不见得能有存在。所以这就是网络高度非均匀的这样一个特征，而这个也是在大量的实际网络当中的验证。确实是，至少它不见得完全地严格地服从这种幂率分布，但是非均匀特征至少还是体现出来的。

我想这还有一个概念，现在全球也好，包括中国也好，我们都特别关注的一种不均衡发展。其实无标度某种程度上也是反映了这样一个特征，所谓的富者更富这样一个特征。

复杂网络研究的起兴

http://video.dushuren123.com/lecture1290864971.mp4

读书人简介：

读书人简介：