两个例子

吴金闪
查看全部 内容介绍:
收起 内容介绍:

 

 

 

网络作为工具和网络上的传播直接到间接具有普适性,同时网络的分析的方法,也有共性。

 

 

为了加深大家对于复杂网络这个工具的普适性的理解,我下面举两个例子。我们说过普适性是第一个,很多东西都可以用复杂网络来描述这样一个含义;第二是上面的分析方法,有的时候是有共性的;第三是得到的结果可能是有共性的,那很难找到一个例子,就是三个方面的普适性都展示出来。我们先来看几个我比较熟悉的例子。

 

第一个是来自于他这本书里头的,也是在网络科学的发展历史当中,起到了非常重要的推动作用的例子叫美国大停电事件。那么大停电事件,2013年大停电事件是一件什么样的事件?就是发现美国的好几个州,包括加拿大的一部分地区整体都断电了。这样的断电,你要知道网络当中为了防止这样的断电是有很多的措施的,所以这种大规模的停电事故出现,是有非常非常特殊的原因的。

 

在网络科学里头,他怎么来研究和看待这个大规模停电事件呢?他说首先你把电网的各个节点相互联系的这个网络给我;第二,你还可以去研究这个节点当中,每一个点所扮演的角色有什么不一样,这两个不同的视角,就产生了两个不同的研究。一个研究的思路叫做级联失效,另外一个研究的思路叫做多层网络,或者相互依存的网络。先来看级联失效的思路,级联失效是怎么做的?首先我们有了网络;第二,我给每一个网络上的顶点设计一个容量,这个容量就是它大概能够不损坏的条件下,承担多大的,如果是电就是电量。如果是比如说车流的问题,道路上的车容量,这样一个东西,他说如果某一个顶点发生了损害,我怎么办?

 

我就需要把我自己目前所承担的容量分配出去,那我就会把我的这个容量分配给我的邻居,而得到我的分配的那些邻居通常情况下不会产生恶果。也就是说,因为我本身的目前所承担的量和我的设计容量还有一个小小的距离在,于是,我只不过把我自己变得更繁忙,更辛苦一点,但是整个系统不会出现问题。可是如果我本来这个运行在我的设计容量的边缘怎么办?我自己也会死掉。一旦我自己死掉,下一个事情,我就要把我的容量继续传给我的邻居。

 

那么你就想了,一旦考虑这样一层一层的传下去,没准传到某一个地方,它单个的传过来,其实涉及容量还可以,可是当有好几个人传到他身上的时候,他就自己也挂了。于是,他就会促使我旁边其他的节点又产生破坏的行为。这个就是事物之间的相互联系作为破坏或者说超越容量的这个流,它传播的渠道带来的在整体上的行为。这个整体行为有可能是一个冒出来的泡消失了。也有可能是一个冒出来的泡变成一个大泡整体塌缩了。这样一个研究问题的思路,用网络,用传播的角度来看,从直接的到间接的来看,这个就体现了分析思路,分析方法上的普适性,加上网络描述能力上的普适性。

 

那另外一个研究思路是什么?叫做相互依存的网络。他把整个电网看成了两层,一层是控制电站的电脑之间的连接,一层是电站之间的连接。他说一旦你在某一层出现问题的时候,其实本来没事,可是因为两层是相互依存的,你那个电脑依赖于我这个电站活着,我那个电站假设没电了,你那电脑就没电了。可是我不仅仅控制着我这个电站上的问题,我还控制着分配到其它地方去的,于是我就会导致我控制着的其他的电站也会出问题。

 

那么这个时候你就会发现,你一个小小的电站上的破坏,就有可能通过控制电站的电脑的网络传到别的电站上去,于是也形成这样一个大规模的事件。当然实际问题当中是有一些保护措施的,这样的现象是不容易出现的。那作为网络科学来说,除了我前面已经说过的体现网络作为工具的普适性和网络上的传播直接到间接的普适性,那下一个问题问的是什么?就是这样,我出去也想尽可能的保护好那些关键节点,关键节点怎么找?背后就有一堆在这样的Multilayer Network(多层网络)模型上找关键节点的方法,在Multilayer Network找关键节点的方法。找出来当然理想上说、原则上说你还要经过实践的检验,看是不是真有效。

 

那当然只要能找出来,发现它真的有效,那就说明这个网络的分析的方法,也有共性。就是它能够用寻找网络节点哪一个更重要这个所谓节点中心性的问题,来分析很多不同的网络里头哪一个节点更重要。

 

沿着这样一个问题的思路。我再来说另外一个模型,就是我们自己的工作。就是大多数时候,目前来说大家学习汉字是怎么学的?是每一个字记住它的读音,它的含意,它的字的形状,然后回家写50遍,当然写5遍没准你够聪明也就够了,如果不够怎么办?老师就说回家写50遍,不行,就写100遍。随着时代的进步,这一点基本上还没有进步。我记得我小时候要写一百遍的时候怎么办?拿一把铅笔,拿橡皮筋圈起来,然后写它一百遍。

 

如果是对于中国人的这件事情不是个大问题,因为我们真的不是在学汉语,我们是在学汉字。语言本身我们是会了的,我们只需要找到那个字和语之间的联结,我们就把语言汉语学会了。可是对于外国人来说,他同时要学汉语和汉字,而且由于汉语不是语音语言,这一点就导致他的学习负担特别大。他不仅要学语言,学完之后他还要跟学会那些跟这个字没多大联系的那个字形是怎么写的,然后学会写,这是很难的。

 

针对这个问题我们就提出来说,其实第一汉字的字形和字意和字音之间有联系,第二不仅单个汉字的这些字形、字意、字音之间有联系,很多的汉字是相互联系的。然后,我们接着问以下两个问题,第一就是这些联系怎么描述?第二有了这些联系之后,我们如何利用这些联系来帮助大家学习?然后,我们就发现,对于联系到底怎么描述来说怎么办?就是一个字,它可以有意义的拆分成哪几个字?比如说一个树林的“林”,它可以拆成两个木,那么它有意义的拆分就是林和木这样一条线。这个构造回去的逻辑是什么?就是两个合起来的木,就表示林。

 

一旦你这个逻辑清楚了,你就发现你从木学会林的成本就很低,如果所有的汉字都是金、木、水、火、土的叠加和组合,那你汉字大概只需要两分钟就可以把所有的都学会,因为你只要学会金、木、水、火、土,然后学会它们组合逻辑也就会了。当然实际上我们发现没这么简单。可是,实际上发现了这个信息,和这其实差不了太多,因为原则上是一样的。我们发现整个三、五百个常用汉字,它们联系非常的紧密。通过这种有意义的拆分,所谓有意义的拆分就是说从一个合成的字,拆到下面更基本的单位的时候,你必须还有道理能走回去这条路。

 

你不能说形式上这么拆下来就行,说这两个字让他记住就这么构成的。那不行。比如说刀上点一点变成个刃,很好,这个拆一个刀一个点,它有含意。因为它只是告诉你那个地方就是刀刃的意思。但是你要是换一个字,比如说我现在举个不太好的例子,刀上出个头变成力,这个时候你说你要这么拆,那这个是一般来说,我们不允许你这么拆的。

 

因为这个时候,当然你一定要想个道理说,把这个联系想出来也不差,比如说我现在就可以想一个,用力按这把刀,所以头上多出来一个点,但是毕竟这样的联系,它是不可靠的,比较别扭的。这个我们不管它叫有意义的拆分。做完这个有意义的拆分之后,我们就得到了一个三、五百个汉字联系的图,一会儿我们会给大家看这样一张图。

 

那么得到这张图之后,剩下我们问什么问题?问的问题就是有了这张图,第一在局部的层次,如何帮助我们学习一个一个的汉字。第二在整体的层次,我们应该用什么样的顺序来学习汉字,应该用什么样的顺序来检测你哪一个汉字会不会。个体的层次问题很简单,也就是说当我学刀刃的“刃”的时候,你去查一下,这个“刃”,它有哪几个更简单的字构成。你会发现它有刀和那个一点构成。于是你知道我刚才的逻辑,也就明白了,这个东西能帮助我把“刃”这个字学的更好。

 

所以我的其他字都可以这么学,比如说甚至你可以去学来来往往的“往”,为什么念wang这个的音,而不念zhu这个音?这是个很有意思的问题。如果你去我们的系统里去查,你会找到原因(其实是因为“往”的右边不是“主”而是“点”和“王”的组合,“点”是“止”的简化。“止”在早时候表示走的意思)。这是个体的层次,这个问题当然有意义,但是其实不重要,不是网络科学的精神。尽管这个直接联系已经是对于学习有帮助的了,但不是它的核心的精神。

 

也就是从刚才的这一步,我们从个体之间没有联系的汉字变成了有联系的,但是更加重要的一步是从直接联系变成间接联系,什么意思?拿到这张网络之后,我们就想问这么个问题,哪一些基本的汉字是基本的?也就是说哪一些字是用来构成其它的字类似于金、木、水、火、土的?这是一个非常好的出发点,在这个出发点我们就问,这样的字是不是应该先学,也就是说这个字如果它很多时候用来构成别的字,是最基础的,那就应该先学。

 

还有比如说假设有一个字,它也在最底层,比如说一个土和另外一个字,假设随便选一个不太好的例子,比如说士倒过来的。那么这样一个字,你会发现很多字是由土构成的,可是很少的字是有士这个字构成的,尽管它们俩都处于最底层。那么这个时候优先学什么?就学“土”,也就是说层次性低不低,是不能最底层的是一个优先考虑的因素。第二个它被构字的时候,用了多少来构成复杂的字,是需要考虑的。第二个因素是什么?就是网络上的顶点的“度”。第三个因素是什么?一个是层次,一个是“度”。第三个因素是他在语言当中被使用的频率高不高,那频率高的那些汉字也应该被优先学。

 

那当然你还可以提出别的优先学的道理来,我们现在先只考虑这三个,是不是最底层的。是不是“度”高的,是不是用的使用频率高的。这三个考虑决定了我们优先学哪一个的顺序,然后我们就研究了一个网络上传播的算法,把这样三个因素结合起来,具体的算法我就不说了。主要的思想就是把它的使用频率沿着这个层次,从复杂的字传播到简单的字。那么得到每一个人头上那个综合的频率越高的,就应该先学。这个就是一个从无相互作用的一个一个字的分开,到字之间有联系的局部,到字之间的联系再传播开来的整体的问题。

 

回到这个检测的问题,如果每一个字都是独立的灯泡,你想检测我的识字率是多少的时候怎么办?我只能够通过随机抽样。你会发现现在的考试其实不比随机抽样强太多,基本上就是随机抽样。可是如果你知道每一个字是有联系的,你可以怎么办?比如说如果我测了你一个字,发现森林的“林”不认识,那么基本上我就不用再去测“木”是不是认识了。因为我有很大的理由相信,当你不认识“林”的时候,我是不是倒过来,我测了你对“木”不认识的时候,我就不应该去测“林”。因为我认为一点你“木”不认识,我有很大的可能就推测,你“林”也不认识。

 

沿着这样思路,我们就可以设计一个自适应的算法,这个算法是什么?一开始先测你一批字。看你这批字认识不认识,再来决定下面来测什么,从而来推断其他的字认识不认识,而没有必要随机抽样,也没有必要把每个字都测一遍。这种,刚才说的从无相互作用到有相互作用,从有相互作用通过传播变成整体的间接的相互作用,以及通过考虑事物之间的联系来做推断,从而节省测的数量,提高测的效率,这样的一些问题都是具有普适性的。就是大量的问题,不管它背后的实际问题是什么,比如说刚才我们说到了大停电,说到了汉字。

 

前面提过大脑之间的各个单元,提过细胞内的化学反应,其实它们都可以用类似的这种考察事物之间联系,并且把这个联系从直接变到间接,并且考虑用别的信息来推断我附近的这样子的点,这样子的这种网络的角度的分析方式来研究。

 

读书人简介:

作者(译者)面对面为你讲解一本书的核心要义。
喜欢就下载APP试用吧!

读书人简介:

作者(译者)面对面为你讲解一本书的核心要义。
喜欢就下载APP试用吧!