文章快速检索     高级检索
  科学与社会  2014, Vol. 4 Issue (1): 27-35  
0

引用本文 

汪小帆. 数据科学与社会网络:大数据,小世界[J]. 科学与社会, 2014, 4(1): 27-35.
WANG Xiao-fan. Data Science and Social Network: Big Data, Small World[J]. Science and Society, 2014, 4(1): 27-35.

基金项目

本文受到国家自然科学基金(61374176)的资助

作者简介

汪小帆,上海交通大学自动化系长江学者特聘教授。研究方向为网络科学与控制理论

数据科学与社会网络:大数据,小世界
汪小帆     
上海交通大学自动化系
摘要: 兴起于世纪之交的网络科学在过去15年间取得了重要进展,并且已经开始了从网络科学到网络工程的跨越。大数据时代的到来使得数据科学成为一门备受关注的新兴领域,同时也为网络科学与工程研究带来了更多的机遇和更大的挑战。本文希望探讨网络科学的发展历史对数据科学兴起的启示,并通过介绍一些最新的基于数据的社会网络分析成果探讨数据科学对人类社会的影响。要实现“数据,让人类更美好“的愿景既需要科技的发展,也需要人类的共同努力。
关键词: 数据科学    网络科学    社会网络    大数据    

“忽如一夜春风来,千树万树梨花开”,从各级政府到各行各业以及不同学科的研究人员,大家都在谈大数据,都想搞清楚大数据究竟是什么。尽管对于大数据还存在着各种不同的观点,但大数据对科学研究、社会发展、经济建设和文化生活等各个领域都会产生重大的影响,而网络科学作为一门从网络角度研究复杂系统的新兴学科,也将会在大数据研究中发挥着重要作用。

一、 从网络科学的历史看数据科学的兴起

20世纪60年代,数学家Paul Erdos和Alfied Rényi建立的随机图理论[1]开创了网络科学理论研究,而心理学家Stanley Milgram的“六度分离”的小世界实验[2]则是引领了网络科学的实证研究。但是,网络科学的真正兴起是从20世纪末开始的[3],其标志是两篇分别发表在NatureScience上的开创性文章[4-5]:它们分别揭示了复杂网络的小世界特征和无标度性质,并建立了相应模型以阐述这些特性的产生机理。

巧合的是,数据科学一词在20世纪60年代也已经开始出现。1968年,国际信息处理联合会(IFIP)大会通过了一份题为《数据科学:数据与数据处理的科学,及其在教育中的地位》的报告。2002年,国际科学技术数据委员会(CODATA)创办了第一本期刊——《数据科学》。而数据科学的真正兴起则是受到了近期大数据热潮的推动。

本世纪以来网络科学的实证研究体现了数据规模越来越大的趋势。以小世界实验为例,Milgram当初的实验只涉及到300人左右,数据量非常小。2001年,Duncan Watts等人建立了一个称为小世界项目(Small World Project)的网站,开始在世界范围内进行一个检验六度分离假说是否正确的网上在线实验,有6万多名自愿者参加。近些年来,各种在线社会网络如雨后春笋般涌现,而产生了规模越来越庞大的网络数据。人们在包含人人、MSN在内的多个社交网络上都验证了小世界现象。2011年底,Facebook公布了迄今为止最大规模的小世界验证: Facebook上两个用户之间的平均距离仅为4.74![6]。研究中采用的2011年5月份的数据包括了Facebook上的大约7.21亿个活跃用户以及687亿条朋友关系链接,用户数超过了当时全球人口的10%。值得一提的是,“六度分离的小世界”也是世纪之交在线社交网络(OSN)兴起时主打的旗号。1997年,OSN的先驱即起名为SixDegrees.com,网站基于六度分离理论,用户可以向1—3度的好友发送申请促使好友关系的形成。

从研究内容上看,网络科学所要研究的是各种看上去互不相同的复杂网络之间的共性和处理它们的普适方法。网络科学中的研究问题的来源是各种实际网络,它所产生的共性的概念、方法与理论又可以反过来为各种实际网络的分析与设计提供宏观指导与具体手段。数据科学基于的则是实际数据的多样性和广泛性,以及数据研究的共性问题。当然,网络在计算机中也是通过数据来表示的,从这个意义上说,数据科学具有更广的意义。

随着研究的不断深入和技术的不断进步,网络科学在实际网络中的应用也在不断得以扩展和深化,典型例子包括以通信网络、交通网络和电力网络等为代表的关键基础设施网络、生物网络、社会网络、经济金融网络等等。Facebook使用网络科学方法革新了推荐系统并取得了良好的效果。国际上出现了一些基于网络科学方法研究生物问题的公司。2013年3月Nature Physics出版了金融中的复杂网络专辑,诺贝尔经济学奖得主、网络科学研究人员和金融机构高管联合撰文阐述了复杂网络在金融中的可能应用,其中特别提到了金融网络系统的控制研究的重要性。网络科学从理论到应用的发展历程也让我们对于数据科学研究充满更大的期待。

二、 数据驱动的社会网络分析

以下通过一些近期的基于数据的社会网络分析典型研究,以阐明随着获取数据的能力的不断增强,人类可以对自身有多大的了解。

1. 网络时代的社会影响

网络传播。基于网络科学的兴起,人们开始关注网络结构对于传播行为的影响。经典的研究往往是基于传染病模型。近期关于网络传播研究的一个显著特征就是涌现出越来越多的高水平的基于社会网络的实证研究。流行的假设认为网络平均距离比聚类系数对于网络上的传播的影响更大,即与具有较高聚类系数和较长平均距离的网络相比,具有较短平均距离和较低聚类系数的网络上的传播要更快和更广。然而,Damon Centola的在线社会网络实验研究表明,对于一些与社会强化相关的行为的传播而言,高聚类、大直径的规则网络的平均传播范围明显大于低聚类、小世界的随机网络的平均传播范围;规则网络上行为传播的平均扩散速度也明显快于随机网络上行为传播的速度[7-8]

政治动员。社交网络对人们的行为会产生多大的影响? Robert M. Bond等人在Facebook上做了一项涉及到超过6000万用户的关于社会影响和政治动员的实验研究[9]。在2010年的美国大选期间,研究人员发现,如果告知一个Facebook用户当前的投票数及其几个朋友已经投票的信息,那么能够显著提高该用户投票的可能性。

结构多样性。传统的模型假设一个人被感染(或采用某种产品)的可能性与该人的朋友中被感染(或采用某种产品)的人数成正比。Johan Ugander等人通过5400万封Facebook邀请邮件分析了Facebook的增长,发现人们加入Facebook的可能性并不是由已注册的朋友数量决定的,而是由朋友圈的连通片的数量(即朋友群的数量)控制的。而且在连通片固定的情况下,一个人加入的可能性反而通常是与朋友数量负相关的[10]。因此,一方面,今后的研究需要更多关注朋友群的数量的影响;另一方面,该结论是否适用于现实世界的行为仍值得研究。也就是说,如果你有多个圈子的朋友拥有某件产品,那么你是否会更倾向于购买该产品?

口碑营销。Abhijit Banerjee等人以在印度农村推广小额信贷为例,研究了如何更好地选择初始人群以达到更好的口碑营销的效果[11]。具体地说,最初获得信息的一部分在网络中的位置是如何影响信息的传播和产品的扩散的?影响一个个体决定使用该产品的因素是哪些?一方面,个体首先要知道产品信息才有可能使用,并且如果越多的朋友告知该个体关于产品的信息,该个体就越有可能使用。另一方面,获得信息的个体是否最终使用产品也有可能会受到其朋友的决定的影响。为了考虑这些因素,文中建立了一个简单的信息扩散模型来区分邻居之间的信息传递与邻居决定的直接影响,并区分使用者和非使用者的信息传递。研究表明,小额信贷的使用者把信息传递给另一户家庭的可能性是未使用者的7倍。另外,由于未使用者的人数要多得多,因此,总体上看,未使用者的信息传递作用也是重要的,导致了整个村庄中1/3左右的信息传递和产品使用。

羊群效应。现在不少人在去餐馆吃饭时,往往会在网上查一下其它人对于餐馆的菜系、环境和服务等的评价,以及对该餐馆的菜品推荐等。如果你的体验与网上评价基本相符,你会觉得网上评价还是很可靠的;但是,如果你的体验与网上评价相差甚远,就会觉得网上评价不靠谱,甚至会怀疑一些网上的好评是不是商家买来的。

现在的问题是:人为的好评或差评到底会对后续其他人的评价产生什么样的影响?存在着多大程度的“羊群效应”? Sinan Aral等人在一个社交网站上进行了随机对照实验[12]。在这个网站上,网民对于每一篇上传的文章都可以给好评或差评。一篇文章的好评数减去差评数就是该文章的分数。研究人员事先给一些文章比较多的好评,另一些文章比较多的差评,还有一些文章则不事先评价。所有这些文章的选取都是随机的,和文章内容无关。研究人员收集了30万次的网民评价,发现事先获得较多好评的文章最终得正分的可能性比对照组高出32%,体现了羊群效应。另一方面,事先获得较多差评的文章的最终得分则和对照组没有显著差别,也就是说,人们会自动修正不客观的差评。这说明人们对于正面和负面评价的态度可能是不一样的。这类研究表明,为了防止羊群效应导致的不公正的评价,我们也许需要考虑改进社交网站的设计,以避免不当的羊群效应。

强关系挖掘。找出强关系是社会网络分析中的重要课题。Lars Backstrom和Jon Kleinberg最近研究了一类特别的强关系:情侣关系[13]。他们考虑的基本问题是:如果我们已经知道一个人的朋友关系,以及所有这些朋友之间的连接关系,那么能否从这一网络结构就能推断出这个人的情侣是谁?为此,他们从Facebook上所有年龄不小于20、好友数在50到2000之间的大约3.8亿用户中随机筛选出130万已经注明有情侣的Facebook用户作为研究对象。他们发现,传统的镶嵌(embeddedness)指标仅基于两人之间的共同好友数来刻画两人关系的强弱,并不适合分析情侣这种强关系。为此,他们提出了一种称为离散度(dispersion)的新的网络指标。这一指标不仅要看两个人的共同好友的数量,还要看这些共同好友之间的网络结构。如果两个人的共同好友之间的连接较少的话,那么这两个人就有较高的离散度,从而更有可能是情侣。基于离散度指标的预测大约是基于镶嵌指标的精度的两倍。而且,即使两个人现在是情侣,如果他们的离散度较低的话,就意味着他们拥有各自的生活空间的可能性较低,从而更有可能分手。类似于离散度这样的指标在个人网络结构挖掘中的作用值得进一步研究。

三、 数据时代网络分析的挑战

兴起于20世纪末的网络科学在过去15年间取得了重要进展,并且已经开始了从网络科学到网络工程的跨越。大数据时代的到来为网络科学与工程研究带来了更多的机遇和更大的挑战。

1. 从大数据到好网络

对于很多复杂网络至今还无法通过有效方法获得较为完整的网络结构数据。因此,随着我们能够收集的数据规模和种类的不断增大,如何从大数据构建合适的网络也变得日益重要。这里涉及到两个问题:一是从大数据到好数据,即对数据本身的预处理,如清洗和去噪等;二是从好数据到好网络,即使有了高质量的网络数据,针对所研究的问题,往往也需要对数据做恰当处理以生成合适的网络。

2. 特征挖掘与算法设计

复杂网络研究发展到今天已远不能仅仅停留在对各种实际网络计算小世界和无标度等性质的水平上,而是必须要有新的发现与认识。哪些拓扑性质对于刻画网络结构既具有基本的重要性又便于计算?各种拓扑性质之间具有什么样的关系?对于这些问题的认识仍然有待深入。

复杂网络分析相关的算法问题是在大数据背景下新挑战——如何快速、有效处理包含数千万乃至数亿节点的巨网络?基于大数据的算法问题有可能成为未来大科学化的复杂性科学研究的技术基础之一。从社团结构挖掘到链路预测和各种推荐算法等,算法复杂性分析、快速近似算法、并行计算、分布式图存储问题等等都值得深入研究。

3. 从静态、单一网络到时空网络与网络的网络

现实网络大多数是随时间和空间持续变化的。例如,实际的社会网络中,人与人之间的联系与交互是遵循一定时空统计规律出现,而不是一直保持不变的。在这种含有时间空间的网络上的动力学过程可能会呈现出与静态网络和非空间网络极为不同的规律,因此,需要探索这种随时空演化的动态网络上的动力学特性,以及节点、连边的活跃特性与动力学的关联规律。

目前网络科学研究主要针对的是单个网络,而事实上许多网络都不是孤立存在的,而是与其它网络之间存在着相互依赖、合作或竞争等关系。随着数据获取能力的不断增强,我们可以对网络的网络开展从理论到应用的深入研究。例如,以社会网络研究为例,同一个用户可能同时是人人、QQ、Email和微信用户,因此这四种网络之间是存在相互关联的。许多基础设施网络,如电力网络、通信网络、交通网络等等之间也都是相互依赖的,一个网络的故障有可能触发其它网络的相继故障。

4. 从网络分析到网络控制

我们研究任何一个系统的根本目的都是为了使得这个系统运行的更好。对于各种大规模复杂网络分析的目的也是希望能够进而改进甚至优化网络行为。近期该领域关注的重点是能否以及如何通过对网络中的部分节点直接施加控制而达到控制目标[14-16]。一些挑战性问题包括:(1)可行性问题:当网络规模很大时,控制理论中已有的判据和算法的计算复杂度往往难以承受,因此需要寻找新的有效算法。(2)有效性问题:如何选取受控节点才能使得达到控制目标所花的代价尽可能小。这里的代价包括所需直接控制的节点数量、网络耦合强度和反馈控制增益幅值等。(3)鲁棒性问题:大规模复杂网络往往面临由于随机故障或者有意攻击而导致的节点或连边失效。因此,有必要研究系统对于这类扰动的鲁棒性。特别地,需要能够给出判别大规模网络控制系统中的关键节点和连边的有效算法。期望控制科学和网络科学的结合能够在复杂网络控制研究上取得更丰硕的成果。

5. 隐私的挑战

英国作家George Orwell的传世之作《1984》[17]描绘了一个令人感到窒息和恐怖的,以追逐权力为最终目标的极权主义社会,其三大口号是:战争即和平,自由即奴役,无知即力量。2013年底,美国科幻作家Dave Eggers的小说《圆圈》(The Circle)一面世即在美国硅谷激起波澜[18]。书中介绍的一家名为“圆圈”的全球最大的网络公司可以看做是当今Google-Amazon-Facebook-Twitter的混合体。这家“技术至上”的企业的每一个工程师都努力希望通过自己的创新产品让世界更美好,但其结果却是使得所有人都变成不再有任何隐私的透明人,整个世界更像是21世纪的1984:不再是少数人监控大多数人,而是每一个人监控每一个其它的人。正如小说中的三大口号所言:共享即关怀,秘密即谎言,隐私即盗窃。

尽管《圆圈》只是一本科幻类的小说,它所引发的却是目前全球都很关注的网络时代的隐私保护挑战。从2013年6月开始,美国前中情局职员斯诺登陆续披露了美国政府的代号为“棱镜”的秘密项目等监控行为,旨在从网络和通信公司获取庞大数据,以监控通话、电子邮件和聊天记录等。基于人们之间的这些交流数据就可以构建相应的交流网络,其中的每条边表示了两人之间联系的密切程度。在此基础上,有可能通过分析网络的演化趋势来预测恐怖袭击等突发事件,从而有利于社会的安全与稳定。但是,这类监控本身如果没有有效的法律监督的话,那么就有可能严重侵犯公民的个人隐私,反而会让公民生活在一个更加没有安全感的环境中。

因此,随着网络时代、信息时代、数据时代的不断发展,越来越需要有关于数据的收集与使用的社会规范与法律框架,实现“数据,让人类更美好”的愿景。

Data Science and Social Network: Big Data, Small World
WANG Xiao-fan     
Department of Automation, Shanghai Jiao Tong University
Abstract: Network science, starting its rise at the turn of the century, has achieved significant progress over the past fifteen years, and begun the transfer to network engineering. With the coming of big data era, data science has become a new area which attracts a lot of attention, and it also brings more oppertunities and challenges to network science and engineering. In this paper, we try to explore the inspiration of the development of network science to the rise of data science. We also introduce a number of recent researches on the data-driven social network analysis, with the aim to explore the influence of data science on humankind. In order to realize the vision of ’data, making a better world’, we need not only the development of science and techlogy, but also the joint efforts of human beings.
Key words: data science    network science    social network    big data    
参考文献
[1] Erdös P, Rényi A. On the evolution of random graphs. Publ. Math. Inst. Hung. Acad. Sci., 1960, 5: 17-60.
[2] Milgram S. The small world problem. Psychology Today, 1967: 60-67.
[3] 汪小帆, 李翔, 陈关荣. 网络科学导论. 北京: 高等教育出版社, 2012.
[4] Watts D J, Strogatz S H. Collective dynamics of ‘small-world’ networks. Nature, 1998, 393(6684): 440-442. DOI: 10.1038/30918.
[5] Barabási A-L, Albert R. Emergence of scaling in random networks. Science, 1999, 286(5439): 509-512. DOI: 10.1126/science.286.5439.509.
[6] Backstrom L, Boldi P, Rosa M, et al. Four degrees of separation. Proc. 4th ACM Int'l Conf. on Web Science (WebSci), 2012, 33-42.
[7] Centola D. The spread of behavior in an online social network experiment. Science, 2010, 329(5996): 1194-1197. DOI: 10.1126/science.1185231.
[8] Centola D. An experimental study of homophily in the adoption of health behavior. Science, 2011, 334(6060): 1269-1272. DOI: 10.1126/science.1207055.
[9] Bond R M, Fariss C J, Jones J J. A 61-million-person experiment in social influence and political mobilization. Nature, 2012, 489(7415): 295-298. DOI: 10.1038/nature11421.
[10] Ugander J, Backstrom L, Marlow C, Kleinberg J. Structural diversity in social contagion. Proc. Natl. Acad. Sci. USA, 2012, 109: 5962-5966. DOI: 10.1073/pnas.1116502109.
[11] Banerjee A, Chandrasekhar A G, Duflo E, et al. The diffusion of microfinance. Science, 2013, 341(6144): 363-365.
[12] Muchnik L, Aral S, Taylor S J. Social influence bias: A randomized experiment. Science, , 341(6146): 647-651. DOI: 10.1126/science.1240466.
[13] L. Backstrom, Kleinberg J. Romantic partnerships and the dispersion of social ties: A network analysis of relationship status on Facebook. Proc. 17th ACM Conference on Computer Supported Cooperative Work and Social Computing (CSCW), 2014.
[14] Wang X, Chen G. Pinning control of scale-free networks. Physica A, 2002, 310: 521--531. DOI: 10.1016/S0378-4371(02)00772-0.
[15] Liu Y-Y, Slotine J-J, Barabas A-Li. Controllability of complex networks. Nature, 2011, 473: 167-173. DOI: 10.1038/nature10011.
[16] Su H, Wang X. Pinning Control of Complex Networked Systems. Berlin: Springer, 2013.
[17] 乔治·奥威尔. 1984.1. 上海: 上海译文出版社, 2009.
[18] Eggers, D. The Circle. New York: Knopf, 2013.
[19] Pontland, A. Social Physics: How Good Ideas Spread--The Lessons from a Hew Scierce. New York: Penguin Press, 2014.