1998年@@,“大@@数据@@@@”概念首次@@出现在@@美国@@《科学@@》杂志中@@。近@@20年@@来@@,大@@数据@@@@浪潮一波波向世人扑面而来@@。有人形容@@,大@@数据@@@@就像一片无边无际的@@大@@海@@,海面一浪高过一浪@@,而浪潮之下深不见底@@。

  大@@数据@@@@的@@@@核心口号是量化世界@@,量化世界为创构世界奠定了@@基础@@。在@@大@@数据@@@@的@@@@基础上@@,物数据@@化和@@数据@@物化构成循环@@。这是因为@@,物数据@@化事实上@@就是物信息@@化@@,数据@@物化实质上就是信息@@物化@@。随着现代信息@@技术的@@发展@@,创构活动及其产物与@@人的@@存在@@方式越来越密切地联系在@@一起@@。

  这里涉及一个@@新的@@重要概念@@:信息@@。在@@控制论创始人维纳看来@@,“信息@@就是信息@@@@,既不是物质也不是能量@@”。这个@@定义看上去像是同义反复@@,却富有深意@@。比如@@,物能复制成本呈正比增加@@,而信息@@复制的@@边际成本递减@@;物能越分享@@越少@@,而信息@@越共享越多@@。信息@@的@@这些重要性质@@,在@@作为样本数据@@@@的@@小数据@@时@@,显示不出重要性@@;而在@@大@@数据@@@@基础上@@,则变得非同寻常@@。在@@大@@数据@@@@的@@@@基础上@@,信息@@会对人类的@@文明发展产生极为重要的@@影响@@。

  面对大@@数据@@@@@@打开的@@这扇大@@门@@,我们不能不深入思考@@:这将是怎样的@@一扇门@@,又会把我们带进一个@@怎样的@@新世界@@?

  ■面对一张拍好的@@平面照片@@,再要换个@@角度去观察已不太可能@@。大@@数据@@@@则几乎保留了@@全纬度@@。面对大@@数据@@@@@@,我们可以从不同的@@角度进行考察@@。作为样本数据@@@@,小数据@@是@@“残缺@@”的@@。就像尼采说抽象的@@概念是@@“干枯的@@标本@@”,样本数据@@和@@抽象概念的@@共同特点都是已经@@“失活@@”了@@。而大@@数据@@@@意味着活数据@@@@(动态数据@@@@)、全数据@@@@

  ■对于大@@数据@@@@来说@@,信息@@是活的@@@@,是随着时间而流动的@@@@。高速的@@数据@@流更能在@@时间上与@@现实过程同步@@,因而@@跟人类的@@生存密切联系在@@一起@@。不仅如此@@,只有高速流动的@@数据@@@@,才能提供无限的@@可能性@@。以往受速率限制@@,人们获得的@@数据@@和@@所要反映的@@内容往往脱节@@,而数据@@流的@@高速率使我们把握对象的@@手段越来越完善@@

  ■有人提出@@,大@@数据@@@@的@@@@价值密度低@@,数据@@挖掘相当于@@“沙里淘金@@”。其实@@,对于同一个@@结构开放的@@大@@数据@@@@@@,一些人可能视其为一堆垃圾@@,毫无意义@@;而在@@另一些人看来则会是一座宝库@@,价值连城@@。大@@数据@@@@的@@@@价值和@@意义@@,很大@@程度上取决于人们的@@理解@@,取决于人们的@@眼光@@。归根结底@@,取决于对人的@@需要及其发展的@@理解和@@把握@@

  ■信息@@文明的@@发展@@,是一个@@在@@大@@数据@@@@基础上的@@公共信息@@对称化过程@@。这就要求@@,为推动信息@@文明的@@发展@@@@,必须在@@公共领域尽可能消除信息@@不对称@@。同时@@,为保持信息@@文明发展的@@动力@@,必须尽可能保护创新专利@@。这很可能是时代发展的@@必然趋势@@。对此@@,人类社会应当提前进行思考@@,即@@如何避免新的@@社会不公平的@@出现@@

  关于大@@数据@@@@的@@@@具体特征@@,可以用@@@@4个@@“V”来描述@@

  在@@技术定义上@@,大@@数据@@@@最主要的@@一个@@着眼点是规模大@@@@。但是@@,大@@数据@@@@的@@@@关键性质不主要是规模大@@@@,而是完全不同于作为样本数据@@@@的@@小数据@@@@。通常@@,样本数据@@的@@获取总是会先设定明确甚至单一的@@目的@@@@。这种取样@@,一方面可以更好地实现采样前预设的@@目标@@,另一方面也抹去了@@其他的@@可能性@@。

  大@@数据@@@@的@@@@另一个@@重要性质是维度全@@。通常@@,我们拍照会选取一个@@角度@@。角度一取@@,数据@@就固定了@@@@。面对一张拍好的@@平面照片@@,再要换个@@角度去观察已不太可能@@。大@@数据@@@@则几乎保留了@@全纬度@@。面对大@@数据@@@@@@,我们可以从不同的@@角度进行考察@@。作为样本数据@@@@,小数据@@是@@“残缺@@”的@@。就像尼采说抽象的@@概念是@@“干枯的@@标本@@”,样本数据@@和@@抽象概念的@@共同特点都是已经@@“失活@@”了@@。而大@@数据@@@@意味着活数据@@@@(动态数据@@@@)、全数据@@@@。

  关于大@@数据@@@@的@@@@特征@@,最早是用@@@@3个@@V来概括的@@@@。几年@@前@@,人们认为@@“3V”不足以描述大@@数据@@@@的@@@@特征@@,又提出了@@@@“4V”的@@描述@@,即@@volume、variety、velocity和@@value。

  “volume”一般理解为大@@量@@。大@@数据@@@@首先意味着数据@@量巨大@@@@。小数据@@时代主要由人工创建数据@@@@,大@@数据@@@@时代则由机器@@、网络和@@人类相互作用@@生成@@。大@@量是大@@数据@@@@的@@@@基本特征@@,但往往被误以为大@@数据@@@@就是大@@@@。事实上@@,这个@@特征所表达的@@是大@@数据@@@@规模的@@整全性@@。大@@数据@@@@的@@@@“大@@”不是纯粹量的@@概念@@,关键是全@@,是一个@@质的@@概念@@。

  “variety”一般理解为多样@@。这包括大@@数据@@@@来源@@的@@多样性和@@类型的@@多样性@@,也包括数据@@结构的@@多样性@@。由于数据@@结构的@@多样性和@@复杂性@@,大@@数据@@@@的@@@@这一特征还意味着数据@@结构的@@开放性@@。举例来说@@,大@@自然可以满足人类的@@生存需要@@,但我们面对大@@自然时的@@作为很有限@@。而大@@数据@@@@不一样@@,在@@以人类需要为出发点的@@大@@数据@@@@挖掘中@@,人类可以在@@这一个@@无限空间@@中进行满足自己需要的@@创构@@。

  “velocity”一般理解为高速@@。它不仅仅是指技术设备的@@数据@@处理速度@@,更重要的@@是指实时数据@@流@@。样本数据@@在@@取样后就是冻结的@@@@,而大@@数据@@@@可以实时获取所需信息@@@@。对于大@@数据@@@@来说@@,信息@@是活的@@@@,是随着时间而流动的@@@@。正因为如此@@,对于实时数据@@流来说@@,速率就特别重要@@。高速的@@数据@@流更能在@@时间上与@@现实过程同步@@,因而@@跟人类的@@生存更密切地联系在@@一起@@。不仅如此@@,只有高速流动的@@数据@@@@,才能提供无限的@@可能性@@。以往受速率限制@@,人们获得的@@数据@@和@@所要反映的@@内容往往是脱节的@@@@,而数据@@流的@@高速率使我们把握对象的@@手段越来越完善@@。

  “value”用@@以描述大@@数据@@@@的@@@@价值@@。大@@数据@@@@价值特征的@@重要性不言自明@@,但大@@数据@@@@也十分复杂@@。据此有人提出@@@@,大@@数据@@@@的@@@@价值密度低@@,数据@@挖掘相当于@@“沙里淘金@@”。其实@@,对于同一个@@结构开放的@@大@@数据@@@@@@,一些人可能视其为一堆垃圾@@,毫无意义@@;而在@@另一些人看来则会是一座宝库@@,价值连城@@。大@@数据@@@@的@@@@价值和@@意义@@,很大@@程度上取决于人们的@@理解@@,取决于人们的@@眼光@@。归根结底@@,取决于对人的@@需要及其发展的@@理解和@@把握@@。

  显然@@,这是一个@@典型的@@哲学课题@@。随着大@@数据@@@@的@@@@发展@@,不仅哲学等各学科会越来越相互融合@@,而且@@将迎来哲学与@@科学@@@@、社会和@@生活一体化发展的@@时代@@。

  沃尔玛的@@两个@@案例@@,开启大@@数据@@@@应用@@广阔前景@@

  大@@数据@@@@究竟是垃圾还是宝库@@,涉及的@@是大@@数据@@@@的@@@@应用@@问题@@。换句话说@@,既然大@@家都认为大@@数据@@@@是个@@好东西@@,是个@@有用@@的@@东西@@,那它到底该怎么使用@@呢@@?

  就目前而言@@,大@@数据@@@@应用@@仍然是一个@@重要而前沿的@@话题@@。其中@@,大@@数据@@@@中的@@相关关系和@@因果关系@@,是大@@数据@@@@应用@@和@@分析研究中的@@重要问题@@。大@@数据@@@@凸显了@@相关关系的@@巨大@@魅力@@,同时@@也构成了@@对传统因果观念的@@冲击@@。

  跨国零售企业沃尔玛@@“啤酒和@@尿布@@”的@@故事@@,就是人们津津乐道的@@大@@数据@@@@应用@@的@@一个@@经典案例@@。沃尔玛在@@大@@数据@@@@基础上@@,用@@“购物篮方法@@”分析消费者购物行为时发现@@,一些男性顾客在@@购买婴儿尿布时@@,常常会同时@@买几瓶啤酒@@。原来@@,美国家庭生了@@小孩@@,一般是母亲在@@家照顾孩子@@、父亲外出采购@@。而年@@轻父亲在@@购买尿布时@@,常常会顺便给自己买上几瓶啤酒@@,既解乏又喜庆@@。由此@@,沃尔玛推出啤酒和@@尿布@@摆在@@一起的@@促销方式@@,吸引了@@更多@@有这种需要的@@顾客前来购物@@,尿布和@@啤酒的@@销量都得到大@@幅增加@@。

  大@@数据@@@@相关关系在@@类似行业的@@成功应用@@@@,使一些人提出还要不要深究因果关系的@@问题@@。一些极端的@@观点@@甚至认为@@,大@@数据@@@@是关于@@“是什么@@”而不是@@“为什么@@”的@@;大@@数据@@@@会自己说话@@,因而@@只要相关关系@@不要因果关系@@。这种观点@@显然@@是兴奋于大@@数据@@@@令人惊叹的@@实用@@性@@。但理性来看@@,大@@数据@@@@不仅把握相关关系@@,而且@@把握作为其根基的@@因果关系@@。

  “蛋挞和@@手电筒@@”就是一个@@典型的@@例子@@。与@@“啤酒和@@尿布@@”案例一样@@,沃尔玛的@@大@@数据@@@@表明@@,很多人在@@买手电筒的@@同时@@还会购买蛋挞@@。因而@@,根据这一消费相关性@@,沃尔玛决定在@@货架上把这两种产品摆放在@@一起@@。但是@@,如果知道其背后的@@因果关系@@,相关销售效果显然@@会更好@@。有人发现@@,人们同时@@购买手电筒和@@蛋挞的@@因果关系涉及北美飓风@@。原来@@,飓风来临前人们既需要准备手电筒@@,又需要准备食物@@。不过@@,北美飓风是季节性风暴@@,如果只知道相关关系而不知道因果关系@@,就可能一直把手电筒和@@蛋挞这两类不同商品放在@@同一货架上@@。而知道背后的@@因果关系后@@,就可以在@@飓风来临前把蛋挞和@@手电筒@@放在@@一起@@,而且@@还可专设飓风用@@品区域@@。这样一来@@,销量显然@@会大@@为增加@@。

  可见@@,只要相关关系@@、不要因果关系的@@观点@@@@,很容易驳倒@@。其实@@,真正关键的@@问题不在@@于是相关关系还是因果关系哪个@@更加重要@@,而在@@于怎么理解相关性和@@因果性之间的@@关系@@。

  一般来说@@,传统因果观仅反映日常生活和@@经典物理学中因果关系的@@表观现象@@。这样的@@因果模型@@,不仅不能理解大@@数据@@@@的@@@@相关关系@@,而且@@不能建立起大@@数据@@@@相关关系和@@因果关系的@@关联@@。只有把原因看作因素相互作用@@的@@过程@@,把结果看作因素相互作用@@过程的@@效应@@,才能扩展对因果关系的@@理解@@,从而适用@@于大@@数据@@@@相关关系和@@因果关系问题的@@认识@@。由此@@建立起来的@@新因果模型具有内容丰富的@@结构@@,呈现出因果模型的@@过去时态@@、进行时态和@@未来时态@@。它不仅有利于人们理解凝固的@@因果关系@@,而且@@在@@人们面前敞开了@@创构未来的@@广阔空间@@@@。显然@@,这种新的@@因果关系与@@现实社会更加接近@@@@。

  人类将更多@@与@@信息@@打交道@@,而不是@@传统的@@物能@@

  如果把以往的@@文明形态都看作物能文明的@@话@@,那人类社会发展到大@@数据@@@@时代所迎来的@@@@,则是一种不同于物能文明的@@信息@@文明@@。作为一种与@@物能文明相平行的@@文明形态@@,信息@@文明是一种基于信息@@本性的@@共享文明@@。在@@大@@数据@@@@的@@@@基础上@@,信息@@的@@共享本性可以充分展开@@。

  而且@@,信息@@文明的@@发展@@,是一个@@在@@大@@数据@@@@基础上的@@公共信息@@对称化过程@@。这就要求@@,为推动信息@@文明的@@发展@@@@,必须在@@公共领域尽可能消除信息@@不对称@@。同时@@,为保持信息@@文明发展的@@动力@@,必须尽可能保护创新专利@@。

  作为一种人类文明@@,信息@@文明是一种基于信息@@机制的@@役物文明@@。在@@信息@@文明时代@@,人类通过信息@@控制物能@@,进而使物质通过结构的@@调整@@,由一种对人类不那么有价值的@@材料变成价值更大@@的@@材料@@,从一种不太能满足人的@@需要的@@形态变成一种更能满足人的@@需要的@@形态@@,使能量从难以利用@@的@@形态变成更容易获得和@@利用@@的@@形态@@。由此@@,人类活动更多@@是直接与@@信息@@打交道@@,而不是@@传统的@@与@@物能打交道@@。

  作为人类文明发展的@@更高阶段@@,信息@@文明还是一种基于信息@@创构的@@人性文明@@。不仅对物能的@@控制达到全社会甚至全人类实现@@“物为人役@@”的@@水平@@,使人类活动从以描述认识为主进入到以创构认识为主@@,而且@@也意味着全面解放创造力@@,即@@人性获得越来越高水平的@@解放@@。

  大@@数据@@@@打开了@@信息@@文明大@@门@@,也将释放一系列新的@@重要问题@@。这些重大@@的@@问题@@,既涉及个@@人生活@@,也涉及社会发展@@。

  一是信息@@生态问题@@。由于人越来越以信息@@方式存在@@@@,信息@@生态理所当然成为一个@@越来越重要的@@基础性问题@@。对人类来说@@,自然生态或者说物能生态具有切身性@@,而信息@@生态不仅具有切身性还更具@@“切心性@@”,更切近@@人的@@心灵@@。因此@@,在@@自然生态的@@基础上@@,信息@@生态将日益为人所密切关注@@@@,成为信息@@文明时代关乎人类发展的@@问题@@。

  二是人的@@存在@@意义问题@@。没有物能就没有信息@@的@@存在@@@@,物能存在@@是基础@@。但在@@信息@@文明时代@@@@,如果一个@@人仍然主要以物能方式存在@@@@,仍然以基于物能的@@感官享受作为生活意义的@@主要来源@@@@,仍然主要滞留于物能存在@@方式@@,那很可能将成为无意义的@@人群@@。

  在@@信息@@文明时代@@,人类的@@活动主要是信息@@活动@@。只有主要以信息@@方式存在@@@@,并且以创构活动作为自己主要活动方式的@@人@@,才能进入意义生产的@@领域@@。在@@这个@@意义上@@,信息@@文明的@@确意味着一种分化@@:相对无意义的@@人群和@@生产意义的@@人群@@。这很可能是信息@@文明时代发展的@@必然趋势@@。对此@@,人类社会应当提前进行思考@@,即@@如何避免新的@@社会不公平的@@出现@@。

  三是国家的@@发展问题@@。从人类社会发展史可以看到这样一个@@重要事实@@:一个@@大@@国的@@真正崛起@@,通常@@要引领一种新的@@文明@@。信息@@文明时代的@@到来@@,必定伴随着大@@国的@@新崛起@@,不管是现实的@@还是潜在@@的@@大@@国@@。在@@21世纪@@,中国要和@@平发展@@、成为真正的@@世界大@@国@@,有必要在@@引领信息@@文明上发力@@。

  总之@@,如果不能够引领信息@@文明发展@@,一个@@国家就不可能真正实现大@@国崛起@@。在@@这个@@过程中@@,国家的@@兴衰与@@个@@人的@@生存发展不仅联系在@@一起@@,而且@@构成相互依存@@、协同发展的@@循环@@。

  作者@@:王天恩@@ 上海大@@学社会科学@@学部教授@@,美国罗格斯大@@学和@@佐治亚理工学院高级访问学者@@,主要研究领域为马克思主义哲学时代化@@。在@@ 《中国社会科学@@@@》《哲学研究@@》 发表多篇学术论文和@@文章@@。著有@@《理性之翼@@》《在@@过去和@@未来之间@@》《微观认识论导论@@》《历史的@@逻辑@@》等专著@@。主持多项国家社科基金课题@@,本演讲为国家社科基金重点项目@@“大@@数据@@@@相关关系和@@因果关系研究@@”(17AZX003)的@@阶段性成果@@。

责任编辑@@:qinpeng