大数据@@@@已成为媒体与大众关注@@的新技术@@,大数据@@@@的应用也预示着信息时代将进入一个@@新阶段@@,但人们对大数据@@@@的认识有一个@@不断加深的过程@@。在当下的信息时代@@,我们对大数据@@@@应有新的再认识@@。

 
  大数据@@@@兴起预示信息时代进入新阶段@@
 
  中国已开始进入信息时代@@,但许多人的思想还停留在工业@@时代@@。经济和科技工作中出现的许多问题@@@@,其根源是对时代的认识不到@@位@@。经济新常态意味着中国进入了以信息化带动新型工业@@化@@、城镇化和农业现代化的新阶段@@。大数据@@@@、移动互联网@@@@、社交网络@@、云计算@@、物联网等新一代信息技术构成的@@IT架构@@“第三平台@@@@”是信息社会进入新阶段的标志@@,对整个@@经济的转型有引领和带动作用@@。媒体上经常出现的互联网@@@@+、创客@@、“第二次@@机器革命@@”、“工业@@4.0”等都与大数据@@@@和云计算@@有关@@。大数据@@@@和云计算@@是新常态下提高生产率的新杠杆@@,所谓@@创新驱动发展就是主要@@依靠信息技术促进生产率的提高@@。
 
  中国的大数据@@@@企业已经有相当好的基础@@。全球十大互联网@@服务企业中国占有@@4席@@(阿里巴巴@@、腾讯@@、百度和京东@@),其他@@6个@@Top10 互联网@@服务企业全部是美国企业@@,欧洲和日本没有互联网@@企业进入@@Top10。这说明中国企业在基于大数据@@@@的互联网@@服务业务上已处于世界前列@@。在发展大数据@@@@技术上@@,我国有可能改变过去@@30年技术受制于人的局面@@,在大数据@@@@应用上中国有可能在全世界起到@@引领作用@@。我们要@@吸取过去基础研究为企业提供核心技术不够的教训@@,加强大数据@@@@基础研究和前瞻技术研究@@,努力攻克大数据@@@@核心和关键技术@@。
 
  理解大数据@@@@需要@@上升到@@文化和认识论的高度@@
 
  数据@@文化的本质是尊重客观世界的实事求是精神@@,数据@@就是事实@@。重视数据@@就是强调用事实说话@@、按理性思维的科学精神@@。中国人的传统习惯是定性思维而不是定量思维@@。目前许多城市在开展政府@@数据@@开放共享工作@@,但是发现多数老百姓对政府@@要@@开放的数据@@并不感兴趣@@。要@@让大数据@@@@走上健康的发展轨道@@,首先要@@大力弘扬数据@@文化@@。数据@@文化不只是大数据@@@@用于文艺@@、出版等文化产业@@,而是指全民的数据@@意识@@。全社会应认识到@@@@:信息化的核心是数据@@@@,只有政府@@和大众都关注@@数据@@时@@,才能真正理解信息化的实质@@;数据@@是一种新的生产要@@素@@,大数据@@@@的利用可以改变资本和土地等传统要@@素在经济中的权重@@。
 
  提高数据@@意识的关键是要@@理解大数据@@@@的战略意义@@。数据@@是与物质@@、能源一样重要@@的战略资源@@,数据@@的采集和分析涉及每一个@@行业@@,是带有全局性和战略性的技术@@。从@@硬技术到@@软技术的转变是当今全球性的技术发展趋势@@,而从@@数据@@中发现价值的技术正是最有活力的软技术@@,数据@@技术与数据@@产业的落后将使我们像错过工业@@革命机会一样延误一个@@时代@@。
 
  正确认识大数据@@@@的价值和效益@@
 
  人们总是期望从@@大数据@@@@中挖掘出意想不到@@的@@“大价值@@”。实际上大数据@@@@的价值主要@@体现在它的驱动效应@@,即带动有关的科研和产业发展@@,提高各行各业通过数据@@分析解决困难问题@@和增值的能力@@。大数据@@@@对经济的贡献并不完全反映在大数据@@@@公司的直接收入上@@,应考虑对其他@@行业效率和质量提高的贡献@@。大数据@@@@是典型的通用技术@@,理解通用技术要@@采用@@“蜜蜂模型@@”:蜜蜂的效益主要@@不是自己酿的蜂蜜@@,而是蜜蜂传粉对农业的贡献@@。
 
  有一个@@家喻户晓的寓言可以从@@一个@@角度说明大数据@@@@的价值@@:一位老农民临终前告诉他的@@3个@@儿子@@,他在他家的地中埋藏了一罐金子@@,但没有讲埋在哪里@@。他的儿子们把他家所有的地都深挖了一遍@@,没有挖到@@金子@@,但由于深挖了土地@@,从@@此庄稼收成特别好@@。数据@@收集@@、分析的能力提高了@@,即使没有发现什么普适的规律或令人完全想不到@@的新知识@@,大数据@@@@的价值也已逐步体现@@。
 
  大数据@@@@研究和应用要@@改变过去各部门和各学科相互分割@@、独立发展的传统思路@@,重点不是支持单项技术和单个@@方法@@的发展@@,而是强调不同部门@@、不同学科的协作@@。数据@@科学不是垂直的@@“烟囱@@”,而是像环境@@、能源科学一样的横向集成科学@@。
 
  从@@复杂性的角度看大数据@@@@研究和应用面临的挑战@@
 
  图文检索@@、主题发现@@、语义分析@@、情感分析等数据@@分析工作十分困难@@,其原因是大数据@@@@涉及复杂的类型@@、复杂的结构和复杂的模式@@,数据@@本身具有很高的复杂性@@。大数据@@@@的复杂性还体现在数据@@之间的相互关联@@。大数据@@@@计算不能像处理小样本数据@@集那样做全局数据@@的统计分析和迭代计算@@,在分析大数据@@@@时@@,需要@@重新审视和研究它的可计算性@@、计算复杂性和求解算法@@。
 
  大数据@@@@应用本质上是在给定的时间@@、空间@@限制下@@,如何@@“算得多@@”。从@@“算得快@@”到@@“算得多@@”,考虑计算复杂性的思维逻辑有很大的转变@@。所谓@@“算得多@@”并不是计算的数据@@量越大越好@@,需要@@探索从@@足够多的数据@@@@,到@@刚刚好的数据@@@@,再到@@有价值的数据@@的按需约简方法@@@@。
 
  发展大数据@@@@应避免的误区@@
 
  不要@@@@一味追求@@“数据@@规模大@@”。大数据@@@@主要@@难点不是数据@@量大@@,而是数据@@类型多样@@、要@@求及时回应和原始数据@@真假难辨@@。现有数据@@库软件解决不了非结构化数据@@@@,要@@重视数据@@融合@@、数据@@格式的标准化和数据@@的互操作@@。采集的数据@@往往质量不高是大数据@@@@的特点之一@@,但尽可能提高原始数据@@的质量仍然值得重视@@。脑科学研究的最大问题@@就是采集的数据@@可信度差@@,基于可信度很差的数据@@难以分析出有价值的结果@@。
 
  一味追求数据@@规模大@@不仅会造成浪费@@,而且效果未必很好@@。多个@@来源@@的小数据@@@@的集成融合可能挖掘出单一来源@@大数据@@@@得不到@@的大价值@@@@。应多在数据@@的融合技术上下功夫@@,重视数据@@的开放与共享@@。所谓@@数据@@规模大@@与应用领域有密切关系@@,有些领域几个@@@@PB的数据@@未必算大@@,有些领域可能几十@@TB已经是很大的规模@@。
 
  发展大数据@@@@不能无止境地追求@@“更大@@、更多@@、更快@@”,要@@走低成本@@、低能耗@@、惠及大众@@、公正法治的良性发展道路@@。要@@像现在治理环境污染@@一样@@,及早关注@@大数据@@@@可能带来的@@“污染@@”和侵犯隐私等各种弊端@@。
 
  不要@@@@“技术驱动@@”,要@@“应用为先@@”。新的信息技术层出不穷@@,信息领域不断冒出新概念@@、新名词@@,估计继@@“大数据@@@@”以后@@,“认知计算@@”、“可穿戴设备@@”、“机器人@@”等新技术又会进入炒作高峰@@。我们习惯于跟随国外的热潮@@,往往不自觉地跟着技术潮流走@@,最容易走上@@“技术驱动@@”的道路@@。实际上发展信息技术的目的是为人服务@@,检验一切技术的唯一标准是应用@@。发展大数据@@@@产业一定要@@坚持@@“应用为先@@”的发展战略@@,坚持应用牵引的技术路线@@。技术有限@@,应用无限@@。各地发展云计算@@和大数据@@@@@@,一定要@@通过政策和各种措施调动应用部门和创新企业的积极性@@,通过跨界的组合创新开拓新的应用@@,从@@应用中找出路@@。
 
  不能抛弃@@“小数据@@@@”方法@@。流行的@@“大数据@@@@”定义是@@:无法通过目前主流软件工具在合理时间内采集@@、存储@@、处理的数据@@集@@。这是用不能胜任的技术定义问题@@@@,可能导致认识的误区@@。按照这种定义@@,人们可能只会重视目前解决不了的问题@@@@,如同走路的人想踩着自己身前的影子@@。其实@@,目前各行各业碰到@@的数据@@处理多数还是@@“小数据@@@@”问题@@。我们应重视实际碰到@@的问题@@@@,不管是大数据@@@@还是小数据@@@@@@。
 
  大数据@@@@界流行一种看法@@:大数据@@@@不需要@@分析因果关系@@、不需要@@采样@@、不需要@@精确数据@@@@。这种观念不能绝对化@@,实际工作中要@@逻辑演绎和归纳相结合@@、白盒与黑盒研究相结合@@、大数据@@@@方法@@与小数据@@@@方法@@相结合@@。
 
  要@@高度关注@@构建大数据@@@@平台@@的成本@@。目前全国各地都在建设大数据@@@@中心@@,吕梁山下都建立了容量达@@2 PB以上的数据@@处理中心@@,许多城市公安部门要@@求存储@@@@3个@@月以上的高清监控录像@@。这些系统的成本都非常高@@。数据@@挖掘的价值是用成本换来的@@,不能不计成本@@,盲目建设大数据@@@@系统@@。什么数据@@需要@@保存@@,要@@保存多少时间@@,应当根据可能的价值和所需的成本来决定@@。大数据@@@@系统技术还在研究之中@@,美国的@@E级超级计算机系统要@@求能耗降低@@1000倍@@,计划到@@@@2024年才能研制出来@@,用现在的技术构建的巨型系统能耗极高@@。
 
  我们不要@@@@攀比大数据@@@@系统的规模@@,而是要@@比实际应用效果@@,比完成同样的事消耗更少的资源和能量@@。先抓老百姓最需要@@的大数据@@@@应用@@,因地制宜发展大数据@@@@@@。发展大数据@@@@与实现信息化的策略一样@@:目标要@@远大@@、起步要@@精准@@、发展要@@快速@@。
责任编辑@@:admin