大数据@@@@(big data),或称巨量资料@@,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具@@,在合理时间内达到撷取@@、管理@@、处理@@、并整理成为帮助企业经营决策更积极目的的资讯@@。(在维克托@@·迈尔@@-舍恩伯格及肯尼斯@@·库克耶编写的@@《大数据@@@@时代@@》中大数据@@@@指不用随机分析法@@(抽样调查@@)这样的捷径@@,而采用所有数据@@的方法@@)大数据@@@@的@@4V特点@@:Volume(大量@@)、Velocity(高速@@)、Variety(多样@@)、Value(价值@@)。

  “大数据@@@@”作为时下最火热的@@IT行业的词汇@@,随之而来的数据@@仓库@@、数据@@安全@@、数据@@分析@@、数据@@挖掘等等围绕大数据@@@@的@@商业价值@@的利用逐渐成为行业人士争相追捧的利润焦点@@。

  早在@@1980年@@,著名未来学家阿尔文@@·托夫勒便在@@《第三@@次@@浪@@潮@@》一书中@@,将大数据@@@@热情地赞颂为@@“第三@@次@@浪@@

  潮的华彩乐章@@”。不过@@,大约从@@@@2009年@@开始@@,“大数据@@@@”才成为互联网@@信息技术行业的流行词汇@@。美国互联网@@数据@@中心指出@@,互联网@@上的数据@@每年@@将增长@@50%,每两年@@便将翻一番@@,而目前世界上@@90%以上的数据@@是最近几年@@才产生的@@。此外@@,数据@@又并非单纯指人们在互联网@@上发布的信息@@,全世界的工业设备@@、汽车@@、电表上有着无数的数码传感器@@,随时测量和@@传递着有关位置@@、运动@@、震动@@、温度@@、湿度乃至空气中化学物质的变化@@,也产生了海量的数据@@信息@@。[2-3]

  大数据@@@@技术的战略意义不在于掌握庞大的数据@@信息@@,而在于对这些含有意义的数据@@进行专业化处理@@@@。换言之@@,如果把大数据@@@@比作一种产业@@,那么这种产业实现盈利的关键@@,在于提高对数据@@的@@“加工@@能力@@”,通过@@“加工@@”实现数据@@的@@“增值@@”。

  从@@技术上看@@,大数据@@@@与云计算@@的关系就像一枚硬币的正反面一样密不可分@@。大数据@@@@必然无法用单台的计算机进行处理@@@@,必须采用分布式计算架构@@。它的特色在于对海量数据@@的挖掘@@,但它必须依托云计算@@的分布式处理@@@@、分布式数据@@库@@、云存储和@@虚拟化技术@@。

  随着云时代的来临@@,大数据@@@@(Big data)也吸引了越来越多的关注@@@@。《著云台@@》的分析师团队认为@@,大数据@@@@(Big data)通常用来形容一个@@公司创造的大量@@非结构化和@@半结构化数据@@@@,这些数据@@在下载到关系型数据@@库用于分析时会花费过多时间和@@金钱@@。大数据@@@@分析@@常和@@云计算@@联系到一起@@,因为实时的大型数据@@集分析需要像@@MapReduce一样的框架来向数十@@、数百或甚至数千的电脑分配工作@@。

  大数据@@@@分析@@相比于传统的数据@@仓库应用@@,具有数据@@量大@@、查询分析复杂等特点@@@@。《计算机学报@@》刊登的@@“架构大数据@@@@@@:挑战@@、现状与展望@@”一文列举了大数据@@@@分析@@平台@@需要具备的几个@@重要特性@@,对当前的主流实现平台@@@@———并行数据@@库@@、MapReduce及基于两者的混合架构进行了分析归纳@@,指出了各自的优势及不足@@,同时也对各个@@方向的研究现状及作者在大数据@@@@分析@@方面的努力进行了介绍@@,对未来研究做了展望@@。

  对于@@“大数据@@@@”(Big data)研究机构@@Gartner给出了这样的定义@@。“大数据@@@@”是需要新处理@@模式才能具有更强的决策力@@、洞察发现力和@@流程优化能力的海量@@、高增长率和@@多样@@化的信息资产@@。

  大数据@@@@”这个@@术语最早期的引用可追溯到@@apache org的开源项目@@Nutch。当时@@,大数据@@@@用来描述为更新网络搜索@@索引需要同时进行批量处理@@或分析的大量@@数据@@集@@。随着谷歌@@MapReduce和@@GoogleFile System (GFS)的发布@@,大数据@@@@不再仅用来描述大量@@的数据@@@@,还涵盖了处理@@数据@@的速度@@。

  从@@某种程度上说@@,大数据@@@@是数据@@分析@@的前沿技术@@。简言之@@,从@@各种各样类型的数据@@中@@,快速获得有价值@@信息的能力@@,就是大数据@@@@技术@@。明白这一点至关重要@@,也正是这一点促使该技术具备走向众多企业的潜力@@。

  大数据@@@@可分成大数据@@@@技术@@、大数据@@@@工程@@、大数据@@@@科学和@@大数据@@@@应用等领域@@。目前人们谈论最多的是大数据@@@@技术和@@大数据@@@@应用@@。工程和@@科学问题尚未被重视@@。大数据@@@@工程@@指大数据@@@@的@@规划建设运营管理@@的系统工程@@;大数据@@@@科学关注@@大数据@@@@网络发展和@@运营过程中发现和@@验证大数据@@@@的@@规律及其与自然和@@社会活动之间的关系@@。

  大数据@@@@的@@4个@@“V”,或者说特点@@有四个@@层面@@:第一@@,数据@@体量巨大@@。从@@TB级别@@,跃升到@@PB级别@@;第二@@,数据@@类型繁多@@。前文提到的网络日志@@、视频@@、图片@@、地理位置信息等等@@。第三@@,价值@@密度低@@,商业价值@@高@@。以视频@@为例@@,连续不间断监控过程中@@,可能有用的数据@@仅仅有一两秒@@。第四@@,处理@@速度快@@。1秒定律@@。最后这一点也是和@@传统的数据@@挖掘技术有着本质的不同@@。业界将其归纳为@@4个@@“V”——Volume(大量@@)、Velocity(高速@@)、Variety(多样@@)、Veracity(精确@@)。

  物联网@@、云计算@@、移动互联网@@@@、车联网@@、手机@@、平板电脑@@、PC以及遍布地球各个@@角落的各种各样的传感器@@,无一不是数据@@来源@@或者承载的方式@@。

责任编辑@@:admin