1.引言@@

  当今@@,社会信息化和@@网络化的@@发展导致数据@@@@爆炸式增长@@。据@@统计@@,平均每秒有@@200万用户在使用谷歌搜索@@@@,Facebook用户每天共享的@@东西超过@@40亿@@,Twitter每天处理@@的@@推特数量超过@@3.4亿@@。同时@@,科学计算@@、医疗卫生@@、金融@@、零售业等@@各行业也有大量数据@@@@在不断产生@@。2012年@@全球信息总量已经达到@@@@2.7 ZB,而@@到@@@@2015年@@这一数值预计会达到@@@@8 ZB。这一现象引发了人们的@@广泛关注@@@@。在学术界@@,图@@灵奖获得者@@Jim Gray提出了科学研究的@@第四范式@@,即以大数据@@@@@@为基础的@@数据@@@@密集型科学研究@@;2008年@@《Nature))推出了大数据@@@@@@专刊对其展开探讨@@;2011年@@《Science》也推出类@@似的@@数据@@@@处理@@专刊@@。IT产业界行动更为积极@@,持续关注@@数据@@@@再利用@@,挖掘大数据@@@@@@的@@潜在价值@@。目前@@,大数据@@@@@@已成为继云计算之后信息技术领域的@@另一个信息产业增长点@@。据@@Gartner预测@@,2013年@@大数据@@@@@@将@@带动全球@@IT支出@@340亿@@美元@@,到@@2016年@@全球在大数据@@@@@@方面的@@总花费将@@达到@@@@2320亿@@美元@@。Gartner将@@“大数据@@@@@@”技术列入@@2012年@@对众多公司和@@组织机构具有战略意义的@@十大技术与趋势之一@@。不仅如此@@,作为国家和@@社会的@@主要管理@@者@@,各国政府@@也是大数据@@@@@@技术推广的@@主要推动者@@。2009年@@3月@@美国政府@@上线了@@data.gov网站@@,向公众开放政府@@所拥有的@@公共数据@@@@@@。随后@@,英国@@、澳大利亚等@@政府@@也开始了大数据@@@@@@开放的@@进程@@,截至目前@@@@,全世界已经正式有@@35个国家和@@地区构建了自己的@@数据@@@@开放门户网站@@@@。美国政府@@联合@@6个部门宣布了@@2亿@@美元@@的@@@@“大数据@@@@@@研究与发展计划@@”。在我国@@,2012年@@中国通信学会@@、中国计算机学会等@@重要学术组织先后成立了大数据@@@@@@专家委员会@@,为我国大数据@@@@@@应用和@@发展提供学术咨询@@@@。

  目前@@大数据@@@@@@的@@发展仍然面临着许多问题@@,安全与隐私问题是人们公认的@@关键问题之一@@。当前@@,人们在互联网@@上的@@一言一行都掌握在互联网@@商家手中@@,包括购物习惯@@、好友@@联络情况@@、阅读习惯@@、检索习惯等@@等@@@@。多项实际案例说明@@,即使无害的@@数据@@@@被大量收集后@@,也会暴露个人隐私@@。事实上@@,大数据@@@@@@安全含义更为广泛@@,人们面临的@@威胁并不仅限于个人隐私泄漏@@。与其它信息一样@@,大数据@@@@@@在存储@@、处理@@、传输等@@过程中面临诸多安全风险@@,具有数据@@@@安全与隐私保护需求@@。而@@实现大数据@@@@@@安全与隐私保护@@@@,较以往其它安全问题@@(如云计算中的@@数据@@@@安全等@@@@)更为棘手@@。这是因为在云计算中@@,虽然服务提供商控制了数据@@@@的@@存储与运行环境@@,但是用户仍然有些办法保护自己的@@数据@@@@@@,例如@@通过密码学的@@技术手段实现数据@@@@安全存储与安全计算@@,或者通过可信计算方式实现运行环境安全等@@@@。而@@在大数据@@@@@@的@@背景下@@,Facebook等@@商家既是数据@@@@的@@生产者@@,又是数据@@@@的@@存储@@、管理@@者和@@使用者@@,因此@@,单纯通过技术手段限制商家对用户信息的@@使用@@,实现用户隐私保护是极其困难的@@事@@。

  当前@@很多组织都认识到@@大数据@@@@@@的@@安全问题@@,并积极行动起来关注@@大数据@@@@@@安全问题@@。2012年@@云安全联盟@@CSA组建了大数据@@@@@@工作组@@,旨在寻找针对数据@@@@中心安全和@@隐私问题的@@解决方案@@。本文在梳理大数据@@@@@@研究现状的@@基础上@@,重点分析了当前@@大数据@@@@@@所带来的@@安全挑战@@,详细阐述了当前@@大数据@@@@@@安全与隐私保护@@的@@关键技术@@。需要指出的@@是@@,大数据@@@@@@在引人新的@@安全问题和@@挑战的@@同时@@@@,也为信息安全领域带来了新的@@发展契机@@,即基于大数据@@@@@@的@@信息安全相关技术可以反过来用于大数据@@@@@@的@@安全和@@隐私保护@@。本文在第@@5节对其进行了初步分析与探讨@@。

  2.大数据@@@@@@研究概述@@

  2.1 大数据@@@@@@来源@@与特征@@

  普遍的@@观点@@认为@@,大数据@@@@@@是指规模大且复杂@@、以至于很难用现有数据@@@@库@@管理@@工具或数据@@@@处理@@应用来处理@@的@@数据@@@@集@@。大数据@@@@@@的@@常见特点包括大规模@@(volume)、高速性@@(velocity)和@@多样性@@(variety)。根据@@来源@@的@@不同@@,大数据@@@@@@大致可分为如下几类@@@@:

  (1)来自于人@@。人们在互联网@@活动以及使用移动互联网@@过程中所产生的@@各类@@数据@@@@@@,包括文字@@、图@@片@@、视频@@等@@信息@@;

  (2)来自于机@@。各类@@计算机信息系统产生的@@数据@@@@@@,以文件@@、数据@@@@库@@、多媒体等@@形式存在@@,也包括审计@@、日@@志等@@自动生成的@@信息@@;

  (3)来自于物@@。各类@@数字设备所采集的@@数据@@@@@@。如摄像头产生的@@数字信号@@、医疗物联网中产生的@@人的@@各项特征值@@、天文望远镜所产生的@@大量数据@@@@等@@@@。[page]

  2.2 大数据@@@@@@分析@@目标@@

  目前@@大数据@@@@@@分析@@应用于科学@@、医药@@、商业等@@各个领域@@,用途差异巨大@@。但其目标可以归纳为如下几类@@@@:

  (1)获得知识与推测趋势@@

  人们进行数据@@@@分析@@由来已久@@,最初且最重要的@@目的@@就是获得知识@@、利用知识@@。由于大数据@@@@@@包含大量原始@@、真实信息@@,大数据@@@@@@分析@@能够有效地摒弃个体差异@@,帮助人们透过现象@@、更准确地把握事物背后的@@规律@@。基于挖掘出的@@知识@@,可以更准确地对自然或社会现象进行预测@@@@。典型的@@案例是@@Google公司的@@@@Google Flu Trends网站@@。它通过统计人们对流感信息的@@搜索@@@@,查询@@Google服务器日@@志的@@@@IP地址判定搜索@@来源@@@@,从而@@发布对世界各地流感情况的@@预测@@@@。又如@@,人们可以根据@@@@Twitter信息预测@@股票行情等@@@@。

  (2)分析掌握个性化特征@@

  个体活动在满足某些群体特征的@@同时@@@@,也具有鲜明的@@个性化特征@@。正如@@“长尾理论@@”中那条细长的@@尾巴那样@@,这些特征可能千差万别@@。企业通过长时间@@、多维度的@@数据@@@@积累@@,可以分析用户行为规律@@,更准确地描绘其个体轮廓@@,为用户提供更好的@@个性化产品和@@服务@@,以及更准确的@@广告推荐@@。例如@@Google通过其大数据@@@@@@产品对用户的@@习惯和@@爱好进行分析@@,帮助广告商评估广告活动效率@@,预估在未来可能存在高达到@@数千亿@@美元@@的@@@@市场规模@@。

  (3)通过分析辨识真相@@

  错误信息不如没有信息@@。由于网络中信息的@@传播更加便利@@,所以网络虚假信息造成的@@危害也更大@@。例如@@,2013年@@4月@@24日@@,美联社@@Twitter帐号被盗@@,发布虚假消息称总统奥巴马遭受恐怖袭击受伤@@。虽然虚假消息在几分钟内被禁止@@,但是仍然引发了美国股市短暂跳水@@。由于大数据@@@@@@来源@@广泛及其多样性@@,在一定程度上它可以帮助实现信息的@@去伪存真@@。目前@@人们开始尝试利用大数据@@@@@@进行虚假信息识别@@。例如@@,社交点评类@@网站@@@@Yelp利用大数据@@@@@@对虚假评论进行过滤@@,为用户提供更为真实的@@评论信息@@;Yahoo和@@Thinkmail等@@利用大数据@@@@@@分析@@技术来过滤垃圾邮件@@。

  2.3 大数据@@@@@@技术框架@@

  大数据@@@@@@处理@@涉及数据@@@@的@@采集@@、管理@@、分析与展示等@@@@。图@@1是相关技术示意图@@@@。


图@@1 大数据@@@@@@技术架构@@

  (1)数据@@@@采集与预处理@@@@(Data Acquisition & Preparation)

  大数据@@@@@@的@@数据@@@@源多样化@@,包括数据@@@@库@@@@、文本@@、图@@片@@、视频@@、网页等@@各类@@结构化@@、非结构化及半结构化数据@@@@@@。因此@@,大数据@@@@@@处理@@的@@第一步是从数据@@@@源采集数据@@@@并进行预处理@@操作@@,为后继流程提供统一的@@高质量的@@数据@@@@集@@。

  由于大数据@@@@@@的@@来源@@不一@@,可能存在不同模式的@@描述@@,甚至存在矛盾@@。因此@@,在数据@@@@集成过程中对数据@@@@进行清洗@@,以消除相似@@、重复或不一致的@@数据@@@@是非常必要的@@@@。文献中数据@@@@清洗和@@集成技术针对大数据@@@@@@的@@特点@@,提出非结构化或半结构化数据@@@@的@@清洗以及超大规模数据@@@@的@@集成@@。

  数据@@@@存储与大数据@@@@@@应用密切相关@@。某些实时性要求较高的@@应用@@,如状态监控@@,更适合采用流处理@@模式@@,直接在清洗和@@集成后的@@数据@@@@源上进行分析@@。而@@大多数其它应用则需要存储@@,以支持后继更深度的@@数据@@@@分析@@流程@@。为了提高数据@@@@吞吐量@@,降低存储成本@@,通常采用分布式架构来存储大数据@@@@@@@@。这方面有代表性的@@研究包括@@:文件系统@@GFSE、HDFS和@@Haystack等@@;NoSQL数据@@@@库@@Mongodb、CouchDB、HBase、Redis、Neo4j等@@。

  (2)数据@@@@分析@@(Data Analysis)

  数据@@@@分析@@是大数据@@@@@@应用的@@核心流程@@。根据@@不同层次@@大致可分为@@3类@@:计算架构@@、查询@@与索引以及数据@@@@分析@@和@@处理@@@@。

  在计算架构@@方面@@,MapReduce是当前@@广泛采用的@@大数据@@@@@@集计算模型和@@框架@@。为了适应一些对任务完成时间要求较高的@@分析需求@@,文献对@@其性能进行了优化@@;文献提出了一种基于@@MapReduce架构的@@数据@@@@流分析解决方案@@MARISSA,使其能够支持实时分析任务@@;文献则提出了基于@@时间的@@大数据@@@@@@分析@@方案@@Mastiff;文献也针对广告推送等@@实时性要求较高的@@应用@@,提出了基于@@MapReduce的@@TiMR框架来进行实时流处理@@@@。

  在查询@@与索引方面@@,由于大数据@@@@@@中包含了大量的@@非结构化或半结构化数据@@@@@@,传统关系型数据@@@@库@@的@@查询@@和@@索引技术受到@@限制@@,而@@NoSQL类@@数据@@@@库@@技术得到@@更多@@关注@@@@。例如@@,文献提出了一个混合的@@数据@@@@访问架构@@HyDB以及一种并发数据@@@@查询@@及优化方法@@。文献对@@key-value类@@型数据@@@@库@@的@@查询@@进行了性能优化@@。

  在数据@@@@分析@@与处理@@方面@@,主要涉及的@@技术包括语义分析与数据@@@@挖掘等@@@@。由于大数据@@@@@@环境下数据@@@@呈现多样化特点@@,所以对数据@@@@进行语义分析时@@,就较难统一术语进而@@挖掘信息@@。文献针对大数据@@@@@@环境@@,提出了一种解决术语变异问题的@@高效术语标准化方法@@。文献对@@语义分析中语义本体的@@异质性展开了研究@@。传统数据@@@@挖掘技术主要针对结构化数据@@@@@@,因此@@迫切需要对非结构化或半结构化的@@数据@@@@挖掘技术展开研究@@。文献提出了一种针对图@@片@@文件的@@挖掘技术@@,文献提出了一种大规模@@TEXT文件的@@检索和@@挖掘技术@@。[page]

  (3)数据@@@@解释@@(Data Interpretation)

  数据@@@@解释@@旨在更好地支持用户对数据@@@@分析@@结果的@@使用@@,涉及的@@主要技术为可视化和@@人机交互@@。目前@@已经有了一些针对大规模数据@@@@的@@可视化研究@@,通过数据@@@@投影@@、维度降解或显示墙等@@方法来解决大规模数据@@@@的@@显示问题@@。由于人类@@的@@视觉敏感度限制了更大屏幕显示的@@有效性@@,以人为中心的@@人机交互设计也将@@是解决大数据@@@@@@分析@@结果展示的@@一种重要技术@@。

  (4)其它支撑技术@@(Data Transmission & Virtual Cluster)

  虽然大数据@@@@@@应用强调以数据@@@@为中心@@,将@@计算推送到@@数据@@@@上执行@@,但是在整个处理@@过程中@@,数据@@@@的@@传输仍然是必不可少的@@@@,例如@@一些科学观测数据@@@@从观测点向数据@@@@中心的@@传输等@@@@。文献针对大数据@@@@@@特征研究高效传输架构和@@协议@@。

  此外@@,由于虚拟集群具有成本低@@、搭建灵活@@、便于管理@@等@@优点@@,人们在大数据@@@@@@分析@@时可以选择更加方便的@@虚拟集群来完成各项处理@@任务@@。因此@@需要针对大数据@@@@@@应用展开的@@虚拟机集群优化研究@@。

责任编辑@@:admin