政府@@使用大数据@@@@是为了提升和改善公共服务@@,这与企业@@利用其追求利润异曲同工@@。

  大数据@@@@是从各种各样来源@@中搜集@@得到@@的海量@@数据@@信息的总称@@。对于传统的关系型数据@@分析技术来说@@,其数据@@量太大@@,未经处理@@,同时@@也是非结构化的@@。据统计@@,现在每天产生@@2.5艾字节@@(quintillion bytes)的数据@@信息@@,全球将近@@90%的数据@@是过去两年创造出来的@@。

  此外@@,从大数据@@@@的数据@@结构看@@,大约@@90%的数据@@是非结构化的@@。来源@@于网络和云的海量@@数据@@@@,为发现@@、创造价值@@,以及丰富商业智能支撑机构决策提供了新的机遇@@。不过@@,大数据@@@@也面临复杂性@@、安全和隐私风险等新挑战@@。同时@@,对于新技术和人类技能的开发来说@@,大数据@@@@是一种需要@@。

  大数据@@@@重新定义了数据@@管理的范围@@,由数据@@提取@@、转换@@、加载@@,或称为@@ETL(Extraction-Transformation-Loading),演变为在大数据@@@@应用中净化和组织非结构化数据@@的新技术@@(如@@分布式架构技术@@)。

  尽管企业@@部门正引导大数据@@@@应用的发展@@,公共部门也开始对迅速增长的大数据@@@@具有洞察力@@,为实时决策提供帮助和支持@@。

  大数据@@@@有多个来源@@@@,包括@@互联网@@@@、生物和产业部门@@、视频@@、电子邮件和社交媒体@@。许多白皮书@@、期刊论文和商业报告已经提出了政府@@利用大数据@@@@@@,帮助其服务公众和应对传统挑战@@(如@@医疗成本上升@@、创造就业@@、自然灾害和恐怖主义等@@)的路径@@。

  也有一些观点@@@@,就大数据@@@@是否真能改进政府@@运作效率提出质疑@@,因为政府@@必须发展新的能力@@,并采用新技术@@(比如@@分布式和非结构化查询语言@@),通过数据@@组织和分析@@,将大数据@@@@转变为有用的信息@@。

  本文就政府@@是否能与企业@@一样@@,将大数据@@@@应用于公共服务部门进行了研究@@。我们首先比较了政府@@和企业@@在目标@@、任务@@、决策制定过程@@、决策者@@、组织架构和战略的差异@@,接着考察了部分技术领先的国家当前大数据@@@@应用的状况@@,这些国家包括@@澳大利亚@@、日本@@、新加坡@@、韩国@@、英国和美国等@@。

  本文也分析了一些企业@@的大数据@@@@应用@@,这些技术也能应用在政府@@事务中@@。最后@@,我们提出了国家和政府@@部门未来建设大数据@@@@战略应用项目的建议@@。

  文章主要观点@@@@

  企业@@、政府@@和研究机构都能够从他们搜集@@的海量@@大数据@@@@中获取价值@@;

  大数据@@@@应用领先的国家已实施大数据@@@@应用项目@@,以提高国家运行效率@@、透明度@@、民众福利和公共事务参与度@@,确保经济增长和国家安全@@;

  分析政府@@部门采用的大数据@@@@应用项目@@,为其他国家提供未来大数据@@@@行动的引导@@。

  企业@@和政府@@的比较@@

  虽然企业@@和政府@@的主要任务@@并不冲突@@,但各自的举措具有不同的目标和价值@@。企业@@的主要目标是通过提供产品和服务获取利润@@,发展或维持自身的竞争优势@@,创造令消费者和其他利益相关者满意的价值@@。政府@@的主要目标则是维持国内稳定@@,实现可持续发展@@,确保公民的基本权利@@,改善国民福利和促进经济增长@@。

  在竞争的市场环境下@@,大部分企业@@着眼于制定短期决策@@,并且执行人员数量也很有限@@。而政府@@的决策制定过程@@通常@@需要更长的时间@@,经过不同群体@@(包括@@官员@@、利益集团和普通民众@@)反复讨论和磋商@@,在彼此间达成一致后才能有最终结果@@。因此@@,政府@@制定决策要完成很多程序性步骤@@,以降低决策风险@@,提高决策效率和确保其效果@@。由此看来@@,大数据@@@@在政府@@部门和私有部门的应用具有很大不同@@。

  数据@@集属性比较@@

  大数据@@@@环境是以信息技术为基础的决策支持系统的演进@@:从上世纪@@60年代的数据@@处理@@,到@@70-80年代的信息应用@@,再到@@@@90年代的决策支持模型@@,进入@@2000年后的数据@@存储和挖掘@@,再就是今天的大数据@@@@@@。大部分与大数据@@@@相关的技术和分析应用是从@@2010年左右开始出现的@@,故大数据@@@@时代正处于早期阶段@@/发展初期@@。

  大数据@@@@的属性和挑战已经用@@3V来描述@@:海量@@(volume)、速度@@(velocity)和多样性@@(variety)。海量@@是大数据@@@@的基本属性@@,各类机构和组织在业务活动过程中产生数以百万亿字节的数据@@@@,数据@@容量越来越大@@。速度@@是指数据@@量增长越来越快@@,对处理速度@@和响应速度@@提出更高要求@@,运用传统的信息技术手段难以有效处理@@,以及从中提取有价值的信息@@。多样性是指数据@@以各种各样类型的出现@@,包括@@结构化的@@(SQL等传统的数据@@库@@@@);半结构化的@@(具有关键字和规则@@,但数据@@结构不规则或不完整@@)和非结构化的@@(非组织性的数据@@@@,没有商业智能@@)。

  大数据@@@@的概念已经表明@@,大数据@@@@不仅仅是海量@@的数据@@@@,还包括@@通过处理大数据@@@@从中获取价值@@。如@@今@@,大数据@@@@与商业智能@@、商业分析和数据@@挖掘是同义词@@,已经使商业智能从报告和决策支持转移到@@预测和制定未来行动纲领@@。新的数据@@管理系统旨在应对大数据@@@@带来的挑战@@,如@@分布式架构技术@@是一个开源平台@@@@,目前是在管理存储和接入@@,以及高速并行处理大规模数据@@集等方面应用最为广泛的技术@@。然而@@,对于很多企业@@@@,特别是不少中小企业@@来说@@,分布式技术是一个挑战@@。因为这些中小企业@@往往不具备应用大数据@@@@需要的专业人员和经验@@,他们需要外部资源帮助@@。应该看到@@@@,大数据@@@@应用需要的不是纯粹基于技术的技能@@,找到@@正确的分析大数据@@@@的技能@@,或许是企业@@应用大数据@@@@面临的最大难题@@。对于大部分企业@@来说@@,发现和选择胜任的数据@@专家@@(在数据@@挖掘@@、可视化@@、操作和发现等方面@@)是困难而昂贵的@@。

  其他商业大数据@@@@技术包括@@@@Casandra数据@@库@@,它是一个动态的数据@@库@@工具@@,采用行存储格式@@,每一行能存储二百万个数据@@单元@@。对于企业@@的另一个挑战是选择最适合他们的大数据@@@@技术@@:开源技术@@(如@@分布式架构技术@@)或者商业技术@@(如@@Casandra, Cloudera, Hortonworks, MapR)。

  政府@@在应用大数据@@@@时@@,不仅要处理多个来源@@@@、不同格式数据@@集成等一般问题@@,而且还面临一些特殊挑战@@,最大的挑战就是数据@@搜集@@@@。因为政府@@搜集@@的数据@@不仅来自于多种渠道@@(如@@社交网络@@、互联网@@、众包@@),也来自于不同的来源@@@@(如@@国家@@、机构和部门@@),搜集@@难度可想而知@@。其次@@@@,在国家之间分享@@数据@@和信息是一个特殊的挑战@@。跨国分享@@信息@@,由于涉及到@@语言转换@@和不同的文化背景@@(内容的表现形式@@),分享@@和传递的信息有可能失真@@。第三个挑战是在一个国家不同的政府@@部门和机构之间分享@@数据@@@@。政府@@数据@@与商业数据@@最重要的不同就在范围和区域@@,其差异近几年都在平稳增长@@。政府@@(包括@@地方政府@@和中央政府@@@@)在实施法律和规章@@、提供公共服务和监管金融交易的过程中积累了大量数据@@@@。这些数据@@的属性@@、价值和带来的挑战@@,都不同于公司运营中产生的数据@@@@。政府@@的大数据@@@@特征属性可以表述为存储@@、安全和多样性@@@@。通常@@,每个政府@@机构或部门都有自己的存储机构@@,用于存储公共或机密信息@@,而且并不愿意分享@@各自的专有信息@@。

  每个系统都保存有与其他系统隔绝的信息@@,这使得政府@@机构和部门@@之间的数据@@集成更加复杂@@。彼此沟通的失败有时是影响数据@@集成的重要原因@@。例如@@@@,在英国@@,警察机构和医院之间曾经打算在暴力犯罪方面分享@@信息@@,但这一项目最终失败@@,原因就是两者之间沟通不足@@。另一个分享@@政府@@信息的挑战是建立统一的数据@@格式@@,能够允许不同机构进行分析@@。尽管大部分政府@@数据@@是结构化的@@,但是从多种渠道和来源@@去搜集@@数据@@仍然是一个更大的困难@@。缺乏标准化的数据@@格式和软件@@,以及从多个政府@@机构的离散数据@@库@@中提取有用信息的跨机构解决方法@@,也是政府@@推进大数据@@@@应用面临的挑战@@。但由于政府@@的紧缩措施@@,导致其缺乏相应资金去发展和推进解决上述问题@@。

  在使用大数据@@@@时@@,政府@@必须解决相关的法律@@、安全和许可要求等问题@@。在搜集@@和使用大数据@@@@用于预测分析与保障公民隐私权之间@@,应该有一条清晰的界限@@。

  在美国@@,美国爱国者法案允许合法监控@@,有时还可以监控公民@@;电子通讯隐私法案允许相关部门不经授权便可进入@@电子邮件系统@@;要对网络情报共享和保护法案@@(CISPA)加以注意@@,它将允许安全机构和私人网络公司之间的信息共享@@,这增加了人们对误解信息不适当应用的关注@@@@。

  数据@@安全是政府@@大数据@@@@最基本的属性@@,因此@@,搜集@@、存储和使用大数据@@@@都需要特别注意@@。然而@@,目前大部分大数据@@@@技术@@,包括@@ Casandra数据@@库@@和分布式技术@@,都缺乏足够的安全保护工具@@。对政府@@而言@@,确保安全是又一个挑战@@。

  编译@@:工业和信息化部国际经济技术合作中心@@ 高常水@@ 江道辉@@

责任编辑@@:admin