2015 年@@1 月@@7 日@@我们正在经历一场由大@@数据@@@@@@引发的社会革命@@。人类生活中的一切活动@@,每次@@购买@@,每次@@对话@@,每次@@社交@@,每次@@移动@@,甚至我们的身份和@@身体的变化都成为信息收集@@@@、存储@@、分析和@@使用@@的对象@@。多样化的数据@@@@、巨大@@的数据@@量以及它们潜在的商业@@价值已经开始对公共政策的制定@@,对社会经济和@@公民隐私产生深远的影响@@。毋庸置疑大@@数据@@@@会带来巨大@@收益@@,无论是企业创新还是消除疾病@@。当大@@数据@@@@快速向社会的各个方面渗透@@,当数据@@分析技术@@快速发展和@@数据@@利用范围迅速扩大@@时@@@@,政府@@与公民@@、政府@@与企业@@、政府@@与政府@@之间的关系正在发生变化@@。如同任何一种新科学@@(如核物理@@)出现一样@@,政府@@的政策会对这门科学的应用产生深远的影响@@。
 
  作为世界上最大@@的数据@@收集@@者和@@最大@@的数据@@使用者@@,同时@@又是公民基本权利的守护者@@,各国政府@@对数据@@科学和@@大@@数据@@@@的举措@@,会严重影响到它的发展方向和@@发展速度@@。科学既能造福人类也可为害人类@@,大@@数据@@@@也不例外@@,有远见的国家战略和@@政策一定是在保护公民隐私权的前提下@@,加速数据@@信息的自由流动@@,鼓励创新@@、催生新产业创造新就业@@、进而促进国家的经济繁荣@@。中国现代化进程的起点和@@中国的文化造就了我们善于利用@@“后发优势@@”。因此@@从借鉴比较国外政府@@的经验入手@@,研究制定适合国情的大@@数据@@@@发展战略和@@发展路径@@,是继续深化政务@@电子化@@,加快实现中央提出的健全国家治理体系与治理能力现代化的明智之举@@。
 
  以美国@@为代表的发达国家在推进大@@数据@@@@上已经形成了从发展战略@@,法律框架到行动计划的完整布局@@。
 
  2009 年@@1 月@@21 日@@现任美国@@总统奥巴马宣誓就职后的第一个@@工作日@@就签发了@@“开放政府@@@@”备忘录@@(Memorandum on Transparency and Open Government),指导新一届行政当局从开放政府@@@@数据@@@@源@@、建设开放型政府@@入手@@,以数字革命带动的政府@@变革@@。“开放政府@@@@”的目的简洁明了@@:改进公众服务@@,提升公众信任@@,更有效管理公共资源和@@增进政府@@责任@@。互联网@@时@@代的开放型政府@@@@,首先@@必须开放政府@@@@数据@@@@@@。5 月@@20 日@@,美国@@政府@@开放数据@@的门户@@Data.gov 上线@@,第一批@@47 个政府@@数据@@源向社会开放@@。2009 年@@12 月@@8 日@@,总统签发@@“开放政府@@@@数据@@@@”行政令@@ (The Open Government Directive),要求在@@45 天内所有政府@@部门无一例外的必须向社会开放@@3个有价值的数据@@源@@。2010 年@@5 月@@经过@@12 个月@@的运行@@,Data.gov 升级到@@2.0。政府@@开放的数据@@源达到@@2.5 万个@@。2011 年@@9 月@@20 日@@白宫正式启动@@ “开放政府@@@@国家行动计划@@ 1.0”,首批@@26 个开放政府@@@@项目向社会公开@@。2012 年@@3 月@@29 日@@,在公开政府@@数据@@源的@@22 个月@@后@@,启动联邦政府@@大@@数据@@@@行动计划@@,宣布了由政府@@资助的分布在@@13 个部委的@@84 个大@@数据@@@@项目@@,其中多数项目基于不同部门的开放数据@@源@@,联合民间企业协同展开@@,如癌症和@@心血管疾病研究@@。2013 年@@5 月@@9 日@@,总统签署开放数据@@政策@@(Open Data Policy)。2013 年@@12 月@@5 日@@“开放政府@@@@国家行动计划@@”进入@@ 2.0,又添加@@ 23 个政府@@开放项目@@。
 
  在逐步扩大@@开放政府@@@@数据@@@@源@@,启动开放政府@@@@项目和@@部署政府@@主导的大@@数据@@@@项目后@@,2014 年@@1 月@@17 日@@,美国@@总统指定白宫法律总顾问波德斯塔@@,由他领导行政当局与总统科技顾问委员会合作@@,邀请科技专家@@、隐私法专家@@、企业界学术界和@@政府@@领导@@,综合评估@@ “大@@数据@@@@”和@@公民隐私交集后已经带来和@@将会带来的新问题@@。作为综合研究的一部分@@,总统要求超前思考@@“大@@数据@@@@”对人类社会的影响@@,重点研究现有技术@@和@@未来技术@@会对现行法律带来哪些挑战@@,那些法律和@@政策需要修订或制定以适应变化@@。评估探讨@@“大@@数据@@@@”会从那些方面影响我们的生活方式工作方式@@,影响和@@改变政府@@与公民@@之间的关系@@。总统希望得到建议@@,如何在政府@@和@@民企之间合作推动创新@@,在最大@@限度地降低公民隐私风险的前提下@@,保证信息的自由流动@@,创造更多@@的商业@@机会和@@就业机会@@。
 
  2014 年@@3 月@@,美国@@政府@@向全社会发出公开征询@@,希望民众从不同层面提出看法@@,为政府@@的大@@数据@@@@战略献计献策@@。
 
  征询从五个纬度展开@@:
 
  1. 收集@@、存储@@、分析和@@使用@@大@@数据@@@@对公共政策的影响是什么@@@@?例如@@,当政府@@利用大@@数据@@@@后@@,美国@@目前旨在保护消费者隐私权的法律框架和@@以及隐私保护策略@@,能化解大@@数据@@@@大@@分析带来的新问题@@?
 
  2. 如果政府@@采取更多@@地举措@@、给大@@数据@@@@的科学研究更多@@的资助@@,能为政府@@带来哪些可量化的收益@@?那些类型的大@@数据@@@@分析技术@@会对公共政策带来新挑战@@?有哪些政府@@部门和@@特定行业在使用大@@数据@@@@技术@@时@@@@,应该被政府@@和@@公众更多@@的关注@@@@?
 
  3. 那些关键技术@@和@@技术@@趋势将影响大@@数据@@@@的采集@@、存储@@、分析和@@使用@@?那些新技术@@或新做法@@,在保护隐私的同时@@能实现大@@数据@@@@的有效利用@@?
 
  4. 监管政府@@和@@私营部门处理@@大@@数据@@@@的政策框架及法规@@应该有何区别@@?例如@@,执法部门@@,政府@@服务@@,商业@@,学术研究等@@。
 
  5. 跨行政区@@、跨国家使用大@@数据@@@@会带来哪些法律问题@@?如当前的国际法律@@,法规@@,或规范的适当性@@?
 
  2014 年@@5 月@@,由总统科技顾问委员会执笔的报告提交总统@@。报告提出五大@@建议@@:
 
  1. 政府@@政策制定应更多@@关注@@大@@数据@@@@的实际使用较少放在数据@@收集@@和@@分析上@@
 
  2. 在政府@@各个层面的政策规范制定中@@,不应关联特定技术@@而应指明希望得到的结果@@
 
  3. 为推进大@@数据@@@@技术@@的应用@@,白宫科技政策办公室和@@政府@@网络信息技术@@研发部门需大@@力合作@@,强化国家在用于保护隐私技术@@方面的研究@@,加强与隐私相关的社会科学的研究@@。
 
  4. 白宫科技政策办公室还应与高等教育和@@职业教育合作@@,鼓励和@@增加培养隐私保护专业人员@@[page]
  5. 美国@@应当在立法上保持在国际上的领先地位@@,加快修订国内法律法规@@@@,鼓励采用新方法新技术@@应对新的隐私需求@@。换个角度讲@@,总统科技顾问委员会的评估结论是@@,单靠技术@@无法保护隐私@@,政府@@必须制定新策略@@,修订现行的隐私保护的政策法规@@@@。总统科技顾问委员会建议@@:新的政策应该侧重于的对个人信息的具体用途是否会对个人隐私产生不利影响@@;政策制定的重点应放在利用数据@@的结果上@@,也即用个人数据@@分析在@@“做什么@@”,而不是@@“如何做@@”,以避免政策成为技术@@进步的障碍@@;政策框架应能加快开发和@@商业@@化大@@数据@@@@技术@@@@,这些技术@@不仅包括新的研究领域和@@潜在的技术@@选项@@,而且应包含能消除对隐私权不利影响的新技术@@新方法@@。通过政策的引导@@,能更有效地利用大@@数据@@@@技术@@@@,让美国@@在立法和@@商业@@上在全球继续保持领先地位@@。只有解除对个人隐私受到侵犯的担忧@@,才能最大@@限度地利用大@@数据@@@@的好处@@。
 
  最后@@,总统科技顾问委员会呼吁@@,更多@@的科学和@@专业人士共同努力@@,以对隐私充分尊重的方式@@,开发和@@使用大@@数据@@@@技术@@@@。
 
  美国@@政府@@的经验给了其他国家很多启示@@。
 
  首先@@,国家的大@@数据@@@@发展战略不仅仅是一个@@技术@@发展纲要@@。尽管它针对一门新兴科学和@@相关技术@@而来@@,但它是站在此项技术@@会给未来社会和@@公民生活带来的冲击的角度@@,以完善法律框架@@、政策框架为要@@,配之以恰当的财政计划项目计划以及合作计划@@。
 
  第二@@,因为政府@@是集数据@@收集@@@@,数据@@使用和@@公民隐私保护为一体的最终仲裁者@@,所以政府@@必须充分考虑科学与公民@@、科学与政府@@@@、科学与工业以及科学与科技之间的互动关系@@,制定的法律政策既要能鼓励利用这项技术@@更多@@的造福人类同时@@又能抑制利用其为害人类@@。
 
  第三@@,政府@@资助的重点应放在科学研究@@(如数据@@科学@@),应当用诸如合同或购买的方式激发鼓励民间企业开发应用技术@@@@。
 
  第四@@,科学和@@技术@@是现代文明的基础@@,历史上每次@@重大@@科学技术@@的出现@@,都引发了巨大@@的社会变革@@,因此@@,政府@@在关注@@特定科学和@@技术@@的同时@@@@,要资助和@@鼓励相关社会科学的探索争鸣@@。目前无论从哪个角度看@@,大@@数据@@@@仍处在初始阶段@@。尽管企业和@@媒体对大@@数据@@@@时@@代的到来表现出了空前的热情@@,但政府@@的政策制定者@@,社会法律学者和@@科技人士应当对此保持清醒并对已经面临的和@@将会出现的问题有所准备@@。今天数据@@积累的速度远远超过数据@@能被处理@@和@@能被利用的速度@@。2013 年@@全球产生的数据@@中约@@22%有可能被用作分析@@,但结果只有@@5%实际被分析用到@@(IDC)。照目前数据@@产生的速度预计到@@2017 年@@,全球又会积累超过四倍于今天的数据@@量@@。结果导致存储@@设备@@、数据@@中心和@@电力消耗的快速膨胀@@。截至@@ 2014 年@@7 月@@仅美国@@就有@@290 万个@@被称之为服务器农场的数据@@中心@@,面积达@@6.66 亿平方呎@@,两年@@后将达@@7.27 亿平方呎@@。绝大@@部分数据@@在分立分治的系统中快速堆积@@,这些数据@@互不相识互不来往@@,除了消耗资源@@,还没有产生任何价值@@。纵向累积的@@、缺乏多维度关联的数据@@的确越来越大@@@@。但这并不是@@ “大@@数据@@@@”而只不过是@@“数据@@大@@@@”而已@@。在我们刚刚步入大@@数据@@@@社会时@@@@,不妨做一些前瞻性思考@@。这些思考应当以数据@@为源头以人类社会为终点@@。简单说@@,应当从物理层面审视和@@规划数据@@如何收集@@@@、存储@@、处理@@、传输@@和@@共享@@@@;应当从数字产品生产层面考虑研发什么样的分析工具@@@@、使用什么样的软件平台@@和@@基于什么样的环境@@(如开放代码@@);从使用层面考虑引进培养什么样的人才和@@训练什么技能@@,以及在更广义的范畴考虑如何形成大@@数据@@@@思维和@@文化@@,大@@数据@@@@将会对未来企业与人@@、政府@@与人的关系有何影响@@。
 
  大@@数据@@@@社会要求人们学会用一种全新的方式打量这个世界@@,工具@@、技术@@、技能和@@人才缺一不可@@。要及早部署和@@投资在以下方面@@:
 
  数据@@分析工具@@和@@软件平台@@@@:人工智能@@(AI)技术@@,自然语言处理@@@@、模式识别@@、机器学习@@、预测分析@@、数据@@熔炼@@、信号处理@@和@@元数据@@管理等等@@;大@@数据@@@@要求同时@@在数十数百甚至数千台服务器中进行大@@规模并行运算的软件@@,目前使用的大@@多数关系数据@@库@@管理系统@@、桌面数据@@库@@和@@可视化软件包已很难满足需求@@,因此@@仍需关注@@@@MPP 数据@@库@@、分布式文件及分布式数据@@库@@的发展@@。
 
  数据@@分析人才和@@算法模型@@:培养训练会使用大@@数据@@@@分析语言工具@@如@@ECL, Cassandra,Hadoop,Hive、MongoDB 等的人才只是整个需求的表层@@。再深入一层@@,要让大@@数据@@@@发挥作用@@,跨行业顾问@@、分析师和@@有行业经验的编程序人员缺一不可@@。图形及视觉表展现在人机对话和@@数据@@表达层作用极大@@@@,但融合技术@@和@@艺术@@、能将@@“抽象@@”形象化的语言@@、工具@@及人才尚不多见@@。没有数学模型很难想象数据@@如何@@“大@@”起来@@,数据@@只有通过算法模型才能被电脑解读@@,但数学模型在政治@@、社会和@@金融等领域只能逼近现实无法百分之百的重合现实@@。对于解读数据@@关联的隐喻而言@@,这些模式非常有用但必有局限性@@。所以如何建立能精准模拟世间万物的数学模型@@,是集理论研究与应用开发的重要地带@@。
 
  当人类让数字讲话@@、把决策权更多@@的移交给@@“大@@数据@@@@”时@@,第一个@@重要问题就是数据@@的质量@@。“垃圾进@@、垃圾出@@”(Garbage-In, Garbage-Out)这句话早在@@50 年@@前就被用来描述自动化处理@@数据@@时@@的质量问题@@,此话今天依然有效@@。研究表明@@,知识工作者平均花近一半的时@@间在寻找数据@@@@、验明数据@@@@、修正数据@@@@、剔除不靠谱的数据@@@@。数据@@质量问题可能发生在收集@@@@、存储@@、处理@@、传输@@和@@分享@@整个过程中的任何一个@@环节@@,但第一个@@关口仍是数据@@录入端@@(记录或采集口@@)。大@@多数情况下@@,数据@@输入端很少知道数据@@使用端为什么@@需要这种数据@@@@,用这些数据@@做什么@@@@。当使用端发现问题时@@@@,除非是系统性问题@@,大@@多被随手解决@@,少有追根溯源从源头纠正问题@@。那么数据@@的质量如何保证@@,谁应对质量负责呢@@?解决数据@@质量的问题@@,更多@@的是在管理不在技术@@@@。行之有效的方法是把数据@@质量的管控权更多@@地转给使用端@@(业务条块@@),建立数据@@@@“原料方@@”和@@“生产方@@”之间的直接的客服关系@@,形成制度和@@方法从数据@@源头和@@元数据@@层面控制质量@@。
 
  进入@@大@@数据@@@@时@@代@@,一个@@“大@@”字很容易掩盖一切@@。现实情况是@@,我们可用的数据@@越来越多样化@@,但其中大@@部分的数据@@是使用者在只知其来源@@不知其如何产生@@、质量被如何管控的情况下而被使用的@@。因此@@,要想让人们信赖基于大@@数据@@@@的决策@@,对所有数据@@源提前测试试验必不可少@@。不管数据@@是大@@是小@@,真实可靠最重要@@。只有逼真的模型@@、精准的分析@@,才能体现大@@数据@@@@的价值@@。过去没有数据@@是瞎子摸象@@,现在数据@@太多是大@@海捞针@@,瞎子摸象和@@大@@海捞针的结果相差无几@@。大@@数据@@@@很容易使人们的关注@@点从因果关系移动到相关关系@@。大@@数据@@@@分析的结果常常能帮助人们回答@@“是什么@@”而不是@@“为什么@@”。肤浅的使用大@@数据@@@@@@,有可能引导人们止步于探究事件背后的深层原因@@,满足于了解现象之间的联系并利用这种联系得出是对非对的解读@@。
 
  综观世界上所有政体和@@政府@@@@,他们都是最大@@的公民信息收集@@者@@、数字产品的生产者同样又都是保护公民隐私的最高管理者@@。实现真正的数据@@共享@@是大@@数据@@@@腾飞的基础@@,主管部门应该多多关注@@数据@@开放和@@共享@@的规则@@,公民信息安全和@@隐私的保护@@。在可预见的未来@@,我们面临诸多挑战@@:技术@@挑战会出现在从信息搜索@@@@、数据@@捕捉@@,存储@@,传输@@、存储@@、共享@@、分析直到可视化全过程@@。另外必须面对大@@数据@@@@对社会人文的挑战@@。法律层面@@,更开放的网络会带来更多@@的数据@@窃用@@、滥用和@@非法监控@@。一旦强大@@的新型数学数据@@工具@@出现@@,如何控制它不会被用在恶意方面@@。在人文伦理层面@@,在数据@@越来越多地获得否决权的人工智能@@社会@@,如何对待人的经验积累和@@直觉判断@@?大@@数据@@@@技术@@日@@新月@@异@@,由大@@数据@@@@@@、深度学习@@(Deep Learning)引发的新一轮人工智能@@技术@@会对人类未来造成什么样的冲击@@,是摆在科学和@@社会学者面前的另一个@@重大@@课题@@。实事求是地讲@@,不论拥抱或排斥这种新形式的数据@@科学@@,“精灵@@”再也装不回瓶子里了@@。(原作文金言@@ 中国信息协会大@@数据@@@@专家委员会副主任@@)
责任编辑@@:admin