1  引言@@@@

  数据@@已经成为国家@@基础性战略资源@@,推动数据@@资源开放共享是国家@@@@《促进大数据@@@@发展行@@动纲要@@》的核心内容@@。政府@@和公共数据@@资源的开放共享不仅是构建一个透明的政府@@@@,更重要的是创造新兴战略产业@@(数据@@产业@@),推进传统产业转型升级@@,成为驱动创新的主要因素@@。但在@@实施过程中@@,数据@@开放@@共享面临着@@“数据@@拥有者不愿@@、不敢@@、不会开放@@共享@@”的问题@@。由于数据@@可以以极低成本@@复制和传播@@(复制一份数据@@的成本@@远远低于生产一份数据@@的成本@@@@),加之数据@@资源的战略性和商业价值越来越显现@@,这就导致生产数据@@的意愿远远低于复制数据@@的意愿@@,因而呼吁数据@@开放@@的人越来越多@@;数据@@生产者越来越不愿意将其拥有的数据@@开放@@出来@@。因此@@,数据@@资源的开放变得越来越难以实现@@。事物的价值源于稀缺性@@,由于数据@@可以几乎零成本@@地复制和传播@@,所以@@,数据@@开放@@意味着数据@@资源的稀缺性丧失@@,从@@而丧失其原有的价值@@,这是不愿意开放数据@@@@的根本@@原因@@。因此@@,如何既开放数据@@@@又保持数据@@资源的稀缺性@@,是一个亟待解决的重大问题@@。本@@文围绕该重大问题@@,探索数据@@开放@@模式@@,提出数据@@自治@@开放@@模式@@@@。

  开放数据@@@@是指数据@@免费开放给每一个希望使用数据@@的人@@,主要是指政府@@和公共数据@@资源应该开放给公众@@,使公共数据@@能被任何人@@、在@@任何时间和任何地点自由利用@@、再利用和分发@@;数据@@共享是指对数据@@使用对象@@@@、使用时间和使用地点加以限制@@,主要是对使用对象@@进行@@限制@@,即将数据@@开放@@给特定对象@@@@,只有特定对象@@在@@特定的时间@@、地点使用指定的数据@@@@,可以理解为开放数据@@@@的限制版@@;数据@@交易是指数据@@拥有者依据法律在@@市场交易规则下进行@@自由交易@@。总体而言@@@@,开放数据@@@@、数据@@共享和数据@@交易都是数据@@拥有者将数据@@开放@@给数据@@使用者@@,只是在@@范围@@、对象@@、是否收费等@@方面有所不同@@,三者面临的核心问题都是@@“数据@@如何治理@@”,具体说就是@@“如何控制数据@@使用者传播或滥用数据@@@@”。开放数据@@@@模式不对开放出去的数据@@进行@@治理@@ ;数据@@共享模式则由共享圈共同治理数据@@@@,但共享圈约束有限@@,数据@@常常流出共享圈而造成事实上@@的开放数据@@@@@@;数据@@交易的数据@@治理@@目前还没有具体做法@@。因此@@,为了方便叙述@@,将开放数据@@@@@@、数据@@共享和数据@@交易统称为@@@@“数据@@开放@@”。

  当前@@,绝大部分数据@@资源都还处在@@封闭不开放的状态@@,数据@@完全由数据@@拥有者治理@@。拥有者尽量保护系统数据@@不受外界侵害@@@@,不对外界开放@@,即数据@@是自治封闭的@@。现有的数据@@资源管理技术@@(数据@@库管理系统@@、文件系统@@)和应用软件技术都支持这种数据@@自治@@封闭@@模式@@。数据@@自治@@封闭@@模式的问题@@是数据@@资源只能由数据@@拥有者使用@@,没有发挥数据@@资源应有的价值@@。要更大程度地开发利用数据@@@@,就需要将数据@@资源开放出来@@。然而@@,数据@@会被怎样开发利用事先可能@@是不知道的@@,使用数据@@的软件也是事先不知道的@@、基本@@外部的@@、数量无限的@@@@、安全不可控的@@、隐私不可控的@@。现有的数据@@库管理系统@@软件根本@@无法处理数据@@开放@@的应用需求@@,因此@@,需要探索新型的数据@@资源管理技术@@和数据@@开放@@模式@@。

  本@@文提出的@@“数据@@自治@@开放@@”是指数据@@拥有者在@@法律框架下对数据@@进行@@自行@@确权和管理@@、自行@@制定开放规则@@(即数据@@自治@@@@),然后将数据@@开放@@给使用者@@,包括上传到数据@@应用软件使用数据@@和下载数据@@到使用者的设备中@@(使用者没有数据@@治理@@权@@)。

  数据@@自治@@开放@@模式@@有望成为数据@@开放@@的基本@@模式@@,是政府@@数据@@开放@@共享@@、企业及个人数据@@交易@@、国家@@数据@@主权实现的一种可行@@方法@@。

  2  数据@@资源开放与稀缺性的矛盾@@

  数据@@资源是重要的现代战略资源@@,而且其重要性越来越显现@@,在@@21世纪@@有可能@@超过石油@@、煤炭@@、矿产@@,成为最重要的人类资源@@。提高数据@@资源开发利用水平@@、保护国家@@的战略资源是增强我国综合国力和国际竞争力的必然选择@@。2011年@@5月@@麦肯锡公司发布的@@《大数据@@@@:下一个创新@@、竞争和生产力的前沿@@》报告@@、2012年@@2月@@世界经济论坛年@@会发布的@@《大数据@@@@,大影响@@》报告@@等@@@@,都突显了大数据@@@@的价值和重要性@@。2012年@@3月@@美国白宫科学和技术政策办公室发布@@《大数据@@@@研究和发展倡议@@》,标志着美国率先将大数据@@@@上升为国家@@战略@@,随后@@,日本@@@@、法国@@、澳大利亚@@、英国等@@国家@@也开始发布大数据@@@@国家@@战略或计划等@@@@。2014年@@和@@2015年@@,我国将大数据@@@@写@@入@@《政府@@工作报告@@@@》,2015年@@8月@@19日国务院通过@@@@《关于促进大数据@@@@发展的行@@动纲要@@》,2015年@@10月@@26—29日中国共产党第十八届五中全会提出@@“实施国家@@大数据@@@@战略@@”等@@,这些都表明数据@@已经成为重要的战略资源@@。

  一份数据@@资源的价值除了体现在@@它的内容外@@,更重要的方面体现在@@它的稀缺性@@。内容再重要的数据@@资源@@,如果人手一份或者随时可以获得@@,那就没有人愿意付费购买@@,其本@@身的价值就难以体现出来@@。由于数据@@可以以极低的成本@@复制和传播@@,所以@@一旦数据@@资源生产者将数据@@资源开放@@,就意味着该份数据@@资源可能@@会传遍世界@@,从@@而丧失稀缺性@@。

  矛盾在@@于@@:如果不开放@@,则数据@@资源只能自用@@,价值发挥有限@@;如果开放@@,则数据@@资源可能@@丧失稀缺性@@,使数据@@资源生产者丧失利益@@。

  由于目前在@@技术上还没有保持数据@@资源稀缺性的数据@@开放@@技术@@,所以@@,在@@实践中@@,数据@@资源拥有方不愿开放@@@@、不会开放@@就成了数据@@开放@@进程中的@@“拦路虎@@”。另外@@,由于政策制约@@,数据@@资源拥有方还存在@@不敢@@开放@@的问题@@@@。

  不愿开放@@:指数据@@资源拥有者不愿意在@@没有获得足够利益的情况下进行@@数据@@开放@@@@。

  不会开放@@:指尽管数据@@持有者希望将数据@@资源开放出来@@,但是由于现行@@技术并@@不适合数据@@资源开放@@,所以@@不知道如何实现数据@@资源开放@@。

  不敢@@开放@@:指怕承担责任@@,目前的政策是@@“谁有数据@@谁负责@@”,因此@@,万一数据@@开放@@出了问题@@,数据@@拥有部门就要承担责任@@;另外@@,一些数据@@拥有者担心数据@@开放@@后@@,数据@@资源的稀缺性会丧失@@。

  3  现有数据@@资源管理模式@@

  现行@@的数据@@管理技术是面向数据@@自治@@封闭@@的@@,不适合数据@@开放@@共享@@,急需开发面向数据@@开放@@共享的技术@@。

  3.1 政府@@开放数据@@@@@@

  政府@@开放数据@@@@@@的典型代表是@@2009年@@美国政府@@推出的网站@@www.data.gov,因此@@,2009年@@一般被认为是数据@@开放@@元年@@@@。之前是政府@@信息公开@@@@,政府@@向公众公开@@各种报告@@@@、决策结果@@;政府@@开放数据@@@@@@是信息公开@@的进一步@@,即将形成报告@@和决策的原始数据@@也公开@@@@,主要内容是政府@@应该向公众透明@@。2015年@@我国国务院印发的@@《促进大数据@@@@发展行@@动纲要@@》明确提出@@,数据@@开放@@共享主要是指政府@@和公共数据@@资源应该开放给公众@@共享@@。

  从@@国际上看@@,政府@@数据@@开放@@主要通过@@制定战略或政策文件形式指导开放@@,又因涉及多个部门@@,往往由最高领导层发布@@,例如美国前总统奥巴马在@@@@2009年@@和@@2013年@@两次@@发布开放政府@@数据@@的行@@政令@@;英国在@@@@2010年@@和@@2011年@@先后两次@@发布@@《致政府@@部门开放数据@@@@函@@》等@@。开放过程中@@,各国通常把数据@@作为一种国家@@资产进行@@管理@@,要求建立相关的制度@@。比如@@,建立数据@@资产目录@@,各部门需梳理数据@@资产@@,明确各类数据@@的开放属性@@(公开@@、限制公开@@@@、不公开@@@@);建立数据@@开放@@的目录@@,确定哪些是已开放的@@,哪些是将来会开放的@@。并@@且@@,目录保持持续更新@@和补充@@。在@@开放的形式上@@,一般采用国家@@统一的门户网站形式开放数据@@@@@@。此外@@,重视建立公众的参与和反馈机制@@,确保用户的需求得到及时反馈@@,优先释放用户需求最为迫切的数据@@集@@,并@@对数据@@开放@@的相关进展进行@@评估@@。

  从@@技术上来看@@,政府@@数据@@开放@@基本@@上都只提供数据@@下载服务@@。政府@@将开放的数据@@放在@@政府@@网站@@上@@,公众可以下载需要的数据@@@@。这些数据@@往往不可机读@@@@,公众更不可能@@通过@@上传到应用程序来使用这些数据@@@@。这样当数据@@资源比较大的时候@@,这些数据@@就变成了不可用@@的数据@@@@。

  3.2 科学数据@@开放@@@@

  从@@最早推行@@数据@@资源开放的科学研究领域来看@@,科学数据@@表面上已经开放了@@,但实际上开放程度非常有限@@,主要是由政府@@或公共资源投资的科学研究产生的数据@@的开放@@,并@@且@@大多集中于各自领域@@,例如地震科学@@、水利科学@@、天文学等@@@@。在@@我国@@,主动共享科学数据@@的研究单位和个人还比较少@@,大部分的数据@@共享活动是通过@@政府@@投资@@、项@@目驱动的形式进行@@的@@。这些都影响了科学数据@@的开放共享进展和质量@@,目前为止@@,尚未形成完全开放的科学数据@@开放@@@@共享局面@@。

  3.3 数据@@自治@@封闭@@

  绝大部分数据@@资源还处在@@封闭不开放的状态@@,数据@@完全由数据@@拥有者自己治理@@,即数据@@自治@@@@。从@@20世纪@@90年@@代信息化战略开始@@,大部分数据@@是由各类计算机应用系统生产的@@,例如政府@@系统@@、金税工程@@、教务系统@@、超市系统@@、银行@@系统等@@@@。信息技术也只支持数据@@封闭@@,尽量保护系统数据@@不受外界侵害@@,即信息安全@@,例如系统设置防火墙@@、登录口令@@,制定用户级别和使用系统的功能类别等@@@@。

  这些系统中的数据@@由系统拥有者自己管理@@,或者说数据@@由数据@@拥有者自己管理@@,称为@@数据@@自治@@@@。加之数据@@保持封闭不对外界开放@@@@,所以@@称这类数据@@资源管理模式为@@“数据@@自治@@封闭@@”。

  在@@数据@@自治@@封闭@@模式中@@,使用数据@@的软件是事先知道的@@、基本@@内部的@@、数量有限的@@、安全可控的@@、隐私可控的@@。现有的数据@@资源管理技术@@(数据@@库管理系统@@、文件系统@@)和应用软件技术也只支持数据@@自治@@封闭@@模式@@,图@@1为数据@@自治@@封闭@@系统结构@@。

图@@1 数据@@自治@@封闭@@系统示意@@

  3.4 现有数据@@资源管理模式@@存在@@的问题@@@@

  政府@@数据@@开放@@模式存在@@的问题@@是显而易见的@@,即数据@@资源稀缺性的丧失@@。因此@@,政府@@数据@@开放@@的基本@@出发点是@@:政府@@数据@@是公共品@@,其权属属于公众@@,所以@@要向公众免费开放@@。然而@@,随着数据@@资源的战略性和基础性越来越显现@@,开放的政府@@数据@@也会被敌对国家@@利用@@,所以@@,政府@@数据@@开放@@应该是有限的@@,数据@@主权问题也越来越引起重视@@。事实上@@,国际上政府@@和公共数据@@资源仅开放了不到@@10 %,这也从@@另一个侧面说明政府@@数据@@开放@@的问题@@@@。更严重的是开放数据@@@@处于不治理或者无法治理的状态@@。

  数据@@自治@@封闭@@模式的问题@@是数据@@资源只能由数据@@拥有者使用@@,没有发挥数据@@资源应有的价值@@。数据@@资源可以被加工再加工形成各种数据@@产品@@,服务于人们的生产和生活@@,从@@而产生巨大的价值@@。与数据@@自治@@封闭@@模式完全不同@@,如果将数据@@资源开放出来@@,那么使用数据@@的软件事先是不知道的@@、基本@@外部的@@、数量无限的@@@@、安全不可控的@@、隐私不可控的@@。数据@@开放@@模式示意@@如图@@@@@@2所示@@,现有的数据@@库管理系统@@软件根本@@无法处理数据@@开放@@的应用需求@@。因此@@,需要探索新型的数据@@资源管理技术@@。

图@@2 数据@@开放@@模式示意@@

  4  数据@@自治@@开放@@模式@@

  数据@@开放@@是必然趋势@@,但需要保障在@@数据@@开放@@的同时又不丧失稀缺性@@,确保数据@@不流失@@、隐私不泄露@@、安全不泄密@@、利益得以实现@@,例如医疗数据@@的开放@@。医疗数据@@涉及相当比重和规模的隐私及敏感信息@@,例如患者个人信息@@、既往病史@@、就诊记录等@@@@,医生个人信息@@、ICD编码诊断习惯等@@@@,医院具有优势的院内制剂配方@@、院内诊疗规范和方案@@、经营财务状况等@@@@,甚至属于国家@@政府@@的涉密数据@@@@(如流行@@病@@、传染病@@、突发事件@@、重大事件等@@@@)。这直接制约了医疗数据@@的开放@@,因为没有合理有效的开放模式@@,医疗数据@@开放@@将增大医疗数据@@安全和隐私泄露的风险@@。为实现这一目的@@,数据@@自治@@开放@@是一种可行@@的方法@@。

  数据@@自治@@开放@@模式@@是由数据@@拥有者管理数据@@@@,数据@@拥有权始终掌握在@@数据@@拥有者手里@@(除非自己要放弃拥有权@@),即数据@@自治@@@@;数据@@可以开放给指定使用者@@,使用者只能自己使用@@,不能传播数据@@@@,因此@@不会丧失数据@@的稀缺性@@。

  为实现数据@@自治@@开放@@@@,需要开发面向数据@@开放@@的数据@@资源管理系统@@,然后将现有自治封闭系统中的数据@@资源重新组织到新系统中@@,实现数据@@资源的自治开放@@(如图@@@@3所示@@)。数据@@自治@@开放@@模式@@对技术提出了新挑战@@,数据@@自治@@开放@@技术@@要解决的问题@@是@@“如何控制数据@@使用者传播或滥用数据@@@@”。对应的关键技术问题如下@@。

图@@3 面向开放的数据@@资源@@

  ● 如何做到数据@@既能够自治又能够开放@@?这需要研究面向自治开放的数据@@资源组织理论@@,即需要有新的数据@@模型来组织数据@@资源@@。外界能够通过@@这个数据@@模型看到有哪些数据@@资源@@,以确定是否要使用这些数据@@资源@@,系统能够承载使用者将数据@@上传到应用软件@@,根据数据@@模型来使用数据@@@@。

  ● 如何保护数据@@稀缺性不丧失@@、数据@@安全和隐私有保障@@?这需要研究面向自治开放的数据@@安全与隐私保护理论@@,确保数据@@使用者只能按约定使用数据@@@@,而不能传播和滥用数据@@@@。

  围绕上述问题@@,重点研究方向包括@@:建立面向自治开放的数据@@组织模型@@@@;研究自治环境下数据@@使用外部软件行@@为管控方法@@@@;研究开放数据@@@@权益保护方法@@@@;研发面向数据@@自治@@开放@@的数据@@资源管理系统@@@@;在@@典型领域形成应用开放环境@@,开展应用@@。

  具体包括面向数据@@开放@@的数据@@组织模型@@@@——数据@@盒@@模型的建模技术@@、数据@@使用的@@“言@@行@@一致@@”管控技术@@、数据@@盒@@加密与隐私保护@@技术@@、数据@@站组成管理及数据@@站系统的设计@@与实现技术等@@@@。最终的数据@@自治@@开放@@应用系统的结构@@如图@@@@@@4所示@@。

图@@4 数据@@自治@@开放@@应用系统的结构@@

  5  数据@@自治@@开放@@技术@@

  5.1 数据@@组织模型@@——数据@@盒@@

  如前文所述@@,在@@数据@@开放@@环境下@@,使用数据@@的软件或程序是外部的@@、未知的@@、无限的@@。数据@@的组织既要实现开放使得用户方便使用@@,即数据@@外部可见@@、可理解@@、可编程@@,又要防止数据@@权益受到侵犯@@,即内部可控@@、可跟踪@@、可撤销@@。这需要有面向自治开放的数据@@组织模型@@@@,涉及以下关键技术@@。

  (1)开放数据@@@@的基本@@存储单元建模技术@@

  开放数据@@@@的基本@@存储单元是为数据@@使用者提供开放数据@@@@的基本@@组成单元@@,称为@@“数据@@盒@@”。自治开放模式将按照数据@@盒@@的方式向数据@@使用者开放数据@@@@@@,即呈现给用户的是一定数量的数据@@盒@@@@。对用户开放的数据@@是局部数据@@@@,不同类型数据@@@@、不同用户需求@@,数据@@开放@@的粒度是不同的@@。如何从@@数据@@属性维度@@(横向@@)和数据@@规模@@(纵向@@)划分数据@@粒度@@,对数据@@使用者使用数据@@@@、组织数据@@单元是一项@@关键技术@@。并@@且@@,对数据@@使用者开放数据@@@@的基本@@单元需要具有防泄露@@、保护权益的能力@@,如何将数据@@防泄露功能和数据@@权益保护机制等@@封装在@@数据@@单元中@@,是需要解决的关键技术@@。

  (2)数据@@盒@@的形式化与计量技术@@

  数据@@描述@@、数据@@操作和约束是数据@@盒@@的基本@@要素@@,数据@@盒@@的使用涉及数据@@盒@@的交@@、并@@、拼接等@@操作@@,这需要对数据@@盒@@进行@@形式化表示@@。数据@@盒@@的计量是根据数据@@使用者提出的要求和目标@@,计算使用者所需数据@@盒@@的数量和时间等@@@@,并@@进行@@定价@@,包括数据@@使用需求建模@@、数据@@需求与数据@@盒@@自适应匹配方法@@、数据@@盒@@的计量度量设计@@与度量方法@@、定价规则和方法等@@@@。

  5.2 数据@@使用外部软件行@@为管控方法@@

  数据@@自治@@开放@@环境允许数据@@使用者通过@@外部软件访问以数据@@盒@@形式存在@@的特定数据@@资源@@。为了保护数据@@利益和数据@@资源的可持续发展@@,应当对外部软件访问数据@@的行@@为进行@@规范化和管控@@。外部软件行@@为管控是数据@@自治@@开放@@中保障数据@@权益的重要环节@@。通过@@监控外部软件访问软件的长期行@@为@@,提取软件访问数据@@的行@@为特征@@,并@@基于这些特征抽象其高层意图@@@@。涉及的关键技术包括以下几个方面@@。

  (1)基于业务领域知识模型的软件行@@为意图@@建模技术@@

  客户软件访问开放的数据@@资源时@@,应当表明其访问数据@@资源的高层意图@@@@。例如某客户软件声称为@@了追踪病症@@A的治疗和患者愈后情况@@,需要访问该病症的所有医疗数据@@@@,那么根据这一意图@@@@,对与病症@@A“概念相关@@”的数据@@资源的访问@@(可能@@)都是符合其意图@@的@@。这种概念相关@@性依赖于特定业务领域知识模型以及对开放数据@@@@资源的语义标注@@。在@@客户软件访问开放数据@@@@资源时@@,对其所有数据@@访问行@@为和访问过的数据@@资源语义进行@@分析@@,对客户软件访问数据@@资源的实际意图@@进行@@建模@@。

  (2)数据@@使用的@@言@@行@@一致@@管控技术@@@@

  在@@数据@@自治@@开放@@环境中@@,外部软件以黑盒方式在@@授权范围内对数据@@进行@@自主访问@@。外部软件在@@进入计算环境前@@,应当先声明其使用开放数据@@@@资源的目的@@,即提供其标称意图@@@@。标称意图@@的描述与该软件的特定业务领域密切相关@@,也应当表明其将采用的主要数据@@处理方法@@,作为使用数据@@时行@@为合法性的评价标准@@。声明了合法标称意图@@的软件在@@实施数据@@访问时@@,其行@@为序列应当符合其所声称的意图@@@@。根据软件行@@为推测得到的意图@@@@,即软件行@@为意图@@@@。当软件的行@@为意图@@@@(行@@)与软件标称意图@@@@(言@@)不一致时@@,即表明该软件对开放环境造成风险@@。为了验证外部软件行@@为是否符合其声明的意图@@@@,需要相应的软件行@@为验证技术@@。在@@隔离受控的沙箱环境中@@,对数据@@单元访问接口和环境的不同安全级别进行@@模拟@@,留存软件行@@为日志进行@@分析验证@@。在@@此基础上@@,在@@外部软件使用数据@@的过程中@@,还需要采用量化机制客观评价外部软件的行@@为损害数据@@权益的风险@@,通过@@衡量行@@为意图@@偏离标称意图@@的程度@@、行@@为意图@@对数据@@价值和利益相关方的影响程度@@、软件行@@为意图@@判断准确度等@@因素@@,综合判定该软件的行@@为风险等@@级@@。

  5.3 开放数据@@@@权益保护方法@@

  数据@@自治@@开放@@以数据@@盒@@为基本@@数据@@单元向数据@@使用者开放@@,因此@@数据@@资源稀缺性丧失和隐私泄露等@@问题的防范主要针对数据@@盒@@@@。数据@@盒@@数据@@被窃取@@、隐私数据@@泄露以及机密数据@@丢失等@@问题将导致数据@@权益受损@@,会降低数据@@拥有者开放自身数据@@的意愿@@。数据@@盒@@权益保护涉及以下关键技术@@@@。

  (1)数据@@盒@@加密与隐私保护@@

  一个数据@@盒@@可能@@包含照片@@、视频@@、文本@@和结构化数据@@等@@@@,数据@@盒@@的使用是外部的@@、未知的@@、无限的@@,传统的数据@@加密@@、数据@@隐私技术无法有效应用在@@数据@@盒@@中@@。

  在@@数据@@盒@@加密方面@@,数据@@开放@@下的数据@@加密保护需要兼顾两种情形@@。一是在@@数据@@盒@@正常使用情况下@@,需要考虑数据@@盒@@的安全性和功能性的权衡@@,使得在@@保证数据@@正常高效操作的前提下最大程度地保证数据@@的机密性@@。这需要可调整的加密技术@@,将相应数据@@项@@进行@@一层或多层加密@@,当外部软件请求使用数据@@时@@,在@@保证操作@@(读@@、写@@、结合等@@@@)顺利执行@@的前提下只需要打开所需的层次@@@@,使得该层既能完成外部软件所需的操作@@,同时又不至于公开@@更内部的层次@@@@。二是即便数据@@盒@@被盗取或控制@@,也需保持数据@@盒@@中数据@@的机密性@@,这需要保证数据@@盒@@抗盗取和抗逆向拆解的技术@@。

  在@@数据@@自治@@开放@@模式@@下@@,数据@@使用者的软件在@@申请使用数据@@盒@@时@@,需要有一个数据@@使用说明@@,说明软件使用哪些数据@@@@、以什么样的方式使用这些数据@@@@、使用的预期结果是什么@@。因此@@数据@@盒@@的隐私保护主要包括如何判断一个数据@@使用说明是否涉及隐私泄露@@、涉及哪些隐私数据@@@@、严重程度如何@@。这需要研究新型的隐私认知技术@@。

  (2)基于数据@@覆盖模型的数据@@拼图@@防范技术@@

  数据@@拼图@@是指数据@@使用者能够通过@@整合多次@@获取的数据@@片段@@,还原数据@@整体@@。数据@@拼图@@可以由单个使用者多次@@获取数据@@片段来完成@@,也可由多个使用者共同合作@@,通过@@共同合作实现对数据@@片段的拼接@@。使用数据@@拼图@@技术@@,数据@@使用者可以通过@@非法的手段@@,未加授权地获取被保护的数据@@对象@@@@,并@@将其私有化@@。数据@@拼图@@会给数据@@自治@@开放@@带来实质危害@@,数据@@的使用期限@@、使用目的等@@权属将难以受到保护@@。而且数据@@使用者可以将通过@@数据@@拼图@@获得的数据@@再次@@传播给其他的未被授权的数据@@使用者@@,进一步造成对原数据@@权属的二次@@侵犯@@。首先需要构造数据@@使用行@@为的形式化描述@@,通过@@追踪分析数据@@痕迹@@,动态构造数据@@覆盖模型@@,实时检测与量化数据@@拼图@@的危害性@@,建立可行@@的防范以及预警体系@@,有效预防与阻止数据@@拼图@@对数据@@权属的侵害@@。

  5.4 面向数据@@自治@@开放@@的数据@@资源管理系统@@

  数据@@资源以数据@@盒@@的形式存放在@@数据@@站中@@,每个数据@@站配备一套数据@@资源管理系统@@,用以管理该站下的所有@@数据@@资源@@(数据@@盒@@)。通过@@数据@@盒@@虚拟化@@、应用装载等@@功能供外部软件使用数据@@@@。与传统的数据@@库管理系统@@@@(database management system,DBMS)相比@@,数据@@资源管理系统承担的数据@@管理不涉及事务处理@@,只有数据@@使用@@,但也不同于数据@@仓库@@,数据@@仓库用于数据@@开发利用而不是数据@@开放@@@@。涉及的关键技术包括以下几个方面@@。

  (1)数据@@站组成与管理技术@@

  数据@@资源装载在@@数据@@盒@@中@@,数据@@盒@@储备在@@数据@@站里@@,因此@@需要研究数据@@站的逻辑构成要素@@、物理形态@@、数据@@盒@@的组织方法与管理技术@@,以便能够快速定位某个数据@@资源的位置@@,包括通过@@数据@@资源元数据@@查找数据@@在@@哪些数据@@盒@@中@@,并@@从@@大量数据@@盒@@中快速定位到某一个数据@@盒@@@@,为用户提供数据@@盒@@@@,展示数据@@盒@@的内容或数据@@资源样本@@@@。此外@@,还需要研究数据@@盒@@的新增@@、更新@@、冻结@@(即不再对外提供使用@@)以及浏览@@、查询@@、校核等@@管理技术@@。

  (2)数据@@盒@@虚拟化方法@@

  数据@@盒@@的虚拟化是结合硬件虚拟化技术@@,为每个需要访问特定数据@@盒@@的外部软件提供一个操作托盘@@。各虚拟数据@@盒@@相互隔离@@,且对某个虚拟数据@@盒@@的更改和删除不会影响其他同源虚拟数据@@盒@@或原始的数据@@盒@@@@。对于数据@@资源管理系统而言@@@@,数据@@单元虚拟化技术直接关系到数据@@使用的@@安全性@@,即保护数据@@或隐私不会泄露@@,保障数据@@自治@@公开@@以及保证外部软件使用数据@@规范受控@@。需要重点突破不在@@物理存储上完全制作一份数据@@的副本@@的基础上@@,实现虚拟化的虚拟数据@@单元相互隔离@@、可用@@,且控制内存等@@资源的使用率@@,使整个数据@@站能够支撑大量外部软件@@,同时使用虚拟数据@@单元@@;如何在@@不进行@@数据@@盒@@物理复制的前提下提供虚拟化的数据@@盒@@@@,研究虚拟数据@@盒@@缓存技术@@、虚拟数据@@盒@@变动维护@@(更新@@、撤销等@@@@)和长操作策略等@@@@。

  (3)NoSQL/Open运行@@库和@@SDK

  设计@@NoSQL/Open(NoSQL open data language)语法规则@@,开发适用于常用操作系统的@@NoSQL/Open运行@@环境和运行@@库@@,支持主流编程语言@@的软件开发工具包@@(software development kit, SDK),为外部软件实现与数据@@资源管理系统的互操作提供对数据@@站内虚拟数据@@盒@@的访问@@。通过@@NoSQL/Open,可以方便地使用数据@@盒@@@@。

  (4)系统承载力与数据@@站承载力模型数据@@资源管理系统和数据@@站也不可能@@管理无限多的数据@@@@,提供无限的@@数据@@访问能力@@。因此@@需要给出数据@@资源管理系统承载力模型@@,用以描述单个数据@@资源管理系统的极限能力@@、单个数据@@站所能承载的服务能力极限@@、与硬件的关系@@、数据@@站的扩展性与承载能力的关系等@@@@。

  6  结束@@语@@

  面对数据@@开放@@共享的战略需求@@,传统的面向数据@@自治@@封闭@@的数据@@管理技术无法适应数据@@开放@@的需求@@,急需开发面向数据@@开放@@的数据@@资源管理技术@@。本@@文提出了@@“数据@@自治@@开放@@”这一新型的数据@@资源开放模式@@,数据@@由数据@@拥有者在@@法律框架下自行@@确权和管理@@、自行@@制定开放规则@@(即数据@@自治@@@@),然后将数据@@开放@@给使用者@@,使用者没有数据@@治理@@权@@。数据@@资源稀缺性不丧失的开放才是可持续的开放@@,就像保护知识产权才能保护创新@@,才能可持续@@。数据@@自治@@开放@@模式@@有望成为数据@@开放@@的基本@@模式@@,是政府@@数据@@开放@@共享@@、企业及个人数据@@交易@@、国家@@数据@@主权实现的一种可行@@方法@@。

  朱扬勇@@1,2, 熊贇@@1,2, 廖志成@@1,2, 叶雅珍@@1,2,3

  1. 复旦大学计算机科学技术学院@@,上海@@ 201203

  2. 上海@@市数据@@科学重点实验室@@,上海@@ 201203

  3. 东华大学计算机科学与技术学院@@,上海@@ 201620

作者简介@@

  朱扬勇@@(1963-),男@@,博士@@,复旦大学计算机科学技术学院@@教授@@、学术委员会主任@@,上海@@市数据@@科学重点实验室@@主任@@。1989年@@起从@@事数据@@领域研究@@,2008年@@提出数据@@资源保护和利用@@,2009年@@发表了数据@@科学论文@@“Data explosion,data nature and dataology”,并@@出版专着@@《数据@@学@@》,对数据@@科学进行@@了系统探讨和描述@@。2010年@@创办了@@“International Workshop on Dataology and Data Science”,2014年@@和@@石勇@@、张成奇共同创办了@@“International Conference on Data Science”。担任第@@462次@@香山科学会议@@“数据@@科学与大数据@@@@的理论问题探索@@”的执行@@主席@@、“大数据@@@@技术与应用丛书@@”主编@@。目前主要研究方向为数据@@科学@@、大数据@@@@。

  熊贇@@(1980-),女@@,博士@@,复旦大学计算机科学技术学院@@教授@@。2004年@@起从@@事数据@@领域方面的研究工作@@,作为项@@目负责人主持国家@@自然科学基金@@、上海@@市科学技术委员会发展基金以及企业合作项@@目@@。相关研究成果在@@国际权威期刊和会议发表论文@@@@40余篇@@@@、出版着作@@3本@@。目前主要研究方向为数据@@科学@@和大数据@@@@@@@@。

  廖志成@@(1974-),男@@,复旦大学计算机科学技术学院@@高级工程师@@。1997年@@开始从@@事信息安全领域研究@@,2011年@@起从@@事数据@@领域方面的研究工作@@。作为主要人员参加了@@20余项@@国家@@自然科学基金项@@目@@、国家@@“863”计划项@@目@@、国家@@教育委员会项@@目@@、上海@@市科学技术委员会项@@目@@、上海@@市教育委员会项@@目以及企业合作项@@目@@。先后获得过中国高校科学技术奖二等@@奖@@1项@@、上海@@市科技进步奖二等@@奖@@2项@@、中国智能交通协会科学技术奖二等@@奖@@1项@@。发表论文@@9篇@@,出版着作@@7本@@。目前主要研究方向为数据@@科学@@、大数据@@@@、数据@@挖掘@@。

  叶雅珍@@(1985-),女@@,复旦大学计算机科学技术学院@@助理研究员@@,东华大学博士@@生@@,主要研究方向为数据@@科学和大数据@@@@@@。

责任编辑@@:李泰民@@