内容提要@@:【目的@@@@/意义@@】溯源@@元数据@@@@@@是@@评估开放数据@@质量@@和@@可信度的@@基础@@。将溯源@@元数据@@@@@@标准规范@@和@@溯源@@本体@@应用到@@我国政府@@开放数据@@的@@门户网站@@,有望解决现阶段存在@@的@@溯源@@语义不明晰和@@互操作水平低@@等@@问题@@@@。【方法@@/过程@@】总结国际上@@开放数据@@的@@溯源@@发展状况和@@最佳实践@@@@,提炼出@@W3C DCAT标准规范中@@的@@溯源@@元数据@@@@@@@@;建立各省级地方政府@@元数据@@@@到@@标准词汇@@表@@@@的@@映射@@,对数据@@发布活动的@@@@“历史数据@@@@”和@@“多种数据@@格式@@@@”两种典型情况进行溯源@@表@@达@@,给出机器可读的@@@@PROV-JSON格式的@@溯源@@元数据@@@@@@记录实例@@。【结果@@/结论@@】研究表@@明@@,我国地方政府@@开放数据@@的@@元数据@@@@中@@含有丰富的@@溯源@@信息@@@@,但其总体质量还不高@@。引进@@DCAT/DC元数据@@@@和@@@@PROV本体@@,可以提升溯源@@记录的@@规范程度和@@互操作水平@@,有利于@@溯源@@信息@@的@@大范围应用@@。

  引言@@

  起始于@@@@2009年@@的@@全球开放政府@@数据@@@@运动发展迅速@@,正逐渐从原始数据@@的@@开放授权向提高数据@@质量@@@@、可用性和@@可信度等@@方向转化@@。到@@2017年@@1月@@,开放政府@@合作组织@@(Open Government Partnership,OGP)的@@成员国已从@@2011年@@成立之初的@@@@8个@@发展到@@@@75个@@。其中@@@@,美国@@、英国@@、加拿大@@、巴西@@、意大利@@、挪威@@、希腊@@、罗马尼亚@@、捷克@@、格鲁吉亚@@、乌克兰@@、亚美尼亚@@、爱沙尼亚@@、立陶宛@@、马其顿@@、阿尔巴尼亚@@、保加利亚@@、南非@@、智利@@、巴拉圭@@、乌拉圭@@、约旦@@、印度尼西亚和@@菲律宾等@@@@24个@@国家陆续提交了@@“第三轮国家行动计划@@”(Third National Action Plan,NAP)。美国@@在@@第三轮@@NAP(2015—2016)中@@承诺优化开放数据@@生态系统@@,进一步完善公共反馈工具和@@开发@@“国家开放数据@@指南@@”;英国@@在@@第一轮@@NAP(2011—2013)和@@第二轮@@NAP(2013—2015)的@@基础上@@@@,2016-2018行动计划将加大对开放数据@@@@“国家信息基础设施@@@@”(National Information Infrastructure,NⅡ)的@@投入@@,及采取措施提高数据@@质量@@和@@可信度等@@@@;加拿大@@第三轮@@NAP(2016—2018)承诺政府@@数据@@@@@@“默认是@@开放的@@@@”,并持续提高开放数据@@的@@质量和@@可视化水平@@;南非@@第三轮@@NAP(2016—2017)将升级开放数据@@门户网站@@,解决数据@@分散和@@标准不一致等@@问题@@@@。

  可见@@,随着开放数据@@的@@发展@@,深层次@@的@@问题@@和@@挑战得到@@关注@@@@。领导开放数据@@的@@英国@@内阁办公室下的@@@@“政府@@数字服务@@”(Government Digital Service,GDS)工作组总结了未来开放数据@@面临的@@四个@@挑战@@:①完善开放政府@@许可@@OGL(Open Government Licence),使其有更广泛的@@适应性@@,以改善开放数据@@的@@接受程度@@;②真正实现政府@@数据@@@@@@“默认是@@开放的@@@@”;③提高公众对开放数据@@的@@信任@@程度@@;④将开放数据@@提升到@@@@“基础设施@@”(如@@同@@公路@@、铁路和@@电网等@@@@)的@@高度进行建设@@@@。为了评估数据@@质量@@和@@建立对数据@@的@@信任@@@@,就需要@@“溯源@@信息@@”。溯源@@元数据@@@@@@作为一类@@重要的@@元数据@@@@@@,在@@开放数据@@中@@的@@作用和@@价值日@@益显现@@。

  目前@@,我国学者已经开展基于@@@@溯源@@的@@群体协作信任@@模型@@、个@@人数据@@隐私安全管理和@@数字资源长期保存系统等@@领域的@@研究@@,但在@@开放数据@@领域@@还没有较为深入的@@研究成果@@。本文首先@@归纳国际上@@开放数据@@的@@溯源@@发展概况@@,分析@@W3C DCAT标准规范中@@的@@溯源@@元数据@@@@@@@@;然后以我国地方政府@@开放数据@@为背景@@,探讨溯源@@元数据@@@@@@的@@应用方案@@,以解决现阶段溯源@@语义表@@达不明晰@@和@@互操作水平低@@等@@问题@@@@。

  1 开放政府@@数据@@@@的@@溯源@@发展概述@@

  W3C溯源@@孵化组@@(Provenance Incubator Group)将一个@@资源的@@@@“溯源@@”定义为@@:一组信息@@,用以记录资源的@@产生@@、交付等@@历史过程@@@@,并描述@@其中@@@@涉及的@@实体@@,如@@采集者@@、发布机构@@等@@@@;溯源@@是@@对@@资源的@@真实性@@、可信度和@@可重复性进行评估的@@重要基础@@。在@@开放数据@@领域@@,W3C Web数据@@最佳实践@@@@(Data on the Web Best Practices,DWBP)工作组将@@“数据@@溯源@@@@”(data provenance)定义为@@:一组元数据@@@@@@,帮助数据@@的@@提供者将数据@@的@@详细历史信息传递给用户@@。

  2010年@@2月@@,开放政府@@数据@@@@的@@起步期@@,参与@@英国@@数据@@门户@@data.gov.uk建设@@,来自国家档案馆的@@@@John Sheridan就曾说过@@:“溯源@@是@@将数据@@发布到@@@@data.gov.uk要面对的@@关键问题@@之一@@”。此后@@,欧盟@@“开放数据@@监测器@@”(Open Data Monitor,ODM)项目的@@@@成果验证了这一观点@@@@。

  到@@2013年@@,开放政府@@数据@@@@无论深度和@@广度都有了长足的@@发展@@。在@@世界最大的@@科技计划之一的@@@@FP7(欧盟@@第七框架计划@@)资助下@@,实施两年@@@@(2013年@@11月@@—2015年@@11月@@)的@@ODM项目采用创新技术@@对欧洲@@30多个@@国家的@@@@173个@@数据@@门户进行监测@@、分析@@和@@评价@@,并将结果@@可视化展示在@@网站@@www.opendatamonitor.eu上@@。项目于@@@@2015年@@3月@@完成的@@@@《开放数据@@利益相关者需求报告@@》通过对商业用户的@@调查发现@@,影响用户决策使用开放数据@@的@@因素有@@8个@@:数据@@的@@准确性@@、开放许可@@、访问的@@便捷性@@、时效性@@、溯源@@、数据@@格式@@、说明文档和@@技术@@支持@@@@。按照重要性排名@@,“溯源@@”处于@@时效性@@和@@开放许可@@之后位列第三位@@。项目对@@数据@@门户的@@四个@@方面进行监测@@,即@@数据@@集@@的@@开放许可@@@@、机器可读性@@、可用性和@@元数据@@@@的@@完整性@@。元数据@@@@的@@完整性包含的@@元数据@@@@项有@@:开放许可@@、作者@@、机构@@、发布日@@期和@@更新日@@期@@,都是@@与@@溯源@@相关的@@@@信息@@:How(开放许可@@)、Who(作者@@和@@机构@@@@)和@@When(发布日@@期和@@更新日@@期@@)。

  ODM的@@子项目@@,英国@@开放数据@@研究所@@(Open Data Institute,ODI)开发和@@维护的@@在@@线工具@@“开放数据@@证书@@”(certificates.theodi.org),则是@@通过收集每个@@数据@@集@@的@@@@DCAT(Data Catalog Vocabulary)元数据@@@@评价其质量和@@可信度@@,评价结果@@从低到@@高分为四类@@证书@@:铜牌@@、银牌@@、金牌和@@白金证书@@@@。项目考察开放数据@@集@@的@@法律@@、技术@@、社会和@@实践四个@@方面的@@@@23个@@指标@@,“机器可读的@@溯源@@信息@@@@”是@@技术@@方面的@@@@6个@@指标@@之一@@,见表@@@@1。级别越高要求达到@@的@@指标越多@@,“溯源@@”是@@最高级别的@@@@“白金证书@@”所必需的@@@@。

  2013年@@11月@@1日@@颁布的@@@@《G8开放数据@@宪章英国@@国家行动计划@@》规定@@NⅡ中@@的@@开放数据@@集@@要经历@@“开放数据@@证书@@”的@@评估过程@@@@。美国@@和@@澳大利亚@@等@@国的@@开放数据@@门户网站也采纳了这项评估@@,用以向用户推荐数据@@集@@@@。表@@2给出了来自三个@@国家的@@@@5个@@数据@@集@@的@@例子@@,它们均是@@银牌@@证书@@,其中@@@@4个@@有机器可读的@@溯源@@信息@@@@@@,1个@@没有@@。

  与@@ODI的@@工作类@@似@@,法国的@@开放质量标准项目@@Opquast推荐的@@@@“开放数据@@检查表@@@@”中@@包含@@72个@@指标@@,其中@@@@两个@@是@@溯源@@@@(Historique)相关的@@@@:①每个@@数据@@集@@都应有一个@@记录变化的@@日@@志@@;②可以访问不同@@版本的@@数据@@集@@@@。维也纳大学的@@@@“开放数据@@网站监测@@”(Open Data Portal Watch)项目对@@260个@@网站的@@元数据@@@@质量@@进行评价@@,其评价体系包含五个@@维度下的@@@@18个@@指标@@,涉及的@@溯源@@元数据@@@@@@有@@:dct:issued,dct:modifed,dct:publisher、dcat:contactPoint和@@dcat:accessURL等@@。

  2013年@@12月@@11日@@,W3C发起了新的@@数据@@标准行动计划@@(Data Activity),致力于@@将@@Web的@@数据@@互操作能力推向一个@@新的@@水平@@。目前@@,该标准计划包括@@六个@@工作组@@,Web数据@@最佳实践@@@@(DWBP)工作组是@@最早成立的@@工作组之一@@,其任务是@@@@:①开发开放数据@@生态系统@@,在@@开发者和@@数据@@发布者之间建立更好的@@交流沟通平台@@@@;②为数据@@发布者提供指南@@,指导他们提升数据@@管理过程@@中@@的@@一致性@@,以提升数据@@的@@可重用性@@;③采用各种技术@@建立开发者对数据@@的@@信任@@度@@,提升数据@@应用创新的@@巨大空间@@@@。

  2016年@@8月@@30日@@,DWBP工作组的@@主要成果@@——在@@Web中@@发布数据@@的@@最佳实践@@@@,成为@@W3C的@@候选标准@@[15]。工作组为开放数据@@推荐了@@35个@@最佳实践@@@@(Best Practice,BP),其中@@@@19个@@有助于@@提升数据@@的@@可信度@@,而@@与@@溯源@@相关的@@@@最佳实践@@有@@8个@@,见表@@@@3。

  溯源@@记录是@@元数据@@@@的@@子集@@。DWBP工作组建议@@采用标准化的@@共享词汇@@表@@@@@@(即@@本体@@@@)表@@达数据@@和@@元数据@@@@@@(Best Practice 15:Reuse vocabularies,preferably standardized ones),以避免含义的@@模糊性并提高发布者和@@消费者之间的@@互操作性和@@一致性@@。

  2 开放数据@@的@@溯源@@元数据@@@@@@@@

  2014年@@1月@@16日@@,W3C政府@@关联数据@@工作组@@(Government Linked Data Working Group)发布正式推荐标准@@DCAT(Data Catalog Vocabulary)。因其支持数据@@目录@@之间的@@互操作性而@@成为@@各国政府@@普遍采用的@@开放数据@@元数据@@@@标准规范@@@@,如@@美国@@@@、英国@@、澳大利亚@@、爱尔兰和@@欧盟@@等@@@@@@。DCAT词汇@@表@@@@定义了@@@@7个@@类@@和@@@@17个@@属性@@@@,并复用了都柏林核心词汇@@表@@@@@@(Dublin Core Vocabulary)、FOAF本体@@和@@@@SKOS本体@@。同@@都伯林元数据@@@@一样@@,DCAT是@@通用意义@@下的@@元数据@@@@@@,虽然包含了溯源@@相关的@@@@数据@@项@@,但没有明晰的@@溯源@@语义定义@@。

  欧盟@@于@@@@2015年@@10月@@颁布的@@开放数据@@元数据@@@@方案@@DCAT-AP vl.1(DCAT Application Profile,DCAT应用纲要@@)建议@@DCAT与@@W3C PROV本体@@(PROV-O)相结合表@@达开放数据@@的@@溯源@@信息@@@@,以实现系统间溯源@@信息@@的@@交换和@@互操作@@。

  PROV-O是@@W3C溯源@@工作组@@(Provenance Working Group)在@@溯源@@数据@@模型@@(PROV Data Model,PROV-DM)基础上@@开发的@@@@OWL本体@@,已于@@@@2013年@@4月@@30日@@成为@@正式推荐标准@@。这是@@@@Web溯源@@的@@关键性里程碑事件@@,使得溯源@@信息@@的@@大范围发布和@@交换成为@@可能@@。PROV-O定义了@@50个@@类@@和@@@@83个@@属性@@@@,已广泛应用到@@@@Web应用和@@服务@@、开放数据@@等@@领域@@,如@@OECE关联开放数据@@@@(http://oecd.270a.info/.html)和@@英国@@南安普顿大学开放数据@@@@(http://data.southampton.ac.uk/)等@@。

  下面结合@@PROV-O,分析@@DCAT所包含的@@溯源@@元数据@@@@@@及其语义@@。

  2.1 描述@@对象@@ 根据@@DCAT概念模型@@,一个@@数据@@目录@@门户网站的@@结构@@如@@图@@@@1所示@@,其中@@@@的@@三个@@实体分别对应类@@@@dcat:Catalog,dcat:Dataset和@@dcat:Distribution(前缀@@dcat代表@@命名空间@@@@http://www.w3.org/ns/dcat#)。这三个@@实体都是@@溯源@@元数据@@@@@@的@@描述@@对象@@@@,因此都是@@实体类@@@@(prov:Entity)的@@子类@@@@(前缀@@prov代表@@命名空间@@@@http://www.w3.org/ns/prov#),其语义关系见表@@@@@@4。

  图@@1 数据@@目录@@门户网站的@@结构@@——数据@@目录@@、数据@@集@@和@@数据@@资源@@@@

  结合我国地方政府@@开放数据@@门户网站的@@实际情况@@,考虑到@@适当的@@@@“溯源@@粒度@@”,本文重点关注@@@@“数据@@集@@”和@@“数据@@资源@@”这两个@@溯源@@对象@@。

  2.2 描述@@数据@@集@@的@@溯源@@元数据@@@@@@@@ 在@@DCAT中@@,描述@@dcat:Dataset类@@的@@元数据@@@@项有@@15个@@,其中@@@@10个@@元素@@来自都柏林核心词汇@@表@@@@@@。这些元素@@可分为三类@@@@:9个@@描述@@型元数据@@@@@@(dct:title,dct:description,dct:language,dct:accrualPeriodicity,dct:identifier,dct:spatial,dct:temporal,dcat:theme,dcat:keyword),1个@@结构型元数据@@@@@@(dcat:distribution)和@@5个@@溯源@@元数据@@@@@@@@,见表@@@@5。表@@5的@@第一列是@@溯源@@类@@别@@,第二列是@@@@DCAT元素@@,第四列是@@@@PROV-O词汇@@,第三列是@@两者的@@语义关系@@。

  2.3 描述@@数据@@资源@@的@@元数据@@@@@@ 描述@@dcat:Distribution类@@的@@元数据@@@@项有@@11个@@,其中@@@@7个@@元素@@来自都柏林核心词汇@@表@@@@@@。这些元素@@可分为两类@@@@:5个@@描述@@型元数据@@@@@@(dct:title,dct:description,dct:format,dcat:byteSize,dcat:mediaType)和@@6个@@溯源@@元数据@@@@@@@@,见表@@@@6。

  综合表@@@@5和@@表@@@@6,DCAT中@@的@@溯源@@信息@@涵盖四个@@方面@@:When、Who、Where和@@How。同@@DC中@@的@@溯源@@信息@@相比@@[8],多了@@Where方面的@@三个@@元数据@@@@项@@,满足了开放数据@@@@“到@@哪里找到@@数据@@@@”的@@需求@@。

  3 在@@我国地方政府@@开放数据@@中@@的@@应用@@

  开放数据@@是@@我国各级政府@@大数据@@战略的@@基本内容@@。2015年@@9月@@5日@@,国务院印发@@《促进大数据@@发展行动纲要@@》(国发@@[2015]50号@@),提出未来@@5~10年@@我国大数据@@发展和@@应用的@@目标@@,包括@@2018年@@底前建成国家政府@@数据@@@@统一开放平台@@@@[31]。2016年@@,北京@@、上@@海@@、广东@@、江苏@@、福建@@、浙江@@、山东和@@江西等@@省级政府@@相继出台政策文件贯彻落实国家的@@行动纲要@@。“建设@@政府@@数据@@@@开放@@平台@@@@,建立标准规范体系@@(如@@分类@@@@目录@@、访问接口@@、数据@@质量@@、安全保密等@@@@)”等@@内容是@@开放政府@@数据@@@@建设@@的@@重点@@,而@@保障数据@@质量@@@@、可追溯和@@安全性等@@更是@@关注@@的@@焦点@@。例如@@@@,于@@2016年@@6月@@18日@@发布的@@@@《福建@@省促进大数据@@发展实施方案@@(2016~2020年@@)》的@@主要任务之一就是@@@@:“建设@@全省统一的@@政府@@数据@@@@开放@@平台@@@@,向公众提供数据@@产品查询@@、数据@@下载@@、应用接口等@@服务@@。实施应用身份统一认证@@,实现开放数据@@可追溯@@。利用统一开放平台@@汇聚和@@发布政府@@数据@@@@@@,保障数据@@权威性和@@安全性@@……”

  目前@@,我国已建有十几个@@地方政府@@开放数据@@的@@门户网站@@,均通过元数据@@@@对资源进行描述@@@@。但各地的@@元数据@@@@数量@@@@、类@@型都不尽相同@@@@,普遍缺乏规范的@@元数据@@@@标准体系@@,造成用户难以了解数据@@的@@各项信息@@,包括@@溯源@@信息@@@@。

  3.1 现有的@@溯源@@元数据@@@@@@@@ 首先@@,通过对代表@@性的@@@@5个@@省级网站@@(见表@@@@7)的@@调研@@,依据@@DCAT和@@DC元数据@@@@标准规范@@,提炼和@@总结出现有的@@溯源@@元数据@@@@@@@@@@,见表@@@@8。其他元数据@@@@项主要是@@描述@@型的@@@@,如@@资源名称@@、摘要@@、分类@@@@、关键字@@、文件名和@@文件大小等@@@@,未列在@@表@@@@8中@@。

  需要指出的@@是@@@@,在@@元数据@@@@的@@使用上@@各地@@(重庆除外@@)并没有明显区分@@“数据@@集@@”和@@“数据@@资源@@”。通过分析@@@@,我们将表@@@@8中@@的@@前@@7个@@元数据@@@@归为描述@@@@“数据@@集@@”(dcat:Dataset)、而@@后@@6个@@元数据@@@@是@@描述@@@@“数据@@资源@@”(dcat:Distribution)的@@。

  从表@@@@8可见@@我国地方政府@@在@@开放数据@@的@@溯源@@元数据@@@@@@@@上@@呈现如@@下特点或不足@@:①各种溯源@@信息@@是@@元数据@@@@的@@核心内容@@,这与@@国际趋势是@@一致的@@@@;②除重庆外@@,普遍缺失@@“开放许可@@”(dct:license)元数据@@@@,这与@@我国这方面的@@法律缺失有关@@;③元数据@@@@的@@标准化@@、规范化程度不高@@,与@@DCAT规范和@@先进水平@@(如@@美国@@@@、英国@@、欧盟@@等@@@@)差距较大@@;④各地的@@元数据@@@@在@@名称@@、数量@@、取值类@@型上@@差异很大@@,互操作水平低@@,不利于@@各方数据@@门户聚合到@@统一平台@@@@,也不利于@@应用程序跨平台@@读取溯源@@信息@@@@;⑤没有采用溯源@@本体@@@@,语义表@@达不够清晰和@@完善@@。

  通过采用@@DCAT和@@DC元数据@@@@标准及@@PROV-O词汇@@表@@@@,可以克服上@@述@@③、④和@@⑤等@@不足@@。下面以@@数据@@发布活动中@@的@@两种典型情形为例@@,给出具体的@@方案@@。

  3.2 历史数据@@@@的@@溯源@@表@@达@@ 北京@@和@@佛山市南海区@@(data.nanhai.gov.cn)提供了@@“历史数据@@@@”元数据@@@@,重庆通过@@“活动流@@”记录数据@@集@@的@@更新情况@@,这些做法都符合@@W3C的@@与@@溯源@@相关的@@@@最佳实践@@@@BP8(见表@@@@3)。而@@为了显式和@@规范表@@达@@“当前数据@@@@”与@@“历史数据@@@@”之间的@@溯源@@关系@@,则要引进@@@@DC词汇@@dct:isVersionOf和@@PROV-O属性@@prov:wasRevisionOf,后者有着更加明晰的@@溯源@@语义@@。

  例如@@@@,北京@@市@@“公益性图@@书馆@@”数据@@集@@(见表@@@@4)的@@最新发布日@@期是@@@@2015-12-25,历史数据@@@@的@@发布日@@期是@@@@2013-12-19,它们之间的@@溯源@@关系@@可以通过下面的@@@@Turtle记录表@@达@@。

  @prefix:<http://www.example.org/>.

  @prefix prov:<http://www.w3.org/ns/prov#>.

  @prefixpav:<http://purl.org/pav/>.

  @prefixdcat:<http://www.w3.org/ns/dcat#>.

  @prefixdct:<http://purl.org/dc/terms/>.

  @prefix owl:<http://www.w3.org/2002/07/owl#>.

  @prefix xsd:<http://www.w3.org/2001/XMLSchema#>.

  :library-2015-12-25 a dcat:Dataset; a prov:Entity;

  dct:title"公益性图@@书馆@@";

  dcat:landingPage

  <http://www.bjdata.gov.cn/zyml/azt/wtyy/whcs/whgz/3077.htm>:

  dct:issued "2015-12-25"^^xsd:dateTime;

  prov:generatedAtTime"2015-12-25"^^xsd:dateTime;

  owl:versionInfo"2.0"; pav:version"2.0";

  dct:isVersionOf:library-2013-12-19;

  prov:wasRevisionOf:library-2013-12-19.

  :library-2013-12-19 a dcat:Dataset; a prov:Entity;

  dct:title"公益性图@@书馆@@";dct:issued "2013-12-19"^^xsd:dateTime;

  prov:generatedAtTime"2013-12-19"^^xsd:dateTime;

  owl:versionInfo"1.0"; pav:version"1.0";

  dct:hasVersion:library-2015-12-25;

  prov:hadRevision:library-2015-12-25.

  其中@@@@,pav代表@@另一个@@轻量级的@@溯源@@本体@@@@(http://pav-ontology.github.io/pav/); dct:hasVersion是@@dct:isVersionOf的@@逆属性@@@@,prov:hadRevision是@@prov:wasRevisionOf的@@逆属性@@@@。

  在@@这段元数据@@@@记录中@@@@,两个@@版本的@@@@“公益性图@@书馆@@”数据@@集@@都是@@@@PROV-O类@@prov:Entity的@@实例@@(参见@@表@@@@@@4),它们的@@产生时间@@(prov:generatedAtTime)和@@演化情况@@(prov:wasRevisionOf)得到@@了描述@@@@。

  3.3 多种数据@@格式@@@@的@@溯源@@表@@达@@ 为了满足不同@@用户的@@需求@@和@@降低使用成本@@,W3C最佳实践@@BP14(见表@@@@3)推荐以多种格式发布同@@一数据@@资源@@@@,而@@且至少一种是@@机器可读的@@格式@@。重庆为一个@@数据@@资源@@提供了@@两种格式的@@文件@@:CSV和@@XLS,广州市@@(datagz.gov.cn)有四种格式@@:XML、JSON、CSV和@@XLS,佛山市南海区提供了@@五种格式@@:XML、JSON、CSV、XLS和@@TXT。

  不同@@于@@上@@小节@@的@@历史版本的@@变化意味着实质性内容的@@改变@@,不同@@格式的@@数据@@内容应是@@一致的@@@@。为表@@达不同@@格式的@@文件间的@@溯源@@关系@@,应引进@@@@dct:isFormatOf(或逆属性@@@@dct:hasFormat),prov:wasDerivedFrom(或逆属性@@@@prov:hadDerivation)和@@prov:alternateOf。

  例如@@@@,“2010—2014年@@重庆市公共图@@书馆相关信息@@”数据@@集@@(http://cqckan.chinacloudapp.cn/dataset/201602231353)提供了@@两种格式的@@数据@@文件@@,它们之间的@@溯源@@关系@@由下面的@@元数据@@@@记录表@@达@@@@。

  :library-2016-02-24.csv a dcat:Distribution;a prov:Entity;

  dcat:downloadURL<http://cqckan.chinacloudapp.cn/zh_CN/dataset/

  992bf4f0-809d-4a35-822b-90748aaf9bb3/resource/

  c9068e2d-2928-403c-b36a-t9a1d2b5a692/download/2010-2014.csv>:

  dct:title"2010—2014年@@重庆市公共图@@书馆相关信息@@",

  dcat:mediaType"text/csv; charset=GB2312";

  dct:isFormatOf:library-2016-02-24.xlsx;

  prov:wasDerivedFrom:library-2016-02-24.xlsx;

  prov:alternateOf:library-2016-02-24.xlsx.

  :library-2016-02-24.xlsx a dcat:Distribution;a prov:Entity;

  dcat:downloadURL <http://cqckan.chinacloudapp.cn/zh_CN/dataset/

  992bf4f0-809d-4a35-822b-90748aaf9bb3/resource/

  ce6525f1-6bb2-4076-951f-f80fde5896f2/download/2010-2014.xlsx>:

  dct:title"2010—2014年@@重庆市公共图@@书馆相关信息@@";

  dcat:mediaType "application/vnd.ms-excel";

  dct:hasFormat:library-2016-02-24.csv;

  当用户的@@应用程序读取并解析这段代码后@@,就可以依据@@溯源@@记录从当前格式的@@文件导航@@到@@其他格式的@@文件@@,实现客户端驱动的@@@@“内容协商@@”。

  4 基于@@@@JSON的@@溯源@@元数据@@@@@@实例@@

  W3C DWBP工作组推荐以机器可读的@@@@、标准化的@@格式编码溯源@@记录@@(BP12),如@@CSV、XML、HDF5、JSON、RDF/XML、JSON-LD和@@Turtle等@@格式@@。合适的@@元数据@@@@格式@@是@@实现元数据@@@@@@“记录级@@”互操作的@@基础@@,是@@对@@DCAT和@@PROV-O建立起的@@@@“模式级@@”互操作的@@补充@@。目前@@,JSON是@@DCAT和@@PROV-O均采纳的@@一种编码方式@@[36,37],也是@@美国@@@@、英国@@等@@普遍采用的@@元数据@@@@文件格式@@。

  我国各地的@@元数据@@@@格式@@还是@@面向人的@@阅读的@@@@HTML网页或@@TXT文本@@,不是@@机器可读的@@@@,要比描述@@的@@数据@@本身的@@开放程度@@(即@@机器可读@@)低一个@@等@@级@@。而@@DWBP工作组总结的@@各国最佳实践@@是@@将@@“元数据@@@@”和@@描述@@的@@@@“数据@@”视为同@@等@@重要@@,应采用一样的@@开放标准和@@格式@@。

  下面以@@PROV-JSON格式给出@@“2010—2014年@@重庆市公共图@@书馆相关信息@@”数据@@集@@(参见@@3.3节@@)的@@较为完整的@@元数据@@@@记录@@。

  {"prefix":{"ex":"http://cqckan.chinacloudapp.cn/dataset/",

  "dct":"http://purl.org/dc/terms/",

  "dcat":"http://www.w3.org/ns/dcat#"},

  "entity":{

  "ex:201602231353":{

  "prov:type":"dcat:Dataset",

  "dct:identifier":"201602231353",

  "dct:title":"2010—2014年@@重庆市公共图@@书馆相关信息@@",

  "dcat:landingPage":“http://cqckan.chinacloudapp.cn/dataset/201602231353”,

  "dct:issued":"2016-02-23","dct:modified":"2016-02-23",

  "dcat:keyword":["教育@@","文化@@"],

  "dcat:distribution":

  ["ex:201602231353/resource/c9068e2d-2928-403c-b36a-f9a1d2b5a692",

  "ex:201602231353/resource/ce6525f1-6bb2-4076-951f-f80fde5896f2"]},

  "ex:201602231353/resource/c9068e2d-2928-403c-b36af9a1d2b5a692":{

  "prov:type":"dcat:Distribution",

  "dct:title":"2010-2014.csv","dct:forrnat":"text/csv",

  "dcat:downloadURL":"http://cqckan.chinacloudapp.cn/……/2010-2014.csv",

  "dct:license":"http://opendefinition.org/licenses/cc-by/",

  "prov:alternateOf":

  "ex:201602231353/resource/ce6525f1-6bb2-4076-951f-f80fde5896f2",

  "prov:wasDerivedFrom":

  "ex:201602231353/resource/ce6525f1-6bb2-4076-951f-f80fde5896f2"},

  "ex:201602231353/resource/ce6525f1-6bb2-4076-951f-f80fde5896f2":{

  "prov:type":"dcat:Distribution",

  "dct:title":"2010-2014.xlsx","dct:format":"application/vnd.ms-excel",

  "dcat:downloadURL":"http://cqckan.chinacloudapp.cn/……/2010-2014.xlsx",

  "dct:license":"http://opendefinition.org/licenses/cc-by/",

  "prov:hadDerivation":

  "ex:201602231353/resource/c9068e2d-2928-403c-b36a-f9a1d2b5a692"}

  其中@@@@前缀@@@@prov默认指向命名空间@@@@http://www.w3.org/ns/prov#。

  这段代码中@@共有三个@@溯源@@实体@@(entity,即@@prov:Entity):数据@@集@@(ex:201602231353)和@@它所包含的@@两个@@数据@@文件@@,元数据@@@@值全部来自实际值@@。

  5 结论@@

  开放政府@@数据@@@@被社会各界关注@@@@、接纳和@@利用的@@前提之一是@@有效解决@@“信任@@”问题@@,这离不开具有互操作性的@@高质量的@@溯源@@元数据@@@@@@的@@支持@@。国际上@@开放数据@@实践的@@发展趋势是@@@@“溯源@@信息@@”已经同@@被描述@@的@@数据@@本身一样重要@@。

  本文的@@分析@@表@@明@@,我国地方政府@@开放数据@@实际采用的@@元数据@@@@中@@含有较为丰富的@@溯源@@信息@@@@,但其总体质量还不高@@,主要表@@现在@@@@:①没有采用标准词汇@@表@@@@@@(即@@本体@@@@),溯源@@语义表@@达不明晰@@;②缺乏通用的@@元数据@@@@标准@@,互操作水平较低@@;③溯源@@记录不是@@机器可读的@@@@@@,不利于@@应用程序自动读取@@。为此@@,本文引进@@@@W3C DCAT元数据@@@@和@@@@PROV本体@@,在@@建立各地方政府@@元数据@@@@到@@标准词汇@@表@@@@映射的@@基础上@@@@@@,对数据@@发布环节@@实际存在@@的@@@@“历史数据@@@@”和@@“多种数据@@格式@@@@”两种典型情况进行了溯源@@表@@达@@,并给出了@@JSON格式的@@溯源@@记录实例@@。

  这些工作为解决现有问题@@给出了初步的@@方案@@。下一步的@@工作是@@开发开放数据@@全生命周期的@@@@“溯源@@元数据@@@@@@”模型和@@规范@@,建立较为完备的@@溯源@@管理体系@@。

责任编辑@@:qinpeng