各级政府@@掌握着全社会@@80%的@@数据@@资源@@@@@@,“开放@@政府@@数据@@@@@@”(Open Government Data,OGD)能够最大限度地推动全社会数据@@资源@@@@的@@有效配置和@@充分利用@@,成为各国政府@@实践和@@学术研究的@@热点@@。全球范围兴起的@@@@“开放@@政府@@数据@@@@@@运动@@”始于@@@@2009年@@美国@@政府@@推动的@@@@“开放@@政府@@行动计划@@”(Open Government Initiative),两年@@后的@@@@2011年@@9月@@美国@@@@、英国@@、巴西等@@@@8个@@国家成立了@@“开放@@政府@@合作组织@@”(Open Government Partnership,OGP)。到@@2016年@@8月@@其成员国已发展到@@@@70个@@,相继推出@@“国家行动计划@@”,从@@法律@@、技术@@、信息基础设施和@@应用等@@维度推动各层次@@的@@政府@@数据@@@@开放@@@@。根据@@世界银行的@@统计@@@@,目前已有超过@@250个@@政府@@@@(含中@@央政府@@和@@地方政府@@@@)实施@@“开放@@数据@@@@行动计划@@”。

  构建政府@@数据@@@@管理@@、开放@@、查询和@@再利用的@@官方平台@@@@,发布开放@@数据@@@@目录@@(Open Data Catalogs)的@@“一站式@@”门户网@@站@@(Portals)是@@各国在开放@@政府@@数据@@@@@@运动@@中@@普遍采取的@@关键举措@@。到@@2016年@@8月@@,DataPortals.org收集的@@数据@@门户@@网@@站@@已达@@520个@@。我国从@@@@2012年@@开始@@,北京@@、上@@海@@、浙江@@、重庆@@、武汉和@@青岛等@@地方政府@@相继推出@@了十余个@@开放@@数据@@@@的@@门户网@@站@@@@。2015年@@9月@@5日@@国务院印发的@@@@《促进大数据@@发展行动纲要@@》明确在@@2018年@@底前要建成国家政府@@数据@@@@统一开放@@平台@@@@。

  开放@@数据@@@@是@@政府@@信息公开在大数据@@时代的@@发展和@@深化@@。正如@@@@“元数据@@@@对政府@@公开信息的@@描述@@、发现和@@管理有着极其重要的@@作用@@”一样@@,数据@@目录平台@@的@@核心功能是@@开放@@数据@@@@集的@@元数据@@@@@@管理@@。复旦大学郑磊等@@构建的@@@@“中@@国政府@@开放@@数据@@@@整体@@评估框架@@”中@@,“元数据@@@@”是@@13个@@评估维度之一@@;英国@@开放@@数据@@@@研究所@@(Open Data Institute,ODI)开发和@@维护开放@@数据@@@@质量的@@在线评估工具@@“开放@@数据@@@@合格证书@@”(Open Data Certificate),将标准的@@@@、机器可读的@@元数据@@@@作为@@考查的@@基本指标之一@@。随着开放@@数据@@@@运动的@@逐步深入@@,元数据@@@@从@@提高开放@@数据@@@@集的@@可发现性到@@帮助用户理解@@、选择@@数据@@集@@@@,正在向标准化@@@@、语义化和@@机器可读的@@方向发展@@。

  在政府@@实践和@@学术研究领域@@,我国已开始加快追赶全球开放@@数据@@@@浪潮的@@脚步@@。在元数据@@@@上@@@@,虽然目前各地方政府@@对于@@开放@@的@@数据@@都能提供基本的@@元数据@@@@信息@@,但元数据@@@@的@@方案各不相同@@、对数据@@集@@的@@描述尚不全面@@、格式@@以@@@@HTML网@@页和@@文本文件为主@@,离规范化@@、标准化@@、互操作和@@机器可读的@@目标还存在着不小的@@差距@@,这将影响到@@数据@@开放@@@@的@@效果@@。为此@@,本文借鉴国际先进经验@@,在分析地方政府@@开放@@数据@@@@@@平台@@元数据@@@@不足的@@基础上@@@@@@,设计基于@@@@W3C DCAT标准的@@核心元数据@@@@方案@@@@,为我国各级政府@@开放@@数据@@@@平台@@的@@建设和@@升级提供借鉴和@@参考@@。

  1 国外开放@@政府@@数据@@@@@@的@@元数据@@@@现状@@

  1.1 开放@@数据@@@@的@@元数据@@@@标准@@@@

       由蒂姆@@·伯纳斯@@-李领导的@@@@W3C是@@政府@@数据@@@@开放@@运动的@@积极推动者@@。W3C电子政务@@标准行动计划@@(eGov Activity)设有电子政务@@兴趣小组@@(eGovernment Interest Group)和@@政府@@关联数据@@@@工作组@@(Government Linked Data Working Group)。经历两年@@的@@研制@@,2014年@@1月@@16日@@,政府@@关联数据@@@@工作组最终发布了由爱尔兰国立大学@@DERI(Digital Enterprise Research Institute)起草@@、电子政务@@兴趣小组修改的@@政府@@开放@@数据@@@@元数据@@@@的@@正式推荐标准@@——DCAT(Data Catalog Vocabulary)。

  DCAT是@@RDF词汇表@@@@,支持数据@@目录之间的@@互操作性@@(interoperability)。DCAT词汇表@@@@共有@@7个@@类@@@@、17个@@属性@@@@,主要类@@和@@属性@@如@@图@@@@1所示@@,其中@@@@复用了都柏林核心元数据@@@@@@(Dublin Core)、FOAF本体和@@@@SKOS本体的@@相关词汇@@。从@@图@@@@1可见@@,对于@@开放@@数据@@@@集@@(dataset),DCAT提供了@@15个@@属性@@@@(带@@dcat前缀的@@@@5个@@为新属性@@@@)。这些属性@@帮助用户@@“认识@@”(如@@dct:title和@@dct:description)、“查找@@”(如@@dcat:theme和@@dcat:keyword)、“选择@@”(如@@dct:modified和@@dct:spatial)、“访问@@、读取或@@下载@@”(如@@dcat:distribution和@@dcat:landing-Page)和@@“使用@@”(如@@dct:identifier和@@dcat:contactPoint)数据@@,能够满足各类@@数据@@集@@@@“开放@@”的@@基本需求@@。


图@@1 DCAT词汇表@@@@的@@主要类@@及其属性@@@@

  根据@@W3C的@@统计@@,DCAT及其应用纲要@@(Application Profile)已被欧盟@@@@、美国@@、英国@@、西班牙@@、爱尔兰和@@意大利@@等@@国家广泛采用@@。欧盟@@DCAT-AP(DCAT Application Profile for Data Portals in Europe)已应用到@@欧盟@@@@28国统一的@@数据@@目录门户@@(www.europeandataportal.eu)上@@,描述的@@@@58万多个@@数据@@集@@@@涉及文化教育@@、环境@@、交通和@@能源@@等@@@@13个@@门类@@@@。根据@@欧盟@@@@2016年@@8月@@的@@最新统计@@,意大利@@(Dati.Gov.IT)和@@罗马尼亚@@(Data.Gov.RO)等@@14个@@数据@@门户@@元数据@@@@对@@DCAT-AP的@@符合率为@@100%,奥地利@@(Data.Gv.AT)的@@这一比例为@@99%。值得一提的@@是@@@@,英国@@和@@法国的@@地理数据@@集@@对@@DCAT-AP的@@符合率分别是@@@@93%、97%,立陶宛和@@北爱尔兰的@@空间@@数据@@则为@@100%,表@@明了@@DCAT的@@广泛适应性@@。爱尔兰的@@元数据@@@@方案@@在欧盟@@@@DCAT-AP的@@基础上@@@@,增加了描述地理数据@@集@@的@@元数据@@@@@@@@。

  1.2 美国@@纽约州@@开放@@数据@@@@的@@元数据@@@@方案@@@@

       美国@@是@@开放@@政府@@数据@@@@@@的@@发起者和@@领跑者@@。从@@2009年@@5月@@21日@@上@@线发布国家层面的@@数据@@门户@@@@Data.Gov,到@@2016年@@8月@@各级地方政府@@@@(州@@、县和@@市@@)的@@开放@@数据@@@@门户网@@站@@已达到@@@@88个@@。美国@@各级政府@@开放@@数据@@@@的@@元数据@@@@非常重视标准化@@工作@@,2014年@@11月@@6日@@更新的@@国家数据@@门户@@的@@元数据@@@@方案@@@@(Project Open Data Metadata Schemav1.1,POD v1.1)已建立了到@@@@DCAT和@@Schema.org的@@映射@@。由于@@本文主要关注@@地方政府@@@@,就以@@纽约州@@为例@@介绍一个@@具体的@@元数据@@@@方案@@@@。

  纽约州@@政府@@于@@@@2013年@@3月@@11日@@推出开放@@数据@@@@平台@@@@Open.ny.gov,随后信息技术@@服务办公室于@@@@2013年@@11月@@6日@@发表@@@@《开放@@数据@@@@手册@@》,详尽描述了元数据@@@@的@@构建原则和@@方案@@。表@@1是@@根据@@@@《开放@@数据@@@@手册@@》和@@Open.ny.gov上@@的@@元数据@@@@实例@@总结的@@纽约州@@元数据@@@@方案@@的@@主要元素@@@@,可见@@与@@DCAT有着很高的@@兼容程度并做了一定的@@本土化扩展@@。

  2 我国地方政府@@开放@@数据@@@@@@的@@元数据@@@@分析@@

  2.1 目前使用@@的@@元数据@@@@@@

       不同于@@美国@@@@、英国@@等@@国家从@@中@@央政府@@到@@地方政府@@的@@发展路径@@,目前我国开放@@数据@@@@门户网@@站@@主要发端和@@实践于@@地方政府@@@@。表@@2列出了当前活跃的@@@@、代表@@性的@@网@@站的@@@@URL。在详尽调查各数据@@门户@@使用@@的@@元数据@@@@的@@基础上@@@@@@,限于@@篇幅本文以@@北京@@市@@@@和@@浙江@@省为例@@@@,给出分析结果@@。

  “北京@@市@@政务@@数据@@资源@@@@网@@@@”由北京@@市@@经济和@@信息化委员会@@(经信委@@)牵头建设@@、北京@@市@@各政务@@部门共同参与@@,于@@2012年@@10月@@推出测试版@@、2013年@@年@@底正式开通@@。目前已开放@@来自市教委@@、市交通委@@、市旅游委等@@近@@40个@@部门的@@@@300多个@@数据@@集@@@@,并为每个@@数据@@集@@提供了@@@@txt文本格式@@的@@元数据@@@@文件@@。表@@3总结了元数据@@@@情况@@,其中@@@@第一列的@@元素@@名称@@取自元数据@@@@文件@@,第二列的@@元素@@标签@@取自@@HTML页面@@,实例数据@@取自@@“公益性图@@书馆@@”数据@@集@@的@@描述信息@@(http://www.bjdata.gov.cn/zyml/azt/wtyy/whcs/whgz/3077.htm)。需要说明的@@是@@@@,实际中@@并没有@@“数据@@资源@@@@”这一元素@@@@,它是@@本文为了元数据@@@@的@@结构更加简洁@@、明晰而@@引入的@@@@,实际使用@@的@@@@7个@@元素@@@@(文件名称@@@@、下载次@@数@@、上@@传日@@期@@、原始数据@@下载@@、空间@@数据@@下载@@、资源@@记录数@@、数据@@文件大小@@)归结为它的@@@@“修饰词@@”。

  2015年@@9月@@23日@@,浙江@@欧宝娱乐靠谱吗 网@@“数据@@开放@@@@”专题@@网@@站正式上@@线@@。这是@@国家@@《促进大数据@@发展行动纲要@@》发布后@@,全国各省份@@中@@第一个@@推出的@@政府@@数据@@@@统一开放@@平台@@@@,现已开放@@出@@200多个@@数据@@集@@@@。表@@4给出了网@@站的@@元数据@@@@使用@@情况@@,由于@@只有@@HTML格式@@的@@元数据@@@@信息@@,所以@@不区分元素@@的@@名称@@与标签@@@@,实例数据@@取自@@“公共图@@书馆信息@@”数据@@集@@的@@描述信息@@(http://data.zjzwfw.gov.cn/catedetail.action?resid=210551/20150610110144613008&catecode=SJLY005)。同表@@@@3一样@@,实际中@@也没有@@“数据@@资源@@@@”这一元素@@@@,表@@4中@@的@@@@“元素@@修饰词@@@@”是@@我们根据@@实际情况总结的@@@@。

  2.2 元数据@@@@的@@不足@@

      目前的@@元数据@@@@虽然能满足各地方政府@@开放@@数据@@@@@@的@@基本需求@@@@,但同国际上@@的@@发展趋势相比有如@@下不足@@:

  a.各地方政府@@的@@元数据@@@@方案@@之间差异较大@@,表@@现为元素@@的@@个@@数@@、名称@@与格式@@上@@的@@不一致@@,这为应用程序跨多个@@数据@@目录读取数据@@集@@的@@元数据@@@@@@带@@来困难@@,增加了处理的@@复杂性和@@代价@@;

  b.对数据@@集@@的@@描述不够全面@@,表@@现为没有规范@@、持久@@、稳定的@@唯一标识符@@@@,没有数据@@的@@时空覆盖范围@@,没有问题反馈渠道@@,没有数据@@的@@开放@@许可@@等@@@@;

  c.没有区分数据@@集@@与数据@@集@@包含的@@数据@@资源@@@@@@@@(可下载的@@文件或@@访问@@端点等@@@@),造成描述两者的@@元数据@@@@之间的@@混淆@@,如@@“资源@@类@@型@@@@”“资源@@记录数@@”“点击下载@@”等@@描述的@@@@应是@@数据@@文件而@@不是@@数据@@集@@本身@@;

  d.普遍没有采用机器可读的@@元数据@@@@格式@@@@@@,不利于@@程序的@@自动处理和@@互操作@@;

  e.同一个@@开放@@数据@@@@网@@站中@@@@,元数据@@@@的@@取值也不规范@@。如@@浙江@@省网@@站中@@@@“数据@@文件大小@@”的@@取值既有带@@单位的@@@@(如@@172KB),也有@@没带@@单位的@@@@(如@@10);北京@@市@@“资源@@更新周期@@”的@@取值有@@“一年@@@@”的@@、也有@@“每年@@@@”的@@,而@@“在线资源@@链接地址@@”的@@取值都是@@@@“www.bjdata.gov.cn”,造成用户不能从@@这个@@元数据@@@@直接找到@@数据@@资源@@@@@@,也就失去了元数据@@@@的@@价值@@。

  3 核心元数据@@@@方案@@设计@@

  下面从@@现有的@@元数据@@@@出发@@,以@@W3C DCAT为标准化@@方向@@,以@@克服现有不足和@@满足核心功能@@(即数据@@集@@的@@可发现性@@、可访问@@性及数据@@目录间的@@互操作@@)为目标@@,设计我国地方政府@@数据@@@@目录的@@核心元数据@@@@方案@@@@,主要做法是@@@@:a.将元素@@分为两组@@,分别描述数据@@集@@和@@数据@@资源@@@@@@;b.依据@@DCAT规范元素@@的@@名称@@和@@语义@@;c.保留各地方政府@@与@@DCAT共有的@@元素@@项@@;d.补充@@DCAT中@@核心的@@@@、但各地方政府@@普遍缺失的@@元素@@项@@;e.采用机器可读的@@元数据@@@@格式@@@@。

  3.1 描述对象@@

       本文将@@“数据@@集@@”和@@“数据@@资源@@@@”作为@@元数据@@@@的@@描述对象@@@@。

  世界银行开放@@政府@@数据@@@@@@工作组将元数据@@@@定义为@@“对开放@@数据@@@@集@@(dataset)各方面的@@描述数据@@@@”。DCAT认为@@“数据@@集@@是@@由一个@@机构或@@部门发布和@@维护的@@数据@@的@@集合@@”,对应图@@@@1中@@的@@@@dcat:Dataset类@@。数据@@集@@包含一个@@或@@多个@@数据@@资源@@@@@@,数据@@资源@@@@对应图@@@@@@1中@@的@@@@dcat:Distribution类@@,可以@@是@@能被下载的@@数据@@文件@@、访问@@数据@@的@@端点@@(endpoint)或@@RSS源@@(feed)等@@。数据@@集@@与数据@@资源@@@@之间的@@关系@@是@@@@“整体@@-部分@@”关系@@,对应图@@@@1中@@的@@@@dcat:distribution属性@@。

  3.2 描述数据@@集@@的@@元数据@@@@@@@@

       表@@5给出了描述数据@@集@@的@@核心元数据@@@@@@,第一列是@@规范化的@@元素@@中@@文名称@@@@、第二列是@@对应的@@@@DCAT元素@@,最后两列对应北京@@和@@浙江@@实际使用@@的@@@@元数据@@@@@@。19个@@元素@@@@全部来自@@DCAT词汇表@@@@和@@@@DC元数据@@@@,不仅能覆盖北京@@@@、浙江@@等@@目前使用@@的@@绝大多数元数据@@@@@@,也补充@@了@@“标识符@@”“开放@@许可@@”和@@“联系方式@@”等@@基本元素@@@@。

  3.3 描述数据@@资源@@@@的@@元数据@@@@@@

       表@@6给出了描述数据@@资源@@@@的@@@@10个@@核心元素@@@@,规范和@@补充@@了数据@@文件的@@@@“名称@@”“格式@@”“类@@型@@”“字节大小@@”和@@“文件下载的@@@@URL”“数据@@访问@@的@@@@URL”等@@重要的@@元素@@项@@。

image.png

  3.4 扩展原则@@

       随着开放@@数据@@@@种类@@的@@日@@益增加@@,数据@@集@@的@@本征特征会向多样化发展@@,对核心元数据@@@@的@@扩展势在必行@@。各国的@@主要策略是@@对@@DCAT的@@本土化和@@专业化扩展@@,例如@@美国@@@@POD v1.1引进了@@accessLevel(访问@@级别@@)、dataQuality(数据@@质量@@)、bureauCode(机构代码@@)和@@primaryITInvestmentUII(IT唯一投资标识符@@@@)等@@体现美国@@政府@@信息化特点的@@元数据@@@@项@@,欧盟@@DCAT-AP引进欧盟@@范围的@@受控词表@@@@(如@@EuroVoc)规范元素@@的@@取值@@,爱尔兰对地理数据@@增加了@@“空间@@参照系@@”(Spatial Reference System)、“空间@@分辨率@@”(SpatialResolution)等@@元数据@@@@项@@。

  我国在进行本土化时更应考虑中@@文信息的@@特点@@,并结合政府@@信息资源@@公开及开放@@共享的@@现状和@@发展的@@需要@@。

  4 元数据@@@@实例@@

  支持互操作的@@元数据@@@@格式@@有@@XML、RDF等@@,它们都是@@机器可读的@@@@。作为@@DCAT的@@补充@@@@,DCIP(Data Catalog Interoperability Protocol)建议以@@@@XML/RDF和@@JSON格式@@编码开放@@数据@@@@的@@元数据@@@@@@,已被美国@@@@、英国@@和@@欧盟@@等@@采纳@@。

  本文以@@北京@@市@@@@“公益性图@@书馆@@”数据@@集@@的@@元数据@@@@@@(参见@@2.1节的@@表@@@@3)为例@@,将现有的@@文本格式@@转换为@@XML/RDF格式@@(见图@@@@2)。其中@@@@,元素@@的@@名称@@来自@@DCAT词汇表@@@@,除了@@“标识符@@”的@@值@@(图@@中@@黑体@@),其余值都是@@实际数据@@@@。可以@@设想@@,如@@果各地方政府@@都以@@这种格式@@提供元数据@@@@@@,应用程序就能以@@一致的@@方式跨多个@@数据@@目录读取和@@解析它们@@,实现自动查找@@@@、比较和@@选择@@数据@@集@@@@@@,进而@@自动下载或@@访问@@数据@@@@。

  该例也表@@明@@,上@@述核心元数据@@@@方案@@能够基本满足各类@@开放@@数据@@@@集的@@可发现性和@@可访问@@性的@@描述需求@@,同时提高了现有元数据@@@@的@@规范程度和@@互操作性@@。对于@@专业领域数据@@集@@的@@特殊描述需求@@,则要引进新的@@元数据@@@@项@@。

  5 结语@@

  数据@@的@@开放@@共享离不开元数据@@@@的@@支持@@,为开放@@数据@@@@集附加高质量的@@元数据@@@@描述@@,是@@实现数据@@目录之间互操作的@@基础@@,更有利于@@用户发现@@、理解和@@使用@@数据@@@@。我国地方政府@@开放@@数据@@@@@@元数据@@@@的@@规范化和@@标准化@@程度还不高@@,借鉴和@@参考国际通用的@@元数据@@@@标准@@将是@@一个@@重要的@@发展方向@@。本文在这方面做了初步的@@尝试@@,构建了基于@@@@W3C DCAT标准的@@描述开放@@数据@@@@集和@@数据@@资源@@@@的@@核心元数据@@@@方案@@@@。显然@@,该方案在实际应用中@@还会有很多不足@@,如@@还需要补充@@和@@完善编码体系修饰词@@@@、规范元数据@@@@的@@取值类@@型@@@@、设计数据@@集@@标识符@@的@@规范@@、根据@@需求增加新的@@描述对象@@和@@属性@@等@@@@。

  相信从@@@@“元数据@@@@方案@@”到@@“元数据@@@@规范@@”、再到@@@@“元数据@@@@标准@@”的@@演化@@,将见证我国开放@@政府@@数据@@@@@@从@@起步@@、成长到@@成熟的@@发展历程@@。

  (作者@@简介@@:于@@梦月@@@@,女@@,大连海事大学交通运输管理学院硕士研究生@@,研究方向@@:元数据@@@@,开放@@数据@@@@;翟军@@,男@@,大连海事大学交通运输管理学院教授@@,博士生导师@@,研究方向@@:开放@@数据@@@@,关联数据@@@@;林岩@@,男@@,大连海事大学交通运输管理学院副教授@@,硕士生导师@@,研究方向@@:知识管理@@。)

责任编辑@@:lihui