摘要@@:数据@@质量@@是@@影响开放数据@@价值生成的@@关键因素@@。本文采用网络调查和@@数据@@分析方法@@, 对@@13个@@开放数据@@平台@@中@@的@@@@数千个@@数据@@集进行@@分析@@, 归纳出@@29类@@“脏数据@@@@”, 统计了北京@@、上@@海@@和@@哈尔滨三地@@的@@数据@@质量@@问题@@分布情况@@。文章建议@@在引进@@“数据@@清洗@@@@”和@@“质量检查@@”环节@@@@、采用标准规范@@等@@方面借鉴先进经验@@, 提升和@@保@@障数据@@质量@@@@@@。

  “开放政府@@数据@@@@” (Open Government Data, OGD) 运动能够释放数据@@价值@@, 产生积极的@@社会和@@经济@@效益@@, 在世界范围得到了快速发展@@。2013年@@10月@@, 麦肯锡研究院的@@报告预测@@[1], 在教育@@、交通@@、能源及@@医疗等@@七个@@领域@@@@, 开放数据@@每年@@将@@为全球释放约@@3万亿至@@5万亿美元的@@潜在经济@@价值@@;报告同时指出@@, 在一些领域@@@@ (如@@交通@@@@) 使用开放数据@@的@@@@最大障碍之一@@是@@@@“数据@@质量@@”。经合组织@@ (OECD) 认为@@, 为确保@@OGD创造价值@@, 政府@@面临的@@最重要任务是@@@@[2]: (1) 识别高价值的@@数据@@@@; (2) 保障数据@@质量@@@@; (3) 培育需求及@@促进数据@@使用@@。“开放政府@@合作组织@@” (Open Government Partnership, OGP) 对@@各成员国@@2012—2015年@@行@@动计划的@@评估发现@@, 低价值和@@低质量数据@@引发了数据@@供给与@@需求之间的@@@@“鸿沟@@”[3]。

  提高数据@@质量@@@@, 避免因劣质数据@@而@@带来的@@消极影响@@, 始终是@@数据@@管理领域@@最严峻的@@挑战之一@@@@[4]。据估算@@, 美国每年@@因劣质数据@@造成的@@损失高达@@@@6千亿美元@@[5,6], 包括数据@@错误引起的@@医疗事故及@@电信设备故障排除引发的@@延误等@@@@, 零售业标价错误造成的@@损失及@@公司缺陷数据@@引起的@@财政损失等@@@@。OGD领域@@的@@数据@@质量@@问题@@也日@@益凸显@@, 澳大利亚@@昆士兰大学@@S.Sadiq等@@的@@研究发现@@, 美国数据@@门户@@Data.Gov上@@的@@枪支犯罪者数据@@集曾存在数据@@不完整@@、不一致和@@记录重复等@@问题@@@@[7]。巴西学者@@M.I.S.Oliveira等@@对@@巴西@@13个@@数据@@门户的@@分析发现@@, CSV数据@@文件中@@有记录重复@@、字段@@定义不一致等@@问题@@@@[8]。英国开放知识国际@@ (Open Knowledge International) 的@@网站开辟专栏@@Okfnlabs.org/bad-data/展示了@@“坏数据@@@@” (Bad Data) 的@@实例@@@@[9]。

  在我国@@@@, “政府@@数据@@资源共享开放工程@@”位列@@国务院@@《促进大数据@@@@发展行@@动纲要@@》规划的@@十大数据@@@@工程之首@@[10]。从@@2012年@@开始@@, 已有@@20多个@@地方政府@@建设和@@发布了数据@@开放@@网站@@ (或@@栏目@@) , 随着数据@@量的@@增加@@, 数据@@质量@@也日@@益得到关注@@@@[10,11]。目前@@@@, 数据@@质量@@管理@@面临的@@问题@@和@@挑战主要有错误发现@@、错误修复和@@近似查询处理等@@@@[6]。在此背景下@@, 我国@@开放政府@@数据@@@@@@是@@否存在@@“脏数据@@@@”, 有哪些主要的@@质量问题@@及@@如@@何应对@@@@, 就成为本文要回答的@@问题@@@@。

  1 脏数据@@@@的@@@@分类@@@@

  数据@@质量@@ (Data Quality) 是@@“数据@@满足任务需求的@@程度@@”, 数据@@质量@@问题@@指@@“给使用这些数据@@的@@@@应用带来潜在影响的@@一系列@@数据@@表@@现@@”[12], 那些不符合要求或@@标准规范的@@质量差@@的@@数据@@常常被称为@@“脏数据@@@@” (Dirty Data) 或@@“坏数据@@@@” (Bad Data) [13]。

  “脏数据@@@@”的@@分类@@可以@@帮助人们更好地理解和@@发现数据@@质量@@问题@@@@, 相关学者从@@不同视角研究取得了一系列@@成果@@。Rahm等@@[14,15]分别从@@模式层@@和@@实例@@层@@分析了单源@@/多源数据@@常见的@@@@9类@@质量问题@@@@, 如@@糟糕的@@模式设计@@, 冗余@@、互相矛盾或@@者不一致的@@数据@@@@, 拼写错误和@@命名@@冲突等@@@@。Kim等@@[16]提出如@@图@@@@1所示的@@@@33种@@“脏数据@@@@”的@@分类@@系统@@@@, 分为缺失的@@数据@@和@@没有缺失的@@数据@@两大类@@@@, 没有缺失的@@数据@@又分为了错误的@@数据@@和@@没有错误的@@数据@@@@。Oliveria等@@[17]将@@21个@@质量问题@@@@划分为四个@@粒度级别@@ (Granularity Level) :单元@@/列@@/行@@、单表@@@@、多表@@和@@多源@@。Li等@@[18]利用规则将@@@@38类@@企业脏数据@@@@分为五个@@维度@@:准确性@@、完整性@@、时效性@@、一致性@@和@@唯一性@@@@。Gschwandtner等@@[19]分析的@@对@@象是@@@@“面向时间@@的@@数据@@@@”, 将@@脏数据@@@@分为单源和@@多源两大类@@@@。Almeida等@@[20]基于@@数据@@仓库的@@多维数据@@模型@@, 将@@30个@@质量问题@@@@归为五组@@:单值@@、多值@@、元组@@、列@@和@@整个@@关系表@@@@。

image.png

  图@@1 Kim等@@提出的@@@@“脏数据@@@@”分类@@系统@@

  这些研究主要面向传统的@@数据@@管理领域@@@@, 如@@数据@@仓库@@、企业信息系统等@@@@。Laranjeiro等@@[21]则面向大数据@@@@@@, 通过@@文献分析将@@@@24个@@质量问题@@@@映射到五个@@质量维度@@:可访问性@@、准确性@@、完整性@@、时效性@@和@@一致性@@@@。在伴随大数据@@@@而@@兴起的@@@@“数据@@新闻@@” (Data Journalism) 领域@@, 美国数字媒体网站@@Quartz于@@2015年@@整理出@@“坏数据@@@@手册@@” (Bad Data Guide) , 将@@45个@@质量问题@@@@分成四个@@方面@@:数据@@源问题@@@@、人为问题@@@@、专家可以@@解决@@的@@问题@@和@@开发者可以@@解决@@的@@问题@@@@[13]。

  在上@@述工作的@@基础上@@@@, 面向我国@@开放政府@@数据@@@@@@的@@实践@@, 在深入调查和@@分析基础上@@@@, 本文归纳出@@@@OGD领域@@29类@@“脏数据@@@@”, 见表@@@@1。该表@@分为@@“模式层@@” (7类@@) 和@@“实例@@层@@” (22类@@) 两个@@层次@@@@, 前@@者指数据@@的@@@@模式定义@@, 含完整性@@@@、一致性@@和@@准确性@@三个@@维度@@;后者指开放的@@数据@@本身@@, 含正确性@@@@、规范性@@、开放性@@等@@八个@@维度@@。维度的@@选择基于@@数据@@质量@@的@@核心维度@@[22]和@@开放数据@@原则@@, 包括数据@@应是@@完整的@@@@、原始的@@@@、及@@时的@@@@、可获取的@@@@、机器可读的@@和@@开放许可等@@@@[23,24]。不同于@@传统领域@@@@, “开放性@@”和@@“安全或@@隐私@@”是@@两个@@新的@@维度@@, 相应地有@@7类@@“脏数据@@@@”是@@开放数据@@所独有的@@@@, 它们在表@@@@1中@@通过@@星号@@ (*) 标记@@。表@@1中@@的@@@@脏数据@@@@实例@@全部来自各地的@@实际开放数据@@@@。

表@@1 我国@@OGD领域@@脏数据@@@@的@@@@分类@@@@@@

TSGT201901007_19200 (1).jpg

  表@@1 我国@@OGD领域@@脏数据@@@@的@@@@分类@@@@@@

8DD153CA4F6D4318A0F1E4BCCDD012B5.jpeg

  2 调查内容与@@方法@@

  为尽可能全面地发现各种@@质量问题@@@@, 笔者在选取政府@@开放数据@@网站@@@@/平台@@时@@, 综合考察数据@@集的@@@@个@@数@@、是@@否有模式定义及@@是@@否提供了多种@@格式的@@文件@@。选取的@@@@13个@@网站见表@@@@@@2, 数据@@集的@@@@个@@数等@@指标在不断变化@@, 表@@中@@的@@@@数据@@取自@@2017年@@9—12月@@。调查的@@对@@象是@@各网站数据@@目录中@@的@@@@数据@@集@@, 不包括接口@@ (API) 和@@应用等@@其他开放资源@@。

表@@2 调查对@@象@@——地方政府@@开放数据@@网站@@@@/平台@@

TSGT201901007_20200 (1).jpg

  2.1 数据@@集及@@数据@@文件@@

  对@@开放数据@@本身的@@调查是@@本文的@@重点和@@核心@@。研究通过@@下载数据@@集的@@@@数据@@文件@@, 考察和@@分析文件中@@的@@@@数据@@@@, 依据脏数据@@@@的@@@@基本特征@@ (见表@@@@1) , 有可能发现实例@@层@@的@@@@16类@@质量问题@@@@, 即@@正确性@@@@ (D8—D12) 、一致性@@ (D13—D15) 、完整性@@ (D17—D18) 、唯一性@@ (D20) 、规范性@@ (D21—D24) 与@@安全或@@隐私@@@@ (D29) 等@@维度下的@@@@@@“脏数据@@@@”。

  例如@@@@, “哈尔滨市建设项目选址意见书信息@@”数据@@集的@@@@Excel文件中@@含有@@846条@@记录@@, 每条@@记录@@@@8个@@字段@@@@。图@@2抽取了@@10条@@记录@@, 展示了@@其中@@@@存在的@@五类@@@@“脏数据@@@@”:“建设项目名@@称@@@@”“建设位置@@”“占@@地面积@@”和@@“建设规模@@”四列@@存在@@“数据@@值缺失@@” (D17) 现象@@, “占@@地面积@@”和@@“建设规模@@”两列@@@@“数据@@没有单位@@@@” (D23) 与@@部分单元@@是@@@@“不合理值@@ (0) ” (D10) , “建设位置@@”列@@的@@值@@出现@@“数据@@笼统@@ (不详细@@) ” (D8) 现象@@, “出证日@@期@@@@”列@@的@@取值@@“格式不规范@@” (D22) 。此外@@, 文件中@@还存在@@“未知值表@@达@@不一致@@” (D14) 问题@@:NULL与@@******都在表@@示@@“无数据@@或@@未知值@@”。

TSGT201901007_20600 (1).jpg  

图@@2“脏数据@@@@”示例@@ (浅色的@@数据@@单元@@和@@列@@存在质量问题@@@@) 

  对@@开放性@@维度下的@@@@质量问题@@@@D25和@@D26, 则要依据文件格式来判别@@。在我国@@@@各地采用的@@文件格式@@ (见表@@@@2) 中@@, XLS (即@@Excel) 与@@Word是@@微软公司专有格式@@, 不符合开放标准@@, PDF、Word与@@HTML不是@@机器可读的@@@@。在开放数据@@网站@@中@@@@, 当一个@@数据@@资源有多个@@文件时@@, 只要一个@@文件符合开放标准或@@是@@机器可读的@@@@, 我们则认定不存在质量问题@@@@D25或@@D26。当没有数据@@文件可供下载@@、文件不能下载或@@数据@@只在网页@@ (HTML) 上@@, 我们则认为@@存在问题@@@@D27 (不能开放获取@@) , 但@@提供了@@API接口的@@除外@@。当数据@@存在于@@@@PDF、Word文档或@@网页的@@新闻稿@@、政府@@文件或@@统计报告中@@@@, 不是@@原始数据@@@@的@@可能性就比较大@@ (D28) , 这方面问题@@突出的@@是@@新疆的@@开放数据@@@@ (详见表@@@@@@1“实例@@”一列@@@@) 。

  2.2 数据@@模式定义@@

  图@@2中@@“出证日@@期@@@@”列@@的@@取值@@“格式不规范@@”问题@@与@@数据@@模式的@@定义有关@@。根据国家标准@@《数据@@元和@@交换格式信息交换日@@期@@和@@时间@@表@@示法@@》 (GB/T 7408-2005) , 日@@期@@的@@格式应为@@@@:YYYYMMDD (如@@20090320) , 开放数据@@实际中@@以@@YYYY-MM-DD、YYYY.MM.DD或@@YYYY/MM/DD等@@格式居多@@。因此@@, 与@@普通的@@@@“文本@@类@@型@@”区分开@@, 日@@期@@类@@数据@@应定义为@@@@“日@@期@@类@@型@@”。

TSGT201901007_21000 (1).jpg

  图@@3 模式定义中@@的@@@@质量问题@@@@

  对@@数据@@模式定义@@的@@调查是@@本文的@@另一个@@重点@@。图@@2展示了@@“哈尔滨市建设项目选址意见书信息@@”数据@@集的@@@@模式定义@@, 其中@@@@存在三类@@质量问题@@@@@@:类@@型定义@@错误@@ (D5) 、命名@@不准确@@ (D6) 和@@未定义数据@@单位@@@@ (D7) 。

  一个@@开放数据@@网站@@是@@数百个@@乃至数千个@@数据@@集的@@@@集合@@, 模式定义的@@一致性@@尤为重要@@。例如@@@@, 一个@@网站在字段@@的@@命名@@规则上@@应保持一致@@, 但@@调查发现@@在哈尔滨@@、北京等@@地存在着@@“名@@称@@”与@@“企业名@@称@@@@”、“地址@@”与@@“企业通讯地址@@@@”在不同的@@数据@@集中@@混用的@@现象@@@@ (D3) 。

  一个@@数据@@集中@@的@@@@数据@@资源的@@不同格式文件也应在模式上@@保持一致@@, 但@@在哈尔滨和@@广州@@等@@的@@开放数据@@中@@普遍存在@@XLS与@@XML模式不一致问题@@@@ (D4) 。图@@4对@@比了@@“哈尔滨市考试中@@心基本信息@@”数据@@集的@@@@两种@@格式数据@@@@, XLS数据@@的@@@@“标题@@”为中@@文名@@称@@@@ (如@@“地址@@”) , 而@@XML数据@@的@@@@“元素名@@称@@@@”则为汉语拼音缩写@@ (如@@DZ, 应为@@“地址@@”) , 造成用户难以理解与@@使用这些@@XML数据@@。

TSGT201901007_21400 (1).jpg

图@@4 两种@@格式数据@@的@@@@模式不一致@@

  2.3 多种@@格式数据@@的@@@@一致性@@@@

  同一数据@@资源不同格式的@@文件@@, 不仅数据@@模式应一致@@, 其中@@@@的@@数据@@更应保持一致@@。但@@调查发现@@, 上@@海@@、广州@@和@@哈尔滨等@@地存在着@@“同一数据@@集的@@@@不同格式文件的@@数据@@不一致@@”问题@@ (D16) 。

TSGT201901007_21700 (1).jpg

图@@5 两种@@格式数据@@不一致@@

  例如@@@@, 上@@海@@“摄像头设置地点@@”的@@XLS文件中@@的@@@@第@@9条@@数据@@为@@“金沙江路@@/真光路@@”, 但@@CSV文件的@@相应数据@@却是@@@@“?金沙江路@@/真光路@@”。广州@@“黄埔区信用信息双公示行@@政处罚@@”的@@XLS数据@@共有@@@@14列@@, 但@@相应的@@@@CSV数据@@的@@@@一些行@@却出现了第@@15或@@16列@@, 见图@@@@5。哈尔滨的@@一些数据@@集也有类@@似情况@@, 即@@CSV中@@数据@@串列@@了@@。

  W3C Web数据@@最佳实践@@@@ (DWBP) 工作组将@@@@“以多种@@格式提供数据@@@@” (Provide data in multiple formats) 列@@为@@35个@@“最佳实践@@” (Best Practice, BP) 之一@@ (BP14) [25], 它可以@@节@@省用户在数据@@转换上@@的@@时间@@和@@成本@@。理想状态下@@, 各种@@格式的@@数据@@应是@@完全等@@价的@@@@, 用户只要任意选择其一即@@可使用@@。如@@果不同格式数据@@的@@@@质量不同@@, 反而@@会给用户带来选择数据@@的@@@@成本和@@代价@@。鉴于@@@@D4和@@D16两类@@质量问题@@@@的@@隐蔽性强@@、难以发现@@, 我们认为@@它们是@@开放数据@@质量@@@@管理的@@新情况和@@新挑战@@, 应引起各级政府@@数据@@管理者的@@重视@@。

  2.4 通过@@元数据@@判别时效性@@@@

  2016年@@9月@@19日@@, 国务院印发@@《政务@@信息资源共享管理暂行@@办法@@》第十三条@@规定@@@@:按照@@“谁主管@@, 谁提供@@, 谁负责@@”的@@原则@@, 提供部门应及@@时维护和@@更新信息@@, 保障数据@@的@@@@完整性@@@@、准确性@@、时效性@@和@@可用性@@@@, 确保所提供的@@共享信息与@@本部门所掌握信息的@@一致性@@@@[26]。

  为判别一个@@数据@@集的@@@@时效性@@@@, 即@@数据@@是@@否陈旧或@@过时@@ (D19) , 需要依照元数据@@@@“最后@@更新时间@@@@”和@@“更新频率@@”的@@值@@。以贵州@@“全省户籍人口统计数据@@@@”为例@@, 它的@@@@“最后@@更新时间@@@@”和@@“更新频率@@”分别为@@“2016-10-17”和@@“年@@”, 同时数据@@文件中@@给出的@@是@@@@2010—2014年@@的@@数据@@@@, 则可判定该数据@@集没有及@@时更新@@。在贵州省的@@网站中@@共有@@@@130个@@数据@@集在@@2017年@@没有更新@@, 占@@比@@27.6%, 而@@其他数据@@集则得到了及@@时更新@@, 占@@比@@72.4%。

  广州@@、深圳@@和@@佛山等@@地的@@数据@@文件中@@增加了@@“更新日@@期@@@@”字段@@, 方便了用户判别其时效性@@@@。而@@北京和@@上@@海@@等@@地没有@@“更新频率@@”或@@“最后@@更新时间@@@@”的@@元数据@@@@, 造成很多数据@@集的@@@@时效性@@无法判别@@。

  2.5 参照外部权威数据@@源@@

  当网站内的@@信息不足以判别数据@@质量@@状况时@@, 就需要参照外部权威数据@@源@@@@。例如@@@@, 北京的@@@@“高校@@”数据@@集是@@@@2012年@@10月@@29日@@发布的@@@@, 能否反映当前@@实际情况呢@@?对@@比教育部的@@最新数据@@@@ (截至@@2017年@@5月@@31日@@) [27], 里面没有@@“中@@国科学院大学@@”, 因此@@认定该数据@@集是@@@@过时的@@@@。2012年@@7月@@19日@@发布的@@@@“机场班车线路@@”只有@@9条@@线路@@, 而@@首都国际机场网站上@@公布的@@线路已达@@@@18条@@, 表@@明该数据@@不仅过时@@、而@@且不准确@@。政府@@开放数据@@应是@@权威的@@数据@@源@@, 但@@要达@@到这一目标还需要在质量管理@@等@@方面加强工作@@。

  2.6 隐私泄露问题@@@@

  随着开放数据@@的@@@@深入@@, 隐私保护和@@安全问题@@日@@益得到关注@@@@[28]。实践上@@@@, 深圳@@《政府@@数据@@开放@@平台@@用户服务条@@款@@@@》、贵阳@@《数据@@开放@@授权协议@@》和@@《数据@@东莞网使用协议@@》等@@均含有@@“隐私保护声明@@”, 承诺网站不主动将@@用户个@@人信息@@泄露给任何第三方@@。2017年@@5月@@1日@@起施行@@的@@@@我国@@首部政府@@数据@@共享开放条@@例@@——《贵阳@@市政府@@数据@@共享开放条@@例@@》规定@@[29]:涉及@@国家秘密的@@@@、商业秘密的@@@@、个@@人隐私的@@和@@法律法规规定@@不得开放的@@其他政府@@数据@@不能向社会开放@@。

  2017年@@6月@@1日@@起施行@@的@@@@《中@@华人民共和@@国网络安全法@@》第四十二条@@规定@@@@[30]:网络运营者不得泄露@@、篡改@@、毁损其收集的@@个@@人信息@@@@;未经被收集者同意@@, 不得向他人提供个@@人信息@@@@。同时将@@@@“个@@人信息@@”定义为@@:以电子或@@者其他方式记录的@@能够单独或@@者与@@其他信息结合识别自然人个@@人身份的@@各种@@信息@@, 包括但@@不限于@@自然人的@@姓名@@@@@@、出生日@@期@@@@、身份证件号码@@、个@@人生物识别信息@@、住址@@、电话@@号码等@@@@。美国列@@入个@@人信息@@保护范围的@@数据@@包括名@@字@@、身份证号码@@、邮件地址@@@@、IP地址@@、电话@@号码等@@@@[31]。欧盟个@@人数据@@保护法指出@@, 身份证号码@@、定位数据@@@@、网络标识符@@、基因@@、经济@@、文化@@、社会身份等@@隐私受法律保护@@[32]。

  笔者在调查过程@@中@@@@, 重点考察数据@@中@@是@@否含有@@“自然人的@@姓名@@@@”“电话@@”“住址@@”和@@“身份证号码@@”等@@敏感信息@@, 发现浙江@@、贵州和@@哈尔滨等@@地的@@个@@别开放数据@@存在隐私泄露问题@@@@@@ (D29) 或@@风险@@, 见图@@@@6 (只给出数据@@文件的@@标题@@行@@@@, 隐去了数据@@@@) 。

TSGT201901007_23000 (1).jpg

  图@@6 个@@人敏感数据@@示例@@@@

  相对@@照的@@是@@@@, 贵阳@@对@@@@“导游人员名@@单@@”等@@、东莞对@@@@“公证员信息@@”等@@进行@@了脱敏处理@@, 见图@@@@7。

TSGT201901007_23200 (1).jpg

图@@7 经脱敏处理的@@个@@人信息@@示例@@@@

  表@@1中@@D29类@@脏数据@@@@也包括@@“泄露的@@商业秘密@@”, 这方面已有@@学者做了专门研究@@[33]。

  3 结果分析@@

  本节@@以@@“开放数据@@网站@@/平台@@”为单位@@@@, 对@@数据@@质量@@问题@@进行@@整体分析@@。

  3.1 各平台@@数据@@模式对@@比@@

  表@@2中@@的@@@@13个@@开放数据@@平台@@中@@有@@8个@@给出了模式定义@@, 其中@@@@广东和@@东莞没有@@“类@@型定义@@” (质量差@@) , 其余@@6家的@@对@@比见表@@@@@@3。普遍存在的@@问题@@是@@字段@@的@@英文命名@@不规范@@、数据@@类@@型单一和@@数值型数据@@无单位@@@@, 规范的@@做法是@@统一采用英文单词命名@@@@、区分各种@@数据@@类@@型@@ (文本@@、枚举@@、布尔型@@、数值与@@日@@期@@等@@@@) 及@@将@@@@“单位@@”单独定义为@@一列@@@@等@@@@。

表@@3 各平台@@数据@@模式的@@对@@比@@

TSGT201901007_23800 (1).jpg

  数据@@模式定义@@的@@缺陷或@@缺失是@@实例@@层@@在@@“一致性@@”和@@“规范性@@”等@@维度的@@质量问题@@的@@根源@@, 因此@@“数据@@模式质量@@”在整个@@开放数据@@质量@@@@管理中@@处于@@基础性位置@@, 应优先得到提升和@@保@@障@@。

  3.2 北京的@@@@数据@@质量@@问题@@@@

TSGT201901007_24100 (1).jpg

  图@@8 北京市存在的@@主要脏数据@@@@类@@型@@ (前@@10名@@)

  在调查的@@北京市@@726个@@开放数据@@集中@@@@, 出现次@@数最多的@@质量问题@@是@@@@“数据@@值缺失@@” (D17) , 共有@@311个@@数据@@集存在不同程度的@@数据@@不完整现象@@@@。接下来是@@@@“数据@@过于@@笼统@@” (D8) 、“不合理值@@或@@错误值@@” (D10) 、“未知值表@@达@@不一致@@” (D14) 及@@“一列@@@@的@@数据@@格式@@不一致@@” (D15) 等@@, 见图@@@@8。调查共发现@@631个@@质量问题@@@@, 按照@@正确性@@@@、完整性@@、规范性@@和@@开放性@@等@@八个@@维度@@统计占@@比@@@@, 结果见图@@@@@@9。其中@@@@, 完整性@@问题@@的@@比例最高@@, 达@@49%;其次@@是@@正确性@@问题@@@@, 占@@18%。

TSGT201901007_24300 (1).jpg

图@@9 北京市各维度质量问题@@占@@比@@@@

  3.3 上@@海@@的@@数据@@质量@@问题@@@@

TSGT201901007_24500 (1).jpg

  图@@10 上@@海@@市存在的@@主要脏数据@@@@类@@型@@ (前@@10名@@)

  上@@海@@市的@@用户评价机制从@@准确性@@@@、及@@时性@@、满意性和@@可用性@@等@@方面对@@数据@@集打分@@, 得分一星到五星的@@数据@@集共@@324个@@。调查结果见图@@@@@@@@10, 出现的@@质量问题@@依次@@是@@@@“数据@@值缺失@@” (D17) 、“不合理值@@或@@错误值@@” (D10) 、“数据@@陈旧或@@过时@@” (D19) 、“一列@@@@的@@数据@@格式@@不一致@@” (D15) 及@@“数据@@过于@@笼统@@” (D8) 等@@。发现的@@@@324个@@质量问题@@@@在八个@@维度上@@的@@分布情况见图@@@@@@11, 排在前@@两位的@@同样是@@完整性@@问题@@@@ (30%) 和@@正确性@@问题@@@@ (20%) 。

TSGT201901007_24700 (1).jpg

图@@11 上@@海@@市各维度质量问题@@的@@占@@比@@@@

  3.4 哈尔滨的@@数据@@质量@@问题@@@@

  哈尔滨市的@@数据@@开放@@专栏于@@@@2016年@@底上@@线@@, 据媒体报道@@, 其整体水平处于@@全国前@@列@@@@。通过@@对@@@@672个@@数据@@集的@@@@调查@@, 较多的@@质量问题@@是@@@@“数据@@值缺失@@” (D17) 、“数据@@过于@@笼统@@” (D8) 、“不合理值@@或@@错误值@@” (D10) 、“同一数据@@集的@@@@不同格式文件的@@数据@@不一致@@” (D16) 及@@“一列@@@@的@@数据@@格式@@不一致@@” (D15) 等@@, 见图@@@@12。发现的@@@@760个@@质量问题@@@@在八个@@维度上@@的@@分布情况见图@@@@@@13, 其中@@@@正确性@@问题@@突出@@, 占@@32%, 其次@@是@@完整性@@问题@@@@, 占@@30%。

TSGT201901007_25000 (1).jpg

图@@12 哈尔滨市存在的@@主要脏数据@@@@类@@型@@ (前@@10名@@)

TSGT201901007_25100 (1).jpg

图@@13 哈尔滨市各维度质量问题@@的@@占@@比@@@@

  3.5 三地@@对@@比@@

  从@@全部被调查数据@@集的@@@@五个@@方面@@:无问题@@的@@数据@@集个@@数@@占@@比@@@@、有一个@@问题@@@@的@@数据@@集个@@数@@占@@比@@@@、有两个@@问题@@@@的@@数据@@集个@@数@@占@@比@@@@、有两个@@以上@@问题@@的@@数据@@集个@@数@@占@@比@@及@@平均一个@@数据@@集的@@@@问题@@个@@数@@@@ (问题@@个@@数@@/数据@@集个@@数@@) , 对@@三地@@进行@@对@@比@@, 结果见表@@@@@@4和@@图@@@@14。可见@@, 总体上@@北京和@@上@@海@@的@@数据@@集质量状况相当@@, 要好于@@哈尔滨@@。

表@@4 三地@@各类@@数据@@集的@@@@占@@比@@@@@@

TSGT201901007_25400 (1).jpg

TSGT201901007_25500 (1).jpg

  图@@14 三地@@各类@@数据@@集占@@比@@的@@对@@比图@@@@

  进一步@@, 从@@表@@@@1选出严重影响用户可用性@@的@@两组六类@@质量问题@@@@@@:“正确性@@”下的@@@@D10 (不合理值@@或@@错误值@@) 、D11 (列@@与@@列@@的@@值@@的@@位置相互串位@@) 和@@D12 (出现乱码@@) , “开放性@@”下的@@@@D26 (文件格式不是@@机器可读的@@@@@@) 、D27 (数据@@不能被下载@@) 和@@D28 (不是@@原始数据@@@@) , 对@@比三地@@至少有一个@@质量问题@@@@的@@数据@@集个@@数@@的@@占@@比@@@@, 见表@@@@5。可见@@, 北京的@@@@“不可用@@”数据@@集的@@@@占@@比@@@@要明显少于@@上@@海@@和@@哈尔滨两地@@。

表@@5 三地@@“不可用@@”数据@@集的@@@@占@@比@@@@

TSGT201901007_25700 (1).jpg

  需要说明的@@是@@@@, 由于@@方法@@ (见第@@2节@@) 的@@局限@@、技术手段的@@不足@@、数据@@过时及@@背景材料的@@缺乏等@@@@, 笔者不可能发现所有的@@质量问题@@@@ (特别是@@正确性@@问题@@@@) , 发现的@@@@质量问题@@其危害程度也会因用户需求的@@不同而@@有差异@@。

  4 对@@策建议@@@@

  提升和@@保@@障数据@@质量@@@@@@是@@我国@@政府@@数据@@共享开放工程的@@核心工作之一@@@@。《“十三五@@”国家信息化规划@@》在强化数据@@资源管理@@、推进数据@@开放@@部分指出@@, 要加强@@“数据@@资源目录管理@@、整合管理@@、质量管理@@、安全管理@@, 提高数据@@准确性@@@@、可用性@@、可靠性@@”[34]。我国@@各级政府@@的@@开放数据@@政策文件对@@@@“数据@@质量@@”的@@规定@@包括数据@@校核@@、数据@@质量@@评估@@、数据@@生命周期的@@质量管理@@和@@数据@@弄虚作假行@@为处理等@@@@[35]。本文仅从@@借鉴各国先进经验的@@角度@@, 提出以下可操作层面的@@对@@策建议@@@@@@。

  4.1 发布之前@@的@@数据@@清洗@@@@@@

  “数据@@清洗@@@@” (Data Cleaning) 是@@为提高数据@@质量@@@@而@@对@@数据@@进行@@预处理的@@过程@@@@[36]。数据@@仓库装载数据@@之前@@要进行@@数据@@清洗@@@@@@[15], 在大数据@@@@的@@@@质量管理@@中@@@@, 数据@@清洗@@@@也起到了关键作用@@[5]。在开放政府@@数据@@@@领域@@@@, 澳大利亚@@等@@在数据@@发布周期中@@引入了@@“数据@@清洗@@@@”环节@@@@[37], 用以实现各字段@@@@ (如@@日@@期@@@@、年@@龄和@@邮政编码等@@@@) 的@@格式统一@@、空值补齐及@@非文本@@信息移除等@@@@, 见图@@@@15。

TSGT201901007_26400 (1).jpg

图@@15 数据@@清洗@@@@前@@后对@@比图@@@@ (澳大利亚@@)

  各级政府@@通过@@合适的@@技术@@、工具@@、规范和@@工作流程@@, 可以@@“清洗@@”表@@1中@@“正确性@@” (D9—D12) 、“一致性@@” (D13—D15) 、“完整性@@” (D17) 、“唯一性@@” (D20) 和@@“规范性@@” (D21—D24) 等@@维度下的@@@@@@10余种@@@@“脏数据@@@@”, 有效提升数据@@质量@@@@。数据@@管理部门将@@数据@@文件转化为开放标准下的@@@@机器可读格式@@ (如@@CSV、XML和@@JSON等@@) , 可以@@提升数据@@的@@@@开放程度@@, 解决@@D25和@@D26这两个@@质量问题@@@@@@。

  用来消除原始数据@@中@@敏感信息的@@数据@@脱敏技术@@, 可以@@有效防范隐私泄露问题@@@@@@ (D29) 。2016年@@9月@@28日@@贵州省质监局发布的@@@@《政府@@数据@@数据@@脱敏工作指南@@》地方标准@@[38], 规范了数据@@脱敏的@@方法@@、过程@@、技术原则和@@管理原则@@。北京对@@敏感数据@@@@, 如@@29家医院的@@@@176万个@@病例@@, 经脱敏处理后向特定用户开放@@[39]。

  4.2 采用标准规范@@

  在数据@@清洗@@@@过程@@中@@@@, 需要标准规范指导@@“数据@@格式@@统一@@”等@@操作@@。爱尔兰@@“开放数据@@技术框架@@”采用了@@30余项标准@@[40], 部分见表@@@@@@6。

表@@6 爱尔兰@@采用的@@部分标准规范@@

TSGT201901007_27300 (1).jpg

  我国@@各地也应遵循国家标准@@GB/T 7408和@@GB/T 12406等@@来规范@@“日@@期@@/时间@@”和@@“币值@@”等@@数据@@的@@@@取值格式和@@内容@@。

  4.3 质量检查@@

  新西兰政府@@机构在@@Data.govt.nz上@@开放数据@@前@@要进行@@质量检查@@@@[41,42], 包括开放许可@@、数据@@格式@@、更新时间@@和@@是@@否删除任何个@@人身份信息等@@@@。美国交通@@部对@@开放数据@@质量@@@@的@@评价共有@@两个@@维度下的@@@@@@10个@@问题@@@@, 满分是@@@@35, 见表@@@@7[42,43]。

表@@7 美国交通@@部开放数据@@质量@@@@检查表@@@@

TSGT201901007_27700 (1).jpg

  英国和@@欧盟还建议@@用户在使用开放数据@@前@@进行@@@@“质量检查@@”[44]: (1) 数据@@是@@当前@@的@@吗@@? (2) 多久更新一次@@@@? (3) 是@@否理解数据@@的@@@@字段@@和@@背景@@? (4) 了解数据@@的@@@@准确程度吗@@? (5) 丢失的@@数据@@是@@如@@何处理的@@@@?等@@。

  本文得出的@@@@“OGD领域@@脏数据@@@@分类@@@@” (表@@1) 的@@成果@@, 可以@@帮助政府@@部门设计@@“有的@@放矢@@”的@@数据@@质量@@检查@@表@@@@。

  4.4 提供完备的@@元数据@@@@@@

  Sadiq S等@@[7]认为@@“开放数据@@质量@@@@”存在着三方面的@@挑战@@, 即@@“对@@数据@@质量@@维度的@@共同理解@@”“支持用户的@@质量感知@@”及@@“加强数据@@质量@@与@@使用之间的@@联结@@”。W3C“最佳实践@@”建议@@“以机器可读的@@元数据@@@@向用户提供质量信息@@” (BP6) [25]。美国的@@开放数据@@元数据@@方案引进了元数据@@项@@“Data Quality”, 取值为@@true或@@false, 用于@@指出数据@@集是@@@@否符合某一质量准则@@[45]。

  元数据@@可以@@帮助用户判别数据@@的@@@@时效性@@@@, 但@@需要足够的@@元数据@@@@信息@@。可以@@借鉴的@@例子是@@世界银行@@开放数据@@网站@@@@ (Data.worldbank.org) 提供了四个@@与@@时间@@相关的@@元数据@@@@项@@:“Periodicity Annual” (周期性@@) 、“Last Updated” (最后@@更新时间@@@@) 、“Update Frequency” (更新频率@@) 和@@“Update Schedule” (更新计划@@) , 足以让用户判断数据@@是@@否是@@最新的@@@@。

  5 结语@@

  党的@@十九大报告提出@@“推动互联网@@@@、大数据@@@@、人工智能和@@实体经济@@深度融合@@”的@@战略@@举措@@, 政府@@数据@@将@@迎来加快共享开放和@@深度应用的@@新时代@@。本文将@@视角深入到@@13个@@开放政府@@数据@@@@平台@@的@@数据@@本身@@, 细致探查其中@@@@存在的@@主要质量问题@@@@, 归纳出@@模式层@@和@@实例@@层@@@@29类@@“脏数据@@@@”, 对@@北京@@、上@@海@@和@@哈尔滨三地@@进行@@整体分析@@, 统计出质量问题@@的@@分布情况@@。最后@@, 结合各国的@@实践经验@@, 笔者建议@@依据标准规范@@、通过@@“数据@@清洗@@@@”“质量检查@@”等@@手段在数据@@发布过程@@中@@消除@@“脏数据@@@@”, 同时也要向用户提供丰富的@@元数据@@@@信息@@, 以帮助其判断数据@@质量@@@@。本文在研究中@@综合运用网络调查和@@数据@@分析等@@方法@@, 参照开放数据@@原则@@、标准规范和@@法律法规等@@@@, 在开放性@@和@@隐私泄露等@@方面发现了容易被忽视的@@质量问题@@@@。开放不等@@于@@高质量@@, 我国@@政府@@开放数据@@要成为权威的@@数据@@来源@@@@, 真正发挥应有的@@社会和@@经济@@效用@@, 还需在质量保障和@@提升上@@付出巨大努力@@。

  参考文献@@:略@@

责任编辑@@:qinpeng