一@@、 现状与问题@@

  政府@@信息@@公开@@@@@@与数据@@开@@放@@@@@@的@@关系是@@什么@@?这不仅是@@一@@个政策@@问题@@,也是@@一@@个理论问题@@。

  2008年@@《政府@@信息@@公开@@@@@@条例@@》正式颁布后@@,我国逐步形成以国务院办公厅为全国主管部门@@@@,县级以上地方人民政府@@办公厅@@(室@@)为主管单位的@@政府@@信息@@公开@@@@@@行政管理体系@@,政府@@网站@@成为信息@@公开@@@@@@的@@@@“第一@@@@平台@@@@”。近年@@来@@,我国部分地方政府@@在@@借鉴英@@美@@国@@家经验基础上@@,初步建设了数据@@开@@放@@@@@@平台@@@@,相关情况如下表@@1所示@@。

续表@@

  地方数据@@开@@放@@@@@@平台@@的@@牵头@@或@@负责部门主要是@@政府@@办公厅@@(室@@)或@@信息@@@@(化@@)主管部门@@,前者沿袭政府@@网站@@@@、信息@@公开@@@@@@等@@行政职责@@,后者则将其定位为政务@@信息@@化@@的@@一@@部分@@@@。大部分数据@@开@@放@@@@@@网站@@(栏目@@)独立于@@政府@@信息@@公开@@@@@@栏目@@@@,少数将数据@@开@@放@@@@@@置于@@信息@@公开@@@@@@栏目@@下@@;两个栏目@@之间往往存在@@交集@@,比如@@上海市@@“数据@@服务网@@”提供了诸如权力清单@@、事业单位招录信息@@等@@通常被纳入信息@@公开@@@@@@的@@内容@@,武汉市信息@@公开@@@@@@和@@数据@@开@@放@@@@@@网站上都有公共财政预算表和@@数据@@@@,浙江省政府@@公报也同时@@@@在@@两个栏目@@出现@@;“信息@@”和@@“数据@@”在@@平台@@上经常混用@@。虽然各地实践仍在@@摸索之中@@,但上述现象@@至少说明@@,实务部门对@@@@“数据@@开@@放@@@@@@”和@@“信息@@公开@@@@@@”的@@定义@@和@@关系尚未形成明确@@、统一@@的@@认识@@。

  我国政府@@在@@政策@@中较少对@@概念进行严格定义@@@@。《政府@@信息@@公开@@@@@@条例@@》虽然界定了政府@@信息@@即@@@@“行政机关在@@履行职责过程@@中制作或@@者获取的@@@@,以一@@定形式@@记录@@@@、保存的@@信息@@@@”,但是@@@@没有定义@@信息@@是@@@@什么@@。近年@@来@@理论界对@@数据@@开@@放@@@@@@的@@研究@@,主要是@@针对@@国内外@@观点@@和@@政策@@实践的@@总结@@,并试图构建与其他相关政策@@@@(比如@@信息@@公开@@@@@@@@)相区别的@@理论范式和@@政策@@理念@@,却有意或@@无意地造成在@@数据@@开@@放@@@@@@和@@信息@@@@公开@@@@@@关系上的@@模糊不清@@:试图在@@技术可行性@@、数据@@结构@@等@@方面对@@数据@@与信息@@做出区分@@,但不得不应对@@由@@“非结构@@化@@@@”数据@@带来的@@困扰@@。文献中的@@研究对@@象往往是@@有选择性的@@@@:一@@些拥有大量@@“原生@@”数据@@尤其是@@数值数据@@的@@政府@@部门往往是@@研究典范@@,如气象@@、交通等@@部门@@;其他数据@@集@@则可能因为较易造成混淆而@@鲜有讨论@@,比如@@政府@@预算究竟属于@@信息@@还是@@数据@@@@?

  数据@@和@@信息@@@@都是@@政府@@管理中的@@@@“非物质@@资源@@@@”,虽然在@@日常工作中常常混用@@,但是@@@@一@@旦涉及制度化@@就必须明确它们的@@内涵及其关系@@。如果说@@,政府@@信息@@公开@@@@@@平台@@发布的@@就是@@信息@@@@,数据@@开@@放@@@@@@平台@@发布的@@就是@@数据@@@@,显然颠倒了逻辑关系@@。如果说@@,信息@@公开@@@@@@侧重于@@政治权利@@@@,数据@@开@@放@@@@@@倾向于@@经济效益@@,这似乎只是@@学术或@@政策@@营销上有意放@@大的@@差别@@,因为在@@管理上其实很难区分政治价值和@@经济价值的@@明确界限@@。如果说@@,数据@@和@@信息@@@@的@@本体差别才能诠释两者关系@@,那么就必须搞清楚究竟哪些属于@@政府@@数据@@@@,哪些属于@@政府@@信息@@@@。由此@@引申的@@是@@数据@@传播和@@信息@@@@传播@@,数据@@平台@@和@@信息@@@@平台@@在@@概念和@@技术架构上的@@区别是@@什么@@?深究概念的@@目的@@不是@@为了做无谓争辩@@,而@@是@@在@@讨论政策@@对@@象时@@至少能够对@@@@“讨论的@@究竟是@@什么@@”达成共识@@。

  二@@、 文献讨论@@

  (一@@)政府@@数据@@开@@放@@@@@@和@@信息@@@@公开@@@@@@关系的@@三@@种视角@@

  第一@@@@,政府@@行政管理的@@视角@@。文献以网络平台@@为研究对@@象@@,将平台@@作为区分数据@@和@@信息@@@@的@@标志@@。这种视角尽管有助于@@微观实证研究@@,但是@@@@由于@@管理体系仍在@@探索之中@@,简单将政策@@概念和@@平台@@划上等@@号@@不仅颠倒了逻辑关系@@,也无助于@@提供深入的@@认知@@。

  第二@@@@,政策@@目标或@@价值差异的@@视角@@。有观点@@认为@@,政府@@信息@@公开@@@@@@强调公众知情@@权@@和@@政府@@透明度@@,公开@@@@本身是@@目标@@,主要考虑政治价值@@;开@@放@@@@数据@@@@的@@重心是@@开@@发数据@@@@,更看重经济价值@@,重视政府@@和@@用户双方面的@@价值实现@@。由于@@传统信息@@公开@@@@@@研究主要是@@在@@法学背景下探讨信息@@资源@@的@@权力分配@@,数据@@开@@放@@@@@@则在@@互联网@@和@@大数据@@背景下讨论数据@@资源@@的@@社会化@@增值@@,所以这个观点@@对@@理解信息@@政策@@和@@相关研究范式变迁具有合理性@@。然而@@@@,一@@方面@@政策@@价值取向的@@差异不能用来证明@@“让公众获取政府@@信息@@以使政府@@更透明@@”和@@“让公众获取数据@@以让政府@@数据@@增值@@”之间在@@逻辑和@@管理机制上存在@@显著差别@@;另一@@方面@@@@既然开@@放@@@@数据@@@@的@@支持者也同意@@,数据@@要转换成信息@@才能产生经济或@@政治价值@@,那么显然不能简单断定政府@@信息@@公开@@@@@@不能产生经济价值@@。强调价值差异在@@某种程度上是@@刻意地将两者放@@在@@不同的@@技术@@、政治和@@历史背景下而@@已@@。还有人提出@@“政府@@信息@@公开@@@@@@一@@经公布就再无下文@@”,“数据@@开@@放@@@@@@是@@数据@@流动@@”。这似乎混淆了概念@@、制度以及制度落实之间的@@差别@@。

  第三@@@@,数据@@和@@信息@@@@关系的@@视角@@。主要存在@@以下观点@@@@。首先@@将数据@@视为信息@@@@。信息@@公开@@@@@@学者认为@@,《政府@@信息@@公开@@@@@@条例@@》对@@政府@@信息@@的@@定义@@过于@@狭窄@@,导致政府@@数据@@作为承载政府@@履行职能过程@@中所收集到的@@原始@@信息@@@@,可能被排除@@在@@政府@@信息@@定义@@之外@@@@。其次@@@@将信息@@视为数据@@@@。信息@@政策@@专家指出@@,数据@@是@@原始@@的@@@@,未经加工@@的@@@@,不具有明确意义@@的@@@@,信息@@是@@@@经过人为解读@@和@@二@@次@@加工@@的@@并被赋予意义@@的@@数据@@@@。这种观点@@没有进一@@步界定@@“原始@@”、“加工@@”、“意义@@”等@@概念@@,也就无法给出明晰的@@边界@@。再次@@@@,数据@@是@@信息@@的@@载体@@@@。情报学文献同意信息@@是@@@@数据@@@@@@,开@@放@@@@数据@@@@是@@原生@@数据@@@@,而@@数据@@是@@信息@@的@@载体@@@@@@。理论上数据@@与信息@@具有层次@@递进关系@@,实际使用中信息@@也可能是@@数据@@@@。这种概念@@“循环@@”与其说是@@理论和@@实践间的@@矛盾@@,不如说是@@界定的@@逻辑本身存在@@缺陷@@。最后@@,技术决定@@论@@。电子政务@@专家认为@@,过去的@@@@“窄带@@”只能提供信息@@@@(公开@@@@),现在@@基于@@宽带可以开@@放@@@@更多@@数据@@资源@@@@。显然技术可行性不能用来说明制度差异@@,信息@@公开@@@@@@制度在@@前互联网@@时@@代就已经存在@@了@@。

  上述前两种视角持有特定价值取向@@,却无法说明实质的@@差别@@;第三@@@@种视角虽然抓住问题关键@@,但依然没有厘清@@“数据@@”和@@“信息@@”之间关系@@。究其根源@@,无论学术界和@@实务界都从资源@@管理角度将信息@@和@@数据@@看作是@@以不同形式@@存在@@的@@非物质@@资源@@@@@@,因而@@各自产生@@、存储@@、传播和@@展现@@——人们能够@@“左眼@@”看信息@@@@,“右眼@@”看数据@@@@。

  (二@@)对@@“数据@@开@@放@@@@@@”政策@@运动@@中若干原则的@@分析@@@@

  公共管理研究对@@数据@@和@@信息@@@@的@@关注@@主要始于@@电子政务@@研究@@。电子政务@@的@@跨学科特性导致文献中常常将数据@@和@@信息@@@@作为默认概念不做详细分析@@@@。数据@@开@@放@@@@@@兴起后@@,国外@@学者和@@国际组@@织提出的@@若干观点@@成为学界和@@政界评判数据@@开@@放@@@@@@的@@基本条件@@。这些条件原本只是@@界定什么是@@@@“好@@”的@@数据@@开@@放@@@@@@@@,但却常常被视为数据@@@@(开@@放@@@@)的@@基本特征@@并与信息@@@@(公开@@@@)相区分@@。

  这里@@讨论两组@@经典观点@@@@。第一@@@@组@@是@@@@“开@@放@@@@政府@@@@工作组@@@@”(简称@@OGWG)提出的@@八项基本条件@@:完整性@@、原生@@性@@、及时@@性@@、可获取性@@、可机读@@性@@、非歧视性@@、非私有性和@@免于@@授权@@。不难发现@@,除@@“原生@@性@@”和@@“可机读@@性@@”外@@,其余都与数据@@本身性质无关@@,而@@是@@资源@@的@@权利@@分配原则@@。第二@@@@组@@是@@@@“互联网@@之父@@”伯纳思@@·李的@@@@“五星@@数据@@@@”,这被认为是@@开@@放@@@@数据@@@@的@@重要标准@@@@:一@@星级即@@在@@互联网@@上可获取的@@数据@@@@,二@@星级即@@可获取的@@结构@@化@@@@、可机读@@的@@数据@@@@,三@@星级即@@基于@@非专有格式的@@二@@星级数据@@@@,四@@星级@@即@@符合@@W3C开@@放@@@@标准@@的@@三@@星级数据@@@@,五星@@级即@@在@@四@@星级@@基础上提供与其他主体@@@@(包括政府@@@@)的@@数据@@集@@产生关联的@@背景数据@@@@(即@@语义@@)。

  第一@@@@,可机读@@性@@。OGWG的@@界定是@@@@“结构@@合理@@(Reasonably Structured)”且@@可被自动@@处理@@@@。这个界定除@@了表明数据@@以电子形式@@存在@@外@@@@,并没有给出清晰的@@内涵@@。首先@@,所谓@@“结构@@合理@@”是@@不明确的@@@@。OGWG特别指出@@“自由@@格式@@(Free-form)”或@@者以图像@@格式存储@@的@@文本@@是@@结构@@不合理@@的@@@@,也即@@没有预设结构@@以实现@@“自动@@处理@@”。比如@@电话号@@码和@@通讯地址通常是@@结构@@化@@的@@@@,政府@@公文同时@@@@具有结构@@化@@和@@非结构@@化@@@@成分@@,新闻报道则是@@非结构@@化@@@@的@@@@。然而@@@@“不合理@@”是@@相对@@的@@@@。一@@方面@@通过@@某种预设结构@@将数据@@组@@合成更大的@@数据@@@@(组@@),自由@@格式@@文本@@作为独立数据@@项而@@成为更大数据@@@@(结构@@)的@@组@@成部分便是@@结构@@化@@的@@@@;绝大部分的@@互联网@@资源@@至少遵循最低程度的@@元数据@@@@标准@@@@。另一@@方面@@@@,之所以要求@@“结构@@合理@@”是@@为了方便自动@@处理@@@@,然而@@@@后者其实取决于@@使用目的@@和@@采用技术@@。比如@@文本@@挖掘技术将自由@@格式@@文本@@作为基础数据@@@@;数据@@库中超长文本@@格式允许任意程度的@@文本@@存储@@在@@特定数据@@记录@@中@@。因此@@有学者指出@@,开@@放@@@@数据@@@@的@@类型包括结构@@化@@数据@@@@、半结构@@化@@数据@@和@@非结构@@化@@@@数据@@@@,但是@@@@这导致@@“结构@@”对@@于@@辨析数据@@@@(开@@放@@@@)和@@信息@@@@(公开@@@@)失去了实际意义@@@@。其次@@@@,所谓@@“自动@@处理@@”是@@狭隘的@@@@。“自动@@”的@@主体@@显然是@@指计算机@@,这是@@@@“可机读@@”的@@本义@@,即@@“可被计算机自动@@抓取@@和@@处理@@”。然而@@@@除@@非设置特定访问权限@@,互联网@@数据@@资源@@只要能够在@@客户端被访问就能够被@@“抓取@@”,能否自动@@处理@@取决于@@用户是@@否拥有技术@@,而@@非@@数据@@@@。随着技术发展@@,大部分在@@线资源@@@@,包括文本@@@@、图片@@、录音录像等@@都可转化@@为可编辑格式@@,除@@非数据@@中包含过强的@@@@“噪音@@”——这可能是@@唯一@@影响@@“自动@@处理@@”的@@因素@@,但是@@@@除@@非有特定权限要求@@,通过@@“降噪@@”来提高质量@@适用于@@所有网络资源@@@@。总之@@,“可机读@@性@@”不能作为数据@@@@(开@@放@@@@)的@@特征@@@@,而@@是@@关于@@如何@@(更好@@地@@)在@@线发布政府@@资源@@的@@技术特征@@@@。

  第二@@@@,原生@@性@@。OGWG的@@界定是@@@@数据@@必须从源头采集@@并拥有最高的@@粒度@@,不是@@聚合或@@修改的@@形式@@@@。上文介绍国内学者也认为@@“原生@@性@@”即@@“一@@手性@@”;信息@@是@@@@被加工@@处理的@@数据@@@@。然而@@@@问题在@@于@@@@,首先@@,如果说@@原生@@性@@只是@@@@“好@@”数据@@开@@放@@@@@@的@@原则@@,那么公开@@@@@@(开@@放@@@@)的@@除@@了原生@@数据@@和@@信息@@@@外@@@@,是@@否还有非原生@@数据@@@@?如果说@@信息@@是@@@@对@@数据@@加工@@的@@产物@@,那么信息@@是@@@@否即@@非原生@@数据@@@@?只要不是@@原生@@数据@@是@@否就属于@@信息@@公开@@@@@@@@?很难回答@@GDP、CPI等@@对@@经济现象@@进行计算的@@产物@@,或@@者电子商务交易数据@@衍生的@@用户偏好@@是@@数据@@或@@信息@@@@@@。如果信息@@不是@@非原生@@数据@@@@,那么两者区别是@@什么@@?无论是@@结构@@化@@标准@@还是@@其载体@@形式@@@@,比如@@数字@@@@、文本@@、图像@@、音视频等@@都无法做出区分@@。其次@@@@,信息@@也可以有原生@@性@@@@。一@@方面@@,数据@@未必经过加工@@才能提供信息@@@@。比如@@,“×”是@@一@@个图形@@数据@@@@,和@@试题放@@在@@一@@起传递了答题错误的@@信息@@@@,但是@@@@“×”未做改变@@;照片数据@@可以传递出时@@空信息@@@@;鸡蛋价格数据@@可以反映市场信息@@@@。另一@@方面@@@@,信息@@也可能直接@@“从源头采集@@”。“从源头采集@@”即@@利用数字@@@@、文字@@、图像@@、音频@@、视频等@@对@@自然或@@社会信号@@@@(现象@@、事件等@@@@)进行观察或@@调查所做的@@记录@@@@,得到诸如空间@@数据@@@@、经济数据@@等@@@@,但也可以得到信息@@@@,比如@@电视现场采访产生的@@新闻是@@数据@@还是@@信息@@@@?第三@@@@个方面是@@信息@@也可以来源@@于@@对@@已有@@“信息@@”的@@再加工@@@@,比如@@研究论文或@@报告@@基于@@前人已经完成的@@研究基础@@。再次@@@@,对@@“加工@@”也需要更清晰的@@定义@@@@。即@@便不考虑信息@@可以从数据@@加工@@之外@@的@@途径获得@@,如果说@@加工@@数据@@既可能获得数据@@@@,也可能产生信息@@@@,那么就必须对@@@@“加工@@”做出辨析@@。至少存在@@两种形式@@@@。第一@@@@是@@数学计算@@,只适用于@@数值型数据@@@@。按照@@OGWG定义@@,所有经过运算的@@结果都非原生@@@@,然而@@@@数值结果显然仍是@@所谓@@数据@@@@。第二@@@@是@@资料编辑@@,适用于@@文本@@@@、图像@@、音视频等@@类型@@,这又有两条路径@@:一@@是@@通过@@加工@@变得结构@@化@@@@,结果类似于@@数据@@@@,但如前所述@@,结构@@化@@本身不能区分数据@@和@@信息@@@@@@;二@@则相反@@,最复杂情况是@@文本@@编辑@@,既包括基于@@某种直观逻辑的@@资料整合@@(比如@@纪实新闻可以按照@@时@@间顺序罗列资料@@),也包括基于@@理论模式的@@分析@@@@(比如@@政策@@解读@@是@@综合理论和@@实践知识进行思考的@@产物@@),还包括基于@@调查后发挥创造力提出的@@解决方案@@(比如@@政策@@建议@@)等@@。如果说@@前两者在@@某种程度上仍可视为加工@@的@@产物@@,那么原创性的@@解决方案是@@否也可以具有@@“原生@@性@@”特征@@?

  第三@@@@,“五星@@”标准@@。如伯纳思@@@@·李所说@@,五星@@标准@@针对@@@@“关联数据@@@@(Linked Data)”而@@非@@“开@@放@@@@数据@@@@”。他指出@@,即@@使是@@五星@@级@@“关联数据@@@@”也不一@@定是@@@@“开@@放@@@@数据@@@@”。虽然他受邀参与英@@国@@“开@@放@@@@政府@@@@数据@@网站@@”的@@建设@@,但是@@@@作为互联网@@之父@@@@,他显然是@@在@@技术框架下讨论的@@@@,没有刻意区分信息@@和@@数据@@@@。他更关心如何让互联网@@上沉淀的@@数据@@通过@@互操作产生更大价值@@。对@@“四@@星级@@”的@@定义@@做出了明确阐述@@:数据@@应当遵循@@“资源@@描述框架@@(RDF)”,并使用@@“统一@@资源@@标识@@(URI)”作为资源@@名称@@。对@@此@@的@@通俗解释是@@@@,应当建立一@@套统一@@标准@@来组@@织互联网@@数据@@资源@@@@,让数据@@遵循同样的@@@@“语法@@”而@@实现互相@@“沟通@@”和@@快速检索@@。在@@伯纳思@@眼里@@,无论是@@一@@篇新闻报道@@,数字@@记录@@或@@博客@@,无论采用什么格式@@,无论是@@否结构@@化@@@@,无论是@@否开@@放@@@@@@,都是@@互联网@@数据@@资源@@@@。事实@@上@@,“开@@放@@@@数据@@@@”在@@IT界的@@历史远早于@@政府@@@@。“开@@放@@@@数据@@@@”是@@与@@“开@@(放@@)源代码@@(Open Source)”相对@@应的@@@@,而@@“开@@放@@@@政府@@@@”被认为部分借鉴了@@“开@@源@@”运动@@的@@理念和@@方法@@。“开@@源@@”运动@@起源于@@@@“自由@@软件@@(Free Software)”运动@@,后者兴起于@@上世纪@@80年@@代初@@。开@@源@@促使将越来越多数据@@发布到网上@@,并提倡@@“自由@@使用数据@@@@、自由@@研究数据@@并依据自己的@@需要修改它@@”。“开@@放@@@@政府@@@@”三@@大特征@@@@,即@@透明性@@、参与性@@、合作性@@,恰是@@开@@源@@软件所提倡的@@@@,而@@美@@国@@也曾提出开@@放@@@@其数据@@开@@放@@@@@@平台@@的@@源代码@@@@。

  (三@@)英@@、美@@两国政策@@@@中的@@定义@@@@

  美@@国@@《信息@@自由@@法@@》于@@1967年@@获得通过@@@@,迄今有近@@50年@@历史@@;政府@@数据@@开@@放@@@@@@政策@@始于@@@@2009年@@奥巴马总统发布的@@主题为@@@@“透明与开@@放@@@@政府@@@@@@”(Transparency and Open Government)的@@备忘录@@,要求由政府@@首席技术官@@(CIO)牵头@@,和@@管理与预算办公室@@@@(OMB)、总务署@@(AGS)一@@同协调其他部门根据@@《信息@@自由@@法@@》制定@@《开@@放@@@@政府@@@@指令@@》(OGD)。2000年@@,OMB修订@@《行政通告第@@A-130号@@》(?OMB Circular A-130),全面阐述了美@@国@@联邦政府@@信息@@资源@@管理政策@@@@,其中@@将@@“信息@@”定义@@为@@“对@@在@@文本@@@@、数字@@、图形@@、制图@@、叙述或@@视听等@@任何媒介或@@格式中的@@事实@@@@(Facts)、数据@@或@@观点@@@@(Opinions)等@@知识的@@任何沟通@@@@(Communication)和@@陈述@@(Representation)”。这里@@“信息@@”既不是@@数据@@也不是@@知识@@,而@@是@@建立在@@数据@@基础上传递知识的@@产物@@。2005年@@,美@@国@@政府@@发布@@《数据@@参考模型第二@@@@版@@》(The Data Reference Model Version 2.0),特别提到@@“数据@@”是@@“一@@个或@@一@@组@@反映一@@个或@@一@@些特定概念的@@值@@”,“如果对@@某个数据@@@@(或@@与其他数据@@联合起来@@)进行分析@@并从中获取其含义和@@提供语境@@,就能形成信息@@@@”。2009年@@,《开@@放@@@@政府@@@@指令@@》(OGD)规定行政部门分四@@步实现开@@放@@@@政府@@@@使命@@,其中@@第@@一@@步@@“在@@线开@@放@@@@政府@@@@信息@@@@”中指出@@,为促进公众知情@@参与以及创造经济机会@@,所有机构必须按照@@@@“开@@放@@@@格式@@(Open Formats)”开@@放@@@@格式@@即@@支持检索@@、下载@@、索引以及商业搜索@@引擎的@@查找@@,并符合平台@@独立@@、可机读@@的@@和@@可复用@@。在@@线主动提供信息@@@@,包括在@@政府@@数据@@网@@(Data.gov)发布高质量@@数据@@集@@@@。2012年@@,美@@国@@政府@@发布@@《数字@@政府@@@@:构建更好@@服务美@@国@@人民的@@@@21世纪平台@@@@》(Digital Government: Building a 21st Century Platform to Better Serve the American People)报告@@,其中@@“数字@@政府@@@@”模型中的@@信息@@层被分为数据@@@@(即@@结构@@化@@信息@@@@)和@@内容@@(即@@非结构@@化@@@@信息@@@@@@)两方面@@。2013年@@,主题为@@“开@@放@@@@数据@@@@政策@@@@——管理信息@@资产@@”(Open Data Policy-Managing Information as an Asset)的@@OMB备忘录指出@@,非结构@@化@@@@信息@@@@(即@@内容@@),比如@@新闻稿和@@事实@@性表格@@(fact sheets)等@@,也可转换为结构@@化@@数据@@@@,比如@@基于@@网页的@@事实@@表格可以分解成标题@@、正文@@、图片@@和@@相关链接等@@数据@@片段@@。

  尽管直到@@2000年@@才通过@@@@《信息@@自由@@法@@》且@@2005年@@才正式生效@@,英@@国政府@@在@@开@@放@@@@政府@@@@数据@@运动@@中十分积极@@。2014年@@,英@@国政府@@出版的@@@@《关于@@公共部门信息@@的@@英@@国政府@@许可框架@@》(UK Government Licensing Framework for Public Sector Information)“对@@许可使用和@@复用公共部门信息@@做出政策@@和@@法律上的@@安排@@”,并承诺在@@@@“版权@@”和@@“数据@@库权@@(Database Right)”前提下对@@社会开@@放@@@@公共部门信息@@@@,其意义@@包括促进创新互动以提高社会和@@经济效益@@,增加工@@作机会等@@@@。其中@@“信息@@”在@@形式@@上包括数据@@@@、公共部门网站上的@@文本@@@@、年@@度报告@@@@、统计@@、图表@@、图形@@、图像@@和@@软件等@@@@,在@@范围上则从空间@@和@@气候数据@@@@、健康和@@犯罪记录@@到各种照片@@,还包括由公共部门开@@发的@@开@@源@@软件和@@代码@@。2012年@@,英@@国政府@@颁布@@《自由@@保护法@@》(Protection of Freedoms Act),其中@@第@@102条修订@@了@@《信息@@自由@@法@@》,规定当申请者向政府@@部门申请的@@信息@@是@@@@该部门拥有的@@@@“数据@@集@@”时@@,只要合理可行@@,该部门应提供这些信息@@的@@电子版本@@。所谓@@“数据@@集@@”即@@以电子形式@@存在@@的@@包含@@“事实@@(factual)信息@@”的@@“信息@@集合@@(collection)”;而@@所谓@@@@“事实@@信息@@@@”不包括经过@@“分析@@(Analysis)”或@@“解读@@(Interpretation) ”的@@产品@@(数学计算除@@外@@@@),也不包括官方统计@@@@,而@@是@@仍然处于@@未被组@@织和@@调整或@@尚未在@@物理上发生改变的@@状态@@。2012年@@《开@@放@@@@数据@@@@白皮书@@:释放@@潜能@@》(Open Data White Paper: Unleashing the Potential)中定义@@数据@@是@@@@“被假定为事实@@的@@定性或@@定量的@@陈述或@@数字@@@@,但不是@@分析@@和@@解读@@的@@产物@@”,信息@@是@@@@“对@@数据@@进行总结@@、解读@@或@@陈述以获取@@(其中@@)含义的@@过程@@的@@产物@@”。

  综上所述@@,美@@、英@@政府@@数据@@开@@放@@@@@@政策@@是@@在@@@@《信息@@自由@@法@@》的@@法律框架下制定@@的@@@@。《信息@@自由@@法@@》在@@立法层面@@,开@@放@@@@数据@@@@则在@@行政层面@@,是@@《信息@@自由@@法@@》在@@行政上的@@延伸@@,数据@@集@@的@@开@@放@@@@无论从法律还是@@形式@@上都是@@信息@@公开@@@@@@@@(自由@@)的@@一@@部分@@。数据@@或@@信息@@@@开@@放@@@@@@(公开@@@@)的@@目的@@都包含政治诉求@@(公众知情@@权@@)和@@经济利益@@。同时@@@@开@@放@@@@性@@、可机读@@性@@等@@不仅是@@开@@放@@@@数据@@@@@@,也是@@现有技术条件下实现信息@@公开@@@@@@@@(自由@@)的@@基本要求@@。在@@基本概念上@@,美@@国@@将信息@@分为结构@@化@@数据@@和@@非结构@@化@@@@内容@@,英@@国将所有对@@事实@@的@@定量或@@定性陈述或@@数字@@都视为数据@@@@。虽然两者存在@@差别@@,但都认为信息@@是@@@@对@@数据@@分析@@和@@解读@@的@@产物@@。不过所谓@@分析@@和@@解读@@依然模糊@@。比如@@,对@@于@@一@@篇完全白描事实@@的@@新闻报道@@,一@@篇对@@该新闻的@@分析@@以及一@@篇上述事实@@和@@分析@@的@@合集@@,应当如何归类呢@@?

  三@@、 对@@数据@@和@@信息@@@@概念与关系的@@理论重构@@

  (一@@)概念重构@@

  综合上述讨论@@,辨析信息@@公开@@@@@@和@@数据@@开@@放@@@@@@的@@关键在@@于@@信息@@和@@数据@@的@@关系@@,这要求对@@信息@@和@@数据@@给出严格定义@@@@。对@@此@@,一@@则不能陷入概念@@“循环@@”,二@@则应与技术@@、权利@@、结构@@、政策@@目标等@@无关@@,三@@则应当适用于@@所有资源@@类型或@@格式@@。

  本研究认为@@,数据@@是@@按照@@一@@定的@@形式@@规则和@@意义@@规则@@对@@若干符号@@@@进行排列组@@合并且@@反映另一@@事物@@属性@@的@@产物或@@呈现物@@;信息@@是@@@@数据@@@@载荷@@或@@记录@@另一@@事物@@属性@@的@@内容或@@意义@@@@,符号@@@@是@@数据@@呈现的@@形式@@@@,两者分别构成数据@@的@@信息@@属性@@和@@物质@@属性@@@@;数据@@可以在@@不同符号@@@@体系之间转换@@,从而@@使信息@@得以传播@@。详细讨论将另文再述@@,这里@@仅指出@@,要理解数据@@和@@信息@@@@的@@本质@@,关键是@@处理好@@数据@@@@、信息@@、符号@@@@以及事物之间的@@关系@@。

  第一@@@@,数据@@不是@@符号@@@@@@,而@@是@@符号@@@@排列的@@产物或@@呈现物@@。现有对@@数据@@的@@定义@@很多@@,可参见有关文献@@。马费成的@@定义@@较有代表性@@,即@@数据@@是@@@@“载荷@@或@@记录@@信息@@的@@按照@@一@@定规则排列组@@合的@@物理符号@@@@@@”。这个定义@@明确指出了数据@@与符号@@@@之间存在@@必然联系@@,而@@且@@符号@@@@具有物理性或@@物质@@性@@。符号@@@@可能是@@自然物@@,更多@@是@@人工设计产物@@,比如@@数字@@@@、文字@@、语音@@、图像@@、图示等@@@@。但是@@@@应当注意@@,符号@@@@和@@符号@@@@排列的@@产物是@@不同的@@概念@@,如果认为符号@@@@本身载荷@@了信息@@@@,那就不需要数据@@了@@。因此@@准确的@@说@@,数据@@是@@符号@@@@排列的@@产物或@@呈现物@@,符号@@@@及其排列@@是@@人类用来记录@@数据@@的@@工具@@,赋予数据@@以形式@@@@,而@@非@@数据@@@@本身@@。同一@@数据@@可以用不同的@@符号@@@@@@(及其排列@@)体系记录@@或@@呈现@@,并在@@这些符号@@@@体系之间转移@@。比如@@用阿拉伯数字@@和@@中文数字@@记录@@的@@@@2015年@@中国@@GDP是@@同一@@数据@@@@。同时@@@@,任何符号@@@@体系都有其特定形式@@规则@@,是@@为记录@@数据@@而@@对@@其形式@@做出的@@规定@@。比如@@,阿拉伯数字@@都由@@10个一@@位数字@@组@@成@@;二@@进制数据@@不存在@@@@3、4,十六进制数据@@则包括@@A、B等@@。

  第二@@@@,信息@@不是@@数据@@@@,而@@是@@数据@@载荷@@或@@记录@@事物属性@@的@@内容或@@意义@@@@。对@@信息@@的@@定义@@更加多样@@。情报学早已指出@@,信息@@是@@@@数据@@@@、消息@@、情报或@@信号@@等@@载体@@中@@“载荷@@”或@@“记录@@”的@@内容和@@含义等@@@@,明确揭示了信息@@和@@数据@@是@@内容和@@载体@@的@@关系@@。比如@@,GDP数据@@载荷@@了经济总量信息@@@@;人物照片载荷@@了人物外@@形信息@@@@;政策@@文件载荷@@了政府@@做什么或@@者不做什么的@@信息@@@@。信息@@科学或@@信息@@@@哲学则将@@“载体@@”推至所有事物@@。钟义信的@@@@“信息@@是@@@@事物运动@@的@@状态和@@状态变化@@方式的@@自我表述@@/自我显示@@”,倪鹏云的@@@@“信息@@是@@@@以一@@事物属性@@为形式@@所反映的@@另一@@事物@@的@@属性@@内容@@”等@@都试图在@@本体上定义@@信息@@@@。这些观点@@揭示了数据@@所载荷@@内容的@@实质@@,即@@另一@@事物@@的@@属性@@@@。事物可能具有名称@@、数量@@、质量@@、体积@@、形状@@、结构@@、过程@@、关系等@@属性@@@@。所谓@@“另一@@事物@@”是@@相对@@于@@数据@@@@(符号@@@@)“这一@@事物@@”而@@言的@@@@。要注意@@,数据@@记录@@事物属性@@应遵循一@@定的@@意义@@规则@@@@,后者决定@@数据@@蕴含什么样的@@信息@@@@。符号@@@@本身没有意义@@@@,只有人们为呈现数据@@而@@使用符号@@@@时@@赋予其意义@@后才具有意义@@@@,因此@@所谓@@@@“意义@@规则@@”与符号@@@@无关@@,而@@是@@数据@@之所以为数据@@的@@规则@@。

  第三@@@@,信息@@和@@符号@@@@分别构成数据@@的@@信息@@属性@@和@@物质@@@@(形式@@)属性@@,信息@@借助于@@数据@@物质@@属性@@的@@变化@@实现传播@@。信息@@没有形式@@@@,符号@@@@没有意义@@@@,它们共同构成数据@@@@,是@@数据@@的@@不同属性@@@@。正如控制论的@@创始人维纳所提出的@@@@,信息@@就是@@信息@@@@,不是@@物质@@也不是@@能量@@,物质@@、能量和@@信息@@@@是@@@@构成客观世界的@@三@@大要素@@。由此@@如果说@@符号@@@@是@@物质@@的@@@@,那么依附于@@特定符号@@@@的@@数据@@也是@@物质@@的@@@@,符号@@@@是@@数据@@的@@物质@@@@(形式@@)属性@@。同时@@@@,数据@@所载荷@@的@@意义@@是@@数据@@的@@信息@@属性@@@@,是@@指向或@@者反映另一@@种事物的@@属性@@@@。进一@@步的@@@@,正是@@由于@@信息@@是@@@@数据@@@@的@@属性@@@@,信息@@随着数据@@在@@@@(物质@@)符号@@@@之间的@@转换而@@实现传播@@。那些认为信息@@仍然是@@一@@种数据@@的@@观点@@@@,潜在@@地为信息@@赋予了符号@@@@形式@@@@;一@@旦如此就不得不做出哪些形式@@是@@数据@@@@,哪些是@@信息@@的@@模糊判断@@;而@@且@@由于@@符号@@@@本身具有物质@@性@@,这样信息@@也就变成物质@@了@@。

  (二@@)数据@@开@@放@@@@@@与信息@@公开@@@@@@的@@关系重构@@

  第一@@@@,在@@不否认理论渊源上的@@信息@@公开@@@@@@更强调知情@@权@@,数据@@开@@放@@@@@@政策@@更侧重资源@@利用的@@前提下@@,所有公开@@@@@@(开@@放@@@@)的@@都是@@@@数据@@@@。按照@@上述定义@@@@,无论信息@@公开@@@@@@还是@@数据@@开@@放@@@@@@@@,政府@@对@@外@@发布@@(公开@@@@或@@开@@放@@@@@@)的@@都是@@@@“数据@@”资源@@,而@@信息@@是@@@@数据@@@@资源@@中蕴含的@@内容或@@意义@@@@。所谓@@“知情@@”即@@从数据@@中获取信息@@的@@过程@@@@。因此@@,人们可以获得同样的@@数据@@@@,但不一@@定获得相同信息@@@@。能否获取以及获得多少信息@@@@,取决于@@需求方或@@观察者的@@目标与信息@@分析@@的@@能力@@。

  第二@@@@,无论社会主体@@是@@在@@信息@@公开@@@@@@体系下@@,还是@@在@@数据@@开@@放@@@@@@体系下获取数据@@@@、分析@@信息@@@@,其价值目标都是@@为获取或@@维护某种私人或@@者公共的@@利益@@。刻意用政治价值和@@经济价值区分两者@@,无论在@@理论逻辑还是@@在@@政策@@实践中都不可行@@。理论上获取信息@@是@@@@为了从不确定性中尽可能降低风险@@。在@@信息@@公开@@@@@@案例中@@,信息@@申请的@@目的@@常常是@@为了维护经济权益@@;数据@@开@@放@@@@@@本身是@@@@“开@@放@@@@政府@@@@”这场政治运动@@的@@产物@@,相对@@于@@利用开@@放@@@@数据@@@@的@@创业者@@,对@@于@@大部分社会公众而@@言更具有政治意义@@@@。

  第三@@@@,数据@@开@@放@@@@@@是@@信息@@公开@@@@@@在@@大数据@@时@@代的@@新的@@发展阶段@@。在@@互联网@@出现之前或@@者窄带@@时@@期@@,政府@@部门电子化@@数据@@积累少@@,无法提供大规模数据@@下载@@@@,只能主动发布有限的@@文本@@数据@@和@@统计@@数据@@@@,更多@@需要公众依申请公开@@@@@@。随着技术进步@@,尤其是@@互联网@@宽带普及和@@电子化@@数据@@大规模积累形成后@@,为社会公众提供大规模政府@@数据@@资源@@便有了可行性@@。

  第四@@@@,数据@@开@@放@@@@@@范围不限于@@@@“原生@@”数据@@,而@@是@@政府@@数据@@@@(或@@信息@@@@)资源@@。虽然应鼓励政府@@尽可能开@@放@@@@@@“原生@@”数据@@,但是@@@@开@@放@@@@数据@@@@应基于@@信息@@公开@@@@@@的@@基本原则@@,要求开@@放@@@@政府@@@@各类数据@@@@(信息@@)资源@@,其中@@既包括@@“原生@@”数据@@,也包括经过@@“加工@@”后的@@数据@@资源@@@@。目前各国和@@地区政府@@已经开@@放@@@@的@@数据@@中许多都不是@@原生@@数据@@@@。

  四@@、 对@@政策@@的@@进一@@步讨论@@

  第一@@@@,在@@技术层面划分数据@@和@@信息@@@@的@@边界@@。首先@@,按照@@本文观点@@这是@@@@一@@个伪命题@@,因为两者不在@@同一@@层面@@,不存在@@边界问题@@,因此@@政策@@上应将数据@@开@@放@@@@@@和@@信息@@@@公开@@@@@@进行融合@@,提供统一@@的@@数据@@资源@@服务@@。当然这个思路必然对@@现有政策@@实践形成巨大挑战@@。其次@@@@,在@@保证政策@@逻辑基本自洽的@@前提下可以适当放@@松本文的@@界定@@。如果同意数据@@既包括结构@@化@@@@,也包括非结构@@化@@@@@@,那么除@@数值型外@@@@,图片@@(尤其是@@照片@@、地图@@、规划图等@@@@)、音频@@、视频等@@非结构@@化@@@@资源@@也经由特定设备直接采集@@,可纳入数据@@范畴@@;文本@@资源@@中@@,无论短文本@@@@(诸如姓名等@@@@)或@@长文本@@@@(比如@@政策@@条文@@、新闻等@@@@),基于@@特定@@“元数据@@@@”标准@@后也可以实现结构@@化@@@@。按照@@英@@@@、美@@两国政策@@@@,法规@@、政策@@、决定@@、命令等@@虽然或@@多或@@少地依赖于@@某种分析@@过程@@@@,但是@@@@本身不是@@分析@@@@(过程@@)而@@是@@具有原创性的@@决定@@@@、规则或@@分析@@结果@@,也应划入数据@@范畴@@;其他展现分析@@@@、解读@@等@@加工@@过程@@的@@文本@@才可纳入信息@@范畴@@。

  第二@@@@,在@@政策@@层面构建统一@@的@@政府@@数据@@资源@@管理体系@@。政府@@信息@@公开@@@@@@和@@数据@@开@@放@@@@@@都是@@政府@@数据@@@@(信息@@)资源@@管理政策@@的@@组@@成部分@@。任何政策@@的@@形成都有其特定技术基础@@、社会需求@@、政治发展等@@条件@@,因此@@形成各自不同的@@政策@@体系@@、行政机制@@、利益相关者等@@@@,或@@称之为政策@@子系统@@。按照@@政策@@科学理论@@,政策@@子系统中拥有相同的@@政策@@信念@@,并通过@@共同行动促进实现某种共享的@@价值目标@@;信念和@@价值目标决定@@了子系统的@@差别@@。信息@@公开@@@@@@和@@数据@@开@@放@@@@@@是@@在@@不同政策@@子系统的@@推动下发展的@@@@,虽然相互联系密切@@,但是@@@@按照@@不同路径倡导各自的@@政策@@创新@@。由于@@我国在@@政府@@信息@@资源@@管理方面缺少系统规划@@,政策@@子系统的@@活动加固了管理体系的@@分散状态@@。这种分散管理模式能够满足过去的@@@@治理需求@@,随着信息@@技术的@@快速发展@@,政府@@如何因时@@而@@动@@,利用自身庞大的@@信息@@资源@@提供更有效的@@治理和@@服务就成为公共管理中的@@重要课题@@。无论是@@数据@@开@@放@@@@@@@@、信息@@公开@@@@@@,还是@@电子政务@@@@、智慧城市@@等@@@@,信息@@资源@@管理必然涉及所有行政部门@@,因此@@需要能够综合协调所有行政部门的@@部门来统管@@。应当注意到@@,与发改@@、财务@@、人力等@@综合部门职能侧重于@@资源@@分配所不同@@,信息@@或@@数据@@综合管理部门需要实现资源@@集中和@@再分配@@,因此@@信息@@或@@数据@@资源@@的@@统筹管理需要更加强有力的@@行政秩序@@。由此@@,本文内容不仅是@@概念上的@@辨析@@,也为信息@@或@@数据@@资源@@在@@政府@@行政管理上的@@统筹提供理论基础@@@@。

责任编辑@@:lihui