6月@@2日@@上午@@,“2018数字政府@@与政务大数据@@@@建设高层研讨会@@”在@@北京国际展览中心召开@@,本次@@论坛由国脉数据@@研究院主办@@,北京国脉互联信息顾问有限公司@@、浙江蟠桃会@@网络技术有限公司承办@@,国脉海洋信息发展有限公司支持@@,来自国内政务大数据@@@@领域的管理者@@、研究者@@、实践者等数百人到场参会@@。

blob.png

▲2018数字政府@@与政务大数据@@@@建设高层研讨会@@召开@@

  会上@@,北京神州云联科技有限公司咨询@@顾问张瑞飞@@以@@“大缓存@@、大交换@@、大共享@@”为题发表演讲@@。他从政务大数据@@@@建设趋势出发@@,深入分析我国大数据@@发展战略在@@电子政务上的重点方向@@,并提出数字中国建设的核心能力是数据@@交换@@与共享@@;又从大数据@@业务应用的变化出发@@,阐述了传统大数据@@平台@@忽略的大数据@@交换@@共享问题以及现有@@ETL数据@@处理@@不适应数据@@分析业务的缺陷问题@@,他表示@@,现有业务需求的变化要求数据@@实时响应需求@@,因此必须采取新一@@代流数据@@处理@@架构@@。

  以下是会议现场发言要点实录@@(根据现场速记和录音整理@@,未经本人审核@@):

  一@@、电子政务大数据@@@@建设趋势分析@@

  从国家一@@些政策来看@@,2015年@@开始@@,国务院@@发布了@@《促进大数据@@发展行动纲要@@》,提出了开放和共享做大数据@@治理@@的思路@@。2016、2017年@@,国务院@@、国家发改委做了互联网@@、人工智能的强化活动@@,将人工智能和行业大数据@@进行结合@@。去年@@@@11月@@10日@@,中央政治局在@@进行第二@@次@@集中学习时@@,提出让信息多跑路@@,让民众少跑腿@@,实施数字中国战略@@。

  关于数字中国的建设@@,今年@@网信办和发改委评出@@30个@@最佳实践案例@@,在@@最佳实践里的项目名称中有@@10个@@项目提到交换和共享@@,剩下的项目在@@内容里也绝对产生了交换和共享思路@@。我们@@现在@@处在@@一@@个@@大数据@@交换@@和共享时代@@,在@@这个@@时代@@,我们@@如何去实现数据@@汇聚@@?如何从数据@@汇聚走到数据@@共享@@、数据@@交换@@和使用@@@@?我认为这个@@过程在@@未来五年@@会不断地出现@@,不断通过数据@@交换@@@@、共享释放我们@@的生产力@@,通过大数据@@释放整个@@工作效率@@。可以看到@@交换和共享的威力@@,从一@@天时间办一@@个@@业务@@,现在@@可以缩短到@@10分钟@@。

  二@@、大数据@@业务应用正在@@发生变化@@

  传统的大数据@@业务面临着比较大的挑战@@,第一@@个@@是传统大数据@@的数据@@源很多@@。过去我们@@曾做过一@@个@@实验@@,大数据@@要服务很多商业@@、企业和政府的办公系统@@,我们@@逐渐建立了一@@些数据@@仓库@@,希望把数据@@从普通交易数据@@库放到数据@@仓进行统一@@保存和存储@@,但这一@@愿景和目标到今天还是没有实现@@,很多数据@@还是割裂的@@,数据@@仓库能够覆盖的范围很有限@@。随着大数据@@平台@@的出现@@,我们@@会看到越来越多的这类问题@@,更多@@的系统变得更加分散@@。大数据@@平台@@本身有几十个@@让我们@@去熟悉@@、使用@@,在@@传统的数据@@仓里我们@@又维护了一@@套数据@@系统@@,数据@@仓和大数据@@是很难打通的@@,在@@今天也没能实现@@。90年@@代提出用一@@个@@统一@@的方法来统计数据@@@@,这个@@目标目前是没办法达成的@@。

  这里面有个@@核心问题@@:做数据@@忽略了数据@@交换@@和共享@@。这个@@问题以前很少被提到@@,第一@@次@@是@@Google在@@2014年@@提出的@@,2015年@@亚马逊提出一@@个@@设计理念@@,支持几十万个@@数据@@源不限量@@。举一@@个@@公安的技侦例子@@,要通过技术侦查手段把互联网信息@@、现场勘察信息@@、指纹信息@@、DNA信息进行技术分析@@,可以想象公安的数据@@量在@@互联网时代面临的数据@@压力@@。当出现这个@@压力时@@,最难的是如何解决卡口@@、网监@@、信令@@、法制@@、反恐@@、事件@@、接处警@@、询问@@、档案等服务问题@@。

  Google在@@2014年@@提到一@@个@@观点@@@@,当时报道世界杯时需要一@@个@@新方法@@,被命名为数据@@流水线@@,Google正在@@给世界贡献一@@个@@全新的生态@@,这个@@生态不同于早期的@@Hadoop开源的生态@@。

  2015年@@,亚马逊看到@@Google的动作后@@,跟进了一@@个@@策略@@,提了三个@@方向@@,既支持批量又支持实时@@,这一@@点很难@@,目前绝大部分中国企业完全不支持@@。在@@2011年@@的时候提到一@@个@@架构@@,现在@@国内@@95%左右的数据@@普遍采用的一@@个@@技术架构@@,可能很多数据@@是放在@@@@HDM,有些数据@@放在@@一@@个@@流水线上@@,前面做了一@@个@@缓存和@@Hadoop数据@@进行交互@@,大量的系统是这样的架构@@,但它有一@@个@@非常大的弱点@@,不能同时支持实时和批量@@,实时和批量是两套系统@@@@、两套数据@@库@@。2011年@@全球提出这个@@方向@@,那是中国大数据@@兴起的时候@@,第一@@基于开源系统@@,第二@@基于云服务的生态@@,第三是灵活扩展@@,指数据@@不限量@@,可以处理@@@@PB或更大@@,都需要一@@个@@横向扩展能力@@,对数据@@源也不限量@@,可以是几十个@@@@,甚至是几百@@,但在@@亚马逊看来是不够的@@,希望是几十万个@@数据@@源@@。

  基于这样的架构@@,我们@@在@@国内的发展态势要弥补过去大数据@@的不足@@,我们@@也没办法颠覆原来的大数据@@架构@@,重新构造一@@套可能不现实@@,希望有一@@个@@新方法来解决它的问题@@,我们@@就提出了一@@个@@大数据@@前置的部分@@,希望建立一@@个@@大缓存@@@@,这个@@缓存可以基于内存@@。缓存的意思好理解@@,把它处理@@到@@PB级@@,达到这样的技术手段@@,实现特别大的缓存@@,在@@这个@@缓存上实现数据@@交换@@和共享的能力@@,来支撑和弥补我们@@以前在@@大数据@@架构上的不足@@。

  我们@@借鉴@@Google和亚马逊的方式@@,建设了大数据@@共享平台@@@@,支持各种数据@@源实时和批量的数据@@交换@@@@。在@@数据@@源支持上@@,可以看到@@,不只支持数据@@库@@,数据@@源本身不等于数据@@库@@。现在@@这个@@时代@@@@,数据@@源也包括网络协议@@,从互联网分装下来的协议@@,包括中间件或者是各种文件@@,互联网和公共设备所传递的一@@些设备@@,所以数据@@源不能简单看是支撑多种数据@@库@@。实施数据@@管理@@,数据@@同步@@、对比验证@@、数据@@传输@@、数据@@交换@@、数据@@质量管理@@,将历史数据@@和决策数据@@放到一@@个@@平台@@@@,所有人都可以在@@这个@@平台@@上进行大数据@@处理@@@@。

  以前的大数据@@来自于不同的源@@,有不同的格式@@,所以我们@@有一@@个@@人工的苦活@@,全部是通过手工编写脚本和验证的方法来实现@@,要统一@@成一@@个@@格式来进行加工@@。我们@@现在@@有方法变成自动化@@,通过数据@@流水线的方式来实现数据@@从采集到加工的一@@体化服务@@。现在@@亚马逊正跟我们@@合作@@,把它原来云上的私有云到公有云手动迁移改造成一@@个@@自动的迁移@@。这种能力在@@新的数据@@加工里@@,有人会叫做边缘计算@@,在@@新的架构里更强调通过统一@@的数据@@模式@@、一@@个@@数字形态@@,在@@数据@@采集的时候就开始计算@@,而不是把所有的数据@@汇集到一@@个@@集中的节点或者是集群上进行计算@@,所以我们@@赋予了数据@@计算的边缘能力@@。

  我们@@打通跨部门的数据@@桥梁@@,打通的意义在@@于解决了一@@个@@问题@@,有时候我们@@建一@@个@@数据@@平台@@比较容易@@,但是建一@@个@@数据@@平台@@往往发现建了一@@套存储@@,并没有用起来@@,各个@@部门难以协调@@,它的意义在@@于我们@@没有强行要求数据@@上收@@,原来的数据@@逻辑还在@@@@,但是通过一@@个@@交换共享中心能够辅助快速处理@@@@,并且处理@@的结果还可以返回@@,通过修桥梁的方式@@,我们@@更容易实现数据@@的打通和上收@@。

  如果只有海量的交换和集群@@,可能还是不够@@。比如中国人民银行总行@@,在@@未来希望把@@3000家银行@@、银保监会@@、证监会的数据@@汇聚到人民银行里@@,难度可想而知@@,工行一@@家的数据@@可能会把人民银行的数据@@做宕机@@,3000家银行@@的数据@@汇聚起来是更难的问题@@,除了有快速的交互@@,还需要有更快速的处理@@能力@@,不是两套系统@@分别写出来的@@。

  为什么选@@DataHouse?大家觉得传统的@@Hadoop是比较慢@@,它比我们@@这套系统@@能够慢到@@600多倍@@,Hadoop早期是基于批处理@@数据@@@@,我们@@希望提供更快速的处理@@@@。当处理@@达到几百倍的数量级@@@@,比如在@@公共服务方面@@,公安破一@@个@@案子@@,有可能要对案件研判和推理@@,一@@个@@是一@@周的时间计算出来@@,一@@个@@是一@@分钟@@计算出来@@,这是本质的差别@@,不只是性能的差别@@。我们@@33个@@节点可以支持@@2个@@PB的数据@@读写@@,反馈速度是@@0.01秒来计量@@。

  未来可以有一@@些演进@@,我们@@可以整合在@@@@datahouse架构里面@@。在@@横向就打通数据@@流@@,从源数据@@到采集@@、入库@@、处理@@,实现了完整打通@@,没有借助于很多的大数据@@平台@@@@,我们@@是在@@一@@个@@平台@@上用@@S来完成的@@。

  下面是一@@些案例@@,我们@@利用了大数据@@的能力@@,也应用了人工智能自然语言处理@@能力@@,给公安构造了@@10套系统@@,同时我们@@也写了一@@个@@数据@@交换@@共享标准@@。这是在@@公安局的一@@个@@实际测试@@,对技侦大数据@@的测试@@,同时也在@@交通研究所@@,把全国交通卡口所有的图像上收@@,来进行一@@次@@统一@@的数据@@分析处理@@@@。

  这就是我们@@刚才讲到的技侦数据@@处理@@@@,既有@@DPI的互联网分装的数据@@@@,也有通过采集和爬虫的数据@@@@,看到分包数据@@的原始状态@@,同时也有设备上的网关@@,如何把不同格式的数据@@汇聚到一@@起@@,最后提出一@@个@@服务@@。这是我们@@现在@@这套系统@@给大家展示的一@@种能力@@,不需要先做很多格式转换@@,做一@@个@@临时库@@、临时表@@,分别建数据@@集等@@,不需要这些东西@@,这些东西太浪费开发精力@@、周期也太长@@,我们@@在@@采集的同时就可以计算@@,计算的同时就可以发布@@。谢谢大家@@!

责任编辑@@:李泰民@@