大数据@@@@的应用难题@@：是否该建立数据@@@@“公地@@”_最新动态@@_ob体育官网

　　要想考察大数据@@@@最好同时考察大数据@@@@背后的技术@@、商业和社会维度@@。从发展成熟度来看@@，技术维度走的最远@@、商业维度有所发展但不算全面成熟@@，社会维度发展最差@@。所以虽然已经谈了很久大数据@@@@@@，但除了孕育出大数据@@@@自身的几个领域比如@@搜索@@@@等@@@@，其它领域却并没有从大数据@@@@中获得可见的收益@@。大多时候人们还是处在觉得这里肯定有金子@@，但需要更多@@的耐心的状态@@。这篇文章则尝试对大数据@@@@本身的特征做点挖掘@@，对未来的发展趋势做点预测@@。

　　大数据@@@@上的深度和广度@@

　　如果把大数据@@@@对应到海量的数据@@@@，那它就是非常含糊的概念@@，相当于变成信息的同义词@@，显然也就很难回答信息到底能干什么这样的问题@@@@。

　　这时候为了推进思考通常需要先分类@@。如果把时间空间@@作为最基本的视角@@，那首先要区分的就是大数据@@@@的深度和广度@@。从时间的角度看大数据@@@@是完整的历史@@，从空间@@的角度看大数据@@@@是全球活动的痕迹@@。前者可以看成一种深度@@，后者可以看成一种广度@@，不同的场景对深度和广度的侧重有所不同@@。

　　对于有些垂直的行业@@，比如@@医疗@@，大数据@@@@的深度更重要@@，所有的历史都可以在数据@@上得到找到之后@@，人们就可以更好的认知并优化相应的行业@@。

　　对社会而言@@，很多时候广度则更重要@@，具体到某个场景我们只有一鳞半爪的消息@@，但当这种信息足够多@@，范围足够广@@，就有可能描述出相对及时的全貌@@。经常举的@@Google预测传染病的例子依赖的就是这种广度@@。

　　这点决定了大数据@@@@的应用发展趋势@@，在深度重要的地方@@，公司这类组织需要成为主体@@@@，困难是如何跨越数据@@所有权的边界@@。对于医院而言@@，显然把所有治疗案例数据@@化并共享是有好处的@@，但如果只有一个医院这么做@@，那对这一家医院而言更多@@的可能是隐私上反弹所带来的坏处@@。

　　在广度重要的地方@@，虽然在搜索@@这样的领域里公司也可以受益@@，但真正可以从大数据@@@@全面受益的机构其实是政府@@@@。数据@@越广@@，其所描述的主体@@就越大@@，而如果描述的是整个社会@@，那显然应该是社会的主要责任人会从中受益@@。这是个常识问题@@@@，就和看病的时候不会吃了医生给别人开的药自己反倒好了差不多@@。有的时候央视会播放百度做的春节期间人员流动图@@，这件事情也正好可以从侧面说明这问题@@@@。这种人员流动地图对能做出地图的人公司帮助远没有对政府@@的帮助大@@。

　　简单总结下就是@@：深度和广度两个方向对数据@@的要求不同@@，前者需要更为详尽@@、有质量的数据@@源@@；后者则对此要求不高@@，但两者在应用的时候都会面临付出回报不对等@@问题@@@@。大数据@@@@倾向于描述整体@@，而有能力收集或处理大数据@@@@的往往是个体@@，个体的回报在整体的提升中并不容易获得清晰体现@@。

　　所以说@@现在大数据@@@@发展的瓶颈不是技术@@，而是背后所需要的分配关系的建立@@。这种关系理不顺@@，数据@@就会停留在孤岛层面@@，每个组织都有自己的东西@@，并把它命名为@@“大数据@@@@”。而为了理顺这种关系则要回到一个非常经典的问题@@@@，“公地@@”到底可不可以建立@@。

　　数据@@公地@@的设想@@

　　大数据@@@@其实有点像公地@@@@，在经济学里非常出名的一个论点是公地@@悲剧@@。《美国经济史@@》举了一个非常易懂的例子来说什么是公地@@悲剧@@：

　　...这些经济推理命题有利于解释集体所有制和产出的共享@@(平分或固定份额@@)如何导致@@“免费搭车者@@”问题@@。为了说明这一点@@，考虑共享土地所有权@@，且共同生产了@@100蒲式耳@@玉米@@的@@10个工人@@，平均每人消费@@10蒲式耳@@玉米@@。假设一个工人@@开始偷懒并将其劳动努力减半@@，从而导致产出减少@@5蒲式耳@@。由于产出共享制度的安排@@，偷懒者的消费量和其它工人一样@@，现在都是@@9.5蒲式耳@@。尽管他的努力已经下降了@@50%，但他的消费量只下降了@@5%。偷懒者是在搭他人劳动的便车@@...

　　这背后有非常深刻的人性问题@@@@，即使我们可以通过努力协作创造更多@@的财富@@，个人也可以从中分享@@更多@@@@，但在群体里明显的个人倾向则是自己工作更少但分享@@更多@@@@。这与囚徒困境其实是相通的@@。

　　基于实物的世界里眼下看不到彻底解决这问题@@的方法@@，只能依赖于某种被大家基本认可的分配秩序@@，比如@@：以前的血统现在的物竞天择@@，但基于比特的数字财富眼下看却有解决这问题@@的可能@@。

　　基于比特的数据@@与实物最大的区别是数据@@并非是你拿走我就没有的东西@@，并且硬件的价格在飞速下降@@，开源又使数据@@的访问工具基本免费@@。这几者叠加在一起@@，使数据@@公地@@成为可能@@。

　　这里面很有意思的问题@@是如果大家更在意我拿到的东西是不是绝对值变大了那数据@@公地@@的形成可能性就大些@@，因为如果存在数据@@公地@@@@，那每个人@@(企业@@)一定收获更多@@@@，但如果大家更在意我是不是比你多@@，那数据@@公地@@的建设就会多很多障碍@@，因为公地@@其实是让相关人员站到同样的竞争起点上@@。

　　大数据@@@@的问题@@@@，在数据@@的使用上是技术问题@@@@，但在数据@@源上其实是社会经济问题@@@@，后者更难@@，所以大数据@@@@应用的发展不取决于技术的发展而取决于社会经济方式的变革速度@@。在有限的领域里@@，比如@@搜索@@@@、电商@@、云计算@@，技术已经得到比较充分的发展@@，眼下来看谁付出谁受益的问题@@是把小数据@@变成大数据@@@@过程中最主要的问题@@@@。

　　大数据@@@@的路往那里走@@？

　　数据@@的内在发展动力是数据@@越全价值越大@@，其实这也是一种网络效应@@，这种内在动力导致宏观来看数据@@所有权的发展只有两种趋势@@：

　　一种是@@像现在移动端一样@@，每个人都有自己的私有数据@@源@@，接下来开始你死我活的竞争@@，最终有一家活下来@@，这也可以达成数据@@统一的终极目标@@。

　　另一种则是在竞争中开始联合@@，建设上面所说的数据@@公地@@@@。

　　如前所述行业数据@@和全社会的数据@@性质上差别很大所以要分开来探讨@@。

　　对于行业数据@@而言@@，竞争对手间彼此的坦诚合作除非有极为特别的人物出现@@，否则是不太可能的@@。这种情况下最简单的办法是引入第三方@@。

　　比如@@说每家运营商都握有几乎所有网民的行动数据@@@@，但要想让运营商彼此间开诚布公的合作把这些数据@@整合在一起创造某种价值@@，这就很难@@。这时候如果有第三方介入@@，制定好利益分配方案那就是可能的@@。

　　如果这点可以达成@@，那唯一的关键点就是相应的商业模式是不是可以超越数据@@处理的成本@@。这点必须强调下的是@@，大数据@@@@的价值密度是很稀疏的@@，很多东西有价值但并不一定值得做@@，视频网站之所以赚不到钱一个关键原因就是带宽和存储的成本比较高@@，而对大数据@@@@而言商业模式找不好@@，情形可能比视频网站还差@@。挖矿的成本怎么也要小于挖矿所得挖矿才有价值@@。

　　上述问题@@在行业数据@@里可能问题@@还不是太大@@，一般来讲行业数据@@的价值密度终究会大一些@@，并且因为相对比较垂直@@，总量终究有限制@@。所以大数据@@@@的行业应用比较容易发展@@。

　　但对社会性的数据@@@@，这在很多时候就是个问题@@@@。我们都知道样本的全面性比数据@@的多少更有价值@@，但是如果多是确保样本全面性的唯一手段的话@@，那就意味必须有全的数据@@做一件事情才有意义@@。

　　社会化的数据@@有两种应用方向@@，一种就是企业@@可以搞定的比如@@@@Google，一种则是属于社会层面@@，很难单独属于某个企业@@的比如@@智慧城市@@相关的人的活动数据@@@@。后者则需要上面所说的数据@@公地@@来做支撑@@。

　　从数据@@的视角来看@@，现在有两种数据@@存放形式@@：一种是@@Google这样的企业@@拥有整个社会某个横截面上的全部数据@@@@，这应该是种特例@@，并且数据@@会局限在公开信息@@；一种则是被割裂的各种与人行为相关的数据@@@@，比如@@购物相关的在电商@@@@，与人相关的在社交网络和@@IM，线下服务相关的则在@@O2O企业@@，铁路相关的在@@12306等@@。Google这种拥有全的数据@@@@，但并不拥有人的行为@@，所以说@@Google这种企业@@相当于拥有整个社会的一个横截面的数据@@@@。而所有其它企业@@则只拥有某个垂直领域的数据@@@@。

　　如果依赖于企业@@做这种数据@@统一的尝试@@，在前者就会有投资@@200亿做@@O2O类的举动@@，因为这会补全数据@@@@，在后者就会有做电商@@的想做社交@@，做社交的想做电商@@这类事发生@@。类似的故事还可以在终端上发生@@，所有这些行为的终极目标都是一家企业@@搞定所有这些事情@@，但这是不可能的@@，这种不可能还不单是经济原因@@。而数据@@不能打通@@，那就只能在割裂的数据@@上做自以为是大数据@@@@的大数据@@@@@@。

　　所以说@@这骨子里是数据@@公地@@究竟能不能建立的问题@@@@，而要想建立数据@@公地@@@@，那至少要解决谁来做的问题@@@@，对此开源给出的启示有两点非常关键@@：第一这不能是个盈利组织@@；第二这要能获得众多企业@@的支持@@。因为数据@@会牵涉隐私@@，所以同开源相比那就一定还要有比较清晰的界定数据@@使用的规则@@。

　　小结@@

　　在有一种切实的办法解决数据@@所有和使用权之前@@，大数据@@@@的应用应该还都是局部的@@。因为它的深度应用牵涉社会很多部分的彼此协调@@，所以这个过程可能是非常漫长的@@。这里面有意思的事情是@@，大数据@@@@的出现直接推动了机器智能的发展@@，而机器智能产生影响的速度可能会远快于大数据@@@@本身@@。