“大数据@@@@”突然间变得无处不在@@,似乎每个人都想收集@@、分析大数据@@@@@@、并从@@中获利@@,同时也有人在夸耀或者害怕它的巨大影响@@。不论我们是在讨论利用谷歌庞大的搜索@@数据@@来预测流感的爆发还是利用通话记录来预测恐怖活动@@@@,又或者是利用航空公司的数据@@找到@@买机票的最佳时机@@,大数据@@@@都可以帮上忙@@。将现代计算技术和数字时代众多的数据@@结合起来@@,似乎可以解决任何问题@@——犯罪@@,公共卫生@@,用语的变化@@,约会的危险@@,只要我们把这些数据@@利用起来@@。
 
  似乎它的拥护者这样宣称@@。“在接下来的二十年@@@@,”记者帕特里克@@·塔克在他最近的大数据@@@@声明中这样写道@@,“是透明的未来@@,”“我们可以以一种前所未有的准确度预测未来的诸多领域@@,甚至包括一些长久以来被认为人类无法干预的领域@@。”但大数据@@@@其实从@@来没有听上去那么好@@。
 
  大数据@@@@真的像说的那么好@@?毫无疑问@@大数据@@@@确实是一个有价值的工具@@,并在某些领域产生了至关重要的影响@@。比如@@,几乎近二十年@@人工智能计算机程序的成功@@,从@@谷歌的搜索@@引擎到@@@@IBM的沃森电脑问答系统@@,都包括了大量数据@@的处理@@。但是正是因为它最近如此受欢迎并得到@@广泛应用@@,我们需要清晰的看待大数据@@@@究竟能做什么和不能做什么@@。
 
  大数据@@@@能告诉我们是什么@@,但不能告诉我们为什么@@
 
  首先@@,尽管大数据@@@@能够非常好地检测相关性@@,特别是那些用小数据@@集可能无法测出的微妙相关性@@,但是它并不会告诉我们哪一种相关性是有意义的@@。比如@@,大数据@@@@分析可能会揭示从@@@@2006年@@到@@@@2011你那美国谋杀案比例与@@IE浏览器的市场份额是极度相关的@@,都呈急速下降趋势@@。但是很难相信这两者之间有什么因果关系@@。又比如@@@@,从@@1998到@@2007被诊断出的自闭症患者与有机食物的销售具有相关性@@(都呈急速上升趋势@@),但是这种相关性本身不会告诉我们饮食和自闭症的关系@@。
 
  大数据@@@@只能是辅助工具@@
 
  第@@二@@,大数据@@@@可以辅助科学@@调查@@,但不可能成功地完全代替@@。比如@@,分子生物学家很想从@@潜在的@@DNA序列中推断出蛋白质的三维结构@@,有一些科学@@家已经在用大数据@@@@来解决这个难题@@。但是没有任何科学@@家认为你可以完全依靠处理数据@@来解决这个难题@@,不论这个数据@@分析是多么的强有力@@,你依旧需要基于对物理和生物化学的理解上来处理这些数据@@@@。
 
  基于大数据@@@@的工具易造假@@
 
  第@@三@@,基于大数据@@@@的很多工具很容易造假@@。批改学生作文的大数据@@@@程序通常依赖于句子长度和用词的复杂性@@,数据@@表明这和老师批改的分数很相关@@。但是一旦学生知道这个程序如何运作@@,他们就开始写一些长句子并用晦涩的词语而不是去学会如何规范清晰的表达@@,组成连贯的篇章@@。甚至谷歌的著名@@的搜索@@引擎@@,这个通常被认为成功的大数据@@@@案例也不能免于信息繁杂@@,无用的搜索@@结果@@,一些人为的原因使得一些搜索@@结果排在前面@@(搜索@@广告@@)。
 
  通过大数据@@@@下结论是有风险的@@
 
  第@@四@@,即便大数据@@@@的结果没有人为地造假@@,但是它看上去也不那么有效@@。比如@@谷歌预测流感的案例曾经是大数据@@@@的典范@@。2009年@@,谷歌通过相当大的宣传称它可以通过分析与流感相关的搜索@@预测流感爆发的趋势@@,这种准确性和快速甚至超过了疾病控制和预防中心等官方机构@@。但是几年@@后@@,谷歌宣称的流感预测并没有得到@@好的结果@@,最近两年@@@@,它做的更多@@地是不准的预测@@。
 
  最近一篇@@《科学@@杂志@@》的文章解释道@@,谷歌流感预测的失败很大程度上是因为谷歌搜索@@引擎自己在不断的更新@@,这个时候收集的数据@@未必能够适用于下一个时候收集的数据@@@@。正如统计学家冯启思@@(《数据@@统治世界@@》的作者@@)所说的@@,依赖于网站的大数据@@@@收集常常把一些用不同方法@@、有不同目的数据@@整合起来@@,有时候这会产生负面的影响@@。从@@这样的数据@@样本得出结论是需要冒风险的@@。
 
  大数据@@@@的智能应用会导致错误被加强@@
 
  第@@五个需要注意的就是@@“恶性循环@@”,这也是因为大量的数据@@都来自于网络@@。不论何时@@,大数据@@@@分析的信息源本身就是一种大数据@@@@产品@@,这很可能会导致恶性循环@@@@。谷歌翻译等翻译程序是从@@不同语言中抽取相似的文本去辨别这些语言的翻译模式@@,比如@@同样的维基百科条目有两种语言@@。这是一个很合理的策略@@,要不是有很多语言并不具有太多相似性@@,维基百科自己都可以用谷歌翻译写条目@@。在这种情况下@@,任何谷歌翻译的错误都会影响维基百科@@,而这又会反映到@@谷歌翻译上@@,使这种错误不断加强@@。
 
  大数据@@@@可能会导致大错误@@
 
  第@@六个需要担心的就是太多相关性导致的危险@@。如果你在两个变量中不断地寻找相关性@@,那么你很可能会纯粹出于偶然发现虚假的相关性@@,即便在这些变量中并没有实际意义的联系@@。缺乏谨慎的检查@@,大数据@@@@的量级会扩大这些错误@@。
 
  听上去科学@@的解释未必正确@@
 
  第@@七@@,大数据@@@@很容易对那些无法精确的问题给出听上去很科学@@的解释@@。比如@@在过去几个月@@,基于维基百科的数据@@给人们排名@@有两个不同的尝试@@:根据历史重要性或者文化贡献@@。其中一本书叫做@@《谁更强@@?历史人物真实的排名@@在哪里@@》,作者是电脑工程师@@Steven Skiena 和工程师@@Charles Ward,另一本叫做@@《万神殿@@》,来自于麻省理工学院媒体实验室项目@@。
 
  这些尝试在某些方面是正确的@@,耶稣@@、林肯@@、莎士比亚确实是极为重要的人物@@,但是两者都犯了一些严重的错误@@。《谁更强@@?》指出法兰西斯@@.史考特@@.凯伊@@(Francis Scott Key )在历史上是@@19世纪最重要的作家@@,远远超过简@@·奥斯汀@@(第@@78名@@)和乔治@@·爱略特@@(第@@380名@@)。更严重的是@@,两本书呈现出了利用所谓的精确误导人@@,而在本质上是模糊升值无意义的@@。大数据@@@@可以把任何事都简化为数字@@,但是你不应该被这些@@“科学@@”的表现愚弄@@。
 
  罕见事件@@,大数据@@@@不起作用@@
 
  最后@@,大数据@@@@在分析那些普通事件很在行@@,但是在分析罕见事件@@常失败@@。比如@@,用大数据@@@@处理文本的程序如搜索@@引擎和翻译程序@@,常常依赖于所谓的@@“三字@@”:连续三个词的序列@@(比如@@“in a row”)。可靠的数据@@信息可以编制常规的三字@@模型@@,正是因为他们常出现@@,但是现有的数据@@并没有多到@@足够包括人们可能使用的所有@@“三字@@”,因为人们在不断创造新语言@@。
 
  随便挑一个例子@@,Rob Lowe 最近为报纸写的书评有九个@@“三词序列@@”比如@@“dumbed-down escapist fare”,这在谷歌的文本里从@@未出现过@@。对于这些新鲜词汇谷歌有很多限制@@,谷歌将@@“dumbed-down escapist fare”西安翻译为德文然后再翻译为英文@@,最后@@出现了这样一个不合逻辑的词语@@“scaled-flight fare.”Lowe先生的本意和利用大数据@@@@的翻译真是完全不搭边@@。
 
  等等@@,我们几乎忽略了最后@@一个问题@@:炒作@@。大数据@@@@的支持者宣称它是革命性的进步@@。但是即便是给出大数据@@@@的成功例子@@,比如@@谷歌流感趋势的预测@@,即便有用但对于一些更大的事这些显得微不足道@@。相比@@19世纪和@@20世纪的伟大发明比如@@抗生素@@,汽车@@,飞机@@,大数据@@@@所得出的东西实在算不了什么@@。
 
  我们需要大数据@@@@@@,毫无疑问@@。但是我们也需要更加清醒的认识到@@@@,这只是一种每个人都可以分析的重要资源@@,并不是什么新技术@@。
 
  是在讨论利用谷歌庞大的搜索@@数据@@来预测流感的爆发还是利用通话记录来预测恐怖活动@@,又或者是利用航空公司的数据@@找到@@买机票的最佳时机@@,大数据@@@@都可以帮上忙@@。将现代计算技术和数字时代众多的数据@@结合起来@@,似乎可以解决任何问题@@——犯罪@@,公共卫生@@,用语的变化@@,约会的危险@@,只要我们把这些数据@@利用起来@@
 
  似乎它的拥护者这样宣称@@。“在接下来的二十年@@@@,”记者帕特里克@@·塔克在他最近的大数据@@@@声明中这样写道@@,“是透明的未来@@,”“我们可以以一种前所未有的准确度预测未来的诸多领域@@,甚至包括一些长久以来被认为人类无法干预的领域@@。”但大数据@@@@其实从@@来没有听上去那么好@@。
 
  大数据@@@@真的像说的那么好@@?毫无疑问@@大数据@@@@确实是一个有价值的工具@@,并在某些领域产生了至关重要的影响@@。比如@@,几乎近二十年@@人工智能计算机程序的成功@@,从@@谷歌的搜索@@引擎到@@@@IBM的沃森电脑问答系统@@,都包括了大量数据@@的处理@@。但是正是因为它最近如此受欢迎并得到@@广泛应用@@,我们需要清晰的看待大数据@@@@究竟能做什么和不能做什么@@。
 
  我们需要大数据@@@@@@,毫无疑问@@。但是我们也需要更加清醒的认识到@@@@,这只是一种每个人都可以分析的重要资源@@,并不是什么新技术@@。
责任编辑@@:admin