如今,分析师们可以获取到数以“拍”计(petabytes,等于1024Tb)的信息,这也导致各种 “可能的真相”不断浮出水面。
2016年9月21日
撰文:Eric Siegel
供图:美国国家航空航天局兰利中心,信息公开版
数据可谓是目前世上最强大、增长速度最快的非自然资源。在我们完成日常事务的同时,数据作为“副产品”也在大量积累着。从前,一旦我们疏于管理,它们就会越积越多,最终就像一桶未经烹调的菜渣,几乎难以利用。可是今非昔比,“数据挖掘热”已经拉开大幕,人们开始思索这些“副产品”背后的门道来。其实,这种转变也并不是空穴来风,数据的价值自打它出现之时就可以窥得一二了。
犯罪数量真的会在体育赛事终了之后增加?“网红”反而会觉得网聊无趣?素食主义者错过航班的概率真的比其他人低?你的邮箱地址真的会暴露你的各种想法?
别怀疑,所有这些你听上去很古怪的结论都是真的!
我们已经进入了“预测分析大发现”的黄金时代(“预测性分析”是个专业名词,下文有)。计算机正疯狂地进行着特大数量的数值计算。这仿佛是为我们打开了一座满是新结论的宝库,其中有一些还会令你瞠目结舌。
我们进行预测性分析可不仅是为了通过测试找到事物间蕴含的关系,以此来验证人们的预感是否正确,更主要的是想探索我们直觉之外的无垠天地中,还有哪些值得验证的新结论。
欢迎来到数据科学界的“信不信由你博物馆”(Ripley’s Believe It or Not!),一起来看看大数据魔鬼经济学带给我们的神奇结论吧(the Freakonomics of big data)!
下面要讲的是9个有趣的发现,它们都来自一些组织的预测结果,比如沃尔玛、优步、哈佛大学、壳牌、微软和维基百科等。这9个实例都是今年才修订更新至我的书中的,书的名字叫:《预测性分析:一种可以预测谁将点击、谁将掏钱、谁将说谎、谁将去死的魔法》(Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, orDie),现在“古怪结论”的数量已经增至46个了,如想了解更多本文中实例的相关信息,请至www.PredictiveNotes.com网上搜索该组织的名称,免费下载本书的PDF版笔记)

注意了!表格里的“可能的原因”一栏只是我试图去解释这些结论的个人想法而已,建议你们最好用怀疑的态度看待它。 当然,其他人也有眉有眼地针对每一条结论给出了解释,但基本上也都是根据自己的感觉,而非基于科学性的证据。左栏中那些名称下的理由也是如此,它们完全都是猜想,缺乏有力的证据支持。正如我们经常说的那样,相关性是找到了,可问题是这并不意味着它们是互为因果的关系。就算数据告诉我们A与B正相关,我们也不能说是一个导致了另一个,有时它们之间甚至连间接的影响也谈不上。怎么办,没办法。我在Quartz上发表了探讨该问题的文章,有兴趣的可以去看看。
但我们也用不着发愁。尽管我们使用预测性分析常常还是不能获得可靠的因果关系,但其实对我们来说,相关性的结果往往已经够了。在很多项目中我们可以发现,预测结果并未解决预设问题,反倒是让我们认识到了社会中的某种规律。这种数据分析仿佛变成了一种畸形秀,只为惊人的结果而生。虽然它也同时提供了预测值,可它都不能自圆其说呢。
翻译:胡砚泊
审稿:颜磊
原文链接:https://blogs.scientificamerican ... -from-data-science/









留言