上策留学,策划您的未来!

主页 > 资源宝库 > 专业宝典 > 三问大数据——热时代下的冷思考

三问大数据——热时代下的冷思考

2022-04-02 15:00:47

导引

近年来，“大数据”这个概念，可谓走进千家万户（下图描述了从2005年至2014年间，Google谷歌上“大数据”的搜索量）。越来越多的人们在聊天中谈论着现实生活中大数据的广泛应用；畅想着和大数据相关的领域的“美好”前景；学生在选择出国深造的专业时，更是“挤破了头”竞争那几个可以学习大数据处理方法的专业。

2016-bigdata-anly (2).jpg

但是，大数据真的为我们开启了天堂之门吗？你真的确定出国学习与大数据相关的专业，就走向了通向“前途”和“钱途”的康庄大道吗？《三问大数据》带你进行热时代下的冷思考！

概念介绍

1. “Big Data” 大数据

“Big data is a broad term for data sets so large or complex that traditional data processing applications are inadequate. Challenges include analysis, capture, data curation, search, sharing, storage, transfer, visualization, and information privacy. The term often refers simply to the use of predictive analytics or other certain advanced methods to extract value from data, and seldom to a particular size of data set. ”(from Wikipedia)

“大数据”是基于那些大量或者复杂的数据集而衍生出来的一个较为广泛的概念，此类数据很难利用处理原始数据集的方法进行分析。我们在对大数据进行分析、收集、管理、搜索、共享、储存、转换、可视化时，仍然面临很多挑战。大数据这个概念，简单来看，主要指应用推断分析或者前沿分析方法从数据集中获得有价值的信息，而这类数据集往往没有特定的大小限制。

2. “Challenges Big data faces”大数据的应用和面临的挑战

Analysis of data sets can find new correlations, to "spot business trends, prevent diseases, combat crime and so on."^[1] Scientists, business executives, practitioners of media and advertising and governments alike regularly meet difficulties with large data sets in areas including Internet search, finance and business informatics. Scientists encounter limitations in e-Science work, including meteorology, genomics,^[2] connectomics, complex physics simulations,^[3] and biological and environmental research.^[4]

^{大数据主要用于洞察经济走向、预防流行性疾病、打击犯罪等。某些领域的学者、企业高管、媒体和广告商以及政府工作人员在网络搜索，金融、商务信息提取等与大数据相关的工作方面需要专门的人员给予帮助。科学家在电子信息学、气象学、基因学、神经网络学、物理模拟、生物和环境科学领域仍然面临着大数据带来的难题和局限。}

^{概念介绍部分参考文献：}

"Data, data everywhere". The Economist. 25 Feburary 2010.
"Community cleverness required". Nature 455(7209): 1. 4 September 2008.
"Sandia sees data management challenges spiral". HPC Projects. 4 August 2009.
Reichman, O.J.; Jones, M.B.; Schildhauer, M.P. (2011). "Challenges and Opportunities of Open Data in Ecology". Science 331 (6018): 703–5.

^{大数据时代的“衍生品”}

^{1. 与大数据相关的热门专业}

^由于

^{（1）在大数据处理方面，美国的科研实力相对于我们亲爱的祖国，会更加前沿一些}

^{（2）很多人心中对大数据有“前途”和“钱途”双方面的认可}

（3）截至目前为止（并在可见的未来），各个领域仍然缺乏处理大数据的高端人才

^{越来越多出国的学生选择了和大数据相关的专业，下面小编就为大家罗列一些相关的专业：}

^{(1) Data Science 数据科学}

^{(2) Data Mining 数据挖掘}

^{(3) Financial Statistics/Mathematics 金融统计/数学}

^{(4) Biostatistics 生物统计}

^{(5) Operational Research (data optimization) 运筹学（数据优化）}

^{(6) Computer Science 计算机科学}

^{(7) Physics 物理学}

^{(8) Engineering Science and Applied Mathematics 工程科学和应用数学}

^{(9) Biomedical Informatics 生物医药信息}

^{如有相关留学申请专业选择的问题，欢迎随时咨询上策留学！}

^{2. 未来与大数据相关的7个高薪职业}

^{注：此部分内容引自比特网，原作者 songjiayu}

^{（1）软件开发师}

2010就业：913100

2020年预计就业增长：30%

2010平均薪酬：90530美元

2020就业增加：270,900

那些创建和编写计算机程序的人，不是仅仅涉及大数据，但每过一天，就会有更多的人需要使用程序，更有效和轻松收集、综合并处理所创建的数据。对于大学毕业并拥有诸如计算机科学、软件工程、数学或其他一些相关领域学位的毕业生来说，10年来前景光明，未来依然如此。

（2）市场研究分析师

2010就业：282,700

2020年预计就业增长：41%

2010平均薪酬：60570美元

2020就业增加：116,600

市场研究分析师将是这样的一个职业，几乎每个行业都会拥有，他们查看大量的数据并提供研究结果的发现报告。他们将帮助企业寻找人们想要的产品或服务，到底是谁会买这些产品服务，什么样的价格会被接受等。从消费产品公司、制造企业，甚至银行，他们工作在各个领域，满足那些基于收集数据做决策的需求。对于主修统计学或数学编制、课程通讯或其他社会科学的专业人士而言，市场调查分析师是最好的职业选择。

（3）数据库管理员

2010就业：110,800

2020年预计就业增长：31%

2010平均薪酬：73490美元

2020就业增加：33,900

数据库管理员就是那些使用开发人员开发软件和工具对数据进行管理和组织的人，而这些数据将被用于市场研究和分析。在一定程度上任何与计算机相关职业都可以通过某种路径成为一个数据库管理员，在管理信息系统(MIS)中，这往往是最合适的。

（4）计算机系统分析员

2010就业：544,400

2020年预计就业增长：22%

2010平均薪酬：77740美元

2020就业增加：120,400

计算机系统分析员往往介于公司IT部门和业务部门之间。随着大数据的发展，计算机系统分析员是帮助企业了解其计算系统的重要一环，需要大数据不断变化的情况对系统和流程改变提供建议。由于计算机系统分析员几乎同样具处理技术和业务的任务，一定程度，对二者提供了相同权重，这是非常有益的，管理信息系统(MIS)往往也可以提供。

（5）信息安全分析师，Web开发人员和计算机网络架构师

2010就业：302,300

2020年预计就业增长：22%

2010平均薪酬：75660美元

2020就业增加：65,700

信息安全分析师作用在于确保数据的安全可靠，Web开发人员创建网站，用于获取大数据的最佳实践，网络架构师作用在于确保数据和信息流无缝连接。和其职业类似，该职业适合计算机科学、编程或其他相关领域学位。

（6）网络和计算机系统管理员

2010就业：347,200

2020年预计就业增长：28%

2010平均薪酬：69160美元

2020就业增加：96,600

这是那些帮助确保公司计算机网络每一天平滑运转的人。随着信息大量收集，公司内外部计算机网络将变得忙碌，需求会不断增加，这就需要人士确保业务连续不中断。对此，计算机或信息科学学位是入门的关键点，其他工程领域(如电脑或电器)，也会有很大帮助。（相关数据来自美国劳动统计局）

^{注：上述“导引”，“概念介绍”，“大数据时代的衍生品”部分，是小编根据现有的了解和调查所写的内容，如读者有其他见解或对英文翻译中文的部分有更好的建议，欢迎随时与小编交流沟通，小编微信yuanjinglovemath。}

下面小编向大家隆重介绍清师兄的文章《三问大数据--热时代下的冷思考》，相信大家在读后会有不一样的收获。

注：《三问大数据》经授权转发自公众号“Plus01观察”，原作者清, 欢迎大家关注清师兄参办的公众号“Plus01观察”。

大数据这个词，基本上算是妇孺皆知了。谷歌汽车，百度广告，还有马云新开的网商银行，都有着大数据的应用。

不管懂不懂的，先问两个问题，首先，为什么叫“大”呢？其次， “大”有什么用呢？

据统计，人类到1900年为止的所有知识总和，可以轻易的存储在如今最普通的个人电脑中。（大英图书馆全部书籍存入电脑不超过100G，如今普通电脑硬盘至少128G）。科学家普遍认为，到2200年，一个普通人身上一天产生的数据量，将是如今全球数据量的总和。这，就是新闻中常说的“数据爆炸”，也就是大数据的“大”之所在。

（在最近5年内，数据的维度也产生了爆炸性增长，构成了大数据的另一特征，对此本文暂不展开。）

2016-bigdata-anly (3).jpg

那么，这么多数据，有什么用呢？有个数据挖掘领域的经典例子回答了这个问题。沃尔玛研究销售记录时，惊讶的发现尿布和啤酒常常被同时购买。超市的人员想不明白喝啤酒的人为什么需要尿布，于是亲自拦下了数位购买的男性，得到了令人茅塞顿开的答案：因为老婆让自己半夜来给孩子买尿布，心情不好就买了啤酒。后来，沃尔玛就把尿布和啤酒摆到了一起，销量大增。

如果是略懂数据挖掘的人，恐怕立刻会说这个故事很老了，数据也远远不够大。但我依然认为这是个好例子，一是因为它很好的解释了大数据的本质－－在散乱的数据中寻找人类并没有发现的关联，二是因为它是假的，啤酒和尿布至今也是分开摆的。

However, never let the truth get in the way of a good story.（然而，永远不要让真相毁了一个好故事：）

2016-bigdata-anly (5).jpg

学生物的有句笑话，20世纪时大家都认为21世纪是属于生物学的世纪，等到了21世纪大家恍然发现22世纪才是生物的世纪。其实，大数据也有那么点意思。

我100%相信，50年后大数据将深刻的改变人类的生活方式，但10年之内它到底能不能为人类做出“靠谱的”贡献，无数跟风成立数据分析部的公司能不能提高效益，还有纷纷在大学选择大数据专业的学生能不能走向人生巅峰，我表示谨慎的怀疑。这种话自然不能瞎说，下面讲三个大数据目前“并不靠谱”的地方。

* * *

1、数据来源

数据的可靠性，是一切方法的前提，然而数据的有意造假和无意造假的现象一直存在。所谓有意造假，指的是类似大学在统计毕业生去向的时候随便填写就业单位，以降低毕业生失业率数据的行为，这样的行为在数据处理中相对容易发现。

2016-bigdata-anly (5).jpg

无意造假的原因则很复杂，比如大家肯定都在超市碰到过这样的场景：买个一斤菠菜一斤芹菜，两者价格一样，称重阿姨就顺手都按菠菜算了；交费时会员卡忘带了，就借了其他顾客的用下，自己打折，别人还能积分。这些本来无害且方便大家的做法，在大数据时代则会对原始数据本身的准确性带来毁灭性的影响。对于分析公司来说，可以花大价钱研究算法，请分析师，买设备，却无法去控制无数的超市结账大妈。（小编觉得此处清师兄写的实在是精彩！）

大数据全面普及的第一个不靠谱就在于，不是所有领域的原始数据都能达到分析的要求。Google，Amazon这种公司在数据上拥有天然的优势，是大数据应用的好地方，不代表超市、保险、城市规划这些行业可以简单的推广。

超市的情况还是相对简单的，只要能拿到一整年的有效数据，就能分析出不少结果。然而像保险这种领域，则至少需要5年、10年以上的数据才能做出有效分析。目前，大批保险公司纷纷成立数据分析部，所获成果却甚是寥寥，很大原因在此。大数据分析，没有数据怎么会有分析。

* * *

2、计算目的

按照数据科学界的预测，目前为止，人类处理数据速度还远远跟不上数据产生的速度，要处理现有的数据量，需要至少100年的时间。

比如，08年金融危机后，金融市场对于信用指数与违约风险很关心。整个市场的数据其实每秒都在变化，然而Index却是每天一变化的。这是因为计算一次的时间大概就需要一天。

数据产生速度的决定因素比较复杂，但简单地说：只要砸钱，天空才是它的极限。然而，处理数据的速度，虽然还在增长，但硬件天花板近在眼前。这不是什么大新闻，众所周知，由于量子隧穿效应，硅基CPU芯片的尺寸是不能无限制减小的，即计算速度是不能无限提高的。如果不能造出传说中的“量子计算机”，那么硬件极限基本将在10年内达到。（看到这，小编真的涨知识了！）

2016-bigdata-anly (6).jpg

但是学术界往往和产业界面对的问题是脱节的。在20世纪末的互联网泡沫阶段，所有互联网从业人员都相信互联网技术能带来持续的繁荣，当年似乎制作一个网站、甚至拥有制作网站的编程能力就已经站在了世界和未来的巅峰。

但是事实证明，这段繁荣仅仅持续了6年，由于投入得不到应有的收益，大量股票开始崩盘，最终是泡沫消退和失业潮。紧接着，就是金融衍生品的繁荣以及08年的次贷危机，金融泡沫崩溃。大数据就是在这个背景下诞生的新兴概念，谁又能说这不是美国去工业化政策带来的每10年一次新概念的投资热潮而已呢。

何况，即使现有数据能够挖掘100年，每个数据所蕴含的商业价值并不相同。Target可以利用顾客的购物偏好来降低自己一半邮寄广告页的成本，但是真正大量且非记名的公共数据，比如公共交通承运情况数据，所能提供的除了第一次分析数据者的就业机会以外，恐怕很难给在公共服务门槛以外的人任何新的机会了。

* * *

3、自反馈效应

数据不好，计算能力不足，这两个都是“外伤”，可以随着技术进步而改良。数据的自反馈效应，则是逻辑层面的问题，是更加致命的“内伤”。

2016-bigdata-anly (7).jpg

什么叫自反馈？先看个笑话：话说一群印第安人想知道今天冬天冷不冷，族长就给气象局打了电话询问，答案是很冷。于是族长决定增加木柴搜集的数量。过了一周族长又给气象局打了个电话，得到的答复是非常冷。于是族长决定全族停止一切活动收集木头。过了一周再次向气象局询问，得到的答复是今天将是史无前例的寒冬。族长很恐惧，问他们确定吗，气象局说十分确定，因为印第安人在疯狂的收集木头。

这个笑话在现实中有一个几乎完全一致的翻版，就是Google Flu. 这是谷歌前几年做的非常好的一个项目，一度成为数据挖掘的典范。当前医学有一个困难：流感几乎年年都有，但每年爆发时具体时间，强度，范围，无法提前预测，基本要流感大规模蔓延后才能后知后觉。谷歌的解决思路很简单，一个人如果感冒了，有一定可能会上网查询该怎么办，而谷歌就把跟感冒相关的关键词搜索数量统计出来，时时观察。如果这个搜索量曲线有大幅上涨的趋势，那么谷歌就认为一波新的流感在酝酿期了。

几次实践证明，谷歌的预测相当之准确且提前。这一成功当时震惊了统计界与互联网界，人们认为天堂之门被打开了，类似的思路可以被copy到无数领域。从医学界到普通民众，都开始把这个曲线当作一个重要参考指标。然而，2012年，谷歌预报了一次大流感的出现，却失败了，只是一波很小的流感。为什么呢？原因也很简单，有一个局部小流感，造成搜索曲线微微上升，很多人注意到这个现象，想了解最新的情况，就去进行搜索，造成了曲线进一步上升，如此循环刺激下，从谷歌的曲线上看来一波超级大流感就要出现了。

2016-bigdata-anly (8).jpg

从这两个故事中，应该可以对自反馈这个词有些直观的了解了。用专业点的话说，就是对于一个持续性调整的决策系统，当用来进行决策的数据本身受到决策影响的时候，数据就不适合用来决策了。

再说的通俗点，就是人们从现有数据中找到某种规律，根据这种规律做出了某种决策，而这个决策反过来影响了新的数据，那么再通过新数据找到的规律，就被放大了。之前的两个例子，还都是无意的掉入了自反馈的陷阱，而现实中还有许多故意的行为，比如淘宝刷单，申请新信用卡还旧信用卡，等等。

小结一下，目前为止说了三个困难，一是数据不靠谱，二是计算能力不足，三是数据本身的自反馈。这其中的一和三又组合形成了一个新的困难。那就是：当人们没有大数据思维时，拿不到靠谱的数据；然而当全民养成了大数据思维时，又会陷入数据自反馈的困境。这是一个两难困境，也是一个更加本源、深刻的困境。如果不能解决这个问题，大数据将永远不会像童话里说的那么好。(此处升华，清师兄写的实在精彩！)

* * *

4、朝三暮四

还记得开头那个“啤酒与尿布”的故事么？其实，它反应的问题，比前三个加起来还要深刻。

2016-bigdata-anly (9).jpg

首先，这个故事是Tom Blishok编出来的，目的是为了让客户相信他所运营的咨询公司可以真实的产生效益，对此有兴许的读者请参见文末参考文献。其次，沃尔玛至今为止也是将啤酒和尿布分开摆的，也没有任何一家超市将他们摆到了一起。这么多年了，这个谣言一直明目张胆的流传，无数超市则用事实表示他们并不信这一套，而人们一致选择相信前者，这本身也挺有趣的。

就算故事是编的，可是听起来真的好有道理！为什么超市不这么做呢？

超市的理由很简单，聚类永远比就近更重要。这一黄金法则是人们在无数年的实践中总结并沿用下来的。将啤酒摆到尿布边上，确实方便了买尿布的爸爸顺手拿一打啤酒，却让无数不买尿布的男人们找不到啤酒了。何况，大部分啤酒需要冷藏销售，那么啤酒和尿布放在一起的结果其实仅仅只能是把冰柜换了个地方而已。

* * *

在文章开头曾说过，啤酒与尿布是个好故事，因为它很好地解释了大数据希望解决的本质问题－－在散乱的数据中寻找人类并没有发现的关联。它的好还不止于此，因为它还同时显示了大数据的一大问题－－发现的关联不一定有用。

人类社会的行为规则是一个在漫长的历史中形成的极其复杂而精微的系统，很多时候人们无法轻易说出为什么这样做，只是知道这是一种约定俗成的最优解。

近几百年来，人类曾满怀激动的打破了许多“陈规陋习”，最后却发现新方法并没有老方法好，“陈规”的存在是有原因的。大数据，可以帮助人类以前所未有的速度发现“新关联”，建立可能的“新规矩”，然而试错的过程却是相对漫长的。

2016-bigdata-anly (10).jpg