谁是玩转大数据的人?

用科学研究智慧

Posted by SixKarma on July 21, 2016

Who can play with BigData in future.

大数据

现在各行各业都在提大数据,每一个想转型升级的企业都在考虑本企业、本行业的数据,虽然有些一窝蜂从众的意思,但是从另一个角度来看也未尝不是一件好事,多点思考总是上进的表现。
什么是大数据?维克托·迈尔-舍恩伯格及肯尼斯·库克耶在《大数据时代》中首次提出,将不用随机分析法(抽样调查)方法,而采用所有数据进行分析处理的数据称为大数据。
IBM归纳了大数据的5V特点,也就是:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。
大数据的价值在政府报告、新闻媒体、学术研究中已经被反复提及,无需质疑。我认为,大数据的作用可能也就是找到智慧的一种科学途径,包括生物智慧、群体智慧等等。

大数据工程师

既然大数据这么重要,谁来获取、传输、存储、分析和应用大数据呢?这可不是一件容易的事。
D.J.Pati和Hammerbacher在2008年将研究和应用大数据的人,称为数据科学家(Data Scientist)。科学家听起来还是上档次,突然就实现了儿时许下的理想,当然成为码农的可能性很大。

当然企业在人才招聘的时候,也会称数据分析员、数据工程师或者大数据工程师,这样是不是就落地了,踏实了吧?
实际上,之所以称为数据科学家,我想还是源于对从事大数据工作的人要求比较高吧。
首先,要有好的编程基础,尤其是数据库方面的专业知识,如果说不懂数据仓库、ETL、SP等等,SQL语句可能还是要能看懂;
其次,既然是数据分析与处理,那么应用数据和统计学知识也是要的,当然算法设计本身也对数学有一定要求;
另外,数据本身没有价值,大数据的价值在于蕴藏在非结构化、无规律的海量数据之中,一千个人看哈姆勒特就有一千种理解,一千个人看红楼梦就有一千个大观园。相同的数据,不同的行业、不同的企业,所寻求的价值可能也不同,当然这也是现在流行的“跨界打击”的逻辑。因此,大数据工程师对行业、业务要有深入了解,具备一定程度的专业知识。
大数据工程师的工作大致可分为2种:
> 1、市场驱动,根据市场需求来分析数据,我称为预测;
> 2、业务驱动,根据业务数据来建立模型,我称为评估。

薛贵荣说,大数据和传统数据的区别在于,在线、实时、海量且形式不规整,无章法可循,而大数据工程师让数据变成生产力,变成商业价值。
沈志勇将大数据比喻成不停积累的矿山,大数据工程师的工作则是:
> 第一步,定位并抽取信息所载的数据集,相当于探矿和采矿;
> 第二步,把数据变成可以直接判断的信息,相当于冶炼;
> 第三步,才是商业分析,价值挖掘。

总结下来,就是评估、预测、优化、创新。这让我想到了自己的老本行,IE。

人才市场

从上面大数据工程师的定义和工作内容来看,很难找到既懂业务生产又懂编程还懂数理统计的人来完成价值链上的所有工作。所以,套用媒体常用的一句话,人才紧缺。在美国,大数据工程师平均年薪高达17.5万美元。
颜莉萍说,目前大数据应用主要集中在互联网领域,超过56%的企业在筹备发展大数据业务。未来5年,94%的公司都会需要大数据科学家。
她建议,目前长期从事数据库管理、挖掘、编程的人,包括传统的量化分析师、Hadoop工程师,以及工作中通过数据来辅助决策的管理者,可以考虑转型。

结论

大数据工程,在未来应该是每个企业都需要的,也会具有较好的职业途径。同时,对从业者自身能力要求也比较高。