首页 > 文化博览 博古通今 独家讲稿
阮敬:高端大数据人才需具备哪些专业技能
2018年07月18日 14:14
阮敬 首都经济贸易大学研究生院副院长
我们来看一下大数据到底怎么练,需要练些什么。我们把各个“门派”、各个专业方向的授课内容都通过网络搜集,整理了出来。国外网站上的信息资源丰富且开放,可以查到很多详细内容,包括授课老师的简历,甚至他们曾经做过的一些具体事情。
这是一个无像图形,由结点、路径或边组成,结点是我们提取出来的主要文本信息。图形中的点越大,字体越大,说明其代表的信息越重要;两点间相连的线段越粗越醒目,说明它们之间的联系越紧密。如此一来各项信息的重要性及相关性都能一目了然。这是数据科学设置的一个课程,说白了就是你需要“修炼”的内容。课程是学习的必要途径,不管是在网上学还是到学校学,又或者你来听讲座,都绕不开它,光坐在家里空想肯定不行啊!
我们看图上的machine和learn两个词,它们之间的线段很粗,组合起来叫machine learning,即“机器学习”。这需要主观提炼,如果因为不熟悉理解成“学习机器”就偏了,我们讲座的目的之一就是帮大家厘清它们之间的相关关系。大数据的很多要点在于相关分析,包括变量和研究对象之间的关系等,这也是现在很多数据分析的误区。你可能知道两者之间存在关系,但具体谁影响了谁,哪个是原因哪个是结果,不一定能搞清楚。我要说明的是,现在网络上的许多诸如一张图告诉你什么或者大数据告诉你什么之类的内容,基本上都犯了一个逻辑错误,那就是大部分大数据分析都只局限在分析数据之间的关联性,而要了解因果性,还得靠其他技术去实现。
图形中罗列的机器学习、可视化、信息系统、计算机模式识别等词汇,都是计算机中常见的字眼,通过它们我们就可以大体了解到具体的学习方向和内容,从而有针对性地去下功夫学习。以此类推,其他学习方向的课程也可以通过这种形式来表现。以数据科学硕士为例,我们可以按照刚才的图形把关键词提炼出来,再通过观察这些关键词跟其他词之间的关联性的强弱,按从小到大的顺序组合并排序,这个过程需要具有专业经验的主观判断的帮助,排列之后我们就得到了课程的具体内容。需要注意的是,有的课程比较冷门,可能无法从图形中提炼出来,另外,国外好多课程的名称取得比较随意,不同课程名称对应的也许是相同的内容。
数据科学硕士有好多门必修课,就是必须具备的能力,包括机器学习、WEB数据挖掘、数据管理、统计分析、分析程序设计、系统设计等。除了必修课以外还有选修课,就是你还需要具备的其他技能。而机器学习这门课程,在必修和选修中都有提到,这是因为课程设置会因为学校的不同而有所差异,但总的来说,几乎所有的课程都跟计算机、统计、数据有关,那这些肯定就是我们“修炼”的重点。
数学是学习大数据技术的选修课。学习大数据最好有一定的数学基础,如果没有基础,学习起来会比较困难,但也不是一个无法逾越的障碍。大数据时代,人们都是用工具去梳理数据的,现在的数据量巨大,不借助工具根本不可能梳理得过来。那么,都要用到哪些工具呢?最常见的是EXCEL;其次,还有一个叫SAS的商业软件,是世界五百强企业的产品,美国《财富》杂志评选推荐的;再有,必须要了解的两款开源软件:R语言和Python。R目前是一款免费软件,搞统计的人如果不会R语言那是不可想象的。有一句话说得好,R的出现使搞统计的人终于可以使用计算机了,Python的出现使用计算机的人终于可以搞统计了。以上列举的几个工具必须要非常熟悉,因为很多学校都不会开工具课,它默认你已经掌握了。除此以外还有Hadoop,它是大数据处理的架构,现在不是很主流了,但对理解课程来说还是必须的。
应用统计硕士必需进行数据研究和模型推断。著名统计学家弗洛伦斯·南丁格尔说:“如果要想了解上帝在想什么,我们就必须学统计,因为统计学就是在测量上帝的旨意。”这可以理解为根据统计来推断的过程。比如你到医院去看病抽血,护士可以从你的手指或是手臂上抽出少量的血,而不会把你全身的血都放出来。那么为什么你每次去医院,医生都让你重新抽血呢?这是因为由于时间地点及身体状况的不同,血液里包含的各类物质的量总是在发生变化的,有可能今天你测的数值异常,回去睡了一觉之后再测就是正常的了。古人说的“管窥蠡测”就是统计推断的思想。
线性模型是统计研究里最重要的内容。据不完全统计,刊物上的大部分模型都是线性模型,比如《美国经济评论》杂志上的线性模型数量达到了90%。不管是搞研究还是做实际应用,模型数据建模的主要内容就是线性建模,非线性模型也可以转化为线性,具体怎么操作有赖于具体学习。
应用统计硕士的必修课包括统计理论、实验设计与分析、贝叶斯分析、概率统计计算、应用回归分析、多元统计分析、定量数据分析等,这些都是该方向必须具备的技能。还有一些可供选择的课程,比如数据挖掘。据我了解,全中国所有的统计系都会开设数据挖掘这门课,还有离散分析等其他应用性的课程。
数学和统计学是要先修的课程,学习者还需具备一定的编程基础,掌握相应工具软件的使用方法。除了我们上面提过的比较贵的商业软件SAS和目前免费但是处理大数据速度相对较慢的软件R这两个首选统计分析工具以外,现在绝大多数学校更倾向于使用Python和Minitab。Minitab是现代质量管理统计的领先者,主要用来做数据分析。
商业分析硕士则更强调可视化内容,比如Tableau就是一个可视化工具。其他比较流行的数据库应用工具还有Mahout、Weka这两个做数据挖掘的可视化工具。除了必不可少的专业技术课程以外,商业分析硕士还要具备商业管理系统的一些技能,可供选择的有文本分析、管理战略运筹、时间序列分析、风险管理及其他一些市场研究方面的内容,总之是跟业务有关的。
商务智能硕士跟商业分析有类似的地方,必须要先熟悉计算机科学方面的知识,并且对这方面知识的要求比较高。大数据的商务智能跟我们国内讲的BI(Business Intelligence)不同,国内的很多BI就是一个软件,有点类似于飞机上的仪表盘,客观的说那个软件也是BI的一种可视化形式。如何更好地把内容展示出来,这里面有很多可供研究的内容,比如商务智能、数据分析、文本挖掘、数据管理等。掌握BI的人肯定已经掌握了经济数据分析常见的方法,除了商业智能BI以外,还需要学习一些选修课程,甚至是人工智能AI(Artificial Intelligence),因为它们是彼此联系的。
医学的发展也离不开统计学的应用,医生敢对症下药,原因就在于他的结论是在大量统计分析的基础上得到的。
健康医疗硕士的课程很多都是属于统计方面的,它与生物、流行病等医学方面的课程组合在一起就成了健康医疗,这个领域还有一个比较流行的叫法——大数据医疗,该方向主要研究怎么用医疗数据去看病问诊。要“修炼”这门功夫必须有一定的数学、统计学、生物学或医学基础。另外,编程也是必须要掌握的技能。在应用工具上,SAS、R和Java是用到比较多的。JAVA主要用来做开发,如果要做医疗大数据系统就需要做开发,因此必修课当中包含了医疗信息系统、数据库系统等课程。
信息系统硕士跟计算机有关,需要有扎实的编程基础,JAVA、C++等做开发的软件要提前掌握。就像学统计的必须要会SAS和R一样,编程软件属于计算机人的看家本领。
在学习的过程中我们一定要着重熟悉业务,好比我们练射击一定要有靶子,不然学会了开枪也不知道该往哪里打,所以学习一定要跟具体的业务实践相结合。做到这一点以后,再看你选择的方向更偏重于软硬件系统、系统设计、系统管理、数据开发、网络信息安全等哪一个方面。
MBA(工商管理学硕士)国内外都有,不过国内将它与大数据结合得很少,而国外结合得相对紧密,发展得也较为成熟。MBA偏重金融管理,大家可以看到会计也在必修课程列表里,它也是属于管理学的一个东西,细分下来还有供应链、管理会计、金融市场学、会计实务、市场营销等,这些都可以为你用大数据技术在这个领域开创一片天地打下基础。当然你必须要储备一些统计和计算机科学方面的知识,但不必熟练精通。
最后我们看博士。博士属于理论型的高端人才,或者说是精英。成为博士以后就要去搞研究了,目前的大数据研究主要有以下几个方面:第一个是计算机应用方面,比如说你觉得Hadoop不好用,可以发明一个新的架构,使存储速度更快;第二个是研究算法,比如知识限量该怎么进行并行计算,怎样使数据分析的效率更快,别人要分析一整天的数据,你用一秒钟就搞定了。大数据有优化数据算法的作用,很多时候统计计算、统计分析、数据分析等都是为了得出最优化的结果,都是必须要掌握的技能。大数据技术具有专业性,对它的学习有一定的门槛,除了前面提到过的计算机及数学基础,要到国外去学习大数据还要具备学士或同等以上的学位,考雅思、托福,基点4.0是满分,分数至少也要达到3.0以上,这个因学校而异。
接下来我们看就业机会,上图中列举的主要是国外的一些就业机会,国内也可以作为参考。其中数据科学硕士在各行业的需求量都很大,大家应该听说过一个名词叫数据科学家,主要为社交媒体、互联网公司(比如谷歌、推特等)服务,金融和零售业是他们的出口。应用统计硕士,学成后有些人进入了大型咨询公司,工资普遍比较高。只要是有数据的地方,我们都可以进行数据分析,前提是你有一定的业务背景。各个行业需要什么类型的大数据人才,他们分布在哪儿,这些信息我们都可以从互联网中提取出来,方便大家有针对性的去学习。比如我就想进入谷歌,研究AlphaGo是怎么下棋的,那就要先了解这类互联网公司需要什么样的人才。当然公司里面还有很多不同的岗位,我们就不展开了。
再来看证书,有时候我们练功没必要非得到哪个山头去拜师,去攻读学位,也可以自己修炼再找一个权威的认证机构来见证。遗憾的是,在这方面我们国内的权威认证非常少,国外的比较多,比如SAS证书,还有一些专业学校会给学生颁发证书,证明其学习经历。国内的证书必须得到教育部的认可才行,如果教育部不认,企业就不可能认。在资源有限的前提条件下,若想提高个人在大数据领域里的技能水平,可以考虑考取相关证书。
证书主要分成五项:数据科学、应用统计、商业分析、商务智能和健康医疗。数据科学就是在大型企业里面从事与数据分析相关工作的专业人士,主要培养能从大企业的数据中挖掘出有效信息的建模的能力。商业分析就是分析商业数据的,可以跟不同的行业结合起来,比如健康医疗行业。商务智能类似数据的自动处理。应用统计就是要掌握统计方法,提高人们的统计思维能力和数据分析能力。数据分析里最核心的内容就是统计分析,所以应用统计分析证书在国外非常吃香。并且,相对于其他动辄一两万美元的证书来说,这个证书比较便宜。如果大家要申请证书,建议尽量集中在美洲地区,因为那里没有价格歧视。什么是价格歧视呢?比如在国外申请学位,当地居民和非当地居民的学费是不一样的,往往当地居民只需外地居民的三分之一。
有些证书要求的学费和学分都很少,这一般都是给具备一定专业基础的人去学的。以修满10个学分就够了的证书为例,10分转换成课程也就是三门左右,通过三门课就想掌握大数据,几乎是不可能的。包括现在国内的好多培训班请我去讲课,让我在两三天内就把大数据说明白,这么短的时间说个大概还可以,但对没有基础的人,那是行不通的。所以去学证书的通常都是具有大数据专业基础的一批人。
国外的我们就先说到这里。为什么要分析国外的?我们不能说国外的就好,但是对于大数据人才培养这一块,我们要认识到国外有先例,有其自身的培养特色,而国内也有这方面的需求,所以我们要把他们做得好的地方借鉴过来。
(根据宣讲家网报告整理编辑,
未经许可,不得印刷、出版,违者追究法律责任)
责任编辑:杨雪
文章来源:http://www.71.cn/2018/0718/1009760.shtml