鑒于國(guó)外已經(jīng)形成了比較完整的大數(shù)據(jù)高端人才培養(yǎng)體系,那我們完全可以在培養(yǎng)國(guó)內(nèi)人才時(shí)把它借鑒過來,這樣做的好處是比自己摸索來的省時(shí)省力,可以盡快突破人才培養(yǎng)過程中的各個(gè)壁壘。
具體要怎么借鑒?還是要靠搜集客觀數(shù)據(jù)來得出結(jié)論,這也是做數(shù)據(jù)分析的基本原則。如何實(shí)現(xiàn)從數(shù)據(jù)得出結(jié)論呢?數(shù)據(jù)的來源在哪里?在座的大部分是學(xué)生,以我們要了解的國(guó)外大數(shù)據(jù)高端人才的培養(yǎng)方式為例,將來你們?nèi)绻鰢?guó)的話,在擇校的時(shí)候肯定會(huì)先到國(guó)外學(xué)校的官網(wǎng)上去瀏覽,了解他們有哪些項(xiàng)目是你可以申請(qǐng)的,這就是搜集數(shù)據(jù)的過程。這個(gè)工序我已經(jīng)幫你們做了,就是通過網(wǎng)絡(luò)將開設(shè)了大數(shù)據(jù)人才培養(yǎng)項(xiàng)目的學(xué)校的數(shù)據(jù)搜集起來。這些資料有文本、圖片、聲音、表格、數(shù)字等各種形式,叫非結(jié)構(gòu)數(shù)據(jù)。對(duì)這些數(shù)據(jù)進(jìn)行處理之后,我們可以把它以我們能夠分析的形式呈現(xiàn)出來,具體怎么做屬于技術(shù)問題,不是今天討論的重點(diǎn)。需要說明的是,國(guó)外的院校何其多,想要全部搜集到是不可能的,這里面涉及到一個(gè)權(quán)重設(shè)置的問題。像哈佛、耶魯、普林斯頓等名校,在大多數(shù)人心目中肯定很有分量,但更多的是那些你沒聽說過的學(xué)校,比如我們首都經(jīng)貿(mào)大學(xué),我自己覺得挺有名氣,但保不準(zhǔn)在座的就有人沒聽說過。設(shè)置權(quán)重,可以讓我們的結(jié)論更加靠譜,更有說服力。
下面具體跟大家分享下我獲取相關(guān)數(shù)據(jù)的途徑。在搜索引擎中鍵入大數(shù)據(jù)(big data)、深度學(xué)習(xí)(deep learning)、商業(yè)智能(business intelligent)、計(jì)算機(jī)科學(xué)(computer science)、統(tǒng)計(jì)學(xué)(statistics)等與大數(shù)據(jù)分析有關(guān)的詞匯,這些詞匯都是專家組討論得到的。經(jīng)過統(tǒng)計(jì),這些詞在該搜索引擎上一共有八億六千三百多萬條搜索記錄。我們把它們從網(wǎng)絡(luò)上采集下來編個(gè)程序,整理成可供分析的數(shù)據(jù)庫。另外,網(wǎng)絡(luò)搜索有一個(gè)熱度高低的問題,有的網(wǎng)址熱度高,有的熱度低,像那些一萬年都沒有人訪問,可能也沒有人更新的,我們搜集來也沒有什么用處,這就需要用技術(shù)來控制數(shù)據(jù)來源。留學(xué)要耗費(fèi)一定的時(shí)間和金錢,鑒于國(guó)人普遍對(duì)排名靠前的學(xué)校認(rèn)可度比較高,我們可以根據(jù)最新的美國(guó)大學(xué)排名(U.S.NEWS)把排名靠前的學(xué)校按照重要程度分別設(shè)置權(quán)重,數(shù)字越大越重要或者越小越重要都可以,這個(gè)可以根據(jù)個(gè)人習(xí)慣來。
通過統(tǒng)計(jì)并分析數(shù)據(jù)我們可以得到哪些信息呢?包括大數(shù)據(jù)分析要修煉多少年,即需要學(xué)多長(zhǎng)時(shí)間;再有就是要花多少錢,即學(xué)費(fèi)是多少;還有具體該去哪里練,是歐洲國(guó)家還是美洲國(guó)家;另外就是你是實(shí)地學(xué)習(xí)還是在線學(xué)習(xí),最終是要兼職還是全職等。這些都跟你想要學(xué)習(xí)什么專業(yè),是否適合這個(gè)專業(yè)方向及今后市場(chǎng)的需求有關(guān)。
通過文本分析、文本聚類、特征相關(guān)度等方法,我們把各個(gè)專業(yè)門派歸納出來,對(duì)大部分開設(shè)了這些課程的學(xué)校的信息進(jìn)行提煉,當(dāng)然其中的某些專業(yè)可能跟市場(chǎng)需求并不匹配。經(jīng)過研究,未來市場(chǎng)認(rèn)可的大數(shù)據(jù)人才大概分為三類。第一類人是有相關(guān)專業(yè)權(quán)威證書的;第二類是有博士學(xué)位的;第三類是有碩士學(xué)位的。在國(guó)外,很多專業(yè)證書跟碩士學(xué)位是并行的,也就是說拿到碩士學(xué)位以后證書自然也有了。本科的專業(yè)五花八門,雖然國(guó)外的很多學(xué)??梢宰约涸O(shè)置專業(yè),但一般沒有大數(shù)據(jù)專業(yè),所以國(guó)外的高端人才一般被定義為碩士以上學(xué)歷的人。
經(jīng)過統(tǒng)計(jì),截止到2016年,世界范圍內(nèi)有300多個(gè)學(xué)校的384個(gè)項(xiàng)目和大數(shù)據(jù)相關(guān);其中博士點(diǎn)11個(gè),碩士點(diǎn)293個(gè),能夠通過學(xué)歷直接獲得證書的有83個(gè)。由于數(shù)量太多,我們把它們劃分為數(shù)據(jù)科學(xué)、應(yīng)用統(tǒng)計(jì)、商業(yè)分析、商務(wù)智能、健康醫(yī)療、信息系統(tǒng)、MBA七類。
有些朋友可能會(huì)覺得很奇怪,這些項(xiàng)目里找不到大數(shù)據(jù)的字樣??!事實(shí)上并沒有明確的大數(shù)據(jù)專業(yè),有的只是大數(shù)據(jù)分析的技術(shù);學(xué)校教授的是計(jì)算機(jī)框架該怎么搭建,硬件、軟件該怎么學(xué)習(xí),以及數(shù)據(jù)分析的套路等;把這些內(nèi)容都掌握以后,還需要結(jié)合具體的業(yè)務(wù)實(shí)踐來運(yùn)用。所以我們不能為了做大數(shù)據(jù)去學(xué)大數(shù)據(jù),那樣學(xué)完以后也不知道該怎么操作。
剛才我們把大數(shù)據(jù)相關(guān)專業(yè)的方向分了七類,相當(dāng)于七大門派,商業(yè)分析是最熱門的方向,大概有97個(gè)項(xiàng)目。國(guó)外的商科比較多,學(xué)起來相對(duì)容易,學(xué)成以后在現(xiàn)實(shí)生活中的應(yīng)用比較廣泛,畢竟一般的商業(yè)企業(yè)用不著特別繁復(fù)的分析手段。

上圖是我們經(jīng)過信息提取之后得到的詞云圖,每一個(gè)大字母都代表與大數(shù)據(jù)相關(guān)的一類專業(yè),均由許多能表現(xiàn)主題詞的字符組合而成。比如大字母B代表的是商業(yè)分析,在這個(gè)大主題下包含著管理(Management)、技術(shù)(Skills)、市場(chǎng)(Marketing)、計(jì)算機(jī)(Program)、數(shù)據(jù)(Data)等跟商業(yè)活動(dòng)相關(guān)的詞。其中線條粗、個(gè)頭大,顯示突出的詞匯在商業(yè)分析這個(gè)大主題中發(fā)揮著比較重要的作用。詞云圖是可以令數(shù)據(jù)可視化的一種工具。相對(duì)應(yīng)的字母I表示的是信息系統(tǒng),G指得是商務(wù)智能,D是數(shù)據(jù)科學(xué),T是健康醫(yī)療,還有兩個(gè)字母A,一個(gè)是應(yīng)用統(tǒng)計(jì),一個(gè)是MBA。工商管理學(xué)碩士為什么也要用到大數(shù)據(jù)分析呢?做管理如果連數(shù)據(jù)都不能掌握,那是一件不可想象的事情,一會(huì)兒我們后面會(huì)講到。除了這七大門派以外,對(duì)大數(shù)據(jù)的學(xué)習(xí)還有一些小的分支,因?yàn)椴粚儆谥髁魑覀兙筒挥每紤]了。


已有0人發(fā)表了評(píng)論