阮敬 首都經(jīng)濟(jì)貿(mào)易大學(xué)研究生院副院長
鑒于國外已經(jīng)形成了比較完整的大數(shù)據(jù)高端人才培養(yǎng)體系,那我們完全可以在培養(yǎng)國內(nèi)人才時(shí)把它借鑒過來,這樣做的好處是比自己摸索來的省時(shí)省力,可以盡快突破人才培養(yǎng)過程中的各個(gè)壁壘。
具體要怎么借鑒?還是要靠搜集客觀數(shù)據(jù)來得出結(jié)論,這也是做數(shù)據(jù)分析的基本原則。如何實(shí)現(xiàn)從數(shù)據(jù)得出結(jié)論呢?數(shù)據(jù)的來源在哪里?在座的大部分是學(xué)生,以我們要了解的國外大數(shù)據(jù)高端人才的培養(yǎng)方式為例,將來你們?nèi)绻鰢脑?,在擇校的時(shí)候肯定會(huì)先到國外學(xué)校的官網(wǎng)上去瀏覽,了解他們有哪些項(xiàng)目是你可以申請(qǐng)的,這就是搜集數(shù)據(jù)的過程。這個(gè)工序我已經(jīng)幫你們做了,就是通過網(wǎng)絡(luò)將開設(shè)了大數(shù)據(jù)人才培養(yǎng)項(xiàng)目的學(xué)校的數(shù)據(jù)搜集起來。這些資料有文本、圖片、聲音、表格、數(shù)字等各種形式,叫非結(jié)構(gòu)數(shù)據(jù)。對(duì)這些數(shù)據(jù)進(jìn)行處理之后,我們可以把它以我們能夠分析的形式呈現(xiàn)出來,具體怎么做屬于技術(shù)問題,不是今天討論的重點(diǎn)。需要說明的是,國外的院校何其多,想要全部搜集到是不可能的,這里面涉及到一個(gè)權(quán)重設(shè)置的問題。像哈佛、耶魯、普林斯頓等名校,在大多數(shù)人心目中肯定很有分量,但更多的是那些你沒聽說過的學(xué)校,比如我們首都經(jīng)貿(mào)大學(xué),我自己覺得挺有名氣,但保不準(zhǔn)在座的就有人沒聽說過。設(shè)置權(quán)重,可以讓我們的結(jié)論更加靠譜,更有說服力。
下面具體跟大家分享下我獲取相關(guān)數(shù)據(jù)的途徑。在搜索引擎中鍵入大數(shù)據(jù)(big data)、深度學(xué)習(xí)(deep learning)、商業(yè)智能(business intelligent)、計(jì)算機(jī)科學(xué)(computer science)、統(tǒng)計(jì)學(xué)(statistics)等與大數(shù)據(jù)分析有關(guān)的詞匯,這些詞匯都是專家組討論得到的。經(jīng)過統(tǒng)計(jì),這些詞在該搜索引擎上一共有八億六千三百多萬條搜索記錄。我們把它們從網(wǎng)絡(luò)上采集下來編個(gè)程序,整理成可供分析的數(shù)據(jù)庫。另外,網(wǎng)絡(luò)搜索有一個(gè)熱度高低的問題,有的網(wǎng)址熱度高,有的熱度低,像那些一萬年都沒有人訪問,可能也沒有人更新的,我們搜集來也沒有什么用處,這就需要用技術(shù)來控制數(shù)據(jù)來源。留學(xué)要耗費(fèi)一定的時(shí)間和金錢,鑒于國人普遍對(duì)排名靠前的學(xué)校認(rèn)可度比較高,我們可以根據(jù)最新的美國大學(xué)排名(U.S.NEWS)把排名靠前的學(xué)校按照重要程度分別設(shè)置權(quán)重,數(shù)字越大越重要或者越小越重要都可以,這個(gè)可以根據(jù)個(gè)人習(xí)慣來。
已有0人發(fā)表了評(píng)論