我們來看一下大數(shù)據(jù)到底怎么練,需要練些什么。我們把各個“門派”、各個專業(yè)方向的授課內(nèi)容都通過網(wǎng)絡(luò)搜集,整理了出來。國外網(wǎng)站上的信息資源豐富且開放,可以查到很多詳細內(nèi)容,包括授課老師的簡歷,甚至他們曾經(jīng)做過的一些具體事情。
這是一個無像圖形,由結(jié)點、路徑或邊組成,結(jié)點是我們提取出來的主要文本信息。圖形中的點越大,字體越大,說明其代表的信息越重要;兩點間相連的線段越粗越醒目,說明它們之間的聯(lián)系越緊密。如此一來各項信息的重要性及相關(guān)性都能一目了然。這是數(shù)據(jù)科學(xué)設(shè)置的一個課程,說白了就是你需要“修煉”的內(nèi)容。課程是學(xué)習(xí)的必要途徑,不管是在網(wǎng)上學(xué)還是到學(xué)校學(xué),又或者你來聽講座,都繞不開它,光坐在家里空想肯定不行??!
我們看圖上的machine和learn兩個詞,它們之間的線段很粗,組合起來叫machine learning,即“機器學(xué)習(xí)”。這需要主觀提煉,如果因為不熟悉理解成“學(xué)習(xí)機器”就偏了,我們講座的目的之一就是幫大家厘清它們之間的相關(guān)關(guān)系。大數(shù)據(jù)的很多要點在于相關(guān)分析,包括變量和研究對象之間的關(guān)系等,這也是現(xiàn)在很多數(shù)據(jù)分析的誤區(qū)。你可能知道兩者之間存在關(guān)系,但具體誰影響了誰,哪個是原因哪個是結(jié)果,不一定能搞清楚。我要說明的是,現(xiàn)在網(wǎng)絡(luò)上的許多諸如一張圖告訴你什么或者大數(shù)據(jù)告訴你什么之類的內(nèi)容,基本上都犯了一個邏輯錯誤,那就是大部分大數(shù)據(jù)分析都只局限在分析數(shù)據(jù)之間的關(guān)聯(lián)性,而要了解因果性,還得靠其他技術(shù)去實現(xiàn)。
圖形中羅列的機器學(xué)習(xí)、可視化、信息系統(tǒng)、計算機模式識別等詞匯,都是計算機中常見的字眼,通過它們我們就可以大體了解到具體的學(xué)習(xí)方向和內(nèi)容,從而有針對性地去下功夫?qū)W習(xí)。以此類推,其他學(xué)習(xí)方向的課程也可以通過這種形式來表現(xiàn)。以數(shù)據(jù)科學(xué)碩士為例,我們可以按照剛才的圖形把關(guān)鍵詞提煉出來,再通過觀察這些關(guān)鍵詞跟其他詞之間的關(guān)聯(lián)性的強弱,按從小到大的順序組合并排序,這個過程需要具有專業(yè)經(jīng)驗的主觀判斷的幫助,排列之后我們就得到了課程的具體內(nèi)容。需要注意的是,有的課程比較冷門,可能無法從圖形中提煉出來,另外,國外好多課程的名稱取得比較隨意,不同課程名稱對應(yīng)的也許是相同的內(nèi)容。
數(shù)據(jù)科學(xué)碩士有好多門必修課,就是必須具備的能力,包括機器學(xué)習(xí)、WEB數(shù)據(jù)挖掘、數(shù)據(jù)管理、統(tǒng)計分析、分析程序設(shè)計、系統(tǒng)設(shè)計等。除了必修課以外還有選修課,就是你還需要具備的其他技能。而機器學(xué)習(xí)這門課程,在必修和選修中都有提到,這是因為課程設(shè)置會因為學(xué)校的不同而有所差異,但總的來說,幾乎所有的課程都跟計算機、統(tǒng)計、數(shù)據(jù)有關(guān),那這些肯定就是我們“修煉”的重點。
數(shù)學(xué)是學(xué)習(xí)大數(shù)據(jù)技術(shù)的選修課。學(xué)習(xí)大數(shù)據(jù)最好有一定的數(shù)學(xué)基礎(chǔ),如果沒有基礎(chǔ),學(xué)習(xí)起來會比較困難,但也不是一個無法逾越的障礙。大數(shù)據(jù)時代,人們都是用工具去梳理數(shù)據(jù)的,現(xiàn)在的數(shù)據(jù)量巨大,不借助工具根本不可能梳理得過來。那么,都要用到哪些工具呢?最常見的是EXCEL;其次,還有一個叫SAS的商業(yè)軟件,是世界五百強企業(yè)的產(chǎn)品,美國《財富》雜志評選推薦的;再有,必須要了解的兩款開源軟件:R語言和Python。R目前是一款免費軟件,搞統(tǒng)計的人如果不會R語言那是不可想象的。有一句話說得好,R的出現(xiàn)使搞統(tǒng)計的人終于可以使用計算機了,Python的出現(xiàn)使用計算機的人終于可以搞統(tǒng)計了。以上列舉的幾個工具必須要非常熟悉,因為很多學(xué)校都不會開工具課,它默認你已經(jīng)掌握了。除此以外還有Hadoop,它是大數(shù)據(jù)處理的架構(gòu),現(xiàn)在不是很主流了,但對理解課程來說還是必須的。
已有0人發(fā)表了評論