我們來看一下大數(shù)據(jù)到底怎么練,需要練些什么。我們把各個“門派”、各個專業(yè)方向的授課內容都通過網絡搜集,整理了出來。國外網站上的信息資源豐富且開放,可以查到很多詳細內容,包括授課老師的簡歷,甚至他們曾經做過的一些具體事情。
這是一個無像圖形,由結點、路徑或邊組成,結點是我們提取出來的主要文本信息。圖形中的點越大,字體越大,說明其代表的信息越重要;兩點間相連的線段越粗越醒目,說明它們之間的聯(lián)系越緊密。如此一來各項信息的重要性及相關性都能一目了然。這是數(shù)據(jù)科學設置的一個課程,說白了就是你需要“修煉”的內容。課程是學習的必要途徑,不管是在網上學還是到學校學,又或者你來聽講座,都繞不開它,光坐在家里空想肯定不行啊!
我們看圖上的machine和learn兩個詞,它們之間的線段很粗,組合起來叫machine learning,即“機器學習”。這需要主觀提煉,如果因為不熟悉理解成“學習機器”就偏了,我們講座的目的之一就是幫大家厘清它們之間的相關關系。大數(shù)據(jù)的很多要點在于相關分析,包括變量和研究對象之間的關系等,這也是現(xiàn)在很多數(shù)據(jù)分析的誤區(qū)。你可能知道兩者之間存在關系,但具體誰影響了誰,哪個是原因哪個是結果,不一定能搞清楚。我要說明的是,現(xiàn)在網絡上的許多諸如一張圖告訴你什么或者大數(shù)據(jù)告訴你什么之類的內容,基本上都犯了一個邏輯錯誤,那就是大部分大數(shù)據(jù)分析都只局限在分析數(shù)據(jù)之間的關聯(lián)性,而要了解因果性,還得靠其他技術去實現(xiàn)。
圖形中羅列的機器學習、可視化、信息系統(tǒng)、計算機模式識別等詞匯,都是計算機中常見的字眼,通過它們我們就可以大體了解到具體的學習方向和內容,從而有針對性地去下功夫學習。以此類推,其他學習方向的課程也可以通過這種形式來表現(xiàn)。以數(shù)據(jù)科學碩士為例,我們可以按照剛才的圖形把關鍵詞提煉出來,再通過觀察這些關鍵詞跟其他詞之間的關聯(lián)性的強弱,按從小到大的順序組合并排序,這個過程需要具有專業(yè)經驗的主觀判斷的幫助,排列之后我們就得到了課程的具體內容。需要注意的是,有的課程比較冷門,可能無法從圖形中提煉出來,另外,國外好多課程的名稱取得比較隨意,不同課程名稱對應的也許是相同的內容。
數(shù)據(jù)科學碩士有好多門必修課,就是必須具備的能力,包括機器學習、WEB數(shù)據(jù)挖掘、數(shù)據(jù)管理、統(tǒng)計分析、分析程序設計、系統(tǒng)設計等。除了必修課以外還有選修課,就是你還需要具備的其他技能。而機器學習這門課程,在必修和選修中都有提到,這是因為課程設置會因為學校的不同而有所差異,但總的來說,幾乎所有的課程都跟計算機、統(tǒng)計、數(shù)據(jù)有關,那這些肯定就是我們“修煉”的重點。
數(shù)學是學習大數(shù)據(jù)技術的選修課。學習大數(shù)據(jù)最好有一定的數(shù)學基礎,如果沒有基礎,學習起來會比較困難,但也不是一個無法逾越的障礙。大數(shù)據(jù)時代,人們都是用工具去梳理數(shù)據(jù)的,現(xiàn)在的數(shù)據(jù)量巨大,不借助工具根本不可能梳理得過來。那么,都要用到哪些工具呢?最常見的是EXCEL;其次,還有一個叫SAS的商業(yè)軟件,是世界五百強企業(yè)的產品,美國《財富》雜志評選推薦的;再有,必須要了解的兩款開源軟件:R語言和Python。R目前是一款免費軟件,搞統(tǒng)計的人如果不會R語言那是不可想象的。有一句話說得好,R的出現(xiàn)使搞統(tǒng)計的人終于可以使用計算機了,Python的出現(xiàn)使用計算機的人終于可以搞統(tǒng)計了。以上列舉的幾個工具必須要非常熟悉,因為很多學校都不會開工具課,它默認你已經掌握了。除此以外還有Hadoop,它是大數(shù)據(jù)處理的架構,現(xiàn)在不是很主流了,但對理解課程來說還是必須的。
已有0人發(fā)表了評論