阮敬 首都經濟貿易大學研究生院副院長
我們來看一下大數據到底怎么練,需要練些什么。我們把各個“門派”、各個專業(yè)方向的授課內容都通過網絡搜集,整理了出來。國外網站上的信息資源豐富且開放,可以查到很多詳細內容,包括授課老師的簡歷,甚至他們曾經做過的一些具體事情。
這是一個無像圖形,由結點、路徑或邊組成,結點是我們提取出來的主要文本信息。圖形中的點越大,字體越大,說明其代表的信息越重要;兩點間相連的線段越粗越醒目,說明它們之間的聯系越緊密。如此一來各項信息的重要性及相關性都能一目了然。這是數據科學設置的一個課程,說白了就是你需要“修煉”的內容。課程是學習的必要途徑,不管是在網上學還是到學校學,又或者你來聽講座,都繞不開它,光坐在家里空想肯定不行啊!
我們看圖上的machine和learn兩個詞,它們之間的線段很粗,組合起來叫machine learning,即“機器學習”。這需要主觀提煉,如果因為不熟悉理解成“學習機器”就偏了,我們講座的目的之一就是幫大家厘清它們之間的相關關系。大數據的很多要點在于相關分析,包括變量和研究對象之間的關系等,這也是現在很多數據分析的誤區(qū)。你可能知道兩者之間存在關系,但具體誰影響了誰,哪個是原因哪個是結果,不一定能搞清楚。我要說明的是,現在網絡上的許多諸如一張圖告訴你什么或者大數據告訴你什么之類的內容,基本上都犯了一個邏輯錯誤,那就是大部分大數據分析都只局限在分析數據之間的關聯性,而要了解因果性,還得靠其他技術去實現。
已有0人發(fā)表了評論