第三個故事:曹雪芹懂統(tǒng)計么?《紅樓夢》第六十三回寶玉過生日,晚上請來了林黛玉、史湘云、薛寶釵、李紈、探春、薛寶琴等在怡紅院玩擲骰子抽簽的游戲。大家圍成一團,按照搖出骰子的點數(shù)數(shù)到誰,誰就從簽筒里抽出一根簽,按照簽上的要求或罰做詩、或罰喝酒。我們感興趣的是四個骰子出現(xiàn)的點數(shù)分布。假設這四顆骰子均為沒有出老千的骰子,經(jīng)計算其分布,如無限次數(shù)的扔硬幣,正反面概率為1/2,那么扔一個骰子每個面出現(xiàn)的概率就是1/6,同時扔四個就要算一算了。人民大學袁衛(wèi)教授把它算出來了,有四個參數(shù):點數(shù)、理論頻數(shù)、頻率(概率)、實際頻數(shù)(賈寶玉和眾美女實際扔的次數(shù))。賈寶玉和眾美女實際扔的次數(shù)一共扔了八次,分別是五點一次、六點一次、八點一次、十六點一次、十八點一次、十九點兩次、二十點一次。這些點數(shù)所相應對的概率都非常小,有六次結果是小于0.05的小概率。小概率在一次實驗中幾乎是不可能發(fā)生的,而曹雪芹先生竟搖了八次,就有六次結果是小概率。特別是晴雯和香菱分別搖出了0.0031、0.0077的小概率,相當于雨點打在香頭上。這該做何解釋呢?曹雪芹在寫這一回時,實際上事先確定了搖骰子的幾位人物,并為這些人物設定了骰子及詩詞作為與此人命運的寫照。如果曹雪芹有一點概率統(tǒng)計的知識,他就會合理安排人物的順序和給出合理的點數(shù),就不會發(fā)生小概率了。所以,我們分析的結果是曹雪芹不懂統(tǒng)計。因為在曹雪芹的時代,西方的概率統(tǒng)計剛剛產(chǎn)生。
第四個故事:超市銷售額有規(guī)律嗎?1993年一位美國人發(fā)現(xiàn),在超市里有67%的顧客在買啤酒的同時,也買了尿布。是顧客喝完啤酒以后用尿布嗎?顯然不是。進一步調(diào)查發(fā)現(xiàn),購買尿布的人80%都是年輕的父親,在購買尿布的時候,他們順便為自己買點啤酒。商家發(fā)現(xiàn)這樣的規(guī)律,便在婦產(chǎn)醫(yī)院及相關的機構的超市里,把啤酒和尿布放在一個貨架上,以方便年輕的父親,結果,銷售額大增。這種用于商品的貨架設計、存貨安排,根據(jù)購買模式對客戶進行分類的方法,就叫數(shù)據(jù)挖掘。數(shù)據(jù)挖掘是統(tǒng)計學一個比較新的研究方向和領域,把統(tǒng)計學、數(shù)學、計算機、人工智能、繼續(xù)學習等各種方法融合在一起的一個邊緣學科。數(shù)據(jù)挖掘的商用價值相當大,利用數(shù)據(jù)挖掘可以使統(tǒng)計學在為社會服務方面走得更遠。
第五個故事:數(shù)據(jù)勝過軼聞。軼聞引人注目,是因為它很突出,容易深入人心,但軼聞使議題人性化,所以不少新聞報道常常是以軼聞開場或結尾,但它并不足以當成決定的根據(jù),只是能影響收視率罷了。例如美國住在高壓線附近的一個兒童得了白血病,孩子的母親認為是高壓線使她的孩子得了白血病,能說會道的母親在電視臺露面,字字血聲聲淚地控訴,引起公眾的同情。而美國國家癌癥研究所花了5年時間和500萬美元進行研究,資料顯示,白血病和高壓線產(chǎn)生的磁場并無關系,但人們還是相信軼聞,相信沒有代表性的“典型”,而不相信科學推斷的數(shù)據(jù)。所以,我們應該用科學態(tài)度來對待事實,而不應該相信軼聞。
第六個故事:《靜靜的頓河》的作者是誰?1928年有人提出《靜靜的頓河》作者不是肖洛霍夫,而是克留柯夫。1974年,一個匿名的作者在巴黎寫了一本書,斷言克留柯夫是《靜靜的頓河》的真正作者,肖洛霍夫則是一個剽竊者。為了弄清真相,一些學者用統(tǒng)計方法進行了考證,具體做法是把《靜靜的頓河》同肖洛霍夫與克留柯夫兩個人沒有疑問的作品用計算機量化,采集數(shù)據(jù),加以分析比較。研究結果表明,《靜靜的頓河》與肖洛霍夫的其它作品非常接近,與克留柯夫的作品則相距甚遠,有充分把握推斷出《靜靜的頓河》的作者就是肖洛霍夫,從而了結了長達數(shù)十年的文壇公案。這種統(tǒng)計學的新分支叫做文獻計量學,主要的功能就是通過文獻來搜尋信息。比如要判斷《紅樓夢》前80回和后40回是不是一個人寫的?如果不學統(tǒng)計,你可能要下數(shù)十年的工夫,使自己幾乎成為一個紅學家,要對那段生活的歷史、文化、民俗,對曹雪芹、高鶚的風格,做一個全方位的比較,才能夠做出一個判斷。如果學了統(tǒng)計,把前80回和后40回一對比,看看虛詞的使用、句子的長度、標點使用的一些習慣,就可以判出來,國外把這叫做文字DNA。日本京都大學村上教授有一個著名的案例。有一個人去世以后,別人偽造了一份遺囑。村上教授把這個人生前所有寫的信件、書籍作為一個新的樣本,與假遺囑進行對比,發(fā)現(xiàn)遺囑不是此人的行文風格,法院就以此為依據(jù)作出相應的判決。
已有0人發(fā)表了評論