最近中文2019字幕第二页,艳妇乳肉豪妇荡乳,中日韩高清无专码区2021,中文字幕乱码无码人妻系列蜜桃,曰本极品少妇videossexhd

朱利平:統(tǒng)計(jì)與大數(shù)據(jù)(4)

摘要:信息爆炸的時(shí)代,產(chǎn)生了比以往任何時(shí)代都要多的海量數(shù)據(jù)。對大數(shù)據(jù)信息的應(yīng)用和獲取,已經(jīng)成為當(dāng)下最重要的技能之一。那么,我們應(yīng)該如何認(rèn)識統(tǒng)計(jì),認(rèn)識大數(shù)據(jù)?當(dāng)前有哪些數(shù)據(jù)類型?我們又該如何分析不同的數(shù)據(jù),并從中提取有用信息?來自浙江大學(xué)高分子科學(xué)與工程學(xué)系的朱利平教授將結(jié)合生動(dòng)的案例,為您一一解答。

如果這個(gè)數(shù)據(jù)是指收入的話,那么絕大部分人的收入指的是柱狀比較高這一塊,但是有些人特別有錢,所以他們把“尾巴”拖得很長很長(橫軸是收入,縱軸是人數(shù))。所以很多數(shù)據(jù)都滿足這一種情況,就是有一些人賺得特別多。

數(shù)據(jù)怎么來的?

數(shù)據(jù)有各種各樣的來源途徑,但是收集這些數(shù)據(jù)特別不容易。比如一個(gè)很簡單的例子,問哪一個(gè)國家的人撒謊最多。這是不太好問的一個(gè)問題,那么怎么去問呢?有人設(shè)計(jì)了兩個(gè)實(shí)驗(yàn)。第一個(gè)實(shí)驗(yàn),每一個(gè)國家挑一千個(gè)人,在網(wǎng)上做一個(gè)調(diào)查,但是不直接問你有沒有撒謊。他就說,只需要你在家里面來參加這個(gè)實(shí)驗(yàn),你在家里面自己拋一枚硬幣。如果硬幣的正面朝上,我給你5塊錢;如果硬幣的反面朝上,你就不能拿到錢了。從這個(gè)實(shí)驗(yàn)可以知道什么呢?比如調(diào)查1000個(gè)人,如果有900個(gè)人都告訴我硬幣正面朝上了,中間肯定有人撒謊了。這個(gè)撒謊的比例是很高的,因?yàn)橛欣娴尿?qū)動(dòng)。我并不需要知道每一個(gè)人有沒有撒謊,只需要一個(gè)比例。這是第一個(gè)小實(shí)驗(yàn),看看這個(gè)國家的人是不是誠實(shí)。

第二個(gè)實(shí)驗(yàn),一批人選進(jìn)來以后,同時(shí)會(huì)參加兩個(gè)小測試,這兩個(gè)小測試都是很簡單的。然后他會(huì)問你一堆問題,也告訴你如果你把這些問題答對了,我就給你一些錢。比如有五個(gè)問題,其中有兩個(gè)問題特別簡單,不管你是哪一個(gè)國家的人,一眼就能看出來答案,但是其他三個(gè)問題設(shè)置得特別難,而且很生僻,如果不去查資料,幾乎不可能找到答案。但是測試之前就告訴你,不許查資料。這樣為了得到錢,有些人就會(huì)去查資料。在五個(gè)問題中,正常情況下應(yīng)該只有兩個(gè)題能答對了,如果五道題全答對了,一般就是認(rèn)為你肯定是查了資料。

名義變量:大數(shù)據(jù)文本分析

第二類數(shù)據(jù)怎么來的?這是跟大數(shù)據(jù)有關(guān)系的?,F(xiàn)在大數(shù)據(jù)會(huì)有一些輿情分析,做一些文本分析。這個(gè)例子特別多。

圖片14

上圖是統(tǒng)計(jì)情侶之間聊天時(shí)出現(xiàn)頻率較高的語句。聊得越多的話,字就越大。統(tǒng)計(jì)出來之后,算一下頻數(shù)就行了。聊得少的字就特別小,聊得越多的字就越大。字有大有小,大小是由它出現(xiàn)的頻率來決定的。

還有一些應(yīng)用,看搜索的哪些關(guān)鍵詞出現(xiàn)頻率最高,就是大家最關(guān)心什么問題。這對做輿情分析是非常有用的。某一個(gè)新聞事件出現(xiàn)以后,搜索量會(huì)增加,這就可以統(tǒng)計(jì)一下頻數(shù),看哪些詞出現(xiàn)的頻率高,出現(xiàn)頻率越高的字體就越大,出現(xiàn)頻率越低的字體就越小。

做輿情分析有什么用途呢?做輿情分析有很多用途。你自己一個(gè)人在網(wǎng)上檢索某個(gè)關(guān)鍵詞,這個(gè)信息沒什么太大的用途,但是全中國人都在搜索一些關(guān)鍵詞,我把它統(tǒng)計(jì)出來,就可以知道絕大部分中國人在關(guān)心什么問題。我只要看看這段時(shí)間,中國人都在搜索一些什么關(guān)鍵詞,再過一陣子以后,中國人又在搜索一些什么關(guān)鍵詞,就可以大概判斷你這個(gè)國家的科研走向,它不一定很準(zhǔn),是一個(gè)很粗糙的辦法。

圖片15

第二個(gè)小例子很有意思,是我們常常用的。把橫軸改一改,把縱軸改一改,這些數(shù)據(jù)都是真實(shí)的,但是橫軸和縱軸改一改,看到的情況就會(huì)大不相同。沒造任何假,但是圖形展示的方式不一樣,給你看到的結(jié)果會(huì)完全不一樣。

圖片16

再看第三個(gè),這是美國的一個(gè)真實(shí)數(shù)據(jù),每一個(gè)季度的財(cái)政收入。左邊這個(gè)圖形是逐年增長的,能看到這個(gè)很明顯的趨勢,但是真實(shí)圖形是右邊的圖形。它怎么做的呢?為了顯示出逐年增長,他只把右邊圖形最上面那一段給截取出來給你看。他的橫軸不是從0開始,而是從94開始。從94開始截取,只是展示圖形的一段給你看,那我們視覺所看到的增長速度就是非??斓模聦?shí)是沒怎么動(dòng)。這樣截取一部分很容易給你一個(gè)視覺上的誤差,覺得收入在不斷增長。所以我們在看圖形的時(shí)候,要稍微小心點(diǎn),不要被誤導(dǎo)了。

怎樣提取數(shù)據(jù)中的信息?

數(shù)據(jù)中的信息量是非常大的,我們怎么樣去把數(shù)據(jù)中的信息提取出來,尤其是數(shù)據(jù)特別大的時(shí)候,我們怎么把重要的信息都給提取出來?目前在數(shù)據(jù)量特別大的時(shí)候,我們其實(shí)只做一些加減的工作,但是這些加減的工作本身也是很麻煩的。

名義變量無法進(jìn)行四則運(yùn)算,不存在平均數(shù),比如性別男或女,這時(shí)候求一個(gè)平均值沒任何意義,男的有100個(gè),女的有100個(gè),最后你求出一個(gè)均值是個(gè)啥呢?對這一類數(shù)據(jù)而言,你就不要去管均值,只要關(guān)心哪一個(gè)數(shù)出現(xiàn)的次數(shù)最多。出現(xiàn)次數(shù)最多的那類叫眾數(shù),比如每次要投票的時(shí)候,我們總是要求2/3以上出席,說明把出席的人分成了兩類,出席的人和不出席的人,出席的人占到2/3了,這是最多的了,不可能再比這個(gè)更多了。出席1/2以上通過,那就是同意這個(gè)方案的人只要超過1/2,那么這就是出現(xiàn)次數(shù)最多的一個(gè)數(shù)了,另外一個(gè)數(shù)肯定少于1/2了。1/2以上表決通過,這就是一個(gè)出現(xiàn)次數(shù)最多的意見了。所以,我們就按次數(shù)出現(xiàn)最多的來做,這個(gè)名詞叫“眾數(shù)”。這就是一些沒有辦法做加減運(yùn)算的數(shù)。

做加減運(yùn)算是我們最熟悉的變量,這樣的數(shù)據(jù)求均值是很有價(jià)值的。但是這個(gè)價(jià)值,常常給大家的感覺是與現(xiàn)實(shí)不吻合,比如你每個(gè)月收入10萬塊錢,我每個(gè)月收入1塊錢。那這一平均,變成5萬塊左右,我就被平均了。這就是一個(gè)被平均的概念。

圖片17

收入情況是最容易被平均的一個(gè)量。什么原因呢?如上圖,橫軸是收入,縱軸可以理解成比例,是跟比例非常有關(guān)系一個(gè)量。也就是說,你可以看到,絕大部分人的收入其實(shí)都是比較低的。尾巴拖得很長很長,但是一百萬以上還是有不少人。這樣一算平均值,絕大部分人的收入達(dá)不到這個(gè)值。所以這個(gè)時(shí)候,你會(huì)感覺自己被平均了。長尾的數(shù)據(jù)最后會(huì)導(dǎo)致你很容易被平均,所以統(tǒng)計(jì)局報(bào)的數(shù)據(jù)確確實(shí)實(shí)是真實(shí)的。

AMAZON經(jīng)常會(huì)弄一些十大暢銷書排行榜,這個(gè)時(shí)候橫軸就是某些書,縱軸是銷量。他就發(fā)現(xiàn)一個(gè)現(xiàn)象,AMAZON絕大部分利潤并不來自于這些暢銷書,而是來自于那些銷量比較低的書,銷量比較低的數(shù)據(jù)占了很大一部分。銷量比較低的數(shù)據(jù),賣得并不是那么暢銷,但是這類書特別多。所以銷量很低的書籍給他創(chuàng)造很多利潤,這就是長尾理論一個(gè)很驚人的例子。

還有一類變量,我們叫幾何均值。算均值有很多種算法。一種是把數(shù)據(jù)簡單拿過來平均,第二種就是算大概50%的人的收入是多少。第三種是算一個(gè)幾何均值。如果總水平、總成果等于所有階段、所有環(huán)節(jié)水平、成果的連乘積總和時(shí),求各階段、各環(huán)節(jié)的一般水平、一般成果,要使用幾何平均法計(jì)算幾何平均數(shù),而不能使用算術(shù)平均法計(jì)算算術(shù)平均數(shù)。這個(gè)算起來比較麻煩一點(diǎn)。

責(zé)任編輯:葉其英校對:楊雪最后修改:
0

精選專題

領(lǐng)航新時(shí)代

精選文章

精選視頻

精選圖片

微信公眾平臺:搜索“宣講家”或掃描下面的二維碼:
宣講家微信公眾平臺
您也可以通過點(diǎn)擊圖標(biāo)來訪問官方微博或下載手機(jī)客戶端:
微博
微博
客戶端
客戶端