最近中文2019字幕第二页,艳妇乳肉豪妇荡乳,中日韩高清无专码区2021,中文字幕乱码无码人妻系列蜜桃,曰本极品少妇videossexhd

朱利平:統(tǒng)計(jì)與大數(shù)據(jù)(4)

摘要:信息爆炸的時(shí)代,產(chǎn)生了比以往任何時(shí)代都要多的海量數(shù)據(jù)。對(duì)大數(shù)據(jù)信息的應(yīng)用和獲取,已經(jīng)成為當(dāng)下最重要的技能之一。那么,我們應(yīng)該如何認(rèn)識(shí)統(tǒng)計(jì),認(rèn)識(shí)大數(shù)據(jù)?當(dāng)前有哪些數(shù)據(jù)類型?我們又該如何分析不同的數(shù)據(jù),并從中提取有用信息?來(lái)自浙江大學(xué)高分子科學(xué)與工程學(xué)系的朱利平教授將結(jié)合生動(dòng)的案例,為您一一解答。

如果這個(gè)數(shù)據(jù)是指收入的話,那么絕大部分人的收入指的是柱狀比較高這一塊,但是有些人特別有錢(qián),所以他們把“尾巴”拖得很長(zhǎng)很長(zhǎng)(橫軸是收入,縱軸是人數(shù))。所以很多數(shù)據(jù)都滿足這一種情況,就是有一些人賺得特別多。

數(shù)據(jù)怎么來(lái)的?

數(shù)據(jù)有各種各樣的來(lái)源途徑,但是收集這些數(shù)據(jù)特別不容易。比如一個(gè)很簡(jiǎn)單的例子,問(wèn)哪一個(gè)國(guó)家的人撒謊最多。這是不太好問(wèn)的一個(gè)問(wèn)題,那么怎么去問(wèn)呢?有人設(shè)計(jì)了兩個(gè)實(shí)驗(yàn)。第一個(gè)實(shí)驗(yàn),每一個(gè)國(guó)家挑一千個(gè)人,在網(wǎng)上做一個(gè)調(diào)查,但是不直接問(wèn)你有沒(méi)有撒謊。他就說(shuō),只需要你在家里面來(lái)參加這個(gè)實(shí)驗(yàn),你在家里面自己拋一枚硬幣。如果硬幣的正面朝上,我給你5塊錢(qián);如果硬幣的反面朝上,你就不能拿到錢(qián)了。從這個(gè)實(shí)驗(yàn)可以知道什么呢?比如調(diào)查1000個(gè)人,如果有900個(gè)人都告訴我硬幣正面朝上了,中間肯定有人撒謊了。這個(gè)撒謊的比例是很高的,因?yàn)橛欣娴尿?qū)動(dòng)。我并不需要知道每一個(gè)人有沒(méi)有撒謊,只需要一個(gè)比例。這是第一個(gè)小實(shí)驗(yàn),看看這個(gè)國(guó)家的人是不是誠(chéng)實(shí)。

第二個(gè)實(shí)驗(yàn),一批人選進(jìn)來(lái)以后,同時(shí)會(huì)參加兩個(gè)小測(cè)試,這兩個(gè)小測(cè)試都是很簡(jiǎn)單的。然后他會(huì)問(wèn)你一堆問(wèn)題,也告訴你如果你把這些問(wèn)題答對(duì)了,我就給你一些錢(qián)。比如有五個(gè)問(wèn)題,其中有兩個(gè)問(wèn)題特別簡(jiǎn)單,不管你是哪一個(gè)國(guó)家的人,一眼就能看出來(lái)答案,但是其他三個(gè)問(wèn)題設(shè)置得特別難,而且很生僻,如果不去查資料,幾乎不可能找到答案。但是測(cè)試之前就告訴你,不許查資料。這樣為了得到錢(qián),有些人就會(huì)去查資料。在五個(gè)問(wèn)題中,正常情況下應(yīng)該只有兩個(gè)題能答對(duì)了,如果五道題全答對(duì)了,一般就是認(rèn)為你肯定是查了資料。

名義變量:大數(shù)據(jù)文本分析

第二類數(shù)據(jù)怎么來(lái)的?這是跟大數(shù)據(jù)有關(guān)系的?,F(xiàn)在大數(shù)據(jù)會(huì)有一些輿情分析,做一些文本分析。這個(gè)例子特別多。

圖片14

上圖是統(tǒng)計(jì)情侶之間聊天時(shí)出現(xiàn)頻率較高的語(yǔ)句。聊得越多的話,字就越大。統(tǒng)計(jì)出來(lái)之后,算一下頻數(shù)就行了。聊得少的字就特別小,聊得越多的字就越大。字有大有小,大小是由它出現(xiàn)的頻率來(lái)決定的。

還有一些應(yīng)用,看搜索的哪些關(guān)鍵詞出現(xiàn)頻率最高,就是大家最關(guān)心什么問(wèn)題。這對(duì)做輿情分析是非常有用的。某一個(gè)新聞事件出現(xiàn)以后,搜索量會(huì)增加,這就可以統(tǒng)計(jì)一下頻數(shù),看哪些詞出現(xiàn)的頻率高,出現(xiàn)頻率越高的字體就越大,出現(xiàn)頻率越低的字體就越小。

做輿情分析有什么用途呢?做輿情分析有很多用途。你自己一個(gè)人在網(wǎng)上檢索某個(gè)關(guān)鍵詞,這個(gè)信息沒(méi)什么太大的用途,但是全中國(guó)人都在搜索一些關(guān)鍵詞,我把它統(tǒng)計(jì)出來(lái),就可以知道絕大部分中國(guó)人在關(guān)心什么問(wèn)題。我只要看看這段時(shí)間,中國(guó)人都在搜索一些什么關(guān)鍵詞,再過(guò)一陣子以后,中國(guó)人又在搜索一些什么關(guān)鍵詞,就可以大概判斷你這個(gè)國(guó)家的科研走向,它不一定很準(zhǔn),是一個(gè)很粗糙的辦法。

圖片15

第二個(gè)小例子很有意思,是我們常常用的。把橫軸改一改,把縱軸改一改,這些數(shù)據(jù)都是真實(shí)的,但是橫軸和縱軸改一改,看到的情況就會(huì)大不相同。沒(méi)造任何假,但是圖形展示的方式不一樣,給你看到的結(jié)果會(huì)完全不一樣。

圖片16

再看第三個(gè),這是美國(guó)的一個(gè)真實(shí)數(shù)據(jù),每一個(gè)季度的財(cái)政收入。左邊這個(gè)圖形是逐年增長(zhǎng)的,能看到這個(gè)很明顯的趨勢(shì),但是真實(shí)圖形是右邊的圖形。它怎么做的呢?為了顯示出逐年增長(zhǎng),他只把右邊圖形最上面那一段給截取出來(lái)給你看。他的橫軸不是從0開(kāi)始,而是從94開(kāi)始。從94開(kāi)始截取,只是展示圖形的一段給你看,那我們視覺(jué)所看到的增長(zhǎng)速度就是非??斓?,但事實(shí)是沒(méi)怎么動(dòng)。這樣截取一部分很容易給你一個(gè)視覺(jué)上的誤差,覺(jué)得收入在不斷增長(zhǎng)。所以我們?cè)诳磮D形的時(shí)候,要稍微小心點(diǎn),不要被誤導(dǎo)了。

怎樣提取數(shù)據(jù)中的信息?

數(shù)據(jù)中的信息量是非常大的,我們?cè)趺礃尤グ褦?shù)據(jù)中的信息提取出來(lái),尤其是數(shù)據(jù)特別大的時(shí)候,我們?cè)趺窗阎匾男畔⒍冀o提取出來(lái)?目前在數(shù)據(jù)量特別大的時(shí)候,我們其實(shí)只做一些加減的工作,但是這些加減的工作本身也是很麻煩的。

名義變量無(wú)法進(jìn)行四則運(yùn)算,不存在平均數(shù),比如性別男或女,這時(shí)候求一個(gè)平均值沒(méi)任何意義,男的有100個(gè),女的有100個(gè),最后你求出一個(gè)均值是個(gè)啥呢?對(duì)這一類數(shù)據(jù)而言,你就不要去管均值,只要關(guān)心哪一個(gè)數(shù)出現(xiàn)的次數(shù)最多。出現(xiàn)次數(shù)最多的那類叫眾數(shù),比如每次要投票的時(shí)候,我們總是要求2/3以上出席,說(shuō)明把出席的人分成了兩類,出席的人和不出席的人,出席的人占到2/3了,這是最多的了,不可能再比這個(gè)更多了。出席1/2以上通過(guò),那就是同意這個(gè)方案的人只要超過(guò)1/2,那么這就是出現(xiàn)次數(shù)最多的一個(gè)數(shù)了,另外一個(gè)數(shù)肯定少于1/2了。1/2以上表決通過(guò),這就是一個(gè)出現(xiàn)次數(shù)最多的意見(jiàn)了。所以,我們就按次數(shù)出現(xiàn)最多的來(lái)做,這個(gè)名詞叫“眾數(shù)”。這就是一些沒(méi)有辦法做加減運(yùn)算的數(shù)。

做加減運(yùn)算是我們最熟悉的變量,這樣的數(shù)據(jù)求均值是很有價(jià)值的。但是這個(gè)價(jià)值,常常給大家的感覺(jué)是與現(xiàn)實(shí)不吻合,比如你每個(gè)月收入10萬(wàn)塊錢(qián),我每個(gè)月收入1塊錢(qián)。那這一平均,變成5萬(wàn)塊左右,我就被平均了。這就是一個(gè)被平均的概念。

圖片17

收入情況是最容易被平均的一個(gè)量。什么原因呢?如上圖,橫軸是收入,縱軸可以理解成比例,是跟比例非常有關(guān)系一個(gè)量。也就是說(shuō),你可以看到,絕大部分人的收入其實(shí)都是比較低的。尾巴拖得很長(zhǎng)很長(zhǎng),但是一百萬(wàn)以上還是有不少人。這樣一算平均值,絕大部分人的收入達(dá)不到這個(gè)值。所以這個(gè)時(shí)候,你會(huì)感覺(jué)自己被平均了。長(zhǎng)尾的數(shù)據(jù)最后會(huì)導(dǎo)致你很容易被平均,所以統(tǒng)計(jì)局報(bào)的數(shù)據(jù)確確實(shí)實(shí)是真實(shí)的。

AMAZON經(jīng)常會(huì)弄一些十大暢銷書(shū)排行榜,這個(gè)時(shí)候橫軸就是某些書(shū),縱軸是銷量。他就發(fā)現(xiàn)一個(gè)現(xiàn)象,AMAZON絕大部分利潤(rùn)并不來(lái)自于這些暢銷書(shū),而是來(lái)自于那些銷量比較低的書(shū),銷量比較低的數(shù)據(jù)占了很大一部分。銷量比較低的數(shù)據(jù),賣(mài)得并不是那么暢銷,但是這類書(shū)特別多。所以銷量很低的書(shū)籍給他創(chuàng)造很多利潤(rùn),這就是長(zhǎng)尾理論一個(gè)很驚人的例子。

還有一類變量,我們叫幾何均值。算均值有很多種算法。一種是把數(shù)據(jù)簡(jiǎn)單拿過(guò)來(lái)平均,第二種就是算大概50%的人的收入是多少。第三種是算一個(gè)幾何均值。如果總水平、總成果等于所有階段、所有環(huán)節(jié)水平、成果的連乘積總和時(shí),求各階段、各環(huán)節(jié)的一般水平、一般成果,要使用幾何平均法計(jì)算幾何平均數(shù),而不能使用算術(shù)平均法計(jì)算算術(shù)平均數(shù)。這個(gè)算起來(lái)比較麻煩一點(diǎn)。

責(zé)任編輯:葉其英校對(duì):楊雪最后修改:
0

精選專題

領(lǐng)航新時(shí)代

精選文章

精選視頻

精選圖片

微信公眾平臺(tái):搜索“宣講家”或掃描下面的二維碼:
宣講家微信公眾平臺(tái)
您也可以通過(guò)點(diǎn)擊圖標(biāo)來(lái)訪問(wèn)官方微博或下載手機(jī)客戶端:
微博
微博
客戶端
客戶端