二、如何分析數(shù)據(jù)并從中提取有用信息
怎么分析數(shù)據(jù)?不同的數(shù)據(jù),我們有不同的分析方法。我盡可能用一些圖形來表達(dá)。
比如上圖,一個自動售貨機有五種飲料,分別是Coke Classic、Diet Coke、Pepsi、Sprite。這臺自動售貨機一共有五款飲料,這五款飲料一共賣了50罐。這個例子我們?nèi)シ治鏊臅r候,常常會把它匯總,這個數(shù)據(jù)是一個名義變量。
Coke賣了多少瓶,Diet Coke賣了多少瓶,Pepsi賣了多少瓶,Sprite賣了多少個,總共賣了多少瓶,這是第一組最簡單的分析。
然后,你可能會統(tǒng)計一下每種賣出的飲料占賣出的總數(shù)的百分比,這是很容易算的。
但是,我們看到更多的是圖形表達(dá),用柱狀圖展示每一種飲料賣了多少瓶,可能小學(xué)二年級就要開始畫這個圖了。
你還可以畫一個餅圖。你發(fā)揮自己的想象,想畫什么圖就畫什么圖。絕大部分時候,我們都是用圖形來表達(dá)我們所看到的一些數(shù)字。因為圖形給大家看起來最直觀。大家在匯報某項工作時,也可以盡可能地用圖形去表達(dá),因為圖形去表達(dá)能夠讓你的上司在第一時間就知道你大概想表達(dá)的意思。你說了很長的話,不如畫一個圖管用。所以,我們用得最多的還是各種各樣的圖形。
有些數(shù)據(jù)是連續(xù)的,比如一門課旁聽的情況,我們可以統(tǒng)計旁聽了10天到14天的有多少人,15天到19天的有多少人,20天到24天的有多少人,這是個連續(xù)數(shù)據(jù)。一個連續(xù)的數(shù)據(jù),我們可以把它分段以后再統(tǒng)計出來??偣灿?0個人,其中有4個人旁聽了10到14天,這個數(shù)據(jù)也會是常用的數(shù)據(jù)。為什么會是一個常用的數(shù)據(jù)呢?比如統(tǒng)計局就可以用這種統(tǒng)計方法去調(diào)查一下,有多少人的年收入在1000塊錢以下,有多少人的收入會在1001到2000元之間,有多少人收入在2001到3000元之間。這是按區(qū)間去分的,你的收入也會是一個連續(xù)的變量。
數(shù)據(jù)分好區(qū)間之后,我們也可以把它做成各式各樣的表格。但是這個柱狀圖與之前飲料銷售情況的柱狀圖有區(qū)別。飲料銷售情況的柱狀圖中,Coke Classic、Diet Coke、Pepsi、Sprite的柱狀是分開畫的,但是對連續(xù)的數(shù)據(jù)而言,我們常常會把它畫得連在一起。連在一起畫,是表達(dá)數(shù)據(jù)本身類型不同。連在一起與不連在一起所表達(dá)的含義也是不一樣的。
大家看這個圖,這叫直方圖。左上角這個圖形左邊的“尾巴”很長,右上角的圖形右邊的“尾巴”很長,右下角的圖形右邊的“尾巴”是又瘦又長。我們最常用的,可能是右下角這個圖形的,我們叫做數(shù)據(jù)有很大偏差。左下角這個圖形是指數(shù)據(jù)看起來比較對稱。數(shù)據(jù)看起來比較對稱,是什么時候你會需要呢?我自己在高校工作,你的卷子出得好不好,如果考試的人足夠多,考80分的人應(yīng)該占大部分,考90分以上的人比較少,不及格的也不太多。也就是說,這個數(shù)據(jù)本身靠近正態(tài),那么這是大家認(rèn)為出得比較好的卷子。但現(xiàn)實中基本碰不到完全對稱的情況。我們碰到的絕大多數(shù)圖形都是右下角這種圖形,這種圖形特別有用。有一本書叫《長尾理論》,長尾理論指的就是圖標(biāo)上那個“尾巴”拖得很長的時候,如何在“尾巴”上賺錢。比如谷歌廣告,谷歌打廣告跟很多公司打廣告不一樣,他很少會去找一些特別大的公司打廣告,而是會找來一些小公司打廣告,那些公司都不太有名,但是他從每個公司下面賺少一點錢,最后合起賺一大筆錢。
已有0人發(fā)表了評論