第三類是定距變量,也稱間距變量。就是說2是比1更有價值的,它的差距為1,比如你是2012年入學的,就會比2013年入學的早一年。它就不僅僅有先后順序,而且這個間隔大小是有含義的。2013年入學的比2012年入學的晚一年,2016年入學的就會比2013年入學的要晚三年,這個間隔本身是有含義的,它不像之前的ABCD,B減A是沒有任何含義的。但現(xiàn)在減了以后是有含義的。第三類數(shù)據(jù)定距變量在之前那表中也是有的。
第四類是定比變量,也稱“定比尺度”或“比率尺度”。這是我們最常用的一類數(shù)據(jù)。數(shù)據(jù)有先后,有高低,加減乘除都是有含義的。2就比1要多1,3就比1要多2,2就是比1要多1倍的,這個數(shù)據(jù)是能夠做加減乘除運算的,而且數(shù)據(jù)之間的差距是有含義的,有絕對的零點。比如孫悟空做題花了12分鐘(0.2個小時),唐僧做了2個小時,那么差1.8個小時。1.8個小時就是0.2個小時的9倍。這中間的差距是有具體含義的。這是我們最常用的一類數(shù)據(jù),大家所說的數(shù)據(jù),絕大部分時候指的是這一類。以下是我們常用的四類數(shù)據(jù):
名義:男女、顏色
次序:名次、等級(軍銜)
間隔:時間
比率:距離、體重
第一類數(shù)據(jù),名義變量,數(shù)據(jù)大小只是一個符號,沒有任何的大小含義。
第二類數(shù)據(jù),數(shù)據(jù)大小有先后的含義,但是數(shù)據(jù)差之間是沒有具體含義的。比如A段可能比B高一段,但是如果B減A不知道等于多少,那這也沒什么實際含義的。
第三類數(shù)據(jù),間隔數(shù)據(jù),這個時候數(shù)據(jù)的間隔就有含義了,2013級的就比2012級的要晚一年入學。這個差距是有含義的。
第四類數(shù)據(jù)是我們最常用的,比如體重多少,距離多少。根據(jù)不同分類方法、標準,你會分成很多不同類型的數(shù)據(jù)。
數(shù)據(jù)還可以按來源來分,比如現(xiàn)有的數(shù)據(jù)、預(yù)測的數(shù)據(jù)以及國家統(tǒng)計局收集得各種歷史數(shù)據(jù)等。
關(guān)于大數(shù)據(jù),大家還常常會在書上看到這樣一種說法,說大數(shù)據(jù)就是總體,我們以前分析的數(shù)據(jù)就是樣本,其實這個說法不是很準確。大數(shù)據(jù)也不一定是全樣本分析的,要做到全樣本分析是非常非常困難的。
有一些數(shù)據(jù)就是一個常數(shù),比如π、光速,這是一直不動的,這一類數(shù)據(jù)是常量。那么,變量是哪些呢?比如你的年齡是多少,這個數(shù)據(jù)會變,但它不會隨機變,今年你是10歲,明年就會是11歲。我們最關(guān)心的是最后這一類:隨機變量,這一類其實是我們常常會碰到的,所以這里面問題會特別多。比如你預(yù)測一下明天來聽報告的人會有多少人,這只能預(yù)計一個大概范圍,具體到多少人,你是不知道的。再比如你知道你明年大概會賺多少錢,但是你不能準確估計你明年能賺多少錢。
大家也常常會舉一個例子,說本科生不要談戀愛,因為談戀愛成功的比例很低。統(tǒng)計其實關(guān)心的就是這類不確定性的問題,不一定是屬于加加減減的問題。
已有0人發(fā)表了評論