2011年8月12日 星期五

《深入淺出 統計學》筆記

Ch1 資訊視覺化

一.圓形圖剖析

1.圓形圖(pie chart)將你的資料切割成不同的群組(group)或分類(category)。這種圖形將資料分割成楔形切片(slice),每一片代表一個群組,共同構成一個圖形。每個切片的大小與每個群組所包含的數量成正比(相對於其他群組)。切片越大,該群組相對越普遍。特定群組裡的數量被稱為頻率(frequency)
﹡頻率:描述特定群組或區間內有多少個項目

2.如果你想要比較基本的比例(proportion),圓形圖會很有用。但若所有切片尺寸都類似,則不太適用


二.兩種長條圖

1.在長條圖(bar chart)上,每個長條代表一個特定分類,長條的長度則指明它的值。長條越長,值越大。所有長條都具有相同的寬度,讓我們更容易比較它們

2.長條圖的好處是它們提供了較高的精確度,很適合用在各個分類之尺寸大致相同的情況,因為能夠更精確地分辨出哪個分類具有最高的頻率,更容易看出細微的差別

3.垂直長條圖:在橫軸上顯示分類,在縱軸上顯示頻率或百分比,每個長條的高度指明該分類的值

4.水平長條圖:在橫軸上顯示頻率或百分比,在縱軸上顯示分類,每個長條的高度指明該分類的值

5.垂直長條圖比較普遍,但若是你的分類名稱太長,水平長條圖就比較適合

6.水平長條圖用於分類資料,尤其是分類名稱冗長的情況;垂直長條圖用於數值資料,或者分類資料-如果分類名稱很簡短

7.圓形圖善於顯示基本的比例;長條圖提供你更多的彈性與精確度


三.刻度

1.「顯示百分比之圖形」的金科玉律,就是設法在圖形上或者旁邊指明頻率,因為你無法只憑圖形就判斷它具有多少代表性

2.頻率是一種統計方式,指明某分類中有多少個項目存在

3.頻率密度表明一群值在特定區間裡的集中程度,提供你一種比較不等寬度之區間的方式,讓頻率與長條面積成正比,而不是高度


四.長條圖上的兩個資料組

1.分裂長條圖(split-category bar chart):針對每個分類使用一個長條表示A頻率,而使用另一個長條表示B頻率。這種圖形很難看出子分類的比例與百分比

2.分段分類長條圖(segmented bar chart):針對每個分類使用一個長條,但是按子分類的比例將長條分段,而整個長條的總長則反映出該分類的總頻率。這種圖形讓你迅速看見每個分類的總頻率,及A與B的頻率,另外,你也能夠一眼看出子分類的比例


五.分類與數值資料

1.分類資料(categorical data):資料被分成描述性質或特性的幾個分類,因此,它也被稱作定性資料(qualitative data)。定性資料的一個例子就是遊戲類型;每個遊戲類型形成一個獨立的分類。關於定性資料要記住的重點是:資料值不能夠被解釋成數字

2.數值資料(numerical data):處理的是數字。數值資料具有數字的意義,並且涉及量度或計數。數值資料也被稱作定量資料(quantitative data),因為它描述的是數量

3.數值資料處理數字和數量;分類資料處理文字和性質


六.處理分組資料

1.直方圖(histogram)讓你可以善用數值資料的好處,並改用連續的數值刻度來表現資料,這表示,取代使用長條來描述單一項目

2.直方圖就像長條圖,但是有兩個重要的差別:
(1)每個長條的面積與頻率成正比
(2)圖形上的長條之間沒有間隙

3.直方圖是專門處理分組資料的圖形,看起來像長條圖,但是每個長條的高度等於頻率密度,而不是頻率

4.使用直方圖比起一般的長條圖,會將你的資料表示得更好,因為你還是在處理分組資料,你真正想要的是讓分組的頻率與它的面積成正比,而不是高度

5.不同的長條必須相交界,而且通常在兩者正中間,然而,這完全看你如何捨位或進位你的值。當你捨位或進位時,通常都會將它們捨位或進位到最近的整數

6.直方圖的優點在於:它是數值的,你可以用它來顯示每個區間的寬度及頻率


七.製作直方圖

1.建立直方圖的第一步是檢視每個區間(interval),計算每個區間需要多大的寬度,必須涵蓋多大的領域。做這件事的同時,我們必須確認直方圖上的長條沒有間隙

2.若長條之間有空隙,則應稍微擴充它們的範圍,這樣做會在不同區間之間形成單一邊界,並確保直方圖的長條之間沒有間隙

3.因為所有的區間都具有相同的寬度,透過為每個範圍繪製垂直長條,我們建立了直方圖,並且使用上述的邊界形成每個長條的開始與結束。每個長條的高度就等於頻率


八.調整長條面積

1.直方圖的長條面積必須與頻率成正比

2.就直方圖而言,長條的面積代表頻率

3.建立新的直方圖的步驟:
(1)步驟一:尋找長條的寬度。透過檢視每個區間所涵蓋的值域,找出長條需要多大的寬度
(2)步驟二:尋找長條的高度。既然有了寬度,就可以利用它們決定長條所需的高度。記住,我們必須讓每個長條的總面積與該分組的頻率成正比。 長條的高度被用來量度特定群組的高度有多集中(concentrated),這是衡量頻率有多密集的方式。因此,長條的高度被稱為頻率密度(frequency density)
(3)步驟三:與原先作法相同,但這一次我們使用頻率密度來當縱軸,而不是頻率


九.累積頻率圖

1.累積頻率(cumulative frequency):特定值以下的總頻率,基本上就是前面分組的頻率總和

2.當你有了上限值與累積頻率,就可以把它們畫在圖形上。先繪製兩個軸,水平軸標示小時數,垂直軸標示累積頻率,一旦完成,就開始為每個上限值畫出對應的累積頻率,最後再將各點連接起來

3.使用累積頻率圖的關鍵是:你想要知道特定值以下的總頻率,而不是對特定值的頻率感興趣


十.折線圖探究

1.折線圖(line chart)擅長顯示資料的趨勢。對每一組資料來說,你先畫出資料點,再用直線將它們連接起來。你可以輕易地在同一張圖形上顯示多組資料,而不會把它們弄得過於凌亂

2.折線圖經常被用來顯示針對時間的量度,時間總是被畫在橫軸上,頻率則被畫在縱軸上。透過在橫軸上選定時間值,你可以讀取對應的頻率

3.折線圖應該只被用來表現數值資料,而不是分類資料,這是因為分類資料比較適合做比較,但不適合繪製趨勢線。只有在根據某種數值單位比較不同分類時,才適合使用折線圖,在此情況下,你會針對每個分類使用獨立的折線。你不應該在橫軸上使用不同的分類



Ch2 量度集中趨勢

一.均值(average)的類型

1.平均數(mean):將全部數字加總,再除以總共有多少個數字。用於當資料很對稱並顯示只有一種趨勢時。計算方式為μ = Σx / n                                 

2.中位數(median):位於中間的值。用於當資料因離群數據的關係而有偏斜時。計算方式為(n+1)/2

3.眾數(mode):具有最高頻率的值,且必定是資料組裡的某個數字。用於處理分類資料時、當資料分佈成二或多個群組時
﹡眾數不只能處理數值資料;對於分類資料也有效。事實上,它是唯一能夠處理分類資料的均值。當你在處理分類資料時,眾數代表最常出現的分類。具有最高頻率的分類或群組稱為眾數組(modal class)。若一組資料有兩個眾數,則稱之為雙峰的(bimodal)


一.離群數據

1.離群數據(outlier):與大多數資料不相符的極端值


二.偏斜資料

1.偏斜資料(skewed):因離群數據將整體資料向左或向右「拉」



Ch3 量度變動性與分散性

一.全距量度資料寬度

1.全距:是一種量度資料分散情形的機制,計算方式為:上界 - 下界

2.全距告訴我們資料的分佈涵蓋了多少數字,有點像是在量測策資料的寬度

3.全距只能描述資料的寬度,無法表明上下界之間的散佈情形


二.四分位數與內四分位距

1.因全距包含離群數據,要去掉它們的解決辦法之一,就是檢視一種迷你全距(mini range)

2.建構迷你全距的方式,就是只使用資料中心附近的值。以這種方式建構迷你全距,必須先以遞升排序排列這些值,再將資料分割成四個同樣大小的區塊,每個區塊包含四分之一的資料。接著使用落在外面兩個區塊之間的值,產生迷你全距

3.將資料分割成相等區塊的值被稱為四分位數(quartile),因為它們將資料分割成四分之一大小的區塊。尋找四分位數有點像是計算中位數一樣。代替尋找將資料分割成一半的值,我們要找的是將資料分割成四分之一的值

4.四分位數是將資料分割成四個區塊的值。最低的四分位數被稱為下四分位數(lower quartile),或者第一四分位數(first quartile,Q1);最高的四分位數被稱為上四分位數(upper quartile),或者第三四分位數(third quartile,Q3);中間的四分位數(Q2)就是中位數,將資料分成兩半。在上下兩個四分位數之間的全距,被稱作內四分位距(interquartile range,IQR)

5.內四分位距 = 上四分位數 - 下四分位數


三.四分位數探究

1.尋找下四分位數的位置:
(1)首先,計算n / 4
(2)若結果是整數,下四分位數就位在這個位置和下個位置之間。取這兩個位置的平均數就能夠得到下四分位數
(3)若結果不是整數,就直接進位,進位後的位置就是下四分位數的位置

2.尋找上四分位數的位置:
(1)首先,計算n / 4
(2)若結果是整數,上四分位數就位在這個位置和下個位置之間。取這兩個位置的平均數就能夠得到上四分位數
(3)若結果不是整數,就直接進位,進位後的位置就是上四分位數的位置

3.你若只是對較高的值有興趣,只想看看前四分之一的資料組中有哪些值,那麼,就使用上四分位數當作分界點。反之,亦然


四.將資料按百分比做切割

1.百分位數(percentile)是將資料分割成某種百分比的值,就像四分位數將資料分割成四分之一的區塊一樣

2.每個百分位數接對應到資料被分割的百分比,因此,第10個百分位數就是通過(超過)10%資料的值。廣義來說,第k個百分位數就是通過(超過)k%資料的值,通常以Pk表示

3.百分位數本身對於標示或判定順序或位置來說,是相當有用的,它讓你判斷特定值對於其他值來說有多大

4.尋找百分位數:
(1)首先,以遞昇順序排列所有的值
(2)在n個數字當中找到第k個百分位數的位置,從計算k(n / 100)開始
(3)假如結果是整數,百分位數就在k(n / 100)這個位置和下個位置之間。取這兩個位置的平均數就能夠得到百分位數
(4)若k不是整數,就直接進位,進位後的位置就是百分位數的位置


五.盒鬚圖

1.盒鬚圖或箱形圖(box and whisker diagram 或 box plot)專門用來顯示各種類型的全距。多組資料可以被顯示在相同圖表上,因此,對於資料組的比較來說是很有用的

2.要建立盒鬚圖,必須先根據刻度畫一個盒子(箱子),盒子的左側與右側分別代表資料的下四分位數與上四分位數,接著,在盒子裡面畫一條線標示中位數。這個盒子能讓你看到內四分距的範圍。之後,在盒子的兩側分別畫上一條「鬚」(whisker),顯示資料的上下界及全距的範圍

3.如果你的資料具有離群數據,全距會比較寬。在盒鬚圖中,「鬚」的長度會延伸到資料的上界與下界。透過檢視盒鬚圖的鬚長,你可以了解資料的偏斜狀況

4.若盒鬚圖是對稱的,就表示底層的資料很可能也是相當對稱的


六.變異數與標準差量度變動性

1.變異數:是一種量度分散性的方法,是「值與平均數之距離平方」的平均值。這種方法防止所有的距離彼此相互抵銷,是描述資料組分散性常見的方式
﹡變異數 = Σ(x-μ)^2 / n = (Σx^2 / n) - μ^2

2.使用變異數的問題在於:以「距離平方」來思考分散性是相當困難的。而利用標準差(standard deviation)就能解決這個問題,我們只需要取平方根即可

3.要尋找標準差σ,就要先計算變異數,再取平方根

4.假設一組值的標準差是3公分,你可以把它想成:平均來說,每個值距離平均數3公分


七.標準分數

1.標準分數(standard score)提供你一種跨資料組比較值的機制,不同資料組具有個別的平均數與標準差。標準分數是一種在不同情境下比較相關資料值的方法。
﹡z = x - u / σ

2.標準分數是一種比較值的方式,就好像這些值來自同一組資料或分佈



Ch4 計算機率

一.尋找機率

1.事件:奠基於發生機率的輸出或結果

2.事件A發生的機率: P(A) = n(A) / n(S)
﹡P(A):發生事件A的機率;n(A):達成事件A的方法數;n(S):所有可能的輸出數
﹡S被稱為機率空間(possibility space),或者樣本空間(sample space),是參照到所有可能輸出的簡單表示。所有可能發生的事件都是S的子集合


二.機率與范氏圖

1.先畫出一個代表機率空間S的舉行,再為每個相關的事件畫上圈圈

2.有一種指明「未發生事件A」的簡單方式-A’。事件A’代表事件A的互補事件(complementary event)
﹡P(A’) = 1 - P(A)


三.互斥事件與相交事件

1.若兩個獨立(separate)事件互斥(mutually exclusive),則只會有一個事件會發生

2.若兩個獨立事件相交(intersect),則兩個事件有可能同時發生


四.交集與聯集

1.A∩B表示A與B交集(intersection),代表兩個事件共同的元素

2.A∪B表示A與B聯集(union),代表包含在A或B裡的所有元素

3.若A∩B = 0 ,表示事件A與事件B互斥

4.若A∪B = 1 ,則A與B被稱為互無遺漏或窮盡周延(exhaustive),共同構成整個機率空間S


五.條件機率

1.條件機率(conditional probability)量度「一個事件相關於發生另一個事件的發生機率」

2.若我們想表達「給定某事件已經發生的條件下,另一個事件發生的機率」,可以使用”|”符號表是「給定...的條件下」,代替說「給定事件B已經發生的條件下,A發生的機率」,可以簡潔地表達為:P(A | B)
﹡P(A | B) = P(A∩B) / P(B)
=>P(B | A) = P(B∩A) / P(A)


六.機率樹

1.機率樹不只能幫助你以視覺化的方式表現機率,還能幫助你計算它們

2.透過將相連結之上下層分枝的機率相乘,你就可以找到交集的機率

3.使用機率樹的訣竅:
(1)處理分層:試著找出你所需要之各個分層的機率
(2)填入你所知道的資訊:假如你擁有一系列的機率,就將它們放進機率樹裡頭
(3)記住,同一組分支的機率總和為1:假如你將由同一點衍生出來的所有分支的機率加總起來,總和應為1。記住,P(A’) = 1 - P(A)
(4)牢記公式:P(A | B) = P(A∩B) / P(B)


七.總合機率法則

1.總合機率法則(Law of Total Probability):提供一種方式,根據條件機率找出特定事件的總機率

2.若你有事件A與事件B,那麼:
P(B) = P(B∩A) + P(B∩A’)
= P(A) P(B | A) + P(A’) P(B | A’)


八.貝氏定理

1.貝氏定理(Bayes’ Theorem):提供你一種尋找反方向條件機率的方法

2.若事件A’代表事件A的互斥事件,而B代表另一個事件,那麼:
P(A | B) = P(A) P(B | A) / P(A) P(B | A) + P(A’) P(B | A’)
﹡P(A∩B) = P(A) * P(B | A)


九.相依事件

1若事件A與事件B受彼此影響(互斥),則稱這兩個事件為相依(dependent)

2.若P(A | B) ≠ P(A)則此兩事件稱為相依


十.獨立事件

1.若事件A與事件B不受彼此影響,則稱這兩個事件為相依(independent)

2.若P(A | B) = P(A)則此兩事件稱為獨立。而P(A∩B) = P(A) * P(B)



Ch5 離散機率分佈

一.離散分佈探究

1.隨機變數(random variable)是一種能夠容納一組值的變數,每一個值都會關連到特定的機率

2.當我們想要參照某個隨機變數時,通常會使用大寫字母來代表它,像是X或Y;隨機變數所能容納的特定值則以小寫字母來代表,像是x或y。使用這種表示法時,P(X = x)代表隨機變數X出現特定值x的機率

3.若稱變數是離散的(discrete),表示它只能夠容納確切值

4.離散的意思是:資料由不相同且不連續的數值所構成,並且能夠計算出每個值所對應的機率


二.離散機率分佈的期望值與變異數

1.變數X的期望值(expectation)有點像是平均數,不過,期望值是針對機率分佈。要找到期望值,你必須將每個x值乘得到該值的機率,再將結果加總起來

2.計算變數X的期望值:E(X) = μ = Σx * P(X = x)


三.計算離散機率的變異數

1.期望值提供變數的典型值(typical value)或均值(average value),但並未告訴你值的分散情形,而我們可使用變異數來量度這樣的分散性或變動性

2.機率分佈之變異數X的期望值:
Var(X) = E(X - μ)^2
又因E(X) = Σx * P(X = x)
則原式=>Var(X) = Σ(x - μ)^2 * P(X = X)

3.機率分佈的標準差為變異數的平方根


四.線性轉換一般化公式

1.當任何隨機變數經轉換後,背後的機率保持不變,但值卻變了,稱為線性轉換(linear transform)

2.E(aX + b) = a E(X) + b
Var(aX + b) = a^2 Var(X)
﹡X為變數;a與b為常數
﹡在尋找變異數時,其計算過程牽涉到所有潛在值的平方,又因為所有的可能值都已經被乘上a,因此,最後的結果是變異數會被乘上a^2


五.觀察的速算公式

1.尋找n個獨立觀察(observation)的期望值:E(X1 + X2 + … +Xn) = n E(X)

2.尋找n個獨立觀察的變異數:Var(X1 + X2 + … +Xn) = n Var(X)


六.隨機變數的加減

1.隨機變數的加法:
E(X + Y) = E(X) + E(Y)
Var(X + Y) = Var(X) + Var(Y)
﹡直接加總變異數只對獨立隨機變數有效

2.隨機變數的減法:
E(X - Y) = E(X) -E(Y)
Var(X - Y) = Var(X) + Var(Y)
﹡隨機變數相減,變異數相加
﹡隨機變數雖然是相減,但機率分佈的變動性還是會增加


七.線性轉換的加減

1.aX與bY的相加:
E(aX + bY) = a E(X) + b E(Y)
Var(aX + bY) = a^2 Var(X) + b^2 Var(Y)
﹡因為是線性轉換,所以a與b都要取平方

2.aX與bY的相減:
E(aX - bY) = a E(X) - b E(Y)
Var(aX - bY) = a^2 Var(X) + b^2 Var(Y)
﹡變動性仍是增加


八.期望值與變異數

1.
統計量:E(aX + b)
公式:a E(X) + b

2.
統計量:Var(aX +b)
公式:a^2 Var(X)

3.
統計量:E(X)
公式:Σx * P(X = x)

4.
統計量:E(f(X))
公式:Σ f(x) P(X = x)

5.
統計量:Var(aX - bY)
公式:a^2 Var(X) + b^2 Var(Y)

6.
統計量:Var(X)
公式:E(X - μ)^2 = E(X^2) - μ^2

7.
統計量:E(aX - bY)
公式:a E(X) - b E(Y)

8.
統計量:E(X1 + X2 + X3)
公式:3E(X)

9.
統計量:Var(X1 + X2 + X3)
公式:3Var(X)

10.
統計量:E(X^2)
公式:Σx^2 P(X = x)

11.
統計量:Var(aX - b)
公式:a^2 Var(X)



Ch6 排列與組合

一.排列

1.n! = n * (n - 1) * (n - 2) * … * 3 * 2 * 1。這種方式稱為數字的階乘(factorial)。因此n!表示要將「從n遞減到1的數字」全部乘起來

2.0!的結果為1。因排列0個物件的方法只有一種

3.當n個物件排成圖形時,因有可能出現相對位置完全一樣的狀況,因此排列數為(n - 1)!

4.當n個物件排成圖形時,且順時針與逆時針方向被考慮成一樣,則排列數為(n - 1)! / 2

5.當n個物件排成圖形時,且必須考慮到絕對位置時,則排列數為n!


二.按類型排列的一般化公式

1.若你需要計算n個物件的排列方式,而其中有k個物件是一樣的。要找出排列數,先從計算n個「不同」物件的排列數開始,再除以k個物件(相同物件)的排列數:n! / k!

2.在計算「包含重複物件的排列」時,只要將排列總數(n!)除以每一組相同物件的排列數(j!、k!、等)


三.介紹排列

1.從n個物件中取出r個物件的排列數(number of permutations)為:nPr = n! / (n - r)!
﹡n為物件總數;r是我們要填入的位置數

2.排列看起來就像是將所有未選擇的物件都當成同類物件,所以你將n!除以(n - r)!

3.排列是從一群物件中挑選一些物件,並且必須考慮選擇的順序。排列比組合還要特定,因為你在乎物件的順序

4.排列:順序要緊


四.介紹組合

1.從n個物件中取出r個物件的組合數(number of combinations)為:nCr = n! / r! (n - r)!

2.組合看起來就像是你將所有未選擇的物件都當成同類物件,並且將所有選擇的物件也當成同類物件,因此,還要再額外除以r!

3.組合是從一群物件中挑選一些物件,但是不考慮選擇的順序。組合比排列還要一般化,因為你不在乎物件的順序,只要知道哪些物件被選取即可

4.組合:順序不要緊



Ch7 幾何、二項、與Poisson分佈

一.幾何分佈

1.如果你正在進行獨立嘗試,每次嘗試都有固定的成功或失敗機率,而且關注的重點是取得成功輸出所需的嘗試次數,那麼,你就可以使用幾何分佈(geometric distribution)

2.幾何分佈:P(X = r) = p * q^(r - 1)
﹡若正面的機率為p,則負面的機率為1-p,我們標示它為q。在第r次出現正面之前,會先出現(r - 1)次的反面
﹡P(X = r)的意思是「X的值為r的機率」
﹡當r = 1時,P(X = r)具有最大值,隨著r增加,機率越變越小,也就是說,出現正面的機率在第一次投擲時是最高的。這表示,任何機率分佈的眾數總是1,因為眾數是具有最高機率的值

3.不等式的幾何分佈:
(1)P(X > r) = q^r
﹡P(X > r)代表投擲超過r次才會出現正面的機率,亦即會先出現r次的反面
(2)P(X ≤ r) = 1 - q^r
﹡投擲少於或等於r次即出現正面的機率

4.當X變數遵循幾何分佈,在當中,每次嘗試的成功機率為p時,就能夠被寫成:X ~ Geo(p)


二.幾何分佈的期望值與變異數

1.若X ~ Geo(p),則期望值E(X) = 1 / p

2.若X ~ Geo(p),則變異數次數Var(X) = q / p^2


三.二項分佈

1.二項式分佈包含以下情境:
(1)你正在進行獨立嘗試
(2)每次嘗試都有固定的成功或失敗機率
(3)嘗試次數無限

2.二項分佈與幾何分佈的差別在於:你所關注的是成功的次數

3.以變數X代表在n次嘗試中得到成功輸出的次數。獲得r次成功的機率:
P(X = r) nCr p^r q^(n - r)
nCr = n! / r! (n - r)!
﹡p是每次嘗試中得到成功輸出的機率,n是嘗試次數。這個分佈可寫成X ~ B(n, p)
期望值:E(X) = n * p
Var(X) = n * p * q

4.如果你有固定的嘗試次數,並且想要知道得到特定成功次數的機率,就必須使用二項分佈(你也可以利用二項分佈來判定:在n次嘗試中,能夠期望會有多少次成功);如果你所關注的重點是:在獲得第一次成功時,需要經歷多少次嘗試,則必須用幾何分佈


四.Poisson分佈

1.Passion分佈包含以下情境:
(1)在給定區間內,個別事件會隨機且獨立地發生。「區間」可以是一段時間或一個空間
(2)你已經知道給定區間內的平均發生次數與發生率(有限的)。平均發生次數通常以λ表示

2.使用變數X來表示給定區間內的發生次數。若X遵循Poisson分佈,給定區間內的平均發生次數或發生率為λ,則此分佈可寫成:X ~ Po(λ)
尋找特定區間內發生r次的機率:P(X = r) = (e^(-λ) λ^r) / r!
期望值:E(X) = λ
變異數:Var(X) = λ

3.若X與Y是獨立隨機變數,則
P(X + Y) = P(X) + P(Y)
E(X + Y) = E(X) + E(Y)
那就表示,若X ~ Po(λx)以及Y ~ Po(λy),則
X + Y ~ Po(λx + λy))

4.當二項分佈的X ~ B(n, p),n大且p小,X就可以近似為
X ~ Po(n p)



Ch8  一般常態

一.連續資料

1.連續資料(continuous data)通常是以某種方式量測而得的資料,而不是以計數的方式得到的,而且經常取你所需要的精密度


二.頻率與連續資料

1.在處理離散資料時,我可以產生具體的機率分佈,我們可以在表格裡顯示每個值的機率,或者確切地指明它是某遵循明確的機率分佈,如二項分佈或Poisson分佈;而在處理連續資料時,我們不能夠提供每個值的機率,因為不可能指明每個確切值為何,相反地,我們必須把焦點放在特定的精確度上,以及得到某個值域範圍的機率


三.機率密度函數

1.我們能夠使用機率密度函數(probability density function)來描述連續隨機變數(continuous                                                                   )的機率分佈

2.機率密度函數f(x)告訴我們機率分佈的形狀是什麼,你能夠用它來尋找「連續變數在某個範圍內的機率」。其總面積必為1

3.對連續隨機變數來說,機率密度函數的面積代表機率。要尋找特定值域的機率,就從繪製機率密度開始。取得特定值域的機率,就是機率密度下、某值域範圍內的面積


四.介紹常態分佈

1.常態分佈(normal distribution或稱高斯分佈(Gaussian distribution))之所以被稱為「常態」的原因,是因為在現實生活中,你「通常」會預期看到這樣的連續資料

2.常態分佈曲線呈現鐘形(bell curve),且是對稱的,最高的機率密度會出現在中央,從平均數往兩邊走,機率密度逐漸漸少。平均數、中位數,與最高機率密度都位在中央

3.常態分佈由兩個參數定義而成,μ及σ^2。μ告訴你鐘形曲線的中心位置,σ告訴你資料的分佈情形。若連續機率變數X遵循平均數μ且標準差σ的常態分佈,一般會寫成:X ~ N(μ, σ^2)
﹡當σ^2越大,常態分佈的形狀就會變得越平坦、越寬廣


五.計算常態機率

1.要尋找常態機率分佈,得先識別出你必須為它計算機率的值域範圍,接著找出該範圍之邊界的標準分數(standard score),使用Z = (X - μ) / σ,在此,Z ~ N(0,1)


六.機率表探究

1.使用機率表來尋找你所需要的機率,通常是先找到一整塊面積,然後扣掉你不需要的部份

2.尋找P(Z > z):P(Z > z) = 1 - P(Z < z)

3.尋找P(a < Z < b):P(a < Z < b) = P(Z < b) - P(Z < a)


Ch9 超越常態

一.常態分佈探究

1.若你正在處理常態變數的組合,能夠找到X + Y的分佈會是很有用的。若獨立隨機變數X與Y皆是常態分佈,你就更能利用X與Y的平均數和變異數計算出X + Y的分佈

2.要尋找X + Y的平均數和變異數,可以利用針對離散機率分佈所使用的相同公式。換句話說,若:X ~ N(μx, σx^2)以及Y ~ N(μy, σy^2),那麼X + Y ~ N(μ, σ^2),而在此μ = μx + μy   ;σ^2 = σx2 + σy2
換言之,X + Y的平均數等於X的平均數加上Y的平均數;X + Y的變異數等於X的變異數加上Y的變異數

3.要想尋找X - Y的平均數和變異數,可以利用針對離散機率分佈所使用的相同公式。換句話說,若:X ~ N(μx, σx^2)以及Y ~ N(μy, σy^2),那麼X - Y ~ N(μ, σ^2),而在此μ = μx - μy   ;σ^2 = σx2 + σy2
換言之,X - Y的平均數等於X的平均數減掉Y的平均數;X - Y的變異數等於X的變異數加上Y的變異數


二.線性轉換 vs. 獨立觀察

1.線性轉換:
(1)若X的線性轉換(linear transform)形式為aX + b,在此,X ~ N(μ, σ^2)。因X是常態分佈,所以aX + b也是常態分佈
(2)期望值:在檢視離散機率分佈時,我們發現E(aX + b) = a E(X) + b,X遵隨常態分佈,E(X) = μ。因此,E(aX + b) = aμ + b
(3)變異數:在檢視離散機率分佈時,我們發現Var(aX + b) = a^2 Var(X)。我們知道,在此情況下,Var(X) = σ^2,所以Var(aX + b) = a^2 * σ^2
(4)綜合上述結論,可以得到:aX + b ~ N(aμ + b, a^2 σ^2)

2.獨立觀察:
(1)若X1, X2,...,Xn是X的n個獨立觀察(independent observation),在此,X ~ N(μ, σ^2)
(2)期望值:E(X1 + X2 +...+ Xn) = n E(X)
(3)變異數:Var(X1 + X2 +...+ Xn) = n Var(X)
(4)綜合上述結論,可以得到:X1 + X2 +...+ Xn ~ N(nμ, nσ^2)

3.線性轉換影響的是機率分佈裡頭的值;獨立觀察則與你所處理的對象數量有關。一般而言,若值本身在改變,就是在處理線性轉換;若數量改變,就是在處理獨立觀察


三.連續性校正

1.在特定條件下,我們可以使用常態分佈近似二項分佈。若X ~ B(n, p),np>5且nq>5,就可以使用X ~ N(np, npq)近似X ~ B(n, p)

2.若你要以常態分佈近似二項分佈,你就必須運用連續性校正(continuity correction)。這代表當你將離散值轉換到連續刻度時所需要做的小調整

3.尋找「≦」的機率:計算P(X ≦ a)形式的機率時,必須確認的關鍵在於:慎選你的值域範圍,好讓它包含離散值a。在連續刻度上,離散值a會對應到(a + 0.5)。這表示,若你使用常態分佈尋找P(X ≦ a),實際上必須計算P(X < a + 0.5),才能夠得到良好的近似。換句話說,你必須額外增加0.5

4.尋找「≧」的機率:若你要尋找P(X ≧ b)形式的機率時,必須確認你的值域範圍包含離散值b。在連續刻度上,離散值b會對應到(b - 0.5),所以必須使用P(X > b -0.5)的範圍,確保你的值域範圍有包含它。換句話說,你必須額外減掉0.5

5.尋找「之間」的機率:計算P(a ≦ X ≦ b)形式的機率時,必須讓連續性校正確保a與b皆涵蓋在我們的值域範圍中,為了做到這一點,必須將值域範圍延伸到兩側以外0.5的區域。為了以常態分佈近似這個機率,必須使用P(a - 0.5 < X < b + 0.5)


四.使用常態分佈來近似Poisson分佈

1.若X ~ Po(λ)且λ > 15,就能使用X ~ N(λ, λ)來近似Poisson分佈



Ch10 使用統計抽樣

一.母群體vs.樣本

1.母群體(population)指的是當你正試圖量測、研究、或分析之對象所屬的整個群組,能夠指涉任何事物,關鍵在於母群體指的是整個群組當中的所有成員

2.樣本指的是選自母群體的一群項目,也就是對母群體具有代表性的子集合(small selection)

3.只涉及選自母群體之樣本的研究或調查被稱為樣本調查或抽樣調查(sample survey)


二.設計樣本

1.首先必須弄清楚的,是你的目標母群體(target population)究竟是什麼,以便知道要從哪裡收集你的樣本。目標母群體的意思是你正在研究或者想要從中收集資料的撙。在很大的程度上,你所選擇的目標母群體取決於你的研究目的。應盡可能地明確,才能產生對母群體具代表性的樣本

2.定義好你的目標母群體後,就要再定義抽樣單元(sampling unit),指的是你決定要採集何種物件

3.最後,你必須列出目標母群體內的全部抽樣單元,最好讓每個抽樣單元都有名稱或編號,這份清單稱為抽樣底冊(sampling frame),基本上就是一個你能夠從中選取樣本的清單


三.樣本裡的偏差

1.無偏樣本(unbiased sample)是目標母群體的代表,這表示它具有與母群體相似的特性,並且能夠使用這些特性對母群體本身進行推論。無偏樣本的分佈形狀類似於所屬母群體的分佈形狀

2.有偏樣本(biased sample)則是與母群體具有不同的特性


四.簡單隨機抽樣

1.簡單隨機抽樣(simple random sampling):以隨機過程來挑選出n個抽樣單位,由n個抽樣單元構成之所有可能樣本被挑選出來的機會都相同

2.使用簡單隨機抽樣時,有以下兩種選擇:
(1)還原抽樣(sampling with replacement):每當你選出抽樣單元,並且記錄好相關資訊時,會將它放回母群體
(2)不還原抽樣(sampling without replacement):被挑選出的抽樣單元不再放回母群體

3.使用簡單隨機抽樣的主要方法有以下兩種:
(1)抽籤
(2)隨機數字產生器(random number generator):當抽樣底冊過於龐大時,則應使用隨機數字產生器或隨機數字表(random number table)


五.分層、叢聚、與系統抽樣

1.分層抽樣(stratified sampling):將母群體分成幾個群組,每個群組裡的成員共享類似的特性,這些特性或群組被稱為分層(strata,複數),而每個個別的群組被稱為一個分層(stratum,單數)

2.叢聚抽樣(cluster sampling):針對叢聚進行簡單隨機抽樣,接著調查這些叢聚當中的每一個裡頭的一切。叢聚抽樣有效的原因,是因為每一個叢聚都是類似的,附帶的好處是你不需要整個母群體所構成的抽樣底冊,就能順利進行。而叢聚的問題是:它可能不是完全隨機的

3.系統抽樣(systematic sampling):以某種次序列出母群體,接著每隔k個項目就進行一次調查。系統抽樣相當簡單、快速,但其重大的缺點是:若母群體裡頭存在著某種循環或週期的模式,你的樣本將會有偏差

4.使用分層抽樣時,你將母群體分成不同的群組或分層,同一個分層裡的所有抽樣單元盡可能彼此類似,換句話說,你會使用某種特質或特性作為分層的基礎;使用叢聚抽樣時,你的目標是把群體分成一個個叢聚,盡可能讓每個叢聚彼此類似。

5.使用分層抽樣時,你會盡量讓每個分層不相同;使用叢聚抽樣時,你會盡量讓每個叢聚相似



Ch11 估計母群體與樣本

一.母群體平均數的點估計量

1.母群體參數的點估計量(point estimator),是一種能夠用來估計母群體參數的函數或計算,舉例來說,母群體平均數(μ)的點估計量(^μ)就是樣本平均數(x),因為我們能夠使用樣本平均數來估計母群體平均數

2.樣本平均數x = Σx / n = ^μ(母群體平均數的點估計量)
﹡x代表樣本裡的值;n代表樣本的規模


二.母群體變異數的點估計量

1.使用樣本變異數估計母群體變異數的問題在於:樣本變異數傾向稍微低於母群體變異數,而偏低的程度取決於樣本的規模(值的數量)。若樣本規模較小,則樣本變異數與母群體變異數的差異就會變大,反之就會變小。因此,我們需要母群體變異數的點估計量,以取得比樣本變異數稍微高一點的計算結果,這表示對於母群體變異來說是稍微好一點的點估計量

3.母群體變異數σ^2 = Σ(x - μ)^2 / n

2.母群體變異數的點估計量^σ^2 = Σ(x - x)^2 / (n - 1)
﹡^σ^2也常被寫成s^2


三.公式的記法

1.分子除以n會針對你所擁有的資料提供實際的變異數

2.若你擁有整個母群體的資料,那麼透過除以n,就會得到母群體的實際變異數。這表示,你必須使用σ^2的公式,並除以n

3.若你擁有一組來自母群體的樣本資料,那麼,你很可能要用它們來估計母群體的變異數。這表示,你必須使用s^2的公式,並除以n-1


四.比例的點估計量

1.若以X代表母群體裡頭的成功次數,X就會遵循具有參數n與p的二項分佈,n是母群體的人數,p是成功的比例。同樣地,母群體平均倏地最佳估計就是樣本平均數;母群體的成功比例之最佳推測就是樣本的成功比例

2.母群體成功比例的點估計量^P = Ps,在此Ps = 成功數量 / 樣本規模
﹡P = 機率 = 比例


五.尋找樣本機率

1.針對「樣本比例」本身尋找機率,需做下列事項:
(1)檢視跟我們正在考慮之樣本具有相同規模的全部可能樣本
(2)檢視全部可能樣本所構成的分佈,並且尋找比例的期望值與變異數
(3)一旦知道比例的分佈,就可以利用它來尋找機率


六.樣本比例的分佈

1.利用所有可能的樣本,構成樣本比例的分佈,稱為比例的抽樣分佈(sampling distribution of proportions),或者Ps的分佈

2.利用比例的抽樣分佈,你可以找到在規模為n的樣本當中成功比例的機率

3.Ps的期望值E(Ps) = E * (X / n) = E(X) / n = np / n = p
﹡p是母群體的比例

4.Ps的變異數Var(Ps) = Var * (X / n) = Var(X) / n^2 = npq /n^2 = pq / n

5.對變異數取平方根會得到Ps的標準差,標準差告訴我們樣本比例可能離p有多遠(亦即E(Ps)),這被稱為比例的標準誤差(standard error of proportion):√(Var(Ps)) = √(pq / n)

6.Ps遵循常態分佈:Ps ~ (p, pq / n)

7.抽樣分佈需要做連續性修正(continuity correction),因此若你正在使用常態分佈近似Ps的機率,務必使用連續性修正 ±( 1 / 2n)


七.樣本平均數的分佈

1.在找出樣本平均數分佈之前,得先找出它的機率分佈:
(1)檢視與我們正在考慮之樣本具有相同規模的所有可能樣本
(2)檢視由全部樣本所構成的分佈,並且為樣本平均數尋找期望值與變異數
(3)一旦知道樣本平均數如何分佈,就利用它來尋找機率

2.樣本平均數x = (x1 + x2 +...+ xn) / n

3.所有的可能樣本中產生樣本平均數的分佈,被稱為平均數的抽樣分佈(sampling distribution of means)或者X的分佈

4.期望值E(X) = E((X1 + X2 +...+ Xn) / n) = 1/n (E(X1) + E(X2) +...+ E(Xn)) = 1/n (μ + μ +...+ μ) = μ

5.變異數Var(X) = σ^2 / n 。類似於期望值的推演過程

6.X的標準差是變異數的平方根,這個標準差告訴你樣本平均數據離μ可能有多遠,被稱為平均數的標準誤差(standard error of the mean):σ / √n


八.中央極限定理

1.中央極限定理(central limit theorem)指明:若你從非常態的母群體X取得樣本,又如果樣本的規模夠大,那麼,X的分佈大致是常態的。若母群體的平均數與變異數是μ與σ^2,那麼X ~ N(μ, σ^2 / n)

2.用於二項分佈:若你的母群體遵循二項分佈,X ~ B(n, p),且n夠大,μ = np,σ^2 = npq,可得:X ~ N(np, pq)

3.用於Poisson分佈:若你的母群體遵循Poisson分佈,X ~ Po(λ),且n夠大,μ = σ^2 = λ,可得:X ~ N(λ, λ / n)

4.你使用中央極限定理是來尋找與樣本平均數有關的機率,而不是樣本裡的值,這表示,你不必做任何形式的連續性修正



Ch12 建構信賴區間

一.信賴區間

1.信賴區間(confidential interval):指明母群體平均數會存在於a與b之間,而a與b的確切值依賴於「你對該區間包含母群體平均數想要有多少信心度」

2.尋找信賴區間的四個步驟:
(1)選擇你的母群體統計量
(2)尋找它的抽樣分佈:找出平均數之抽樣分佈的期望值與變異數,將值代入μ以外的每個統計量,然後判斷我們可以使用X的常態分佈
(3)決定信賴水準(confidence level)
(4)尋找信賴界線(confidence limit)

3.你應讓信賴區間盡可能地窄,但又寬得足以讓你合理地確信真實的平均數就在區間之內


二.尋找信賴區間的捷徑

1.母群體統計量:μ
母群體分佈:常態分佈
條件:知道σ^2、n大或小、x是樣本平均數
信賴區間:(x - c (σ / √n), x + c (σ / √n))

2.母群體統計量:μ
母群體分佈:非常態分佈
條件:知道σ^2、n夠大、x是樣本平均數
信賴區間:(x - c (σ / √n), x + c (σ / √n))

3.母群體統計量:μ
母群體分佈:常態或非常態分佈
條件:不知道σ^2、n夠大、x是樣本平均數、s^2是樣本變異數
信賴區間:(x - c (s / √n), x + c (s / √n))

4.母群體統計量:μ
母群體分佈:二項分佈
條件:n夠大、ps是樣本比例、qs = 1 - ps
信賴區間:(ps - c √(psqs / n), ps + c √(psqs / n))

5.c值依賴你所需的信賴水準:
90% => c = 1.64
95% => c = 1.96
99% => c = 2.58

6.信賴區間為:統計量±(誤差邊際)

7.誤差邊際:c * (統計量的標準差)


三.t分佈簡介

1.當我們不知道母群體的實際變數為何時,這表示我們必須使用樣本估計σ^2。我們可以使用點估計量做到這一點,但是有個問題:樣本的規模太小,導致我們在估計裡會有很大的誤差。因此我們正在處理的淺在誤差意味著:常態分佈不能夠為X提供足夠準確的機率,也就是說它不會提供給我們一個準確的信賴區間

2.假如母群體是常態的,σ^2未知,而且你只擁有小樣本,那麼,X便遵循t分佈

3.針對小樣本估計母群體變異數時,t分佈會比較準確

4.t分佈的形狀取決於樣本規模。當樣本規模夠大時,它會傾向於常態分佈,但當樣本規模太小時,曲線看起來會較平坦

5.t分佈有一個參數v,v = n - 1,n為樣本規模,v被稱為自由度(number of degrees of freedom)

6.t分佈的標準分數T = (X - μ) / (s / √n)

7.t分佈的信賴區間:(x - t (s / √n), x + t (s / √n))

8.母群體統計量:μ
母群體分佈:常態或非常態分佈
條件:不知道σ^2、n很小、x是樣本平均數、s^2是樣本變異數
信賴區間:(x - t (s / √n), x + t (s / √n))



Ch13 假設檢定

一.假設檢定的程序

1.假設檢定(hypothesis testing)的六步驟:
(1)決定你要檢定的假設
(2)選擇檢定統計量(test statistic)
(3)為你的決策決定臨界域(critical region)
(4)尋找檢定統計量的p-value
(5)檢視樣本結果是否位在臨界域內
(6)進行決策


二.零假設與替代假設

1.零假設(null hypothesis)H0是你打算要測試的聲明,是你即將接受的聲明,除非有強大的反證出現

2.替代假設(alternate hypothesis)H1是相對於零假設的反向聲明,代表當有足夠強大的證據否定H0時我們會接受的聲明

3.進行假設檢定時,假定零假設為真。如果有足夠的證據否定它,你便會否決它並且接受替代原則


三.尋找臨界域

1.在我們能夠為假設檢定尋找臨界域之前,必須先決定顯著水準(significance level)

2.檢定的顯著水準α是:在拒絕零假設H0之前,你想要這個樣本結果有多麼不可能的量度。以百分比表示

3.在單尾檢定(one-tailed test)中,臨界域落在一組可能值當中的一端

4.在雙尾檢定(two-tailed test)中,臨界域落在一組可能值當中的兩端


四.尋找p-value

1.p-value是在臨界域的方向上,得到某個樣本結果或者更極端之結果的機率

2.若p-value落在臨界域內,就有足夠的證據否決你的零假設;若落在臨界域外,就沒有足夠的證據


五.假設的錯誤類型

1.第一型錯誤(Type I error)是你錯誤地拒絕實際為真的零假設

2.第二型錯誤(Type II error)是你錯誤地接受實際為假的零假設
﹡替代假設實際為真

3.當你得到第一型錯誤,那就表示零假設必須被拒絕,為了讓零假設被拒絕,你的樣本結果必須落在臨界域內
﹡零假設實際為真

4.得到第一型錯誤的機率是你的結果落在臨界域的機率,因為臨界域由檢定的顯著水準所定義,換句話說,第一型錯誤的機率P(Type I error) = α


5.計算第二型錯誤的步驟機率如下:
(1)確認你擁有具體的H1
(2)尋找臨界域外的值域範圍
﹡若你的檢定統計量已經被標準化過,值域範圍必須被反標準化回來
(3)尋找得到此值域範圍的機率,假設H1為真

6.第二型錯誤的機率P(Type II error) = β


六.檢定力簡介

1.假設的檢定力(power)就是「正確地拒絕實際為假之零假設」的機率,換句話說,就是我們產生正確決策拒絕H0的機率

2.拒絕實際為假的H0實際上是產生第二型錯誤的相反,這表示power = 1 - β



Ch14 卡方分佈

一.χ^2分佈

1.χ^2分佈是利用檢定統計量檢視預期頻率與觀察頻率之間的差異,接著將得到觀察頻率的機率傳回

2.要找到檢定統計量,得先做一張表格,描述問題的觀察頻率與預期頻率,完成之後,再運用觀察頻率與預期頻率來計算:χ^2 = Σ ((O - E)^2 / E))
﹡O代表實際觀察頻率,E代表預期頻率

3.χ^2分佈具有兩個關鍵目的:
(1)它能被用來檢定適合度(goodness of fit),這表示你能夠利用它來檢定一組給定的資料,看看它們有多符合某特定分佈
(2)它也能用來測試兩個變數的獨立性,這是一種檢查兩者之間是否存在著某種關連的方式


二.自由度

1.自由度(degree of freedom)的數量v,代表用來計算檢定統計量X^2之獨立變數的數量,或者獨立資訊片段的數量

2.自由度的數量是我們必須計算的預期頻率數量,同時考慮到我們所擁有的任何限制:v = (分類的數量) - (限制的數量)

3.當v很小時,檢定統計量X^2得到低值的機率遠高於得到高值的機率,換句話說,觀察頻率很可能接近預期頻率;當v很大時,就會很接近常態分佈

4.指明你正在使用檢定統計量X^2的表示法為:X^2 ~ χ^2(v)


三.顯著性

1.利用χ^2分佈指明在觀察與預期頻率之間的差異有多顯著(significant),取決於顯著水準(level of significance):χ^2 α(v)


四.χ^2假設檢定的步驟

1.決定要檢定的假設

2.尋找預期頻率與自由度

3.為決策決定臨界域

4.計算檢定統計量X^2

5.看看檢定統計量是否落在臨界域內

6.進行決策


五.χ^2的小抄

1.分佈:二項
條件(1):你知道p是多少。v = n - 1
條件(2):你不知道p是多少,你必須從觀察頻率估計它。v = n - 2

2.分佈:Poisson
條件(1):你知道λ是多少。v = n - 1
條件(2):你不知道λ是多少,你必須從觀察頻率估計它。v = n - 2

3.分佈:常態
條件(1):你知道μ與σ^2是多少。v = n - 1
條件(2):你不知道μ與σ^2是多少,你必須從觀察頻率估計它們。v = n - 3


六.自由度的一般化計算

1.在兩個變數的獨立性檢定中,假如你的列聯表(contingency table)有h列及k欄v = (h - 1) * (k - 1)



Ch15 相關與迴歸分析

一.二變量資料

1.單變量資料(univariate data)關係到單一變量的頻率或機率。它無法告訴你不同資料組之間的關連

2.二變量資料(bivariate data)針對每一個觀察提供兩個變數的值

3.若變數之一已經以某種方法控制住,或者被用來解釋另一個變數,則被稱為獨立(independent)或解釋(explanatory)變數;相對的,另一個變數則被稱為相依(dependent)或回應(response)變數


二.視覺化二變量資料

1.代替描繪值與頻率或機率的關係,你將一個變數畫在x軸,另一個變數畫在y軸,這類圖表被稱為散怖圖(scatter diagram或scatter plot)


三.誤差平方和簡介

1.代替看實際值與預期值之間的總差距,我們必須將差距平方加總起來,如此就能確保全部的值皆為正。這裡的距離平方總和被稱為誤差平方和(sum of squared error,SSE):SSE = Σ (y - ^y)^2



Ch16 十大遺珠

一.散點圖與莖葉圖

1.散點圖(dotplot)將每個「值」所對應的「資料」描繪成小圓點,呈現在圖上。你將「值」標示在水平軸上,並且將「代表對應資料的小圓點」堆疊在同一欄上

2.莖葉圖(stemplot)用於定量資料,通常是在你的資料規模相當小的情況。左邊的項目被稱為莖(stem),右邊的項目被稱為葉(leaf)


二.分佈剖析

1.針對常態分佈的經驗法則(empirical rule)適用於任何遵循常態分佈的資料組,它指明在資料組當中幾乎所有的值都落在平均樹上下3個標準差之內的範圍:
(1)大約有68%的值會落在平均數上下1個標準差以內的範圍
(2)大約有95%的值會落在平均數上下2個標準差以內的範圍
(3)大約有99.7%的值會落在平均數上下3個標準差以內的範圍

2.針對任何分佈的Chebyshev法則:
(1)「至少」有75%的值會落在平均數上下2個標準差以內的範圍
(2)「至少」有89%的值會落在平均數上下3個標準差以內的範圍
(3)「至少」有94%的值會落在平均數上下4個標準差以內的範圍


三.設計試驗

1.試驗(experiment)被用來測試變數之間的因果關係,而試驗的對象被稱為試驗單元(experimental unit)

2.設計試驗的三個基本原則:
(1)控制:你必須讓不屬於試驗本身之因素的影響降到最小,為了做到這點,首要之物是必須有控制組(control group)
(2)隨機化:
<1>完全隨機化設計(completely randomized design):你隨機地將對象進行測試
<2>隨機化區集設計(randomized block design):你將試驗對象分成類似的群組(group)或區集(block)
(3)複製

1 則留言: