1 統計假設的基本原理
若一充填製程其管制的品質特性重量為常態分配,為了解釋檢定方法此處『已知』該製程的參數,平均值μ=100.0 kg,標準差σ=3.0 kg(實務上平均值與標準差應為未知且只能用數據推估),今若因設備維修換了一個控制器,隨機抽樣9個樣本計算得到平均值為102.5,試問製程平均是否變大? 為了簡化與聚焦於檢定原理,此處假設標準差不會因改換控制器而改變。
1) 建立統計假設
H0:μ≦ 100.0 kg
H1:μ> 100.0 kg
此處為右尾檢定
2) 在H0假設下推估n=9的抽樣分配
依據統計學理論樣本平均值的抽樣分配為常態分配,若以H0中μ的
100.0 kg推估抽樣分配,則其平均值等於母體
平均值μ(xbar)= μ=100.0 kg,標準差為σ/√n=3/√9=1
3) H0假設下計算右尾機率值
本次隨機抽樣9個樣本,若H0為真,在n=9抽樣分配也是常態分配
以N(100,1)表示,因為本例為右尾檢定,因此查表或Excel等電腦
函數計算累加得到右尾區域(觀測值~無限大)的比例為0.00621
(或稱為p-value)。
2 實際製程與右尾比例(右尾檢定)
以下是μ=95~105的右尾比例
|
實際製程μ
|
右尾比例(p-value)
|
H0為真
|
95
|
3.19E-14
|
|
96
|
4.02E-11
|
|
97
|
1.9E-08
|
|
98
|
3.4E-06
|
|
99
|
0.00023
|
|
100
|
0.00621
|
H0不真
|
101
|
0.06681
|
|
102
|
0.30854
|
|
103
|
0.69146
|
|
104
|
0.93319
|
|
105
|
0.99379
|
因為H0:μ≦
100.0 kg表明μ最大值為100.0,而上表μ為最大值時右尾比例也為最大,因此進行檢定時只需要掌握最大比例值(p-value)即可進行判斷。
3 統計上的判斷
本次檢定發現若H0為真時,運用累加常態分配累加密度函數(CDF)計算得到右尾比例或稱p-value為0.00621,直覺上認為,若這樣低的機率在本次抽樣檢定時遇上,到底是偶然的因素,還是當初的假設H0不對的呢?
若將上表p-value與製程μ作圖表示
若H0不真如上μ=103,依據上將算p-value=0.691462表示出現觀測值為102.5的機會很高或者很自然,因此不禁懷疑H0是否為真,進而判斷H¬0不為真而拒絕H0的假設。
4 判斷的風險
本次據觀測值102.5判斷H0不真而拒絕H0假設,判斷的依據是p-value小於可承受的風險率α(5%),實際上H0可能為真,因此可能有p-value =0.00621的機會被誤判,這種原本H0為真卻被拒絕的錯誤稱為型I錯誤(Type I error)或稱第一種錯誤(也有人將錯誤翻譯為誤差)。
統計觀點上型I錯誤是比較嚴重的,譬如法官面對嫌犯H0為嫌犯是清白的假設,若實際上嫌犯確實是清白但法官卻誤判有罪,責造成冤獄是極端不好的事,或者前例的工程改善上,H0為Y110 ≦ Y100亦即提高溫度無助於提高產量且事實也是如此,但因誤判而認為提高溫度有助於提高產量,於是變更整個工程技術與管理,結果白忙一場,除了金錢時間損失外,還會造成更多的諸如基層員工的不信任等無形損失,由於型I錯誤的嚴重性,故在執行統計假設檢定前應事先設定好能夠承受型I錯誤的風險(risk),一般以α為代字,統計教科書或企業界常以5%或1%作為α值,從檢定角度α又稱為顯著水準(significance level)。
另一角度,假如製程真的變大例如μ=103.0,但因判斷時卻未能拒絕H0假設,因此犯了型II錯誤,此時觀測值102.5左尾比例(p-value)如下圖是0.308538此比率不算低,檢討傳統統計教科書相對於型I錯誤,一般都不論及此型II錯誤的容忍極限,近來開始有多數的呼籲也要注重型II錯誤,一般II錯誤是以β表示,1-β稱為檢定力(Power),在大陸是以功效稱之,檢定力的好壞涉及樣本大小與效應大小(effect size,通常是以差異/標準差s表示),當檢定完成後若發現不具顯著性(不否認H0)時應計算檢定力,一般檢定力設定為0.8,根據檢定力而事先估計樣本數大小去執行檢定或實驗室比較好的策略。
5 假設檢定有關型I錯誤型II錯誤總整理
|
|
實際情況
|
|
|
|
H0:真
|
H0:不真
|
判斷結果
|
不否認H0
|
正確判斷 1-α
|
型II錯誤 β
|
否認(拒絕)H0
|
型I錯誤 α
|
正確判斷 1-β
|
沒有留言:
張貼留言