SAS Resource Center

sas信賴區間 | 2019-10-14 19:05:25

Enterprise Guide

單一類別型變量的分析檢定(適合度)

在做問卷調查時,分析者在回收完問卷後,常常直接針對問卷的資料進行分析,而沒有顧慮到資料的代表性。何謂資料的代表性?就是從母體抽出的樣本和母體的結構相似與否,用以辨別此資料是否可以充份表現出母體的特性。假設我們針對學校的學生進行調查,即使我們可以確實做到隨機抽樣,但是我們仍有可能抽到極端的樣本。有鑑於此,我們會對樣本做一些簡單的測驗,例如針對學生的男女比例,學院別的比例做比例的檢測,看其是否符合母體的資料組成。若一間學校的男女生比例是5:5,但是我們的樣本資料的男女生比例是2:8,這時我們就要懷疑此抽樣所得樣本的代表性了。若資料不具代表性,那麼分析所得的結果是否可以說明母體具有之特性就會被高度的懷疑。

範例中,我們使用SAS EG的範例資料CLASS,請選擇伺服器清單->伺服器->本機->資料館->SASHELP->CLASS

假設此CLASS資料是從某班級中隨機抽樣而得之樣本,在此我們假設班上同學男女比為5:5,試問,就男女比例而言,該資料是否具有代表性?

在工作的快捷選單中選擇描述->單因子次數(O)

在左側的選單中選擇資料,將要指派的變數(A)中的Sex變數,拖曳至右側工作角色(T)的分析變數的欄位中。

在左側的選單中選擇統計值,勾選二項式比例的漸近檢定(A),並可輸入欲檢定之比例0.5,然後選擇執行。

執行結果如下表,在二項式比例的表中,可知檢定的比例對象是Sex = 女,而想知道男女比例的值會不會等於0.5,可以從兩個途徑得到我們要的結果

1. 信賴區間

由下表可知其95%信賴區間為( 0.2445 , 0.7114 ),其信賴區間包含0.5,所以我們可以得知男女比例並無差異。

2. 假設檢定

由下表之H0檢定:比例=0.5中的雙邊Pr>|Z|=0.8158 大於我們一般所預設的顯著水準0.05,故在假設檢定中的決策為Not Reject H0。因此,我們的結論為「沒有充份證據顯示比例0.5」。

在左側的選單中選擇統計值,亦可勾選二項式比例的精準p值(P),另外,若使用精準p值則會需要較多的計算時間,故在右側有限制時間的選項可輸入。

由下表之H0檢定:比例=0.5中的精準檢定中雙邊=2*單邊=1 大於我們一般所預設的顯著水準0.05,故在假設檢定中的決策為Not Reject H0。因此,我們的結論為「沒有充份證據顯示比例不等於0.5」。

如果我們今天想要檢定的不是二項結果而是多個結果,例如一個學系中「四個年級」的人數,則我們可以利用卡方配適度的方法,在卡方配適度中亦有漸近檢定和精準p值兩個選擇。

SAS Resource Center

Enterprise Guide

單一類別型變量的分析檢定(適合度)

在做問卷調查時,分析者在回收完問卷後,常常直接針對問卷的資料進行分析,而沒有顧慮到資料的代表性。何謂資料的代表性?就是從母體抽出的樣本和母體的結構相似與否,用以辨別此資料是否可以充份表現出母體的特性。假設我們針對學校的學生進行調查,即使我們可以確實做到隨機抽樣,但是我們仍有可能抽到極端的樣本。有鑑於此,我們會對樣本做一些簡單的測驗,例如針對學生的男女比例,學院別的比例做比例的檢測,看其是否符合母體的資料組成。若一間學校的男女生比例是5:5,但是我們的樣本資料的男女生比例是2:8,這時我們就要懷疑此抽樣所得樣本的代表性了。若資料不具代表性,那麼分析所得的結果是否可以說明母體具有之特性就會被高度的懷疑。

範例中,我們使用SAS EG的範例資料CLASS,請選擇伺服器清單->伺服器->本機->資料館->SASHELP->CLASS

假設此CLASS資料是從某班級中隨機抽樣而得之樣本,在此我們假設班上同學男女比為5:5,試問,就男女比例而言,該資料是否具有代表性?

在工作的快捷選單中選擇描述->單因子次數(O)

在左側的選單中選擇資料,將要指派的變數(A)中的Sex變數,拖曳至右側工作角色(T)的分析變數的欄位中。

在左側的選單中選擇統計值,勾選二項式比例的漸近檢定(A),並可輸入欲檢定之比例0.5,然後選擇執行。

執行結果如下表,在二項式比例的表中,可知檢定的比例對象是Sex = 女,而想知道男女比例的值會不會等於0.5,可以從兩個途徑得到我們要的結果

1. 信賴區間

由下表可知其95%信賴區間為( 0.2445 , 0.7114 ),其信賴區間包含0.5,所以我們可以得知男女比例並無差異。

2. 假設檢定

由下表之H0檢定:比例=0.5中的雙邊Pr>|Z|=0.8158 大於我們一般所預設的顯著水準0.05,故在假設檢定中的決策為Not Reject H0。因此,我們的結論為「沒有充份證據顯示比例0.5」。

在左側的選單中選擇統計值,亦可勾選二項式比例的精準p值(P),另外,若使用精準p值則會需要較多的計算時間,故在右側有限制時間的選項可輸入。

由下表之H0檢定:比例=0.5中的精準檢定中雙邊=2*單邊=1 大於我們一般所預設的顯著水準0.05,故在假設檢定中的決策為Not Reject H0。因此,我們的結論為「沒有充份證據顯示比例不等於0.5」。

如果我們今天想要檢定的不是二項結果而是多個結果,例如一個學系中「四個年級」的人數,則我們可以利用卡方配適度的方法,在卡方配適度中亦有漸近檢定和精準p值兩個選擇。

[SAS] 變異數分析One

五月

3

五月 3, 2010 | | 7 Comments

在學過兩組樣本t檢定後,這周三的實習內容主要是One-way ANOVA。

當研究者想「檢定三組以上(包含三組)的母體平均數是否相等時」,變異數分析是一種可考慮的分析方法。

雖然變異數分析是檢定母體平均數,他的概念卻是與變異數有關!

檢定的觀念是將該組資料的變異,依照變異的來源切割,將每個切割的歸因於某個原因

藉由測量這些變異是否有差別,來作統計推論。

以下將利用例子來解說

研究問題:研究生甲想比較三種抗頭痛藥物對於舒緩頭痛所需的時間是否不同?因此他三組分別找了五個人服用該類藥物,並測量舒緩頭痛所需時間多長且記錄。

下圖為資料結構,brand是抗頭痛藥物種類代號(1,2,3)、value是測量舒緩的時間有多長(單位分鐘)

請問這三種藥物對舒緩頭痛的所需時間是否不同?

在尚未學變異數分析之前,同學們可能想利用「獨立樣本t檢定」兩個兩個組比較這三種藥物所花的時間是否有差異。

以此範例,如果想兩兩比較,分成「第一組vs第二組」、「第一組vs第三組」、「第二組vs第三組」。

我們假設這三組變異數相同(σ21=σ2223=σ2)

而變異數的共同估計值結合三組樣本的資訊:S2p=(n1-1)2+(n2-1)2+(n3-1)2/n1+n2+n3

然而這樣子的分析會面臨到問題,依照乘法規則,每次檢定是獨立且signifcant level=0.05,所以這三個檢定皆失敗拒絕的機率為(0.953)=0.857

犯type one error的機率就會變成0.143,大於我們設立的0.05,所以用兩兩相比是不適當的!

接下來變異數分析派上用場

剛剛提到「檢定的觀念是將該組資料的變異,依照變異的來源切割,將每個切割的歸因於某個原因」

我們會有一個總變異(Total sum of square, SSTO),是所有原始資料合併後的平方和。

再來會有組間變異(Between sum of square, SSB )各組之間利用各樣本平均數去取代原始資料合併的平方和。

最後會有組內變異(Within sum of square, SSW),又被稱作無法解釋的變異or殘差平方和。

因此,SSTO=SSB+SSW

統計學家發現當SSB/SSW的分布是F分布!接下來我們將重點移到SAS軟體內如何操作。

SAS裡面的Procedure有PROC ANOVA與PROC GLM提供研究者作變異數分析

這兩個指令做出來的結果會相同,可以依照個人喜好斟酌使用,以下將分開介紹。

使用PROC ANOVA

proc anova data=head;  /*資料檔名稱*/
class brand; /*說明分組的變項*/
  model value=brand; /*不同brand組別下想檢定的value變項*/
  means brand /TUKEY CLDIFF; /*多重檢定的指令,TUKEY為Tukey’s studentized range test;CLDIFF是請SAS跑出95%信賴區間*/
run;

要特別注意的是第三行指令,以前曾經就提到在SAS內輸入指令的順序非常重要

model後面是 Y=X來放置的,兩者互換是錯誤的指令,是同學需要注意的地方。

來看報表吧!

上學期有同學對ANOVA報表中「Source」欄位非常疑惑….明明上課講的就是組間與組內變異,怎麼呈現的是model、error勒?

在報表內,Model那一列表示組間變異(SSB)、Error表示組內變異(SSW)

最重要的就是ANOVA table,以藥物範例來說,F值統計量為7.14,P-value為0.0091<alpha level=0.05

檢定結果拒絕虛無假設H0 (三種藥物舒緩頭痛時間相同),即至少有兩種藥物舒緩頭痛時間不同!

接著研究者進一步想知道是哪幾種藥物之間有差異?究竟是每一組彼此之間都有差?還是某兩組有差異?

其實事後檢定的方法太多種了,至少10種以上。研究者就會問啦~請問要用哪一種呢?

如果要比較保守去估計的話可以使用Bonfferoni correction試試看,即把(alpha level)除以(C組數取2),因此又稱Bonfferoni校正。

在SAS裡面Bonfferoni correction指令為「Bon」。

此外,也可以依研究者所屬的專長領域選擇適用的多重比較方法。

下面介紹事後檢定(Post hoc test, multiple comparison, 又稱事後多重比較)-以Tukey為例

指令的部分上述已經提過,以下來看報表!

以三種藥物舒緩頭痛時間來說,可以看到第二種與第三種、第二種與第一種、第一種與第二種在舒緩頭痛時間有顯著不同(看*號或者是信賴區間判斷)!

注意:當One-way ANOVA沒有達到統計上顯著差異時,不建議也不需要作事後檢定。

學生最常犯的錯誤就是ANOVA檢定後各組沒有差異,卻還是作了事後檢定…往往會被打個大叉= =|||

使用PROC GLM

proc glm data=head;
  class brand;
  model value=brand;
  means brand/TUKEY CLDIFF;
run;
quit;

其實PROC GLM與PROC ANOVA最大的差異就是PROC後面是接GLM….其他幾乎相同!

因此不再贅述

檢驗假設

使用ANOVA時有他的假設需要注意,事實上在作ANOVA時也應該要檢驗該假設是否符合。

該如何檢驗假設?

有很多時候資料會違反上述假設,怎麼辦?

以上是這周三會上的實習部分 XD

資料來源:http://www.stattutorials.com/SAS/TUTORIAL-PROC-GLM.htm




You must be logged in to post a comment.

Name (required)

Email (required)

個人網站

Speak your mind