범주형 자료 분석

From Biocourse

Jump to: navigation, search

범주형 자료 : 여러 모집단의 비교

범주형 자료 (categorical data) : 

관측값을 어떤 속성에 따라 분류하여, 각 속성별 도수를 나타낸 자료

각 모집단이 두 가지 이상의 서로 다른 속성을 갖는 개체로 나뉘는 경우 여러 모집단을 비교하는 방법 

- 관측도수가 귀무가설 H0하에서의 추정 기대 도수와 차이가 많이 나면 H0를 기각


(1) 적합도 검정 (goodness-of-fit test)

     도수표에 나타낸 자료들이 이론적인 또는 가정된 모형과 일치하는지에 대한 검정


  : 주사위의 공정성 : 

다음은 어떤 주사위를 100번 던저 나온 각 눈금의 관측도수가 나와있다. 이 자료를 근거로

주사위가 공정하지 못하다고 판정할 수 있겠는가?

image : Stat8-1.jpg

위의 자료를 다음과 같이 모형화 할 수 있다.

image : Stat8-2.jpg


i) 가설 검정

image : Stat8-3.jpg

ii) 검정 통계량

image : Stat8-4.jpg

iii) 기각역 : image : Stat8-5.jpg


iv) 참고

기대 도수를 구하기 위하여 p개의 모수가 추정되면 chi-squar 통계량의 자유도는 p 만큼

감소되어, r-1-p가 된다.



다음 표는 음주운전으로 체포된 100명의 표본에 대한 연령분포이다. 유의수준 1%를 

사용하여 음주운전으로 체포된 사람들의 비율이 모든 연령 그룹에 대하여 같다는 

귀무가설을 기각 할 수 있겠는가?


image : Stat8-6.jpg





(2) 분할표 (contingency table)

(i)  

       갑, 을, 병 세 도시에서 (강도, 절도, 폭행)의 범죄형태를 알아보기 위하여 자료를 수집하였다.

      자료는 10만 명 당 범죄율이다.

image : Stat8-7.jpg


(ii) 동질성 검정(homogeneity test) 

     분할표에서 관심이 있는 문제는 '도시별로 (강도, 절도, 폭행)의 범죄형태가 같은가' 를 검정

(iii) 독립성 검정(independence test)

    자료에는 '도시' 와 '범죄'라는 두 요인이 있으며, '서로 독립인가' 를 검정하는 문제로 이해할 수도 있다.
 
     H0: 요인 A와 요인 B는 서로 독립이다. A: 도시, B:범죄


(iv) 독립성 검정동질성 검정 통계적 모형과 검정법의 유도과정이 다르지만 
    결과적으로  검정법은 동일하다.





(3) 동질성 검정(동일성 검정) (homogeneity test)

    여러 범주를 갖는 하나의 특성을 각 부차모집단 별로 관측하여 분포의 동일성 또는 동질성을 검정하는 방법

    (i) 자료 구조

image : Stat8-8.jpg

 
    (ii)  검정

image : Stat8-9.jpg


-- :

문제 : 지역에 따른 공해를 느끼는 정도가 다르다고 할 수 있는지 유의수준 1%에서 검정하여라.

표) 지역에 따라 공해를 느끼는 정도


image : Stat8-10.jpg


답 : 지역 i의 각 범주에 대한 모비율을 pi1, pi2, ..., pi5 (i = 1,2,3)이라 할 때,


image : Stat8-11.jpg





(4) 독립성 검정 (independence test)

한 모집단의 각 개체에 대하여 두 가지 특성 A, B를 관측하고, 각 특성을 여러개의 범주로 나눌 수 있을 때, 
 이를 특성이 서로 관련성이 있는가를 검정하는 방법

   (i) 자료 구조 

image : Stat8-12.jpg


   (ii)  검정

image : Stat8-13.jpg