범주형 자료 분석
From Biocourse
범주형 자료 : 여러 모집단의 비교
범주형 자료 (categorical data) :
관측값을 어떤 속성에 따라 분류하여, 각 속성별 도수를 나타낸 자료
각 모집단이 두 가지 이상의 서로 다른 속성을 갖는 개체로 나뉘는 경우 여러 모집단을 비교하는 방법
- 관측도수가 귀무가설 H0하에서의 추정 기대 도수와 차이가 많이 나면 H0를 기각
(1) 적합도 검정 (goodness-of-fit test) :
도수표에 나타낸 자료들이 이론적인 또는 가정된 모형과 일치하는지에 대한 검정
예 : 주사위의 공정성 :
다음은 어떤 주사위를 100번 던저 나온 각 눈금의 관측도수가 나와있다. 이 자료를 근거로
주사위가 공정하지 못하다고 판정할 수 있겠는가?

위의 자료를 다음과 같이 모형화 할 수 있다.

i) 가설 검정

ii) 검정 통계량

iii) 기각역 :

iv) 참고
기대 도수를 구하기 위하여 p개의 모수가 추정되면 chi-squar 통계량의 자유도는 p 만큼
감소되어, r-1-p가 된다.
예 :
다음 표는 음주운전으로 체포된 100명의 표본에 대한 연령분포이다. 유의수준 1%를
사용하여 음주운전으로 체포된 사람들의 비율이 모든 연령 그룹에 대하여 같다는
귀무가설을 기각 할 수 있겠는가?

(2) 분할표 (contingency table)
(i) 예
갑, 을, 병 세 도시에서 (강도, 절도, 폭행)의 범죄형태를 알아보기 위하여 자료를 수집하였다.
자료는 10만 명 당 범죄율이다.

(ii) 동질성 검정(homogeneity test)
분할표에서 관심이 있는 문제는 '도시별로 (강도, 절도, 폭행)의 범죄형태가 같은가' 를 검정
(iii) 독립성 검정(independence test)
자료에는 '도시' 와 '범죄'라는 두 요인이 있으며, '서로 독립인가' 를 검정하는 문제로 이해할 수도 있다.
H0: 요인 A와 요인 B는 서로 독립이다. A: 도시, B:범죄
(iv) 독립성 검정과 동질성 검정은 통계적 모형과 검정법의 유도과정이 다르지만
결과적으로 검정법은 동일하다.
(3) 동질성 검정(동일성 검정) (homogeneity test)
여러 범주를 갖는 하나의 특성을 각 부차모집단 별로 관측하여 분포의 동일성 또는 동질성을 검정하는 방법
(i) 자료 구조

(ii) 검정

-- 예 :
문제 : 지역에 따른 공해를 느끼는 정도가 다르다고 할 수 있는지 유의수준 1%에서 검정하여라.
표) 지역에 따라 공해를 느끼는 정도

답 : 지역 i의 각 범주에 대한 모비율을 pi1, pi2, ..., pi5 (i = 1,2,3)이라 할 때,

(4) 독립성 검정 (independence test)
한 모집단의 각 개체에 대하여 두 가지 특성 A, B를 관측하고, 각 특성을 여러개의 범주로 나눌 수 있을 때,
이를 특성이 서로 관련성이 있는가를 검정하는 방법
(i) 자료 구조

(ii) 검정

