분포
From Biocourse
표본분포
1 베르누이분포와 정규분포
(1) 베르누이시행
어떤 실험의 결과를 오직 두 가지 중의 하나로 생각하는 시행
(a) 베르누이시행의 표본공간 : S = { s, f }
(b) 성공확률 p=P{s} , 실패 확률 q=P{ f }
(2) 베르누이 확률변수
베르누이 시행 결과에 따라 또는 의 값을 대응시키는 확률변수
표본공간 S = {s, f}에서 X(s)=1, X(f)=0인 확률변수
(3) 베르누이 분포
베르누이 확률변수의 확률분포를 베르누이 분포
(a) 이원적 모집단의 분포를 나타냄
P(X=1) = p (성공확률), P(X=0) = 1 - p (실패확률)
(b) X ~ B(1,p)
(c) 성질
1) E(X) = 0 * (1-p) + 1*p = p
2) Var(X) = E(X^2) - {E(X)}^2 = p(1-p) = pq

























2 표본분포
(1) 용어정리(review)
(a) 모수(parameter) - 모집단의 특성을 결정하는 상수
(b) 통계량(statistic) -표본으로부터 계산 가능한 표본의 특성값
(c) 추정량(estimator) - 모수의 추정을 위한 통계량 예) 평균 , 분산, 확률, ....
(d) 표본분포(sample distribution) - 통계량의 확률분포
(2) 표본분포의 예
(a) {찬성, 반대, 찬성, 찬성, 반대} 와 같은 모집단에서 크기 3인 표본을 단순랜덤비
복원추출로 뽑아 모비율 p=(0.6)를 추정하는 문제.

(c) 표본비율
1) 표본결과에 따라 하나의 수 값을 대응시키는 확률변수
2) 표본으로부터 계산한 표본의 특성이므로 통계량
3) 가운데 두 열은 통계량 표본비율 의 확률분포 => (표본분포)
4) 표본분포 추정량의 확률분포 는 추정의 정확도를 나타내는 중요한 도구 ( )
(3) 랜덤표본 또는 임의표본 (random sample)
(a) (유한모집단) 단순랜덤 비복원추출로 뽑은 표본
(b) (무한모집단) 서로 독립이며 같은 분포를 갖는 확률변수의 집합
(c) 전구 생산 공정에서 n개를 랜덤하게 추출
X1 : 첫 번째 전구의 수명
X2 : 두 번째 전구의 수명
....
Xn : n번째 전구의 수명
관측 전의 { X1, X2, ..., Xn } : 랜덤표본
관측된 { x1, x2, ..., xn} : 데이터
(4) 유한모집단의 랜덤표본은 표본분포를 유도하기 어려우므로 모집단의 크기가 클 때
무한모집단에서의 랜덤표본으로 간주하여 표본분포를 구하여 근사분포로 사용한다.

3. 초기하 분포와 이항 분포
(1) 초기하 분포 (Hypergeometric distribution)
두 가지 특성값만 가지는 유한 모집단의 모비율을 추정하기 위해 표본 비융르 사용할 때 포본 비율의
확률분포, 즉, 표본 분포를 나타내기 위해 사용한다.
모집단의 크기 : N , 속성 A의 크기 : D, 모비율 : D/A
X : 크기 n인 랜던 표본에서 속성 A를 갖는 것의 개수

4. 이항 분포 ( Binomial Distiribution)
두가지 특성값만 가지는 무한 모집단에서 성공률 p를 가지는 베르누이 시행을 n번 시행할 때
성공횟수의 분포를 나타내기 위해 사용한다.
X1, X2, ..., Xn : 서로 독립이고 모수 p인 베르누이 확률변수
X = X1 + X2 + .... + Xn : n번 시행할 때 성공 횟수
- 기호 및 분포 함수

- 누적 분포 함수

- 성질 X ~ B(n,p) 일 때,
E(X) = np, Var (X) = np(1-p) = npq
- 초기하의 이항 근사
X ~ 초기하분포, N -> 무한대, D/N -> p
=> X ~ B(n,p)
(1) 표본 평균 ( 무한 모진단의 경우 )



(2) 유한 모진단의 표본평균

(3) 표본 평균의 표본 분포의 관한 성질 II

(4) 중심극한 정리

6. 중심극한정리의 예시
(1) 정규분포

(2) 균일분포 [0,1]

(3) 유한모진단 {2,3,5,7}으로 부터 복원 추출



7. 이항 분포의 정규근사

(a) n이 충분히 클 때,

(b) np > 5 이고, n(1-p) > 5 일 때 정규근사가 안전
(c) 이상 분포의 정규 근사 예시 (p=0.2)

8. 연속성 수정 ( continuity correction )
연속확률분포를 이용하여 이산 확률 분포의 확률을 근사시킬 때 근사의 정밀도를 높이는데 이용


9. Chi-squar 분포, t 분포, F 분포
(1) Chi-squar 분포


(3) 표준 정규분포로 부터 크기 6인 표본을 추출한 후 제곱합 한 후의 히스토 그램

(4) 자유도에 따른 카이제곱분포 밀도 함수의 변화

(5) 표본 분산의 분포

(6) T분포

(7) 성질
(a) T=0에 관하여 대칭
(b) k=무한대 일때 T ~Z (표준 정규분포)
(c) 0을 중심으로 좌우대칭이거나 표준 정규분포에 비해 두터운 꼬리를 가진다.
(d) t분포의 확률밀도 함수

(8) F분포
두 정규모집단의 분산을 비교하거나 분산분석 등에 사용
(a) 정의

(9) 자유도에 따른 F분포의 밀도함수 변화
k1 = 3

k1 = 10

k1 = 20

5. 표본 평균의 분포
