회귀분석

From Biocourse

Jump to: navigation, search
상관 분석과 회귀 분석

1.  상관분석


- 두 변수 사이의 연관성을 분석

- 표본 상관계수를 이용하여 모상관계수에 대해 추론


2.  회귀분석

- 두 변수 사이의 함수 관계를 분석

- 한 변수값으로부터 다른 변수의 값에 대한 예측

- 단순 회귀분석
  
  - 두 변수의 관계를 일차함수(직선관계)로 모형화하여 분석

  (i) 관측값 : (x1,y1), (x2,y2), (x3,y3) ...(xn,yn)

  (ii)

      - x : 영어성적    y : 수학 성적

      - x : 공정온도    y : 강도

      - x : 진통제의 분량   y : 진통 지속 시간

- 중 회귀분석

   - 두 개 이상의 변수가 한 변수에 영향을 줄 때 분석




1. 상관분석

  (1) X와 Y의 상관계수

 image : Stat9-1.jpg


# 표준 정규분포를 따르는 두 변수의 선형관계와 결합 밀도 함수의 모양

 image : Stat9-2.jpg

 image : Stat9-3.jpg


 (2) 상관계수의 성질
 
성질 : -1 <= rho <= 1

어떤 직선 주위에 밀집되어 나타날수록 -1 또는 1에 가깝게 주어진다.

- rho = 1 : 두 변수가 완전항 양의 선형 상관관계를 가진다는 것을 말한다. 이 경우 산점도 안의 모든 점들은 기울기가 양인 직선

위에 존재한다.

- rho = -1 : 두 변수가 완변가한 음의 상관관계를 가진다는 것을 말한다. 

이 경우는 산점도 안의 모든 점들의 기울기가 음인 직선 위에 존재하게 된다.

- 산점도 내의 모든 점들이 골고루 퍼져 있으면 두 변수들간의 어떤 선형관계도 없으며 

결과적으로 r(상관계수)은 0에 가깝게 된다.

- 상관계수는 두 변수간 선형성의 정도를 측정하는 측도일 뿐 다음과 같은 그림의 (d)와 같은 선형이

아닌 관계는 파악하지 못한다.

image:Stat9-4.jpg


  (3) 표본 상관계수

image:Stat9-5.jpg


- 성질 : -1 <= rho <= 1

   어떤 직선 주위에 밀집되어 나타날수록 -1 또는 1에 가깝게 주어진다.



2. 단순 회귀 분석

   (1) 단순 선형 회귀(단순회귀, 직선회귀) 모형

image:Stat9-6.jpg


- 모 회귀 직선 :  E(Y|x) = alpha + beta * x 

- 관측값 : (x1, y1), (x2, y2), ..., (xn, yn)

image:Stat9-7.jpg


    (2) 최소 제곱 추정 값

image:Stat9-8.jpg 을 최소로 하는 hat(alpha), hat(beta)을 각각 alpha, beta의 최소제곱 추정량이라 한다.

- 추정량의 유도

image:Stat9-9.jpg 

- 정규 방정식 (normal equation)

image:Stat9-10.jpg 

- 최소제곱 추정량

image:Stat9-11.jpg 

- 최소제곱 회귀직선

image:Stat9-12.jpg 

     ( 3) 평균제곱오차

- 잔차 

image:Stat9-13.jpg 

- 잔체 제곱함 ( residual sum of squares, error sum of squares )

image:Stat9-14.jpg 

- 평균 제곱 오차 ( mean squared error )

image:Stat9-15.jpg 

- 제곱합의 분해

image:Stat9-16.jpg 

- 결정 계수 ( coefficient of determination )

image:Stat9-17.jpg : 총변동 가운데 회귀직선으로 설명되는 변동의 비율

==> 결정계수가 1에 가까울수록 산점도에서 점들이 직선 주위에 밀집되어 나타나게 되어 회귀에 의한 설명이 잘 됨을 뜻함.

- 제곱합 계산법

image:Stat9-18.jpg 

- 잔차의 검토의 필요성

: 통계량만에 의한 결론의 문제점

==> 통계량은 같으나 두 변수의 관계가 다른 경우의 예

==> 잔차의 검토가 중요함 !! 




4. 단순회귀 분석에서의 추론

오차항의 분포 가정이 있으면 모회귀계수에 관한 구간추정이나 검정과 같은 추론이 가능하므로 
오차항정규분포라는 가정을 한다.

모형 : image:Stat9-19.jpg 

모형에 관한 추론 ( 모 회귀계수에 대한 검정)

- 회귀직선모형에 대한 가설 H0 : beta =0 , H1 : beta != 0 

- 검정 통계량 : image:Stat9-20.jpg 

  귀무가설하에서 F ~ F ( 1, n-2 )이므로 관측값이 f 이면 유의확률은 P = P{ F>=f }

- 기각역 : F >= F(alpha) ( 1, n-2 )

- 회귀직선의 유의성 검정을 위한 분산분석표

image:Stat9-21.jpg 

2) beta 에 관한 추론

- beta의 추정량

image:Stat9-22.jpg 

- hat(beta)의 기대값과 분산

image:Stat9-23.jpg 

- hat(beta)의 분포

image:Stat9-24.jpg 

- hat(beta)의 표준오차의 추정량

image:Stat9-25.jpg 

- 표준화된 hat(beta)의 분포

image:Stat9-26.jpg