통계학이란?

From Biocourse

Jump to: navigation, search

통계학이란

- 주어진 문제에 대하여 합리적인 답을 줄 수 있도록 자료 (data)를 수집하고 정리하며 
이를 해석하고 신뢰성 있는 결론을 이끌어 내는 방법을 연구하는 과학의 한 분야이다.


% 참고 : 한남대학교 권세현 교수 %


♦ 통계학의 어원

통계학(statistics)의 어원은 라틴어의 status(국가 또는 상태)에서 유래되었기 때문에 
통계학은 원래 국가 또는 정치와 밀접한 관계가 있는 학문이었다. 
고대의 통치자들은 국가의 재정 및 방위를 위하여 납세와 징병을 부과시켜야 했고, 이를 위해서 
과세대장, 토지대장, 징병대장 등을 만들어 사용했으며, 이때부터 통계조사의 형태가 실시되었다고 볼 수 있다. 즉, 독일에서느 콘링(H. Conring : 1606∼1681)에 의하여 창시된 국상학 (staatenkunde)이 오늘날의 통계학의 성질을 갖는 학문적 체계였으며, 특히 이 학파의 대표적인 학자인 아헨발(G. Achenwall : 1719∼1772)은 국상학을 계속 발전시키면서 통계학이라는 명칭을 최초로 사용하여 
오늘날 그를 『통계학의 아버지』라고 부르고 있다.


♦ 통계학의 구분

1. 기술통계학 (descriptive statistics):
  - 수집된 자료의 특성파악을 위해 자료를 표나 그림등을 통하여 정리 요약하는 방법을 다루는 분야
    (간단한 평균이나 분산과 같은 기술적인 내용을 나타낸다.)

2. 추측통계학 (inferential statistics):
  - 모집단으로부터 추출된 표본의 정보로부터 모집단의 여러 가지 특성을 추측하는 방법을 다루는 분야
   ("대한민국 남자의 키는 170이다. " 와같은 관심있는 대상에 대한 특성을 추측하는 것이다.)



♦ 통계학의 응용분야

1. 공업통계 : 실험계획법, 분산분석법, 신뢰성이론 

2. 농업통계 : 표본론, 실험계획법 

3. 의,약 학통계 : 생존분석, 임상실험 

4. 경제 경영 통계 : 시계열분석, 회귀분석 

5. 사회통계 : 범주형자료분석 

6. 생물정보학 통계 : 다변량 분석외 대부분의 통계학 분석이 사용된다.



♦ 용어

1. 추출단위 (sampling unit): 전체를 구성하는 각 개체 
   ( 관심이 대한민국 사람의 키라면 대한민국 국적을 가진 모든 사람 )

2. 특성값 (characteristic): 추출단위의 특성을 나타내는 값 
  ( 대한민국 국적을 가진 모든 사람의 키 )

3. 모집단 (population): 추출단위의 특성값들을 모아 놓은 것들의 모임 
   * 전체추출단위의 집합을 모집단이라고도 한다.

4. 표본(sample): 모집단 중 통계적 분석을 위하여 실제로 관측한 것들의 모임 
  ( 대한민국 국적을 가진 모든 사람을 현실적으로 측정할 수 없기에 서울 성북구 종암동에 거주하는 모든 사람으로 한정하여 측정 단위를 정한다.)

5. 유한모집단 (finite population): 유한개의 추출단위로 구성된 모집단 

6. 무한모집단 (infinite population): 무한개의 추출단위로 구성된 모집단


변수 형태 ( 측정형/분류형 )

1. 측정형(measure) 변수 : 측정 가능한 특성을 측정한 변수로 
                                                    키, 몸무게, 매출액, 온도,  물가 지수, 소득 수준, 유전자의 발현량, 등이다.

2. 분류형(categorical)변수 : 개체를 분류하는데 사용되는 변수이다.

  i) 순서형(ordinal) : 순서가 있는 분류형 변수로 
                                          학년, 기업 유형(대기업, 중소기업, 소기업), 소득 수준(상, 중, 하),
                                          학점(A,B,C,D,F), 병의 진행 정도(1,2,3,4기) 등이다.

  ii) 명목형 (nominal) : 순서 개념 없이 개체를 분류만 사용되는 변수로 
                                             성별(남,여), 혈액형(A,B,O,AB), 대학(서울대, 연세대, 고려대 등) 등이다.


통계자료분석의 과정
 
  
 통계적 방법은 매우 다양한 분야에서 광범위하게 이용되고 있다. 경영학이나 경제학 등의 사회과학에서 이용되고 있는 통계적 방법들과 자연과학에서 이용되는 방법들이 세부적인 기법 상에는 약간의 차이가 있을지라도 기본적인 접근방법은 동일하다. 즉, 어떤 분야에서는 특정한 통계적 방법들이 다른 분야에 비해 많이 이용되기도 하지만, 그 근본 목적이 불확실성 하에서의 의사결정에 필요한 정보의 수집과 분석이라는 점에서는 다를 수 없다. 이러한 관점에서 어떤 문제를 해결하기 위한 통계 자료 분석 과정을 공통적으로 다음 5단계로 나누어 볼 수 있다.

1.  문제의 서술 

  연구 문제들은 대체적으로 간략한 주제이지만, 한편으로는 막연한 문제들도 포함하고 있다. 그러므로 연구 목적의 모호함을 없애기 위해 문제가 분명하고도 상세하게 제시되어야(대부분 비통계학자들이 이 부분을 소흘이한다.) 한다.
또한 자료수집이 설문조사를 통할 때, 대답을 요하는 내용은 일반 대중이 이해하기 쉽게 표현되어야 한다. 연구 문제에서 사용되는 용어, 의사결정 내용들의 정의가 명확하고 보편적이어야 한다. 그리고 조사대상의 범위가 확실하게 지정되어 있어야 한다. 

2.  실험 설계 : "일반적으로 가장 빼먹기 쉬운 단계"
 
  실험을 설계할 때 전체를 대상으로 조사할 것인지 표본을 추출하여 조사할 것인가를 결정하여야 한다. 만일 표본추출조사가 선택되면 표본조사의 항목을 어떻게 선정하고, 몇 개의 항목을 선정하며, 관측 대상항목들 각각으로부터 어떠한 자료를 얻을 것인가를 결정하는 것이 필요하다.
또한 이 단계에서 최종적으로 어떤 분석방법이 사용될 것인지도 동시에 고려하여 분석방법에 적합한 자료수집을 설계하는 것도 필요하다. 어렵지 않다면 분석이론의 가정에 벗어나지 않는 실험 설계를 하도록 노력해야 할 것이다. 

3. 자료의 수집
 
  
  때때로 기존 자료가 연구 질문에 만족스러운 답을 제시해 줄 때도 있다. 적절한 현존 자료가 없을 경우에 조사자는 그 자신이 직접 자료를 수집해야 한다. 자료수집은 비용이 많이 들고, 시간의 낭비가 클 수 있으며, 많은 오기(誤記)의 가능성도 있다. 자료수집 과정을 적절히 통제하는 것도 매우 중요하다.
 

4.  자료의 요약 및 정리
 

  원자료(raw data)를 통해 자료의 특성을 파악하는 대부분 불가능할 것이다. 그 해결방법은 자료를 요약하는 것이다. 각각의 자료를 계급에 따라 분류하고, 표나 그래프 등을 이용하여 정리한다. 또한 비율이나 평균과 같이 자료를 대표하는 통계량을 제시한다. 기초적인 자료요약은 통계패키지의 이용보다는 EXCEL과 같은 spread sheet 프로그램을 이용하면 훨씬 더 쉽고 세련된 결과를 얻을 수 있는 것이 현 실정이다. 

5. 자료의 해석 

  자료 분석이 가장 중요한 단계이다. 연구자가 얻은 자료에 정확한 통계분석법을 적용하여 문제를 해결하는 것은 그리 간단하지가 않다. 많은 통계적 분석이 여러 제약조건(restriction)과 가정(assumption) 하에서 유도된 수학적인 이론을 토대로 정립되었기 때문에, 그 분석법을 적용하려면 자료가 요구하는 조건과 가정에 합당한가를 먼저 염두에 두어야한다.
 

**   요즘은 컴퓨터와 통계패키지의 보급으로 인하여, 통계학을 체계적으로 공부하지 않은 이들도 간단한 프로그램만으로 통계분석결과를 얻을 수 있게 되었다. 이는 잘못된 분석의 적용으로 오류를 범할 가능성을 크게 하였기에, 좀더 세심한 주의 아래 자료를 분석하고 해석해야한다.
 

** 대부분의 통계 패키지는 분석 결과를 text 행태로 제공을 한다. 그렇지만 분석을 의뢰하는 사람이나, 다른 사람에게 결과를 설명할 시에는 그림 등으로 표현을 하면, 이해하기 쉽고, 명확하게 전달되는 경우가 많다.