Testing
From Biocourse
DNA 마이크로어레이 자료의 다중 가설 검정
요 약
대량의 자료들이 동시에 만들어지는 마이크로어레이 실험에서는 그 특성으로 인해 기존의 통계적 방법들로는 분석에 어려움이 있었고, 이로 인해 여러 가지 새로운 방법론들이 개발되었다. Dudoit et al (2003), Tusher et al (2001) 등은 그러한 새로운 방법론들을 기술하고 있으며, 그러한 방법들이 어떤 방식으로 1종 오류를 제어함과 동시에 검정력을 높일 수 있는지를 보여준다. 본문에서는 이러한 방법들의 특성들을 비교 및 정리하여 마이크로어레이 자료의 분석에 이러한 방법들이 어떻게 활용되는 지 알아보았다.
1. 서 론
DNA 마이크로어레이는 수많은 유전자의 발현 수준을 동시에 관찰할 수 있는 새로운 기술로서, 생물학 전반의 광범위한 문제 연구에 있어서 혁신적인 변화를 주는 기술로 각광받고 있다. 마이크로어레이 자료의 분석은 수 만개의 탐침(probe)에 형광으로 표지된 RNA 혹은 이에 상응하는 cDNA를 결합시킨 후 형광의 강도를 측정함으로써 유전자들의 발현 패턴을 조사하여, 의미 있는 결론을 이끌어 내는 것에 그 목적이 있다고 할 수 있다. 이러한 목적에 있어서, 유전자가 통계적으로 유의하게 상이 발현(differentially expressed) 되었는지를 알아내는 것은 여러 개의 가설을 동시에 검정하는 문제로 해석될 수 있다. 일반적으로 마이크로어레이 실험은 수천 개의 유전자를 동시에 관찰하며, 이에 따라 여러 개의 가설이 동시에 검정된다. 이 때, 가설 검정에서 2가지 오류, 즉 1종 오류(Type I error)와 2종 오류(Type II error)가 발생하며, 1종 오류는 실제로는 상이 발현하지 않은 유전자를 상이 발현한 것으로, 2종 오류는 실제로 상이 발현한 유전자를 상이 발현하지 않은 것으로 판단하는 오류로 해석할 수 있다. 검정되는 가설의 수가 늘어날수록 1종 오류를 범할 확률은 높아지며, 수천 개의 유전자에 대한 가설을 동시에 검정해야 하는 마이크로어레이 실험에서 한 개의 유전자에 대한 0.05의 p-value는 더 이상 통계적으로 유의하다고 주장할 수 없게 된다. 극단적인 예를 들어, 10000개의 유전자에 대한 검정을 하는 경우, 실제로 모든 유전자가 유의한 차이가 없더라도 500여개의 유전자가 유의한 차이가 있다는 결론을 내릴 수 있다. 이러한 문제점을 해결하기 위한 방법으로서 다양한 다중 검정 방법들이 연구되어 왔으며, 본문에서는 각각의 방법들을 비교해보기로 한다.
2. 다중 검정 방법
2.1 자료 구조 및 가정
일반적인 DNA 마이크로어레이 실험을 통해 얻어지는 자료는 m개의 유전자에 대해 n개의 mRNA sample의 발현 수준이 대응되는, m×n 행렬 형태를 갖는다. 즉, 유전자 발현 프로파일 자료가
라는 행렬에 저장되어 있을 때,
원소는 i번째 sample의 j번째 유전자 발현량으로 볼 수 있다. 이 때, m, 즉 유전자의 개수는 수천 개에 이르는 것에 반해, n, 즉 sample의 개수는 수십 개에서 수백 개 정도이다. 이러한 실험 자료의 분석을 통해 알아내고자 하는 문제는 여러 가지의 가설을 동시에 검정하는 문제로 귀착된다. (예를 들면, m개의 유전자들 각각에 대해서 이 유전자들이 발현되었는지 여부를 검정하는 문제를 생각해 볼 수 있다.) 여러 가지의 가설을 검정할 때, 고려해야 할 문제는 다음과 같이 요약할 수 있다.
(1) j번째 유전자에 대한 검정통계량
의 계산
(2) 가설의 기각과 그에 따른 1종 오류의 조정
각각의 가설은 j번째 유전자에 대한 검정통계량
에 기초하여 검정되며 이 통계량은
의 함수로 표현될 수 있다. 이 때, 어떠한 방법으로 가설을 기각하고 1종 오류를 조정할 것인가를 결정하고자 다양한 방법을 제시하고자 한다. j번째 유전자에 대해 한 가지 가설
, 즉 j번째 유전자가 발현되었는가를 검정하는 것을 가정하며, 이에 대한 검정은
가 특정 값보다 큰 경우 가설을 기각하는 양측 검정을 가정하겠다.
2.2 가설 검정 및 오류
m개의 귀무가설 Hj(j=1,2,...m)를 동시에 검정하는 상황에서, R을 기각된 가설의 개수라 하면 각 상황을 다음과 같은 표로 나타낼 수 있다.
|
개 수 |
기각되지 않은 가설 수 |
기각된 가설 수 |
합계 |
|
True H0 |
U |
V |
m0 |
|
Non-true H0 |
T |
S |
m1 |
|
|
m-R |
R |
m |
