논문 혹은 임상시험 결과를 해석할 때 가장 기본이 되는 것이 가설 검정이다.
통계학적으로 가설검정을 이야기할 때 2가지 가설이 등장한다.
귀무가설 Null hypothesis, H0 [μ1 = μ2]
영가설 이라고도 하며, 버릴 것을 가정하는 가설이다.
예를 들어, 한 제약회사가 A라는 약을 개발하여 약효검증을 위해 위약(placebo, 가짜약)과 효과를 비교한 임상시험을 했다고 치자.
"A약과 위약의 효과에 차이가 없다 (μ1=μ2)" 는 가설이 귀무가설이다.
대립가설 Alternative hypothesis, H1 (Ha) [μ1 ≠ μ2]
연구자가 검증하고자 하는 가설로서, 연구가설이라고도 한다. 귀무가설에 대립되는 가설이다.
귀무가설과 반대로, 제약회사가 증명하고 싶어하는 가설, 즉
"A약과 위약의 효과는 차이가 있다 (μ1≠μ2)" 는 가설이 대립가설이다.
일반적으로 귀무가설을 기각하는 방식으로 대립가설을 증명하게 된다.
즉, 위의 사례에서 "A약과 위약의 효과에 차이가 없다"는 귀무가설을 기각하게 되면,
자연스레 "A약과 위약의 효과는 차이가 있다"는 대립가설이 참(true) 으로 증명되는 것이다.
가설을 설정하고 증명할 수 있지만, 진실은 미지의 영역이다.
언제나 오류는 존재한다.
귀무가설, 대립가설에서 나타날 수 있는 오류는 2가지로 분류한다.
1종 오류 (α, 알파) = False positive = 참인 귀무가설을 잘못 기각하는 경우
2종 오류 (β, 베타) = False negative = 틀린 귀무가설을 받아들이는 경우
True Decision |
H0 is True (귀무가설 참) | H1 is True (대립가설 참) |
H0 기각하지 않음 (귀무가설 고수) |
^_^ (옳은 결정) "신뢰수준 (1-α)" |
2종 오류 (β) |
H0 기각 (귀무가설 기각) |
1종 오류 (α) | ^_^ (옳은 결정) "검정력 (1-β)" |
여기서, 임상시험 결과의 통계적 유의성 Statistical significance 을 확인해주는 'p 값 (p-value)' 이 등장한다!
A약은 효과가 없는데도 불구하고, 우연히 효과가 있다고 관찰 될 가능성은 없을까?
우연히 A약이 효과가 있다고 잘못 관찰 되는 것이 1종 오류(α)이며,
임상시험에서 실제 관찰 된 1종 오류 확률을 나타내는 값을 p-value (유의확률) 라고 한다.
p 값(유의확률) > 유의수준 ☞ 귀무가설 H0 을 기각하지 않는다 (귀무가설 택)
p 값(유의확률) < 유의수준 ☞ 귀무가설 H0 을 기각한다 (대립가설 택)
※유의수준(α) : 제1종 오류의 최대 허용치 (연구설계 단계에서 미리 결정)
유의수준은 일반적으로 0.05 로 설정한다 (α=0.05)
아까 전의 예시로 다시 살펴보면,
"A약과 위약의 효과에 차이가 없다" 는 귀무가설에 대한 p 값 > 0.05 라고 가정해보자.
이 말은, 본 연구에서 A약이 효과가 있다고 잘못 관찰 될 확률이 5%가 넘는다는 이야기다.
그래서 이 경우는 귀무가설을 고수, 즉 'A약은 효과가 없다 (or 유의한 차이가 없다)' 는 결론에 머무른다.
반면, 동일한 연구에서 p-value < 0.05 라면,
A약이 효과가 있다고 잘못 관찰 될 확률은 5% 미만이다.
그래서, 이 때 우리는 'A약은 효과가 있다 (=A약과 위약의 효과는 유의한 차이가 있다)' 는 결론을 내린다.
▶ 이러한 과정을 통계적 가설검정 이라고 한다.
추가로, β 값을 이용한 검정력(Statistical power)까지 살펴보자.
β 는 실제는 차이가 있는데(대립가설 참), 차이가 없다고 잘못 판단하는 2종 오류이다. (False negative)
따라서 차이가 있는 것을 제대로 판단할 확률, 검정력은 (1-β) 로 표현할 수 있겠다.
('대립가설=참' 임을 옳게 판단할 확률)
True Decision |
H1 is True (대립가설 참) |
H0 기각하지 않음 | 2종 오류 (β) |
H0 기각 | ^_^ (옳은 결정) "검정력 (1-β)" |
임상시험에서 검정력은 80~90%로 설정하는 것이 일반적이다.
신뢰수준은 귀무가설을 기각하지 못하고 채택했을 때, 실제 귀무가설이 참일 확률
곧, (1-α) 으로 표시한다.
유의수준 5%로 설정했다면, 자연스레 95% 신뢰구간을 가진다고 말할 수 있다.
여기까지 임상통계의 가장 기본이 되는 통계적 가설검정에 대한 기초 내용들을 살펴보았다.
앞으로도 꾸준히 임상 통계에 대해 공부하고 포스팅해나갈 생각이다.
데이터와 변수, 통계적 의사결정 (+ t-test, ANOVA, 카이제곱) (0) | 2021.08.10 |
---|
댓글 영역