통계자료에서 얻어지는 자료(data)의 형태는 크게 4 종류로 볼 수 있다.
Types of Data
1. 이진형 (Binary data, dichotomous data) : 성별(남/녀), 노출여부(Yes/No), 검사결과(양성/음성) 등
2. 범주형 (Categorical data) : 삶의 만족도, 인종, 출생지 등
3. 연속형 (Continuous data) : 혈압, 체중, 키, 나이 등
4. 생존시간 (Time to event data) : 시간에 따른 사망발생, 재발 등
위와 같은 데이터에 따라 변수도 아래와 같이 분류된다.
1. 연속형 변수
1) 간격척도 Interval Scale : (+,- 가능) 일정한 간격으로 존재. 실질적 0점 없음
ex)체온, 기온, 월(month)
2) 비척도 Ratio Scale : (+,-,x,÷ 가능) 일정한 간격으로 존재. 실질적 0점 있음
ex) 혈압, 콜레스테롤수치, 체중
2. 범주형 변수 : 비연속변수, 가감승제(+,-,x,÷) 가 불가능한 변수
1) 명목척도 Nominal Scale : (+,-,x,÷ 불가능) 특성에 따라 구분
ex)성별, 혈액형, 인종
2) 순위척도 Ordinal Scale : (사칙연산 가능하기도 하지만 해석이 중요) 상대적 크기에 따라 구분
ex)치료의 정도(반응,중간,무반응), 삶의 만족도(1~5점)
그리고...
3. 연구 변수 : 연구를 통해 알아보고 싶은 변수
1) 독립변수 (=설명변수, 예측변수, 원인변수, X변수, 설계변수) : 연구자가 설계(design)하는 변수. 통제가능.
ex) 백신을 투약할지 말지, 치료약을 줄지 위약을 줄지
2) 종속변수 (=반응변수, 결과변수, Y변수, 확률(random)변수) : 독립변수에 의한 결과
3) 제3의 변수(covariate), 혼란변수(confounder) : 위의 2가지 연구변수가 아니면서, 결과에 영향을 주는 것
1. 연속형 (continuous) 자료의 기술 통계 ☞ +, -, x, ÷
연속형 자료는 평균(mean), 중앙값(median), 분산(variance), 표준편차(standard deviatioan, SD), 범위(range) 등으로 요약, 표현할 수 있다.
2. 범주형 (categorical, 이산형 discrete) 자료의 기술통계 ☞ Count
범주형 자료는 빈도(frequency), 백분율(percentage), 비율(proportion) 등으로 요약, 표현할 수 있다.
임상시험을 할 때, 아래와 같은 과정을 거쳐 가설을 검정한다.
통계학적 가정 확인
↓
가설 설정 (귀무/대립가설)
↓
유의수준 설정 (α=0.05)
↓
검정통계량(test statistics)
↓
통계적 결정 (p-value < 0.05 ??)
↓
결론
이 중 검정통계량 산정 시, 자료의 형태에 따라 검정방법이 달라진다.
결론부터 말하자면
평균 차이에 대한 검정은 t-test 와 ANOVA , 비율 차이에 대한 검정은 χ² test
1. 두 집단 평균 차이에 대한 검정 t-test
두 집단 자료가 독립적이라면 independent two-sample t-test
→ 두 집단 간 분산이 같고 다름에 따라 계산식이 달라진다.
두 집단 관찰치가 짝을 이루어 있다면 paired t-test
2. 세 집단 이상의 평균 차이에 대한 검정 ANOVA
검정통계량(F) = 집단 간 분산/집단 내 분산
F값의 p<0.05 일 경우, 사후검정을 통해 어느 집단 간에 차이가 있는지를 구체적으로 알아보기 위해 다중비교를 시행한다.
3. 비율 차이에 대한 검정 카이제곱 검정 χ² test
범주형 자료에 대한 검정이므로, 보통 역학연구에서 흔히 등장한다.
코호트 연구, 환자-대조군 연구 등에서 위험요인 여부와 결과 간 연관성이 어느정도인지 판단하는 목적이다.
(상대위험도, 오즈비 등)
피어슨 카이제곱 통계량 (Pearson's chi-square statistic)
이때 O는 관찰값, E는 기대값(귀무가설이 옳다는 가정 하에 기대값) 이다.
문제는 'E 값이 작아져도 (O-E) 값과 관계없이 카이값이 커진다'는 한계가 있다.
이를 보완한게 Fisher's exact test 이다.
연속성수정 카이제곱 통계량 (Yates' correction for continuity)
분자에서 'O-E'값에 "-0.5"를 하여 보정하였으므로, 좀 더 보수적인 방법이다.
위와 같이 자료의 성격에 맞는 검정통계량을 구한 후,
검정통계량의 p-value 가 유의수준(0.05) 보다 작은지 판단하여 최종 결론을 내리게 된다.
임상통계 통계학적 가설 검정법 (+ 유의수준, 검정력) (0) | 2021.08.09 |
---|
댓글 영역