상세 컨텐츠

본문 제목

데이터와 변수, 통계적 의사결정 (+ t-test, ANOVA, 카이제곱)

Medical/임상 통계 study note

by C타입 파머씨 2021. 8. 10. 21:48

본문

데이터와 변수 (Data & Variable)

 

통계자료에서 얻어지는 자료(data)의 형태는 크게 4 종류로 볼 수 있다. 

Types of Data

1. 이진형 (Binary data, dichotomous data) : 성별(남/녀), 노출여부(Yes/No), 검사결과(양성/음성) 등

2. 범주형 (Categorical data) : 삶의 만족도, 인종, 출생지 등

3. 연속형 (Continuous data) : 혈압, 체중, 키, 나이 등

4. 생존시간 (Time to event data) : 시간에 따른 사망발생, 재발 등

 

위와 같은 데이터에 따라 변수도 아래와 같이 분류된다.

 

 

1. 연속형 변수

 

 1) 간격척도 Interval Scale : (+,- 가능) 일정한 간격으로 존재. 실질적 0점 없음

    ex)체온, 기온, 월(month) 

 

 2) 비척도 Ratio Scale : (+,-,x,÷ 가능) 일정한 간격으로 존재. 실질적 0점 있음

    ex) 혈압, 콜레스테롤수치, 체중

 

 

 

2. 범주형 변수 : 비연속변수, 가감승제(+,-,x,÷) 가 불가능한 변수

 

 1) 명목척도 Nominal Scale : (+,-,x,÷ 불가능) 특성에 따라 구분

    ex)성별, 혈액형, 인종 

 

 2) 순위척도 Ordinal Scale : (사칙연산 가능하기도 하지만 해석이 중요) 상대적 크기에 따라 구분

    ex)치료의 정도(반응,중간,무반응), 삶의 만족도(1~5점) 

   

 

 

그리고...

 

 

3. 연구 변수 : 연구를 통해 알아보고 싶은 변수

 

 1) 독립변수 (=설명변수, 예측변수, 원인변수, X변수, 설계변수) : 연구자가 설계(design)하는 변수. 통제가능.

    ex) 백신을 투약할지 말지, 치료약을 줄지 위약을 줄지

 

 2) 종속변수 (=반응변수, 결과변수, Y변수, 확률(random)변수) : 독립변수에 의한 결과

 

 3) 제3의 변수(covariate), 혼란변수(confounder) : 위의 2가지 연구변수가 아니면서, 결과에 영향을 주는 것

 

 

 

 

 

 


 

기술통계 (Descriptive Statistics)

 

1. 연속형 (continuous) 자료의 기술 통계 ☞  +, -, x, ÷

 

연속형 자료는 평균(mean), 중앙값(median), 분산(variance), 표준편차(standard deviatioan, SD), 범위(range) 등으로 요약, 표현할 수 있다. 

 

 

 

2. 범주형 (categorical, 이산형 discrete) 자료의 기술통계 ☞  Count 

 

범주형 자료는 빈도(frequency), 백분율(percentage), 비율(proportion) 등으로 요약, 표현할 수 있다. 

 

 

 


 

통계적 의사결정 (t-test, ANOVA, χ² test)

 

 

임상시험을 할 때, 아래와 같은 과정을 거쳐 가설을 검정한다. 

통계학적 가정 확인

가설 설정 (귀무/대립가설)

유의수준 설정 (α=0.05)

검정통계량(test statistics)

통계적 결정 (p-value < 0.05 ??)

결론

 

 

 

이 중 검정통계량 산정 시, 자료의 형태에 따라 검정방법이 달라진다. 

 

 

결론부터 말하자면

 

평균 차이에 대한 검정은 t-test 와 ANOVA , 비율 차이에 대한 검정은 χ² test


 

 

1. 두 집단 평균 차이에 대한 검정  t-test

 

두 집단 자료가 독립적이라면 independent two-sample t-test 

→ 두 집단 간 분산이 같고 다름에 따라 계산식이 달라진다. 

 

두 집단 관찰치가 짝을 이루어 있다면 paired t-test

 

 

 

 

2. 세 집단 이상의 평균 차이에 대한 검정  ANOVA

검정통계량(F) = 집단 간 분산/집단 내 분산 

F값의 p<0.05 일 경우, 사후검정을 통해 어느 집단 간에 차이가 있는지를 구체적으로 알아보기 위해 다중비교를 시행한다. 

 

 

 

 

3. 비율 차이에 대한 검정  카이제곱 검정  χ² test

범주형 자료에 대한 검정이므로, 보통 역학연구에서 흔히 등장한다. 

코호트 연구, 환자-대조군 연구 등에서 위험요인 여부와 결과 간 연관성이 어느정도인지 판단하는 목적이다. 

(상대위험도, 오즈비 등)

 

 

피어슨 카이제곱 통계량 (Pearson's chi-square statistic)

피어슨 카이제곱 통계량 (Pearson's chi-square statistic)

 

이때 O는 관찰값, E는 기대값(귀무가설이 옳다는 가정 하에 기대값) 이다. 

 

문제는 'E 값이 작아져도 (O-E) 값과 관계없이 카이값이 커진다'는 한계가 있다. 

 

이를 보완한게 Fisher's exact test 이다. 

 

 

 

 

연속성수정 카이제곱 통계량 (Yates' correction for continuity)

분자에서 'O-E'값에 "-0.5"를 하여 보정하였으므로, 좀 더 보수적인 방법이다. 

 

 

 

 

 


 

 

위와 같이 자료의 성격에 맞는 검정통계량을 구한 후,

 

검정통계량의 p-value 가 유의수준(0.05) 보다 작은지 판단하여 최종 결론을 내리게 된다. 

관련글 더보기

댓글 영역