Medical Statistics

카테고리(명목형) 데이터 분석 - 카이제곱 검정

sokki 2022. 3. 6. 08:49

Introduction

데이터를 분석할 때, 우리는 평균과 분산의 차이를 검정하는 방법들에 대해서 알아보았다. 그 중에 T test(정규성을 만족할 때 할 수 있는 검정 방법)과  Non parametric method(비모수 검정, 정규성 만족하지 않을 때)를 활용한 검정 방법들을 알아보았다. 그렇다면 카테고리형 변수(명목형 변수)에 대해서는 어떻게 검정을 진행해야 할까?


Chi-squared Test

카이제곱 검정이라고 불리는 이 검정 방법은 두 개의 명목형 변수의 연관성 또는 독립성을 검정해야 한다. 카이제곱 검정의 귀무가설은 두 변수 간에 관계가 없다는 것이다. 카이제곱 검정의 통계량에서 분자는 기대빈도와 관측도수의 차이를 나타낸다. 그 차이가 크면 클수록 통계량으 커지게 되고 귀무가설을 기각할 수 있게 된다. 

카이제곱 검정의 귀무가설 평가는 어떻게 이루어질까? 실제 카이제곱 값과 카이제곱분포표의 값을 비교하여 평가한다. 카이제곱의 경우 최소 count 개수가 5개 이하인 경우에는 사용할 수 없으니 이 점을 유의하도록 한다.

카이제곱 수식

$x^2 = \sum(관측값 - 기댓값)2 \over 기댓값$