Medical Statistics 17

카테고리(명목형) 데이터 분석 - Fisher test, McNemar's test, Mantel-Haenzel test

두개의 값(value)이 있는 명목형 변수간의 검증을 하기 위한 방법으로 chi squared test를 진행한다고 했다. 그렇지만, 명목형 변수에 여러개의 카테고리가 존재할 수 있다. 이럴 때 어떤 방식으로 두 변수의 차이를 검증할까? 이 때 쓸 수 있는 방법은 Fisher test, McNemar's test, Mantel-Haenzel test 같은 test들이 있다. 하나, 하나 간단히 설명하도록 하겠다. ​1. Fisher test 두 개의 명목형 변수의 연관성 또는 독립성을 검정할 때 쓸 수 있다. Fisher test의 가장 좋은 점은 최소 카운트가 5보다 작은 셀이 20% 이하인 경우, 즉, 모든 거의 모든 경우에 사용할 수 있다. Fisher test의 귀무가설(H0)은 두 카테고리 변수..

Medical Statistics 2022.03.18

카테고리(명목형) 데이터 분석 - 카이제곱 검정

Introduction 데이터를 분석할 때, 우리는 평균과 분산의 차이를 검정하는 방법들에 대해서 알아보았다. 그 중에 T test(정규성을 만족할 때 할 수 있는 검정 방법)과 Non parametric method(비모수 검정, 정규성 만족하지 않을 때)를 활용한 검정 방법들을 알아보았다. 그렇다면 카테고리형 변수(명목형 변수)에 대해서는 어떻게 검정을 진행해야 할까? Chi-squared Test 카이제곱 검정이라고 불리는 이 검정 방법은 두 개의 명목형 변수의 연관성 또는 독립성을 검정해야 한다. 카이제곱 검정의 귀무가설은 두 변수 간에 관계가 없다는 것이다. 카이제곱 검정의 통계량에서 분자는 기대빈도와 관측도수의 차이를 나타낸다. 그 차이가 크면 클수록 통계량으 커지게 되고 귀무가설을 기각할 수..

Medical Statistics 2022.03.06

Kruskal-Wallis test

마지막 비모수 검정 방법. Kruskal-wallis test에 대해서 간략히 알아보도록 하자. 이 테스트는 정규성이 가정이 만족되지 않고, 표본의 숫자가 충분하지 않을 때 진행할 수 있는 방법이다. Kruskal-wallis test의 귀무가설은 모든 집단의 분포와 median이 같다는 것이다. Kruskal-wallis 검정에서는 최소 샘플의 수는 6이다. 만일 Kruskal-wallis 검사 후 더 자세한 검정을 진행하게 되는데(마치 ANOVA에서 그랬듯이) 이때 사용되는 test가 Dunn procedure라고 부른다.

Medical Statistics 2022.01.05

Wilcoxon rank-sum test(윌콕슨 순위합 검정)

윌콕슨 랭크 섬 검정 방법에 대해서 알아보도록 하자. 이 방법은 정규성 가정이 만족되지 않을 때 혹은 집단의 규모가 너무나 작을 때, 두 집단의 통계치의 차이가 있는지 여부를 보려고 한다. 보통은 중간값(median)의 차이가 있는지를 보려고 하는데, 정규성 가정이 들어가지 못한다는 점을 감안해야 한다. 예를 들어, 두 집단 점수 차이를 비교하고 싶을 때, 점수가 정규성을 보이지 않는다고 해보자. 그렇다면 우리는 wilcoxon rank-sum test를 진행해볼 수 있을 것이다. wilcoxon rank-sum test의 귀무가설은 무엇일까? 당연히 두 집단 간에 차이가 없다는 것이다. 그렇다면 이것을 어떻게 검정할까? 이게 조금 어려울 수 있는데, 바로 순위를 매기는 것이다. 1)두 집단의 데이터를 ..

Medical Statistics 2021.11.24

비모수 검정에 대해서 알아보자

비모수 검정이란 무엇인가? 비모수 검정이란, 모집단이 정규성을 만족하지 않을 때 사용하는 검정 방법을 말한다. 그렇다면 정규성을 어떻게 확인할 수 있을까? 바로 Kolmogorov-Smirnov test 와 Shapiro-Wilk test 를 통해서다. 이것만으로 충분치 않은데, 동시에 우리는 Q-Q plot과 Histogram을 그려서 확인을 해줘야 한다. 왜냐면 위 검정 방법은 표본수에 굉장히 민감하기 때문이다.

Medical Statistics 2021.11.22

ANOVA에 대해서 알아보자

ANOVA, 이름이 뭔지 모르겠다. Analysis of Variance의 줄임말이다. 한국말로 번역하면 분산 분석이라고 하는데, 보통 3개 이상의 연속형 자료를 비교하고자 할 때 사용하는 방법이다. 예를 들어 A, B, C 집단의 평균 차이가 있는지 검정하고 싶을 때 쓰이는 방법이라고 볼 수 있다. ANOVA의 귀무가설(H0)은 모든 집단의 평균은 같다, 혹은 모든 집단의 검정하고자 하는 통계치가 같다, 이다. 통계적으로 유의해서 만일 귀무가설(H0)을 기각하게 될 경우 사후 분석(post-hoc)을 해줘야 한다. 이를 위해 multiple comparsion을 진행하게 되는데, 주로 여기서 Bonferroni 혹은 Dunnett procedure가 사용된다. ANOVA를 진행할 때 가정이 있는데 다음..

Medical Statistics 2021.11.19

T test (T 검정)

T test란 무엇인지 알아보도록 하자. 모집단의 분산이나 표준편차를 알지 못할 때, 모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 가지고 검정하는 방법 위와 같이 정의할 수 있겠다. 즉 t test란 어떤 두 집단의 평균을 비교하고자 할 때, 모집단이 아닌 샘플 집단에서 시행되는 것을 말한다. 예를 들어, 학교에 반 A와 B가 있는데 두 반의 평균 키를 비교한다고 하면 이것은 t test가 된다. 두 집단의 평균이 실제적으로 얼마나 차이가 있는지, 차이가 유의한지 여부를 확인하는 것이다. T-test의 종류 대표적으로 t-test는 두 가지로 나눠볼 수 있겠다. independent t-test paired t-test 각각에 대해서 서술해보자면, independent t test 위에서 예..

Medical Statistics 2021.11.04

Cohort Study(코호트 연구)

실험-대조군 연구와 비슷하지만 다른 연구 설계인 코호트 연구에 대해서 적어보고자 한다. 일단 구도는 노출군 vs 비노출군(un-exposed)으로 진행된다. 예를 들어서 담배에 노출된 집단과 그렇지 않은 집단을 비교하여 질병 발생의 연관성을 연구한다면 이것은 코호트 연구가 된다. 하지만, 실험-대조군과 사실 헷갈리는 것은 나만 그런걸까? 그래서 교수님께 이 이슈에 대해서 질문을 해보았더니 교수님께서는 목표하는 바가, 그러니까, 관찰하고자 하는 바(outcome)가 확실한 상태에서 집단을 나눈다면 이것은 실험-대조군 연구라고 하셨다. 예를 들어 우리가 담배를 피는 사람들과 그렇지 않은 사람들의 폐암 발생률을 비교하겠다고 한다면 이것은 실험-대조군 연구라는 것이다. 하지만 만일 우리가 단순히 담배를 피는 사..

Medical Statistics 2021.11.03

Case-Control study 실험-대조군

임상시험 설계 중에서 case-control study에 대해서 알아보자. 가장 간단한 실험 설계이긴 한데, 가장 대표적인 예시가 질병군(case)과 비질병군(control)으로 나누어 비교 연구를 진행하는 것이다. 이 연구에서 이루어지는 일은 exposure와 질병 발생과의 관계를 조사하는 것이다. 이 연구는 연구가 rare일 때 효율적이다. 보통, 질병과 관련있다고 생각되는 어떤 배경 인자나 위험 요인에 대해 노출된 정도를 상호비교하는 연구 설계라고 보면 될 것 같다. 관련 이슈사항은 아래와 같다. Issues case, control 선택하는 데 있어서 머리를 많이 써야 할 수 있음 연관성이 있다고 해서 반드시 인과 관계로 결론 지을 순 없음.

Medical Statistics 2021.11.01