전체 글 46

카테고리(명목형) 데이터 분석 - Fisher test, McNemar's test, Mantel-Haenzel test

두개의 값(value)이 있는 명목형 변수간의 검증을 하기 위한 방법으로 chi squared test를 진행한다고 했다. 그렇지만, 명목형 변수에 여러개의 카테고리가 존재할 수 있다. 이럴 때 어떤 방식으로 두 변수의 차이를 검증할까? 이 때 쓸 수 있는 방법은 Fisher test, McNemar's test, Mantel-Haenzel test 같은 test들이 있다. 하나, 하나 간단히 설명하도록 하겠다. ​1. Fisher test 두 개의 명목형 변수의 연관성 또는 독립성을 검정할 때 쓸 수 있다. Fisher test의 가장 좋은 점은 최소 카운트가 5보다 작은 셀이 20% 이하인 경우, 즉, 모든 거의 모든 경우에 사용할 수 있다. Fisher test의 귀무가설(H0)은 두 카테고리 변수..

Medical Statistics 2022.03.18

연구에 대해서

석사 3학기에 들어가고 있는 시점에서 연구란 무엇인가에 대해서 생각해보게 된다. 연구란 쉽게 말해 결국 인간의 지식을 확장하는 행위라고 할 수 있다. 그렇기 때문에, 좀 더 새로운 방법, 새로운 발견을 찾아 떠나는 것이 연구라고 할 수 있다. 그러니, 연구를 하려면 일단 지식이 많아야 한다. 어떤 지식이 있고, 없는지 알고 있어야 한다. 그렇기 때문에 연구는 전문 분야라는 것이 생긴다. 새로운 지식을 창출하는 것은 미지의 세계를 찾아 나서는 것과 같기 때문이다. 한 사람이 모든 분야에 대한 지식을 가질 수 없고, 오로지 자신의 특정 분야에 대해서만 빠삭하게 알 수 있기 때문인 것 같다. 연구는 어떤 점에서 탐험, 모험을 하는 것과도 같기 때문에 나한테는 이런 점이 굉장히 즐겁게 다가오는 것 같다. 과학적..

Scribble 2022.03.12

카테고리(명목형) 데이터 분석 - 카이제곱 검정

Introduction 데이터를 분석할 때, 우리는 평균과 분산의 차이를 검정하는 방법들에 대해서 알아보았다. 그 중에 T test(정규성을 만족할 때 할 수 있는 검정 방법)과 Non parametric method(비모수 검정, 정규성 만족하지 않을 때)를 활용한 검정 방법들을 알아보았다. 그렇다면 카테고리형 변수(명목형 변수)에 대해서는 어떻게 검정을 진행해야 할까? Chi-squared Test 카이제곱 검정이라고 불리는 이 검정 방법은 두 개의 명목형 변수의 연관성 또는 독립성을 검정해야 한다. 카이제곱 검정의 귀무가설은 두 변수 간에 관계가 없다는 것이다. 카이제곱 검정의 통계량에서 분자는 기대빈도와 관측도수의 차이를 나타낸다. 그 차이가 크면 클수록 통계량으 커지게 되고 귀무가설을 기각할 수..

Medical Statistics 2022.03.06

Ubuntu Server 설치후기

기존에 centos8의 서버를 오래전에 샀던 노트북에 깔았었는데 갑자기 centos에서 이 버전의 유지보수를 2021년 12월 31일까지라고 발표를 해버리면서 아예 다른 OS로 갈아타기로 결정했다. 이번에 새로 설치하기로 마음 먹은 OS는 아주 널리 사용되는 linux OS인 Ubuntu다. Ubuntu는 debian계열의 linuxOS로서 현재 Canonical이라는 영국회사에서 배포하는 무료 linuxOS이다. Debian은 내 노트북 OS로 사용하고 있는 OS인데, 굉장히 안정적인 OS로 손꼽힌다. 지금 내가 사용을 해봐도 그렇다. 굉장히 간단하고, 명료하고 좋은 OS임이 분명하다.(거기다 아주 멋진 KDE까지 쓸 수 있다는 점이 정말 좋은 것 같다) 개인적으로 리눅스를 한 5~6번 설치를 해본 것..

Linux 2022.02.06

리눅스에서 Pyenv 사용 방법

이전 포스트에서는 python3 -m venv .env 명령어를 통해서 가상환경 설정하는 방법에 대해서 다뤘었다. 사실 이 방법이 좋긴하지만 문제는 server에서 root 권한 없이 작업을 해야 하는 경우, 그리고 서로 다른 버전의 파이썬을 동시에 사용해야 하는 경우에는 유용한 방법이 아니다. pyenv를 활용하면 서로 다른 파이썬 버전을 설치할 수 있을 뿐 아니라, 디렉토리별로 서로 다른 파이썬 환경을 설정할 수도 있다. 그럼, 설치 방법에 대해서 알아보자. PATH 설정 PATH 개념에 대한 이해가 조금 필요하다. /usr/local/bin:/usr/bin:/bin 보통 리눅스 PATH(경로)는 이런식으로 설정이 되어 있다. 이 PATH는 어떤 프로그램을 실행시킬 때 참고하는 경로라고 이해하면 될 ..

python(파이썬) 2022.02.04

Kruskal-Wallis test

마지막 비모수 검정 방법. Kruskal-wallis test에 대해서 간략히 알아보도록 하자. 이 테스트는 정규성이 가정이 만족되지 않고, 표본의 숫자가 충분하지 않을 때 진행할 수 있는 방법이다. Kruskal-wallis test의 귀무가설은 모든 집단의 분포와 median이 같다는 것이다. Kruskal-wallis 검정에서는 최소 샘플의 수는 6이다. 만일 Kruskal-wallis 검사 후 더 자세한 검정을 진행하게 되는데(마치 ANOVA에서 그랬듯이) 이때 사용되는 test가 Dunn procedure라고 부른다.

Medical Statistics 2022.01.05

Wilcoxon rank-sum test(윌콕슨 순위합 검정)

윌콕슨 랭크 섬 검정 방법에 대해서 알아보도록 하자. 이 방법은 정규성 가정이 만족되지 않을 때 혹은 집단의 규모가 너무나 작을 때, 두 집단의 통계치의 차이가 있는지 여부를 보려고 한다. 보통은 중간값(median)의 차이가 있는지를 보려고 하는데, 정규성 가정이 들어가지 못한다는 점을 감안해야 한다. 예를 들어, 두 집단 점수 차이를 비교하고 싶을 때, 점수가 정규성을 보이지 않는다고 해보자. 그렇다면 우리는 wilcoxon rank-sum test를 진행해볼 수 있을 것이다. wilcoxon rank-sum test의 귀무가설은 무엇일까? 당연히 두 집단 간에 차이가 없다는 것이다. 그렇다면 이것을 어떻게 검정할까? 이게 조금 어려울 수 있는데, 바로 순위를 매기는 것이다. 1)두 집단의 데이터를 ..

Medical Statistics 2021.11.24

비모수 검정에 대해서 알아보자

비모수 검정이란 무엇인가? 비모수 검정이란, 모집단이 정규성을 만족하지 않을 때 사용하는 검정 방법을 말한다. 그렇다면 정규성을 어떻게 확인할 수 있을까? 바로 Kolmogorov-Smirnov test 와 Shapiro-Wilk test 를 통해서다. 이것만으로 충분치 않은데, 동시에 우리는 Q-Q plot과 Histogram을 그려서 확인을 해줘야 한다. 왜냐면 위 검정 방법은 표본수에 굉장히 민감하기 때문이다.

Medical Statistics 2021.11.22

ANOVA에 대해서 알아보자

ANOVA, 이름이 뭔지 모르겠다. Analysis of Variance의 줄임말이다. 한국말로 번역하면 분산 분석이라고 하는데, 보통 3개 이상의 연속형 자료를 비교하고자 할 때 사용하는 방법이다. 예를 들어 A, B, C 집단의 평균 차이가 있는지 검정하고 싶을 때 쓰이는 방법이라고 볼 수 있다. ANOVA의 귀무가설(H0)은 모든 집단의 평균은 같다, 혹은 모든 집단의 검정하고자 하는 통계치가 같다, 이다. 통계적으로 유의해서 만일 귀무가설(H0)을 기각하게 될 경우 사후 분석(post-hoc)을 해줘야 한다. 이를 위해 multiple comparsion을 진행하게 되는데, 주로 여기서 Bonferroni 혹은 Dunnett procedure가 사용된다. ANOVA를 진행할 때 가정이 있는데 다음..

Medical Statistics 2021.11.19