Medical Statistics

연속형 변수와 이산형 변수 요약법

sokki 2021. 10. 24. 07:54

통계에서는 변수라는 개념이 존재한다. 보통 tabular data에서 변수를 사용하게 된다. tabular data란, 표 형식의 정형화된 데이터를 의미한다. 보통 이렇게 생겼다.

환자|변수 ID 성별
1 X1231 180.2 M
2 X2123 171.7 F

여기서 키, 성별이 각각 변수에 해당한다. 그런데 이 변수들에도 종류가 있다. 바로, 연속형 변수이산형 변수이다.

 

그렇다면 각 변수별로 요약을 하고 싶을 때 어떤 방식으로 해야할까? 각 대표값 표시법과 산포도 표시법에 대해서 알아보도록 하자.

 

먼저 연속형 변수는 대표값 표시를 위해서 흔히 평균(mean)을 쓴다. 그렇지만 데이터의 분포가 한쪽으로 치우쳐 있는 경우(skewed) 중위수(median)최빈도(mode)값을 표시해주는 경우도 더러 있다.

산포도를 표시할 때는 분산, 최대값 및 최소값,  사분위 범위(IQR; 25%~75%)를 나타내준다.

 

이산형 변수는 대표값 표시를 위해서 평균을 쓸 수 없다. 위에서 보이듯, 남녀 평균 성별이란게 당연히 있을 수 없기 때문이다. 그래서 이산형 변수의 경우 대표값 표시보다 요약법을 사용하게 되는데, 빈도수, percentage, cross table을 사용해서 나타내는게 일반적이다. 

'Medical Statistics' 카테고리의 다른 글

표준편차(standard deviation)와 표준오차(standard error)  (0) 2021.10.30
신뢰구간 95%의 의미  (0) 2021.10.27
유의수준이란?  (0) 2021.10.26
Outlier에 대해서 알아보자  (0) 2021.10.25
type1 error & type2 error  (0) 2021.10.21