Outlier에 대해서 알아보자

Medical Statistics

Outlier에 대해서 알아보자

sokki 2021. 10. 25. 17:05

통계에서는 outlier라는 개념이 있다. 한국말로는 데이터의 분포에서 굉장히 다르게 나타나는 값을 뜻한다.

outlier가 중요한 이유는 집계 통계에 있어서 심한 왜곡을 가해줄 수 있기 때문이다.

예를 들어 우리가 가진 데이터가 다음과 같다고 해보자.

id	키
1	160
2	162
3	170
4	180
5	175
6	340

위의 표를 보면 사람들의 키를 나타내는 표에서 평균이 197.8333 이 나오는 것을 볼 수 있다. 그러나 만일 6번 사람이 제외 된다면 평균은 169.4로 바뀐다. 이처럼 변수의 값들 중에서 특이한 값들을 일컬어 outlier라고 부른다. 지금까지는 컨셉에 대해서 알아보았고, 그렇다면 어떻게 구체적으로 이것을 정의할 수 있을까?

보통은 IQR에서 Q3로부터 ±1.5IQR 벗어나면 outlier라고 본다. 하지만 이것도 정의하기 나름이다. 그렇다면 여기서는 어떨까? **참고로, IQR이란 1분위수(Q1)와 3분위수(Q3)의 차를 말한다.(IQR = q3 - q1)

import numpy as np

height = np.array([160,162,170,180,175,340])
q1 = np.percentile(height, 25)
q3 = np.percentile(height, 75)

IQR = q3 - q1 
outlier_step = 1.5*IQR

maximum_number4outlier = q3 + outlier_step

우리는 maximum number를 200.875가 나오므로 340은 outlier라고 간주하게 된다.

그렇지만 꼭 outlier라고 해서 버리는 것이 맞는지는 어떤 데이터냐에 따라 달라질 수도 있는 것이니, 그것은 domain knowledge를 활용해야 하는 부분이라 하겠다.

그렇다면 오늘은 여기까지다!

'Medical Statistics' 카테고리의 다른 글

표준편차(standard deviation)와 표준오차(standard error) (0)	2021.10.30
신뢰구간 95%의 의미 (0)	2021.10.27
유의수준이란? (0)	2021.10.26
연속형 변수와 이산형 변수 요약법 (0)	2021.10.24
type1 error & type2 error (0)	2021.10.21

현재글Outlier에 대해서 알아보자

Life is a mystery

데이터 사이언스/인공지능 이야기 그리고 사는 이야기

카테고리형 변수, logging 하는 법, 알고리즘 복잡도 뜻, Windows PATH 설정, prompt engineering, Manel Haenzel, 윈도우즈 PATH 설정, 파이썬 error, 리눅스 경로 설정, 미국 유학, 리눅스에 아나콘다 설치, arch linux 업데이트, ChatGPT, 컴퓨터 공학 유학, 리눅스 PATH 설정, cs 유학, 데이터 분석가 되려면, 컴퓨터공학 박사, 파이썬 가상환경, 리눅스,

Today :
Yesterday :

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Life is a mystery