분류 전체보기 46

신뢰구간 95%의 의미

신뢰구간 95%가 의미하는 바를 적고자 한다. 예를 들어 우리가 한 반의 모든 학생들의 키를 측정했고 평균값을 얻었는데 176cm가 나왔다고 해보자. 그렇다면 이 176cm는 어느 곳에서든 적용될 수 있는 신뢰할 수 있는 값일까? 다시 말해, 다른 반에서 가서 키를 측정했을 때 또 다시 176cm가 나올 것인가 하는 말이다. Confidence Interval Concept 이제 문제는 조금 복잡해진다. 단순히 평균을 재는 것으로 끝나지 않기 때문이다. 만일 우리가 측정한 평균값이 정말 신뢰할만한 값인지 확인하고 싶다면 어떻게 해야 할까? 이런 질문에 답을 하고자 신뢰구간이라는 개념을 사용한다. 쉽게 말하면 진짜 값이 95%의 확률로 존재하는 구간을 뜻한다. 신뢰구간이 좁으면 좁을 수록 우리는 값을 제대..

Medical Statistics 2021.10.27

유의수준이란?

유의수준 알파(α)란 귀무가설(H0)이 옳음에도 불구하고 연구자가 잘못하여 대립가설을 채택할 오류. 즉, 1종 오류를 범할 확률을 의미한다. **여기서 귀무가설은 세웠던 가설을 무(無)로 돌리는 가설을 말한다. 예를 들어, 우리의 가설이 A약을 사용하는 것이 B약을 사용하는 것보다 낫다, 라면 귀무가설은 A약을 사용하는 것이 B약을 사용하는 것에 비해 우위가 없다가 된다. 그러므로 유의수준이 0.05보다 작다는 뜻은 1종 오류를 범할 확률이 감소한다는 뜻이다.

Medical Statistics 2021.10.26

Outlier에 대해서 알아보자

통계에서는 outlier라는 개념이 있다. 한국말로는 데이터의 분포에서 굉장히 다르게 나타나는 값을 뜻한다. outlier가 중요한 이유는 집계 통계에 있어서 심한 왜곡을 가해줄 수 있기 때문이다. 예를 들어 우리가 가진 데이터가 다음과 같다고 해보자. id 키 1 160 2 162 3 170 4 180 5 175 6 340 위의 표를 보면 사람들의 키를 나타내는 표에서 평균이 197.8333 이 나오는 것을 볼 수 있다. 그러나 만일 6번 사람이 제외 된다면 평균은 169.4로 바뀐다. 이처럼 변수의 값들 중에서 특이한 값들을 일컬어 outlier라고 부른다. 지금까지는 컨셉에 대해서 알아보았고, 그렇다면 어떻게 구체적으로 이것을 정의할 수 있을까? 보통은 IQR에서 Q3로부터 ±1.5IQR 벗어나면 ..

Medical Statistics 2021.10.25

연속형 변수와 이산형 변수 요약법

통계에서는 변수라는 개념이 존재한다. 보통 tabular data에서 변수를 사용하게 된다. tabular data란, 표 형식의 정형화된 데이터를 의미한다. 보통 이렇게 생겼다. 환자|변수 ID 키 성별 1 X1231 180.2 M 2 X2123 171.7 F 여기서 키, 성별이 각각 변수에 해당한다. 그런데 이 변수들에도 종류가 있다. 바로, 연속형 변수와 이산형 변수이다. 그렇다면 각 변수별로 요약을 하고 싶을 때 어떤 방식으로 해야할까? 각 대표값 표시법과 산포도 표시법에 대해서 알아보도록 하자. 먼저 연속형 변수는 대표값 표시를 위해서 흔히 평균(mean)을 쓴다. 그렇지만 데이터의 분포가 한쪽으로 치우쳐 있는 경우(skewed) 중위수(median)나 최빈도(mode)값을 표시해주는 경우도 더..

Medical Statistics 2021.10.24

type1 error & type2 error

우리는 흔히 어떤 검사에 대해서 type1 error와 type2 error에 대한 얘기를 듣게 된다. 이 개념들에 대해서 알아보자. 먼저 cofusion matrix에 대해서 알아야 한다. predictions | True value Positive Negative Positive True Positive False Positive(type1 error) Negative False Negative(type2 error) True Negative type1 error 위와 같은 positive, negative 분류에서의 결과가 주어졌을 때 실제로는 Negative이지만 Positive으로 분류한 경우를 말한다. 한국말로는 1종 오류. type2 error False Negative의 결과를 의미한다. ..

Medical Statistics 2021.10.21

Data Scientist 소개

내 직업에 대해서 소개를 하고자 한다. 사실 나는 대학원생이다. 연구하고 있는 분야는 의료 분야에서의 데이터 처리와 모델링, 변수 선정 등 데이터 관련된 업무들을 주로 하고 있다. 뭐, 쉽게 얘기해 데이터 사이언티스트라는 말이다. 데이터 사이언티스트를 소개하고자 한다. 내 생각에는 데이터 사이언티스트란 굉장히 쉽게 정의하기 어려운 직업이다. 왜냐하면 같은 이름을 가직 있다고 하더라도 실제로 현장에 나가보면 하는 일이 저마다 조금씩 다르기 때문이고, 이것을 하나로 통칭하기가 쉽지 않다. 용어들도 신용어들도 있는 것 같다. 그래서 나는 나만의 쉬운 정의를 제시하고 싶다. 특별히 데이터 사이언티스트로 입문하고자 하는 분들을 위해서다. 데이터 사이언티스트(쉬운 정의) 데이터만을 갖고 새로운 가치를 창출 할 수 ..

Scribble 2021.10.21