삶의 공유
[빅데이터 분석기사 준비] 통계학이란 ? 본문
통계학 이란?
나무위키에 나오는 사전 정의를 찾아보면 다음과 같습니다.
표준국어대사전에 따르면 사회 현상을 통계에 의하여 관찰, 연구하는 학문. 불확실성에 대한 논리를 부여하는 학문으로 경험과학의 한 분야이자 대부분 학문의 기초를 담당한다.
한국 통계법에 의하면 통계작성기관이 정부정책의 수립·평가 또는 경제·사회현상의 연구·분석 등에 활용할 목적으로 산업·물가·인구·주택·문화·환경 등 특정 집단이나 대상 등에 관하여 직접 또는 다른 기관이나 법인, 단체 등에 위임 위탁하여 작성하는 수량적 정보(통계법 제3조 제1호)로서 통계는 주로 숫자(numbers)를 의미하는 것으로 되어있다.
통계학에 대한 여러 정의가 있는데 모두 축약하면 자료를 연구하는 학문, 데이터를 분석하는 학문으로 압축할 수 있다.
자 이제 자세히 알아 보도록 하겠습니다.
데이터 분석을 위해서는 분석하기 위한 집단이 있습니다. 이를 보통 모집단이라고 부릅니다.
- 모집단 : 연구의 대상이 되는 모든 개체들을 모은 집합
- 표본 : 모집단의 일부분의 관측 값들
일반적으로 시간적, 공간적 제약으로 인해 모집단 전체를 대상으로 한 분석은 불가능 하여, 이를 분석 하기 위해 모집단에서 일부를 추출하여 표본이라는 집단을 만들어 이 집단을 분석 하여 모집단을 추정 하는 데, 이 때 사용 하는 방법 통계학이라고 말할수 있습니다.
표본에서 추정, 추론하는 방법에서 활용되는 것이 바로 통계학이라고 말씀드렸는데요,
바로 표본을 통해서 모수, 통계량, 추정량을 확인하여 모집단을 추정 추론 하는 방법이라고 볼수 있습니다.
통계형 자료의 종류
통계형 자료의 종류는 다음과 같습니다.
1. 수치형 (양적 자료)
- 연속형 (eg. 몸무게)
- 이산형 (eg. 전화통화수)
2. 범주형 (질적 자료)
- 순위형 (eg. 학점)
- 명목형 (eg. 성별)
여기서 변수가 수치형, 범주형 유형인지에 따라 분석 방법이 달라지게 됩니다. 뒤에서 자세히 다루겠지만, 먼저 예시만 드리면
아래와 같습니다.
자료의 요약 - 데이터의 시각화
또한 표본집단이라고 하더라도, 데이터의 양이 너무 많아지면 한눈에 보이지 않아 데이터가 어떻게 분포가 되어있는지를 알기 어려울때가 많습니다.
이를 위해 시각화 라는 작업을 해주는데요, 데이터의 분포나 통계적 요약 데이터를 보여 주기도 합니다.
앞서 확인 했던, 통계적 자료의 유형에 따라 시각화 하는 방법이 달라지는데요
1. 범주형 자료
- 도수 분포표
: 도수 분포표는 영어로 Frequency table입니다. 직역하자면 빈도표입니다. 즉 도수 분포표란 자료의 분표를 몇 개의 구간으로 나누고,
나누어진 각 구간에 속하는 자료가 몇 개인지 정리한 표입니다.
- 막대 / 원형 그래프
자료의 요약 - 수치화
모집단의 데이터들을 수치화 하여 현재 데이터 형태에 대해서 직관적으로 알 수 있습니다.
※ 모집단 개체의 수 : N
1. 중심 경향 값 수치화
- 평균
- 중앙값
- 최빈 값
2. 산포도 관련 수치화
- 분산
- 사분위수 범위
: 전체 관측값을 크기 순위로 정렬했을때 중앙에 위치한 50%의 관측치가 가지는 범위
3. 정규 분포
4. 분포도
- 왜도 : 분포의 비대칭 정도
- 첨도 : 분포의 꼬리 부분의 비중에 대한 측도