1. 확률과 통계이론
통계 (Statistics) : 표본을 통하여 모집단을 추정하기 위한 학문
빅데이터와 관계
- 표본(=데이터)을 수집하고 분석하는 고전 과정
- 빅데이터의 기반 학문
모집단Population : 정보를 얻고자 하는 목표 대상의 전체 집단
표본Sample : 모집단의 일부이며, 관찰하여 획득한 데이터
모집단과 표본의 관계
- 모집단은 전수조사를 통하여 파악 가능 ⇨ 비효율
- 표본을 통하여 모집단의 정보를 추정
데이터의 유형
- 수치 데이터Numerical Data : 측정하여 숫자의 형태로 획득한 데이터 예) 키, 몸무게, 온습도, 물품의 가격
- 범주 데이터Categorical Data : 데이터의 범주(category)를 사전에 정의하고, 데이터의 특성을 범주에 따라 분류한 데이터 예) 남녀 성별, 직업, 시/군/구 등 거주구역
통계의 분류
- 기술통계Descriptive Statistics : 표본을 수집 ⇨ 정리 및 요약 , 목적 : 수집한 데이터로부터 의미있는 정보를 추출
- 추측통계Inferential Statistics : 표본을 분석 ⇨ 모집단의 정보를 추측 , 목적 : 모집단의 정보 추측의 품질을 높임
통계 자료의 요약
- 도수분포표Frequency Distribution Table
구간/범주별로 표본의 출현 빈도수를 표현한 표
구체적인 수치를 통한 분석 가능
- 히스토그램Histogram
구간/범주별 빈도수를 그림으로 시각화 표현
양(magnitude)을 직관적으로 표현
통계 자료의 분석
- 산술평균 Mean/Average : 표본의 합을 표본의 수로 나눈 값
- 중앙값 Median : 표본을 크기의 순서로 나열하였을 때 중앙에 출현하는 값
- 최빈값 Mode : 표본 중 가장 큰 빈도수로 출현하는 값
- 범위 Range : 표본의 가장 큰 값과 가장 작은 값의 차이
- 표준편차 Standard Deviation : 분산의 제곱근으로 표본의 분포를 나타냄
- 분산 Variance : 산술평균과 표본 간의 차이의 제곱합을 표표본의 수로 나눈 값
확률 (Probability)
- 모집단의 정보가 있음
- 모집단 대비 특정 사건이 발생하는 비율의 표현
확률의 필요성
사건의 일반화, 사건의 경향을 알 수 있음 ⇨ 미래에 대비 가능
확률의 유형
- 단순 확률Simple Probability : 한 가지의 사건이 발생할 확률
- 결합 확률Joint Probability : 두 가지 이상의 사건이 발생할 확률
- 조건부 확률Conditional Probability : 특정 사건이 발생하였다는 전제 하에 또다른 사건이 발생할 확률
통계와 확률의 차이점
*통계
모집단의 정보가 없음 ⇨ 표본으로 모집단 추정
*확률
모집단의 정보가 있음 ⇨ 모집단 대비 특정 사건이 발생하는 비율의 표현
2. 확률 분포
확률 변수 (Random Variable) : 2개 이상의 값을 취할 수 있는 변수
종류
이산확률변수 : 값이 범주화 되어 있는 경우
연속확률변수 : 값이 연속적인 경우
확률 분포 데이터가 출현할 확률의 분포
필요성
- 데이터 출현의 정도를 일반화 ⇨ 미래의 예측 가능
- 표본 내에서 확률 변수의 출현 확률을 바탕으로 모집단에서의 확률 변수의 출현 확률 추정 가능
확률 분포의 종류
- 이산 확률 분포Discrete Probability Distribution
이산 확률 변수가 가지는 확률 분포
확률 질량 함수(Prob. Mass Function) 표현
- 연속 확률 분포Continuous Probability Distribution
연속 확률 변수가 가지는 확률 분포
확률 밀도 함수(Prob. Density Function) 표현
기댓값Expectation : 확률 데이터가 집중되는 경향성을 대표하는 값
분산Variance : 확률변수가 기댓값으로부터 벗어난 정도를 표현
표준편차Standard Deviation : 분산의 제곱근으로, 기댓값 대비 분포 정도 표현
정규 분포Normal Distribution : 평균과 표준편차 기반의 연속 확률 분포
중심 극한정리에 근거⇨ 확률 변수의 평균은 정규 분포에 근접하는 성질
특성
- 절대근사한다.
- 평균과 표준편차가 주어지면 ⇨ 엔트로피를 최대화
- 정규 분포 곡선은 평균 대비 좌우 대칭
- 중앙값의 확률이 최대
3. 모집단의 추정
추정 이론 : 통계학과 신호처리의 한 분야로, 표본을 바탕으로 인자(parameter)를 추정하는 학문
필요성 : 한정된 데이터(=표본)를 바탕으로 최적의 추정 방법론(=추정량)을 적용 가능
추정 방법론 / 추정량 Estimation Methodology / Estimator
- MLE : Maximum Likelihood Estimation : 사전 정보가 없는 상황에서 성능을 최대화하는 인자 추정 방법
- MAP : Maximum A Posteriori : 사전 정보나 그 가정을 바탕으로 성능을 최대화하는 인자 추정 방법
- 최소제곱법 Least Squares : 사전 정보의 오차 제곱을 최소화하는 인자 추정 방법
- MMSE : Minimum Mean Squared Error : 사전 정보의 평균 제곱근 오차(MSE)를 최소화하는 인자 추정 방법
- 칼만 필터 Kalman Filter : 이상 데이터가 포함된 선형 모집단의 인자를 추정하는 방법
모집단의 추정 Estimating Population
- 표본의 정보를 바탕으로 추정 방법론을 적용하여 모집단의 정보(평균, 비율)를 정확하게 추정
- 추정 이론(Estimation Theory)의 한 갈래
필요성
- 모집단을 전수조사하는 경우 ⇨ 분석 경제성 하락↓
- 표본을 바탕으로 모집단을 정확하게 추정하는 경우⇨ 분석 비용 절약 가능, 분석 효율성 향상
분산의 종류
- 모 분산Population Variance : 모집단으로부터 구한 분산
- 표본 분산Sample Variance : 표본으로부터 구한 분산
표준편차의 종류
모 표준편차Population Std. Dev. : 모집단으로부터 구한 표준편차
표본 표준편차Sample Std. Dev. : 표본으로부터 구한 표준편차
모집단 평균 추정Estimating Population Mean
신뢰구간 추정
모집단 비율 추정Estimating Population Ratio
신뢰구간 추정
'빅데이터' 카테고리의 다른 글
[빅데이터 8] 데이터 통계 분석 (회귀분석, 시계열 데이터) (0) | 2021.09.28 |
---|---|
[빅데이터 7] 데이터 통계 분석 (분산분석 / 상관분석) (0) | 2021.09.28 |
[빅데이터 5] 빅데이터 분석 도구 R 문법 (0) | 2021.09.27 |
[빅데이터 4] 빅데이터 분석 도구 R (0) | 2021.09.26 |
[빅데이터 3] 빅데이터 저장소 (0) | 2021.09.26 |
댓글