본문 바로가기
빅데이터

[빅데이터 6] 데이터 통계 분석 (확률/통계, 확률 분포, 모집단의 추정)

by 밍굴뒹굴 2021. 9. 28.
반응형

 

 


 

1. 확률과 통계이론

 

 

 

통계 (Statistics) : 표본을 통하여 모집단을 추정하기 위한 학문

 

빅데이터와 관계

  • 표본(=데이터)을 수집하고 분석하는 고전 과정
  • 빅데이터의 기반 학문

 

모집단Population : 정보를 얻고자 하는 목표 대상의 전체 집단

표본Sample : 모집단의 일부이며, 관찰하여 획득한 데이터

 

모집단과 표본의 관계

  • 모집단은 전수조사를 통하여 파악 가능 ⇨ 비효율
  • 표본을 통하여 모집단의 정보를 추정

 

데이터의 유형

  • 수치 데이터Numerical Data : 측정하여 숫자의 형태로 획득한 데이터 예) 키, 몸무게, 온습도, 물품의 가격
  • 범주 데이터Categorical Data : 데이터의 범주(category)를 사전에 정의하고, 데이터의 특성을 범주에 따라 분류한 데이터  예) 남녀 성별, 직업, 시/군/구 등 거주구역

 

통계의 분류

  • 기술통계Descriptive Statistics : 표본을 수집 ⇨ 정리 및 요약 ,   목적 : 수집한 데이터로부터 의미있는 정보를 추출
  • 추측통계Inferential Statistics :   표본을 분석 ⇨ 모집단의 정보를 추측 ,   목적 : 모집단의 정보 추측의 품질을 높임

 

통계 자료의 요약

  • 도수분포표Frequency Distribution Table

          구간/범주별로 표본의 출현 빈도수를 표현한 표

          구체적인 수치를 통한 분석 가능

  • 히스토그램Histogram

          구간/범주별 빈도수를 그림으로 시각화 표현

          양(magnitude)을 직관적으로 표현

 

 

통계 자료의 분석

  • 산술평균 Mean/Average : 표본의 합을 표본의 수로 나눈 값
  • 중앙값 Median : 표본을 크기의 순서로 나열하였을 때 중앙에 출현하는 값
  • 최빈값 Mode : 표본 중 가장 큰 빈도수로 출현하는 값
  • 범위 Range : 표본의 가장 큰 값과 가장 작은 값의 차이
  • 표준편차 Standard Deviation : 분산의 제곱근으로 표본의 분포를 나타냄
  • 분산 Variance : 산술평균과 표본 간의 차이의 제곱합을 표표본의 수로 나눈 값

 

확률 (Probability)

  • 모집단의 정보가 있음
  • 모집단 대비 특정 사건이 발생하는 비율의 표현

 

확률의 필요성

사건의 일반화, 사건의 경향을 알 수 있음 ⇨ 미래에 대비 가능

 

확률의 유형

  • 단순 확률Simple Probability : 한 가지의 사건이 발생할 확률
  • 결합 확률Joint Probability : 두 가지 이상의 사건이 발생할 확률
  • 조건부 확률Conditional Probability : 특정 사건이 발생하였다는 전제 하에 또다른 사건이 발생할 확률

 

통계와 확률의 차이점

*통계

모집단의 정보가 없음 ⇨ 표본으로 모집단 추정

 

*확률

모집단의 정보가 있음 ⇨ 모집단 대비 특정 사건이 발생하는 비율의 표현

 

 

 

2. 확률 분포

 

확률 변수 (Random Variable) : 2개 이상의 값을 취할 수 있는 변수

 

종류

이산확률변수 : 값이 범주화 되어 있는 경우

연속확률변수 : 값이 연속적인 경우

 

 

확률 분포 데이터가 출현할 확률의 분포

필요성

  • 데이터 출현의 정도를 일반화 ⇨ 미래의 예측 가능
  • 표본 내에서 확률 변수의 출현 확률을 바탕으로 모집단에서의 확률 변수의 출현 확률 추정 가능

 

확률 분포의 종류

  • 이산 확률 분포Discrete Probability Distribution

          이산 확률 변수가 가지는 확률 분포

          확률 질량 함수(Prob. Mass Function) 표현

  • 연속 확률 분포Continuous Probability Distribution

          연속 확률 변수가 가지는 확률 분포

          확률 밀도 함수(Prob. Density Function) 표현

 

 

 

기댓값Expectation : 확률 데이터가 집중되는 경향성을 대표하는 값

분산Variance : 확률변수가 기댓값으로부터 벗어난 정도를 표현

표준편차Standard Deviation : 분산의 제곱근으로, 기댓값 대비 분포 정도 표현

 

 

 

정규 분포Normal Distribution : 평균과 표준편차 기반의 연속 확률 분포

중심 극한정리에 근거⇨ 확률 변수의 평균은 정규 분포에 근접하는 성질

 

특성

  • 절대근사한다.
  • 평균과 표준편차가 주어지면 ⇨ 엔트로피를 최대화
  • 정규 분포 곡선은 평균 대비 좌우 대칭
  • 중앙값의 확률이 최대

 

3. 모집단의 추정

 

추정 이론 : 통계학과 신호처리의 한 분야로, 표본을 바탕으로 인자(parameter)를 추정하는 학문

필요성 : 한정된 데이터(=표본)를 바탕으로 최적의 추정 방법론(=추정량)을 적용 가능

 

 

추정 방법론 / 추정량 Estimation Methodology / Estimator

  • MLE : Maximum Likelihood Estimation : 사전 정보가 없는 상황에서 성능을 최대화하는 인자 추정 방법
  • MAP : Maximum A Posteriori : 사전 정보나 그 가정을 바탕으로 성능을 최대화하는 인자 추정 방법
  • 최소제곱법 Least Squares : 사전 정보의 오차 제곱을 최소화하는 인자 추정 방법
  • MMSE : Minimum Mean Squared Error : 사전 정보의 평균 제곱근 오차(MSE)를 최소화하는 인자 추정 방법
  • 칼만 필터 Kalman Filter : 이상 데이터가 포함된 선형 모집단의 인자를 추정하는 방법

 

 

모집단의 추정 Estimating Population

  • 표본의 정보를 바탕으로 추정 방법론을 적용하여 모집단의 정보(평균, 비율)를 정확하게 추정
  • 추정 이론(Estimation Theory)의 한 갈래

필요성

  • 모집단을 전수조사하는 경우 ⇨ 분석 경제성 하락↓
  • 표본을 바탕으로 모집단을 정확하게 추정하는 경우⇨ 분석 비용 절약 가능, 분석 효율성 향상

 

 

분산의 종류

  • 모 분산Population Variance : 모집단으로부터 구한 분산
  • 표본 분산Sample Variance : 표본으로부터 구한 분산

 

표준편차의 종류

모 표준편차Population Std. Dev. : 모집단으로부터 구한 표준편차

표본 표준편차Sample Std. Dev. : 표본으로부터 구한 표준편차

 

 

 

모집단 평균 추정Estimating Population Mean

신뢰구간 추정

 

 

모집단 비율 추정Estimating Population Ratio

신뢰구간 추정

 

반응형

댓글