본문 바로가기
빅데이터

[빅데이터 7] 데이터 통계 분석 (분산분석 / 상관분석)

by 밍굴뒹굴 2021. 9. 28.
반응형

1.분산분석과 상관분석

 

분산분석 (ANOVA = ANalysis Of VAriance)

 : 통계학에서 두 개 이상의 다수의 집단을 비교할 때 F분포를 이용하여 가설검정을 하는 방법

 : 역사 - 통계학자 로날드 피셔 (R.A. Fisher)에 의해 1920년대 ~ 1930년대에 걸쳐 작성

 

 

F분포

 : 분산의 비교를 통하여 얻어지는 분포 비율

 : F = (군간변동) / (군내변동)

 : 특성

  • 집단 간의 동질성을 가정하고 분석
  • 군내변동이 크면 → 집단 간 평균차이 확인 어려움
  • 분산 차이가 큰 경우 → 유발 원인 제거 필요

 

F분포의 가정 : 정규성, 분산의 동질성, 관찰의 동질성 가정

  • 1. 정규성 가정

         모집단에서 변인 Y는 정규분포를 따른다.

         모집단에서 변인 Y의 평균은 다를 수 있다.

  • 2. 분산의 동질성 가정

         Y의 모집단 분산은 각 모집단에서 동일하다.

  • 3. 관찰의 독립성 가정

         각 모집단에서 크기가 서로 다른 표본이 독립적으로 표집된다.

 

 

F분포의 계산

  • 모집단 분산의 추정치 비율을 계산
  • F값은 이론적 확률분포인 F분포를 따름

 

 

분산분석의 모형

  • 고정효과 모형 : 수준의 선택이 기술적으로 정해지고 각 수준이 기술적 의미를 가진 효과 인자
  • 무선효과 모형 : 수준의 선택이 임의로 이루어지며 각 수준이 기술적 의미를 가지지 않은 효과 인자
  • 혼합효과 모형 : 고정효과 인자와 무선효과 인자가 함께 사용된 경우

 

 

분산분석의 종류

  • 일원분산분석 one-way ANOVA : 종속변인이 1개이며 독립변인 집단도 1개
  • 다원변량분산분석 MANOVA : 독립변인의 수가 2개 이상일 때 집단 비교
  • 공분산분석 ANCOVA : 두 개 이상 종속변인이 관계된 상황에 적용
  • 이원분산분석 two-way ANOVA : 특정한 독립변인 위주로 분석하고 다른 독립변인은 통제변수로 설정 분석

 

상관분석 

         두 변수 간의 선형적 관계를 분석하는 방법

         두 변수는 독립적이거나 상관될 수 있다.

         두 변수 간의 강도를 상관관계라고 함(Correlation, Correlation coefficient)

 

 

상관분석의 가정 :  선형성, 정규분포성, 무선독립표본, 동변량성을 가정

  • 선형성 : 두 변인 X, Y의 직선적인 정도, 선점도를 사용
  • 정규분포성 : X의 값에 관계없이 Y의 흩어진 정도가 같은 것이 분산성의 반대어
  • 무선독립표본 : 두 변인의 측정치 분포는 모집단에서 정규분포
  • 동변량성 : 모집단에서 표본을 추출할 때 표본대상이 확률적으로 선정되는 것

 

 

상관분석의 분석방법 

 

  • 1. 피어슨 상관계수 Pearson Correlation Coefficient

         두 변수 간의 관련성을 구하기 위하여 보편적으로 이용

         r = (x와 Y의 변화 정도) / (X와 Y가 각각 변하는 정도)

 

         r의 값에 따라 다음과 같이 해석

           * +1 =  X와 Y가 완전 동일

           * 0 =  X와 Y가 전혀 다른 경우

           * -1 =  X와 Y가 반대방향으로 동일

 

          r^2 = 결정계수 (coefficient of determination)

 

  • 2. 스피어만 상관 계수 Spearman Correlation Coefficient

         데이터가 서열척도(순위값)인 경우의 상관계수 (순서가 있다고 가정한 다음 계산)

         데이터를 작은 것부터 차례로 순위를 매겨 서열 순서로 바꾼 뒤 순위를 이용하여 상관계수 계산

         자료에 이상점이 있거나 표본크기가 작을 때 유용

 

         상관계수값에 따른 분류

         +1 = 두 변수 안의 순위가 완전히 일치

         -1 = 두 변수 안의 순위가 역순인 경우

 

 

  •  3. 크론바흐 알파 계수 신뢰도 Cronbach’s Alpha

         검사의 내적 일관성을 나타내는 a값을 계산

         한 검사 내에서 변수들 간의 평균상관관계에 근거하여 검사문항들이 동질적 요소로 구성되어 있는지를 분석하는 방법

         동일한 경우에는 결과가 비슷하며, 동일하지 않은 경우에는 결과가 상이

 


으 너무 졸리니까 오늘은 여기까지....

코딩할 때가 좋은 거였다...후욱후욱 잠와

반응형

댓글