1.분산분석과 상관분석
분산분석 (ANOVA = ANalysis Of VAriance)
: 통계학에서 두 개 이상의 다수의 집단을 비교할 때 F분포를 이용하여 가설검정을 하는 방법
: 역사 - 통계학자 로날드 피셔 (R.A. Fisher)에 의해 1920년대 ~ 1930년대에 걸쳐 작성
F분포
: 분산의 비교를 통하여 얻어지는 분포 비율
: F = (군간변동) / (군내변동)
: 특성
- 집단 간의 동질성을 가정하고 분석
- 군내변동이 크면 → 집단 간 평균차이 확인 어려움
- 분산 차이가 큰 경우 → 유발 원인 제거 필요
F분포의 가정 : 정규성, 분산의 동질성, 관찰의 동질성 가정
- 1. 정규성 가정
모집단에서 변인 Y는 정규분포를 따른다.
모집단에서 변인 Y의 평균은 다를 수 있다.
- 2. 분산의 동질성 가정
Y의 모집단 분산은 각 모집단에서 동일하다.
- 3. 관찰의 독립성 가정
각 모집단에서 크기가 서로 다른 표본이 독립적으로 표집된다.
F분포의 계산
- 모집단 분산의 추정치 비율을 계산
- F값은 이론적 확률분포인 F분포를 따름
분산분석의 모형
- 고정효과 모형 : 수준의 선택이 기술적으로 정해지고 각 수준이 기술적 의미를 가진 효과 인자
- 무선효과 모형 : 수준의 선택이 임의로 이루어지며 각 수준이 기술적 의미를 가지지 않은 효과 인자
- 혼합효과 모형 : 고정효과 인자와 무선효과 인자가 함께 사용된 경우
분산분석의 종류
- 일원분산분석 one-way ANOVA : 종속변인이 1개이며 독립변인 집단도 1개
- 다원변량분산분석 MANOVA : 독립변인의 수가 2개 이상일 때 집단 비교
- 공분산분석 ANCOVA : 두 개 이상 종속변인이 관계된 상황에 적용
- 이원분산분석 two-way ANOVA : 특정한 독립변인 위주로 분석하고 다른 독립변인은 통제변수로 설정 분석
상관분석
두 변수 간의 선형적 관계를 분석하는 방법
두 변수는 독립적이거나 상관될 수 있다.
두 변수 간의 강도를 상관관계라고 함(Correlation, Correlation coefficient)
상관분석의 가정 : 선형성, 정규분포성, 무선독립표본, 동변량성을 가정
- 선형성 : 두 변인 X, Y의 직선적인 정도, 선점도를 사용
- 정규분포성 : X의 값에 관계없이 Y의 흩어진 정도가 같은 것이 분산성의 반대어
- 무선독립표본 : 두 변인의 측정치 분포는 모집단에서 정규분포
- 동변량성 : 모집단에서 표본을 추출할 때 표본대상이 확률적으로 선정되는 것
상관분석의 분석방법
- 1. 피어슨 상관계수 Pearson Correlation Coefficient
두 변수 간의 관련성을 구하기 위하여 보편적으로 이용
r = (x와 Y의 변화 정도) / (X와 Y가 각각 변하는 정도)
r의 값에 따라 다음과 같이 해석
* +1 = X와 Y가 완전 동일
* 0 = X와 Y가 전혀 다른 경우
* -1 = X와 Y가 반대방향으로 동일
r^2 = 결정계수 (coefficient of determination)
- 2. 스피어만 상관 계수 Spearman Correlation Coefficient
데이터가 서열척도(순위값)인 경우의 상관계수 (순서가 있다고 가정한 다음 계산)
데이터를 작은 것부터 차례로 순위를 매겨 서열 순서로 바꾼 뒤 순위를 이용하여 상관계수 계산
자료에 이상점이 있거나 표본크기가 작을 때 유용
상관계수값에 따른 분류
+1 = 두 변수 안의 순위가 완전히 일치
-1 = 두 변수 안의 순위가 역순인 경우
- 3. 크론바흐 알파 계수 신뢰도 Cronbach’s Alpha
검사의 내적 일관성을 나타내는 a값을 계산
한 검사 내에서 변수들 간의 평균상관관계에 근거하여 검사문항들이 동질적 요소로 구성되어 있는지를 분석하는 방법
동일한 경우에는 결과가 비슷하며, 동일하지 않은 경우에는 결과가 상이
으 너무 졸리니까 오늘은 여기까지....
코딩할 때가 좋은 거였다...후욱후욱 잠와
'빅데이터' 카테고리의 다른 글
[빅데이터 9] 데이터 마이닝 (0) | 2021.09.28 |
---|---|
[빅데이터 8] 데이터 통계 분석 (회귀분석, 시계열 데이터) (0) | 2021.09.28 |
[빅데이터 6] 데이터 통계 분석 (확률/통계, 확률 분포, 모집단의 추정) (0) | 2021.09.28 |
[빅데이터 5] 빅데이터 분석 도구 R 문법 (0) | 2021.09.27 |
[빅데이터 4] 빅데이터 분석 도구 R (0) | 2021.09.26 |
댓글