본문 바로가기
반응형

빅데이터11

R 프로그램 설치 & R Studio 설치 R 프로그램 설치 https://cran.r-project.org/ 이 링크를 들어가서 또는 cran이라고 검색 여기서 윈도우 or 맥 선택 여기서 R은 처음이라고 선택해주면 다운 시작! 그 뒤로 한국어로 설정하고 기타 바탕화면에 설치 등 무난한 설치 과정을 거쳐 이렇게 R설치 완료 R Studio 설치 https://www.rstudio.com/ R studio 검색 or 위 링크 타고 들어가서 이렇게 있는데 우리는 FREE인 왼쪽 오픈 소스 다운 주의할 점!! D에 설치해보니까 R Studio가 경로를 못 잡는다!! 강제로 잡아서 해봤는데 오류만 남,,, 따라서 그냥 설치경로는 건들지 말고 얌전히 C에 설치하자. 그럼 요렇게 실행 완료~~ 2021. 11. 3.
[빅데이터 10] 정형 데이터 마이닝 1. 분류(Classification) 분석 분류 (Classification) 데이터가 어느 그룹에 속하는지 예측하는 데에 사용하는 데이터 기법 군집화(clustering)와 유사하나, 분류는 각 계급이 어떻게 정의되는지 미리 알아야 함 (군집화와 가장 큰 차이) 분류 방법론 k 최근접 이웃 K-nearest Neighborhood : 인접한 k개의 이웃을 통하여 데이터가 소속되는 그룹을 결정 의사결정나무Decision Tree : 어떤 항목에 대한 관측값과 목표값을 연결시키기 위한 트리 구조를 결정 베이지안 정리Bayesian Theorem : 불확실성 하에서 분류 문제를 조건부 확률의 방법으로 해결하는 방법 인공 신경망Artificial Neural Networks : 생물학의 신경망에서 영감을 얻.. 2021. 10. 5.
[빅데이터 9] 데이터 마이닝 데이터 마이닝 데이터 마이닝 Data Mining - 대규모로 저장된 데이터 안에서 체계적이고 자동적인 통계적 규칙이나 패턴을 찾아내는 작업 - KDD (Knowledge-Discovery in Databases) - 빅데이터 시대의 의미 : 대규모 데이터로부터 의미를 찾아내는 데 있어 그 중요도가 급증 데이터 마이닝의 적용 분야 (이 외에도 많음) 분류classification : 일정한 집단에 대한 특정 정의를 통하여 분류 및 구분의 형태를 추론하는 분야 연관성association : 동시에 발생한 사건 간의 관계를 정의하는 분야 연속성sequencing : 특정 기간에 걸쳐 발생하는 관계를 규명, 연관성 분석과 달리 기간 특성을 고려 예측forecasting : 빅데이터 집합 내의 패턴을 기반으로 .. 2021. 9. 28.
[빅데이터 8] 데이터 통계 분석 (회귀분석, 시계열 데이터) 2. 회귀분석 회귀분석 (regression analysis) - 회귀분석은 관찰된 연속형 변수들 간의 모형을 구한 뒤 적합도를 측정하는 분석 방법 회귀분석의 가정* 오차항은 모든 독립변수에 대하여 동일 분산을 가짐 오차항의 평균(기댓값)은 0이다. 수집된 데이터의 확률 분포는 정규분포를 이룬다. 독립변수 간에는 상관관계가 없어야 한다. 시간에 따라 수집된 데이터는 잡음 영향이 없다. 3. 시계열 데이터의 분석 시계열 데이터 (Time Series) : 일정 간격으로 배치된 데이터의 수열 시계열 해석(Time Series Analysis)이란? 시계열을 해석하고 이해하는 방법 시계열 예측(Time Series Prediction)이란? 시계열 데이터를 기반으로 수학적 모델을 구축하고, 미래에 발생하는 시.. 2021. 9. 28.
[빅데이터 7] 데이터 통계 분석 (분산분석 / 상관분석) 1.분산분석과 상관분석 분산분석 (ANOVA = ANalysis Of VAriance) : 통계학에서 두 개 이상의 다수의 집단을 비교할 때 F분포를 이용하여 가설검정을 하는 방법 : 역사 - 통계학자 로날드 피셔 (R.A. Fisher)에 의해 1920년대 ~ 1930년대에 걸쳐 작성 F분포 : 분산의 비교를 통하여 얻어지는 분포 비율 : F = (군간변동) / (군내변동) : 특성 집단 간의 동질성을 가정하고 분석 군내변동이 크면 → 집단 간 평균차이 확인 어려움 분산 차이가 큰 경우 → 유발 원인 제거 필요 F분포의 가정 : 정규성, 분산의 동질성, 관찰의 동질성 가정 1. 정규성 가정 모집단에서 변인 Y는 정규분포를 따른다. 모집단에서 변인 Y의 평균은 다를 수 있다. 2. 분산의 동질성 가정 Y.. 2021. 9. 28.
728x90
반응형