[빅데이터 10] 정형 데이터 마이닝

1. 분류(Classification) 분석

분류 (Classification)

데이터가 어느 그룹에 속하는지 예측하는 데에 사용하는 데이터 기법

군집화(clustering)와 유사하나, 분류는 각 계급이 어떻게 정의되는지 미리 알아야 함 (군집화와 가장 큰 차이)

분류 방법론

k 최근접 이웃 K-nearest Neighborhood : 인접한 k개의 이웃을 통하여 데이터가 소속되는 그룹을 결정
의사결정나무Decision Tree : 어떤 항목에 대한 관측값과 목표값을 연결시키기 위한 트리 구조를 결정
베이지안 정리Bayesian Theorem : 불확실성 하에서 분류 문제를 조건부 확률의 방법으로 해결하는 방법
인공 신경망Artificial Neural Networks : 생물학의 신경망에서 영감을 얻은 방법론으로, 시냅스를 모델링하여 모델 구축
지지 벡터 기계Support Vector Machines : 주어진 데이터 집합을 바탕으로 새로운 데이터 소속 그룹을 판단하는 모델 구축

- k 최근접 이웃 K-nearest Neighborhood

개요 : 인접한 k개의 이웃의 정보를 토대로 데이터가 소속되는 그룹을 결정

특징 : 잡음 또는 무관 특징이 존재하는 경우, 특징 크기가 중요성과 일치하지 않으면, 정확성이 감소

적절한 k를 선택하는 것이 중요

- 의사결정나무Decision Tree

개요 : 결정 트리 학습법이라고도 하며, 관측값과 목표값 간의 모델을 구축

분류 트리 분석, 회귀 트리 분석 등 존재

특징 : 지도 분류 학습법에서 주요 사용

랜덤 포레스트 (Random Forest) 등의 방법을 이용하여 분류 속도 향상 가능

- 베이지안 정리Bayesian Theorem

개요 : 조건부 확률 모델에 기반

지도 학습 환경에서 효율적 훈련 가능

특징 : 최대우도방법(MLE)를 이용하여 모수 추정 수행

복잡한 실제 상황에서 잘 작동함이 검증

불확실성 하에서 의사결정 문제를 확률론적으로 다룰 때 사용하는 방법

- 인공 신경망Artificial Neural Networks

개요 : 기계학습과 인지과학에서 생물학의 신경망으로부터 영감을 얻은 통계학적 학습 알고리즘을 분류에 적용

특징 : 지도/반지도/자율 학습 모두 적용 가능

역전파 기법(Backpropagation) 기반경사 하강법(Gradient Descent)

유전 알고리즘 등 다양한 방법을 이용해 학습 효과 극대화 가능

- 지지 벡터 기계Support Vector Machines

개요 : 유한 차원 공간에서 데이터를 분류하는 최적 초평면(hyperplane)을 모델링

특징 : 선형 SVM을 이용하여 현존하는 표본에 대한 최적의 초평면 모델을 모델링 가능

새롭게 발생하는 표본에 대하여 분류 성능을 극대화하기 위한 소프트 마진

커널 트릭(kernel trick)을 이용하여 비선형 분류 또한 가능

2. 군집(Clustering) 분석

군집(Clustering)

데이터 마이닝 기술의 한 방법으로 빅데이터에서 데이터의 특성을 고려하여 군집을 정의하고 대표점을 찾는 작업
빅데이터 시대의 의미
데이터를 분류하는 데에 도움
새로운 정보를 발견하는 실마리

군집의 구분

계층적 군집화

데이터의 점을 하나의 군집으로 설정하고 점 간의 거리를 기반으로 분할/합병

예) 계통도 등을 통하여 유사성 확인 가능

분할적 군집화

여러 개의 분할 기법을 결정하는 방법

거리 함수 및 평가 함수에 기반

예) k-Means 알고리즘 등

계통도Dendrogram

개요 : 각 계층에서 군집의 유사성을 쉽게 확인할 수 있다.

- 흡수 과정 Agglomerative

아래에서 위로 처리하여 군집을 흡수

n개의 각 군집과 수열의 형태가 연속적인 흡수 군집화 과정으로 처리

- 분리 과정Divisive

위에서 아래로 분리하는 과정

하나의 군집에 n개의 표본이 있으며, 연속적인 분리 과정으로 수행

k-means 알고리즘

개요 : 개의 분할 영역(군집)을 결정하는 방법

거리 함수에 기반하여 분할 영역 탐색

수행과정

1. 군집의 개수 k를 설정하고 군집의 초기값으로 중심을 1개씩 할당

2. 주어진 중심점을 기준으로 하여 각 데이터를 가장 가까운 군집에 할당

3. 할당된 데이터를 중심으로 각 군집은 새로운 중심점을 계산

4. 새로운 중심점이 기존의 중심점과 차이가 없으면 이 단계에서 종료하고, 차이가 있는 경우 2번 단계로 되돌아가서 계속하여 수행

저작자표시 비영리 변경금지

'빅데이터' 카테고리의 다른 글

R 프로그램 설치 & R Studio 설치 (0)	2021.11.03
[빅데이터 9] 데이터 마이닝 (0)	2021.09.28
[빅데이터 8] 데이터 통계 분석 (회귀분석, 시계열 데이터) (0)	2021.09.28
[빅데이터 7] 데이터 통계 분석 (분산분석 / 상관분석) (0)	2021.09.28
[빅데이터 6] 데이터 통계 분석 (확률/통계, 확률 분포, 모집단의 추정) (0)	2021.09.28

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

여름의 기록

[빅데이터 10] 정형 데이터 마이닝

'빅데이터' 카테고리의 다른 글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

[빅데이터 10] 정형 데이터 마이닝

'빅데이터' 카테고리의 다른 글

관련글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역