본문 바로가기
빅데이터

[빅데이터 10] 정형 데이터 마이닝

by 밍굴뒹굴 2021. 10. 5.
반응형

 


1. 분류(Classification) 분석

 

분류 (Classification) 

    데이터가 어느 그룹에 속하는지 예측하는 데에 사용하는 데이터 기법

    군집화(clustering)와 유사하나, 분류는 각 계급이 어떻게 정의되는지 미리 알아야 함 (군집화와 가장 큰 차이)

 

 

분류 방법론

  • k 최근접 이웃 K-nearest Neighborhood : 인접한 k개의 이웃을 통하여 데이터가 소속되는 그룹을 결정
  • 의사결정나무Decision Tree : 어떤 항목에 대한 관측값과 목표값을 연결시키기 위한 트리 구조를 결정
  • 베이지안 정리Bayesian Theorem : 불확실성 하에서 분류 문제를 조건부 확률의 방법으로 해결하는 방법
  • 인공 신경망Artificial Neural Networks : 생물학의 신경망에서 영감을 얻은 방법론으로, 시냅스를 모델링하여 모델 구축
  • 지지 벡터 기계Support Vector Machines : 주어진 데이터 집합을 바탕으로 새로운 데이터 소속 그룹을 판단하는 모델 구축

 

- k 최근접 이웃 K-nearest Neighborhood

    개요 : 인접한 k개의 이웃의 정보를 토대로 데이터가 소속되는 그룹을 결정

    특징 : 잡음 또는 무관 특징이 존재하는 경우, 특징 크기가 중요성과 일치하지 않으면, 정확성이 감소

             적절한 k를 선택하는 것이 중요

 

- 의사결정나무Decision Tree

    개요 : 결정 트리 학습법이라고도 하며, 관측값과 목표값 간의 모델을 구축

               분류 트리 분석, 회귀 트리 분석 등 존재

    특징 : 지도 분류 학습법에서 주요 사용

               랜덤 포레스트 (Random Forest) 등의 방법을 이용하여 분류 속도 향상 가능

 

- 베이지안 정리Bayesian Theorem

    개요 : 조건부 확률 모델에 기반

               지도 학습 환경에서 효율적 훈련 가능

    특징 : 최대우도방법(MLE)를 이용하여 모수 추정 수행

              복잡한 실제 상황에서 잘 작동함이 검증

              불확실성 하에서 의사결정 문제를 확률론적으로 다룰 때 사용하는 방법

 

- 인공 신경망Artificial Neural Networks

    개요 : 기계학습과 인지과학에서 생물학의 신경망으로부터 영감을 얻은 통계학적 학습 알고리즘을 분류에 적용

    특징 : 지도/반지도/자율 학습 모두 적용 가능

               역전파 기법(Backpropagation) 기반경사 하강법(Gradient Descent)

               유전 알고리즘 등 다양한 방법을 이용해 학습 효과 극대화 가능

- 지지 벡터 기계Support Vector Machines

    개요 : 유한 차원 공간에서 데이터를 분류하는 최적 초평면(hyperplane)을 모델링

    특징 : 선형 SVM을 이용하여 현존하는 표본에 대한 최적의 초평면 모델을 모델링 가능

              새롭게 발생하는 표본에 대하여 분류 성능을 극대화하기 위한 소프트 마진

              커널 트릭(kernel trick)을 이용하여 비선형 분류 또한 가능

 

 

 

2. 군집(Clustering) 분석

 

군집(Clustering)

  • 데이터 마이닝 기술의 한 방법으로 빅데이터에서 데이터의 특성을 고려하여 군집을 정의하고 대표점을 찾는 작업
  • 빅데이터 시대의 의미
  • 데이터를 분류하는 데에 도움
  • 새로운 정보를 발견하는 실마리

 

군집의 구분

  • 계층적 군집화

             데이터의 점을 하나의 군집으로 설정하고 점 간의 거리를 기반으로 분할/합병

             예) 계통도 등을 통하여 유사성 확인 가능

  • 분할적 군집화

             여러 개의 분할 기법을 결정하는 방법

             거리 함수 및 평가 함수에 기반

             예) k-Means 알고리즘 등

 

 

계통도Dendrogram

개요 : 각 계층에서 군집의 유사성을 쉽게 확인할 수 있다.

 

 - 흡수 과정 Agglomerative

    아래에서 위로 처리하여 군집을 흡수

    n개의 각 군집과 수열의 형태가 연속적인 흡수 군집화 과정으로 처리

 

 - 분리 과정Divisive

    위에서 아래로 분리하는 과정

    하나의 군집에 n개의 표본이 있으며, 연속적인 분리 과정으로 수행

 

 

k-means 알고리즘

개요 : 개의 분할 영역(군집)을 결정하는 방법

           거리 함수에 기반하여 분할 영역 탐색

 

수행과정

1. 군집의 개수 k를 설정하고 군집의 초기값으로 중심을 1개씩 할당

2. 주어진 중심점을 기준으로 하여 각 데이터를 가장 가까운 군집에 할당

3. 할당된 데이터를 중심으로 각 군집은 새로운 중심점을 계산

4. 새로운 중심점이 기존의 중심점과 차이가 없으면 이 단계에서 종료하고, 차이가 있는 경우 2번 단계로 되돌아가서 계속하여 수행

 

 

반응형

댓글