본문 바로가기
빅데이터

[빅데이터 9] 데이터 마이닝

by 밍굴뒹굴 2021. 9. 28.
반응형

 

 


 

데이터 마이닝

 

데이터 마이닝 Data Mining

 - 대규모로 저장된 데이터 안에서 체계적이고 자동적인 통계적 규칙이나 패턴을 찾아내는 작업

 - KDD (Knowledge-Discovery in Databases)

 - 빅데이터 시대의 의미 : 대규모 데이터로부터 의미를 찾아내는 데 있어 그 중요도가 급증

 

 

데이터 마이닝의 적용 분야 (이 외에도 많음)

  • 분류classification : 일정한 집단에 대한 특정 정의를 통하여 분류 및 구분의 형태를 추론하는 분야
  • 연관성association : 동시에 발생한 사건 간의 관계를 정의하는 분야
  • 연속성sequencing : 특정 기간에 걸쳐 발생하는 관계를 규명, 연관성 분석과 달리 기간 특성을 고려
  • 예측forecasting : 빅데이터 집합 내의 패턴을 기반으로 미래에 발생하는 데이터의 형태를 예측하는 분야
  • 군집화clustering : 구체적인 특성을 공유하는 군집(cluster)을 찾음, 미리 정의된 특성 정보가 없이 군집을 탐색

 

 

 

<데이터 마이닝 방법론>

 

1. 프로젝트의 목적과 적용 가능성을 확인한다.

  • 일회성 프로젝트인 경우→ 프로젝트의 목적을 수립한다.
  • 연속성 프로젝트인 경우,→ 프로젝트의 적용 가능성을 확인한다.

2. 분석에서 사용할 데이터를 수집한다.

  • 데이터베이스에서 무작위 표본을 추출
  • 내부 데이터와 외부 데이터를 수집

    - 수집 방법론

  • 수집 데이터를 선정
  • 세부계획을 수립
  • 테스트 수집 진행 후 수집 진행

3. 데이터를 전처리한다.

  • 데이터의 조건을 검증하고 정제한다.
  • 산점도, 행렬표 등 그래프를 사용하여 분석
  • 변수에 대한 정의, 측정단위, 측정기간 등에 대한 일관성 확인

    - 고려 사항

  • 결측치를 어떻게 처리해야 하는가?
  • 각 변수의 값이 합리적인 범위 내에 있는가?
  • 극단치(최대/최소)가 존재하는가?

4. 데이터를 축소하고 분할한다.

  • 불필요한 변수를 제거
  • 변수를 분석가능한 형태로 변환
  • 새로운 변수를 생성
  • 데이터를 다양한 데이터 집합으로 분할

    - 데이터 집합의 종류

  • 학습용 데이터 (training)
  • 평가용 데이터 (test, evaluation)
  • 검증용 데이터 (verification)

5. 데이터 마이닝 기법을 선택한다.

    - 프로젝트에 적합한 분석 유형을 결정

    - 기법

  • 분산분석, 상관분석, 회귀분석 등 고전 분석 모델
  • 신경망 모형 등 딥러닝 분석 모델
  • 계층적 군집 분석 등

6. 데이터 마이닝을 수행한다.

  • 이전에 결정한 사항을 토대로 데이터 마이닝을 수행
  • 다양한 변인을 적용하여 분석 수행
  • 평가용 데이터를 이용하여 수행 후개선되는 변인을 토대로 적용
  • 수행 결과로 구축된 모델을 바탕으로 시험 적용

 

 

학습 방법론 (영어를 외울 것)

  • 지도학습 (Supervised Learning)  : 출력 데이터에 맞게 출력되도록 학습용 데이터셋을 이용하여 예측변수와 출력변수 간의 관계를 학습
  • 자율학습 (Unsupervised Learning)  : 출력변수가 명확히 정의되지 않은 경우, 예측변수에 대한 자율학습을 통하여 모델을 구축하는 방법
  • 반지도학습 (Semi-supervised Learning) : 지도학습과 자율학습의 방식을 조합하여 예측변수와 출력변수 간의 일부를 자율적으로 모델링하는 한편, 정해진 데이터셋에 대한 학습 또한 수행

 

 

 

<데이터 마이닝 적용 사례>

 

  • 공공시스템

        국세청의 탈세 방지 시스템에 적용

        사기방지 솔루션, 소셜 네트워크 분석, 지능형 감지 시스템 구축

        세금 누락 및 불필요한 세금 환급 절감 효과 발생

        탈세자 수 감소 및 범죄 사건 미연 방지 가능

  • GPS 시스템

        자동차의 센서 데이터(예:GPS)를 통하여 교통 정보 수집

        지능형 교통 정보 시스템을 구축 가능

        실시간 교통 정보를 공유하여 최적의 교통 안내 서비스

        불필요한 에너지 낭비 방지 및 교통 시스템 효율 증대

  • 보건/의료

        유전자 정보를 토대로 질병 연구에 활용

        새로운 질병에 대한 빠른 진단 서비스

        난치병 및 불치병 관련 유전자 정보를 토대로 신치료제 개발

        최신 IT 기술 결합으로 치료 확률 상승

  • 제조/물류/마케팅

        소비자의 니즈를 예측하여 제품을 미리 제조 및 배급

        제조/물류/마케팅 비용을 최소화 가능

        제품의 소비자 도달 시간 최소화

반응형

댓글