데이터 마이닝
데이터 마이닝 Data Mining
- 대규모로 저장된 데이터 안에서 체계적이고 자동적인 통계적 규칙이나 패턴을 찾아내는 작업
- KDD (Knowledge-Discovery in Databases)
- 빅데이터 시대의 의미 : 대규모 데이터로부터 의미를 찾아내는 데 있어 그 중요도가 급증
데이터 마이닝의 적용 분야 (이 외에도 많음)
- 분류classification : 일정한 집단에 대한 특정 정의를 통하여 분류 및 구분의 형태를 추론하는 분야
- 연관성association : 동시에 발생한 사건 간의 관계를 정의하는 분야
- 연속성sequencing : 특정 기간에 걸쳐 발생하는 관계를 규명, 연관성 분석과 달리 기간 특성을 고려
- 예측forecasting : 빅데이터 집합 내의 패턴을 기반으로 미래에 발생하는 데이터의 형태를 예측하는 분야
- 군집화clustering : 구체적인 특성을 공유하는 군집(cluster)을 찾음, 미리 정의된 특성 정보가 없이 군집을 탐색
<데이터 마이닝 방법론>
1. 프로젝트의 목적과 적용 가능성을 확인한다.
- 일회성 프로젝트인 경우→ 프로젝트의 목적을 수립한다.
- 연속성 프로젝트인 경우,→ 프로젝트의 적용 가능성을 확인한다.
2. 분석에서 사용할 데이터를 수집한다.
- 데이터베이스에서 무작위 표본을 추출
- 내부 데이터와 외부 데이터를 수집
- 수집 방법론
- 수집 데이터를 선정
- 세부계획을 수립
- 테스트 수집 진행 후 수집 진행
3. 데이터를 전처리한다.
- 데이터의 조건을 검증하고 정제한다.
- 산점도, 행렬표 등 그래프를 사용하여 분석
- 변수에 대한 정의, 측정단위, 측정기간 등에 대한 일관성 확인
- 고려 사항
- 결측치를 어떻게 처리해야 하는가?
- 각 변수의 값이 합리적인 범위 내에 있는가?
- 극단치(최대/최소)가 존재하는가?
4. 데이터를 축소하고 분할한다.
- 불필요한 변수를 제거
- 변수를 분석가능한 형태로 변환
- 새로운 변수를 생성
- 데이터를 다양한 데이터 집합으로 분할
- 데이터 집합의 종류
- 학습용 데이터 (training)
- 평가용 데이터 (test, evaluation)
- 검증용 데이터 (verification)
5. 데이터 마이닝 기법을 선택한다.
- 프로젝트에 적합한 분석 유형을 결정
- 기법
- 분산분석, 상관분석, 회귀분석 등 고전 분석 모델
- 신경망 모형 등 딥러닝 분석 모델
- 계층적 군집 분석 등
6. 데이터 마이닝을 수행한다.
- 이전에 결정한 사항을 토대로 데이터 마이닝을 수행
- 다양한 변인을 적용하여 분석 수행
- 평가용 데이터를 이용하여 수행 후개선되는 변인을 토대로 적용
- 수행 결과로 구축된 모델을 바탕으로 시험 적용
학습 방법론 (영어를 외울 것)
- 지도학습 (Supervised Learning) : 출력 데이터에 맞게 출력되도록 학습용 데이터셋을 이용하여 예측변수와 출력변수 간의 관계를 학습
- 자율학습 (Unsupervised Learning) : 출력변수가 명확히 정의되지 않은 경우, 예측변수에 대한 자율학습을 통하여 모델을 구축하는 방법
- 반지도학습 (Semi-supervised Learning) : 지도학습과 자율학습의 방식을 조합하여 예측변수와 출력변수 간의 일부를 자율적으로 모델링하는 한편, 정해진 데이터셋에 대한 학습 또한 수행
<데이터 마이닝 적용 사례>
- 공공시스템
국세청의 탈세 방지 시스템에 적용
사기방지 솔루션, 소셜 네트워크 분석, 지능형 감지 시스템 구축
세금 누락 및 불필요한 세금 환급 절감 효과 발생
탈세자 수 감소 및 범죄 사건 미연 방지 가능
- GPS 시스템
자동차의 센서 데이터(예:GPS)를 통하여 교통 정보 수집
지능형 교통 정보 시스템을 구축 가능
실시간 교통 정보를 공유하여 최적의 교통 안내 서비스
불필요한 에너지 낭비 방지 및 교통 시스템 효율 증대
- 보건/의료
유전자 정보를 토대로 질병 연구에 활용
새로운 질병에 대한 빠른 진단 서비스
난치병 및 불치병 관련 유전자 정보를 토대로 신치료제 개발
최신 IT 기술 결합으로 치료 확률 상승
- 제조/물류/마케팅
소비자의 니즈를 예측하여 제품을 미리 제조 및 배급
제조/물류/마케팅 비용을 최소화 가능
제품의 소비자 도달 시간 최소화
'빅데이터' 카테고리의 다른 글
R 프로그램 설치 & R Studio 설치 (0) | 2021.11.03 |
---|---|
[빅데이터 10] 정형 데이터 마이닝 (0) | 2021.10.05 |
[빅데이터 8] 데이터 통계 분석 (회귀분석, 시계열 데이터) (0) | 2021.09.28 |
[빅데이터 7] 데이터 통계 분석 (분산분석 / 상관분석) (0) | 2021.09.28 |
[빅데이터 6] 데이터 통계 분석 (확률/통계, 확률 분포, 모집단의 추정) (0) | 2021.09.28 |
댓글