본문 바로가기
빅데이터

[빅데이터 2] 빅데이터 생성, 수집, 예시

by 밍굴뒹굴 2021. 9. 21.
반응형

빅데이터의 생성 

- 데이터와 정보

- 데이터의 존재론적 특징에 따른 구분

- 데이터의 구성에 따른 구분

  • 정형 데이터 (structured Data) : 고정형 필드에 저장된 데이터 ex) 관계형 데이터베이스, 스프레드시트 등
  • 반정형 데이터 (Semi-structured Data) : 메타데이터, 스키마를 이용하여 표현되는 데이터 ex)XML, HTML
  • 비정형 데이터 (Unstructured Data) : 정형/반정형이 아닌 모든 데이터 ex) 텍스트 문서, 멀티미디어 콘텐츠

 

- 데이터의 구성에 따른 유용성 : 빅데이터는 수집 난이도, 구성 복잡도, 잠재적 가치에 따라 그 유용성이 달라짐

 

빅데이터의 수집 : 시스템의 내외부에서 주기성을 가지고 필요한 형태로 데이터를 모으는 작업을 뜻함

빅데이터 수집의 역할 : 유용한 데이터 선택(품질 향상) , 최적의 방법론 선택(안정성 향상) , 수집 소요 비용 최소화

 

빅데이터 수집 절차 설계 : 수집 데이터 선정 -> 세부계획 수립 -> 테스트 수집 진행 -> 수집 진행

 

빅데이터 수집 계획서

데이터 소스 : 소스 위치, 형태, 인터페이스, 실무자, 협약 상세
수집 주기 : 주기시간(규칙성) 또는 실시간(불규칙성), 데이터/트래픽량
수집 방법 : 수집 기술, 사전/사후처리(pre/post processing), 대안

 

빅데이터 수집 도구

 1. 인적 자원 활용Human Resource

  • 사람을 통하여 데이터 수집
  • 인적 자원 비용 발생
  • 오해석 또는 오차 등의 문제점

 2. 자동화 도구 사용Automatic Data Crawler

  • 대부분 과정에 사람 개입 없음
  • 인적 자원 비용 최소화 가능
  • 데이터 원천의 형태에 따라 적용이 불가능할 수도 있음

 

빅데이터 자동화 수집 기술

1.네트워크 수집

  • 크롤링(Crawling) : 사전 정의 패턴에 따라 정해진 네트워크 지점의 데이터 수집
  • OpenAPI : 데이터 배포자 제공 인터페이스

2.로그/센서 수집

  • 로그(Log) 수집 : 작동 또는 이용 패턴의 기록
  • 센서(Sensor) 수집 : 센서 장치를 이용한 기록

 

빅데이터 수집 사례 

  JSON (JavaScript Object Notation)

  • XML 유사 데이터 정형화 방식
  • 인터넷 상의 데이터 송수신 방식
  • 텍스트 형태, 작은 용량, 빠른 변환 속도
  • 프로그래밍 언어 또는 플랫폼 독립적

  Flume(플럼)

  • 2010년 Cloudera 개발, 로그 데이터 수집기
  • 분산 데이터 통합 가능, 안정성 가용성 높음

  Chukwa (척와)

  • 2008년 Yahoo 개발, 로그 데이터 수집기
  • 아파치 하둡 기반, 실시간 분석 가능

  SQOOP (스쿱)

  • SQl-to-hadOOP, 다양한 DBMS 벤더 호환
  • DBMS, 하둡, NoSQL 간 데이터 연동에 적용

  OpenRefine (오픈 리파인)

  • 2010년 Google의 오픈 프로젝트
  • 데이터 정제 도구 : 오류 수정, 데이터 정리
  • 데이터 연계 API 및 워크플로우 기능 제공

  Protocol Buffers (프로토콜 버퍼)

  • Google의 오픈소스 직렬화 라이브러리
  • 다양한 플랫폼 간 통신 가능

왜 글씨는 쓰면 자꾸 기울어지지,,, 미스테리~

반응형

댓글