반응형
빅데이터의 생성
- 데이터와 정보
- 데이터의 존재론적 특징에 따른 구분
- 데이터의 구성에 따른 구분
- 정형 데이터 (structured Data) : 고정형 필드에 저장된 데이터 ex) 관계형 데이터베이스, 스프레드시트 등
- 반정형 데이터 (Semi-structured Data) : 메타데이터, 스키마를 이용하여 표현되는 데이터 ex)XML, HTML
- 비정형 데이터 (Unstructured Data) : 정형/반정형이 아닌 모든 데이터 ex) 텍스트 문서, 멀티미디어 콘텐츠
- 데이터의 구성에 따른 유용성 : 빅데이터는 수집 난이도, 구성 복잡도, 잠재적 가치에 따라 그 유용성이 달라짐
빅데이터의 수집 : 시스템의 내외부에서 주기성을 가지고 필요한 형태로 데이터를 모으는 작업을 뜻함
빅데이터 수집의 역할 : 유용한 데이터 선택(품질 향상) , 최적의 방법론 선택(안정성 향상) , 수집 소요 비용 최소화
빅데이터 수집 절차 설계 : 수집 데이터 선정 -> 세부계획 수립 -> 테스트 수집 진행 -> 수집 진행
빅데이터 수집 계획서
데이터 소스 : 소스 위치, 형태, 인터페이스, 실무자, 협약 상세 수집 주기 : 주기시간(규칙성) 또는 실시간(불규칙성), 데이터/트래픽량 수집 방법 : 수집 기술, 사전/사후처리(pre/post processing), 대안 |
빅데이터 수집 도구
1. 인적 자원 활용Human Resource
- 사람을 통하여 데이터 수집
- 인적 자원 비용 발생
- 오해석 또는 오차 등의 문제점
2. 자동화 도구 사용Automatic Data Crawler
- 대부분 과정에 사람 개입 없음
- 인적 자원 비용 최소화 가능
- 데이터 원천의 형태에 따라 적용이 불가능할 수도 있음
빅데이터 자동화 수집 기술
1.네트워크 수집
- 크롤링(Crawling) : 사전 정의 패턴에 따라 정해진 네트워크 지점의 데이터 수집
- OpenAPI : 데이터 배포자 제공 인터페이스
2.로그/센서 수집
- 로그(Log) 수집 : 작동 또는 이용 패턴의 기록
- 센서(Sensor) 수집 : 센서 장치를 이용한 기록
빅데이터 수집 사례
JSON (JavaScript Object Notation)
- XML 유사 데이터 정형화 방식
- 인터넷 상의 데이터 송수신 방식
- 텍스트 형태, 작은 용량, 빠른 변환 속도
- 프로그래밍 언어 또는 플랫폼 독립적
Flume(플럼)
- 2010년 Cloudera 개발, 로그 데이터 수집기
- 분산 데이터 통합 가능, 안정성 가용성 높음
Chukwa (척와)
- 2008년 Yahoo 개발, 로그 데이터 수집기
- 아파치 하둡 기반, 실시간 분석 가능
SQOOP (스쿱)
- SQl-to-hadOOP, 다양한 DBMS 벤더 호환
- DBMS, 하둡, NoSQL 간 데이터 연동에 적용
OpenRefine (오픈 리파인)
- 2010년 Google의 오픈 프로젝트
- 데이터 정제 도구 : 오류 수정, 데이터 정리
- 데이터 연계 API 및 워크플로우 기능 제공
Protocol Buffers (프로토콜 버퍼)
- Google의 오픈소스 직렬화 라이브러리
- 다양한 플랫폼 간 통신 가능
왜 글씨는 쓰면 자꾸 기울어지지,,, 미스테리~
반응형
'빅데이터' 카테고리의 다른 글
[빅데이터 6] 데이터 통계 분석 (확률/통계, 확률 분포, 모집단의 추정) (0) | 2021.09.28 |
---|---|
[빅데이터 5] 빅데이터 분석 도구 R 문법 (0) | 2021.09.27 |
[빅데이터 4] 빅데이터 분석 도구 R (0) | 2021.09.26 |
[빅데이터 3] 빅데이터 저장소 (0) | 2021.09.26 |
[빅데이터 1] 빅데이터의 개념 (0) | 2021.09.21 |
댓글