본문 바로가기
빅데이터

[빅데이터 1] 빅데이터의 개념

by 밍굴뒹굴 2021. 9. 21.
반응형

빅데이터의 3가지 특성 (3V)

  • 규모(Volume) : 디지터 정보량 기하급수적으로 급증, 정보량 증가에 대한 데이터 처리 수요 증가
  • 다양성(variety) : SNS 등 데이터 종류 증가 , 다양한 데이터에 대한 수용 및 처리 방법론 필요
  • 속도(Velocity) : IoT & 스트리밍 등 실시간 정보와 속도 증가, 데이터를 빠르게 처리하고 분석하는 플랫폼 필요

 

빅데이터의 새로운 특성

  • 정확성 (Veracity) : 거대 데이터는 신뢰성이 부족할 수 있음, 수집한 데이터의 다양한 품질에 대처하는 방법론 필요
  • 가치 (Value) : 트렌드, 감정, 진실성, 진정성, 개인의 취향 등 변화하는 대규모 데이터 시대에 가치의 필요성 증대
  • 가변성 (Variabillity) : 맥락에 따라 의미가 변화, 데이터의 본래 의미를 찾기 위한 방법론 필요
  • 시각화 (Visualization) : 데이터의 분석으로부터 얻어낸 결론에 대한 표현, 사용자의 이해도를 고려한 효과적인 방법론 필요

 

빅데이터의 종류

  • 정형 데이터 (structured Data) : 고정형 필드에 저장된 데이터 ex) 관계형 데이터베이스, 스프레드시트 등
  • 반정형 데이터 (Semi-structured Data) : 메타데이터, 스키마를 이용하여 표현되는 데이터 ex)XML, HTML
  • 비정형 데이터 (Unstructured Data) : 정형/반정형이 아닌 모든 데이터 ex) 텍스트 문서, 멀티미디어 콘텐츠

 

빅데이터의 처리 과정과 기술 : 생성 -> 수집 -> 저장 -> 처리 -> 분석 -> 표현

 

  • 생성 : 데이터가 처음 생성되는 위치에 따라 내부 데이터와 외부 데이터로 구분할 수 있다
내부 데이터
 로컬 환경에 저장되어 교류가 없는 데이터
 데이터베이스, 파일 관리 시스템 등

외부 데이터
 네트워크에서 교류를 통해 발생하는 데이터
 텍스트, 멀티미디어 콘텐츠, 스트림 등
  • 수집 : 데이터의 수집 과정은 로그, 센싱, ETL 등을 통하여 수집할 수 있다
로그 (Log) : 시스템 내부 활동 로그 수집
     크롤링 (Crawling) : 인터넷 로봇을 사용한 데이터 수집
센싱 (Sensing) : 각종 센서를 이용한 수집
ETL (Extraction, Transformation, Loading)
     소스 데이터의 추출, 변환, 적재
     데이터 웨어하우스(data warehouse)
  • 저장 : 데이터는 서버, 스토리지, NoSQL 등에 저장할 수 있다
서버 (Server) : 데이터에 효과적으로 접근하기 위한 장치
스토리지 (Storage) : 데이터를 저장하는 매체
NoSQL 데이터베이스 : 비정형 데이터 관리에 특화된 데이터베이스
  • 처리 : 저장된 빅데이터는 분석에 앞서 처리(processing) 과정을 거친다.
맵리듀스 (MapReduce) : 분산 병렬 컴퓨팅에서 대용량 데이터를 처리하기 위한 소프트웨어 프레임워크
R, Hadoop, MATLAB 등 : 데이터 분석을 효과적으로 수행하기 위한 다양한 처리 도구
  • 분석 : 처리된 빅데이터는 분석(analysis) 과정을 거쳐 정보를 추출할 수 있다
통계 분석 (Statistical Analysis) : 고전 통계, 확률 모델링 등으로 분석 수행
기계학습 (Machine Learning) : 인공지능(AI)의 한 갈래이며 반자동 또는 자동으로 데이터의 패턴 발견
NLP (Natural Language Processing) : 인간의 언어 현상을 분석하는 인공지능
  • 표현 : 시각화는 빅데이터로부터 알게 된 새로운 정보를 대중들 또한 이해할 수 있도록 하는 매우 중요한 방법론
시각화 (Visualization)
   다양한 도표와 그래픽으로 이해를 도움
   고전적인 표현 방식에 얽매이지 않고 형태, 색상, 매체, 구도 등을 변화하여 다양한 표현 적용

 

 

 

 

반응형

댓글