본문 바로가기
반응형

빅데이터11

[빅데이터 6] 데이터 통계 분석 (확률/통계, 확률 분포, 모집단의 추정) 1. 확률과 통계이론 통계 (Statistics) : 표본을 통하여 모집단을 추정하기 위한 학문 빅데이터와 관계 표본(=데이터)을 수집하고 분석하는 고전 과정 빅데이터의 기반 학문 모집단Population : 정보를 얻고자 하는 목표 대상의 전체 집단 표본Sample : 모집단의 일부이며, 관찰하여 획득한 데이터 모집단과 표본의 관계 모집단은 전수조사를 통하여 파악 가능 ⇨ 비효율 표본을 통하여 모집단의 정보를 추정 데이터의 유형 수치 데이터Numerical Data : 측정하여 숫자의 형태로 획득한 데이터 예) 키, 몸무게, 온습도, 물품의 가격 범주 데이터Categorical Data : 데이터의 범주(category)를 사전에 정의하고, 데이터의 특성을 범주에 따라 분류한 데이터 예) 남녀 성별, .. 2021. 9. 28.
[빅데이터 5] 빅데이터 분석 도구 R 문법 2. 연산자 산술 연산자 (Arithmetic Operators) : 덧셈, 뺼셈, 곱셈, 나눗셈 등의 사칙연산과 지수 연산 등을 수행 관계 연산자 (Relational Operators) : 관계 연산자는 의사결정문에서 주로 쓰이는 연산자 논리 연산자 (Logical Operators) : R의 객체 내부의 각 성분별 비교 연산을 수행하고, 그에 따른 결과를 반환하는 연산자 대입(할당) 연산자 (Assignment Operators) : 변수와 변수, 혹은 상수와 변수 사이에 값을 대입 또는 할당을 위한 연산자 기타 연산자 (Miscellaneous Operators) : R에서 벡터를 생성하거나 성분의 존재 여부를 검증할 때 활용하는 연산자 1. 의사결정 구조 의사결정 구조의 용도 if문 : 조건이 .. 2021. 9. 27.
[빅데이터 4] 빅데이터 분석 도구 R *R이란? 통계 분석, 그래픽 표현, 보고 작성을 위한 프로그래밍 언어 및 소프트웨어 환경 R은 통계 분석, 그래픽 표현, 보고 작성을 위한 프로그래밍 언어 및 소프트웨어 환경이다. R의 통계 분석으로는 선형 및 비선형 모델링, 통계 검정, 시계열 분석, 분류, 군집화 등의 작업이 가능하다. R의 그래픽 표현 및 보고 작성 기능을 이용하여 막대형 그래프, 원형 그래프, 3차원 그래프 등 다양한 출력이 가능하다. 통계 분석 : 선형 및 비선형 모델링, 통계 검정, 시계열 분석, 분류, 군집화 등의 기능 그래픽 표현 및 보고 작성 : 막대형 그래프, 원형 그래프, 3차원 그래프 등 출력 GNU GPL Version 2 라이선스에 의하여 관리 : Windows, Linux, Mac 등 다양한 운영체제 환경 지.. 2021. 9. 26.
[빅데이터 3] 빅데이터 저장소 1. 빅데이터 저장소 CAP 이론의 세 가지 요소인 일관성(consistency), 가용성(availability), 지속성(partition tolerance) 기존의 RDBMS는 지속성의 관점에서 충족하지 못하였으나, 최근 빅데이터가 대두되며 지속성을 만족하는 빅데이터 저장소가 필수. 일관성(consistency) : 모든 노드는 동일 시점에 동일 데이터 출력이 보장 가용성(availability) : 노드가 이용 불가능해도 다른 노드 정상 작동 보장 지속성(partition tolerance) : 데이터 손실이 발생해도 시스템 정상 작동 보장 2. 빅데이터 저장소 설계 *하둡 분산 파일 시스템 (HDFS)의 구성요소 네임노드 서버 : 파일의 위치(iNode), 메타정보 관리, 클라이언트 요청 보조 .. 2021. 9. 26.
[빅데이터 2] 빅데이터 생성, 수집, 예시 빅데이터의 생성 - 데이터와 정보 - 데이터의 존재론적 특징에 따른 구분 - 데이터의 구성에 따른 구분 정형 데이터 (structured Data) : 고정형 필드에 저장된 데이터 ex) 관계형 데이터베이스, 스프레드시트 등 반정형 데이터 (Semi-structured Data) : 메타데이터, 스키마를 이용하여 표현되는 데이터 ex)XML, HTML 비정형 데이터 (Unstructured Data) : 정형/반정형이 아닌 모든 데이터 ex) 텍스트 문서, 멀티미디어 콘텐츠 - 데이터의 구성에 따른 유용성 : 빅데이터는 수집 난이도, 구성 복잡도, 잠재적 가치에 따라 그 유용성이 달라짐 빅데이터의 수집 : 시스템의 내외부에서 주기성을 가지고 필요한 형태로 데이터를 모으는 작업을 뜻함 빅데이터 수집의 역할.. 2021. 9. 21.
728x90
반응형