본문 바로가기
빅데이터

[빅데이터 4] 빅데이터 분석 도구 R

by 밍굴뒹굴 2021. 9. 26.
반응형

 


*R이란?  통계 분석, 그래픽 표현, 보고 작성을 위한 프로그래밍 언어 및 소프트웨어 환경

 

R은 통계 분석, 그래픽 표현, 보고 작성을 위한 프로그래밍 언어 및 소프트웨어 환경이다.

R의 통계 분석으로는 선형 및 비선형 모델링, 통계 검정, 시계열 분석, 분류, 군집화 등의 작업이 가능하다.

R의 그래픽 표현 및 보고 작성 기능을 이용하여 막대형 그래프, 원형 그래프, 3차원 그래프 등 다양한 출력이 가능하다.

  • 통계 분석 : 선형 및 비선형 모델링, 통계 검정, 시계열 분석, 분류, 군집화 등의 기능
  • 그래픽 표현 및 보고 작성 : 막대형 그래프, 원형 그래프, 3차원 그래프 등 출력
  • GNU GPL Version 2 라이선스에 의하여 관리 : Windows, Linux, Mac 등 다양한 운영체제 환경 지원

 

 

*R의 특징

  • 효과적인 데이터 핸들링 및 저장소 기능
  • 선형대수 연산에 적합한 연산자 제공
  • 일관성 있으며 통합된 데이터 분석 도구
  • 데이터 분석의 그래픽 및 출력 기능
  • 견고하면서도 간결하고 효과적인 프로그래밍 언어 (조건문, 루프, 사용자 정의 재귀 함수, 입출력 기능 등)

 

*RStudio : R의 통합개발도구(IDE)

  R의 기능 중 그래픽 유저 인터페이스(GUI) 기능을 보완한 것이 바로 RStudio이다.

 

 

*특징 (오픈소스 에디션의 경우)

  • 소스코드 편집기를 이용하여 R의 명령문을 실행 가능
  • 소스코드 편집기에서는 문법 하이라이트, 자동완성,들여쓰기 등의 다채로운 기능 제공
  • 프로젝트와 작업 디렉터리의 관리 기능 제공
  • 통합된 도움말 및 문서 기능 제공

 

뉴(Menu)

 파일, 편집, 코드, 보기 그래프(plots),세션, 빌드, 디버그, 프로파일, 도구,도움말 등의 기능에 접근 가능

 

도구 바(toolbar)

 자주 쓰는 기능을 아이콘으로 정의하여 편리하게 접근할 수 있도록 한 UI

 사용자가 직접 원하는 기능을 등록하여 사용 가능

 

소스코드 편집 탭 (Editor)

 R 언어로 작성하는 소스코드를 입력

 문법(syntax)에 따른 하이라이트 기능

 자동 완성(auto completion) 기능

 자동 들여쓰기(auto-indent) 기능

 

콘솔 탭 (Console)

 R 언어로 된 명령문을 직접 입력하여 실행 가능

 입력한 명령문의 실행 결과는 콘솔창으로 실시간 출력

 명령문을 이용하여 그래프 출력, 파일 입출력 가능

 

환경 탭 (Environment)

 현재 환경에서 정의된 변수의 일람을 볼 수 있는 곳

 변수의 이름, 변수의 값 등을 볼 수 있음

 

파일 탭 (Environment)

 시스템의 파일 읽기, 저장, 삭제 등

 디렉터리 생성, 변경, 삭제 등

 

플롯 탭 (Plots)

 그래프 명령어를 통한 결과가 나타나는 탭

 그래프의 설정을 직접 바꿀 수 있는 GUI 제공

 출력된 그래프를 추출(export) 가능

 

 

*기본 문법  -> 프로그래밍 언어랑 거의 비슷

#주석(comments) : 실제로 실행되지 않는 코드의 메모

 

 

*변수 (Variables)

모든 변수는 문자, 숫자, 점(.), 밑줄 문자(_)만 사용 가능

첫번째 문자는 숫자와 밑줄 문자(_)로 시작할 수 없음

첫번째 문자가 점(.)인 경우 ⇨ 두번째 문자는 숫자 외 사용

 

 

*변수 관련 함수

class( ) : 변수의 데이터형을 알아내기 위한 함수

ls( ) : 현재 사용하고 있는 변수의 목록 출력

rm( ) : 변수를 지우는 함수

 


R의 데이터형

논리형(Logical) 숫자형(numeric) 정수형(integer) 복소수형(complex) 문자형(character) 원형(raw)

 

- 논리형 (Logical) : TRUE(참), FALSE(거짓)의 값을 가짐

> 1 <- TRUE

> class(1)

[1] "logical"

 

- 숫자형 (Numeric) : 실수를 표현하기 위한 데이터형

> n <- 3.141592

> class(n)

[1] "numeric"

 

- 정수형 (Integer) : 소수점이 없는 정수를 표현

> i <- 1147L

> class(i)

[1] "integer"

 

- 복소수형 (Complex) : 복소수를 표현하고자 할 때 사용

> c <- 3+5i

> class(c)

[1] "complex"

 

- 문자형 (Character) : 문자 또는 문자열을 표현할 때 사용

> s <- "hello"

> class(s)

[1] "character"

 

- 원형 (Raw) : 컴퓨터 시스템에서 표현하는 기본 형태

> r <- charToRaw( "hello" )

> r

[1] 68 65 6c 6c 6f

 

 

 

R객체 (R-Object)

벡터 (Vectors) 리스트 (lists) 행렬 (matrices) 배열 (arrays) 요인 (factors) 데이터 프레임 (data frames)

 

벡터 (Vectors)

다수의 값을 담고 있는 R객체

내부 데이터는 한 가지 데이터형으로 통일

리스트 (Lists)

서로 다른 유형의 데이터를 담을 수 있는 R객체

행렬 (Matrices)

행과 열로 이루어진 2차원 데이터 집합

배열 (Arrays)

다차원으로 구성된 데이터 집합

차원의 설정에 따른 배열의 변화

1차원으로 설정 ⇨ 배열 (Arrays)로 취급

2차원으로 설정 ⇨ 행렬 (Matrix)로 취급

3차원 이상으로 설정 ⇨ 배열 (Arrays)로 취급

 

요인 (Factors)

“범주”라고도 부름

데이터의 값(value)과 레벨(label)을 함께 표현

객체가 구축되며 데이터가 자동으로 분석되므로 통계적 모델링과 분석에 유용

 

데이터 프레임 (Data Frames)

표의 형태로 정리된 데이터 객체의 일종

열(column)과 행(row)의 이름(name)을 지정 가능

열마다 서로 다른 데이터형을 가질 수 있음

숫자형(numeric), 요인(factor), 문자형(character)외의 다른 데이터를 저장할 수 없음

열마다 같은 수의 데이터를 포함하여야 함


R 해석은 진짜 C랑 거의 똑같아서 좋다,,,

달라지지 말아라~~

반응형

댓글