open:01-r-프로그래밍-시작

[01] R 프로그래밍 시작

  • R은 데이터를 분석하는 데 사용되는 소프트웨어 이다.
  • 데이터의 특성을 살펴보는 기초 통계 분석부터 가설 검정에 사용되는 고급 통계 분석 기법에 이르기 까지 다양한 통계 분석 기법을 활용할 수 있다.
  • 기존 통계 프로그램인 SPSS, SAS등과 비교할 때 R은 가장 많이 사용되어지고 있으며, 다양한 최신 통계 분석기능을 제공한다.
  • 9,004개가 넘는 패키지들를 추가 하거나 사용할 수 있으며, 무료로 사용할 수 있는 오픈소스(Open Source)이다.
  • R은 풍부한 실습용 데이터 세트를 가지고 있으며, 필요시 네이버, 트위터와 같은 인터넷 사이트에서 흩어져있는 지료를 가져와 분석할 있다.

- 데이터 분석 도구에는 'GUI 방식'과 '프로그래밍 방식'이 있다.

1) GUI(Graphic User Interface) 방식 :

  • 엑셀이나 SPSS처럼 화면의 메뉴와 버튼을 마우스로 클릭하면서 작업하는 형태이다.
  • 마우스 조작만으로도 분석 작업을 할 수 있기 때문에 상대적으로 다루기 쉽다.
  • 비유하자면 사용하기 쉽지만 고품질의 사진을 찍기 어려운 스마트폰 카메라 라고 할 수 있다.

2) 프로그래밍 방식 :

  • R이나 SAS처럼 키보드로 명령어를 입력하면서 작업하는 형태이다.
  • 데이터의 크기가 크고 절차가 복잡하면 프로그래밍 도구를 이용하는게 좋다.
  • 비유하자면 상대적으로 조작이 까다롭지만 예술작품 수준의 결과를 만들어 낼 수 있는 DSLR 카메라 라고 할 수 있다.

3) 프로그래밍 방식(R)의 장점

  • 재현성이 확보된다.

분석방법과 데이터가 같다면 누가 분석을 하든 같은 결과물을 얻을 수 있어야 하는데, 이를 재현성이라 한다.

R을 사용하면 데이터 분석의 전 과정이 코드에 고스란히 드러나기 때문에 재현성이이 확보된다.

  • 오류가 줄어든다.

R을 이용하면 모든 작업 과정이 코드에 나타나 있기 때문에 분석결과에 이상이 발견되더라도 오류를 쉽게 파악하여 수정할 수 있다.

  • 공동작업을 할 수 있다.

GUI방식의 분석도구를 사용하면 분석 결과만 남고 분석과정은 기록되지 않기 때문에 여러 사람이 함께 작업하기에는 어려움이 있다. 반면 프로그램 방식의 분석도구를 사용하면 모든 분석 과정이 코드로 남기 때문에 코드를 공유하면서 공동 작업을 할 수 있다.

  • 패키지와 라이브러리의 차이

패키지는 R함수들을 모아 놓은 컬렉션이며, 라이브러리는 R 패키지가 저장되는 폴더를 의미한다. library()함수는 패키지를 R에 로딩하기 위해 사용된다.

  • 설치된 라이브러리 위치 : C:\Program Files\R\R-3.4.1\library
  • R을 먼저 설치후 R 스튜디오를 설치한다.
  • R스튜디오는 R을 사용하기 편리하게 만들어주는 IDE(Integrated Development Environment, 통합 개발 환경) 소프트웨어 이다.

    > ※ IDE 소프트웨어

    IDE(Integrated Development Environment, 통합 개발 환경)는 코딩, 파일 관리, 배포등 프로그래밍에 필요한 다양한 작업을 수행할 수 있는 소프트웨어 이다.
  • d:\weekend_R\datadown 폴더 생성후 그 폴더에 R과 R스튜디오 설치파일를 다운로드한다.
    • http://cran.r-project.org 에서 운영체제에 맞는 파일 다운로드합니다.
    • Download R for Windows → base → Download R 3.4.1 for Windows

      - 구성요소 설치 화면에서 본인의 운영체제에 맞는 것만 선택해서 설치합니다.

    • 실행후 다음과 같이 입력합니다.

      > 1+4 : 1+4

      a<-5 : a=5 (둘다사용 가능)a : a값 확인ls() :작업공간에 있는 객체 목록rm(a) :작업공간에 있는 객체 a 삭제getwd() :현재 작업공간 확인
  • 작업공간변경 :
  • 파일 → 작업디렉토리 변경 → 변경할 폴더 선택(ezenac\R 폴더아래 새로운 폴더 mywork생성후 선택)

    > q() :R종료

    • R을 가지고 통계 및 데이터 분석을 할 수 있는 도구중 가장 일반적으로 사용되는 IDE(통합개발환경)
    • 에디터, 콘솔, 명령어 히스토리, 시각화, 파일 탐색, 패키지 관리등을 하나의 화면에서 보여준다.
    • 프로젝트 관점으로 파일 관리를 쉽게 해준다.
    • 다운로드한 RStudio-1.0.153.exe 파일을 설치한다.
    • 설치후 화면에서 콘솔창 오른쪽 상단의 확장버튼 클릭하여 소스편집기창을 생성한다.
    • RStudio는 아래의 네개의 영역으로 구분된다.

    • 네개의 영역의 위치를 사용하기 편하게 변경한다.
    • Tool → Global Options..

    • 한글 인코딩방식을 UTF-8로 설정한다.
    • Tool → Global Options…

    1) 오른쪽 끝부분에서 프로젝트 생성

    • weekend_R/mywork 폴더를 생성한다.



    • weekend_R\mywork\testR\아래에 세개의 폴더를 생성한다.
    • File 탭의 NewFolder로 세개의 폴더 생성
    • data : 분석할 데이터 저장 폴더
    • sources : 분석에 사용되는 R 소스
    • output : 시각화에서 생성된 그래프의 이미지 파일이나 수집된 데이터파일

    • R을 사용하면서 Java를 기반으로 하는 프로그램을 호출할 경우가 많은데 특히 텍스트 마이닝을 실행하고자 하는 경우 Java프로그램(JDK) 이 필요하다.
    • https://cran.r-project.org/web/packages/rJava/index.html에서 의존적인 패키지 목록을 확인할 수 있다.
    • Java 설정이 문제가 되는경우는 여러 버전의 JDK가 설치된는경우와 R버전이 너무 낮은경우에 문제가 발생하는 경우가 있다.
    • http://www.oracle.com/technetwork/java/index.html (java.sun.com) 에서 다운로드 받은후 설치
    • C:\jdk1.8.0에 설치
    • 자바설치후 환견변수 설정
    • 내컴퓨터→속성→ 고급시스템 설정
    • 시스템 변수 → 새로 만들기 - JAVAHOME - JDK 설치폴더
      - 시스템 변수 → 새로 만들기 - CLASSPATh - .;%JAVA
      HOME%\lib\tools.jar
    • 시스템 변수 → Path선택 →맨 앞이동 후 - %JAVA_HOME%\bin;
    • CMD 창에서 확인