R을 기반으로 한 빅데이터 분석 특강 후기

By | Y2016Y2016-11M-D

Dance with R* 이 포스팅은 (주) 박영사에서 출판되는 한성대학교 권혁제 교수님의 “Dance with R”  저서 특강 참여 후기입니다.

* 포스팅을 고려하지 않은 후기이므로 사진이 없습니다. ㅜㅜ

날씨가 추워지는 어느 날, 회사 벽에 위 그림과 같은 포스터가 붙었다.

“Dance with R” 

공짜.. 아니 무료 강좌입니다. 저자의 서명이 들어간 저서 증정 이벤트! 도 있다고 한다.

이렇게 좋은 기회를 놓.칠.소.냐.

잽싸게 신청을 하려 보니, 포스터에 있는 연락처로 연락을 하시라… 고 한다.
(끝나고 강상희 차장님께 책 받는 사진 찍혔습니다.  인증샷 주시나요?..ㅜㅜ)


 

사실, 하둡 플랫폼을 공부하고 있는 입장에서 제일 난감했던 부분이 뭐냐고 한다면.

플랫폼은 준비 되었으나, 무엇을(What), 어떻게(How) 분석해야 하며, 결과는 또 어떻게 해석을..

이 부분에 대해 많은 고민을 했으나 통알못(통계를 잘 알지 못하는)이라 늘 답답한 부분이 있었다. 나름대로 여기저기 알아보니 통계분석모델, 신경망.. 온갖 것들이 나온다.

그 와중에 툴에 대한 언급도 많이 있는데, 통계에는 SPSS, SAS.. (공대생들은 다 이름은 들어본.. 맞나?) 등등. 그런데 R 이라는 이름이 종종 보인다.

뭐 있나? 이번 기회에  확실히 알아보는 거지.

신청하니 거의 자리가 다 찼네… 신청자가 많아서 좀만 늦게 봤어도 못 참가할뻔 했다.

가까운 곳에 있어서 늑장부리며 갔더니 이미 사람들이 와글와글..

요즘 핫! 한 데이터 분석에 대한 사람들의 관심이 얼마나 높은지 알 수 있었다.


각설하고, 

일단 노트해 둔 강의 내용도 조금 정리해 본다.

권혁제 교수님은 한성대, 경제학과 교수님이랍니다.

사실 첫 시간은 오늘 강의에 대해 돌려가며 말씀하시는데 무슨 내용을 말씀하실지 몰라 다들  조금은 멍~ 하니(ㅜㅜ) 듣는 시간이었다. 

1교시: Overview

  • 통계 – 가치에 대한 분석
    예) 발전 계획을 위한 토대를 세울 때, 분석의 기초가 되는 데이터는?
  • 집단을 아우르는 개념의 변화는
    • 기존: 계단식 변화
    • 최근: 단일화/세부화(수직화->수평화) 된 변화 로 나아간다.
  • 최근의 개별적 개념(개체) 에 대한 속성: liquidity / Flexibility / independent
    • 지속적/가속화되는 변화에 대해 분석과 이에 대한 적응능력이 필요하다.
    • Data<–>Optimization<–>Theory<–>Visualization<–>Tool ← Data Science
  • 분석의 “이론” 이 성립되지 않은 상태에서의 “도구” 는 최대의 활용성을 끄집어 낼 수 없다.
  • 따라서 다음의 능력이 요구된다:
    • 정보 획득 능력
    • 정보 분석 능력
    • 정보 해석 능력

1 교시 결론: 변화에 의해 새로운 도구가 등장했을 때, 이를 최대한 활용하기 위해서는 이론이 뒷받침되어야 한다. 이는 Data Science 에서도 마찬가지이다.

2교시: Big Data? Data Science! 

  • 기존의 이론에서는
    • Modeling(Statistical, Regression..) 을 이용한 분석이 일반적이었다.
    • 정규분포를 벗어나는, 모델링에서 벗어나는 현실과의 괴리는 여러가지 방법으로 adjustment 과정을 거쳐 모델링에 부합하도록 처리해왔다.
      • 데이터를 맞출 것인가 Parametric?
      • 현실에 맞는 방식으로 조정할 것인가? Non Parametric?
  • 통계에 대한 부분은 바라보는 시점에 따라 여러 용어로 설명되어 왔다.
    • 예를 들어 DB<->Statistical Theory 간에는 결국 같은 내용 다른 용어
      • Primary Key: 관찰치:Row
      • 각 field: variables:column
    • 이러한 것들은 모두 Modeling / Structure (정형화) 된 데이터에 대한 것이다.a#)
  • 하지만, 최근에는
    • 비정형화 된 데이터의 등장(하둡에서 말하는 Sparse Data의 개념인 것 같음)
    • Modeling 이 아닌 Frequency 기반의 분석->Pattern 분석이 대두됨
  • Analysis vs Analytics
    • Analysis: 좁은 범위a#) 의 통계
    • Analytics: 포괄적 범위의 통계
      • Analytics / Pattern 분석의 예를 들자면:
        Data ETL 시,특정 key 에 대한 다른 field 의 Data frequency  를 추출 시, 이 값은 조건부 확률P(A)->P(B|A)이 될 수 있다.
        예)  이마트에서 귀저기를 산 사람들 중에서 맥주를 산 사람의 빈도
           -> 인과관계가 명확하지 않아 Model 은 될 수 없으나 Pattern 은 존재함.
      • 이 결과는 모형(Modeling) 에 의한 것이 아닌 지식(Knowledge)->어떠한 개체 대한 정의에 대한 의미의 확장이 이루어 진다고 볼 수 있다.
      • 이는 확률의 입장에서 사전확률->사후확률(베이지안 등) 로 변화하였다고 볼 수 있다.
        예) AIDS 양성 반응자 중에서 실제 감염자 확률은 100% 가 아니다.
  • 이러한 과정에서 데이터들의 속성(attribute)를 통해 한정된 범위에서 지식을 취한다.
    • Quintessence -> Data 내의 attribute 파악을 통한 좁은 지식
  • 결과적으로는 백색잡음과 같은 대규모의 데이터의 창고(DataWarehouse)에서 원하는 결과를 취하기 위해서는
    • Data Mining 이 필요!!!: DATA -> Knowledge
    • 3v(volume/velocity/variety)의 특성을 지닌 Big Data라 하더라도,  Data Mining 과 적절한 분석(Analytics) 가 제공되어야 한다 -> Data Science
  • SEMMA
    • S(Statistic;통계)
    • E(Explorer;분포)
    • M(Modification;분포에 대한 분석/과정에 맞게?)
    • M(Model)
    • A(Assess)

* 2교시 결론: IT 에서 언급하는 단순한 Data volume 기반의 Big Data 보다 더 나아가서, Data Science 를 통한 전반적인 데이터 분석이 뒷받침되어야 의미있는 데이터 활용이 이루어질 수 있다.

3 교시: Data Set / R Overview

  • Set & Function
    • SET -> Data Structure -> Matrix 와 같은 개념으로 볼 수 있다.
    • function: Domain 간의 Mapping Rule 이다.
    • R 에서는 Data Set 을 단위로 해서 Function 적용이 가능하다.
      • 주) Java 등의 언어에서는 Collection 개념에서 각 원소에 대한 반복적 계산을 해야 하는 것을, R 에서는 Data Set 내의 member 들을 한번에 각각 계산하여 복잡한 Data Set 에 대한 계산을 용이하게 해 준다.
  • R 은 Language 와 같은 개념으로 Function 을 이용하여 사용하는 도구이다.

3 교시 요약: R 은 Data Set 기반으로 계산이 가능하며, Function 을 지원하는 Language Type 의 도구이다.

 


강좌가 끝나고 나니 하둡이라는 빅 데이터 툴과 데이터 분석에 대한 접점에 어느 정도  다가간 느낌이다.

다만, 좀 더 나아가기 위해서는 R 을 가지고 실무 기반의 데이터를 가지고 직접 활용해보는 기회가 더 아쉬워진다.


 

* R-Practice – R 또는 R Studio 에서 실습

통계분석을 도와주는 도구는 SAS, SPSS, R, Excel의 분석도구와 VBA 등이 주로 사용됩니다. 오픈소스와 쉬운 사용방법으로 R (Korea Mirror Download)이 통계분석의 표준으로 자리잡아 가고 있습니다.

R Studio (Free Download)는 코드 직접실행, 구문강조, 괄호 자동입력지원, 명령어 완성, 다양한 단축키, 데이터 보기 및 가져오기, 그래픽 조작, 프로젝트 관리, 버전 관리 등의 다양한 기능을 제공합니다.

> Tom<-3

> Judy<-4

> Tom*Judy

[1] 12

> x<-c(3,4)

> sqrt(3^2+4^2)

[1] 5

> sqrt(x)

[1]  9 16

> sum(x^2)

[1] 25

> sqrt(x^2)

[1] 3 4

> sqrt(sum(x^2))

[1] 5

> #Package

> seq(1,10)

[1]  1  2  3  4  5  6  7  8  9 10

#Standard Variance

>x<-seq(1,10)

> sqrt(sum((x-mean(x))^2)/(length(x)-1))

[1] 3.02765

> y<-seq(1,5)

> sqrt(sum((y-mean(y))^2)/(length(y)-1))

[1] 1.581139

> z<-seq(1,100)

> sqrt(sum((z-mean(z))^2)/(length(z)-1))

[1] 29.01149

> var(x)

[1] 9.166667

> var(y)

[1] 2.5

> var(z)

[1] 841.6667

> sd(x)

[1] 3.02765

> sd(y)

[1] 1.581139

> sd(z)

[1] 29.01149

 

973 total views, 3 views today

댓글 남기기