R을 기반으로 한 빅데이터 분석 특강 후기

* 이 포스팅은 (주) 박영사에서 출판되는 한성대학교 권혁제 교수님의 “Dance with R”  저서 특강 참여 후기입니다. * 포스팅을 고려하지 않은 후기이므로 사진이 없습니다. ㅜㅜ 날씨가 추워지는 어느 날, 회사 벽에 위 그림과 같은 포스터가 붙었다. “Dance with R”  공짜.. 아니 무료 강좌입니다. 저자의 서명이 들어간 저서 증정 이벤트! 도 있다고 한다. 이렇게 좋은 기회를 놓.칠.소.냐.… Read More »

260 total views, no views today

High CPU usage query & Adding Index

CASE: 특정 쿼리가 CPU 사용률이 높아, DB hit 수 증가 시 CPU Spike(100% usage) 가 발생 Type: MSSQL 2012 이러한 경우, 이미 query 는 알고 있으나 이 쿼리에 대한 index 를 걸어주면 대부분 해결된다. 하지만, 긴급한 상황에서 Application Designer 가 없고 DBA 가 즉시 해결해야 할 경우에MS SQL 은 Wizard 가 잘 되어 있으므로, 다음과… Read More »

433 total views, no views today

log truncate interruption – open transaction

http://yoonsy.tistory.com/26 Case: DB Type: MS SQL 2012 DB 복구모델: 전체 하루는 DB log size 가 크게 늘어나 디스크 용량을 압박하고 있다. 확인해보니 log 파일 사이즈가  크게 늘어나 있고, Transaction Log backup 은 정상적으로 이루어지고 있었지만 Log 가 줄지 않고 있다. 이를 처리하기 위해 DBCC SHRINKFILE 문으로 처리하려고 하나.. 응? 파일이 줄어들지 않는다?! 위에 언급해 둔… Read More »

432 total views, no views today

Apache Giraph – From installation to Example execution

아파치 하둡 기반의 다양한 플랫폼 중에서 오늘은 Apache Giraph 를 알아보고,  예제인 SimpleShortestPathsComputation 을 실행해 보려고 한다. 먼저 Giraph 에 대한 소개를 보자(http://giraph.apache.org/) Welcome to Apache Giraph! Apache Giraph is an iterative graph processing system built for high scalability. For example, it is currently used at Facebook to analyze the social graph formed by users and… Read More »

773 total views, no views today

AWS EC2 서버 간 무 인증 연동을 위한 SSH / Key 설정

Prerequisite 본 내용은 아마존 EC 서버가 이미 생성되어 있음을 가정합니다. 본 내용은 SSHD/SSH 및 Key 관련 내용을 포함합니다. Conditions 두 대의 EC 서버가 존재한다고 가정합니다. 각 서버의 계정은 기본 계정인 ec2-user 를 사용하는 것으로 가정합니다. 각 서버의 URL 은 ec1.compute.amazonaws.com, ec2.compute.amazonaws.com 으로 가정합니다. 각 서버 SSH 접속을 위해 Amazon 에서 제공되는 기본 pem 파일 명은… Read More »

1,233 total views, 4 views today

Data Mining Algorithm List Tree

related material: 『Data Mining』-written by Ian H. Witten Basic Data Mining Algorithm ├───기본 규칙 추출: 1R ├───통계 모델링: 단순 베이지안 , 가우시안/정규분포(수치형) ├───분할정복기법: 의사결정트리 ├───연관 규칙 마이닝 ├───선형모델 │               ├수리예측: 선형 회귀 │               ├선형분류: 로지스틱 회귀 │            … Read More »

917 total views, no views today

GMAIL SMTP Relay Test using openssl(Windows Environment)

텔넷을 사용하여 SMTP 통신 테스트 방법 How to send email using simple SMTP commands via Gmail? 윈도우 openssl 설치 OpenSSL for Windows: Download Command 창을 열고 다운받은 openssl 의 bin 폴더에 접근한다. 다음을 실행

또는

그리고 다음으로 mail to, rcpt to, Data 명령어를 이용해 메일을 작성하여 테스트 메일 발송

1,083 total views, no… Read More »

1,083 total views, no views today

Terms-C4.5(Pseudo Decision Tree Guidance System)

related material: 『Data Mining』-written by Ian H. Witten Category: Divide and conquer technique: Decision Tree Divide and conquer algorithms for Decision Tree 하향식 또는 Top-down Pseudo Decision Tree  유도 방법이라고도 불림 시드니 대학의 J.Ross Quinlan(wiki)에 의해 개발 및 개선 정보 이득을 기준으로 설명한 스킴은 기본적으로 ID3 스킴과 동일 이득비를  사용하는 스킴은 수년에 걸쳐 여러 차례… Read More »

993 total views, no views today

Terms-Information gain ratio

related material: 『Data Mining』-written by Ian H. Witten Category: Divide and conquer technique: Decision Tree Information Gain Ratio : 결정 트리 구조에서, 한 속성에 대한 가지 생성은 정보 이득 값(information gain) 이 가장 큰 값을 통해 이루어진다. 하지만, 정보 이득 값이 도출 가능한 속성 값이 많은 속성을 선호하는 경향이 있어, 이를 상쇄하기 위해 이득비(gain ratio)… Read More »

1,094 total views, 1 views today

Terms – information, bit

related material: 『Data Mining』-written by Ian H. Witten Category: Divide and conquer technique: Decision Tree Information Caculating (Decision Tree) Rules yes or no 둘 중 하나라도 0일 경우 information value 는 0 yes & no 가 동일한 값이면 max information value 가 된다. 정보는 단계적(multistage) 속성을 따른다. 예를 들면 info([2,3,4]) 의 경우,데이터가 2 또는 7(=3+4)… Read More »

941 total views, no views today