Category Archives: Hadoop

Hive 에 Maria DB 로 metadata store 지정하기

Maria DB 설치 설치: http://zetawiki.com/wiki/CentOS_MariaDB_%EC%84%A4%EC%B9%98 rpm -qa 명령으로 mariadb 설치 여부 확인 repository 설정: Mariadb.repo 추가 http://zetawiki.com/wiki/YUM_MariaDB_%EC%A0%80%EC%9E%A5%EC%86%8C_%EC%B6%94%EA%B0%80 yum install 명령으로 mariadb 설치 DB Start / Change Password Check Connection / chkconfig on for service control automation 권한 설정(외부접속): https://mariadb.com/kb/en/mariadb/grant/ 드라이버 설치: https://downloads.mariadb.org/connector-java/ 드라이버 설정: http://tibang.tistory.com/454 Hive Configuration hive-site.xml: http://bigmark.tistory.com/35 1,071 total views, 3 views today

1,071 total views, 3 views today

Apache Giraph – From installation to Example execution

아파치 하둡 기반의 다양한 플랫폼 중에서 오늘은 Apache Giraph 를 알아보고,  예제인 SimpleShortestPathsComputation 을 실행해 보려고 한다. 먼저 Giraph 에 대한 소개를 보자(http://giraph.apache.org/) Welcome to Apache Giraph! Apache Giraph is an iterative graph processing system built for high scalability. For example, it is currently used at Facebook to analyze the social graph formed by users and… Read More »

1,855 total views, 3 views today

AWS EC2 서버 간 무 인증 연동을 위한 SSH / Key 설정

Prerequisite 본 내용은 아마존 EC 서버가 이미 생성되어 있음을 가정합니다. 본 내용은 SSHD/SSH 및 Key 관련 내용을 포함합니다. Conditions 두 대의 EC 서버가 존재한다고 가정합니다. 각 서버의 계정은 기본 계정인 ec2-user 를 사용하는 것으로 가정합니다. 각 서버의 URL 은 ec1.compute.amazonaws.com, ec2.compute.amazonaws.com 으로 가정합니다. 각 서버 SSH 접속을 위해 Amazon 에서 제공되는 기본 pem 파일 명은… Read More »

2,163 total views, 4 views today

[HIVE] The Outline

Apache Hive (https://cwiki.apache.org/confluence/display/Hive/Home) Hive defines a simple SQL-like query language, called QL, that enables users familiar with SQL to query the data. At the same time, this language also allows programmers who are familiar with the MapReduce framework to be able to plug in their custom mappers and reducers to perform more sophisticated analysis that… Read More »

1,800 total views, 1 views today

[Hadoop] DBInputFormat – LIMIT & OFFSET Keyword

시스템의 학습 로그를 DB 에서 긁어와 하둡에 저장하기 위해서는 Job 을 DB 관련 형식으로 초기화하기 위한 설정 클래스인 DBConfiguration DB의  쿼리 실행을 제공하는 DBInputFormat 으로  job 의 in/out 에 대한 Format 설정 가져올 데이터 형식을 제공하는 DBWritable 인터페이스, Writable 클래스를 implementation, override 하는 클래스 선언 를 이용하여 DBConfiguration.configureDB>Job 생성>DBInputFormat.setInput(job,Class<? extends DBWritable> inputClass, Query, Record Count… Read More »

1,754 total views, 1 views today

Hadoop 2.2.0 (1) – Installation #3: TroubleShootings (editing…)

*Previous: Hadoop 2.2.0 (1) – Installation #1: Prerequisites Hadoop 2.2.0 (1) – Installation #2: Installing hadoop   Troubleshoots Namenode Daemon died 로그확인 먼저 로그를 확인해보자. 하둡 로그 디렉토리($HADOOP_HOME/logs) 의hadoop-${user.name}-namenode-NameNode_host.out.nn 파일이다. 로그메시지 Java HotSpot(TM) 64-Bit Server VM warning: You have loaded library /usr/local/hadoop/hadoop-2.2.0/lib/native/libhadoop.so.1.0.0 which might have disabled stack guard. The VM will try to fix the… Read More »

4,422 total views, no views today

Hadoop 2.2.0 (1) – Installation #2: Installing hadoop (editing..)

*Previous: Hadoop 2.2.0 (1) – Installation #1: Prerequisites *Next: Hadoop 2.2.0 (1) – Installation #3: TroubleShootings Download & Installation 설치폴더 복사:  /hdinstall/hadoop-2.2.0  폴더를  /usr/local/hadoop/ 에 복사 및 하위 폴더를 각 시스템의 위치에 해당하는 폴더로 복사 * 하둡 전체 폴더 아래에는 bin, etc, include, lib, libexec, logs, sbin, share, temp, tmp 폴더가 존재한다. 실제로 rpm으로 설치하면 이 폴더들은 /usr/sbin,… Read More »

3,292 total views, 2 views today

[Hadoop] Hadoop 2.2.0 (3) – Using Sequence File

내가 보고 있는 구닥다리 버전의 “톰 화이트” 선생이 쓴 [Hadoop 완벽 가이드] 를 보면 – 다른 책도 마찬가지겠지만 – 주어진 예제 데이터(기상, 항공노선운행정보 등)을 읽어서 간단히 처리해 보는 것으로 시작했을 것 같다. 하둡을 시작하면서 나 같은 초보자들은 당연히 데이터를 하둡의 파일시스템에 원하는대로 저장, 읽기를 바랄 것이고 그 결과를 출력하기를 바랄 것이다. 하둡의 파일 종류는, 현재까지… Read More »

2,475 total views, 1 views today

Hadoop 2.2.0 (1) – Installation #1: Prerequisites

* Next Hadoop 2.2.0 (1) – Installation #2: Installing hadoop Hadoop 2.2.0 (1) – Installation #3: TroubleShootings   칼을 들었으면 썩은 무라도 베어야 하고 공부를 했으면 실행을 해봐야..;;; 라지요. 일단 Cluster Mode 설치를 해봅니다. (* 완벽히 검증한 것은 아니라 아직 내용에 오류가 있을 수 있습니다. 과감한 지적 바랍니다. 구글닥에서 작성해서 옮겼더니 문서 포맷이 많이 깨지네요..ㅜㅜ) 하둡도… Read More »

4,620 total views, no views today

Hadoop 2.2.0 MapReduce v2 – YARN (2)

* 본 포스팅은 아파치 재단의 Hadoop 공식 문서 중 stable 버전인 2.2.0(2014년 4월 19일 현재) 기준으로 작성하였습니다. 하둡의 버전 업에 관해 다음으로 알아 볼 것은 Apache Hadoop NextGen MapReduce (YARN) – 줄여서 MRv2 라고 한다고 소개하고 있다. YARN을 알아보기 전에 먼저 맵리듀스 프레임워크를 간단히 알아보자. 아파치 문서의 소개에 따르면, Map Reduce 는 신뢰성 있고 결함에 강한… Read More »

3,447 total views, 2 views today