Please assign a menu to the primary menu location under menu

hadoop

hadoop

Hadoop HDFS over HTTP (HttpFS)

HttpFS는 HDFSProxy를 대체하기 위해서 클라우데라(Cloudera)에서 만들었으며 HTTP REST API로 구현 되어 손쉽게 HDFS로 접근을 할수 있습니다. 이 글에서는 HttpFS와 Red Gate사의 HDFS Explorer 툴을 가지고 HDFS에 접근 하는 방법에 대해서 다룰것입니다. (Tested : Apache Hadoop 2.2.0) 하둡이 설치 되어있다는 가정하에 진행합니다. 1. hadoop 관련 설정 – core-site.xml 아래의 userid 부분에는 시스템에 존재하는 실제 계정을 넣으시면 됩니다. 예제에서는 hadoop을 실행하는 사용자인 hadoop 을 넣었습니다. hadoop.proxyuser..hosts hadoop.proxyuser..groups <?xml version=”1.0″ encoding=”UTF-8″?> <?xml-stylesheet type=”text/xsl” href=”configuration.xsl”?> <!– Licensed under the Apache License, Version 2.0 (the “License”); you may not use this file except in compliance with the License. You may obtain a copy of the

Hadoop – DFS Block size

Hadoop의 DFS 블록 사이즈 변경 방법입니다. conf/hdfs-site.xml 설정 파일에 <configuration>..</configuration> 구문 사이에 아래 예제 처럼 넣으면 됩니다. Block size 단위는 Byte 입니다. 64MB : 67108864 128MB : 134217728 256MB : 268435456 <?xml version=”1.0″?> <?xml-stylesheet type=”text/xsl” href=”configuration.xsl”?> <!– Put site-specific property overrides in this file. –> <configuration> <property> <name>dfs.data.dir</name> <value>/opt/hadoop/dfs/name/data</value> <final>true</final> </property> <property> <name>dfs.name.dir</name> <value>/opt/hadoop/dfs/name</value> <final>true</final> </property> <property> <name>dfs.replication</name> <value>2</value> </property> <property> <name>dfs.block.size</name> <value>134217728</value> </property> </configuration>

How to install Flume-NG (Pseudo-Distributed Mode)

Flume? 간단하게 설명 드리자면 Flume은 로그 수집기입니다. 수많은 서버에 분산되어 있는 많은 양의 로그 데이터를 Flume을 통해서 HDFS(hadoop distributed file system)으로 저장할수 있도록 해줍니다. – Flume-based architecture. Flume은 크게 Source, Channel, Sink 모듈로 구성되어 있습니다. – Source 데이터를 수집하는 Logical node를 말합니다. log data, stream, socket, database, avro, irc, file 등등의 데이터 – Channel source로 부터 받은 데이터를 sink(target)으로 넘기기전에 데이터를 쌓아두는 곳입니다. 간단하게 말하자면 트랜잭션의 보장을 위한 저장 공간입니다. – Sink 데이터를 보내는 것을 말합니다. 예를들면 log data, stream, socket, database, avro, irc, file 등등을 HDFS로 저장 본 글은 CentOS 6.4 (x86_64)에서 테스트 되었으며 Hadoop이 설치 되어있다는 가정하에 진행하였습니다.

Hadoop – HDFS NFS Gateway

Hadoop의 HDFS(Hadoop Distributed File System)를 NFS(Network File System) 서버로 활용 할수 있습니다.   Hadoop에서 NFSv3 버전과 Portmap 서비스를 지원 하므로 리눅스 서버의 실행 중인 nfs, rpcbind 서비스를 중지 합니다. # service nfs stop # service rpcbind stop   Hadoop의 Portmap, NFSv3를 UNIX signal handlers로 서비스를 실행 시킵니다. # hdfs –help | egrep ‘portmap|nfs3’   portmap            run a portmap service nfs3                 run an NFS version 3 gateway # hdfs portmap & # hdfs nfs3 & Portmap, NFS 서비스 확인 # rpcinfo -p localhost (PortmapMapping-100005:1:6:4242) (PortmapMapping-100000:2:17:111) (PortmapMapping-100005:3:6:4242) (PortmapMapping-100005:2:17:4242) (PortmapMapping-100003:3:6:2049) (PortmapMapping-100000:2:6:111)

How to install Hadoop 2.2.0 (Pseudo-Distributed Mode)

Hadoop 2.2.0 버전의 기준으로 작성 되었습니다. 1. hadoop 사용자 추가 # useradd hadoop # passwd hadoop   2. SSH 설정 로컬 SSH 접속시 비밀번호 요구 하지 않도록 설정 # su – hadoop $ ssh-keygen -t dsa -P ” -f ~/.ssh/id_dsa $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys $ chmod 644 ~/.ssh/authorized_keys   – 접속 테스트 $ ssh localhost Last login: Thu Oct 17 11:49:09 2013 from localhost.localdomain Hello?   3. JDK 설치 http://www.oracle.com/technetwork/java/javase/downloads/index.html $ curl -LO “http://download.oracle.com/otn-pub/java/jdk/7u55-b13/jdk-7u55-linux-x64.tar.gz” -H ‘Cookie: oraclelicense=accept-securebackup-cookie’ $ tar xzvf jdk-7u55-linux-x64.tar.gz $ mv jdk1.7.0_55 jdk   – 환경 변수 등록 $ nano ~/.bash_profile # JAVA export JAVA_HOME=$HOME/jdk export PATH=$PATH:$JAVA_HOME/bin

1 2