Jak zainstalować i skonfigurować Apache Hadoop na jednym węźle w CentOS 7

Apache Hadoop to platforma typu open source przeznaczona do rozproszonego przechowywania i przetwarzania danych Big Data w klastrach komputerowych. Projekt opiera się na następujących komponentach:

Hadoop Common – zawiera biblioteki Java i narzędzia potrzebne innym modułom Hadoop.
HDFS – rozproszony system plików Hadoop – skalowalny system plików oparty na Javie rozproszony na wielu węzłach.
MapReduce – framework YARN do równoległego przetwarzania dużych zbiorów danych.
Hadoop YARN: struktura zarządzania zasobami klastra.

W tym artykule dowiesz się, jak zainstalować Apache Hadoop w klastrze z jednym węzłem w CentOS 7 (działa również w RHEL 7 i Fedora 23+ > wersje). Ten typ konfiguracji nazywany jest także trybem pseudorozproszonym Hadoop.

Krok 1: Zainstaluj Javę na CentOS 7

1. Przed kontynuowaniem instalacji Java najpierw zaloguj się jako użytkownik root lub użytkownik z uprawnieniami roota i skonfiguruj nazwę hosta komputera za pomocą następującego polecenia.

hostnamectl set-hostname master

Dodaj także nowy rekord w pliku hosts z własną nazwą FQDN komputera, aby wskazywał adres IP systemu.

vi /etc/hosts

Dodaj poniższą linię:

192.168.1.41 master.hadoop.lan

Zastąp powyższe rekordy nazwy hosta i nazwy FQDN własnymi ustawieniami.

2. Następnie przejdź do strony pobierania Oracle Java i pobierz najnowszą wersję Java SE Development Kit 8 w swoim systemie za pomocą curl Komenda:

curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" “http://download.oracle.com/otn-pub/java/jdk/8u92-b14/jdk-8u92-linux-x64.rpm”

3. Po zakończeniu pobierania pliku binarnego Java zainstaluj pakiet, wydając poniższe polecenie:

rpm -Uvh jdk-8u92-linux-x64.rpm

Krok 2: Zainstaluj platformę Hadoop w CentOS 7

4. Następnie utwórz w swoim systemie nowe konto użytkownika bez uprawnień roota, które wykorzystamy do ścieżki instalacji Hadoop i środowiska pracy. Nowy katalog główny konta będzie znajdować się w katalogu /opt/hadoop.

useradd -d /opt/hadoop hadoop
passwd hadoop

5. W następnym kroku odwiedź stronę Apache Hadoop, aby uzyskać link do najnowszej stabilnej wersji i pobrać archiwum na swój system.

curl -O http://apache.javapipe.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz

6. Wyodrębnij archiwum i skopiuj zawartość katalogu do ścieżki głównej konta Hadoop. Upewnij się także, że odpowiednio zmieniłeś uprawnienia do skopiowanych plików.

 tar xfz hadoop-2.7.2.tar.gz
cp -rf hadoop-2.7.2/* /opt/hadoop/
chown -R hadoop:hadoop /opt/hadoop/

7. Następnie zaloguj się jako użytkownik hadoop i skonfiguruj Hadoop oraz Zmienne środowiskowe Java w swoim systemie, edytując plik 7. plik.bash_profile.

su - hadoop
vi .bash_profile

Dodaj następujące wiersze na końcu pliku:

## JAVA env variables
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar

## HADOOP env variables
export HADOOP_HOME=/opt/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

8. Teraz zainicjuj zmienne środowiskowe i sprawdź ich status, wydając poniższe polecenia:

source .bash_profile
echo $HADOOP_HOME
echo $JAVA_HOME

9. Na koniec skonfiguruj uwierzytelnianie oparte na kluczu ssh dla konta hadoop, uruchamiając poniższe polecenia (zamień nazwę hosta lub FQDN > odpowiednio względem polecenia ssh-copy-id).

Pozostaw również pole hasło puste, aby automatycznie logować się przez ssh.

ssh-keygen -t rsa
ssh-copy-id master.hadoop.lan