Najlepsze praktyki dotyczące wdrażania serwera Hadoop w systemie CentOS/RHEL 7 — część 1

W tej serii artykułów omówimy cały budynek Cloudera Hadoop Cluster Building, stosując najlepsze praktyki zalecane przez Vendor i Industrial.

Instalacja i wykonanie OS na poziomie OS Wymagania wstępne to pierwszy krok do zbudowania klastra Hadoop. Hadoop może działać na różnych platformach Linux: CentOS, RedHat, Ubuntu, Debian<, SUSE itp. W przypadku produkcji w czasie rzeczywistym większość klastrów Hadoop jest zbudowana na bazie RHEL/CentOS, my w tej serii samouczków do demonstracji użyje CentOS 7.

W organizacji instalację systemu operacyjnego można wykonać za pomocą kickstart. Jeśli jest to klaster składający się z 3 do 4 węzłów, możliwa jest instalacja ręczna, ale jeśli budujemy duży klaster z więcej niż 10 węzłami, instalowanie systemów operacyjnych jeden po drugim będzie uciążliwe. W tym scenariuszu pojawia się metoda Kickstart, możemy przystąpić do masowej instalacji za pomocą kickstartu.

Osiągnięcie dobrej wydajności w Środowisku Hadoop zależy od zapewnienia odpowiedniego sprzętu i oprogramowania. Dlatego budowanie produkcyjnego klastra Hadoop wiąże się z wieloma rozważaniami dotyczącymi sprzętu i oprogramowania.

W tym artykule omówimy różne testy porównawcze dotyczące instalacji systemu operacyjnego i kilka najlepszych praktyk dotyczących wdrażania Cloudera Hadoop Cluster Server na CentOS/RHEL 7.

Ważne uwagi i najlepsze praktyki dotyczące wdrażania serwera Hadoop

Poniżej znajdują się najlepsze praktyki dotyczące konfigurowania wdrażania Cloudera Hadoop Cluster Server w CentOS/RHEL 7.

Serwery Hadoop nie wymagają standardowych serwerów korporacyjnych do zbudowania klastra, wymagają standardowego sprzętu.
W klastrze produkcyjnym zaleca się posiadanie od 8 do 12 dysków z danymi. W zależności od charakteru obciążenia pracą musimy o tym zdecydować. Jeśli klaster jest przeznaczony do zastosowań wymagających dużej mocy obliczeniowej, najlepszą praktyką jest posiadanie od 4 do 6 dysków, aby uniknąć problemów we/wy.
Dyski z danymi powinny być partycjonowane indywidualnie, np. począwszy od /data01 do /data10.
Konfiguracja RAID nie jest zalecana dla węzłów roboczych, ponieważ sam Hadoop zapewnia odporność na awarie danych, domyślnie replikując bloki w 3. Dlatego JBOD jest najlepszy dla węzłów roboczych.
W przypadku serwerów głównych najlepszą praktyką jest RAID 1.
Domyślny system plików w CentOS/RHEL 7.x to XFS. Hadoop obsługuje XFS, ext3 i ext4. Zalecanym systemem plików jest ext3, ponieważ został przetestowany pod kątem dobrej wydajności.
Wszystkie serwery powinny mieć tę samą wersję systemu operacyjnego, przynajmniej tę samą wersję pomniejszą.
Najlepszą praktyką jest posiadanie jednorodnego sprzętu (wszystkie węzły robocze powinny mieć tę samą charakterystykę sprzętu (RAM, miejsce na dysku i rdzeń itp.).
W zależności od obciążenia klastra (zrównoważone obciążenie, intensywne obliczenia, intensywne operacje we/wy) i rozmiaru, planowanie zasobów (RAM, CPU) na serwer będzie się różnić.

Znajdź poniższy przykład partycjonowania dysku serwerów o pojemności 24 TB.

Instalowanie CentOS 7 do wdrożenia serwera Hadoop

Rzeczy, które musisz wiedzieć przed instalacją serwera CentOS 7 dla Serwera Hadoop.

Minimalna instalacja jest wystarczająca dla Serwerów Hadoop (węzłów roboczych), w niektórych przypadkach GUI można zainstalować tylko dla serwerów głównych lub serwerów zarządzających, gdzie możemy używać przeglądarek do interfejsów internetowych Narzędzia do zarządzania.
Konfigurowanie sieci, nazwy hosta i innych ustawień związanych z systemem operacyjnym można wykonać po instalacji systemu operacyjnego.
W czasie rzeczywistym dostawcy serwerów będą mieli własną konsolę do interakcji i zarządzania serwerami, na przykład serwery firmy Dell będą wyposażone w iDRAC, czyli urządzenie wbudowane w serwery. Za pomocą tego interfejsu iDRAC możemy zainstalować system operacyjny z obrazem systemu operacyjnego w naszym systemie lokalnym.

W tym artykule zainstalowaliśmy system operacyjny (CentOS 7) na maszynie wirtualnej VMware. W tym przypadku nie będziemy mieć wielu dysków do tworzenia partycji. CentOS jest podobny do RHEL (ta sama funkcjonalność), więc zobaczymy, jak zainstalować CentOS.

1. Rozpocznij od pobrania obrazu ISO CentOS 7.x w lokalnym systemie Windows i wybierz go podczas uruchamiania maszyny wirtualnej. Wybierz „Zainstaluj CentOS 7”, jak pokazano.

2. Wybierz Język, domyślnym będzie angielski i kliknij kontynuuj.

3. Wybór oprogramowania – wybierz „Minimalna instalacja” i kliknij „Gotowe”.

4. Ustaw hasło roota, ponieważ poprosi nas o ustawienie.

5. Miejsce docelowe instalacji – jest to ważny krok, na którym należy zachować ostrożność. Musimy wybrać dysk, na którym ma zostać zainstalowany system operacyjny, należy wybrać dysk dedykowany dla systemu operacyjnego. Kliknij „Miejsce docelowe instalacji” i wybierz dysk. W czasie rzeczywistym będzie tam wiele dysków, musimy wybrać, najlepiej „sda”.

6. Inne opcje przechowywania – wybierz drugą opcję (skonfiguruję partycjonowanie), aby skonfigurować partycjonowanie powiązane z systemem operacyjnym, takie jak /var, / var/log, /home, /tmp, /opt, /swap.

7. Po zakończeniu rozpocznij instalację.

8. Po zakończeniu instalacji uruchom ponownie serwer.

9. Zaloguj się do serwera i ustaw nazwę hosta.

hostnamectl status
hostnamectl set-hostname tecmint
hostnamectl status

Streszczenie

W tym artykule omówiliśmy etapy instalacji systemu operacyjnego i najlepsze praktyki dotyczące partycjonowania systemu plików. Są to wszystko ogólne wytyczne. W zależności od charakteru obciążenia może być konieczne skupienie się na większej liczbie niuansów, aby osiągnąć najlepszą wydajność klastra. Planowanie klastrów to sztuka dla administratora Hadoop. W następnym artykule szczegółowo omówimy wymagania wstępne na poziomie systemu operacyjnego i wzmacnianie zabezpieczeń.