Konfigurowanie klastrów w usłudze HDInsight przy użyciu usług Apache Hadoop, Spark, Kafka i innych
Artykuł
Z tego artykułu dowiesz się, jak skonfigurować i skonfigurować platformy Apache Hadoop, Apache Spark, Apache Kafka, interactive query lub Apache HBase w usłudze Azure HDInsight. Dowiesz się również, jak dostosować klastry i dodać zabezpieczenia, dołączając je do domeny.
Klaster Hadoop składa się z kilku maszyn wirtualnych (maszyn wirtualnych, nazywanych również węzłami), które są używane do rozproszonego przetwarzania zadań. Usługa HDInsight obsługuje szczegóły implementacji instalacji i konfiguracji poszczególnych węzłów. Podajesz tylko ogólne informacje o konfiguracji.
Ważne
Rozliczenia klastra usługi HDInsight są uruchamiane po utworzeniu klastra i zatrzymuje się po usunięciu klastra. Rozliczenia są naliczane proporcjonalnie na minutę, więc zawsze usuwaj klaster, gdy nie jest już używany. Dowiedz się, jak usunąć klaster.
W tym artykule opisano konfigurację w witrynie Azure Portal, w której można utworzyć klaster usługi HDInsight.
Podstawy
Szczegóły projektu
Usługa Azure Resource Manager ułatwia pracę z zasobami w aplikacji jako grupą, która jest znana jako grupa zasobów platformy Azure. Możesz wdrożyć, zaktualizować, monitorować lub usunąć wszystkie zasoby aplikacji w ramach jednej skoordynowanej operacji.
Szczegóły klastra
Szczegóły klastra obejmują nazwę, region, typ i wersję.
Nazwa klastra
Nazwy klastrów usługi HDInsight mają następujące ograniczenia:
Dozwolone znaki: a-z, 0-9 i A-Z
Maksymalna długość: 59
Nazwy zarezerwowane: aplikacje
Nazewnictwo klastra: zakres dotyczy całej platformy Azure we wszystkich subskrypcjach. Nazwa klastra musi być unikatowa na całym świecie. Pierwsze sześć znaków musi być unikatowe w sieci wirtualnej.
Region (Region)
Nie musisz jawnie określać lokalizacji klastra. Klaster znajduje się w tej samej lokalizacji co magazyn domyślny. Aby uzyskać listę obsługiwanych regionów, wybierz listę rozwijaną Region w cenniku usługi HDInsight.
Typ klastra
W poniższej tabeli usługa HDInsight obecnie udostępnia typy klastrów, z których każdy ma zestaw składników zapewniających pewne funkcje.
Ważne
Klastry usługi HDInsight są dostępne w różnych typach, z których każdy jest przeznaczony dla jednego obciążenia lub technologii. Żadna obsługiwana metoda nie tworzy klastra, który łączy wiele typów, takich jak HBase w jednym klastrze. Jeśli twoje rozwiązanie wymaga technologii, które są rozmieszczone w wielu typach klastrów usługi HDInsight, sieć wirtualna platformy Azure może połączyć wymagane typy klastrów.
Za pomocą klastrów usługi HDInsight można skonfigurować dwa konta użytkowników podczas tworzenia klastra:
Nazwa użytkownika logowania klastra: domyślna nazwa użytkownika to administrator. Używa on podstawowej konfiguracji w witrynie Azure Portal. Jest on również nazywany użytkownikiem klastra lub użytkownikiem HTTP.
Nazwa użytkownika protokołu Secure Shell (SSH): służy do nawiązywania połączenia z klastrem za pośrednictwem protokołu SSH. Aby uzyskać więcej informacji, zobacz Używanie protokołu SSH w usłudze HDInsight.
Nazwa użytkownika HTTP ma następujące ograniczenia:
Mimo że lokalna instalacja usługi Hadoop używa rozproszonego systemu plików Hadoop (HDFS) do magazynowania w klastrze, w chmurze używasz punktów końcowych magazynu połączonych z klastrem. Użycie magazynu w chmurze oznacza, że można bezpiecznie usunąć klastry usługi HDInsight używane do obliczeń, zachowując jednocześnie dane.
Klastry usługi HDInsight mogą używać następujących opcji magazynu:
Azure Data Lake Storage Gen2
Ogólnego przeznaczenia usługi Azure Storage w wersji 2
Blokowy obiekt blob usługi Azure Storage (obsługiwany tylko jako magazyn pomocniczy)
Używanie większej liczby kont magazynu w innej lokalizacji niż klaster usługi HDInsight nie jest obsługiwane.
Podczas konfigurowania dla domyślnego punktu końcowego magazynu należy określić kontener obiektów blob konta magazynu lub usługi Data Lake Storage. Domyślny magazyn zawiera dzienniki aplikacji i systemu. Opcjonalnie możesz określić więcej połączonych kont magazynu i kont usługi Data Lake Storage, do których klaster ma dostęp. Klaster usługi HDInsight i zależne konta magazynu muszą znajdować się w tej samej lokalizacji platformy Azure.
Nie włączaj bezpiecznego transferu magazynu po utworzeniu klastra, ponieważ użycie konta magazynu może powodować błędy. Lepiej jest utworzyć nowy klaster przy użyciu konta magazynu z włączonym bezpiecznym transferem.
Usługa HDInsight nie przesyła automatycznie, przenosi ani nie kopiuje danych przechowywanych w magazynie z jednego regionu do innego.
Ustawienia magazynu metadanych
Możesz utworzyć opcjonalne magazyny metadanych Hive lub Apache Oozie. Nie wszystkie typy klastrów obsługują magazyny metadanych, a usługa Azure Synapse Analytics nie jest zgodna z magazynami metadanych.
Podczas tworzenia niestandardowego magazynu metadanych nie używaj łączników ani spacji w nazwie bazy danych. Te znaki mogą spowodować niepowodzenie procesu tworzenia klastra.
Baza danych SQL dla programu Hive
Jeśli chcesz zachować tabele programu Hive po usunięciu klastra usługi HDInsight, użyj niestandardowego magazynu metadanych. Następnie możesz dołączyć magazyn metadanych do innego klastra usługi HDInsight.
Nie można udostępnić magazynu metadanych usługi HDInsight utworzonego dla jednej wersji klastra usługi HDInsight w różnych wersjach klastra usługi HDInsight. Aby uzyskać listę wersji usługi HDInsight, zobacz Obsługiwane wersje usługi HDInsight.
Domyślny magazyn metadanych udostępnia bazę danych SQL z limitem 5 jednostek DTU w warstwie Podstawowa (nie można uaktualnić). Nadaje się do podstawowych celów testowych. W przypadku dużych lub produkcyjnych obciążeń zalecamy przeprowadzenie migracji do zewnętrznego magazynu metadanych.
Baza danych SQL dla usługi Oozie
Aby zwiększyć wydajność podczas korzystania z usługi Oozie, użyj niestandardowego magazynu metadanych. Magazyn metadanych może również zapewnić dostęp do danych zadania Oozie po usunięciu klastra.
System Ambari służy do monitorowania klastrów usługi HDInsight, wprowadzania zmian konfiguracji oraz przechowywania informacji o zarządzaniu klastrem i historii zadań. Dzięki funkcji niestandardowej bazy danych Ambari można wdrożyć nowy klaster i skonfigurować narzędzie Ambari w zewnętrznej bazie danych, którą zarządzasz. Aby uzyskać więcej informacji, zobacz Niestandardowa baza danych Ambari.
Nie można ponownie użyć niestandardowego magazynu metadanych Oozie. Aby użyć niestandardowego magazynu metadanych Oozie, należy podać pustą bazę danych SQL podczas tworzenia klastra usługi HDInsight.
Zabezpieczenia i sieć
Pakiet Enterprise Security
W przypadku typów klastrów Hadoop, Spark, HBase, Kafka i Interactive Query można włączyć pakiet zabezpieczeń przedsiębiorstwa. Ten pakiet zapewnia opcję bardziej bezpiecznej konfiguracji klastra przy użyciu platformy Apache Ranger i integracji z firmą Microsoft Entra. Aby uzyskać więcej informacji, zobacz Omówienie zabezpieczeń przedsiębiorstwa w usłudze Azure HDInsight.
Pakiet zabezpieczeń przedsiębiorstwa umożliwia integrację usługi HDInsight z usługami Microsoft Entra i Apache Ranger. Pakiet zabezpieczeń przedsiębiorstwa umożliwia tworzenie wielu użytkowników.
Aby uzyskać więcej informacji na temat tworzenia przyłączonego do domeny klastra usługi HDInsight, zobacz Tworzenie przyłączonego do domeny środowiska piaskownicy usługi HDInsight.
Jeśli twoje rozwiązanie wymaga technologii, które są rozmieszczone w wielu typach klastrów usługi HDInsight, sieć wirtualna platformy Azure może połączyć wymagane typy klastrów. Ta konfiguracja umożliwia klastrom i wszystkim wdrażanemu w nich kodowi bezpośrednie komunikowanie się ze sobą.
Opłaty są naliczane za użycie węzłów, o ile klaster istnieje. Rozliczenia są uruchamiane po utworzeniu klastra i zatrzymaniu się po usunięciu klastra. Klastry nie mogą zostać cofnięty ani wstrzymane.
Konfiguracja węzła
Każdy typ klastra ma własną liczbę węzłów, terminologię dla węzłów i domyślny rozmiar maszyny wirtualnej. W poniższej tabeli liczba węzłów dla każdego typu węzła jest wymieniona w nawiasach.
Typ
Węzły
Diagram
Hadoop
Węzeł główny (2), węzeł roboczy (1+)
HBase
Serwer główny (2), serwer regionu (1+), węzeł Master/ZooKeeper (3)
platforma Spark
Węzeł główny (2), węzeł roboczy (1+), węzeł ZooKeeper (3) (bezpłatny dla rozmiaru maszyny wirtualnej usługi ZooKeeper A1)
Koszt klastrów usługi HDInsight określany przez liczbę węzłów i rozmiary maszyn wirtualnych dla węzłów.
Różne typy klastrów mają różne typy węzłów, liczby węzłów i rozmiary węzłów:
Domyślna wartość typu klastra hadoop:
Dwa węzły główne
Cztery węzły robocze
Jeśli próbujesz użyć usługi HDInsight, zalecamy użycie jednego węzła roboczego. Aby uzyskać więcej informacji na temat cennika usługi HDInsight, zobacz Cennik usługi HDInsight.
Uwaga
Limit rozmiaru klastra różni się w zależności od subskrypcji platformy Azure. Skontaktuj się z pomocą techniczną dotyczącą rozliczeń platformy Azure, aby zwiększyć limit.
W przypadku konfigurowania klastra za pomocą witryny Azure Portal rozmiar węzła jest dostępny za pośrednictwem karty Konfiguracja i cennik . W portalu można również zobaczyć koszt skojarzony z różnymi rozmiarami węzłów.
Rozmiary maszyn wirtualnych
Podczas wdrażania klastrów wybierz zasoby obliczeniowe na podstawie rozwiązania, które planujesz wdrożyć. Następujące maszyny wirtualne są używane w klastrach usługi HDInsight:
Aby dowiedzieć się, jakiej wartości należy użyć do określenia rozmiaru maszyny wirtualnej podczas tworzenia klastra przy użyciu różnych zestawów SDK lub programu Azure PowerShell, zobacz Rozmiary maszyn wirtualnych do użycia w klastrach usługi HDInsight. W tym połączonym artykule użyj wartości w kolumnie Size (Rozmiar ) tabel.
Ważne
Jeśli potrzebujesz więcej niż 32 węzłów roboczych w klastrze, musisz wybrać rozmiar węzła głównego z co najmniej 8 rdzeniami i 14 GB pamięci RAM.
Aby uzyskać więcej informacji, zobacz Rozmiary maszyn wirtualnych. Aby uzyskać informacje o cenach różnych rozmiarów, zobacz Cennik usługi HDInsight.
Załącznik dysku
Uwaga
Dodane dyski są konfigurowane tylko dla katalogów lokalnych menedżera węzłów, a nie dla katalogów węzłów danych.
Klaster usługi HDInsight zawiera wstępnie zdefiniowane miejsce na dysku na podstawie wersji. Uruchamianie niektórych dużych aplikacji może prowadzić do niewystarczającej ilości miejsca na dysku z powodu błędu LinkId=221672#ERROR_NOT_ENOUGH_DISK_SPACE pełnego dysku i błędów zadań.
Do klastra można dodać więcej dysków, używając nowej funkcji NodeManager katalogu lokalnego. Podczas tworzenia klastra Hive i Spark można wybrać liczbę dysków i dodać je do węzłów procesu roboczego. Wybrane dyski mogą mieć 1 TB każdy i są częścią katalogów lokalnych NodeManager .
Na karcie Konfiguracja i cennik wybierz pozycję Włącz dysk zarządzany.
W obszarze Dyski w warstwie Standardowa wprowadź liczbę dysków.
Wybierz węzeł procesu roboczego.
Liczbę dysków można sprawdzić na karcie Przeglądanie i tworzenie w obszarze Konfiguracja klastra.
Dodawanie aplikacji
Aplikacje usługi HDInsight można zainstalować w klastrze usługi HDInsight opartym na systemie Linux. Możesz używać aplikacji udostępnianych przez firmę Microsoft lub inne firmy lub opracowane przez Ciebie. Aby uzyskać więcej informacji, zobacz Instalowanie aplikacji Apache Hadoop innych firm w usłudze Azure HDInsight.
Większość aplikacji usługi HDInsight jest instalowana w pustym węźle brzegowym. Pusty węzeł brzegowy to maszyna wirtualna z systemem Linux z zainstalowanymi i skonfigurowanymi tymi samymi narzędziami klienckimi, co w węźle głównym. Możesz użyć węzła brzegowego do uzyskania dostępu do klastra, testowania aplikacji klienckich i hostowania aplikacji klienckich. Aby uzyskać więcej informacji, zobacz Używanie pustych węzłów brzegowych w usłudze HDInsight.
Działania skryptu
Podczas tworzenia można zainstalować więcej składników lub dostosować konfigurację klastra przy użyciu skryptów. Takie skrypty są wywoływane za pomocą akcji skryptu, czyli opcji konfiguracji, której można użyć w witrynie Azure Portal, poleceniach cmdlet programu Windows PowerShell usługi HDInsight lub zestawie SDK platformy .NET usługi HDInsight. Aby uzyskać więcej informacji, zobacz Dostosowywanie klastra usługi HDInsight przy użyciu akcji skryptu.
Niektóre natywne składniki języka Java, takie jak Apache Mahout i Cascading, mogą być uruchamiane w klastrze jako pliki Jar (Java Archive). Te pliki JAR można dystrybuować do magazynu i przesyłać je do klastrów usługi HDInsight za pomocą mechanizmów przesyłania zadań usługi Hadoop. Aby uzyskać więcej informacji, zobacz Programowe przesyłanie zadań apache Hadoop.
Uwaga
Jeśli masz problemy z wdrażaniem plików JAR w klastrach usługi HDInsight lub wywoływaniem plików JAR w klastrach usługi HDInsight, skontaktuj się z pomoc techniczna firmy Microsoft.
Azure HPC to specjalnie utworzona funkcja chmury dla obciążeń HPC i sztucznej inteligencji przy użyciu wiodących procesorów i połączeń między firmami HPC klasy InfiniBand w celu zapewnienia najlepszej wydajności aplikacji, skalowalności i wartości. Usługa Azure HPC umożliwia użytkownikom odblokowanie innowacji, produktywności i elastyczności biznesowej dzięki szerokiej gamie technologii HPC i sztucznej inteligencji, które mogą być dynamicznie przydzielane w miarę zmian potrzeb biznesowych i technicznych. Ta