Nastavení clusterů ve službě HDInsight se softwarem Apache Hadoop, Apache Spark, Apache Kafka a dalšími
Zjistěte, jak nastavit a nakonfigurovat Apache Hadoop, Apache Spark, Apache Kafka, Interactive Query, Apache HBase nebo ve službě HDInsight. Také se dozvíte, jak přizpůsobit clustery a přidat zabezpečení jejich připojením k doméně.
Cluster Hadoop se skládá z několika virtuálních počítačů (uzlů), které se používají k distribuovanému zpracování úloh. Azure HDInsight zpracovává podrobnosti o implementaci instalace a konfigurace jednotlivých uzlů, takže stačí zadat pouze obecné informace o konfiguraci.
Důležité
Účtování clusteru HDInsight začne vytvořením clusteru a skončí jeho odstraněním. Účtuje se poměrnou částí po minutách, takže byste cluster měli odstranit vždy, když už se nepoužívá. Zjistěte, jak odstranit cluster.
Pokud používáte více clusterů najednou, budete chtít vytvořit virtuální síť, a pokud používáte cluster Spark, budete také chtít použít Hive Warehouse Connector. Další informace najdete v tématech Plánování virtuální sítě pro Azure HDInsight a Integrace Apache Sparku a Apache Hivu s konektorem Hive Warehouse Connector.
Metody nastavení clusteru
Následující tabulka uvádí různé metody, které můžete použít k nastavení clusteru HDInsight.
Clustery vytvořené pomocí | Webový prohlížeč | Příkazový řádek | REST API | Sada SDK |
---|---|---|---|---|
Azure Portal | ✅ | |||
Azure Data Factory | ✅ | ✅ | ✅ | ✅ |
Azure CLI | ✅ | |||
Azure PowerShell | ✅ | |||
cURL | ✅ | ✅ | ||
Šablony Azure Resource Manageru | ✅ |
Tento článek vás provede nastavením v Azure Portal, kde můžete vytvořit cluster HDInsight.
Základy
Podrobnosti o projektu
Azure Resource Manager vám pomůže pracovat s prostředky v aplikaci jako se skupinou prostředků, která se označuje jako skupina prostředků Azure. Všechny prostředky pro vaši aplikaci můžete nasadit, aktualizovat, monitorovat nebo odstranit v rámci jedné koordinované operace.
Podrobnosti o clusteru
Název clusteru
Názvy clusterů HDInsight mají následující omezení:
- Povolené znaky: a-z, 0-9, A-Z
- Maximální délka: 59
- Rezervované názvy: aplikace
- Obor pojmenování clusteru je pro všechny azure napříč všemi předplatnými. Název clusteru proto musí být celosvětově jedinečný.
- Prvních šest znaků musí být v rámci virtuální sítě jedinečné.
Oblast
Umístění clusteru nemusíte zadávat explicitně: Cluster je ve stejném umístění jako výchozí úložiště. Pokud chcete zobrazit seznam podporovaných oblastí, vyberte rozevírací seznam Oblast s cenami služby HDInsight.
Typ clusteru
Azure HDInsight v současné době poskytuje následující typy clusterů, každý se sadou komponent, které poskytují určité funkce.
Důležité
Clustery HDInsight jsou k dispozici v různých typech, každý pro jednu úlohu nebo technologii. Neexistuje žádná podporovaná metoda vytvoření clusteru, který kombinuje více typů, jako je HBase v jednom clusteru. Pokud vaše řešení vyžaduje technologie, které jsou rozložené mezi několik typů clusterů HDInsight, může virtuální síť Azure připojit požadované typy clusterů.
Typ clusteru | Funkce |
---|---|
Hadoop | Dávkové dotazy a analýza uložených dat |
HBase | Zpracování velkých objemů dat NoSQL bez schématu |
Interaktivní dotaz | Ukládání do mezipaměti v paměti pro interaktivní a rychlejší dotazy Hive |
Kafka | Distribuovaná streamovací platforma, kterou je možné použít k vytváření datových kanálů a aplikací streamovaných v reálném čase |
Spark | Zpracování v paměti, interaktivní dotazy, zpracování mikrodávkového streamu |
Verze
Zvolte verzi služby HDInsight pro tento cluster. Další informace najdete v tématu Podporované verze HDInsight.
Přihlašovací údaje clusteru
S clustery HDInsight můžete při vytváření clusteru nakonfigurovat dva uživatelské účty:
- Přihlašovací uživatelské jméno clusteru: Výchozí uživatelské jméno je admin. Používá základní konfiguraci na Azure Portal. Někdy se nazývá "uživatel clusteru" nebo "uživatel HTTP".
- Uživatelské jméno Secure Shell (SSH): Používá se pro připojení ke clusteru přes SSH. Další informace najdete v tématu Použití SSH se službou HDInsight.
Uživatelské jméno HTTP má následující omezení:
- Povolené speciální znaky:
_
a@
- Nepovolené znaky: #;."',/:!*?$(){}[]<>|& --=+%~^space
- Maximální délka: 20
Uživatelské jméno SSH má následující omezení:
- Povolené speciální znaky:
_
a@
- Nepovolené znaky: #;."',/:!*?$(){}[]<>|& --=+%~^space
- Maximální délka: 64
- Rezervovaná jména: hadoop, users, oozie, hive, mapred, ambari-qa, zookeeper, tez, hdfs, sqoop, yarn, hcat, ams, hbase, administrator, admin, user, user1, test, user2, test1, user3, admin1, 123, a, actuser, adm, admin2, aspnet, backup, console, david, guest, john, owner, root, server, sql, support, support_388945a0, sys, test2, test3, user4, user5, spark
Storage
I když místní instalace Hadoopu používá pro úložiště v clusteru systém souborů HDFS (Hadoop Distributed File System), v cloudu používáte koncové body úložiště připojené ke clusteru. Použití cloudového úložiště znamená, že můžete bezpečně odstranit clustery HDInsight, které se používají k výpočtům, a přitom zachovat vaše data.
Clustery HDInsight můžou používat následující možnosti úložiště:
- Azure Data Lake Storage Gen2
- Azure Data Lake Storage Gen1
- Azure Storage Pro obecné účely v2
- Azure Storage Pro obecné účely v1
- Objekt blob bloku služby Azure Storage (podporuje se pouze jako sekundární úložiště)
Další informace o možnostech úložiště se službou HDInsight najdete v tématu Porovnání možností úložiště pro použití s clustery Azure HDInsight.
Upozornění
Použití dalšího účtu úložiště v jiném umístění než cluster HDInsight se nepodporuje.
Během konfigurace zadáte pro výchozí koncový bod úložiště kontejner objektů blob účtu služby Azure Storage nebo Data Lake Storage. Výchozí úložiště obsahuje aplikační a systémové protokoly. Volitelně můžete zadat další propojené účty Azure Storage a Data Lake Storage účty, ke kterým má cluster přístup. Cluster HDInsight a závislé účty úložiště musí být ve stejném umístění Azure.
Poznámka
Funkce, která vyžaduje zabezpečený přenos, vynucuje všechny požadavky na váš účet prostřednictvím zabezpečeného připojení. Tuto funkci podporuje pouze cluster HDInsight verze 3.6 nebo novější. Další informace najdete v tématu Vytvoření clusteru Apache Hadoop s účty úložiště zabezpečeného přenosu ve službě Azure HDInsight.
Důležité
Povolení zabezpečeného přenosu úložiště po vytvoření clusteru může vést k chybám při používání účtu úložiště a nedoporučuje se. Je lepší vytvořit nový cluster pomocí účtu úložiště s již povoleným zabezpečeným přenosem.
Poznámka
Azure HDInsight automaticky nepřevádí, nepřesunuje ani nekopíruje data uložená ve službě Azure Storage z jedné oblasti do druhé.
Nastavení metastoru
Můžete vytvořit volitelné metastory Hive nebo Apache Oozie. Ne všechny typy clusterů ale podporují metastory a Azure Synapse Analytics není kompatibilní s metastory.
Další informace najdete v tématu Použití externích úložišť metadat ve službě Azure HDInsight.
Důležité
Při vytváření vlastního metastoru nepoužívejte v názvu databáze pomlčky, spojovníky ani mezery. To může způsobit selhání procesu vytváření clusteru.
Databáze SQL pro Hive
Pokud chcete zachovat tabulky Hive i po odstranění clusteru HDInsight, použijte vlastní metastore. Pak můžete metastore připojit k jinému clusteru HDInsight.
Metastor HDInsight vytvořený pro jednu verzi clusteru HDInsight nejde sdílet mezi různými verzemi clusteru HDInsight. Seznam verzí HDInsight najdete v tématu Podporované verze HDInsight.
Důležité
Výchozí metastor poskytuje databázi Azure SQL s limitem DTU úrovně Basic 5 (nejde upgradovat). Vhodné pro základní testovací účely. U velkých nebo produkčních úloh doporučujeme migrovat na externí metastor.
Databáze SQL pro Oozie
Pokud chcete zvýšit výkon při používání Oozie, použijte vlastní metastor. Metastor může také poskytnout přístup k datům úlohy Oozie po odstranění clusteru.
SQL database for Ambari
Ambari se používá k monitorování clusterů HDInsight, provádění změn konfigurace a ukládání informací o správě clusterů a historie úloh. Funkce vlastní databáze Ambari umožňuje nasadit nový cluster a nastavit Ambari v externí databázi, kterou spravujete. Další informace najdete v tématu Vlastní databáze Ambari.
Důležité
Nemůžete znovu použít vlastní metastor Oozie. Pokud chcete použít vlastní metastor Oozie, musíte při vytváření clusteru HDInsight zadat prázdnou Azure SQL Database.
Zabezpečení a sítě
Balíček zabezpečení podniku
Pro typy clusterů Hadoop, Spark, HBase, Kafka a Interactive Query můžete povolit balíček zabezpečení podniku. Tento balíček nabízí možnost mít bezpečnější nastavení clusteru pomocí Apache Rangeru a integrace s Azure Active Directory. Další informace najdete v tématu Přehled podnikového zabezpečení ve službě Azure HDInsight.
Balíček zabezpečení enterprise umožňuje integrovat HDInsight se službami Active Directory a Apache Ranger. Pomocí balíčku zabezpečení Enterprise je možné vytvořit více uživatelů.
Další informace o vytváření clusteru HDInsight připojeného k doméně najdete v tématu Vytvoření prostředí sandboxu HDInsight připojeného k doméně.
TLS
Další informace najdete v tématu Zabezpečení vrstvy přenosu.
Virtuální síť
Pokud vaše řešení vyžaduje technologie, které jsou rozložené mezi více typů clusterů HDInsight, může virtuální síť Azure připojit požadované typy clusterů. Tato konfigurace umožňuje, aby clustery a veškerý kód, který do nich nasadíte, vzájemně přímo komunikovaly.
Další informace o používání virtuální sítě Azure se službou HDInsight najdete v tématu Plánování virtuální sítě pro HDInsight.
Příklad použití dvou typů clusterů v rámci virtuální sítě Azure najdete v tématu Použití strukturovaného streamování Apache Sparku s Apache Kafka. Další informace o používání služby HDInsight s virtuální sítí, včetně konkrétních požadavků na konfiguraci virtuální sítě, najdete v tématu Plánování virtuální sítě pro HDInsight.
Nastavení šifrování disku
Další informace najdete v tématu Šifrování disku s klíčem spravovaným zákazníkem.
Proxy REST Kafka
Toto nastavení je k dispozici pouze pro cluster typu Kafka. Další informace najdete v tématu Použití proxy serveru REST.
Identita
Další informace najdete v tématu Spravované identity ve službě Azure HDInsight.
Konfigurace a ceny
Po dobu existence clusteru se vám účtují poplatky za využití uzlů. Fakturace se spustí při vytvoření clusteru a zastaví se při jeho odstranění. Clustery se nedají zrušit ani blokovat.
Konfigurace uzlů
Každý typ clusteru má vlastní počet uzlů, terminologii uzlů a výchozí velikost virtuálního počítače. V následující tabulce je počet uzlů pro každý typ uzlu v závorkách.
Typ | Uzly | Diagram |
---|---|---|
Hadoop | Hlavní uzel (2), pracovní uzel (1+) | ![]() |
HBase | Hlavní server (2), oblastní server (1+), hlavní uzel/Uzel ZooKeeper (3) | ![]() |
Spark | Hlavní uzel (2), pracovní uzel (1+), uzel ZooKeeper (3) (zdarma pro velikost virtuálního počítače A1 ZooKeeper) | ![]() |
Další informace najdete v tématu Výchozí konfigurace uzlů a velikosti virtuálních počítačů pro clustery v tématu Jaké jsou komponenty a verze systému Hadoop ve službě HDInsight?
Náklady na clustery HDInsight se určují podle počtu uzlů a velikostí virtuálních počítačů uzlů.
Různé typy clusterů mají různé typy uzlů, počet uzlů a velikosti uzlů:
- Výchozí typ clusteru Hadoop:
Dva hlavní uzly
Čtyři pracovní uzly
Pokud právě zkoušíte HDInsight, doporučujeme použít jeden pracovní uzel. Další informace o cenách služby HDInsight najdete v tématu Ceny služby HDInsight.
Poznámka
Limit velikosti clusteru se u předplatných Azure liší. Pokud chcete limit zvýšit, obraťte se na podporu fakturace Azure .
Pokud ke konfiguraci clusteru použijete Azure Portal, bude velikost uzlu k dispozici prostřednictvím karty Konfigurace a ceny. Na portálu můžete také zobrazit náklady spojené s různými velikostmi uzlů.
Velikosti virtuálních počítačů
Při nasazování clusterů zvolte výpočetní prostředky na základě řešení, které plánujete nasadit. Pro clustery HDInsight se používají následující virtuální počítače:
- Virtuální počítače řady A a D1-4: Velikosti virtuálních počítačů s Linuxem pro obecné účely
- Virtuální počítač řady D11-14: Velikosti virtuálních počítačů s Linuxem optimalizované pro paměť
Pokud chcete zjistit, jakou hodnotu byste měli použít k určení velikosti virtuálního počítače při vytváření clusteru pomocí různých sad SDK nebo při používání Azure PowerShell, přečtěte si téma Velikosti virtuálních počítačů, které se mají použít pro clustery HDInsight. V tomto propojeném článku použijte hodnotu ve sloupci Velikost tabulek.
Důležité
Pokud potřebujete v clusteru více než 32 pracovních uzlů, musíte vybrat velikost hlavního uzlu s alespoň 8 jádry a 14 GB paměti RAM.
Další informace najdete v tématu Velikosti virtuálních počítačů. Informace o cenách různých velikostí najdete v tématu Ceny služby HDInsight.
Disková příloha
Cluster HDInsight se dodává s předdefinované místo na disku na základě skladové položky. Spouštění některých velkých aplikací může vést k nedostatku místa na disku (s chybou zaplnění disku – LinkId=221672#ERROR_NOT_ENOUGH_DISK_SPACE
) a selháním úloh.
Další disky je možné do clusteru přidat pomocí místního adresáře NodeManager nové funkce. V době vytváření clusteru Hive a Spark je možné vybrat a přidat do pracovních uzlů počet disků. Vybraný disk, který bude mít velikost 1 TB, bude součástí místních adresářů NodeManageru.
- Na kartě Konfigurace a ceny
- Vyberte možnost Povolit spravovaný disk .
- V části Disky úrovně Standard zadejte počet disků.
- Volba pracovního uzlu
Počet disků můžete ověřit na kartě Zkontrolovat a vytvořit v části Konfigurace clusteru.
Přidání aplikace
Aplikace HDInsight je aplikace, kterou si uživatelé můžou nainstalovat do clusteru HDInsight se systémem Linux. Můžete používat aplikace poskytované Microsoft, třetími stranami nebo vámi vyvinuté aplikace. Další informace najdete v tématu Instalace aplikací Apache Hadoop třetích stran ve službě Azure HDInsight.
Většina aplikací HDInsight je nainstalovaná na prázdném hraničním uzlu. Prázdný hraniční uzel je virtuální počítač s Linuxem se stejnými klientskými nástroji nainstalovanými a nakonfigurovanými jako v hlavním uzlu. Hraniční uzel můžete použít pro přístup ke clusteru, testování klientských aplikací a hostování klientských aplikací. Další informace najdete v tématu Použití prázdných hraničních uzlů ve službě HDInsight.
Akce skriptu
Během vytváření můžete nainstalovat další komponenty nebo přizpůsobit konfiguraci clusteru pomocí skriptů. Tyto skripty se vyvolávají prostřednictvím akce skriptu, což je možnost konfigurace, kterou lze použít z Azure Portal, rutin hdInsight Windows PowerShell nebo sady HDInsight .NET SDK. Další informace najdete v tématu Přizpůsobení clusteru HDInsight pomocí akce skriptu.
Některé nativní komponenty Java, jako jsou Apache Mahout a Cascading, se dají spustit v clusteru jako soubory JAR (Java Archive). Tyto soubory JAR je možné distribuovat do služby Azure Storage a odesílat je do clusterů HDInsight pomocí mechanismů odesílání úloh Hadoop. Další informace najdete v tématu Programové odesílání úloh Apache Hadoop.
Poznámka
Pokud máte problémy s nasazením souborů JAR do clusterů HDInsight nebo voláním souborů JAR v clusterech HDInsight, kontaktujte podpora Microsoftu.
Služba HDInsight nepodporuje kaskádové vytváření a nemá nárok na podpora Microsoftu. Seznam podporovaných komponent najdete v tématu Co je nového ve verzích clusterů poskytovaných službou HDInsight.
Někdy budete chtít během procesu vytváření nakonfigurovat následující konfigurační soubory:
- clusterIdentity.xml
- core-site.xml
- gateway.xml
- hbase-env.xml
- hbase-site.xml
- hdfs-site.xml
- hive-env.xml
- hive-site.xml
- mapred-site
- oozie-site.xml
- oozie-env.xml
- tez-site.xml
- webhcat-site.xml
- yarn-site.xml
Další informace najdete v tématu Přizpůsobení clusterů HDInsight pomocí bootstrap.