Nastavení clusterů ve službě HDInsight se softwarem Apache Hadoop, Apache Spark, Apache Kafka a dalšími

Zjistěte, jak nastavit a nakonfigurovat Apache Hadoop, Apache Spark, Apache Kafka, Interactive Query, Apache HBase nebo ve službě HDInsight. Také se dozvíte, jak přizpůsobit clustery a přidat zabezpečení jejich připojením k doméně.

Cluster Hadoop se skládá z několika virtuálních počítačů (uzlů), které se používají k distribuovanému zpracování úloh. Azure HDInsight zpracovává podrobnosti o implementaci instalace a konfigurace jednotlivých uzlů, takže stačí zadat pouze obecné informace o konfiguraci.

Důležité

Účtování clusteru HDInsight začne vytvořením clusteru a skončí jeho odstraněním. Účtuje se poměrnou částí po minutách, takže byste cluster měli odstranit vždy, když už se nepoužívá. Zjistěte, jak odstranit cluster.

Pokud používáte více clusterů najednou, budete chtít vytvořit virtuální síť, a pokud používáte cluster Spark, budete také chtít použít Hive Warehouse Connector. Další informace najdete v tématech Plánování virtuální sítě pro Azure HDInsight a Integrace Apache Sparku a Apache Hivu s konektorem Hive Warehouse Connector.

Metody nastavení clusteru

Následující tabulka uvádí různé metody, které můžete použít k nastavení clusteru HDInsight.

Clustery vytvořené pomocí Webový prohlížeč Příkazový řádek REST API Sada SDK
Azure Portal      
Azure Data Factory
Azure CLI      
Azure PowerShell      
cURL    
Šablony Azure Resource Manageru      

Tento článek vás provede nastavením v Azure Portal, kde můžete vytvořit cluster HDInsight.

Základy

hdinsight create options custom quick

Podrobnosti o projektu

Azure Resource Manager vám pomůže pracovat s prostředky v aplikaci jako se skupinou prostředků, která se označuje jako skupina prostředků Azure. Všechny prostředky pro vaši aplikaci můžete nasadit, aktualizovat, monitorovat nebo odstranit v rámci jedné koordinované operace.

Podrobnosti o clusteru

Název clusteru

Názvy clusterů HDInsight mají následující omezení:

  • Povolené znaky: a-z, 0-9, A-Z
  • Maximální délka: 59
  • Rezervované názvy: aplikace
  • Obor pojmenování clusteru je pro všechny azure napříč všemi předplatnými. Název clusteru proto musí být celosvětově jedinečný.
  • Prvních šest znaků musí být v rámci virtuální sítě jedinečné.

Oblast

Umístění clusteru nemusíte zadávat explicitně: Cluster je ve stejném umístění jako výchozí úložiště. Pokud chcete zobrazit seznam podporovaných oblastí, vyberte rozevírací seznam Oblast s cenami služby HDInsight.

Typ clusteru

Azure HDInsight v současné době poskytuje následující typy clusterů, každý se sadou komponent, které poskytují určité funkce.

Důležité

Clustery HDInsight jsou k dispozici v různých typech, každý pro jednu úlohu nebo technologii. Neexistuje žádná podporovaná metoda vytvoření clusteru, který kombinuje více typů, jako je HBase v jednom clusteru. Pokud vaše řešení vyžaduje technologie, které jsou rozložené mezi několik typů clusterů HDInsight, může virtuální síť Azure připojit požadované typy clusterů.

Typ clusteru Funkce
Hadoop Dávkové dotazy a analýza uložených dat
HBase Zpracování velkých objemů dat NoSQL bez schématu
Interaktivní dotaz Ukládání do mezipaměti v paměti pro interaktivní a rychlejší dotazy Hive
Kafka Distribuovaná streamovací platforma, kterou je možné použít k vytváření datových kanálů a aplikací streamovaných v reálném čase
Spark Zpracování v paměti, interaktivní dotazy, zpracování mikrodávkového streamu

Verze

Zvolte verzi služby HDInsight pro tento cluster. Další informace najdete v tématu Podporované verze HDInsight.

Přihlašovací údaje clusteru

S clustery HDInsight můžete při vytváření clusteru nakonfigurovat dva uživatelské účty:

  • Přihlašovací uživatelské jméno clusteru: Výchozí uživatelské jméno je admin. Používá základní konfiguraci na Azure Portal. Někdy se nazývá "uživatel clusteru" nebo "uživatel HTTP".
  • Uživatelské jméno Secure Shell (SSH): Používá se pro připojení ke clusteru přes SSH. Další informace najdete v tématu Použití SSH se službou HDInsight.

Uživatelské jméno HTTP má následující omezení:

  • Povolené speciální znaky: _ a @
  • Nepovolené znaky: #;."',/:!*?$(){}[]<>|& --=+%~^space
  • Maximální délka: 20

Uživatelské jméno SSH má následující omezení:

  • Povolené speciální znaky:_ a @
  • Nepovolené znaky: #;."',/:!*?$(){}[]<>|& --=+%~^space
  • Maximální délka: 64
  • Rezervovaná jména: hadoop, users, oozie, hive, mapred, ambari-qa, zookeeper, tez, hdfs, sqoop, yarn, hcat, ams, hbase, administrator, admin, user, user1, test, user2, test1, user3, admin1, 123, a, actuser, adm, admin2, aspnet, backup, console, david, guest, john, owner, root, server, sql, support, support_388945a0, sys, test2, test3, user4, user5, spark

Storage

Nastavení úložiště clusteru: Koncové body kompatibilní s HDFS

I když místní instalace Hadoopu používá pro úložiště v clusteru systém souborů HDFS (Hadoop Distributed File System), v cloudu používáte koncové body úložiště připojené ke clusteru. Použití cloudového úložiště znamená, že můžete bezpečně odstranit clustery HDInsight, které se používají k výpočtům, a přitom zachovat vaše data.

Clustery HDInsight můžou používat následující možnosti úložiště:

  • Azure Data Lake Storage Gen2
  • Azure Data Lake Storage Gen1
  • Azure Storage Pro obecné účely v2
  • Azure Storage Pro obecné účely v1
  • Objekt blob bloku služby Azure Storage (podporuje se pouze jako sekundární úložiště)

Další informace o možnostech úložiště se službou HDInsight najdete v tématu Porovnání možností úložiště pro použití s clustery Azure HDInsight.

Upozornění

Použití dalšího účtu úložiště v jiném umístění než cluster HDInsight se nepodporuje.

Během konfigurace zadáte pro výchozí koncový bod úložiště kontejner objektů blob účtu služby Azure Storage nebo Data Lake Storage. Výchozí úložiště obsahuje aplikační a systémové protokoly. Volitelně můžete zadat další propojené účty Azure Storage a Data Lake Storage účty, ke kterým má cluster přístup. Cluster HDInsight a závislé účty úložiště musí být ve stejném umístění Azure.

Poznámka

Funkce, která vyžaduje zabezpečený přenos, vynucuje všechny požadavky na váš účet prostřednictvím zabezpečeného připojení. Tuto funkci podporuje pouze cluster HDInsight verze 3.6 nebo novější. Další informace najdete v tématu Vytvoření clusteru Apache Hadoop s účty úložiště zabezpečeného přenosu ve službě Azure HDInsight.

Důležité

Povolení zabezpečeného přenosu úložiště po vytvoření clusteru může vést k chybám při používání účtu úložiště a nedoporučuje se. Je lepší vytvořit nový cluster pomocí účtu úložiště s již povoleným zabezpečeným přenosem.

Poznámka

Azure HDInsight automaticky nepřevádí, nepřesunuje ani nekopíruje data uložená ve službě Azure Storage z jedné oblasti do druhé.

Nastavení metastoru

Můžete vytvořit volitelné metastory Hive nebo Apache Oozie. Ne všechny typy clusterů ale podporují metastory a Azure Synapse Analytics není kompatibilní s metastory.

Další informace najdete v tématu Použití externích úložišť metadat ve službě Azure HDInsight.

Důležité

Při vytváření vlastního metastoru nepoužívejte v názvu databáze pomlčky, spojovníky ani mezery. To může způsobit selhání procesu vytváření clusteru.

Databáze SQL pro Hive

Pokud chcete zachovat tabulky Hive i po odstranění clusteru HDInsight, použijte vlastní metastore. Pak můžete metastore připojit k jinému clusteru HDInsight.

Metastor HDInsight vytvořený pro jednu verzi clusteru HDInsight nejde sdílet mezi různými verzemi clusteru HDInsight. Seznam verzí HDInsight najdete v tématu Podporované verze HDInsight.

Důležité

Výchozí metastor poskytuje databázi Azure SQL s limitem DTU úrovně Basic 5 (nejde upgradovat). Vhodné pro základní testovací účely. U velkých nebo produkčních úloh doporučujeme migrovat na externí metastor.

Databáze SQL pro Oozie

Pokud chcete zvýšit výkon při používání Oozie, použijte vlastní metastor. Metastor může také poskytnout přístup k datům úlohy Oozie po odstranění clusteru.

SQL database for Ambari

Ambari se používá k monitorování clusterů HDInsight, provádění změn konfigurace a ukládání informací o správě clusterů a historie úloh. Funkce vlastní databáze Ambari umožňuje nasadit nový cluster a nastavit Ambari v externí databázi, kterou spravujete. Další informace najdete v tématu Vlastní databáze Ambari.

Důležité

Nemůžete znovu použít vlastní metastor Oozie. Pokud chcete použít vlastní metastor Oozie, musíte při vytváření clusteru HDInsight zadat prázdnou Azure SQL Database.

Zabezpečení a sítě

Možnosti vytvoření služby hdinsight zvolte balíček zabezpečení podniku.

Balíček zabezpečení podniku

Pro typy clusterů Hadoop, Spark, HBase, Kafka a Interactive Query můžete povolit balíček zabezpečení podniku. Tento balíček nabízí možnost mít bezpečnější nastavení clusteru pomocí Apache Rangeru a integrace s Azure Active Directory. Další informace najdete v tématu Přehled podnikového zabezpečení ve službě Azure HDInsight.

Balíček zabezpečení enterprise umožňuje integrovat HDInsight se službami Active Directory a Apache Ranger. Pomocí balíčku zabezpečení Enterprise je možné vytvořit více uživatelů.

Další informace o vytváření clusteru HDInsight připojeného k doméně najdete v tématu Vytvoření prostředí sandboxu HDInsight připojeného k doméně.

TLS

Další informace najdete v tématu Zabezpečení vrstvy přenosu.

Virtuální síť

Pokud vaše řešení vyžaduje technologie, které jsou rozložené mezi více typů clusterů HDInsight, může virtuální síť Azure připojit požadované typy clusterů. Tato konfigurace umožňuje, aby clustery a veškerý kód, který do nich nasadíte, vzájemně přímo komunikovaly.

Další informace o používání virtuální sítě Azure se službou HDInsight najdete v tématu Plánování virtuální sítě pro HDInsight.

Příklad použití dvou typů clusterů v rámci virtuální sítě Azure najdete v tématu Použití strukturovaného streamování Apache Sparku s Apache Kafka. Další informace o používání služby HDInsight s virtuální sítí, včetně konkrétních požadavků na konfiguraci virtuální sítě, najdete v tématu Plánování virtuální sítě pro HDInsight.

Nastavení šifrování disku

Další informace najdete v tématu Šifrování disku s klíčem spravovaným zákazníkem.

Proxy REST Kafka

Toto nastavení je k dispozici pouze pro cluster typu Kafka. Další informace najdete v tématu Použití proxy serveru REST.

Identita

Další informace najdete v tématu Spravované identity ve službě Azure HDInsight.

Konfigurace a ceny

Volba velikosti uzlu v HDInsightu

Po dobu existence clusteru se vám účtují poplatky za využití uzlů. Fakturace se spustí při vytvoření clusteru a zastaví se při jeho odstranění. Clustery se nedají zrušit ani blokovat.

Konfigurace uzlů

Každý typ clusteru má vlastní počet uzlů, terminologii uzlů a výchozí velikost virtuálního počítače. V následující tabulce je počet uzlů pro každý typ uzlu v závorkách.

Typ Uzly Diagram
Hadoop Hlavní uzel (2), pracovní uzel (1+) Uzly clusteru HDInsight Hadoop
HBase Hlavní server (2), oblastní server (1+), hlavní uzel/Uzel ZooKeeper (3) Nastavení typu clusteru HDInsight HBase
Spark Hlavní uzel (2), pracovní uzel (1+), uzel ZooKeeper (3) (zdarma pro velikost virtuálního počítače A1 ZooKeeper) Nastavení typu clusteru HdInsight Spark

Další informace najdete v tématu Výchozí konfigurace uzlů a velikosti virtuálních počítačů pro clustery v tématu Jaké jsou komponenty a verze systému Hadoop ve službě HDInsight?

Náklady na clustery HDInsight se určují podle počtu uzlů a velikostí virtuálních počítačů uzlů.

Různé typy clusterů mají různé typy uzlů, počet uzlů a velikosti uzlů:

  • Výchozí typ clusteru Hadoop:
    • Dva hlavní uzly

    • Čtyři pracovní uzly

Pokud právě zkoušíte HDInsight, doporučujeme použít jeden pracovní uzel. Další informace o cenách služby HDInsight najdete v tématu Ceny služby HDInsight.

Poznámka

Limit velikosti clusteru se u předplatných Azure liší. Pokud chcete limit zvýšit, obraťte se na podporu fakturace Azure .

Pokud ke konfiguraci clusteru použijete Azure Portal, bude velikost uzlu k dispozici prostřednictvím karty Konfigurace a ceny. Na portálu můžete také zobrazit náklady spojené s různými velikostmi uzlů.

Velikosti virtuálních počítačů

Při nasazování clusterů zvolte výpočetní prostředky na základě řešení, které plánujete nasadit. Pro clustery HDInsight se používají následující virtuální počítače:

Pokud chcete zjistit, jakou hodnotu byste měli použít k určení velikosti virtuálního počítače při vytváření clusteru pomocí různých sad SDK nebo při používání Azure PowerShell, přečtěte si téma Velikosti virtuálních počítačů, které se mají použít pro clustery HDInsight. V tomto propojeném článku použijte hodnotu ve sloupci Velikost tabulek.

Důležité

Pokud potřebujete v clusteru více než 32 pracovních uzlů, musíte vybrat velikost hlavního uzlu s alespoň 8 jádry a 14 GB paměti RAM.

Další informace najdete v tématu Velikosti virtuálních počítačů. Informace o cenách různých velikostí najdete v tématu Ceny služby HDInsight.

Disková příloha

Cluster HDInsight se dodává s předdefinované místo na disku na základě skladové položky. Spouštění některých velkých aplikací může vést k nedostatku místa na disku (s chybou zaplnění disku – LinkId=221672#ERROR_NOT_ENOUGH_DISK_SPACE) a selháním úloh.

Další disky je možné do clusteru přidat pomocí místního adresáře NodeManager nové funkce. V době vytváření clusteru Hive a Spark je možné vybrat a přidat do pracovních uzlů počet disků. Vybraný disk, který bude mít velikost 1 TB, bude součástí místních adresářů NodeManageru.

  1. Na kartě Konfigurace a ceny
  2. Vyberte možnost Povolit spravovaný disk .
  3. V části Disky úrovně Standard zadejte počet disků.
  4. Volba pracovního uzlu

Počet disků můžete ověřit na kartě Zkontrolovat a vytvořit v části Konfigurace clusteru.

Přidání aplikace

Aplikace HDInsight je aplikace, kterou si uživatelé můžou nainstalovat do clusteru HDInsight se systémem Linux. Můžete používat aplikace poskytované Microsoft, třetími stranami nebo vámi vyvinuté aplikace. Další informace najdete v tématu Instalace aplikací Apache Hadoop třetích stran ve službě Azure HDInsight.

Většina aplikací HDInsight je nainstalovaná na prázdném hraničním uzlu. Prázdný hraniční uzel je virtuální počítač s Linuxem se stejnými klientskými nástroji nainstalovanými a nakonfigurovanými jako v hlavním uzlu. Hraniční uzel můžete použít pro přístup ke clusteru, testování klientských aplikací a hostování klientských aplikací. Další informace najdete v tématu Použití prázdných hraničních uzlů ve službě HDInsight.

Akce skriptu

Během vytváření můžete nainstalovat další komponenty nebo přizpůsobit konfiguraci clusteru pomocí skriptů. Tyto skripty se vyvolávají prostřednictvím akce skriptu, což je možnost konfigurace, kterou lze použít z Azure Portal, rutin hdInsight Windows PowerShell nebo sady HDInsight .NET SDK. Další informace najdete v tématu Přizpůsobení clusteru HDInsight pomocí akce skriptu.

Některé nativní komponenty Java, jako jsou Apache Mahout a Cascading, se dají spustit v clusteru jako soubory JAR (Java Archive). Tyto soubory JAR je možné distribuovat do služby Azure Storage a odesílat je do clusterů HDInsight pomocí mechanismů odesílání úloh Hadoop. Další informace najdete v tématu Programové odesílání úloh Apache Hadoop.

Poznámka

Pokud máte problémy s nasazením souborů JAR do clusterů HDInsight nebo voláním souborů JAR v clusterech HDInsight, kontaktujte podpora Microsoftu.

Služba HDInsight nepodporuje kaskádové vytváření a nemá nárok na podpora Microsoftu. Seznam podporovaných komponent najdete v tématu Co je nového ve verzích clusterů poskytovaných službou HDInsight.

Někdy budete chtít během procesu vytváření nakonfigurovat následující konfigurační soubory:

  • clusterIdentity.xml
  • core-site.xml
  • gateway.xml
  • hbase-env.xml
  • hbase-site.xml
  • hdfs-site.xml
  • hive-env.xml
  • hive-site.xml
  • mapred-site
  • oozie-site.xml
  • oozie-env.xml
  • tez-site.xml
  • webhcat-site.xml
  • yarn-site.xml

Další informace najdete v tématu Přizpůsobení clusterů HDInsight pomocí bootstrap.

Další kroky