Rychlý start: Vytvoření clusteru Apache Spark ve službě Azure HDInsight pomocí webu Azure Portal

V tomto rychlém startu pomocí webu Azure Portal vytvoříte cluster Apache Spark ve službě Azure HDInsight. Pak vytvoříte poznámkový blok Jupyter a použijete ho ke spouštění dotazů Spark SQL na tabulky Apache Hive. Azure HDInsight je spravovaná opensourcová analytická služba určená pro podniky. Architektura Apache Spark pro HDInsight umožňuje rychlou analýzu dat a cluster computing pomocí zpracování v paměti. Jupyter Notebook umožňuje pracovat s daty, kombinovat kód s textem markdownu a provádět jednoduché vizualizace.

Podrobné vysvětlení dostupných konfigurací najdete v tématu Nastavení clusterů ve službě HDInsight. Další informace o použití portálu k vytváření clusterů najdete v tématu Vytváření clusterů na portálu.

Pokud používáte více clusterů společně, můžete chtít vytvořit virtuální síť. Pokud používáte cluster Spark, můžete také chtít použít konektor Hive Warehouse Connector. Další informace najdete v tématu Plánování virtuální sítě pro Azure HDInsight a integrace Apache Sparku a Apache Hivu s konektorem Hive Warehouse.

Důležité

Fakturace clusterů HDInsight se účtuje za minutu bez ohledu na to, jestli je používáte, nebo ne. Až přestanete cluster používat, nezapomeňte ho odstranit. Další informace najdete v části Vyčištění prostředků tohoto článku.

Požadavky

Účet Azure s aktivním předplatným. Vytvoření účtu zdarma

Vytvoření clusteru Apache Spark ve službě HDInsight

Pomocí webu Azure Portal vytvoříte cluster HDInsight, který jako úložiště clusteru používá objekty blob služby Azure Storage. Další informace o použití Data Lake Storage Gen2 najdete v tématu Rychlý start: Nastavení clusterů ve službě HDInsight.

Přihlaste se do Azure Portalu.
V horní nabídce vyberte + Vytvořit prostředek.
Výběrem možnosti Analytics>Azure HDInsight přejděte na stránku Vytvořit cluster HDInsight.

Na kartě Základy zadejte následující informace:

Vlastnictví	Popis
Předplatné	V rozevíracím seznamu vyberte předplatné Azure, které se používá pro cluster.
Skupina zdrojů	V rozevíracím seznamu vyberte existující skupinu prostředků nebo vyberte možnost Vytvořit novou.
Název clusteru	Zadejte globálně jedinečný název.
Región	V rozevíracím seznamu vyberte oblast, ve které je cluster vytvořen.
Zóna dostupnosti	Volitelné – zadejte zónu dostupnosti, ve které se má cluster nasadit.
Typ clusteru	Výběrem typu clusteru otevřete seznam. V seznamu vyberte Spark.
Verze clusteru	Po výběru typu clusteru se toto pole automaticky naplní výchozí verzí.
Uživatelské jméno k přihlášení do clusteru	Zadejte přihlašovací uživatelské jméno clusteru. Výchozí název je admin. Tento účet použijete k přihlášení k poznámkovému bloku Jupyter později v průvodci rychlým startem.
Heslo přihlášení clusteru	Zadejte přihlašovací heslo clusteru.
Uživatelské jméno Secure Shell (SSH)	Zadejte uživatelské jméno SSH. Uživatelské jméno SSH použité pro tento rychlý start je sshuser. Ve výchozím nastavení tento účet sdílí stejné heslo jako účet uživatelského jména pro přihlášení ke clusteru .

Snímek obrazovky znázorňující vytvoření clusteru HDInsight s vybranou kartou Základy

Vyberte Další: Úložiště >>, a pokračujte na stránku Úložiště.

V části Úložiště zadejte tyto hodnoty:

Vlastnictví	Popis
Typ primárního úložiště	Použijte výchozí hodnotu Azure Storage.
Metoda výběru	Použijte výchozí hodnotu Vybrat ze seznamu.
Účet primárního úložiště	Použijte automaticky vyplněnou hodnotu.
Kontejner	Použijte automaticky vyplněnou hodnotu.

Snímek obrazovky znázorňuje kartu Úložiště při vytváření clusteru HDInsight.

Pokračujte výběrem možnosti Zkontrolovat a vytvořit .

V části Zkontrolovat a vytvořit vyberte Vytvořit. Vytvoření clusteru trvá přibližně 20 minut. Cluster musí být vytvořen, než budete moci pokračovat k další relaci.

Pokud narazíte na problém s vytvářením clusterů HDInsight, může to být, že nemáte správná oprávnění k tomu. Další informace najdete v tématu popisujícím požadavky na řízení přístupu.

Vytvoření poznámkového bloku Jupyter

Jupyter Notebook je interaktivní prostředí poznámkového bloku, které podporuje různé programovací jazyky. Poznámkový blok umožňuje pracovat s daty, kombinovat kód s textem markdownu a provádět jednoduché vizualizace.

Ve webovém prohlížeči navigujte na https://CLUSTERNAME.azurehdinsight.net/jupyter, kde CLUSTERNAME je název vašeho clusteru. Po zobrazení výzvy zadejte přihlašovací údaje clusteru.
Vyberte Nový>PySpark a vytvořte poznámkový blok.

Nový poznámkový blok se vytvoří a otevře s názvem Bez názvu (Bez názvu.pynb).

Spouštění příkazů Apache Spark SQL

Jazyk SQL (Structured Query Language) je nejběžnějším a široce používaným jazykem pro dotazování a definování dat. Spark SQL funguje jako rozšíření Apache Spark pro zpracování strukturovaných dat a používá známou syntaxi jazyka SQL.

Ověřte, že je jádro připravené. Jádro bude připravené, až se vedle názvu jádra v poznámkovém bloku zobrazí prázdný kroužek. Plný kruh označuje, že je jádro zaneprázdněno.

Při prvním spuštění poznámkového bloku jádro provede některé úlohy na pozadí. Počkejte, až bude jádro připravené.
Do prázdné buňky vložte následující kód a stisknutím SHIFT + ENTER kód spusťte. Příkaz vypíše tabulky Hive v clusteru:
```
%%sql
SHOW TABLES
```
Při použití poznámkového bloku Jupyter s clusterem HDInsight získáte přednastavení sqlContext , které můžete použít ke spouštění dotazů Hive pomocí Spark SQL. %%sql říká poznámkovému bloku Jupyter, aby ke spuštění dotazu Hive použil předvolbu sqlContext. Dotaz načte prvních 10 řádků z tabulky Hive (hivesampletable), která je ve výchozím nastavení k dispozici na všech clusterech HDInsight. Získání výsledků trvá přibližně 30 sekund. Výstup vypadá takto:

is quickstart." border="true":::

Při každém spuštění dotazu v Jupyter se v názvu okna webového prohlížeče zobrazí stav (Busy) (Zaneprázdněn) společně s názvem poznámkového bloku. Zobrazí se také plný kroužek vedle textu PySpark v pravém horním rohu.
Spuštěním dalšího dotazu zobrazíte data v tabulce hivesampletable.
```
%%sql
SELECT * FROM hivesampletable LIMIT 10
```
Obrazovka by se měla aktualizovat a zobrazit výstup dotazu.

Insight" border="true":::
V nabídce Soubor poznámkového bloku vyberte Zavřít a zastavit. Vypnutím notebooku se uvolní prostředky clusteru.

Čištění zdrojů

HDInsight ukládá vaše data ve službě Azure Storage nebo Azure Data Lake Storage, takže můžete cluster bezpečně odstranit, když se nepoužívá. Za cluster HDInsight se vám také účtují poplatky, i když se nepoužívá. Vzhledem k tomu, že poplatky za cluster jsou mnohokrát vyšší než poplatky za úložiště, dává smysl odstranit clustery, když se nepoužívají. Pokud se chystáte hned začít pracovat na kurzu uvedeném v části Další kroky, měli byste cluster zachovat.

Přepněte zpět na web Azure Portal a vyberte Odstranit.

Azure Portal smazat klastr HDInsight. sight cluster" border="true":::

Můžete také výběrem názvu skupiny prostředků otevřít stránku skupiny prostředků a pak vybrat Odstranit skupinu prostředků. Odstraněním skupiny prostředků dojde k odstranění jak clusteru HDInsight, tak i výchozího účtu úložiště.

Další kroky

V tomto rychlém startu jste zjistili, jak vytvořit cluster Apache Spark ve službě HDInsight a spustit základní dotaz Spark SQL. V dalším kurzu se dozvíte, jak pomocí clusteru HDInsight spouštět interaktivní dotazy na ukázková data.

Spouštění interaktivních dotazů v Apache Sparku

Váš názor

Byla tato stránka užitečná?

Last updated on 2025-04-05