Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
V tomto rychlém startu pomocí webu Azure Portal vytvoříte cluster Apache Spark ve službě Azure HDInsight. Pak vytvoříte poznámkový blok Jupyter a použijete ho ke spouštění dotazů Spark SQL na tabulky Apache Hive. Azure HDInsight je spravovaná opensourcová analytická služba určená pro podniky. Architektura Apache Spark pro HDInsight umožňuje rychlou analýzu dat a cluster computing pomocí zpracování v paměti. Jupyter Notebook umožňuje pracovat s daty, kombinovat kód s textem markdownu a provádět jednoduché vizualizace.
Podrobné vysvětlení dostupných konfigurací najdete v tématu Nastavení clusterů ve službě HDInsight. Další informace o použití portálu k vytváření clusterů najdete v tématu Vytváření clusterů na portálu.
Pokud používáte více clusterů společně, můžete chtít vytvořit virtuální síť. Pokud používáte cluster Spark, můžete také chtít použít konektor Hive Warehouse Connector. Další informace najdete v tématu Plánování virtuální sítě pro Azure HDInsight a integrace Apache Sparku a Apache Hivu s konektorem Hive Warehouse.
Důležité
Fakturace clusterů HDInsight se účtuje za minutu bez ohledu na to, jestli je používáte, nebo ne. Až přestanete cluster používat, nezapomeňte ho odstranit. Další informace najdete v části Vyčištění prostředků tohoto článku.
Požadavky
Účet Azure s aktivním předplatným. Vytvoření účtu zdarma
Vytvoření clusteru Apache Spark ve službě HDInsight
Pomocí webu Azure Portal vytvoříte cluster HDInsight, který jako úložiště clusteru používá objekty blob služby Azure Storage. Další informace o použití Data Lake Storage Gen2 najdete v tématu Rychlý start: Nastavení clusterů ve službě HDInsight.
Přihlaste se do Azure Portalu.
V horní nabídce vyberte + Vytvořit prostředek.
Výběrem možnosti Analytics>Azure HDInsight přejděte na stránku Vytvořit cluster HDInsight.
Na kartě Základy zadejte následující informace:
Vlastnictví Popis Předplatné V rozevíracím seznamu vyberte předplatné Azure, které se používá pro cluster. Skupina zdrojů V rozevíracím seznamu vyberte existující skupinu prostředků nebo vyberte možnost Vytvořit novou. Název clusteru Zadejte globálně jedinečný název. Región V rozevíracím seznamu vyberte oblast, ve které je cluster vytvořen. Zóna dostupnosti Volitelné – zadejte zónu dostupnosti, ve které se má cluster nasadit. Typ clusteru Výběrem typu clusteru otevřete seznam. V seznamu vyberte Spark. Verze clusteru Po výběru typu clusteru se toto pole automaticky naplní výchozí verzí. Uživatelské jméno k přihlášení do clusteru Zadejte přihlašovací uživatelské jméno clusteru. Výchozí název je admin. Tento účet použijete k přihlášení k poznámkovému bloku Jupyter později v průvodci rychlým startem. Heslo přihlášení clusteru Zadejte přihlašovací heslo clusteru. Uživatelské jméno Secure Shell (SSH) Zadejte uživatelské jméno SSH. Uživatelské jméno SSH použité pro tento rychlý start je sshuser. Ve výchozím nastavení tento účet sdílí stejné heslo jako účet uživatelského jména pro přihlášení ke clusteru .
Vyberte Další: Úložiště >>, a pokračujte na stránku Úložiště.
V části Úložiště zadejte tyto hodnoty:
Vlastnictví Popis Typ primárního úložiště Použijte výchozí hodnotu Azure Storage. Metoda výběru Použijte výchozí hodnotu Vybrat ze seznamu. Účet primárního úložiště Použijte automaticky vyplněnou hodnotu. Kontejner Použijte automaticky vyplněnou hodnotu.
Pokračujte výběrem možnosti Zkontrolovat a vytvořit .
V části Zkontrolovat a vytvořit vyberte Vytvořit. Vytvoření clusteru trvá přibližně 20 minut. Cluster musí být vytvořen, než budete moci pokračovat k další relaci.
Pokud narazíte na problém s vytvářením clusterů HDInsight, může to být, že nemáte správná oprávnění k tomu. Další informace najdete v tématu popisujícím požadavky na řízení přístupu.
Vytvoření poznámkového bloku Jupyter
Jupyter Notebook je interaktivní prostředí poznámkového bloku, které podporuje různé programovací jazyky. Poznámkový blok umožňuje pracovat s daty, kombinovat kód s textem markdownu a provádět jednoduché vizualizace.
Ve webovém prohlížeči navigujte na
https://CLUSTERNAME.azurehdinsight.net/jupyter, kdeCLUSTERNAMEje název vašeho clusteru. Po zobrazení výzvy zadejte přihlašovací údaje clusteru.Vyberte Nový>PySpark a vytvořte poznámkový blok.
Nový poznámkový blok se vytvoří a otevře s názvem Bez názvu (Bez názvu.pynb).
Spouštění příkazů Apache Spark SQL
Jazyk SQL (Structured Query Language) je nejběžnějším a široce používaným jazykem pro dotazování a definování dat. Spark SQL funguje jako rozšíření Apache Spark pro zpracování strukturovaných dat a používá známou syntaxi jazyka SQL.
Ověřte, že je jádro připravené. Jádro bude připravené, až se vedle názvu jádra v poznámkovém bloku zobrazí prázdný kroužek. Plný kruh označuje, že je jádro zaneprázdněno.
Při prvním spuštění poznámkového bloku jádro provede některé úlohy na pozadí. Počkejte, až bude jádro připravené.
Do prázdné buňky vložte následující kód a stisknutím SHIFT + ENTER kód spusťte. Příkaz vypíše tabulky Hive v clusteru:
%%sql SHOW TABLESPři použití poznámkového bloku Jupyter s clusterem HDInsight získáte přednastavení
sqlContext, které můžete použít ke spouštění dotazů Hive pomocí Spark SQL.%%sqlříká poznámkovému bloku Jupyter, aby ke spuštění dotazu Hive použil předvolbusqlContext. Dotaz načte prvních 10 řádků z tabulky Hive (hivesampletable), která je ve výchozím nastavení k dispozici na všech clusterech HDInsight. Získání výsledků trvá přibližně 30 sekund. Výstup vypadá takto:
is quickstart." border="true":::Při každém spuštění dotazu v Jupyter se v názvu okna webového prohlížeče zobrazí stav (Busy) (Zaneprázdněn) společně s názvem poznámkového bloku. Zobrazí se také plný kroužek vedle textu PySpark v pravém horním rohu.
Spuštěním dalšího dotazu zobrazíte data v tabulce
hivesampletable.%%sql SELECT * FROM hivesampletable LIMIT 10Obrazovka by se měla aktualizovat a zobrazit výstup dotazu.
Insight" border="true":::V nabídce Soubor poznámkového bloku vyberte Zavřít a zastavit. Vypnutím notebooku se uvolní prostředky clusteru.
Čištění zdrojů
HDInsight ukládá vaše data ve službě Azure Storage nebo Azure Data Lake Storage, takže můžete cluster bezpečně odstranit, když se nepoužívá. Za cluster HDInsight se vám také účtují poplatky, i když se nepoužívá. Vzhledem k tomu, že poplatky za cluster jsou mnohokrát vyšší než poplatky za úložiště, dává smysl odstranit clustery, když se nepoužívají. Pokud se chystáte hned začít pracovat na kurzu uvedeném v části Další kroky, měli byste cluster zachovat.
Přepněte zpět na web Azure Portal a vyberte Odstranit.
sight cluster" border="true":::
Můžete také výběrem názvu skupiny prostředků otevřít stránku skupiny prostředků a pak vybrat Odstranit skupinu prostředků. Odstraněním skupiny prostředků dojde k odstranění jak clusteru HDInsight, tak i výchozího účtu úložiště.
Další kroky
V tomto rychlém startu jste zjistili, jak vytvořit cluster Apache Spark ve službě HDInsight a spustit základní dotaz Spark SQL. V dalším kurzu se dozvíte, jak pomocí clusteru HDInsight spouštět interaktivní dotazy na ukázková data.