Sdílet prostřednictvím


Rychlý start: Vytvoření clusteru Apache Spark ve službě Azure HDInsight pomocí webu Azure Portal

V tomto rychlém startu pomocí webu Azure Portal vytvoříte cluster Apache Spark ve službě Azure HDInsight. Pak vytvoříte poznámkový blok Jupyter a použijete ho ke spouštění dotazů Spark SQL na tabulky Apache Hive. Azure HDInsight je spravovaná opensourcová analytická služba určená pro podniky. Architektura Apache Spark pro HDInsight umožňuje rychlou analýzu dat a cluster computing pomocí zpracování v paměti. Jupyter Notebook umožňuje pracovat s daty, kombinovat kód s textem markdownu a provádět jednoduché vizualizace.

Podrobné vysvětlení dostupných konfigurací najdete v tématu Nastavení clusterů ve službě HDInsight. Další informace o použití portálu k vytváření clusterů najdete v tématu Vytváření clusterů na portálu.

Pokud používáte více clusterů společně, můžete chtít vytvořit virtuální síť. Pokud používáte cluster Spark, můžete také chtít použít konektor Hive Warehouse Connector. Další informace najdete v tématu Plánování virtuální sítě pro Azure HDInsight a integrace Apache Sparku a Apache Hivu s konektorem Hive Warehouse.

Důležité

Fakturace clusterů HDInsight se účtuje za minutu bez ohledu na to, jestli je používáte, nebo ne. Až přestanete cluster používat, nezapomeňte ho odstranit. Další informace najdete v části Vyčištění prostředků tohoto článku.

Požadavky

Účet Azure s aktivním předplatným. Vytvoření účtu zdarma

Vytvoření clusteru Apache Spark ve službě HDInsight

Pomocí webu Azure Portal vytvoříte cluster HDInsight, který jako úložiště clusteru používá objekty blob služby Azure Storage. Další informace o použití Data Lake Storage Gen2 najdete v tématu Rychlý start: Nastavení clusterů ve službě HDInsight.

  1. Přihlaste se do Azure Portalu.

  2. V horní nabídce vyberte + Vytvořit prostředek.

    Snímek obrazovky portálu Azure, jak vytvořit prostředek

  3. Výběrem možnosti Analytics>Azure HDInsight přejděte na stránku Vytvořit cluster HDInsight.

  4. Na kartě Základy zadejte následující informace:

    Vlastnictví Popis
    Předplatné V rozevíracím seznamu vyberte předplatné Azure, které se používá pro cluster.
    Skupina zdrojů V rozevíracím seznamu vyberte existující skupinu prostředků nebo vyberte možnost Vytvořit novou.
    Název clusteru Zadejte globálně jedinečný název.
    Región V rozevíracím seznamu vyberte oblast, ve které je cluster vytvořen.
    Zóna dostupnosti Volitelné – zadejte zónu dostupnosti, ve které se má cluster nasadit.
    Typ clusteru Výběrem typu clusteru otevřete seznam. V seznamu vyberte Spark.
    Verze clusteru Po výběru typu clusteru se toto pole automaticky naplní výchozí verzí.
    Uživatelské jméno k přihlášení do clusteru Zadejte přihlašovací uživatelské jméno clusteru. Výchozí název je admin. Tento účet použijete k přihlášení k poznámkovému bloku Jupyter později v průvodci rychlým startem.
    Heslo přihlášení clusteru Zadejte přihlašovací heslo clusteru.
    Uživatelské jméno Secure Shell (SSH) Zadejte uživatelské jméno SSH. Uživatelské jméno SSH použité pro tento rychlý start je sshuser. Ve výchozím nastavení tento účet sdílí stejné heslo jako účet uživatelského jména pro přihlášení ke clusteru .

    Snímek obrazovky znázorňující vytvoření clusteru HDInsight s vybranou kartou Základy

  5. Vyberte Další: Úložiště >>, a pokračujte na stránku Úložiště.

  6. V části Úložiště zadejte tyto hodnoty:

    Vlastnictví Popis
    Typ primárního úložiště Použijte výchozí hodnotu Azure Storage.
    Metoda výběru Použijte výchozí hodnotu Vybrat ze seznamu.
    Účet primárního úložiště Použijte automaticky vyplněnou hodnotu.
    Kontejner Použijte automaticky vyplněnou hodnotu.

    Snímek obrazovky znázorňuje kartu Úložiště při vytváření clusteru HDInsight.

    Pokračujte výběrem možnosti Zkontrolovat a vytvořit .

  7. V části Zkontrolovat a vytvořit vyberte Vytvořit. Vytvoření clusteru trvá přibližně 20 minut. Cluster musí být vytvořen, než budete moci pokračovat k další relaci.

Pokud narazíte na problém s vytvářením clusterů HDInsight, může to být, že nemáte správná oprávnění k tomu. Další informace najdete v tématu popisujícím požadavky na řízení přístupu.

Vytvoření poznámkového bloku Jupyter

Jupyter Notebook je interaktivní prostředí poznámkového bloku, které podporuje různé programovací jazyky. Poznámkový blok umožňuje pracovat s daty, kombinovat kód s textem markdownu a provádět jednoduché vizualizace.

  1. Ve webovém prohlížeči navigujte na https://CLUSTERNAME.azurehdinsight.net/jupyter, kde CLUSTERNAME je název vašeho clusteru. Po zobrazení výzvy zadejte přihlašovací údaje clusteru.

  2. Vyberte Nový>PySpark a vytvořte poznámkový blok.

    Vytvořte poznámkový blok Jupyter pro spuštění interaktivního dotazu Spark SQL.

    Nový poznámkový blok se vytvoří a otevře s názvem Bez názvu (Bez názvu.pynb).

Spouštění příkazů Apache Spark SQL

Jazyk SQL (Structured Query Language) je nejběžnějším a široce používaným jazykem pro dotazování a definování dat. Spark SQL funguje jako rozšíření Apache Spark pro zpracování strukturovaných dat a používá známou syntaxi jazyka SQL.

  1. Ověřte, že je jádro připravené. Jádro bude připravené, až se vedle názvu jádra v poznámkovém bloku zobrazí prázdný kroužek. Plný kruh označuje, že je jádro zaneprázdněno.

    Snímek obrazovky znázorňující okno Jupyter s indikátorem PySpark

    Při prvním spuštění poznámkového bloku jádro provede některé úlohy na pozadí. Počkejte, až bude jádro připravené.

  2. Do prázdné buňky vložte následující kód a stisknutím SHIFT + ENTER kód spusťte. Příkaz vypíše tabulky Hive v clusteru:

    %%sql
    SHOW TABLES
    

    Při použití poznámkového bloku Jupyter s clusterem HDInsight získáte přednastavení sqlContext , které můžete použít ke spouštění dotazů Hive pomocí Spark SQL. %%sql říká poznámkovému bloku Jupyter, aby ke spuštění dotazu Hive použil předvolbu sqlContext. Dotaz načte prvních 10 řádků z tabulky Hive (hivesampletable), která je ve výchozím nastavení k dispozici na všech clusterech HDInsight. Získání výsledků trvá přibližně 30 sekund. Výstup vypadá takto:

    Snímek obrazovky ukazuje okno Jupyter pro poznámkový blok vytvořený v tomto rychlém startu. is quickstart." border="true":::

    Při každém spuštění dotazu v Jupyter se v názvu okna webového prohlížeče zobrazí stav (Busy) (Zaneprázdněn) společně s názvem poznámkového bloku. Zobrazí se také plný kroužek vedle textu PySpark v pravém horním rohu.

  3. Spuštěním dalšího dotazu zobrazíte data v tabulce hivesampletable.

    %%sql
    SELECT * FROM hivesampletable LIMIT 10
    

    Obrazovka by se měla aktualizovat a zobrazit výstup dotazu.

    Výstup dotazu Hive ve službě HDInsight Insight" border="true":::

  4. V nabídce Soubor poznámkového bloku vyberte Zavřít a zastavit. Vypnutím notebooku se uvolní prostředky clusteru.

Čištění zdrojů

HDInsight ukládá vaše data ve službě Azure Storage nebo Azure Data Lake Storage, takže můžete cluster bezpečně odstranit, když se nepoužívá. Za cluster HDInsight se vám také účtují poplatky, i když se nepoužívá. Vzhledem k tomu, že poplatky za cluster jsou mnohokrát vyšší než poplatky za úložiště, dává smysl odstranit clustery, když se nepoužívají. Pokud se chystáte hned začít pracovat na kurzu uvedeném v části Další kroky, měli byste cluster zachovat.

Přepněte zpět na web Azure Portal a vyberte Odstranit.

Azure Portal smazat klastr HDInsight. sight cluster" border="true":::

Můžete také výběrem názvu skupiny prostředků otevřít stránku skupiny prostředků a pak vybrat Odstranit skupinu prostředků. Odstraněním skupiny prostředků dojde k odstranění jak clusteru HDInsight, tak i výchozího účtu úložiště.

Další kroky

V tomto rychlém startu jste zjistili, jak vytvořit cluster Apache Spark ve službě HDInsight a spustit základní dotaz Spark SQL. V dalším kurzu se dozvíte, jak pomocí clusteru HDInsight spouštět interaktivní dotazy na ukázková data.