Sdílet prostřednictvím


Rychlý start: Nasazení spravovaného clusteru Apache Spark pomocí Azure Databricks

Spravovaná instance Azure pro Apache Cassandra poskytuje automatizované operace nasazení a škálování pro spravovaná opensourcová datacentra Apache Cassandra. Tato funkce urychluje hybridní scénáře a snižuje průběžnou údržbu.

Tento rychlý start ukazuje, jak pomocí webu Azure Portal vytvořit plně spravovaný cluster Apache Spark ve virtuální síti Azure spravované instance Azure pro cluster Apache Cassandra. Cluster Spark vytvoříte v Azure Databricks. Později můžete vytvářet nebo připojovat poznámkové bloky ke clusteru, číst data z různých zdrojů dat a analyzovat přehledy.

Další informace najdete v podrobných pokynech k nasazení Služby Azure Databricks ve vaší virtuální síti Azure (injektáž virtuální sítě).

Požadavky

Pokud ještě nemáte předplatné Azure, vytvořte si napřed bezplatný účet.

Vytvoření clusteru Azure Databricks

Pomocí následujícího postupu vytvořte cluster Azure Databricks ve virtuální síti, který má spravovanou instanci Azure pro Apache Cassandra:

  1. Přihlaste se k portálu Azure.

  2. V levém navigačním podokně vyhledejte skupiny prostředků. Přejděte do skupiny prostředků, která obsahuje virtuální síť, ve které je nasazená spravovaná instance.

  3. Otevřete prostředek virtuální sítě a poznamenejte si adresní prostor:

    Snímek obrazovky ukazuje, kde získat adresní prostor vaší virtuální sítě.

  4. Ve skupině prostředků vyberte Přidat a vyhledejte Azure Databricks ve vyhledávacím poli:

    Snímek obrazovky ukazuje hledání Azure Databricks.

  5. Vyberte Vytvořit a vytvořte účet Azure Databricks:

    Snímek obrazovky znázorňující nabídku Azure Databricks s vybraným tlačítkem Vytvořit

  6. Zadejte následující hodnoty:

    • Název pracovního prostoru Zadejte název pracovního prostoru Databricks.
    • Oblast Nezapomeňte vybrat stejnou oblast jako vaše virtuální síť.
    • Cenová úroveň Vyberte si mezi standardem, premium nebo zkušební verzí. Další informace o těchto úrovních najdete na stránce s cenami za Databricks.

    Snímek obrazovky ukazuje dialogové okno, kde můžete zadat název pracovního prostoru, oblast a cenovou úroveň pro účet Databricks.

  7. Dále vyberte kartu Sítě a zadejte následující podrobnosti:

    • V virtuální síti (VNet) nasaďte pracovní prostor Azure Databricks a vyberte Ano.
    • V rozevíracím seznamu vyberte virtuální síť, ve které existuje vaše spravovaná instance.
    • Název veřejné podsítě Zadejte název veřejné podsítě.
    • Rozsah CIDR veřejné podsítě Zadejte rozsah IP adres veřejné podsítě.
    • Název privátní podsítě Zadejte název privátní podsítě.
    • Rozsah CIDR privátní podsítě Zadejte rozsah IP adres privátní podsítě.

    Abyste se vyhnuli kolizím rozsahů, ujistěte se, že vyberete vyšší rozsahy. V případě potřeby rozdělte rozsahy pomocí kalkulačky podsítě vizuálu:

    Snímek obrazovky znázorňující kalkulačku podsítě vizuálu se dvěma zvýrazněnými identickými síťovými adresami

    Následující snímek obrazovky ukazuje ukázkové podrobnosti v podokně sítě:

    Snímek obrazovky ukazuje zadané názvy veřejných a privátních podsítí.

  8. Vyberte Zkontrolovat a vytvořit a pak vytvořit a nasadit pracovní prostor.

  9. Po vytvoření spusťte pracovní prostor .

  10. Budete přesměrováni na portál Azure Databricks. Na portálu vyberte Nový cluster.

  11. V podokně Nový cluster přijměte výchozí hodnoty pro všechna jiná pole než následující pole:

    • Název clusteru Zadejte název clusteru.
    • Pro podporu Sparku 3.x doporučujeme vybrat verzi Modulu runtime Databricks verze 7.5 nebo vyšší.

    Snímek obrazovky s dialogovým oknem Nový cluster s vybranou verzí Modulu runtime Databricks

  12. Rozbalte rozšířené možnosti a přidejte následující konfiguraci. Nezapomeňte nahradit IP adresy a přihlašovací údaje uzlu:

    spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
    spark.cassandra.auth.password cassandra
    spark.cassandra.connection.port 9042
    spark.cassandra.auth.username cassandra
    spark.cassandra.connection.ssl.enabled true
    
  13. Přidejte do clusteru knihovnu konektoru Apache Spark Cassandra pro připojení k nativním i koncovým bodům Cassandra služby Azure Cosmos DB. V clusteru vyberte Knihovny>Nainstalovat nový>Maven a pak přidejte com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 souřadnice Mavenu.

Snímek obrazovky znázorňující hledání balíčků Maven v Databricks

Vyčištění prostředků

Pokud nebudete dál používat tento cluster spravovaných instancí, odstraňte ho pomocí následujících kroků:

  1. V levé nabídce webu Azure Portal vyberte skupiny prostředků.
  2. V seznamu vyberte skupinu prostředků, kterou jste vytvořili pro účely tohoto rychlého startu.
  3. V podokně Přehled skupiny prostředků vyberte Odstranit skupinu prostředků.
  4. V dalším okně zadejte název skupiny prostředků, která se má odstranit, a pak vyberte Odstranit.

Další kroky

V tomto rychlém startu jste zjistili, jak vytvořit plně spravovaný cluster Apache Spark ve virtuální síti clusteru Azure Managed Instance for Apache Cassandra. Dále se dozvíte, jak spravovat prostředky clusteru a datacentra: