Rychlý start: Nasazení spravovaného clusteru Apache Spark pomocí Azure Databricks

Azure Managed Instance for Apache Cassandra poskytuje automatizované operace nasazení a škálování pro spravovaná opensourcová datacentra Apache Cassandra. Tato funkce urychluje hybridní scénáře a snižuje probíhající údržbu.

Tento rychlý start ukazuje, jak pomocí Azure Portal vytvořit plně spravovaný cluster Apache Spark v rámci azure Virtual Network clusteru Azure Managed Instance for Apache Cassandra. Cluster Spark vytvoříte v Azure Databricks. Později můžete vytvořit nebo připojit poznámkové bloky ke clusteru, číst data z různých zdrojů dat a analyzovat přehledy.

Další informace najdete také v podrobných pokynech k nasazení Azure Databricks v Azure Virtual Network (Virtual Network Injection).

Požadavky

Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet před tím, než začnete.

Vytvoření clusteru Azure Databricks

Pomocí těchto kroků vytvořte cluster Azure Databricks v Virtual Network, který má spravovanou instanci Azure pro Apache Cassandra:

  1. Přihlaste se k webu Azure Portal.

  2. V levém navigačním podokně vyhledejte Skupiny prostředků. Přejděte do skupiny prostředků, která obsahuje Virtual Network, kde je vaše spravovaná instance nasazená.

  3. Otevřete prostředek Virtual Network a poznamenejte si adresní prostor:

    Snímek obrazovky ukazuje, kde získat adresní prostor Virtual Network.

  4. Ve skupině prostředků vyberte Přidat a ve vyhledávacím poli vyhledejte Azure Databricks :

    Snímek obrazovky znázorňuje hledání Azure Databricks.

  5. Vyberte Vytvořit a vytvořte účet Azure Databricks:

    Snímek obrazovky s nabídkou Azure Databricks s vybraným tlačítkem Vytvořit

  6. Zadejte tyto hodnoty:

    • Název pracovního prostoru Zadejte název pracovního prostoru Databricks.
    • Oblasti Nezapomeňte vybrat stejnou oblast jako Virtual Network.
    • Cenová úroveň Vyberte si mezi standardem, premium nebo zkušební verzí. Další informace o těchto úrovních najdete na stránce s cenami za Databricks.

    Snímek obrazovky ukazuje dialogové okno, ve kterém můžete zadat název pracovního prostoru, oblast a cenovou úroveň účtu Databricks.

  7. Pak vyberte kartu Sítě a zadejte následující podrobnosti:

    • Nasazení pracovního prostoru Azure Databricks ve Virtual Network (VNet) Vyberte Ano.
    • Virtual Network V rozevíracím seznamu zvolte Virtual Network, kde se nachází vaše spravovaná instance.
    • Název veřejné podsítě Zadejte název veřejné podsítě.
    • Rozsah CIDR veřejné podsítě Zadejte rozsah IP adres veřejné podsítě.
    • Název privátní podsítě Zadejte název privátní podsítě.
    • Rozsah CIDR privátní podsítě Zadejte rozsah IP adres privátní podsítě.

    Abyste se vyhnuli kolizím dojezdu, ujistěte se, že jste vybrali vyšší rozsahy. V případě potřeby rozdělte rozsahy pomocí vizuální kalkulačky podsítě :

    Snímek obrazovky znázorňující kalkulačku vizuální podsítě se dvěma zvýrazněnými identickými síťovými adresami

    Následující snímek obrazovky ukazuje ukázkové podrobnosti v podokně sítě:

    Snímek obrazovky se zadanými názvy veřejných a privátních podsítí

  8. Vyberte Zkontrolovat a vytvořit a pak Vytvořit a nasaďte pracovní prostor.

  9. Po vytvoření spusťte pracovní prostor .

  10. Budete přesměrováni na portál Azure Databricks. Na portálu vyberte Nový cluster.

  11. V podokně Nový cluster přijměte výchozí hodnoty pro všechna pole kromě následujících polí:

    • Název clusteru Zadejte název clusteru.
    • Verze databricks Runtime Pro podporu Sparku 3.x doporučujeme vybrat modul runtime Databricks verze 7.5 nebo vyšší.

    Snímek obrazovky s dialogovým oknem Nový cluster s vybranou verzí modulu runtime Databricks

  12. Rozbalte Upřesnit možnosti a přidejte následující konfiguraci. Nezapomeňte nahradit IP adresy a přihlašovací údaje uzlu:

    spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
    spark.cassandra.auth.password cassandra
    spark.cassandra.connection.port 9042
    spark.cassandra.auth.username cassandra
    spark.cassandra.connection.ssl.enabled true
    
  13. Přidejte do clusteru knihovnu konektorů Apache Spark Cassandra, abyste se mohli připojit k nativním koncovým bodům i koncovým bodům Cassandra služby Azure Cosmos DB. V clusteru vyberte Knihovny>Nainstalovat nový>Maven a pak přidejte com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 souřadnice Mavenu.

Snímek obrazovky znázorňující hledání balíčků Maven v Databricks

Vyčištění prostředků

Pokud tento cluster spravované instance nebudete dál používat, odstraňte ho pomocí následujících kroků:

  1. V levé nabídce Azure Portal vyberte Skupiny prostředků.
  2. V seznamu vyberte skupinu prostředků, kterou jste vytvořili pro účely tohoto rychlého startu.
  3. V podokně Přehled skupiny prostředků vyberte Odstranit skupinu prostředků.
  4. V dalším okně zadejte název skupiny prostředků, kterou chcete odstranit, a pak vyberte Odstranit.

Další kroky

V tomto rychlém startu jste zjistili, jak vytvořit plně spravovaný cluster Apache Spark v Virtual Network clusteru Azure Managed Instance for Apache Cassandra. Dále se dozvíte, jak spravovat prostředky clusteru a datacentra: