Rychlý start: Nasazení spravovaného clusteru Apache Spark pomocí Azure Databricks

Článek
06/01/2023

Azure Managed Instance for Apache Cassandra poskytuje automatizované operace nasazení a škálování pro spravovaná opensourcová datacentra Apache Cassandra. Tato funkce urychluje hybridní scénáře a snižuje probíhající údržbu.

Tento rychlý start ukazuje, jak pomocí Azure Portal vytvořit plně spravovaný cluster Apache Spark v rámci azure Virtual Network clusteru Azure Managed Instance for Apache Cassandra. Cluster Spark vytvoříte v Azure Databricks. Později můžete vytvořit nebo připojit poznámkové bloky ke clusteru, číst data z různých zdrojů dat a analyzovat přehledy.

Další informace najdete také v podrobných pokynech k nasazení Azure Databricks v Azure Virtual Network (Virtual Network Injection).

Požadavky

Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet před tím, než začnete.

Vytvoření clusteru Azure Databricks

Pomocí těchto kroků vytvořte cluster Azure Databricks v Virtual Network, který má spravovanou instanci Azure pro Apache Cassandra:

Přihlaste se k webu Azure Portal.
V levém navigačním podokně vyhledejte Skupiny prostředků. Přejděte do skupiny prostředků, která obsahuje Virtual Network, kde je vaše spravovaná instance nasazená.
Otevřete prostředek Virtual Network a poznamenejte si adresní prostor:
Ve skupině prostředků vyberte Přidat a ve vyhledávacím poli vyhledejte Azure Databricks :
Vyberte Vytvořit a vytvořte účet Azure Databricks:
Zadejte tyto hodnoty:
- Název pracovního prostoru Zadejte název pracovního prostoru Databricks.
- Oblasti Nezapomeňte vybrat stejnou oblast jako Virtual Network.
- Cenová úroveň Vyberte si mezi standardem, premium nebo zkušební verzí. Další informace o těchto úrovních najdete na stránce s cenami za Databricks.
Pak vyberte kartu Sítě a zadejte následující podrobnosti:
- Nasazení pracovního prostoru Azure Databricks ve Virtual Network (VNet) Vyberte Ano.
- Virtual Network V rozevíracím seznamu zvolte Virtual Network, kde se nachází vaše spravovaná instance.
- Název veřejné podsítě Zadejte název veřejné podsítě.
- Rozsah CIDR veřejné podsítě Zadejte rozsah IP adres veřejné podsítě.
- Název privátní podsítě Zadejte název privátní podsítě.
- Rozsah CIDR privátní podsítě Zadejte rozsah IP adres privátní podsítě.
Abyste se vyhnuli kolizím dojezdu, ujistěte se, že jste vybrali vyšší rozsahy. V případě potřeby rozdělte rozsahy pomocí vizuální kalkulačky podsítě :

Následující snímek obrazovky ukazuje ukázkové podrobnosti v podokně sítě:
Vyberte Zkontrolovat a vytvořit a pak Vytvořit a nasaďte pracovní prostor.
Po vytvoření spusťte pracovní prostor .
Budete přesměrováni na portál Azure Databricks. Na portálu vyberte Nový cluster.
V podokně Nový cluster přijměte výchozí hodnoty pro všechna pole kromě následujících polí:
- Název clusteru Zadejte název clusteru.
- Verze databricks Runtime Pro podporu Sparku 3.x doporučujeme vybrat modul runtime Databricks verze 7.5 nebo vyšší.

Rozbalte Upřesnit možnosti a přidejte následující konfiguraci. Nezapomeňte nahradit IP adresy a přihlašovací údaje uzlu:

spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
spark.cassandra.auth.password cassandra
spark.cassandra.connection.port 9042
spark.cassandra.auth.username cassandra
spark.cassandra.connection.ssl.enabled true

Přidejte do clusteru knihovnu konektorů Apache Spark Cassandra, abyste se mohli připojit k nativním koncovým bodům i koncovým bodům Cassandra služby Azure Cosmos DB. V clusteru vyberte Knihovny>Nainstalovat nový>Maven a pak přidejte com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 souřadnice Mavenu.

Vyčištění prostředků

Pokud tento cluster spravované instance nebudete dál používat, odstraňte ho pomocí následujících kroků:

V levé nabídce Azure Portal vyberte Skupiny prostředků.
V seznamu vyberte skupinu prostředků, kterou jste vytvořili pro účely tohoto rychlého startu.
V podokně Přehled skupiny prostředků vyberte Odstranit skupinu prostředků.
V dalším okně zadejte název skupiny prostředků, kterou chcete odstranit, a pak vyberte Odstranit.

Další kroky

V tomto rychlém startu jste zjistili, jak vytvořit plně spravovaný cluster Apache Spark v Virtual Network clusteru Azure Managed Instance for Apache Cassandra. Dále se dozvíte, jak spravovat prostředky clusteru a datacentra:

Správa prostředků služby Azure Managed Instance for Apache Cassandra pomocí Azure CLI

Rychlý start: Nasazení spravovaného clusteru Apache Spark pomocí Azure Databricks

Požadavky

Vytvoření clusteru Azure Databricks

Vyčištění prostředků

Další kroky

Další materiály