Rychlý start: Nasazení spravovaného clusteru Apache Spark pomocí Azure Databricks

Článek
06/13/2024

Spravovaná instance Azure pro Apache Cassandra poskytuje automatizované operace nasazení a škálování pro spravovaná opensourcová datacentra Apache Cassandra. Tato funkce urychluje hybridní scénáře a snižuje průběžnou údržbu.

Tento rychlý start ukazuje, jak pomocí webu Azure Portal vytvořit plně spravovaný cluster Apache Spark ve virtuální síti Azure spravované instance Azure pro cluster Apache Cassandra. Cluster Spark vytvoříte v Azure Databricks. Později můžete vytvářet nebo připojovat poznámkové bloky ke clusteru, číst data z různých zdrojů dat a analyzovat přehledy.

Další informace najdete v podrobných pokynech k nasazení Služby Azure Databricks ve vaší virtuální síti Azure (injektáž virtuální sítě).

Požadavky

Pokud ještě nemáte předplatné Azure, vytvořte si napřed bezplatný účet.

Vytvoření clusteru Azure Databricks

Pomocí následujícího postupu vytvořte cluster Azure Databricks ve virtuální síti, který má spravovanou instanci Azure pro Apache Cassandra:

Přihlaste se k portálu Azure.
V levém navigačním podokně vyhledejte skupiny prostředků. Přejděte do skupiny prostředků, která obsahuje virtuální síť, ve které je nasazená spravovaná instance.
Otevřete prostředek virtuální sítě a poznamenejte si adresní prostor:
Ve skupině prostředků vyberte Přidat a vyhledejte Azure Databricks ve vyhledávacím poli:
Vyberte Vytvořit a vytvořte účet Azure Databricks:
Zadejte následující hodnoty:
- Název pracovního prostoru Zadejte název pracovního prostoru Databricks.
- Oblast Nezapomeňte vybrat stejnou oblast jako vaše virtuální síť.
- Cenová úroveň Vyberte si mezi standardem, premium nebo zkušební verzí. Další informace o těchto úrovních najdete na stránce s cenami za Databricks.
Dále vyberte kartu Sítě a zadejte následující podrobnosti:
- V virtuální síti (VNet) nasaďte pracovní prostor Azure Databricks a vyberte Ano.
- V rozevíracím seznamu vyberte virtuální síť, ve které existuje vaše spravovaná instance.
- Název veřejné podsítě Zadejte název veřejné podsítě.
- Rozsah CIDR veřejné podsítě Zadejte rozsah IP adres veřejné podsítě.
- Název privátní podsítě Zadejte název privátní podsítě.
- Rozsah CIDR privátní podsítě Zadejte rozsah IP adres privátní podsítě.
Abyste se vyhnuli kolizím rozsahů, ujistěte se, že vyberete vyšší rozsahy. V případě potřeby rozdělte rozsahy pomocí kalkulačky podsítě vizuálu:

Následující snímek obrazovky ukazuje ukázkové podrobnosti v podokně sítě:
Vyberte Zkontrolovat a vytvořit a pak vytvořit a nasadit pracovní prostor.
Po vytvoření spusťte pracovní prostor .
Budete přesměrováni na portál Azure Databricks. Na portálu vyberte Nový cluster.
V podokně Nový cluster přijměte výchozí hodnoty pro všechna jiná pole než následující pole:
- Název clusteru Zadejte název clusteru.
- Pro podporu Sparku 3.x doporučujeme vybrat verzi Modulu runtime Databricks verze 7.5 nebo vyšší.

Rozbalte rozšířené možnosti a přidejte následující konfiguraci. Nezapomeňte nahradit IP adresy a přihlašovací údaje uzlu:

spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
spark.cassandra.auth.password cassandra
spark.cassandra.connection.port 9042
spark.cassandra.auth.username cassandra
spark.cassandra.connection.ssl.enabled true

Přidejte do clusteru knihovnu konektoru Apache Spark Cassandra pro připojení k nativním i koncovým bodům Cassandra služby Azure Cosmos DB. V clusteru vyberte Knihovny>Nainstalovat nový>Maven a pak přidejte com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 souřadnice Mavenu.

Vyčištění prostředků

Pokud nebudete dál používat tento cluster spravovaných instancí, odstraňte ho pomocí následujících kroků:

V levé nabídce webu Azure Portal vyberte skupiny prostředků.
V seznamu vyberte skupinu prostředků, kterou jste vytvořili pro účely tohoto rychlého startu.
V podokně Přehled skupiny prostředků vyberte Odstranit skupinu prostředků.
V dalším okně zadejte název skupiny prostředků, která se má odstranit, a pak vyberte Odstranit.

Další kroky

V tomto rychlém startu jste zjistili, jak vytvořit plně spravovaný cluster Apache Spark ve virtuální síti clusteru Azure Managed Instance for Apache Cassandra. Dále se dozvíte, jak spravovat prostředky clusteru a datacentra:

Správa prostředků Azure Managed Instance pro Apache Cassandra pomocí Azure CLI

Sdílet prostřednictvím