Přístup k datům Azure Cosmos DB for Apache Cassandra z Azure Databricks

PLATÍ PRO: Cassandra

Tento článek podrobně popisuje, jak pracovat se službou Azure Cosmos DB for Apache Cassandra ze Sparku v Azure Databricks.

Požadavky

Přidejte požadované závislosti

  • Konektor Cassandra Spark: – Pokud chcete integrovat Službu Azure Cosmos DB pro Apache Cassandra se Sparkem, musí být konektor Cassandra připojený ke clusteru Azure Databricks. Připojení clusteru:

    • Zkontrolujte verzi modulu runtime Databricks, verzi Sparku. Pak vyhledejte souřadnice Mavenu, které jsou kompatibilní s konektorem Cassandra Spark, a připojte je ke clusteru. Informace o připojení knihovny konektorů ke clusteru najdete v článku Nahrání balíčku Maven nebo balíčku Spark. Doporučujeme vybrat modul runtime Databricks verze 10.4 LTS, který podporuje Spark 3.2.1. Pokud chcete přidat Apache Spark Cassandra Připojení or, cluster vyberte Knihovny>Nainstalovat nový>Maven a pak přidejte com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0 do souřadnic Mavenu. Pokud používáte Spark 2.x, doporučujeme prostředí se Sparkem verze 2.4.5 pomocí konektoru Spark na souřadnicích com.datastax.spark:spark-cassandra-connector_2.11:2.4.3Mavenu.
  • Knihovna specifická pro Azure Cosmos DB pro Apache Cassandra: – Pokud používáte Spark 2.x, je potřeba vlastní objekt pro připojení ke konfiguraci zásad opakování z konektoru Cassandra Spark do služby Azure Cosmos DB for Apache Cassandra. com.microsoft.azure.cosmosdb:azure-cosmos-cassandra-spark-helper:1.2.0Přidejte souřadnice mavenu pro připojení knihovny ke clusteru.

Poznámka:

Pokud používáte Spark 3.x, nemusíte instalovat knihovnu specifickou pro Apache Cassandra pro Azure Cosmos DB uvedenou výše.

Upozorňující

Ukázky Sparku 3 uvedené v tomto článku byly testovány se Sparkem verze 3.2.1 a odpovídajícími Připojení or com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0. Novější verze Sparku nebo konektoru Cassandra nemusí fungovat podle očekávání.

Ukázkové poznámkové bloky

Seznam ukázkových poznámkových bloků Azure Databricks je k dispozici v úložišti GitHubu ke stažení. Mezi tyto ukázky patří postup připojení ke službě Azure Cosmos DB pro Apache Cassandra ze Sparku a provádění různých operací CRUD s daty. Všechny poznámkové bloky můžete také importovat do pracovního prostoru clusteru Databricks a spustit ho.

Přístup ke službě Azure Cosmos DB for Apache Cassandra z programů Spark Scala

Programy Sparku, které se mají spouštět jako automatizované procesy v Azure Databricks, se odesílají do clusteru pomocí spark-submit) a plánují spouštění prostřednictvím úloh Azure Databricks.

Následující odkazy vám pomůžou začít vytvářet programy Spark Scala pro interakci se službou Azure Cosmos DB pro Apache Cassandra.

Další kroky

Začněte vytvářet rozhraní API pro účet Cassandra, databázi a tabulku pomocí aplikace v Javě.