Dela via


Få åtkomst till Azure Cosmos DB för Apache Cassandra-data från Azure Databricks

GÄLLER FÖR: Kassandra

Den här artikeln beskriver hur du arbetar med Azure Cosmos DB för Apache Cassandra från Spark på Azure Databricks.

Förutsättningar

Lägga till nödvändiga beroenden

  • Cassandra Spark-anslutningsprogram: – För att integrera Azure Cosmos DB för Apache Cassandra med Spark bör Cassandra-anslutningsappen kopplas till Azure Databricks-klustret. Så här kopplar du klustret:

    • Granska Databricks-körningsversionen, Spark-versionen. Leta sedan reda på de maven-koordinater som är kompatibla med Cassandra Spark-anslutningsappen och koppla dem till klustret. Se artikeln "Ladda upp ett Maven-paket eller Spark-paket" för att koppla anslutningsbiblioteket till klustret. Vi rekommenderar att du väljer Databricks runtime version 10.4 LTS, som stöder Spark 3.2.1. Om du vill lägga till Apache Spark Cassandra Connector, ditt kluster, väljer du Bibliotek>Installera ny>Maven och lägger sedan till com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0 i Maven-koordinater. Om du använder Spark 2.x rekommenderar vi en miljö med Spark version 2.4.5 med spark-anslutningsappen vid maven-koordinaterna com.datastax.spark:spark-cassandra-connector_2.11:2.4.3.
  • Azure Cosmos DB för Apache Cassandra-specifikt bibliotek: – Om du använder Spark 2.x krävs en anpassad anslutningsfabrik för att konfigurera återförsöksprincipen från Cassandra Spark-anslutningsappen till Azure Cosmos DB för Apache Cassandra. com.microsoft.azure.cosmosdb:azure-cosmos-cassandra-spark-helper:1.2.0Lägg till maven-koordinaterna för att koppla biblioteket till klustret.

Kommentar

Om du använder Spark 3.x behöver du inte installera Azure Cosmos DB för Apache Cassandra-specifikt bibliotek som nämns ovan.

Varning

Spark 3-exemplen som visas i den här artikeln har testats med Spark version 3.2.1 och motsvarande Cassandra Spark Connector com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0. Senare versioner av Spark och/eller Cassandra-anslutningsappen kanske inte fungerar som förväntat.

Exempel på notebook-filer

En lista över Azure Databricks-exempelanteckningsböcker finns i GitHub-lagringsplatsen som du kan ladda ned. De här exemplen omfattar hur du ansluter till Azure Cosmos DB för Apache Cassandra från Spark och utför olika CRUD-åtgärder på data. Du kan också importera alla notebook-filer till databricks-klusterarbetsytan och köra den.

Åtkomst till Azure Cosmos DB för Apache Cassandra från Spark Scala-program

Spark-program som ska köras som automatiserade processer i Azure Databricks skickas till klustret med spark-submit) och schemaläggs för att köras via Azure Databricks-jobben.

Följande är länkar som hjälper dig att komma igång med att skapa Spark Scala-program för att interagera med Azure Cosmos DB för Apache Cassandra.

Nästa steg

Kom igång med att skapa ett API för Cassandra-konto, databas och en tabell med hjälp av ett Java-program.