Acessar dados do Azure Cosmos DB para Apache Cassandra do Azure Databricks

APLICA-SE A: Cassandra

Este artigo detalha como trabalhar com o Azure Cosmos DB para Apache Cassandra do Spark no Azure Databricks.

Pré-requisitos

Adicionar as dependências necessárias

  • Conector Cassandra Spark: - Para integrar o Azure Cosmos DB para Apache Cassandra com o Spark, o conector Cassandra deve ser anexado ao cluster Azure Databricks. Para anexar o cluster:

    • Analise a versão de tempo de execução do Databricks, a versão do Spark. Em seguida, encontre as coordenadas maven que são compatíveis com o conector Cassandra Spark e anexe-o ao cluster. Consulte o artigo "Carregar um pacote Maven ou um pacote Spark" para anexar a biblioteca de conectores ao cluster. Recomendamos selecionar Databricks runtime version 10.4 LTS, que suporta o Spark 3.2.1. Para adicionar o Apache Spark Cassandra Connector, seu cluster, selecione Libraries>Install New>Maven e adicione com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0 as coordenadas Maven. Se estiver usando o Spark 2.x, recomendamos um ambiente com o Spark versão 2.4.5, usando o conector de faísca nas coordenadas com.datastax.spark:spark-cassandra-connector_2.11:2.4.3maven.
  • Biblioteca específica do Azure Cosmos DB para Apache Cassandra: - Se você estiver usando o Spark 2.x, uma fábrica de conexões personalizada será necessária para configurar a política de repetição do conector Cassandra Spark para o Azure Cosmos DB para Apache Cassandra. Adicione as com.microsoft.azure.cosmosdb:azure-cosmos-cassandra-spark-helper:1.2.0coordenadas maven para anexar a biblioteca ao cluster.

Nota

Se você estiver usando o Spark 3.x, não precisará instalar a biblioteca específica do Azure Cosmos DB para Apache Cassandra mencionada acima.

Aviso

Os exemplos do Spark 3 mostrados neste artigo foram testados com o Spark versão 3.2.1 e o correspondente Cassandra Spark Connector com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0. Versões posteriores do Spark e/ou do conector Cassandra podem não funcionar como esperado.

Blocos de notas de exemplo

Uma lista de blocos de anotações de exemplo do Azure Databricks está disponível no repositório GitHub para download. Esses exemplos incluem como se conectar ao Azure Cosmos DB para Apache Cassandra a partir do Spark e executar diferentes operações CRUD nos dados. Você também pode importar todos os blocos de anotações para o espaço de trabalho do cluster Databricks e executá-lo.

Aceder ao Azure Cosmos DB para Apache Cassandra a partir de programas Spark Scala

Os programas Spark a serem executados como processos automatizados no Azure Databricks são enviados ao cluster usando spark-submit) e agendados para serem executados nos trabalhos do Azure Databricks.

A seguir estão links para ajudá-lo a começar a criar programas Spark Scala para interagir com o Azure Cosmos DB para Apache Cassandra.

Próximos passos

Comece a criar uma API para a conta Cassandra, banco de dados e uma tabela usando um aplicativo Java.