Acessar dados do Azure Cosmos DB for Apache Cassandra do Azure Databricks

2024-08-15

APLICA-SE AO: Cassandra

Este artigo detalha como trabalhar com o Azure Cosmos DB for Apache Cassandra do Spark no Azure Databricks.

Pré-requisitos

Provisionar uma conta do Azure Cosmos DB for Apache Cassandra
Examinar os conceitos básicos da conexão com o Azure Cosmos DB for Apache Cassandra
Provisionar um cluster do Azure Databricks
Examinar os exemplos de código para trabalhar com a API para Cassandra
Usar cqlsh para validação se você assim preferir
Configuração da instância de API para Cassandra para o conector do Cassandra:

O conector da API do Cassandra requer os detalhes de conexão do Cassandra para ser inicializado no contexto do Spark. Quando você inicia um notebook do Databricks, o contexto do spark já é inicializado e não é aconselhável parar e reinicializá-lo. Uma solução é adicionar a configuração de instância de API para Cassandra em um nível de cluster na configuração do cluster Spark. Trata-se de uma atividade única por cluster. Adicione o seguinte código para a configuração do Spark como par de valor de chave separado do espaço:
```
spark.cassandra.connection.host YOUR_COSMOSDB_ACCOUNT_NAME.cassandra.cosmosdb.azure.com
spark.cassandra.connection.port 10350
spark.cassandra.connection.ssl.enabled true
spark.cassandra.auth.username YOUR_COSMOSDB_ACCOUNT_NAME
spark.cassandra.auth.password YOUR_COSMOSDB_KEY
```

Adicione as dependências necessárias

Conector Spark do Cassandra: – para integrar o Azure Cosmos DB for Apache Cassandra ao Spark, o conector do Cassandra deve ser anexado ao cluster do Azure Databricks. Para anexar o cluster:
- Examine a versão do Databricks runtime, a versão do Spark. Em seguida, localize as coordenadas maven que são compatíveis com o conector Spark do Cassandra e anexe-as ao cluster. Veja o artigo "Carregar um pacote de Maven ou o pacote Spark" para anexar a biblioteca do conector para ao cluster. Recomendamos a seleção do runtime do Databricks versão 10.4 LTS, que é compatível com o Spark 3.2.1. Para adicionar o conector Cassandra do Apache Spark, seu cluster, selecione Bibliotecas>Instalar novo>Mavene, em seguida, adicione as com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0 coordenadas do Maven. Se estiver usando o Spark 2 x, recomendamos um ambiente com o Spark versão 2.4.5, usando o conector do Spark em coordenadas do Maven com.datastax.spark:spark-cassandra-connector_2.11:2.4.3.
Biblioteca específica do Azure Cosmos DB for Apache Cassandra: – se você está usando o Spark 2.x, um alocador de conexão personalizado é necessário para configurar a política de repetição do conector Spark do Cassandra ao Azure Cosmos DB for Apache Cassandra. Adicione as com.microsoft.azure.cosmosdb:azure-cosmos-cassandra-spark-helper:1.2.0coordenadas maven para anexar biblioteca ao cluster.

Observação

Se você estiver usando o Spark 3.x, não será necessário instalar a biblioteca específica do Azure Cosmos DB for Apache Cassandra mencionada acima.

Aviso

Os exemplos do Spark 3 mostrados neste artigo foram testados com o Spark versão 3.2.1 e com o Conector do Cassandra Spark correspondente com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0. É possível que as versões posteriores do Spark e/ou do conector do Cassandra não funcionem conforme o esperado.

Notebooks de exemplo

Uma lista dos notebooks de exemplo do Azure Databricks está disponível no repositório do GitHub para fazer o download. Esses exemplos incluem como se conectar ao Azure Cosmos DB for Apache Cassandra do Spark e executar diferentes operações CRUD nos dados. Você também pode importar todos os notebooks para o Databricks do workspace do cluster e executá-lo.

Acessar o Azure Cosmos DB for Apache Cassandra de programas do Spark Scala

Programas de Spark devem ser executados como processos automatizados no Azure Databricks são enviados para o cluster usando spark-submit) e agendado para ser executado por meio de trabalhos do Azure Databricks.

Estes são links para ajudá-lo a começar a criar programas Spark Scala para interagir com o Azure Cosmos DB for Apache Cassandra.

Próximas etapas

Introdução à criação de uma conta, um banco de dados e uma tabela da API for Cassandra usando um aplicativo Java.