Acessar dados do Azure Cosmos DB for Apache Cassandra do Azure Databricks

APLICA-SE AO: Cassandra

Este artigo detalha como trabalhar com o Azure Cosmos DB for Apache Cassandra do Spark no Azure Databricks.

Pré-requisitos

Adicione as dependências necessárias

  • Conector Spark do Cassandra: – para integrar o Azure Cosmos DB for Apache Cassandra ao Spark, o conector do Cassandra deve ser anexado ao cluster do Azure Databricks. Para anexar o cluster:

    • Examine a versão do Databricks runtime, a versão do Spark. Em seguida, localize as coordenadas maven que são compatíveis com o conector Spark do Cassandra e anexe-as ao cluster. Veja o artigo "Carregar um pacote de Maven ou o pacote Spark" para anexar a biblioteca do conector para ao cluster. Recomendamos a seleção do runtime do Databricks versão 10.4 LTS, que é compatível com o Spark 3.2.1. Para adicionar o conector Cassandra do Apache Spark, seu cluster, selecione Bibliotecas>Instalar novo>Mavene, em seguida, adicione as com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0 coordenadas do Maven. Se estiver usando o Spark 2 x, recomendamos um ambiente com o Spark versão 2.4.5, usando o conector do Spark em coordenadas do Maven com.datastax.spark:spark-cassandra-connector_2.11:2.4.3.
  • Biblioteca específica do Azure Cosmos DB for Apache Cassandra: – se você está usando o Spark 2.x, um alocador de conexão personalizado é necessário para configurar a política de repetição do conector Spark do Cassandra ao Azure Cosmos DB for Apache Cassandra. Adicione as com.microsoft.azure.cosmosdb:azure-cosmos-cassandra-spark-helper:1.2.0coordenadas maven para anexar biblioteca ao cluster.

Observação

Se você estiver usando o Spark 3.x, não será necessário instalar a biblioteca específica do Azure Cosmos DB for Apache Cassandra mencionada acima.

Aviso

Os exemplos do Spark 3 mostrados neste artigo foram testados com o Spark versão 3.2.1 e com o Conector do Cassandra Spark correspondente com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0. É possível que as versões posteriores do Spark e/ou do conector do Cassandra não funcionem conforme o esperado.

Notebooks de exemplo

Uma lista dos notebooks de exemplo do Azure Databricks está disponível no repositório do GitHub para fazer o download. Esses exemplos incluem como se conectar ao Azure Cosmos DB for Apache Cassandra do Spark e executar diferentes operações CRUD nos dados. Você também pode importar todos os notebooks para o Databricks do workspace do cluster e executá-lo.

Acessar o Azure Cosmos DB for Apache Cassandra de programas do Spark Scala

Programas de Spark devem ser executados como processos automatizados no Azure Databricks são enviados para o cluster usando spark-submit) e agendado para ser executado por meio de trabalhos do Azure Databricks.

Estes são links para ajudá-lo a começar a criar programas Spark Scala para interagir com o Azure Cosmos DB for Apache Cassandra.

Próximas etapas

Introdução à criação de uma conta, um banco de dados e uma tabela da API for Cassandra usando um aplicativo Java.