Azure Databricks'ten Apache Cassandra için Azure Cosmos DB verilerine erişme

ŞUNLAR IÇIN GEÇERLIDIR: Cassandra

Bu makalede, Azure Databricks'te Spark'tan Apache Cassandra için Azure Cosmos DB ile çalışma ayrıntılarıyla açıklanmaktadır.

Önkoşullar

Gerekli bağımlılıkları ekleme

  • Cassandra Spark bağlayıcısı: - Apache Cassandra için Azure Cosmos DB'yi Spark ile tümleştirmek için Cassandra bağlayıcısının Azure Databricks kümesine eklenmesi gerekir. Kümeyi eklemek için:

    • Databricks çalışma zamanı sürümünü, Spark sürümünü gözden geçirin. Ardından Cassandra Spark bağlayıcısı ile uyumlu maven koordinatlarını bulun ve kümeye ekleyin. Bağlayıcı kitaplığını kümeye eklemek için "Maven paketini veya Spark paketini karşıya yükleme" makalesine bakın. Spark 3.2.1'i destekleyen Databricks çalışma zamanı sürüm 10.4 LTS'yi seçmenizi öneririz. Apache Spark Cassandra Bağlan veya kümenizi eklemek için Kitaplıklar>Yeni>Maven Yükle'yi seçin ve ardından Maven koordinatlarını ekleyin.com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0 Spark 2.x kullanıyorsanız, spark bağlayıcısı maven koordinatlarında com.datastax.spark:spark-cassandra-connector_2.11:2.4.3kullanılarak Spark sürüm 2.4.5 ile bir ortam önerilir.
  • Apache Cassandra için Azure Cosmos DB'ye özgü kitaplık: - Spark 2.x kullanıyorsanız Cassandra Spark bağlayıcısından Apache Cassandra için Azure Cosmos DB'ye yeniden deneme ilkesini yapılandırmak için özel bir bağlantı fabrikası gerekir. com.microsoft.azure.cosmosdb:azure-cosmos-cassandra-spark-helper:1.2.0Kitaplığı kümeye eklemek için maven koordinatlarını ekleyin.

Not

Spark 3.x kullanıyorsanız, yukarıda bahsedilen Apache Cassandra'ya özgü kitaplık için Azure Cosmos DB'yi yüklemeniz gerekmez.

Uyarı

Bu makalede gösterilen Spark 3 örnekleri Spark sürüm 3.2.1 ve buna karşılık gelen Cassandra Spark Bağlan or com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0 ile test edilmiştir. Spark ve/veya Cassandra bağlayıcısının sonraki sürümleri beklendiği gibi çalışmayabilir.

Örnek not defterleri

İndirmeniz için GitHub deposunda Azure Databricks örnek not defterlerinin bir listesini bulabilirsiniz. Bu örnekler Spark'tan Apache Cassandra için Azure Cosmos DB'ye bağlanmayı ve veriler üzerinde farklı CRUD işlemleri gerçekleştirmeyi içerir. Ayrıca tüm not defterlerini Databricks kümesi çalışma alanınıza aktarabilir ve çalıştırabilirsiniz.

Spark Scala programlarından Apache Cassandra için Azure Cosmos DB'ye erişme

Azure Databricks'te otomatik işlemler olarak çalıştırılacak Spark programları spark-submit kullanılarak kümeye gönderilir) ve Azure Databricks işlerinde çalışacak şekilde zamanlanır.

Aşağıda, Apache Cassandra için Azure Cosmos DB ile etkileşim kurmak üzere Spark Scala programları oluşturmaya başlamanıza yardımcı olacak bağlantılar yer almaktadır.

Sonraki adımlar

Java uygulaması kullanarak Cassandra hesabı, veritabanı ve tablo için API oluşturmaya başlayın.