Migrowanie do wystąpienia zarządzanego platformy Azure dla systemu Apache Cassandra przy użyciu platformy Apache Spark
Artykuł
Jeśli to możliwe, zalecamy użycie natywnej replikacji apache Cassandra w celu przeprowadzenia migracji danych z istniejącego klastra do wystąpienia zarządzanego platformy Azure dla usługi Apache Cassandra przez skonfigurowanie klastra hybrydowego. Takie podejście będzie używać protokołu plotek platformy Apache Cassandra do replikowania danych ze źródłowego centrum danych do nowego centrum danych wystąpienia zarządzanego. Mogą jednak wystąpić pewne scenariusze, w których źródłowa wersja bazy danych nie jest zgodna lub konfiguracja klastra hybrydowego nie jest możliwa.
W tym samouczku opisano sposób migrowania danych do usługi Migrate to Azure Managed Instance for Apache Cassandra w trybie offline przy użyciu łącznika Cassandra Spark i usługi Azure Databricks dla platformy Apache Spark.
Upewnij się, że przeprowadzono już migrację schematu przestrzeni kluczy/tabeli ze źródłowej bazy danych Cassandra do docelowej bazy danych wystąpienia zarządzanego Cassandra.
Aprowizuj klaster usługi Azure Databricks
Zalecamy wybranie środowiska Uruchomieniowego usługi Databricks w wersji 7.5, która obsługuje platformę Spark 3.0.
Dodawanie zależności
Dodaj bibliotekę łącznika Apache Spark Cassandra do klastra, aby nawiązać połączenie z punktami końcowymi natywnymi i punktami końcowymi cassandra usługi Azure Cosmos DB. W klastrze wybierz pozycję Biblioteki>Zainstaluj nowe>narzędzie Maven, a następnie dodaj com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 współrzędne narzędzia Maven.
Wybierz pozycję Zainstaluj, a następnie uruchom ponownie klaster po zakończeniu instalacji.
Uwaga
Upewnij się, że klaster usługi Databricks został uruchomiony ponownie po zainstalowaniu biblioteki łącznika Cassandra.
Tworzenie notesu Scala na potrzeby migracji
Tworzenie notesu Scala w usłudze Databricks. Zastąp źródłowe i docelowe konfiguracje bazy danych Cassandra odpowiednimi poświadczeniami oraz źródłowymi i docelowymi przestrzeniami kluczy i tabelami. Następnie uruchom następujący kod:
Demonstrate understanding of common data engineering tasks to implement and manage data engineering workloads on Microsoft Azure, using a number of Azure services.