Direktmigrering till Azure Managed Instance för Apache Cassandra med hjälp av en proxy med dubbla skrivningar

2025-06-11

Där det är möjligt rekommenderar vi att du använder den inbyggda funktionen Apache Cassandra för att migrera data från ditt befintliga kluster till Azure Managed Instance för Apache Cassandra genom att konfigurera ett hybridkluster. Den här funktionen använder Apache Cassandras skvallerprotokoll för att replikera data från ditt källdatacenter till ditt nya datacenter för hanterad instans på ett sömlöst sätt.

Det kan finnas scenarier där källdatabasversionen inte är kompatibel eller om en hybridklusterkonfiguration annars inte är möjlig. I den här självstudien beskrivs hur du migrerar data till Azure Managed Instance för Apache Cassandra live med hjälp av en proxy med dubbla skrivningar och Apache Spark. Proxyn med dubbla skrivningar används för att samla in live-ändringar, medan historiska data kopieras massvis med Apache Spark. Fördelarna med den här metoden är:

Minimala programändringar. Proxyn kan acceptera anslutningar från programkoden med få eller inga konfigurationsändringar. Den dirigerar alla begäranden till källdatabasen och dirigerar skrivningar asynkront till ett sekundärt mål.
Beroende av klienttrådsprotokoll. Eftersom den här metoden inte är beroende av serverdelsresurser eller interna protokoll kan den användas med valfritt Cassandra-käll- eller målsystem som implementerar Apache Cassandra-trådprotokollet.

Följande bild illustrerar metoden.

Animering som visar direktmigrering av data till Azure Managed Instance för Apache Cassandra.

Förutsättningar

Etablera ett Azure Managed Instance för Apache Cassandra-kluster med hjälp av Azure Portal eller Azure CLI. Se till att du kan ansluta till klustret med CQLSH.
Etablera ett Azure Databricks-konto i ditt hanterade virtuella Cassandra-nätverk. Kontrollera att kontot har nätverksåtkomst till ditt Cassandra-källkluster. Det här exemplet skapar ett Spark-kluster i det här kontot för inläsning av historiska data.
Kontrollera att du redan har migrerat nyckelrymds-/tabellschemat från cassandra-källdatabasen till måldatabasen för den hanterade Cassandra-instansen.

Etablera ett Spark-kluster

Vi rekommenderar att du väljer Azure Databricks runtime version 7.5, som stöder Spark 3.0.

Skärmbild som visar hur du hittar Azure Databricks-körningsversionen.

Lägga till Spark-beroenden

Du måste lägga till Apache Spark Cassandra Connector-biblioteket i klustret för att ansluta till alla kabelprotokollkompatibla Apache Cassandra-slutpunkter. I klustret väljer du > och lägger sedan till i Maven-koordinater.

Viktigt!

Om du har ett krav på att bevara Apache Cassandra writetime för varje rad under migreringen rekommenderar vi att du använder det här exemplet. Beroende-jaren i det här exemplet innehåller även Spark-konnektorn, så installera den här versionen istället för konnektorpaketet.

Det här exemplet är också användbart om du vill utföra en radjämförelseverifiering mellan källa och mål när den historiska datainläsningen har slutförts. Se Kör den historiska datainläsningen och Verifiera källan och målet.

Välj Installera och starta sedan om klustret när installationen är klar.

Kommentar

Se till att starta om Azure Databricks-klustret när Cassandra Connector-biblioteket har installerats.

Installera proxyn med dubbel skrivning

För optimala prestanda vid dubbla skrivningar rekommenderar vi att du installerar proxyn på alla noder i ditt Cassandra-källkluster.

#assuming you do not have git already installed
sudo apt-get install git 

#assuming you do not have maven already installed
sudo apt install maven

#clone repo for dual-write proxy
git clone https://github.com/Azure-Samples/cassandra-proxy.git

#change directory
cd cassandra-proxy

#compile the proxy
mvn package

Starta proxyn med dubbel skrivning

Vi rekommenderar att du installerar proxyn på alla noder i ditt Cassandra-källkluster. Kör minst följande kommando för att starta proxyn på varje nod. Ersätt <target-server> med en IP- eller serveradress från en av noderna i målklustret. Ersätt <path to JKS file> med sökvägen till en lokal jks-fil och ersätt <keystore password> med motsvarande lösenord.

java -jar target/cassandra-proxy-1.0-SNAPSHOT-fat.jar localhost <target-server> --proxy-jks-file <path to JKS file> --proxy-jks-password <keystore password>

Att starta proxyn på det här sättet förutsätter att följande är sant:

Käll- och målslutpunkter har samma användarnamn och lösenord.
Käll- och målslutpunkter implementerar SSL (Secure Sockets Layer).

Om dina käll- och målslutpunkter inte kan uppfylla dessa kriterier kan du läsa vidare för ytterligare konfigurationsalternativ.

Konfigurera SSL

För SSL kan du antingen implementera ett befintligt nyckelarkiv, till exempel det som källklustret använder, eller skapa ett självsignerat certifikat med hjälp keytoolav :

keytool -genkey -keyalg RSA -alias selfsigned -keystore keystore.jks -storepass password -validity 360 -keysize 2048

Du kan också inaktivera SSL för käll- eller målslutpunkter om de inte implementerar SSL. Använd flaggorna --disable-source-tls eller --disable-target-tls :

java -jar target/cassandra-proxy-1.0-SNAPSHOT-fat.jar localhost <target-server> \
  --source-port 9042 --target-port 10350 --proxy-jks-file <path to JKS file> \
  --proxy-jks-password <keystore password> --target-username <username> --target-password <password> \
  --disable-source-tls true  --disable-target-tls true

Kommentar

Kontrollera att klientprogrammet använder samma nyckelarkiv och lösenord som de som används för proxyn med dubbel skrivning när du skapar SSL-anslutningar till databasen som använder proxyn.

Konfigurera autentiseringsuppgifterna och porten

Som standard skickas källautentiseringsuppgifterna via din klientapp. Proxyn använder autentiseringsuppgifterna för att upprätta anslutningar till käll- och målkluster. Som tidigare nämnts förutsätter den här processen att käll- och målautentiseringsuppgifterna är desamma. Om det behövs kan du ange ett annat användarnamn och lösenord för cassandra-målslutpunkten separat när du startar proxyn:

java -jar target/cassandra-proxy-1.0-SNAPSHOT-fat.jar localhost <target-server> \
  --proxy-jks-file <path to JKS file> --proxy-jks-password <keystore password> \
  --target-username <username> --target-password <password>

Standardportarna för källa och mål, när de inte anges, är 9042. Om antingen målet eller cassandra-källans slutpunkt körs på en annan port kan du använda --source-port eller --target-port ange ett annat portnummer:

java -jar target/cassandra-proxy-1.0-SNAPSHOT-fat.jar localhost <target-server> \
  --source-port 9042 --target-port 10350 --proxy-jks-file <path to JKS file> \
  --proxy-jks-password <keystore password> --target-username <username> --target-password <password>

Fjärrdistribuering av proxyn

Det kan finnas omständigheter då du inte vill installera proxyn på själva klusternoderna. Du vill installera den på en separat dator. I det scenariot anger du IP-adressen <source-server>för :

java -jar target/cassandra-proxy-1.0-SNAPSHOT-fat.jar <source-server> <destination-server>

Varning

Du kanske vill köra proxyn via fjärranslutning på en separat dator i stället för att köra den på alla noder i ditt Apache Cassandra-källkluster. I så fall rekommenderar vi att du distribuerar proxyn till samma antal datorer som du har noder i klustret. Konfigurera en ersättning för sina IP-adresser i system.peers. Använd den här konfigurationen i proxyn. Om du inte använder den här metoden kan det påverka prestanda under direktmigreringen eftersom klientdrivrutinen inte kan öppna anslutningar till alla noder i klustret.

Tillåt noll programkodändringar

Som standard lyssnar proxyn på port 29042. Du måste ändra programkoden så att den pekar på den här porten. Du kan också ändra porten som proxyn lyssnar på. Du kan använda den här metoden om du vill eliminera kodändringar på programnivå genom att:

Låta Cassandra-källservern köras på en annan port.
Att proxyn körs på Cassandra-standardporten 9042.

java -jar target/cassandra-proxy-1.0-SNAPSHOT-fat.jar source-server destination-server --proxy-port 9042

Kommentar

Installation av proxyn på klusternoder kräver inte omstart av noderna. Om du har många programklienter och föredrar att köra proxyn på Cassandra-standardporten 9042 för att eliminera eventuella kodändringar på programnivå ändrar du standardporten för Apache Cassandra. Sedan måste du starta om noderna i klustret och konfigurera källporten så att den är den nya port som du har definierat för ditt Cassandra-källkluster.

I följande exempel ändrar vi Cassandra-källklustret så att det körs på port 3074 och vi startar klustret på port 9042:

java -jar target/cassandra-proxy-1.0-SNAPSHOT-fat.jar source-server destination-server --proxy-port 9042 --source-port 3074

Framtvinga protokoll

Proxyn har funktioner för att framtvinga protokoll, vilket kan vara nödvändigt om källslutpunkten är mer avancerad än målet eller på annat sätt inte stöds. I så fall kan du ange --protocol-version och --cql-version tvinga protokollet att följa målet:

java -jar target/cassandra-proxy-1.0-SNAPSHOT-fat.jar source-server destination-server --protocol-version 4 --cql-version 3.11

När proxyn med dubbel skrivning har körts ändrar du porten på programklienten och startar om. Eller ändra Cassandra-porten och starta om klustret om du väljer den metoden. Proxyn börjar vidarebefordra skrivningar till målslutpunkten. Du kan lära dig mer om övervakning och mått som är tillgängliga i proxyverktyget.

Kör den historiska datainläsningen

Om du vill läsa in data skapar du en Scala-notebook-fil i ditt Azure Databricks-konto. Ersätt dina cassandra-käll- och målkonfigurationer med motsvarande autentiseringsuppgifter och ersätt käll- och målnyckelrymderna och tabellerna. Lägg till fler variabler för varje tabell efter behov i följande exempel och kör sedan. När programmet börjar skicka begäranden till proxyn med dubbla skrivningar är du redo att migrera historiska data.

import com.datastax.spark.connector._
import com.datastax.spark.connector.cql._
import org.apache.spark.SparkContext

// source cassandra configs
val sourceCassandra = Map( 
    "spark.cassandra.connection.host" -> "<Source Cassandra Host>",
    "spark.cassandra.connection.port" -> "9042",
    "spark.cassandra.auth.username" -> "<USERNAME>",
    "spark.cassandra.auth.password" -> "<PASSWORD>",
    "spark.cassandra.connection.ssl.enabled" -> "true",
    "keyspace" -> "<KEYSPACE>",
    "table" -> "<TABLE>"
)

//target cassandra configs
val targetCassandra = Map( 
    "spark.cassandra.connection.host" -> "<Source Cassandra Host>",
    "spark.cassandra.connection.port" -> "9042",
    "spark.cassandra.auth.username" -> "<USERNAME>",
    "spark.cassandra.auth.password" -> "<PASSWORD>",
    "spark.cassandra.connection.ssl.enabled" -> "true",
    "keyspace" -> "<KEYSPACE>",
    "table" -> "<TABLE>",
    //throughput related settings below - tweak these depending on data volumes. 
    "spark.cassandra.output.batch.size.rows"-> "1",
    "spark.cassandra.output.concurrent.writes" -> "1000",
    "spark.cassandra.connection.remoteConnectionsPerExecutor" -> "1",
    "spark.cassandra.concurrent.reads" -> "512",
    "spark.cassandra.output.batch.grouping.buffer.size" -> "1000",
    "spark.cassandra.connection.keep_alive_ms" -> "600000000"
)

//set timestamp to ensure it is before read job starts
val timestamp: Long = System.currentTimeMillis / 1000

//Read from source Cassandra
val DFfromSourceCassandra = sqlContext
  .read
  .format("org.apache.spark.sql.cassandra")
  .options(sourceCassandra)
  .load
  
//Write to target Cassandra
DFfromSourceCassandra
  .write
  .format("org.apache.spark.sql.cassandra")
  .options(targetCassandra)
  .option("writetime", timestamp)
  .mode(SaveMode.Append)
  .save

Kommentar

I föregående Scala-exempel timestamp ställs in på aktuell tid innan alla data i källtabellen läss. writetime Sedan anges till den här bakåtdaterade tidsstämpeln. Den här metoden säkerställer att poster som skrivs från den historiska datainläsningen till målslutpunkten inte kan skriva över uppdateringar som kommer in med en senare tidsstämpel från proxyn med dubbla skrivningar medan historiska data läses.

Viktigt!

Om du av någon anledning behöver bevara exakta tidsstämplar bör du använda en metod för historisk datamigrering som bevarar tidsstämplar, till exempel det här exemplet. Beroende-jar-filen i exemplet innehåller även Spark-kontakten, så du behöver inte installera Spark-kontaktsammansättningen som nämns i de tidigare kraven. Att ha båda installerade i Spark-klustret orsakar konflikter.

Verifiera källan och målet

När den historiska datainläsningen är klar bör databaserna vara synkroniserade och klara för snabb användning. Vi rekommenderar att du verifierar källan och målet för att säkerställa att de matchar innan du slutligen skär över.

Kommentar

Om du använde Cassandra-migratorexemplet som nämns i de tidigare avsnitten för att writetimebevara har du möjlighet att verifiera migreringen genom att jämföra rader i källa och mål baserat på vissa toleranser.

Nästa steg

Hantera Azure Managed Instance för Apache Cassandra-resurser med Hjälp av Azure CLI

Dela via

Direktmigrering till Azure Managed Instance för Apache Cassandra med hjälp av en proxy med dubbla skrivningar

Förutsättningar

Etablera ett Spark-kluster

Lägga till Spark-beroenden

Installera proxyn med dubbel skrivning

Starta proxyn med dubbel skrivning

Konfigurera SSL

Konfigurera autentiseringsuppgifterna och porten

Fjärrdistribuering av proxyn

Tillåt noll programkodändringar

Framtvinga protokoll

Kör den historiska datainläsningen

Verifiera källan och målet

Nästa steg

Feedback

Ytterligare resurser