Migrera data till Azure Cosmos DB för Apache Cassandra-konto med Striim

GÄLLER FÖR: Cassandra

Striim-avbildningen på Azure Marketplace erbjuder kontinuerlig dataflytt i realtid från informationslager och databaser till Azure. När du flyttar data kan du utföra in-line avnormalisering, datatransformering, aktivera realtidsanalys och datarapporteringsscenarier. Det är enkelt att komma igång med Striim för att kontinuerligt flytta företagsdata till Azure Cosmos DB för Apache Cassandra. Azure tillhandahåller ett marketplace-erbjudande som gör det enkelt att distribuera Striim och migrera data till Azure Cosmos DB.

Den här artikeln visar hur du använder Striim för att migrera data från en Oracle-databas till ett Azure Cosmos DB för Apache Cassandra-konto.

Förutsättningar

Distribuera Striim Marketplace-lösningen

  1. Logga in på Azure-portalen.

  2. Välj Skapa en resurs och sök efter Striim på Azure Marketplace. Välj det första alternativet och Skapa.

    Hitta Striim Marketplace-objekt

  3. Ange sedan konfigurationsegenskaperna för Striim-instansen. Striim-miljön distribueras på en virtuell dator. I fönstret Grundläggande anger du användarnamnet för den virtuella datorn och lösenordet för den virtuella datorn (det här lösenordet används för att SSH till den virtuella datorn). Välj din prenumeration, resursgrupp och platsinformation där du vill distribuera Striim. När du är klar väljer du OK.

    Konfigurera grundläggande inställningar för Striim

  4. I fönstret Striim-klusterinställningar väljer du typen av Striim-distribution och storleken på den virtuella datorn.

    Inställning Värde Beskrivning
    Striim-distributionstyp Fristående Striim kan köras i fristående distributionstyper eller klusterdistributionstyper . Fristående läge distribuerar Striim-servern på en enda virtuell dator och du kan välja storleken på de virtuella datorerna beroende på din datavolym. Klusterläget distribuerar Striim-servern på två eller flera virtuella datorer med den valda storleken. Klustermiljöer med fler än 2 noder erbjuder automatisk hög tillgänglighet och redundans.

    I den här självstudien kan du välja alternativet Fristående. Använd den virtuella datorn med standardstorleken "Standard_F4s".
    Namnet på Striim-klustret <Striim_cluster_Name> Namnet på Striim-klustret.
    Striim-klusterlösenord <Striim_cluster_password> Lösenord för klustret.

    När du har fyllt i formuläret väljer du OK för att fortsätta.

  5. I fönstret Striim-åtkomstinställningar konfigurerar du den offentliga IP-adressen (välj standardvärden), Domännamn för StriimAdmin lösenord som du vill använda för att logga in på Striim-användargränssnittet. Konfigurera ett VNET och undernät (välj standardvärdena). När du har fyllt i informationen väljer du OK för att fortsätta.

    Inställningar för Striim-åtkomst

  6. Azure verifierar distributionen och ser till att allt ser bra ut. valideringen tar några minuter att slutföra. När verifieringen är klar väljer du OK.

  7. Granska slutligen användningsvillkoren och välj Skapa för att skapa din Striim-instans.

Konfigurera källdatabasen

I det här avsnittet konfigurerar du Oracle-databasen som källa för dataflytt. Striim-servern levereras med Oracle JDBC-drivrutinen som används för att ansluta till Oracle. Om du vill läsa ändringar från oracle-källdatabasen kan du antingen använda LogMiner eller XStream-API:erna. Oracle JDBC-drivrutinen finns i Striims Java-klassökväg för att läsa, skriva eller bevara data från Oracle-databasen.

Konfigurera måldatabas

I det här avsnittet konfigurerar du Azure Cosmos DB för Apache Cassandra-kontot som mål för dataflytt.

  1. Skapa ett Azure Cosmos DB för Apache Cassandra-konto med hjälp av Azure Portal.

  2. Gå till fönstret Data Explorer i ditt Azure Cosmos DB-konto. Välj Ny tabell för att skapa en ny container. Anta att du migrerar produkter och beställer data från Oracle-databasen till Azure Cosmos DB. Skapa ett nytt nyckelutrymme med namnet StriimDemo med containern Beställningar. Etablera containern med 1 000 RU:er (i det här exemplet används 1 000 RU:er, men du bör använda det beräknade dataflödet för din arbetsbelastning) och /ORDER_ID som primärnyckel. Dessa värden varierar beroende på dina källdata.

    Skapa API för Cassandra-konto

Konfigurera Oracle till Azure Cosmos DB-dataflöde

  1. Gå till Striim-instansen som du distribuerade i Azure Portal. Välj knappen Anslut på den övre menyraden och kopiera URL:en i fältet Inloggning med lokalt vm-konto på fliken SSH.

    Hämta SSH-URL:en

  2. Öppna ett nytt terminalfönster och kör SSH-kommandot som du kopierade från Azure Portal. Den här artikeln använder terminalen i en macOS. Du kan följa liknande instruktioner med hjälp av en SSH-klient på en Windows-dator. När du uppmanas till det skriver du ja för att fortsätta och anger lösenordet som du har angett för den virtuella datorn i föregående steg.

    Ansluta till en virtuell Striim-dator

  3. Starta om Striim-servern från samma terminalfönster genom att köra följande kommandon:

    systemctl stop striim-node
    systemctl stop striim-dbms
    systemctl start striim-dbms
    systemctl start striim-node
    
  4. Striim tar en minut att starta. Om du vill se statusen kör du följande kommando:

    tail -f /opt/striim/logs/striim-node.log
    
  5. Gå nu tillbaka till Azure och kopiera den offentliga IP-adressen för din virtuella Striim-dator.

    Kopiera IP-adress för virtuell Striim-dator

  6. Om du vill navigera till Striims webbgränssnitt öppnar du en ny flik i en webbläsare och kopierar den offentliga IP-adressen följt av: 9080. Logga in med administratörsanvändarnamnet tillsammans med det administratörslösenord som du angav i Azure Portal.

    Logga in på Striim

  7. Nu kommer du till Striims startsida. Det finns tre olika fönster – Instrumentpaneler, Appar och SourcePreview. I fönstret Instrumentpaneler kan du flytta data i realtid och visualisera dem. Fönstret Appar innehåller dina strömmande datapipelines eller dataflöden. Till höger på sidan finns SourcePreview där du kan förhandsgranska dina data innan du flyttar dem.

  8. Välj fönstret Appar . Nu ska vi fokusera på det här fönstret. Det finns en mängd olika exempelappar som du kan använda för att lära dig mer om Striim, men i den här artikeln skapar du en egen. Välj knappen Lägg till app i det övre högra hörnet.

    Lägga till Striim-appen

  9. Det finns några olika sätt att skapa Striim-program. Välj Start from Scratch (Börja från grunden ) för det här scenariot.

    Starta appen från grunden

  10. Ge ditt program ett eget namn, ungefär som oraToCosmosDB och välj Spara.

    Skapa ett nytt program

  11. Du kommer till Flow-Designer, där du kan dra och släppa anslutningsappar för att skapa dina strömmande program. Skriv Oracle i sökfältet, dra och släpp Oracle CDC-källan på apparbetsytan.

    Oracle CDC-källa

  12. Ange källkonfigurationsegenskaperna för din Oracle-instans. Källnamnet är bara en namngivningskonvention för Striim-programmet. Du kan använda ett namn som src_onPremOracle. Ange även annan information som adaptertyp, anslutnings-URL, användarnamn, lösenord, tabellnamn. Välj Spara för att fortsätta.

    Konfigurera källparametrar

  13. Klicka nu på strömströmmens vågikon för att ansluta Azure Cosmos DB-målinstansen.

    Ansluta till målet

  14. Innan du konfigurerar målet kontrollerar du att du har lagt till ett Baltimore-rotcertifikat i Striims Java-miljö.

  15. Ange konfigurationsegenskaperna för din Azure Cosmos DB-målinstans och välj Spara för att fortsätta. Här är de viktigaste parametrarna att notera:

    • Adapter – Använd DatabaseWriter. När du skriver till Azure Cosmos DB för Apache Cassandra krävs DatabaseWriter. Cassandra-drivrutinen 3.6.0 paketeras med Striim. Om DatabaseWriter överskrider antalet RU:er som har etablerats i Din Azure Cosmos DB-container kraschar programmet.

    • Anslutnings-URL – Ange din Azure Cosmos DB JDBC-anslutnings-URL. URL:en är i formatet jdbc:cassandra://<contactpoint>:10350/<databaseName>?SSL=true

    • Användarnamn – Ange namnet på ditt Azure Cosmos DB-konto.

    • Lösenord – Ange primärnyckeln för ditt Azure Cosmos DB-konto.

    • Tabeller – Måltabeller måste ha primärnycklar och primära nycklar kan inte uppdateras.

    Skärmbild som visar de konfigurerbara målegenskaperna.

    Konfigurera målegenskaper

  16. Nu ska vi köra Striim-programmet. I den övre menyraden väljer du Skapad och sedan Distribuera app. I distributionsfönstret kan du ange om du vill köra vissa delar av programmet på specifika delar av distributionstopologin. Eftersom vi kör i en enkel distributionstopologi via Azure använder vi standardalternativet.

    Distribuera appen

  17. Nu ska vi gå vidare och förhandsgranska strömmen för att se data flöda genom Striim. Klicka på vågikonen och klicka på ögonikonen bredvid den. När du har distribuerat kan du förhandsgranska strömmen för att se data som flödar igenom. Välj vågikonen och ögongloben bredvid den. Välj knappen Distribuerad på den översta menyraden och välj Starta app.

    Starta appen

  18. Genom att använda en CDC-läsare (Change Data Capture) hämtar Striim bara nya ändringar i databasen. Om du har data som flödar genom dina källtabeller ser du dem. Men eftersom det här är en exempeltabell är källan som inte är ansluten till något program. Om du använder en exempeldatagenerator kan du infoga en händelsekedja i Oracle-databasen.

  19. Data flödar genom Striim-plattformen. Striim hämtar även alla metadata som är associerade med tabellen, vilket är användbart för att övervaka data och se till att data hamnar på rätt mål.

    Konfigurera CDC-pipelinen

  20. Slutligen loggar vi in på Azure och går till ditt Azure Cosmos DB-konto. Uppdatera Data Explorer så kan du se att data har anlänt.

Med hjälp av Striim-lösningen i Azure kan du kontinuerligt migrera data till Azure Cosmos DB från olika källor som Oracle, Cassandra, MongoDB och andra till Azure Cosmos DB. Mer information finns på Striim-webbplatsen, ladda ned en kostnadsfri 30-dagars utvärderingsversion av Striim och för eventuella problem när du konfigurerar migreringssökvägen med Striim kan du skicka en supportbegäran.

Nästa steg