Dela via


Samla in ändrade data från Azure Data Lake Storage Gen2 till Azure SQL Database med hjälp av en resurs för insamling av ändringsdata

GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics

Dricks

Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!

I den här artikeln använder du Användargränssnittet för Azure Data Factory för att skapa en CDC-resurs (Change Data Capture). Resursen hämtar ändrade data från en Azure Data Lake Storage Gen2-källa och lägger till dem i Azure SQL Database i realtid.

I den här artikeln kan du se hur du:

  • Skapa en CDC-resurs.
  • Övervaka CDC-aktivitet.

Du kan ändra och expandera konfigurationsmönstret i den här artikeln.

Förutsättningar

Innan du påbörjar procedurerna i den här artikeln kontrollerar du att du har följande resurser:

  • Azure-prenumeration. Om du inte har en Azure-prenumeration skapar du ett kostnadsfritt Azure-konto.
  • SQL-databas. Du använder Azure SQL Database som källdatalager. Om du inte har någon SQL-databas skapar du en i Azure-portalen.
  • Lagringskonto. Du använder Delta Lake som lagras i Azure Data Lake Storage Gen2 som måldatalager. Om du inte har något lagringskonto kan du läsa Skapa ett lagringskonto för stegen för att skapa ett.

Skapa en CDC-artefakt

  1. Gå till fönstret Författare i datafabriken. Under Pipelines visas en ny artefakt på toppnivå med namnet Change Data Capture (förhandsversion).

    Skärmbild av en ny artefakt på den översta nivån för insamling av ändringsdata i fönstret Fabriksresurser.

  2. Hovra över Ändra datainsamling (förhandsversion) tills tre punkter visas. Välj sedan Ändra datainsamlingsåtgärder (förhandsversion).

    Skärmbild av knappen för att ändra datainsamlingsåtgärder som visas över den nya artefakten på den översta nivån.

  3. Välj Ny CDC (förhandsversion). Det här steget öppnar en utfällning för att påbörja den guidade processen.

    Skärmbild av en lista över åtgärder för insamling av ändringsdata.

  4. Du uppmanas att namnge din CDC-resurs. Som standard är namnet "adfcdc" med ett tal som ökar med 1. Du kan ersätta det här standardnamnet med ett namn som du väljer.

    Skärmbild av textrutan för att uppdatera namnet på en resurs.

  5. Använd listrutan för att välja din datakälla. I den här artikeln väljer du Avgränsadtext.

    Skärmbild av den guidade processen med källalternativ i en listruta.

  6. Du uppmanas att välja en länkad tjänst. Skapa en ny länkad tjänst eller välj en befintlig.

    Skärmbild av rutan för att välja eller skapa en länkad tjänst.

  7. Använd området Källinställningar om du vill ange avancerade källkonfigurationer, inklusive kolumn- och radavgränsare.

    Skärmbild av avancerade källinställningar för att ange avgränsare.

    Om du inte redigerar dessa källinställningar manuellt är de inställda på standardinställningarna.

  8. Använd knappen Bläddra för att välja källdatamappen.

    Skärmbild av en mappikon för att söka efter en mappsökväg.

  9. När du har valt en mappsökväg väljer du Fortsätt för att ange datamålet.

    Skärmbild av knappen Fortsätt i den guidade processen för att välja datamål.

    Du kan välja att lägga till flera källmappar med hjälp av plusknappen (+). De andra källorna måste också använda samma länkade tjänst som du redan har valt.

  10. Välj ett värde för måltyp med hjälp av listrutan. I den här artikeln väljer du Azure SQL Database.

    Skärmbild av en listmeny med alla datamåltyper.

  11. Du uppmanas att välja en länkad tjänst. Skapa en ny länkad tjänst eller välj en befintlig.

    Skärmbild av rutan för att välja eller skapa en länkad tjänst till datamålet.

  12. För Måltabeller kan du skapa en ny måltabell eller välja en befintlig:

    • Om du vill skapa en måltabell väljer du fliken Nya entiteter och väljer sedan Redigera nya tabeller.

      Skärmbild av fliken för att skapa nya tabeller för målet.

    • Välj en befintlig tabell genom att välja fliken Befintliga entiteter och sedan använda kryssrutan för att välja en tabell. Använd förhandsgranskningsknappen för att visa dina tabelldata.

      Skärmbild av fliken för att välja tabeller för målet.

    Om befintliga tabeller på målet har matchande namn väljs de som standard under Befintliga entiteter. Annars skapas nya tabeller med matchande namn under Nya entiteter. Dessutom kan du redigera nya tabeller med hjälp av knappen Redigera nya tabeller .

  13. Du kan använda kryssrutorna för att välja flera måltabeller från SQL-databasen. När du har valt måltabeller väljer du Fortsätt.

    Skärmbild av knappen Fortsätt i den guidade processen för att gå vidare till nästa steg.

  14. En ny flik för att samla in ändringsdata visas. Den här fliken är CDC Studio, där du kan konfigurera din nya resurs.

    Skärmbild av inspelningsstudion för ändringsdata.

    En ny mappning skapas automatiskt åt dig. Du kan uppdatera källtabell- och måltabellvalen för din mappning med hjälp av listrutorna.

    Skärmbild av käll-till-mål-mappningen i insamlingsstudion för ändringsdata.

  15. När du har valt dina tabeller mappas deras kolumner som standard med växlingsknappen Automatisk mappning aktiverad. Automatisk mappning mappar automatiskt kolumnerna efter namn i mottagaren, hämtar nya kolumnändringar när källschemat utvecklas och flödar den här informationen till de mottagartyper som stöds.

    Om du vill använda automatisk mappning och inte ändra några kolumnmappningar går du direkt till steg 18.

    Skärmbild av växlingsknappen för automatisk mappning aktiverad.

    Om du vill aktivera kolumnmappningarna väljer du mappningarna och inaktiverar växlingsknappen Automatisk mappning . Välj sedan knappen Kolumnmappningar för att visa mappningarna.

    Skärmbild av mappningsval, växlingsknappen för automatisk mappning inaktiverad och knappen för kolumnmappningar.

    Du kan växla tillbaka till automatisk mappning när som helst genom att aktivera växlingsknappen Automatisk karta .

  16. Visa dina kolumnmappningar. Använd listrutorna för att redigera dina kolumnmappningar för mappningsmetod, källkolumn och målkolumn.

    Skärmbild av sidan för redigering av kolumnmappningar.

    Från den här sidan kan du:

    • Lägg till fler kolumnmappningar med knappen Ny mappning . Använd listrutorna för att göra val för mappningsmetod, källkolumn och målkolumn.
    • Välj kolumnen Nycklar om du vill spåra borttagningsåtgärden för mottagartyper som stöds.
    • Välj knappen Uppdatera under Dataförhandsgranskning för att visualisera hur data ser ut på målet.

    Skärmbild av knappen för att lägga till kolumnmappningar, listrutan för mappningsmetoder, kolumnen Nycklar och knappen Uppdatera.

  17. När mappningen är klar väljer du pilknappen för att återgå till huvudarbetsytan för CDC.

    Skärmbild av knappen för att gå tillbaka till tabellens mappningssida.

  18. Du kan lägga till fler käll-till-mål-mappningar i en CDC-artefakt. Använd knappen Redigera för att lägga till fler datakällor och mål. Välj sedan Ny mappning och använd listrutorna för att ange en ny källa och ett nytt mål. Du kan aktivera eller inaktivera automatisk mappning för var och en av dessa mappningar oberoende av varandra.

    Skärmbild av knappen för att lägga till nya källor och knappen för att ange en ny käll-till-mål-mappning.

  19. När dina mappningar har slutförts anger du CDC-svarstiden med hjälp av knappen Ange svarstid .

    Skärmbild av knappen Ange svarstid överst på arbetsytan.

  20. Välj svarstiden för CDC och välj sedan Tillämpa för att göra ändringarna.

    Som standard är svarstiden inställd på 15 minuter. I exemplet i den här artikeln används alternativet Realtid för svarstid. Svarstid i realtid hämtar kontinuerligt ändringar i källdata i intervall på mindre än 1 minut.

    För andra svarstider (till exempel om du väljer 15 minuter) bearbetas källdata och eventuella ändrade data hämtas sedan den senaste bearbetade tiden.

    Skärmbild av alternativen för att ange svarstid.

    Kommentar

    Om stödet utökas till direktuppspelningsdataintegrering (Azure Event Hubs och Kafka-datakällor) ställs svarstiden in på Realtid som standard.

  21. När du har konfigurerat CDC väljer du Publicera alla för att publicera ändringarna.

    Skärmbild av publiceringsknappen överst på arbetsytan.

    Kommentar

    Om du inte publicerar ändringarna kan du inte starta CDC-resursen. Knappen Start i nästa steg är inte tillgänglig.

  22. Välj Starta för att börja köra insamlingen av ändringsdata.

    Skärmbild av startknappen överst på arbetsytan.

Övervaka infångade ändringsdata

  1. Öppna fönstret Övervaka med någon av följande metoder:

    • Välj Övervaka i Azure-portalen.

      Skärmbild av knappen Övervaka i Azure-portalen.

    • Välj övervakningsikonen från CDC-designern.

      Skärmbild av övervakningsikonen överst på CDC-arbetsytan.

  2. Välj Ändra datainsamling (förhandsversion) för att visa dina CDC-resurser.

    Skärmbild av knappen Ändra datainsamling.

    Fönstret Hämta ändringsdata visar information om källa, mål, status och senast bearbetad information för insamling av ändringsdata.

    Skärmbild av en översikt över övervakningssidan för ändringsdatainsamling.

  3. Välj namnet på DIN CDC för att se mer information. Du kan se hur många ändringar (infoga, uppdatera eller ta bort) som har lästs och skrivits tillsammans med annan diagnostikinformation.

    Skärmbild av den detaljerade övervakningen av en vald ändringsdatainsamling.

    Om du konfigurerar flera mappningar i din ändringsdatainsamling visas varje mappning som en annan färg. Välj fältet för att se specifik information för varje mappning eller använd diagnostikinformationen längst ned i fönstret.

    Skärmbild av detaljerad övervakningsinformation för en ändringsdatainsamling med flera käll-till-mål-mappningar.

    Skärmbild av en detaljerad uppdelning av varje mappning i en artefakt för insamling av ändringsdata.