Dela via


Självstudie: Konfigurera en dataproduktbatch

I den här självstudien får du lära dig hur du konfigurerar dataprodukttjänster som redan har distribuerats. Använd Azure Data Factory för att integrera och samordna dina data och använda Microsoft Purview för att identifiera, hantera och styra datatillgångar.

Lär dig att:

  • Skapa och distribuera nödvändiga resurser
  • Tilldela roller och åtkomstbehörigheter
  • Anslut resurser för dataintegrering

Den här självstudien hjälper dig att bekanta dig med de tjänster som distribueras i <DMLZ-prefix>-dev-dp001 exempeldataproduktresursgruppen. Lär dig hur Azure-tjänsterna samverkar med varandra och vilka säkerhetsåtgärder som finns på plats.

När du distribuerar de nya komponenterna kan du undersöka hur Purview ansluter tjänststyrning för att skapa en holistisk, uppdaterad karta över ditt datalandskap. Resultatet är automatiserad dataidentifiering, klassificering av känsliga data och data härkomst från slutpunkt till slutpunkt.

Förutsättningar

Innan du börjar konfigurera din dataproduktbatch måste du uppfylla följande krav:

  • En Azure-prenumeration. Om du inte har en Azure-prenumeration skapar du ditt kostnadsfria Azure-konto idag.

  • Behörigheter till Azure-prenumerationen. Om du vill konfigurera Purview och Azure Synapse Analytics för distributionen måste du ha rollen Administratör för användaråtkomst eller rollen Ägare i Azure-prenumerationen. Du anger fler rolltilldelningar för tjänster och tjänstens huvudnamn i självstudien.

  • Distribuerade resurser. För att slutföra självstudien måste dessa resurser redan distribueras i din Azure-prenumeration:

  • Microsoft Purview-konto. Kontot skapas som en del av distributionen av landningszonen för datahantering.

  • Lokalt installerad integrationskörning. Körningen skapas som en del av distributionen av din datalandningszon.

Kommentar

I den här självstudien refererar platshållarna till nödvändiga resurser som du distribuerar innan du påbörjar självstudien:

  • <DMLZ-prefix> refererar till prefixet som du angav när du skapade distributionen av landningszonen för datahantering.
  • <DLZ-prefix> refererar till prefixet som du angav när du skapade distributionen av din datalandningszon .
  • <DP-prefix>refererar till prefixet som du angav när du skapade batchdistributionen av dataprodukten.

Skapa Azure SQL Database-instanser

Börja den här självstudien genom att skapa två SQL Database-exempelinstanser. Du använder databaserna för att simulera CRM- och ERP-datakällor i senare avsnitt.

  1. I azure-portalen går du till portalens globala kontroller och väljer Cloud Shell-ikonen för att öppna en Azure Cloud Shell-terminal. Välj Bash som terminaltyp.

    Skärmbild som visar Cloud Shell-ikonen i Azure-portalen.

  2. Kör följande skript i Cloud Shell. Skriptet hittar <DLZ-prefix>-dev-dp001 resursgruppen och <DP-prefix>-dev-sqlserver001 Azure SQL-servern som finns i resursgruppen. Sedan skapar skriptet de två SQL Database-instanserna på <DP-prefix>-dev-sqlserver001 servern. Databaserna är ifyllda i förväg med AdventureWorks-exempeldata. Data innehåller de tabeller som du använder i den här självstudien.

    Se till att du ersätter platshållarvärdet för parametern subscription med ditt eget Azure-prenumerations-ID.

    # Azure SQL Database instances setup
    # Create the AdatumCRM and AdatumERP databases to simulate customer and sales data.
    
    # Use the ID for the Azure subscription you used to deployed the data product.
    az account set --subscription "<your-subscription-ID>"
    
    # Get the resource group for the data product.
    resourceGroupName=$(az group list -o tsv  --query "[?contains(@.name, 'dp001')==\`true\`].name")
    
    # Get the existing Azure SQL Database server name.
    sqlServerName=$(az sql server list -g $resourceGroupName -o tsv  --query "[?contains(@.name, 'sqlserver001')==\`true\`].name")
    
    # Create the first SQL Database instance, AdatumCRM, to create the customer's data source.
    az sql db create --resource-group $resourceGroupName --server $sqlServerName --name AdatumCRM --service-objective Basic --sample-name AdventureWorksLT
    
    # Create the second SQL Database instance, AdatumERP, to create the sales data source.
    az sql db create --resource-group $resourceGroupName --server $sqlServerName --name AdatumERP --service-objective Basic --sample-name AdventureWorksLT
    

När skriptet har körts har du på <DP-prefix>-dev-sqlserver001 Azure SQL-servern två nya SQL Database-instanser AdatumCRM och AdatumERP. Båda databaserna finns på basic-beräkningsnivån. Databaserna finns i samma <DLZ-prefix>-dev-dp001 resursgrupp som du använde för att distribuera dataproduktbatchen.

Konfigurera Purview för att katalogisera dataproduktbatchen

Slutför sedan stegen för att konfigurera Purview för att katalogisera dataproduktbatchen. Du börjar med att skapa ett huvudnamn för tjänsten. Sedan konfigurerar du nödvändiga resurser och tilldelar roller och åtkomstbehörigheter.

Skapa ett huvudnamn för tjänsten

  1. I azure-portalen går du till portalens globala kontroller och väljer Cloud Shell-ikonen för att öppna en Azure Cloud Shell-terminal. Välj Bash som terminaltyp.

  2. Ändra följande skript:

    • Ersätt parameterns subscriptionId platshållarvärde med ditt eget Azure-prenumerations-ID.
    • spname Ersätt platshållarvärdet för parametern med det namn som du vill använda för tjänstens huvudnamn. Tjänstens huvudnamn måste vara unikt i prenumerationen.

    När du har uppdaterat parametervärdena kör du skriptet i Cloud Shell.

    # Replace the parameter values with the name you want to use for your service principal name and your Azure subscription ID.
    spname="<your-service-principal-name>"
    subscriptionId="<your-subscription-id>"
    
    # Set the scope to the subscription.
    scope="/subscriptions/$subscriptionId"
    
    # Create the service principal.
    az ad sp create-for-rbac \
      --name $spname \
      --role "Contributor" \
      --scope $scope
    
  3. Kontrollera JSON-utdata för ett resultat som liknar följande exempel. Anteckna eller kopiera värdena i utdata som ska användas i senare steg.

    {
      "appId": "<your-app-id>",
      "displayName": "<service-principal-display-name>",
      "name": "<your-service-principal-name>",
      "password": "<your-service-principal-password>",
      "tenant": "<your-tenant>"
    }
    

Konfigurera åtkomst och behörigheter för tjänstens huvudnamn

Hämta följande returnerade värden från JSON-utdata som genererades i föregående steg:

  • Tjänstens huvudnamns-ID (appId)
  • Tjänstens huvudnamnsnyckel (password)

Tjänstens huvudnamn måste ha följande behörigheter:

  • Rollen Storage Blob Data Reader på lagringskontona.
  • Dataläsarbehörigheter för SQL Database-instanserna.

Utför följande steg för att konfigurera tjänstens huvudnamn med den roll och behörighet som krävs.

Behörigheter för Azure Storage-konto

  1. Gå till Azure Storage-kontot i <DLZ-prefix>devraw Azure-portalen. Välj Åtkomstkontroll (IAM) på resursmenyn.

    Skärmbild som visar fönstret för behörigheter för tjänstens huvudnamn för lagringskontot, med Åtkomstkontroll markerat.

  2. Välj Lägg till>Lägg till rolltilldelning.

    Skärmbild som visar fönstret åtkomstkontroll för lagringskontots huvudnamn som visar hur du lägger till en rolltilldelning.

  3. I Lägg till rolltilldelning går du till fliken Roll och söker efter och väljer Lagringsblobdataläsare. Välj sedan Nästa.

    Skärmbild som visar sökning efter Storage Blob Data Reader under Lägg till rolltilldelning.

  4. I Medlemmar väljer du Välj medlemmar.

    Skärmbild som visar fönstret Välj medlemmar under Lägg till rolltilldelning.

  5. I Välj medlemmar söker du efter namnet på tjänstens huvudnamn som du skapade.

    Skärmbild som visar hur du söker efter ett namn på tjänstens huvudnamn.

  6. I sökresultaten väljer du tjänstens huvudnamn och väljer sedan Välj.

    Skärmbild som visar resultatfönstret när du har sökt efter ett namn på tjänstens huvudnamn.

  7. Slutför rolltilldelningen genom att välja Granska + tilldela två gånger.

Upprepa stegen i det här avsnittet för återstående lagringskonton:

  • <DLZ-prefix>devencur
  • <DLZ-prefix>devwork

SQL Database-behörigheter

Om du vill ange SQL Database-behörigheter ansluter du till den virtuella Azure SQL-datorn med hjälp av frågeredigeraren. Eftersom alla resurser finns bakom en privat slutpunkt måste du först logga in på Azure-portalen med hjälp av en virtuell Azure Bastion-värddator.

I Azure-portalen ansluter du till den virtuella dator som distribueras i <DMLZ-prefix>-dev-bastion resursgruppen. Om du inte är säker på hur du ansluter till den virtuella datorn med hjälp av Bastion-värdtjänsten kan du läsa Anslut till en virtuell dator.

Om du vill lägga till tjänstens huvudnamn som användare i databasen kan du först behöva lägga till dig själv som Microsoft Entra-administratör. I steg 1 och 2 lägger du till dig själv som Microsoft Entra-administratör. I steg 3 till 5 ger du tjänstens huvudnamn behörighet till en databas. När du är inloggad på portalen från den virtuella Bastion-värddatorn söker du efter virtuella Azure SQL-datorer i Azure-portalen.

  1. Gå till den <DP-prefix>-dev-sqlserver001 virtuella Azure SQL-datorn. I resursmenyn under Inställningar väljer du Microsoft Entra-ID.

    Skärmbild som visar Microsoft Entra-fönstret i Azure SQL Database Server.

  2. I kommandofältet väljer du Ange administratör. Sök efter och välj ditt eget konto. Välj Välj.

    Skärmbild som visar hur du söker efter ett konto för att göra en användare till administratör.

  3. I resursmenyn väljer du SQL-databaser och sedan AdatumCRM databasen.

    Skärmbild som visar en sökning efter rätt databas med AdatumCRM markerat.

  4. På resursmenyn AdatumCRM väljer du Frågeredigeraren (förhandsversion). Under Active Directory-autentisering väljer du knappen Fortsätt som för att logga in.

    Skärmbild som visar hur du loggar in på frågeredigeraren med hjälp av Active Directory-autentisering.

  5. I frågeredigeraren ändrar du följande instruktioner för att ersätta <service principal name> med namnet på tjänstens huvudnamn som du skapade (till exempel purview-service-principal). Kör sedan -instruktionerna.

    
    CREATE USER [<service principal name>] FROM EXTERNAL PROVIDER
    GO
    
    EXEC sp_addrolemember 'db_datareader', [<service principal name>]
    GO
    
    

    Skärmbild som visar hur du kör instruktioner i frågeredigeraren.

Upprepa steg 3 till 5 för AdatumERP databasen.

Konfigurera nyckelvalvet

Purview läser tjänstens huvudnyckel från en instans av Azure Key Vault. Nyckelvalvet skapas i distributionen av landningszonen för datahantering. Följande steg krävs för att konfigurera nyckelvalvet:

  1. Lägg till nyckeln för tjänstens huvudnamn i nyckelvalvet som en hemlighet.

  2. Ge Purview MSI Secrets Reader behörigheter i nyckelvalvet.

  3. Lägg till nyckelvalvet i Purview som en nyckelvalvsanslutning.

  4. Skapa en autentiseringsuppgift i Purview som pekar på nyckelvalvshemligheten.

Lägga till behörigheter för att lägga till hemlighet i nyckelvalvet

  1. Gå till Azure Key Vault-tjänsten i Azure-portalen. Sök <DMLZ-prefix>-dev-vault001 efter nyckelvalvet.

    Skärmbild som visar fönstret Nyckelvalv för åtkomstkontroll.

  2. Välj Åtkomstkontroll (IAM) på resursmenyn. I kommandofältet väljer du Lägg till och sedan Lägg till rolltilldelning.

    Skärmbild som visar hur du lägger till en rolltilldelning i Purview.

  3. På fliken Roll söker du efter och väljer sedan Key Vault-administratör. Välj Nästa.

    Skärmbild som visar hur du söker efter rollen Key Vault-administratör.

  4. I Medlemmar väljer du Välj medlemmar för att lägga till det konto som för närvarande är inloggad.

    Skärmbild som visar knappen Välj medlemmar markerad.

  5. I Välj medlemmar söker du efter det konto som för närvarande är loggat in. Välj kontot och välj sedan Välj.

    Skärmbild som visar sökrutan välj medlem.

  6. Slutför rolltilldelningsprocessen genom att välja Granska + tilldela två gånger.

Lägga till en hemlighet i nyckelvalvet

Slutför följande steg för att logga in på Azure-portalen från den virtuella Bastion-värddatorn.

  1. <DMLZ-prefix>-dev-vault001 I resursmenyn för nyckelvalvet väljer du Hemligheter. I kommandofältet väljer du Generera/importera för att skapa en ny hemlighet.

    Skärmbild som visar knappen Generera/importera för nyckelvalvet markerad.

  2. I Skapa en hemlighet väljer eller anger du följande värden:

    Inställning Åtgärd
    Alternativ för uppladdning Välj Manuell.
    Namn Ange tjänstens huvudnamnshemlighet.
    Värde Ange lösenordet för tjänstens huvudnamn som du skapade tidigare.

    Skärmbild som visar nyckelvalvet Skapa ett hemligt fönster.

    Kommentar

    Det här steget skapar en hemlighet med namnet service-principal-secret i nyckelvalvet med hjälp av lösenordsnyckeln för tjänstens huvudnamn. Purview använder hemligheten för att ansluta till och skanna datakällorna. Om du anger ett felaktigt lösenord kan du inte slutföra följande avsnitt.

  3. Välj Skapa.

Konfigurera Purview-behörigheter i nyckelvalvet

För att Purview-instansen ska kunna läsa hemligheterna som lagras i nyckelvalvet måste du tilldela Purview relevanta behörigheter i nyckelvalvet. Om du vill ange behörigheterna lägger du till purview-hanterad identitet i nyckelvalvets roll Secrets Reader.

  1. <DMLZ-prefix>-dev-vault001 I resursmenyn för nyckelvalvet väljer du Åtkomstkontroll (IAM).

  2. I kommandofältet väljer du Lägg till och sedan Lägg till rolltilldelning.

    Skärmbild som visar fönstret Åtkomstkontroll med knappen Lägg till rolltilldelning markerad.

  3. I Roll söker du efter och väljer Nyckelvalvshemlighetsanvändare. Välj Nästa.

    Skärmbild som visar sökningen efter fönstret Hemlig nyckelvalvanvändare.

  4. I Medlemmar väljer du Välj medlemmar.

    Skärmbild som visar fönstret Lägg till rolltilldelning med knappen Välj medlem markerad.

  5. Sök efter Purview-instansen <DMLZ-prefix>-dev-purview001 . Välj instansen för att lägga till det relevanta kontot. Välj sedan Välj.

    Skärmbild som visar sökrutan för Purview-instansnamnet.

  6. Slutför rolltilldelningsprocessen genom att välja Granska + tilldela två gånger.

    Skärmbild som visar hur du slutför en rolltilldelning.

Konfigurera en key vault-anslutning i Purview

Om du vill konfigurera en key vault-anslutning till Purview måste du logga in på Azure-portalen med hjälp av en virtuell Azure Bastion-värddator.

  1. Gå till Purview-kontot i <DMLZ-prefix>-dev-purview001 Azure-portalen. Under Komma igång går du till Öppna Microsoft Purview-styrningsportalen och väljer Öppna.

    Skärmbild som visar översikten över Microsoft Purview-kontot.

  2. I Purview Studio väljer du Autentiseringsuppgifter för hantering>. I kommandofältet Autentiseringsuppgifter väljer du Hantera Key Vault-anslutningar och sedan Nytt.

    Skärmbild som visar knappen Hantera Key Vault-anslutningar.

  3. I Ny key vault-anslutning väljer eller anger du följande information:

    Inställning Åtgärd
    Namn Ange <DMLZ-prefix-dev-vault001>.
    Azure-prenumeration Välj den prenumeration som är värd för nyckelvalvet.
    Key Vault-namn <Välj nyckelvalvet DMLZ-prefix-dev-vault001>.

    Skärmbild som visar fönstret för nya Key Vault-anslutningar.

  4. Välj Skapa.

  5. I Bekräfta beviljande av åtkomst väljer du Bekräfta.

Skapa en autentiseringsuppgift i Purview

Det sista steget för att konfigurera nyckelvalv är att skapa en autentiseringsuppgift i Purview som pekar på hemligheten som du skapade i nyckelvalvet för tjänstens huvudnamn.

  1. I Purview Studio väljer du Autentiseringsuppgifter för hantering>. I kommandofältet Autentiseringsuppgifter väljer du Nytt.

    Skärmbild som visar det nya fönstret Purview-autentiseringsuppgifter.

  2. I Ny autentiseringsuppgift väljer eller anger du följande information:

    Inställning Åtgärd
    Namn Ange purviewServicePrincipal.
    Autentiseringsmetod Välj Tjänstens huvudnamn.
    Tenant ID Värdet fylls i automatiskt.
    Tjänstens huvudnamn-ID Ange program-ID eller klient-ID för tjänstens huvudnamn.
    Key Vault-anslutning Välj den key vault-anslutning som du skapade i föregående avsnitt.
    Hemligt namn Ange namnet på hemligheten i nyckelvalvet (service-principal-secret).

    Skärmbild som visar det nya autentiseringsformuläret med värden markerade.

  3. Välj Skapa.

Registrera datakällor

Nu kan Purview ansluta till tjänstens huvudnamn. Nu kan du registrera och konfigurera datakällorna.

Registrera Azure Data Lake Storage Gen2-konton

Följande steg beskriver processen för att registrera ett Azure Data Lake Storage Gen2-lagringskonto.

  1. I Purview Studio väljer du ikonen för datakarta, väljer Källor och sedan Registrera.

    Skärmbild som visar knappen för datakartan markerad i Purview.

  2. I Registrera källor väljer du Azure Data Lake Storage Gen2 och sedan Fortsätt.

    Skärmbild som visar Registreringskällan för Azure Data Lake Storage Gen2.

  3. I Registrera källor (Azure Data Lake Storage Gen2) väljer eller anger du följande information:

    Inställning Åtgärd
    Namn Ange <DLZ-prefix>dldevraw.
    Azure-prenumeration Välj den prenumeration som är värd för lagringskontot.
    Namn på lagringskonto Välj relevant lagringskonto.
    Slutpunkt Värdet fylls i automatiskt baserat på det valda lagringskontot.
    Välj en samling Välj rotsamlingen.

    Skärmbild som visar fönstret Registrera Azure Data Lake Storage Gen2 med värden markerade.

  4. Välj Registrera för att skapa datakällan.

Upprepa följande steg för följande lagringskonton:

  • <DMLZ-prefix>devencur
  • <DMLZ-prefix>devwork

Registrera SQL Database-instansen som en datakälla

  1. I Purview Studio väljer du ikonen Datakarta, källor och sedan Registrera.

    Skärmbild som visar knappen datakarta markerad i Purview-gränssnittet.

  2. I Registrera källor väljer du Azure SQL Database och sedan Fortsätt.

    Skärmbild som visar Azure SQL Database-registreringskällan.

  3. I Registrera källor (Azure SQL Database) väljer eller anger du följande information:

    Inställning Åtgärd
    Namn Ange SQLDatabase (namnet på databasen som skapades i Skapa Azure SQL Database-instanser).
    Abonnemang Välj den prenumeration som är värd för databasen.
    Servernamn Ange <DP-prefix-dev-sqlserver001>.

    Skärmbild som visar formuläret Registrera SQL Database med värden markerade.

  4. Välj Registrera.

Konfigurera genomsökningar

Konfigurera sedan genomsökningar för datakällorna.

Skanna Data Lake Storage Gen2-datakällan

  1. Gå till datakartan i Purview Studio. I datakällan väljer du ikonen Ny genomsökning .

    Skärmbild som visar hur du konfigurerar en ny Data Lake Storage Gen2-genomsökning.

  2. I det nya genomsökningsfönstret väljer eller anger du följande information:

    Inställning Åtgärd
    Namn Ange Scan_<DLZ-prefix>devraw.
    Anslut via integrationskörning Välj den lokalt installerade integrationskörningen som distribuerades med datalandningszonen.
    Referens Välj tjänstens huvudnamn som du har konfigurerat för Purview.

    Skärmbild som visar genomsökningen av Data Lake Storage Gen2-autentiseringsformuläret med angivna värden.

  3. Välj Testa anslutning för att verifiera anslutningen och att behörigheter finns på plats. Välj Fortsätt.

  4. I Omfång för genomsökningen väljer du hela lagringskontot som omfång för genomsökningen och väljer sedan Fortsätt.

    Skärmbild som visar fönstret Omfång för genomsökningen med valda lagringskonton.

  5. I Välj en skanningsregeluppsättning väljer du AdlsGen2 och sedan Fortsätt.

    Skärmbild som visar valet av Data Lake Storage Gen2-genomsökningsregeluppsättning.

  6. I Ange en genomsökningsutlösare väljer du En gång och väljer sedan Fortsätt.

    Skärmbild som visar fönstret Ange en genomsökningsutlösare med En gång markerad.

  7. Granska genomsökningsinställningarna i Granska genomsökningsinställningarna. Välj Spara och kör för att starta genomsökningen.

    Skärmbild som visar granskning av genomsökningen innan du sparar och kör den.

Upprepa följande steg för följande lagringskonton:

  • <DMLZ-prefix>devencur
  • <DMLZ-prefix>devwork

Skanna SQL Database-datakällan

  1. I Azure SQL Database-datakällan väljer du Ny genomsökning.

    Skärmbild som visar hur du skapar en ny SQL Database-genomsökning.

  2. I det nya genomsökningsfönstret väljer eller anger du följande information:

    Inställning Åtgärd
    Namn Ange Scan_Database001.
    Anslut via integrationskörning Välj Purview-SHIR.
    Databasnamn Välj databasnamnet.
    Referens Välj autentiseringsuppgifterna för nyckelvalvet som du skapade i Purview.
    Extrahering av ursprung (förhandsversion) Välj Av.

    Skärmbild som visar formuläret för genomsökningsautentiseringsuppgifter med angivna värden.

  3. Välj Testa anslutning för att verifiera anslutningen och att behörigheter finns på plats. Välj Fortsätt.

  4. Välj omfånget för genomsökningen. Om du vill söka igenom hela databasen använder du standardvärdet.

    Skärmbild som visar hur du anger omfånget för genomsökningen till hela databasen.

  5. I Välj en skanningsregeluppsättning väljer du AzureSqlDatabase och väljer sedan Fortsätt.

    Skärmbild som visar valet av SQL Database-genomsökningsregeluppsättning.

  6. I Ange en genomsökningsutlösare väljer du En gång och väljer sedan Fortsätt.

    Skärmbild som visar hur du anger att en genomsökning ska köras med en gång markerad.

  7. Granska genomsökningsinställningarna i Granska genomsökningsinställningarna. Välj Spara och kör för att starta genomsökningen.

Upprepa de här stegen för AdatumERP databasen.

Purview har nu konfigurerats för datastyrning för de registrerade datakällorna.

Kopiera SQL Database-data till Data Lake Storage Gen2

I följande steg använder du verktyget Kopiera data i Data Factory för att skapa en pipeline för att kopiera tabellerna från SQL Database-instanserna AdatumCRM och AdatumERP till CSV-filer i <DLZ-prefix>devraw Data Lake Storage Gen2-kontot.

Miljön är låst för offentlig åtkomst, så först måste du konfigurera privata slutpunkter. Om du vill använda de privata slutpunkterna loggar du in på Azure-portalen i din lokala webbläsare och ansluter sedan till den virtuella Bastion-värddatorn för att få åtkomst till nödvändiga Azure-tjänster.

Skapa privata slutpunkter

Så här konfigurerar du privata slutpunkter för de resurser som krävs:

  1. <DMLZ-prefix>-dev-bastion I resursgruppen väljer du <DMLZ-prefix>-dev-vm001.

    Skärmbild som visar resursgrupperna för att ansluta till den virtuella skyddsvärddatorn.

  2. I kommandofältet väljer du Anslut och väljer Bastion.

    Skärmbild som visar fönstret Anslut till skyddsmarkering.

  3. Ange användarnamnet och lösenordet för den virtuella datorn och välj sedan Anslut.

    Skärmbild som visar fönstret användarnamn och lösenord.

  4. I den virtuella datorns webbläsare går du till Azure-portalen. Gå till <DLZ-prefix>-dev-shared-integration resursgruppen och öppna datafabriken <DLZ-prefix>-dev-integration-datafactory001 .

    Skärmbild som visar hur du går till en annan resursgrupp för att öppna Azure Data Factory.

  5. Under Komma igång går du till Öppna Azure Data Factory Studio och väljer Öppna.

    Skärmbild som visar hur du öppnar Azure Data Factory Studio.

  6. I Menyn Data Factory Studio väljer du ikonen Hantera (ikonen ser ut som en fyrkantig verktygslåda med en skiftnyckel stämplad). På resursmenyn väljer du Hanterade privata slutpunkter för att skapa de privata slutpunkter som krävs för att ansluta Data Factory till andra skyddade Azure-tjänster.

    Godkännande av åtkomstbegäranden för de privata slutpunkterna beskrivs i ett senare avsnitt. När du har godkänt begäranden om åtkomst till privata slutpunkter är deras godkännandestatus Godkänd, som i följande exempel på lagringskontot <DLZ-prefix>devencur .

    Skärmbild som visar hur du går till fönstret Hantera privata slutpunkter.

  7. Innan du godkänner de privata slutpunktsanslutningarna väljer du Ny. Ange Azure SQL för att hitta azure SQL Database-anslutningsappen som du använder för att skapa en ny hanterad privat slutpunkt för den <DP-prefix>-dev-sqlserver001 virtuella Azure SQL-datorn. Den virtuella datorn innehåller databaserna AdatumCRM och AdatumERP som du skapade tidigare.

  8. I Ny hanterad privat slutpunkt (Azure SQL Database) för Namn anger du data-product-dev-sqlserver001. Ange den Azure-prenumeration som du använde för att skapa resurserna. Som Servernamn väljer du <DP-prefix>-dev-sqlserver001 så att du kan ansluta till den från den här datafabriken i nästa avsnitt.

    Skärmbild som visar hur du namnger den nya privata slutpunkten.

Godkänna åtkomstbegäranden för privat slutpunkt

Om du vill ge Data Factory åtkomst till de privata slutpunkterna för de tjänster som krävs har du några alternativ:

  • Alternativ 1: I varje tjänst som du begär åtkomst till går du till alternativet nätverksanslutningar eller privata slutpunktsanslutningar i Azure-portalen och godkänner åtkomstbegäranden till den privata slutpunkten.

  • Alternativ 2: Kör följande skript i Azure Cloud Shell i Bash-läge för att godkänna alla åtkomstbegäranden till de privata slutpunkter som krävs samtidigt.

    
    # Storage managed private endpoint approval
    
    # devencur
    resourceGroupName=$(az group list -o tsv  --query "[?contains(@.name, '-dev-storage')==\`true\`].name")
    storageAcctName=$(az storage account list -g $resourceGroupName -o tsv  --query "[?contains(@.name, 'devencur')==\`true\`].name")
    endPointConnectionName=$(az network private-endpoint-connection list -g $resourceGroupName -n $storageAcctName --type Microsoft.Storage/storageAccounts -o tsv --query "[?contains(@.properties.privateLinkServiceConnectionState.status, 'Pending')==\`true\`].name")
    
    az network private-endpoint-connection approve -g $resourceGroupName -n $endPointConnectionName --resource-name $storageAcctName --type Microsoft.Storage/storageAccounts --description "Approved"
    
    # devraw
    resourceGroupName=$(az group list -o tsv  --query "[?contains(@.name, '-dev-storage')==\`true\`].name")
    storageAcctName=$(az storage account list -g $resourceGroupName -o tsv  --query "[?contains(@.name, 'devraw')==\`true\`].name")
    endPointConnectionName=$(az network private-endpoint-connection list -g $resourceGroupName -n $storageAcctName --type Microsoft.Storage/storageAccounts -o tsv --query "[?contains(@.properties.privateLinkServiceConnectionState.status, 'Pending')==\`true\`].name")
    az network private-endpoint-connection approve -g $resourceGroupName -n $endPointConnectionName --resource-name $storageAcctName --type Microsoft.Storage/storageAccounts --description "Approved"
    
    # SQL Database managed private endpoint approval
    resourceGroupName=$(az group list -o tsv  --query "[?contains(@.name, '-dev-dp001')==\`true\`].name")
    sqlServerName=$(az sql server list -g $resourceGroupName -o tsv  --query "[?contains(@.name, 'sqlserver001')==\`true\`].name")
    endPointConnectionName=$(az network private-endpoint-connection list -g $resourceGroupName -n $sqlServerName --type Microsoft.Sql/servers -o tsv --query "[?contains(@.properties.privateLinkServiceConnectionState.status, 'Pending')==\`true\`].name")
    az network private-endpoint-connection approve -g $resourceGroupName -n $endPointConnectionName --resource-name $sqlServerName --type Microsoft.Sql/servers --description "Approved"
    
    # Key Vault private endpoint approval
    resourceGroupName=$(az group list -o tsv  --query "[?contains(@.name, '-dev-metadata')==\`true\`].name")
    keyVaultName=$(az keyvault list -g $resourceGroupName -o tsv  --query "[?contains(@.name, 'dev-vault001')==\`true\`].name")
    endPointConnectionID=$(az network private-endpoint-connection list -g $resourceGroupName -n $keyVaultName --type Microsoft.Keyvault/vaults -o tsv --query "[?contains(@.properties.privateLinkServiceConnectionState.status, 'Pending')==\`true\`].id")
    az network private-endpoint-connection approve -g $resourceGroupName --id $endPointConnectionID --resource-name $keyVaultName --type Microsoft.Keyvault/vaults --description "Approved"
    
    # Purview private endpoint approval
    resourceGroupName=$(az group list -o tsv  --query "[?contains(@.name, 'dev-governance')==\`true\`].name")
    purviewAcctName=$(az purview account list -g $resourceGroupName -o tsv  --query "[?contains(@.name, '-dev-purview001')==\`true\`].name")
    for epn in $(az network private-endpoint-connection list -g $resourceGroupName -n $purviewAcctName --type Microsoft.Purview/accounts -o tsv --query "[?contains(@.properties.privateLinkServiceConnectionState.status, 'Pending')==\`true\`].name")
    do
        az network private-endpoint-connection approve -g $resourceGroupName -n $epn --resource-name $purviewAcctName --type Microsoft.Purview/accounts --description "Approved"
    done
    
    

I följande exempel visas hur <DLZ-prefix>devraw lagringskontot hanterar privata åtkomstbegäranden för slutpunkter. I resursmenyn för lagringskontot väljer du Nätverk. I kommandofältet väljer du Privata slutpunktsanslutningar.

Skärmbild som visar hur du går till fönstret Privata slutpunktsanslutningar.

För vissa Azure-resurser väljer du Privata slutpunktsanslutningar på resursmenyn. Ett exempel för Azure SQL-servern visas i följande skärmbild.

Om du vill godkänna en privat slutpunktsåtkomstbegäran går du till Privata slutpunktsanslutningar, väljer den väntande åtkomstbegäran och väljer sedan Godkänn:

Skärmbild som visar hur du godkänner en privat slutpunktsåtkomstbegäran.

När du har godkänt åtkomstbegäran i varje nödvändig tjänst kan det ta några minuter innan begäran visas som Godkänd i hanterade privata slutpunkter i Data Factory Studio. Även om du väljer Uppdatera i kommandofältet kan godkännandetillståndet vara inaktuellt i några minuter.

När du är klar med godkännandet av alla åtkomstbegäranden för de tjänster som krävs i Hanterade privata slutpunkter är värdet godkännandetillstånd för alla tjänster Godkänt:

Skärmbild som visar SQL-anslutningarna för den privata slutpunkten som godkända.

Rolltilldelningar

När du har godkänt åtkomstbegäranden för privata slutpunkter lägger du till lämpliga rollbehörigheter för Data Factory för att få åtkomst till dessa resurser:

  • SQL Database-instanser AdatumCRM och AdatumERP i <DP-prefix>-dev-sqlserver001 Azure SQL-servern
  • Lagringskonton <DLZ-prefix>devraw, <DLZ-prefix>devencuroch <DLZ-prefix>devwork
  • Purview-konto <DMLZ-prefix>-dev-purview001

Virtuell Azure SQL-dator

  1. Om du vill lägga till rolltilldelningar börjar du med den virtuella Azure SQL-datorn. <DMLZ-prefix>-dev-dp001 I resursgruppen går du till <DP-prefix>-dev-sqlserver001.

  2. Välj Åtkomstkontroll (IAM) på resursmenyn. I kommandofältet väljer du Lägg till lägg till>rolltilldelning.

  3. På fliken Roll väljer du Deltagare och sedan Nästa.

    Skärmbild som visar fönstret Deltagarrollval.

  4. I Medlemmar för Tilldela åtkomst till väljer du Hanterad identitet. För Medlemmar väljer du Välj medlemmar.

    Skärmbild som visar fönstret Välj Hanterade identitetsmedlemmar.

  5. I Välj hanterade identiteter väljer du din Azure-prenumeration. För Hanterad identitet väljer du Data Factory (V2) för att se tillgängliga datafabriker. I listan över datafabriker väljer du Azure Data Factory <DLZ-prefix-dev-integration-datafactory001>. Välj Välj.

    Skärmbild som visar fönstret för slutförande av rolltilldelning.

  6. Välj Granska + Tilldela två gånger för att slutföra processen.

Lagringskonton

Tilldela sedan de nödvändiga rollerna till <DLZ-prefix>devraw, <DLZ-prefix>devencuroch <DLZ-prefix>devwork lagringskontona.

Om du vill tilldela rollerna utför du samma steg som du använde för att skapa rolltilldelningen för Azure SQL-servern. Men för rollen väljer du Storage Blob Data Contributor i stället för Deltagare.

När du har tilldelat roller för alla tre lagringskontona kan Data Factory ansluta till och komma åt lagringskontona.

Microsoft Purview

Det sista steget för att lägga till rolltilldelningar är att lägga till rollen Purview Data Curator i Microsoft Purview till datafabrikens <DLZ-prefix>-dev-integration-datafactory001 hanterade identitetskonto. Slutför följande steg så att Data Factory kan skicka tillgångsinformation för datakatalogen från flera datakällor till Purview-kontot.

  1. I resursgruppen <DMLZ-prefix>-dev-governancegår du till <DMLZ-prefix>-dev-purview001 Purview-kontot.

  2. I Purview Studio väljer du ikonen Datakarta och sedan Samlingar.

  3. Välj fliken Rolltilldelningar för samlingen. Under Datakuratorer lägger du till den hanterade identiteten för <DLZ-prefix>-dev-integration-datafactory001:

    Skärmbild som visar hur du lägger till datakuratorer i din Purview-rolltilldelning.

Anslut Data Factory till Purview

Behörigheterna har angetts och Purview kan nu se datafabriken. Nästa steg är att ansluta <DMLZ-prefix>-dev-purview001 till <DLZ-prefix>-dev-integration-datafactory001.

  1. I Purview Studio väljer du ikonen Hantering och sedan Data Factory. Välj Ny för att skapa en Data Factory-anslutning.

  2. I fönstret Nya Data Factory-anslutningar anger du din Azure-prenumeration och väljer datafabriken <DLZ-prefix>-dev-integration-datafactory001 . Välj OK.

    Skärmbild som visar hur Purview Studio-fönstret ser ut när du väljer en ny anslutning.

  3. I Data Factory Studio-instansen<DLZ-prefix>-dev-integration-datafactory001, under Hantera>Azure Purview, uppdaterar du Azure Purview-kontot.

    Integreringen Data Lineage - Pipeline visar nu den gröna Anslut ikonen.

    Skärmbild som visar azure Data Factory Purview-kontofönstret med dataursprungspipelinen ansluten.

Skapa en ETL-pipeline

Nu när den <DLZ-prefix>-dev-integration-datafactory001 har nödvändiga åtkomstbehörigheter skapar du en kopieringsaktivitet i Data Factory för att flytta data från SQL Database-instanser till det <DLZ-prefix>devraw råa lagringskontot.

Använda verktyget Kopiera data med AdatumCRM

Den här processen extraherar kunddata från SQL Database-instansen AdatumCRM och kopierar dem till Data Lake Storage Gen2-lagring.

  1. I Data Factory Studio väljer du ikonen Författare och sedan Fabriksresurser. Välj plustecknet (+) och välj Verktyget Kopiera data.

    Skärmbild som visar verktyget Kopiera data under fabriksresurser.

    Slutför varje steg i guiden Kopiera data:

    1. Om du vill skapa en utlösare för att köra pipelinen var 24:e timme väljer du Schema.

      Skärmbild som visar hur du schemalägger en utlösare så att den körs regelbundet i CRM.

    2. Om du vill skapa en länkad tjänst för att ansluta den här datafabriken AdatumCRM till SQL Database-instansen <DP-prefix>-dev-sqlserver001 på servern (källa) väljer du Ny Anslut ion.

      Skärmbild som visar anslutning till AdatumCRM-databasen.

      Kommentar

      Om det uppstår fel vid anslutning till eller åtkomst till data i SQL Database-instanserna eller lagringskontona granskar du dina behörigheter i Azure-prenumerationen. Kontrollera att datafabriken har nödvändiga autentiseringsuppgifter och åtkomstbehörigheter till alla problematiska resurser.

    3. Välj dessa tre tabeller:

      • SalesLT.Address
      • SalesLT.Customer
      • SalesLT.CustomerAddress

      Skärmbild som visar fönstret Välj tabeller med tabeller markerade.

    4. Skapa en ny länkad tjänst för att få åtkomst till <DLZ-prefix>devraw Azure Data Lake Storage Gen2-lagringen (mål).

      Skärmbild som visar den råa lagringsanslutningen.

    5. Bläddra bland mapparna i lagringen <DLZ-prefix>devraw och välj Data som mål.

      Skärmbild som visar målet som rådata.

    6. Ändra filnamnssuffixet till .csv och använd de andra standardalternativen.

      Skärmbild som visar filnamnssuffixfältet med CSV angivet.

    7. Gå till nästa fönster och välj Lägg till rubrik i filen.

      Skärmbild som visar hur du lägger till en rubrik i en fil.

    8. När du är klar med guiden ser fönstret Distribution färdigt ut ungefär som i det här exemplet:

      Skärmbild som visar att distributionen av verktyget Kopiera data har slutförts.

Den nya pipelinen visas i Pipelines.

Köra pipelinen

Den här processen skapar tre .csv filer i mappen Data\CRM , en för var och en av de valda tabellerna AdatumCRM i databasen.

  1. Byt namn på pipelinen CopyPipeline_CRM_to_Raw.

  2. Byt namn på datauppsättningarna CRM_Raw_Storage och CRM_DB.

  3. I kommandofältet Fabriksresurser väljer du Publicera alla.

  4. Välj pipelinen CopyPipeline_CRM_to_Raw och välj Utlösa i pipelinekommandofältet för att kopiera de tre tabellerna från SQL Database till Data Lake Storage Gen2.

    Skärmbild som visar hur du använder utlösarverktyget för att kopiera data från SQL Database till Data Lake Storage Gen2.

Använda verktyget Kopiera data med AdatumERP

Extrahera sedan data från AdatumERP databasen. Data representerar försäljningsdata som kommer från ERP-systemet.

  1. Skapa en ny pipeline i Data Factory Studio med verktyget Kopiera data. Den här gången skickar du försäljningsdata från AdatumERP till <DLZ-prefix>devraw lagringskontots datamapp, på samma sätt som du gjorde med CRM-data. Utför samma steg, men använd AdatumERP databasen som källa.

    1. Skapa schemat som ska utlösas varje timme.

    2. Skapa en länkad tjänst till SQL Database-instansen AdatumERP .

      Skärmbild som visar att fönstret Adatum ERP-anslutning har slutförts.

    3. Välj dessa sju tabeller:

      • SalesLT.Product
      • SalesLT.ProductCategory
      • SalesLT.ProductDescription
      • SalesLT.ProductModel
      • SalesLT.ProductModelProductDescription
      • SalesLT.SalesOrderDetail
      • SalesLT.SalesOrderHeader

      Skärmbild som visar alternativ för Adatum ERP-tabell.

    4. Använd den befintliga länkade tjänsten till lagringskontot <DLZ-prefix>devraw och ange filnamnstillägget till .csv.

      Skärmbild som visar ett raw storage-konto med filtillägget inställt på CSV.

    5. Välj Lägg till rubrik i filen.

      Skärmbild som visar hur du lägger till en rubrik i en fil under Inställningar för filformat.

    6. Slutför guiden igen och byt namn på pipelinen CopyPipeline_ERP_to_DevRaw. Välj sedan Publicera alla i kommandofältet. Kör slutligen utlösaren på den här nyligen skapade pipelinen för att kopiera de sju valda tabellerna från SQL Database till Data Lake Storage Gen2.

När du är klar med de här stegen finns 10 CSV-filer i Data Lake Storage Gen2-lagringen <DLZ-prefix>devraw . I nästa avsnitt kurerar du filerna i <DLZ-prefix>devencur Data Lake Storage Gen2-lagringen.

Kurera data i Data Lake Storage Gen2

När du är klar med att skapa de 10 CSV-filerna i den råa <DLZ-prefix>devraw Data Lake Storage Gen2-lagringen omvandlar du filerna efter behov när du kopierar dem till den kuraterade <DLZ-prefix>devencur Data Lake Storage Gen2-lagringen.

Fortsätt att använda Azure Data Factory för att skapa dessa nya pipelines för att samordna dataflytt.

Kurera CRM till kunddata

Skapa ett dataflöde som hämtar CSV-filerna i mappen Data\CRM i <DLZ-prefix>devraw. Transformera filerna och kopiera transformerade filer i .parquet-filformat till mappen Data\Customer i <DLZ-prefix>devencur.

  1. I Azure Data Factory går du till datafabriken och väljer Orchestrate.

    Skärmbild som visar knappen Orchestrate i Azure Data Factory.

  2. I Allmänt namnger du pipelinen Pipeline_transform_CRM.

  3. I fönstret Aktiviteter expanderar du Flytta och transformera. Dra dataflödesaktiviteten och släpp den i pipelinearbetsytan.

    Skärmbild som visar fönstret Aktiviteter och Flytta och transformera markerat.

  4. I Lägga till Dataflöde väljer du Skapa nytt dataflöde och namnger dataflödet CRM_to_Customer. Välj Slutför.

    Kommentar

    I kommandofältet på pipelinearbetsytan aktiverar du Felsökning av dataflöde. I felsökningsläge kan du interaktivt testa omvandlingslogik mot ett Live Apache Spark-kluster. Det tar 5 till 7 minuter att värma upp dataflödeskluster. Vi rekommenderar att du aktiverar felsökning innan du påbörjar dataflödesutvecklingen.

    Skärmbild som visar knappen Öppna Dataflöde.

    När du är klar med att välja alternativen i CRM_to_Customer dataflödet ser pipelinen Pipeline_transform_CRM ut ungefär som i det här exemplet:

    Skärmbild som visar pipelinetransformerings-CRM.

    Dataflödet ser ut så här:

    Skärmbild som visar dataflödet CRM till kund.

  5. Ändra sedan de här inställningarna i dataflödet för CRMAddress källan:

    1. Skapa en ny datauppsättning från Data Lake Storage Gen2. Använd formatet DelimitedText. Ge datamängden DevRaw_CRM_Addressnamnet .

    2. Anslut den länkade tjänsten till <DLZ-prefix>devraw.

    3. Data\CRM\SalesLTAddress.csv Välj filen som källa.

  6. Ändra de här inställningarna i dataflödet för den kopplade CustAddress mottagaren:

    1. Skapa en ny datauppsättning med namnet DevEncur_Cust_Address.

    2. Välj mappen Data\Customer i <DLZ-prefix>devencur som mottagare.

    3. Under Inställningar\Output to single file (Utdata till en enda fil) konverterar du filen till Address.parquet.

För resten av dataflödeskonfigurationen använder du informationen i följande tabeller för varje komponent. Observera att CRMAddress och CustAddress är de två första raderna. Använd dem som exempel för de andra objekten.

Ett objekt som inte finns i någon av följande tabeller är RemovePasswords schemamodifieraren. Föregående skärmbild visar att det här objektet går mellan CRMCustomer och CustCustomer. Om du vill lägga till den här schemamodifieraren går du till Välj inställningar och tar bort PasswordHash och PasswordSalt.

CRMCustomer returnerar ett schema med 15 kolumner från .crv-filen. CustCustomer skriver bara 13 kolumner efter att schemamodifieraren tar bort de två lösenordskolumnerna.

Den fullständiga tabellen

Name Object type Namn på datauppsättning Datalager Formattyp Länkad tjänst Filen eller mappen
CRMAddress source DevRaw_CRM_Address Azure Data Lake Storage Gen2 Avgränsadtext devraw Data\CRM\SalesLTAddress.csv
CustAddress Diskbänken DevEncur_Cust_Address Azure Data Lake Storage Gen2 Parquet devencur Data\Customer\Address.parquet
CRMCustomer source DevRaw_CRM_Customer Azure Data Lake Storage Gen2 Avgränsadtext devraw Data\CRM\SalesLTCustomer.csv
CustCustomer Diskbänken DevEncur_Cust_Customer Azure Data Lake Storage Gen2 Parquet devencur Data\Customer\Customer.parquet
CRMCustomerAddress source DevRaw_CRM_CustomerAddress Azure Data Lake Storage Gen2 Avgränsadtext devraw Data\CRM\SalesLTCustomerAddress.csv
CustCustomerAddress Diskbänken DevEncur_Cust_CustomerAddress Azure Data Lake Storage Gen2 Parquet devencur Data\Customer\CustomerAddress.parquet

Tabellen ERP till försäljning

Upprepa nu liknande steg för att skapa en Pipeline_transform_ERP pipeline, skapa ett ERP_to_Sales dataflöde för att transformera .csv-filerna i mappen Data\ERP i <DLZ-prefix>devrawoch kopiera de transformerade filerna till mappen Data\Sales i <DLZ-prefix>devencur.

I följande tabell hittar du de objekt som ska skapas i ERP_to_Sales dataflödet och de inställningar som du behöver ändra för varje objekt. Varje .csv fil mappas till en .parquet-mottagare .

Name Object type Namn på datauppsättning Datalager Formattyp Länkad tjänst Filen eller mappen
ERPProduct source DevRaw_ERP_Product Azure Data Lake Storage Gen2 Avgränsadtext devraw Data\ERP\SalesLTProduct.csv
SalesProduct Diskbänken DevEncur_Sales_Product Azure Data Lake Storage Gen2 Parquet devencur Data\Sales\Product.parquet
ERPProductCategory source DevRaw_ERP_ProductCategory Azure Data Lake Storage Gen2 Avgränsadtext devraw Data\ERP\SalesLTProductCategory.csv
SalesProductCategory Diskbänken DevEncur_Sales_ProductCategory Azure Data Lake Storage Gen2 Parquet devencur Data\Sales\ProductCategory.parquet
ERPProductDescription source DevRaw_ERP_ProductDescription Azure Data Lake Storage Gen2 Avgränsadtext devraw Data\ERP\SalesLTProductDescription.csv
SalesProductDescription Diskbänken DevEncur_Sales_ProductDescription Azure Data Lake Storage Gen2 Parquet devencur Data\Sales\ProductDescription.parquet
ERPProductModel source DevRaw_ERP_ProductModel Azure Data Lake Storage Gen2 Avgränsadtext devraw Data\ERP\SalesLTProductModel.csv
SalesProductModel Diskbänken DevEncur_Sales_ProductModel Azure Data Lake Storage Gen2 Parquet devencur Data\Sales\ProductModel.parquet
ERPProductModelProductDescription source DevRaw_ERP_ProductModelProductDescription Azure Data Lake Storage Gen2 Avgränsadtext devraw Data\ERP\SalesLTProductModelProductDescription.csv
SalesProductModelProductDescription Diskbänken DevEncur_Sales_ProductModelProductDescription Azure Data Lake Storage Gen2 Parquet devencur Data\Sales\ProductModelProductDescription.parquet
ERPProductSalesOrderDetail source DevRaw_ERP_ProductSalesOrderDetail Azure Data Lake Storage Gen2 Avgränsadtext devraw Data\ERP\SalesLTProductSalesOrderDetail.csv
SalesProductSalesOrderDetail Diskbänken DevEncur_Sales_ProductSalesOrderDetail Azure Data Lake Storage Gen2 Parquet devencur Data\Sales\ProductSalesOrderDetail.parquet
ERPProductSalesOrderHeader source DevRaw_ERP_ProductSalesOrderHeader Azure Data Lake Storage Gen2 Avgränsadtext devraw Data\ERP\SalesLTProductSalesOrderHeader.csv
SalesProductSalesOrderHeader Diskbänken DevEncur_Sales_ProductSalesOrderHeader Azure Data Lake Storage Gen2 Parquet devencur Data\Sales\ProductSalesOrderHeader.parquet

Nästa steg