Förbearbeta data med en lagrad procedur innan de läses in i Lakehouse

I den här självstudien visar vi hur du använder en pipelineskriptaktivitet för att köra en lagrad procedur för att skapa en tabell och förbearbeta data i ett Synapse Data Warehouse. Därefter läser vi in den förbearbetade tabellen i Lakehouse.

Förutsättningar

  • En Microsoft Fabric-aktiverad arbetsyta. Om du inte redan har en kan du läsa artikeln Skapa en arbetsyta.

  • Förbered en lagrad procedur i Azure Synapse Data Warehouse. Skapa följande lagrade procedur i förväg:

    CREATE PROCEDURE spM_add_names
    AS
    --Create initial table
    IF EXISTS (SELECT * FROM sys.objects
    WHERE object_id = OBJECT_ID(N'[dbo].[names]') AND TYPE IN (N'U'))
    BEGIN
    DROP TABLE names
    END;
    
    CREATE TABLE names
    (id INT,fullname VARCHAR(50));
    
    --Populate data
    INSERT INTO names VALUES (1,'John Smith');
    INSERT INTO names VALUES (2,'James Dean');
    
    --Alter table for new columns
    ALTER TABLE names
    ADD first_name VARCHAR(50) NULL;
    
    ALTER TABLE names
    ADD last_name VARCHAR(50) NULL;
    
    --Update table
    UPDATE names
    SET first_name = SUBSTRING(fullname, 1, CHARINDEX(' ', fullname)-1);
    
    UPDATE names
    SET last_name = SUBSTRING(fullname, CHARINDEX(' ', fullname)+1, LEN(fullname)-CHARINDEX(' ', fullname));
    
    --View Result
    SELECT * FROM names;
    

    Screenshot showing the results of running the stored procedure to generate a sample table.

Skapa en pipelineskriptaktivitet för att köra den lagrade proceduren

I det här avsnittet använder vi en skriptaktivitet för att köra den lagrade proceduren som skapats i förutsättningarna.

  1. Välj Skriptaktivitet och välj sedan Ny för att ansluta till ditt Azure Synapse Data Warehouse.

    Screenshot showing the pipeline interface to create a new script activity and connect to your Azure Synapse Data Warehouse.

  2. Välj Azure Synapse Analytics och sedan Fortsätt.

    Screenshot showing the New connection dialog with Azure Synapse Analytics selected.

  3. Ange fälten Server, Databas och Användarnamn och Lösenord för Grundläggande autentisering och ange Synapse Anslut ion som namn på Anslut ion. Välj sedan Skapa för att skapa den nya anslutningen.

    Screenshot showing the create new connection dialog.

  4. Indata-EXEC-spM_add_names för att köra den lagrade proceduren. Den skapar en ny tabell dbo.name och förbearbetar data med en enkel transformering för att ändra fältet fullname till två fält, first_name och last_name.

    Screenshot showing the settings tab of the Script activity configured to execute the spM_add_names stored procedure.

Använda en pipelineaktivitet för att läsa in förbearbetade tabelldata i Lakehouse

  1. Välj Kopiera data och välj sedan Använd kopieringsassistent.

    Screenshot showing the Use copy assistant button under Copy data.

  2. Välj Azure Synapse Analytics för datakällan och välj sedan Nästa.

    Screenshot showing the Copy assistant data source selection page with Azure Synapse Analytics selected.

  3. Välj den befintliga anslutningen Synapse Anslut ion som du skapade tidigare.

    Screenshot showing the selection of the previously created SynapseConnection in the Choose data source page of the Copy assistant.

  4. Välj tabellen dbo.names som skapades och förbearbetades av den lagrade proceduren. Välj sedan Nästa.

    Screenshot showing the selection of the dbo.names table created and preprocessed by the stored procedure in the previous steps.

  5. Välj Lakehouse under fliken Arbetsyta som mål och välj sedan Nästa igen.

    Screenshot showing the selection of Lakehouse for the copy destination in the Copy assistant.

  6. Välj en befintlig eller skapa ett nytt Lakehouse och välj sedan Nästa.

    Screenshot showing the selection of a Lakehouse destination in the Copy assistant.

  7. Ange ett måltabellnamn för de data som ska kopieras till för Lakehouse-målet och välj Nästa.

    Screenshot showing the destination table name to be used in the Lakehouse destination.

  8. Granska sammanfattningen på den sista sidan i kopieringsassistenten och välj sedan OK.

    Screenshot showing the summary page of the Copy assistant with details of the configured connections.

  9. När du har valt OK läggs den nya aktiviteten Kopiera till på pipelinearbetsytan.

    Screenshot showing the pipeline canvas with the Copy activity added.

Kör de två pipelineaktiviteterna för att läsa in data

  1. Anslut dataaktiviteterna Skript och Kopiera efter Vid framgång från skriptaktiviteten.

    Screenshot showing the connection of the two activities on success of the Script activity.

  2. Välj Kör och sedan Spara och kör för att köra de två aktiviteterna i pipelinen.

    Screenshot showing the pipeline Run button.

    Screenshot showing the Save and run button for the pipeline.

  3. När pipelinen har körts kan du visa informationen för mer information.

    Screenshot showing the view pipeline run details button.

    Screenshot showing the run details for the pipeline.

  4. Växla till arbetsytan och välj Lakehouse för att kontrollera resultatet.

    Screenshot showing the workspace with the Lakehouse destination highlighted.

  5. Välj tabellen SynapseNamesTable för att visa dat som lästs in i Lakehouse.

    Screenshot showing the results in the SynapseNamesTable in Lakehouse.

Det här exemplet visar hur du förbearbetar data med en lagrad procedur innan du läser in resultaten i Lakehouse. Du har lärt dig att:

  • Skapa en datapipeline med en skriptaktivitet för att köra en lagrad procedur.
  • Använd en pipelineaktivitet för att läsa in förbearbetade tabelldata till Lakehouse.
  • Kör pipelineaktiviteterna för att läsa in data.

Gå sedan vidare för att lära dig mer om att övervaka dina pipelinekörningar.