Delen via


Gegevens vooraf verwerken met een opgeslagen procedure voordat ze in Lakehouse worden geladen

In deze zelfstudie leert u hoe u een pijplijnscriptactiviteit gebruikt om een opgeslagen procedure uit te voeren om een tabel te maken en de gegevens vooraf te verwerken in een Azure Synapse-datawarehouse. Daarna laden we de vooraf verwerkte tabel in Lakehouse.

Vereisten

  • Een werkruimte waarvoor Microsoft Fabric is ingeschakeld. Als u nog geen werkruimte hebt, raadpleegt u het artikel Een werkruimte maken.

  • Bereid een opgeslagen procedure voor in uw Azure Synapse-datawarehouse. Maak vooraf de volgende opgeslagen procedure:

    CREATE PROCEDURE spM_add_names
    AS
    --Create initial table
    IF EXISTS (SELECT * FROM sys.objects
    WHERE object_id = OBJECT_ID(N'[dbo].[names]') AND TYPE IN (N'U'))
    BEGIN
    DROP TABLE names
    END;
    
    CREATE TABLE names
    (id INT,fullname VARCHAR(50));
    
    --Populate data
    INSERT INTO names VALUES (1,'John Smith');
    INSERT INTO names VALUES (2,'James Dean');
    
    --Alter table for new columns
    ALTER TABLE names
    ADD first_name VARCHAR(50) NULL;
    
    ALTER TABLE names
    ADD last_name VARCHAR(50) NULL;
    
    --Update table
    UPDATE names
    SET first_name = SUBSTRING(fullname, 1, CHARINDEX(' ', fullname)-1);
    
    UPDATE names
    SET last_name = SUBSTRING(fullname, CHARINDEX(' ', fullname)+1, LEN(fullname)-CHARINDEX(' ', fullname));
    
    --View Result
    SELECT * FROM names;
    

    Schermopname van de resultaten van het uitvoeren van de opgeslagen procedure om een voorbeeldtabel te genereren.

Een pijplijnscriptactiviteit maken om de opgeslagen procedure uit te voeren

In deze sectie gebruiken we een scriptactiviteit om de opgeslagen procedure uit te voeren die is gemaakt in de vereisten.

  1. Kies een scriptactiviteit op de werkbalk Activiteiten en selecteer vervolgens het tabblad Instellingen in het deelvenster Eigenschappen om de verbindingsgegevens te kiezen. Selecteer de vervolgkeuzelijst Verbinding om Meer te kiezen. Vervolgens kunt u verbinding maken met uw Azure Synapse-datawarehouse.

    Schermopname van de pijplijninterface om een nieuwe scriptactiviteit te maken en verbinding te maken met uw Azure Synapse-datawarehouse.

  2. Selecteer Azure Synapse Analytics (SQL DW) in de sectie Nieuwe bronnen .

    Schermopname van het dialoogvenster Gegevens ophalen met Azure Synapse Analytics (SQL DW) geselecteerd.

  3. Geef de velden Server, Database en Gebruikersnaam en Wachtwoord op voor basisverificatie en voer SynapseConnection in voor de naam van de verbinding. Selecteer Vervolgens Maken om de nieuwe verbinding te maken.

    Schermopname van het dialoogvenster Nieuwe verbinding maken.

  4. Voer EXEC in spM_add_names om de opgeslagen procedure uit te voeren. Er wordt een nieuwe tabel gemaakt dbo.name en worden de gegevens vooraf verwerkt met een eenvoudige transformatie om het veld fullname te wijzigen in twee velden, first_name en last_name.

    Schermopname van het tabblad Instellingen van de scriptactiviteit die is geconfigureerd voor het uitvoeren van de spM_add_names opgeslagen procedure.

Een pijplijnactiviteit gebruiken om vooraf verwerkte tabelgegevens in Lakehouse te laden

  1. Selecteer Gegevens kopiëren op de werkbalk Activiteiten en selecteer Vervolgens Kopieerassistent gebruiken of gebruik de kaart Gegevensassistent kopiëren op de landingspagina van de pijplijn om de assistent Gegevens kopiëren te starten.

    Schermopname van de knop Assistent Kopiëren gebruiken onder Gegevens kopiëren.

  2. Voer Synapse in het zoekfilter in en selecteer Azure Synapse Analytics (SQL DW) voor gegevensbron en selecteer vervolgens Volgende.

    Schermopname van de selectiepagina van de gegevensbron van de kopieerassistent met Azure Synapse Analytics geselecteerd.

  3. Kies de bestaande synapseConnection-verbinding die u eerder hebt gemaakt.

    Schermopname van de selectie van de eerder gemaakte SynapseConnection op de pagina Gegevensbron kiezen van de kopieerassistent.

  4. Kies de tabel dbo.names die door de opgeslagen procedure zijn gemaakt en vooraf zijn verwerkt. Selecteer Volgende.

    Schermopname van de selectie van de tabel dbo.names die is gemaakt en vooraf verwerkt door de opgeslagen procedure in de vorige stappen.

  5. Selecteer Lakehouse.

    Schermopname van de selectie van Lakehouse voor de kopieerbestemming in de kopieerassistent.

  6. Voer een naam in en selecteer Vervolgens Maken en verbinding maken.

    Schermopname van het dialoogvenster New Lakehouse.

  7. Voer de naam van een doeltabel in voor de gegevens die moeten worden gekopieerd naar het Lakehouse-doel en selecteer Volgende.

    Schermopname van de naam van de doeltabel die moet worden gebruikt in de Lakehouse-bestemming.

  8. Bekijk de samenvatting op de laatste pagina van de kopieerassistent. Schakel het selectievakje Gegevensoverdracht starten onmiddellijk uit en selecteer VERVOLGENS OK.

    Schermopname van de overzichtspagina van de kopieerassistent met details van de geconfigureerde verbindingen.

  9. Nadat u OK hebt geselecteerd, wordt de nieuwe Copy-activiteit toegevoegd aan het pijplijncanvas.

    Schermopname van het pijplijncanvas met de Copy-activiteit toegevoegd.

De twee pijplijnactiviteiten uitvoeren om de gegevens te laden

  1. Verbind de script- en kopieergegevensactiviteiten op basis van geslaagde scriptactiviteiten vanuit de scriptactiviteit.

    Schermopname van de verbinding van de twee activiteiten bij succes van de scriptactiviteit.

  2. Selecteer Uitvoeren en vervolgens Opslaan en uitvoeren om de twee activiteiten in de pijplijn uit te voeren.

    Schermopname van de knop Pijplijnuitvoering.

    Schermopname van de knop Opslaan en uitvoeren voor de pijplijn.

  3. Nadat de pijplijn is uitgevoerd, kunt u de details voor meer informatie bekijken. Selecteer de koppeling met de naam van uw Copy-activiteit om de uitvoeringsdetails te bekijken.

    Schermopname van de knop Details van pijplijnuitvoering weergeven.

    Schermopname van de uitvoeringsdetails voor de pijplijn.

  4. Ga naar de werkruimte en zoek het Lakehouse dat u hebt gemaakt. Selecteer het EINDPUNT voor SQL Analytics eronder om de resultaten te controleren.

    Schermopname van de werkruimte met het Lakehouse-doel gemarkeerd.

  5. Selecteer de tabel SynapseNamesTable om de datum weer te geven die in Lakehouse is geladen.

    Schermopname van de resultaten in de SynapseNamesTable in Lakehouse.

In dit voorbeeld ziet u hoe u gegevens vooraf verwerkt met een opgeslagen procedure voordat u de resultaten in Lakehouse laadt. U hebt geleerd hoe u:

  • Maak een gegevenspijplijn met een scriptactiviteit om een opgeslagen procedure uit te voeren.
  • Gebruik een pijplijnactiviteit om de vooraf verwerkte tabelgegevens in Lakehouse te laden.
  • Voer de pijplijnactiviteiten uit om de gegevens te laden.

Ga vervolgens verder voor meer informatie over het bewaken van uw pijplijnuitvoeringen.