Gegevens vooraf verwerken met een opgeslagen procedure voordat ze in Lakehouse worden geladen
In deze zelfstudie leert u hoe u een pijplijnscriptactiviteit gebruikt om een opgeslagen procedure uit te voeren om een tabel te maken en de gegevens vooraf te verwerken in een Azure Synapse-datawarehouse. Daarna laden we de vooraf verwerkte tabel in Lakehouse.
Vereisten
Een werkruimte waarvoor Microsoft Fabric is ingeschakeld. Als u nog geen werkruimte hebt, raadpleegt u het artikel Een werkruimte maken.
Bereid een opgeslagen procedure voor in uw Azure Synapse-datawarehouse. Maak vooraf de volgende opgeslagen procedure:
CREATE PROCEDURE spM_add_names AS --Create initial table IF EXISTS (SELECT * FROM sys.objects WHERE object_id = OBJECT_ID(N'[dbo].[names]') AND TYPE IN (N'U')) BEGIN DROP TABLE names END; CREATE TABLE names (id INT,fullname VARCHAR(50)); --Populate data INSERT INTO names VALUES (1,'John Smith'); INSERT INTO names VALUES (2,'James Dean'); --Alter table for new columns ALTER TABLE names ADD first_name VARCHAR(50) NULL; ALTER TABLE names ADD last_name VARCHAR(50) NULL; --Update table UPDATE names SET first_name = SUBSTRING(fullname, 1, CHARINDEX(' ', fullname)-1); UPDATE names SET last_name = SUBSTRING(fullname, CHARINDEX(' ', fullname)+1, LEN(fullname)-CHARINDEX(' ', fullname)); --View Result SELECT * FROM names;
Een pijplijnscriptactiviteit maken om de opgeslagen procedure uit te voeren
In deze sectie gebruiken we een scriptactiviteit om de opgeslagen procedure uit te voeren die is gemaakt in de vereisten.
Kies een scriptactiviteit op de werkbalk Activiteiten en selecteer vervolgens het tabblad Instellingen in het deelvenster Eigenschappen om de verbindingsgegevens te kiezen. Selecteer de vervolgkeuzelijst Verbinding om Meer te kiezen. Vervolgens kunt u verbinding maken met uw Azure Synapse-datawarehouse.
Selecteer Azure Synapse Analytics (SQL DW) in de sectie Nieuwe bronnen .
Geef de velden Server, Database en Gebruikersnaam en Wachtwoord op voor basisverificatie en voer SynapseConnection in voor de naam van de verbinding. Selecteer Vervolgens Maken om de nieuwe verbinding te maken.
Voer EXEC in spM_add_names om de opgeslagen procedure uit te voeren. Er wordt een nieuwe tabel gemaakt dbo.name en worden de gegevens vooraf verwerkt met een eenvoudige transformatie om het veld fullname te wijzigen in twee velden, first_name en last_name.
Een pijplijnactiviteit gebruiken om vooraf verwerkte tabelgegevens in Lakehouse te laden
Selecteer Gegevens kopiëren op de werkbalk Activiteiten en selecteer Vervolgens Kopieerassistent gebruiken of gebruik de kaart Gegevensassistent kopiëren op de landingspagina van de pijplijn om de assistent Gegevens kopiëren te starten.
Voer Synapse in het zoekfilter in en selecteer Azure Synapse Analytics (SQL DW) voor gegevensbron en selecteer vervolgens Volgende.
Kies de bestaande synapseConnection-verbinding die u eerder hebt gemaakt.
Kies de tabel dbo.names die door de opgeslagen procedure zijn gemaakt en vooraf zijn verwerkt. Selecteer Volgende.
Selecteer Lakehouse.
Voer een naam in en selecteer Vervolgens Maken en verbinding maken.
Voer de naam van een doeltabel in voor de gegevens die moeten worden gekopieerd naar het Lakehouse-doel en selecteer Volgende.
Bekijk de samenvatting op de laatste pagina van de kopieerassistent. Schakel het selectievakje Gegevensoverdracht starten onmiddellijk uit en selecteer VERVOLGENS OK.
Nadat u OK hebt geselecteerd, wordt de nieuwe Copy-activiteit toegevoegd aan het pijplijncanvas.
De twee pijplijnactiviteiten uitvoeren om de gegevens te laden
Verbind de script- en kopieergegevensactiviteiten op basis van geslaagde scriptactiviteiten vanuit de scriptactiviteit.
Selecteer Uitvoeren en vervolgens Opslaan en uitvoeren om de twee activiteiten in de pijplijn uit te voeren.
Nadat de pijplijn is uitgevoerd, kunt u de details voor meer informatie bekijken. Selecteer de koppeling met de naam van uw Copy-activiteit om de uitvoeringsdetails te bekijken.
Ga naar de werkruimte en zoek het Lakehouse dat u hebt gemaakt. Selecteer het EINDPUNT voor SQL Analytics eronder om de resultaten te controleren.
Selecteer de tabel SynapseNamesTable om de datum weer te geven die in Lakehouse is geladen.
Gerelateerde inhoud
In dit voorbeeld ziet u hoe u gegevens vooraf verwerkt met een opgeslagen procedure voordat u de resultaten in Lakehouse laadt. U hebt geleerd hoe u:
- Maak een gegevenspijplijn met een scriptactiviteit om een opgeslagen procedure uit te voeren.
- Gebruik een pijplijnactiviteit om de vooraf verwerkte tabelgegevens in Lakehouse te laden.
- Voer de pijplijnactiviteiten uit om de gegevens te laden.
Ga vervolgens verder voor meer informatie over het bewaken van uw pijplijnuitvoeringen.