Delen via


Een door bron beheerde pijplijn maken

Belangrijk

De Lakeflow Pipelines Editor bevindt zich in openbare preview.

In Azure Databricks kunt u broncodebeheer uitvoeren voor een pijplijn en alle code die eraan is gekoppeld. Door alle bestanden die aan uw pijplijn zijn gekoppeld onder versiebeheer in Git te plaatsen, kunnen wijzigingen in uw transformatiecode, verkenningscode en pijplijnconfiguratie worden getest in de ontwikkelingsfase en met vertrouwen in productie worden geïmplementeerd.

Een brongestuurde pijplijn biedt de volgende voordelen:

  • Traceerbaarheid: leg elke wijziging in de Git-geschiedenis vast.
  • Testen: Pijplijnwijzigingen valideren in een ontwikkelwerkruimte voordat u promoveert naar een gedeelde productiewerkruimte. Elke ontwikkelaar heeft een eigen ontwikkelingspijplijn in hun eigen codebranch in een Git-map en in hun eigen schema.
  • Samenwerking: wanneer afzonderlijke ontwikkeling en testen zijn voltooid, worden codewijzigingen naar de belangrijkste productiepijplijn gepusht.
  • Governance: afgestemd op bedrijfs-CI/CD- en implementatiestandaarden.

Met Azure Databricks kunnen pijplijnen en hun bronbestanden gezamenlijk worden beheerd met behulp van Databricks Asset Bundles. Met bundels wordt de pijplijnconfiguratie beheerd door bronbeheer in de vorm van YAML-configuratiebestanden naast de Python- of SQL-bronbestanden van een pijplijn. Een bundel kan één of meerdere pijplijnen hebben, evenals andere brontypen, zoals jobs.

Op deze pagina ziet u hoe u een brongestuurde pijplijn instelt met behulp van Databricks Asset Bundles. Zie Wat zijn Databricks Asset Bundles?voor meer informatie over bundels.

Requirements

Als u een door bron beheerde pijplijn wilt maken, moet u het volgende al hebben:

Een nieuwe pijplijn maken in een bundel

Opmerking

Databricks raadt aan om een pijplijn te maken die vanaf het begin door de bron wordt beheerd. U kunt ook een bestaande pijplijn toevoegen aan een bundel die al door de bron wordt beheerd. Zie Migreer bestaande resources naar een bundel.

Ga als volgt te werk om een nieuwe, door bron beheerde pijplijn te maken:

  1. Ga in de werkruimte naar het pluspictogram.Nieuw>Pijplijnpictogram.ETL-pijplijn.

  2. Selecteer het pictogram van de Bestandskubus.Instellen als een project onder versiebeheer:

    Nieuwe, door bron beheerde pijplijn

  3. Klik op Nieuw project maken en selecteer vervolgens een Git-map waarin u de code en configuratie wilt plaatsen:

    Nieuw project

  4. Klik op Volgende.

  5. Voer het volgende in het dialoogvenster Een assetbundel maken in:

    • Bundelnaam: de naam van de bundel.
    • Initiële catalogus: de naam van de catalogus die het schema bevat dat moet worden gebruikt.
    • Gebruik een persoonlijk schema: laat dit selectievakje ingeschakeld als u bewerkingen wilt isoleren in een persoonlijk schema, zodat wanneer gebruikers in uw organisatie samenwerken aan hetzelfde project dat u elkaars wijzigingen niet overschrijft in dev.
    • Initiële taal: de initiële taal die moet worden gebruikt voor de voorbeeldpijplijnbestanden van het project, Python of SQL.

    Nieuwe bundel

  6. Klik op Maken en implementeren. Er wordt een bundel met een pijplijn gemaakt in de Git-map.

De pijplijnbundel verkennen

Verken vervolgens de pijplijnbundel die is gemaakt.

De bundel, die zich in de Git-map bevindt, bevat bundel systeembestanden en het databricks.yml bestand, waarmee variabelen, url's en machtigingen voor de doelwerkruimte worden gedefinieerd, en andere instellingen voor de bundel. De resources map van een bundel is de locatie waar definities voor resources, zoals pijplijnen, zijn opgenomen.

Bundel in een Git-map

Open de resources map en klik vervolgens op de knop Pijplijneditor om de brongestuurde pijplijn weer te geven:

Pijplijneditor openen

Bundel met pijplijnstructuur

De voorbeeldpijplijnbundel bevat de volgende bestanden:

  • Een voorbeeld van een verkenningsnotitieblok

  • Twee voorbeeldcodebestanden die transformaties uitvoeren op tabellen

  • Een voorbeeldcodebestand dat een hulpprogrammafunctie bevat

  • Een YAML-bestand voor taakconfiguratie waarmee de taak in de bundel wordt gedefinieerd waarmee de pijplijn wordt uitgevoerd

  • Een YAML-bestand voor pijplijnconfiguratie dat de pijplijn definieert

    Belangrijk

    U moet dit bestand bewerken om configuratiewijzigingen in de pijplijn permanent vast te leggen, inclusief wijzigingen die zijn aangebracht via de gebruikersinterface, anders worden wijzigingen in de gebruikersinterface overschreven wanneer de bundel opnieuw wordt geïmplementeerd. Als u bijvoorbeeld een andere standaardcatalogus voor de pijplijn wilt instellen, bewerkt u het catalog veld in dit configuratiebestand.

  • Een README-bestand met aanvullende informatie over de voorbeeldpijplijnbundel en instructies voor het uitvoeren van de pijplijn

Zie de pijplijnassetbrowser voor informatie over pijplijnbestanden.

Zie Auteursbundels in de werkruimte maken en implementeren en werkstromen uitvoeren vanuit de werkruimte voor meer informatie over het ontwerpen en implementeren van wijzigingen in de pijplijnbundel.

De pijplijn uitvoeren

U kunt afzonderlijke transformaties of de volledige door de bron beheerde pijplijn uitvoeren:

  • Als u één transformatie in de pijplijn wilt uitvoeren en bekijken, selecteert u het transformatiebestand in de browserstructuur van de werkruimte om het te openen in de bestandseditor. Klik bovenaan het bestand in de editor op de knop Run file om het bestand uit te voeren.
  • Als u alle transformaties in de pijplijn wilt uitvoeren, klikt u op de knop Pijplijn uitvoeren in de rechterbovenhoek van de Databricks-werkruimte.

Zie Pijplijncode uitvoeren voor meer informatie over het uitvoeren van pijplijnen.

De pijplijn bijwerken

U kunt artefacten in uw pijplijn bijwerken of aanvullende verkenningen en transformaties toevoegen, maar u wilt deze wijzigingen naar GitHub pushen. Klik op het fork-pictogram of het Git-pictogram dat is gekoppeld aan de pijplijnbundel, of klik op het kebab-menu voor de map en vervolgens op Git... om te selecteren welke wijzigingen u wilt pushen. Zie Doorvoeren en wijzigingen pushen naar de externe Git-opslagplaats.

Wijzigingen pushen naar Git

Wanneer u pijplijnconfiguratiebestanden bijwerkt of bestanden toevoegt aan of verwijdert uit de bundel, worden deze wijzigingen niet doorgegeven aan de doelwerkruimte totdat u de bundel expliciet implementeert. Zie Bundels implementeren en werkstromen uitvoeren vanuit de werkruimte.

Opmerking

Databricks raadt u aan de standaardinstelling voor door bron beheerde pijplijnen te behouden. De standaardinstelling is zo geconfigureerd dat u de YAML-configuratie van de pijplijnbundel niet hoeft te bewerken wanneer er extra bestanden worden toegevoegd via de gebruikersinterface.

Pijplijn bijwerken

Een bestaande pijplijn toevoegen aan een bundel

Als u een bestaande pijplijn wilt toevoegen aan een bundel, maakt u eerst een bundel in de werkruimte en voegt u vervolgens de YAML-definitie van de pijplijn toe aan de bundel, zoals wordt beschreven op de volgende pagina's:

Zie Bestaande resources migreren naar een bundel met behulp van de Databricks CLI voor informatie over het migreren van resources naar een bundel.

Aanvullende bronnen

Zie Lakeflow Spark-declaratieve pijplijnen voor aanvullende zelfstudies en referentiemateriaal voor pijplijnen.