Share via


Bestandsassets beheren in Databricks Git-mappen

Databricks Git-mappen fungeren als Git-clients voor door Databricks beheerde klonen van git-bronopslagplaatsen, zodat u een subset van Git-bewerkingen kunt uitvoeren op hun inhoud vanuit uw werkruimte. Als onderdeel van deze Git-integratie worden bestanden die zijn opgeslagen in de externe opslagplaats, gezien als 'assets' op basis van hun type, met enkele beperkingen die specifiek zijn voor hun type. Notebookbestanden hebben met name verschillende eigenschappen op basis van hun type. Lees dit artikel voor meer informatie over het werken met assets, met name IPYNB-notebooks, in Git-mappen.

Ondersteunde assettypen

Alleen bepaalde Azure Databricks-assettypen worden ondersteund door Git-mappen. In dit geval betekent 'ondersteund' 'kan worden geserialiseerd, versiebeheerd en naar de Backing Git-opslagplaats worden gepusht'.

Momenteel zijn de ondersteunde assettypen:

Assettype DETAILS
Bestand Bestanden zijn geserialiseerde gegevens en kunnen alles bevatten, van bibliotheken tot binaire bestanden tot afbeeldingen. Lees wat zijn werkruimtebestanden voor meer informatie ?
Notebook Notebooks zijn specifiek de notebookbestandsindelingen die worden ondersteund door Databricks. Notebooks worden beschouwd als een afzonderlijk Azure Databricks-assettype van Files omdat ze niet worden geserialiseerd. Git-mappen bepalen een notebook op basis van de bestandsextensie (zoals .ipynb) of door bestandsextensies in combinatie met een speciale markering in bestandsinhoud (bijvoorbeeld een # Databricks notebook source opmerking aan het begin van .py bronbestanden).
Map Een map is een Azure Databricks-specifieke structuur die geserialiseerde informatie vertegenwoordigt over een logische groepering van bestanden in Git. Zoals verwacht, ervaart de gebruiker dit als een map bij het weergeven van een Azure Databricks Git-map of het openen ervan met de Azure Databricks CLI.

Azure Databricks-assettypen die momenteel niet worden ondersteund in Git-mappen, omvatten het volgende:

  • DBSQL-query's
  • Waarschuwingen
  • Dashboards (inclusief verouderde dashboards)

Wanneer u met uw assets in Git werkt, moet u rekening houden met de volgende beperkingen bij het benoemen van bestanden:

  • Een map kan geen notitieblok met dezelfde naam bevatten als een ander notitieblok, bestand of map in dezelfde Git-opslagplaats, zelfs als de bestandsextensie verschilt. (Voor notebooks met bronindeling is .py de extensie voor Python, .scala scala, .sql sql en .r R. Voor NOTEBOOKs met IPYNB-indeling is .ipynbde extensie .) U kunt bijvoorbeeld geen notebook met bronindeling gebruiken met de naam test1.py en een IPYNB-notebook met de naam test1 in dezelfde Git-map, omdat het Python-notebookbestand met de bronindeling (test1.py) wordt geserialiseerd als test1 een conflict.
  • Het teken / wordt niet ondersteund in bestandsnamen. U kunt bijvoorbeeld geen bestand hebben met de naam i/o.py in uw Git-map.

Als u Git-bewerkingen probeert uit te voeren op bestanden met namen met deze patronen, krijgt u het bericht 'Fout bij het ophalen van Git-status'. Als u deze fout onverwacht ontvangt, controleert u de bestandsnamen van de assets in uw Git-opslagplaats. Als u bestanden met namen met deze conflicterende patronen vindt, wijzigt u de naam ervan en probeert u de bewerking opnieuw.

Notitie

U kunt bestaande niet-ondersteunde assets verplaatsen naar een Git-map, maar u kunt geen wijzigingen doorvoeren in deze assets naar de opslagplaats. U kunt geen nieuwe niet-ondersteunde assets maken in een Git-map.

Notitieblokindelingen

Databricks beschouwt twee soorten hoogwaardige Databricks-specifieke notebookindelingen: 'source' en 'ipynb'. Wanneer een gebruiker een notebook doorvoert in de bronindeling, voert het Databricks-platform een plat bestand door met een taalachtervoegsel, zoals .py, .sql, .scalaof .r. Een notebook met de indeling bron bevat alleen broncode en bevat geen uitvoer zoals tabelweergaven en visualisaties die de resultaten zijn van het uitvoeren van het notebook.

De indeling ipynb heeft echter wel uitvoer die eraan is gekoppeld en die artefacten worden automatisch naar de Git-opslagplaats gepusht als back-up van de Git-map wanneer het .ipynb notebook wordt gepusht dat ze heeft gegenereerd. Als u uitvoer wilt doorvoeren samen met de code, gebruikt u de notebookindeling 'ipynb' en stelt u de configuratie in om een gebruiker toe te staan gegenereerde uitvoer door te voeren. Als gevolg hiervan biedt 'ipynb' ook ondersteuning voor een betere weergave-ervaring in Databricks voor notebooks die zijn gepusht naar externe Git-opslagplaatsen via Git-mappen.

Bronindeling notitieblok DETAILS
source Kan elk codebestand zijn met een standaardbestandsachtervoegsel dat de codetaal aangeeft, zoals .py, .r.scalaen .sql. 'bron'-notebooks worden behandeld als tekstbestanden en bevatten geen bijbehorende uitvoer wanneer ze worden teruggezet naar een Git-opslagplaats.
ipynb 'ipynb'-bestanden eindigen met .ipynb en kunnen, indien geconfigureerd, uitvoer (zoals visualisaties) van de Databricks Git-map naar de back-up van de Git-opslagplaats pushen. Een .ipnynb notebook kan code bevatten in elke taal die wordt ondersteund door Databricks-notebooks (ondanks het py deel)..ipynb

Als u uitvoer wilt terugsturen naar uw opslagplaats nadat u een notebook hebt uitgevoerd, gebruikt u een .ipynb (Jupyter)-notebook. Als u alleen het notebook wilt uitvoeren en beheren in Git, gebruikt u een bronindeling zoals .py.

Lees Databricks-notebooks exporteren en importeren voor meer informatie over ondersteunde notitieblokken.

Notitie

Wat zijn 'uitvoer'?

Uitvoer zijn de resultaten van het uitvoeren van een notebook op het Databricks-platform, inclusief tabelweergaven en visualisaties.

Hoe kan ik vertellen welke indeling een notitieblok gebruikt, met uitzondering van de bestandsextensie?

Boven aan een notebook dat wordt beheerd door Databricks, is er meestal een opmerking met één regel die de indeling aangeeft. Voor een .py bronnotitieblok ziet u bijvoorbeeld een regel die er als volgt uitziet:

# Databricks notebook source

Voor .ipynb bestanden wordt het bestandsachtervoegsel gebruikt om aan te geven dat het de indeling 'ipynb'-notebook is.

IPYNB-notebooks in Git-mappen in Databricks

Ondersteuning voor Jupyter-notebooks (.ipynb bestanden) is beschikbaar in Git-mappen. U kunt opslagplaatsen klonen met .ipynb notebooks, ermee werken in het Databricks-product en deze vervolgens doorvoeren en pushen als .ipynb notebooks. Metagegevens zoals het notebookdashboard blijven behouden. Beheer kan bepalen of uitvoer wel of niet kan worden doorgevoerd.

Doorvoeren .ipynb van notebookuitvoer toestaan

De beheerdersinstelling voor Git-mappen staat standaard niet toe dat .ipynb notebookuitvoer wordt doorgevoerd. Werkruimtebeheerders kunnen deze instelling wijzigen:

  1. Ga naar Beheer instellingen > werkruimte-instellingen.

  2. Selecteer Onder Git-mappen > Toestaan dat Git-mappen IPYNB-uitvoer exporteren de optie Toestaan: IPYNB-uitvoer kan worden ingeschakeld.

    Beheer console: Git-mappen toestaan IPYNB-uitvoer te exporteren.

Belangrijk

Wanneer uitvoer wordt opgenomen, blijven de visualisatie- en dashboardconfiguraties behouden met de .ipynb-bestandsindeling.

Doorvoeringen voor IPYNB-notebookuitvoerartefacten beheren

Wanneer u een .ipynb bestand doorvoert, maakt Databricks een configuratiebestand waarmee u kunt bepalen hoe u uitvoer doorvoert: .databricks/commit_outputs.

  1. Als u een .ipynb notebookbestand hebt maar geen configuratiebestand in uw opslagplaats, opent u de modale Git-status.

  2. Klik in het meldingsdialoogvenster op Commit_outputs bestand maken.

    Gebruikersinterface voor doorvoer van notitieblok: knop Commit_outputs bestand maken.

U kunt ook configuratiebestanden genereren vanuit het menu Bestand . Het menu Bestand bevat een besturingselement waarmee u het configuratiebestand automatisch kunt bijwerken om de opname of uitsluiting van uitvoer voor een specifiek notitieblok op te geven.

  1. Selecteer Uitvoer van doorvoernotitieblokken in het menu Bestand.

    Noteboook-editor: Notebooks doorvoeren voert de status en het besturingselement uit.

  2. Bevestig uw keuze in het dialoogvenster om notebookuitvoer door te voeren.

    Dialoogvenster Notebooks doorvoeren.

Een bronnotitieblok converteren naar IPYNB

U kunt een bestaand bronnotitieblok in een Git-map converteren naar een IPYNB-notebook via de Gebruikersinterface van Azure Databricks.

  1. Open een bronnotitieblok in uw werkruimte.

  2. Selecteer Bestand in het werkruimtemenu en selecteer vervolgens Notitieblokindeling wijzigen [bron]. Als het notebook al de IPYNB-indeling heeft, is [bron] [ipynb] in het menu-element.

    Het menu Werkruimtebestand, uitgevouwen, met de optie Notitieblokindeling wijzigen.

  3. Selecteer 'Jupyter notebook format (.ipynb)' in het modale dialoogvenster en klik op Wijzigen.

    Het modale dialoogvenster waarin u de INDELING van het IPYNB-notebook kunt selecteren.

U kunt ook het volgende doen:

  • .ipynb Nieuwe notitieblokken maken.
  • Diffs weergeven als codeverschil (codewijzigingen in cellen) of onbewerkte diff (codewijzigingen worden weergegeven als JSON-syntaxis, waaronder notebookuitvoer als metagegevens).

Lees Databricks-notebooks exporteren en importeren voor meer informatie over de soorten notebooks die worden ondersteund in Azure Databricks.