Bestandsassets beheren in Databricks Git-mappen
Databricks Git-mappen fungeren als Git-clients voor door Databricks beheerde klonen van git-bronopslagplaatsen, zodat u een subset van Git-bewerkingen kunt uitvoeren op hun inhoud vanuit uw werkruimte. Als onderdeel van deze Git-integratie worden bestanden die zijn opgeslagen in de externe opslagplaats, gezien als 'assets' op basis van hun type, met enkele beperkingen die specifiek zijn voor hun type. Notebookbestanden hebben met name verschillende eigenschappen op basis van hun type. Lees dit artikel voor meer informatie over het werken met assets, met name IPYNB-notebooks, in Git-mappen.
Ondersteunde assettypen
Alleen bepaalde Azure Databricks-assettypen worden ondersteund door Git-mappen. In dit geval betekent 'ondersteund' 'kan worden geserialiseerd, versiebeheerd en naar de Backing Git-opslagplaats worden gepusht'.
Momenteel zijn de ondersteunde assettypen:
Assettype | DETAILS |
---|---|
Bestand | Bestanden zijn geserialiseerde gegevens en kunnen alles bevatten, van bibliotheken tot binaire bestanden tot afbeeldingen. Lees wat zijn werkruimtebestanden voor meer informatie ? |
Notebook | Notebooks zijn specifiek de notebookbestandsindelingen die worden ondersteund door Databricks. Notebooks worden beschouwd als een afzonderlijk Azure Databricks-assettype van Files omdat ze niet worden geserialiseerd. Git-mappen bepalen een notebook op basis van de bestandsextensie (zoals .ipynb ) of door bestandsextensies in combinatie met een speciale markering in bestandsinhoud (bijvoorbeeld een # Databricks notebook source opmerking aan het begin van .py bronbestanden). |
Map | Een map is een Azure Databricks-specifieke structuur die geserialiseerde informatie vertegenwoordigt over een logische groepering van bestanden in Git. Zoals verwacht, ervaart de gebruiker dit als een map bij het weergeven van een Azure Databricks Git-map of het openen ervan met de Azure Databricks CLI. |
Azure Databricks-assettypen die momenteel niet worden ondersteund in Git-mappen, omvatten het volgende:
- DBSQL-query's
- Waarschuwingen
- Dashboards (inclusief verouderde dashboards)
Wanneer u met uw assets in Git werkt, moet u rekening houden met de volgende beperkingen bij het benoemen van bestanden:
- Een map kan geen notitieblok met dezelfde naam bevatten als een ander notitieblok, bestand of map in dezelfde Git-opslagplaats, zelfs als de bestandsextensie verschilt. (Voor notebooks met bronindeling is
.py
de extensie voor Python,.scala
scala,.sql
sql en.r
R. Voor NOTEBOOKs met IPYNB-indeling is.ipynb
de extensie .) U kunt bijvoorbeeld geen notebook met bronindeling gebruiken met de naamtest1.py
en een IPYNB-notebook met de naamtest1
in dezelfde Git-map, omdat het Python-notebookbestand met de bronindeling (test1.py
) wordt geserialiseerd alstest1
een conflict. - Het teken
/
wordt niet ondersteund in bestandsnamen. U kunt bijvoorbeeld geen bestand hebben met de naami/o.py
in uw Git-map.
Als u Git-bewerkingen probeert uit te voeren op bestanden met namen met deze patronen, krijgt u het bericht 'Fout bij het ophalen van Git-status'. Als u deze fout onverwacht ontvangt, controleert u de bestandsnamen van de assets in uw Git-opslagplaats. Als u bestanden met namen met deze conflicterende patronen vindt, wijzigt u de naam ervan en probeert u de bewerking opnieuw.
Notitie
U kunt bestaande niet-ondersteunde assets verplaatsen naar een Git-map, maar u kunt geen wijzigingen doorvoeren in deze assets naar de opslagplaats. U kunt geen nieuwe niet-ondersteunde assets maken in een Git-map.
Notitieblokindelingen
Databricks beschouwt twee soorten hoogwaardige Databricks-specifieke notebookindelingen: 'source' en 'ipynb'. Wanneer een gebruiker een notebook doorvoert in de bronindeling, voert het Databricks-platform een plat bestand door met een taalachtervoegsel, zoals .py
, .sql
, .scala
of .r
. Een notebook met de indeling bron bevat alleen broncode en bevat geen uitvoer zoals tabelweergaven en visualisaties die de resultaten zijn van het uitvoeren van het notebook.
De indeling ipynb heeft echter wel uitvoer die eraan is gekoppeld en die artefacten worden automatisch naar de Git-opslagplaats gepusht als back-up van de Git-map wanneer het .ipynb
notebook wordt gepusht dat ze heeft gegenereerd. Als u uitvoer wilt doorvoeren samen met de code, gebruikt u de notebookindeling 'ipynb' en stelt u de configuratie in om een gebruiker toe te staan gegenereerde uitvoer door te voeren. Als gevolg hiervan biedt 'ipynb' ook ondersteuning voor een betere weergave-ervaring in Databricks voor notebooks die zijn gepusht naar externe Git-opslagplaatsen via Git-mappen.
Bronindeling notitieblok | DETAILS |
---|---|
source | Kan elk codebestand zijn met een standaardbestandsachtervoegsel dat de codetaal aangeeft, zoals .py , .r .scala en .sql . 'bron'-notebooks worden behandeld als tekstbestanden en bevatten geen bijbehorende uitvoer wanneer ze worden teruggezet naar een Git-opslagplaats. |
ipynb | 'ipynb'-bestanden eindigen met .ipynb en kunnen, indien geconfigureerd, uitvoer (zoals visualisaties) van de Databricks Git-map naar de back-up van de Git-opslagplaats pushen. Een .ipnynb notebook kan code bevatten in elke taal die wordt ondersteund door Databricks-notebooks (ondanks het py deel)..ipynb |
Als u uitvoer wilt terugsturen naar uw opslagplaats nadat u een notebook hebt uitgevoerd, gebruikt u een .ipynb
(Jupyter)-notebook. Als u alleen het notebook wilt uitvoeren en beheren in Git, gebruikt u een bronindeling zoals .py
.
Lees Databricks-notebooks exporteren en importeren voor meer informatie over ondersteunde notitieblokken.
Notitie
Wat zijn 'uitvoer'?
Uitvoer zijn de resultaten van het uitvoeren van een notebook op het Databricks-platform, inclusief tabelweergaven en visualisaties.
Hoe kan ik vertellen welke indeling een notitieblok gebruikt, met uitzondering van de bestandsextensie?
Boven aan een notebook dat wordt beheerd door Databricks, is er meestal een opmerking met één regel die de indeling aangeeft. Voor een .py
bronnotitieblok ziet u bijvoorbeeld een regel die er als volgt uitziet:
# Databricks notebook source
Voor .ipynb
bestanden wordt het bestandsachtervoegsel gebruikt om aan te geven dat het de indeling 'ipynb'-notebook is.
IPYNB-notebooks in Git-mappen in Databricks
Ondersteuning voor Jupyter-notebooks (.ipynb
bestanden) is beschikbaar in Git-mappen. U kunt opslagplaatsen klonen met .ipynb
notebooks, ermee werken in het Databricks-product en deze vervolgens doorvoeren en pushen als .ipynb
notebooks. Metagegevens zoals het notebookdashboard blijven behouden. Beheer kan bepalen of uitvoer wel of niet kan worden doorgevoerd.
Doorvoeren .ipynb
van notebookuitvoer toestaan
De beheerdersinstelling voor Git-mappen staat standaard niet toe dat .ipynb
notebookuitvoer wordt doorgevoerd. Werkruimtebeheerders kunnen deze instelling wijzigen:
Ga naar Beheer instellingen > werkruimte-instellingen.
Selecteer Onder Git-mappen > Toestaan dat Git-mappen IPYNB-uitvoer exporteren de optie Toestaan: IPYNB-uitvoer kan worden ingeschakeld.
Belangrijk
Wanneer uitvoer wordt opgenomen, blijven de visualisatie- en dashboardconfiguraties behouden met de .ipynb-bestandsindeling.
Doorvoeringen voor IPYNB-notebookuitvoerartefacten beheren
Wanneer u een .ipynb
bestand doorvoert, maakt Databricks een configuratiebestand waarmee u kunt bepalen hoe u uitvoer doorvoert: .databricks/commit_outputs
.
Als u een
.ipynb
notebookbestand hebt maar geen configuratiebestand in uw opslagplaats, opent u de modale Git-status.Klik in het meldingsdialoogvenster op Commit_outputs bestand maken.
U kunt ook configuratiebestanden genereren vanuit het menu Bestand . Het menu Bestand bevat een besturingselement waarmee u het configuratiebestand automatisch kunt bijwerken om de opname of uitsluiting van uitvoer voor een specifiek notitieblok op te geven.
Selecteer Uitvoer van doorvoernotitieblokken in het menu Bestand.
Bevestig uw keuze in het dialoogvenster om notebookuitvoer door te voeren.
Een bronnotitieblok converteren naar IPYNB
U kunt een bestaand bronnotitieblok in een Git-map converteren naar een IPYNB-notebook via de Gebruikersinterface van Azure Databricks.
Open een bronnotitieblok in uw werkruimte.
Selecteer Bestand in het werkruimtemenu en selecteer vervolgens Notitieblokindeling wijzigen [bron]. Als het notebook al de IPYNB-indeling heeft, is [bron] [ipynb] in het menu-element.
Selecteer 'Jupyter notebook format (.ipynb)' in het modale dialoogvenster en klik op Wijzigen.
U kunt ook het volgende doen:
.ipynb
Nieuwe notitieblokken maken.- Diffs weergeven als codeverschil (codewijzigingen in cellen) of onbewerkte diff (codewijzigingen worden weergegeven als JSON-syntaxis, waaronder notebookuitvoer als metagegevens).
Lees Databricks-notebooks exporteren en importeren voor meer informatie over de soorten notebooks die worden ondersteund in Azure Databricks.
Feedback
https://aka.ms/ContentUserFeedback.
Binnenkort beschikbaar: In de loop van 2024 zullen we GitHub-problemen geleidelijk uitfaseren als het feedbackmechanisme voor inhoud en deze vervangen door een nieuw feedbacksysteem. Zie voor meer informatie:Feedback verzenden en weergeven voor