Einführung in Arbeitsbereichsobjekte
Dieser Artikel bietet eine allgemeine Einführung in Azure Databricks-Arbeitsbereichsobjekte. Sie können Arbeitsbereichsobjekte im Arbeitsbereichsbrowser über Personas hinweg erstellen, anzeigen und organisieren.
Hinweis zum Benennen von Arbeitsbereichsressourcen
Der vollständige Name einer Arbeitsbereichsressource besteht aus dem Basisnamen und der Dateierweiterung. Beispielsweise kann die Dateierweiterung für ein Notebook je nach Sprache und Format des Notebooks .py
, .sql
, .scala
, .r
und .ipynb
sein.
Wenn Sie eine Notebook-Ressource erstellen, muss der Basisname und der vollständige Name (der mit der Dateierweiterung verkettete Basisname) innerhalb eines Arbeitsbereichsordners eindeutig sein. Wenn Sie eine Ressource benennen, fügt Databricks die Dateierweiterung hinzu und prüft, ob diese Kriterien erfüllt sind. Wenn der vollständige Name einer vorhandenen Datei im Ordner entspricht, ist der Name nicht zulässig, und Sie müssen einen neuen Namen für das Notebook auswählen. Wenn Sie beispielsweise versuchen, ein Python-Notebook (im Python-Quellformat) mit dem Namen test
im selben Ordner wie eine Python-Datei mit dem Namen test.py
zu erstellen, ist das nicht zulässig.
Cluster
Data Science- und Engineering-Cluster von Azure Databricks sowie Databricks Mosaic AI-Cluster bieten eine einheitliche Plattform für verschiedene Anwendungsfälle wie die Ausführung von ETL-Pipelines für die Produktion, Streaminganalysen, Ad-hoc-Analysen und maschinelles Lernen. Ein Cluster ist ein Typ von Azure Databricks-Computeressource. Andere Computeressourcentypen sind u. a. Azure Databricks-SQL-Warehouses.
Ausführliche Informationen zur Verwaltung und Verwendung von Clustern finden Sie unter Compute.
Notebooks
Ein Notizbuch ist eine webbasierte Oberfläche für Dokumente, die eine Reihe ausführbarer Zellen (Befehle) enthält, die auf Dateien und Tabellen, Visualisierungen und erzählenden Text angewendet werden. Die Befehle können nacheinander ausgeführt werden und verweisen dabei auf die Ausgaben eines oder mehrerer zuvor ausgeführter Befehle.
Notebooks sind ein Mechanismus zum Ausführen von Code in Azure Databricks. Der andere Mechanismus sind Aufträge.
Ausführliche Informationen zum Verwalten und Verwenden von Notebooks finden Sie unter Einführung in Databricks-Notebooks.
Aufträge
Aufträge sind ein Mechanismus zum Ausführen von Code in Azure Databricks. Der andere Mechanismus sind Notebooks.
Ausführliche Informationen zum Verwalten und Verwenden von Aufträgen finden Sie unter Planen und Orchestrieren von Workflows.
Bibliotheken
Eine Bibliothek macht Drittanbieter- oder lokal erstellten Code für Notebooks und Aufträge verfügbar, die in Ihren Clustern ausgeführt werden.
Ausführliche Informationen zum Verwalten und Verwenden von Bibliotheken finden Sie unter Bibliotheken.
Daten
Sie können Daten in ein verteiltes Dateisystem importieren, das in einen Azure Databricks-Arbeitsbereich eingebunden ist, und mit diesen Daten in Azure Databricks-Notebooks und -Clustern arbeiten. Sie können auch über eine Vielzahl von Apache Spark-Datenquellen auf Daten zugreifen.
Ausführliche Informationen zum Laden von Daten finden Sie unter Erfassen von Daten in ein Databricks Lakehouse.
Dateien
Wichtig
Dieses Feature befindet sich in der Public Preview.
In Databricks Runtime 11.3 LTS und höher können Sie beliebige Dateien im Databricks-Arbeitsbereich erstellen und verwenden. Dateien können einen beliebigen Dateityp aufweisen. Häufige Beispiele sind:
.py
-Dateien, die in benutzerdefinierten Modulen verwendet werden..md
-Dateien, z. BREADME.md
..csv
- oder andere kleine Datendateien..txt
-Dateien.- Protokolldateien.
Ausführliche Informationen zur Verwendung von Dateien finden Sie unter Arbeiten mit Dateien in Azure Databricks. Informationen zur Verwendung von Dateien zum Modularisieren ihres Codes während der Entwicklung mit Databricks-Notebooks finden Sie unter Freigeben von Code zwischen Databricks-Notebooks
Git-Ordner
Git-Ordner sind Azure Databricks-Ordner, deren Inhalt durch Synchronisierung mit einem Git-Remoterepository gemeinsam versioniert wird. Mithilfe von Databricks-Git-Ordnern können Sie Notebooks in Azure Databricks entwickeln und ein Git-Remoterepository für Zusammenarbeit und Versionskontrolle verwenden.
Ausführliche Informationen zur Verwendung von Repositorys finden Sie unter Git-Integration für Databricks-Git-Ordner.
Modelle
Modell bezieht sich auf ein in der MLflow-Modellregistrierung registriertes Modell. Die Modellregistrierung ist ein zentraler Modellspeicher, mit dem Sie den gesamten Lebenszyklus von MLflow-Modellen verwalten können. Sie bietet eine chronologische Datenherkunft für Modelle, Modellversionsverwaltung, Phasenübergänge sowie Anmerkungen und Beschreibungen zu Modellen und Modellversionen.
Ausführliche Informationen zum Verwalten und Verwenden von Modellen finden Sie unter Verwalten des Modelllebenszyklus im Unity-Katalog.
Experimente
Ein MLflow-Experiment ist die primäre Einheit für die Organisation und Zugriffssteuerung von MLflow-Trainingsausführungen für Machine Learning-Modelle. Alle MLflow-Ausführungen gehören zu einem Experiment. Mit jedem Experiment können Sie Ausführungen visualisieren, durchsuchen und vergleichen sowie Ausführungsartefakte oder Metadaten für die Analyse in anderen Tools herunterladen.
Ausführliche Informationen zum Verwalten und Verwenden von Experimenten finden Sie unter Organisieren von Trainingsausführungen mit MLflow-Experimenten.
Abfragen
Abfragen sind SQL-Anweisungen, die es Ihnen ermöglichen, mit Ihren Daten zu interagieren. Weitere Informationen finden Sie unter Zugreifen auf und Verwalten von gespeicherten Abfragen.
Dashboards
Bei Dashboards handelt es sich um eine Darstellung von Abfragevisualisierungen und -kommentaren. Weitere Informationen finden Sie unter Dashboards oder Legacy-Dashboards.
Alerts
Bei Warnungen handelt es sich um Benachrichtigungen, die darüber informieren, dass ein von einer Abfrage zurückgegebenes Feld einen Schwellenwert erreicht hat. Weitere Informationen finden Sie unter Was sind Databricks SQL-Warnungen?.
Verweise auf Arbeitsbereichsobjekte
In der Vergangenheit mussten Benutzer*innen das Pfadpräfix /Workspace
für einige Databricks-APIs (%sh
) einschließen, für andere (%run
, REST-API-Eingaben) jedoch nicht.
Benutzer*innen können Arbeitsbereichspfade mit dem Präfix /Workspace
überall verwenden. Alte Verweise auf Pfade ohne das Präfix /Workspace
werden umgeleitet und funktionieren weiterhin. Es wird empfohlen, alle Arbeitsbereichspfade mit dem Präfix /Workspace
zu versehen, um sie von Volume- und DBFS-Pfaden unterscheiden zu können.
Die Voraussetzung für ein konsistentes Verhalten in Bezug auf /Workspace
-Pfadpräfixe ist folgende: Auf der Stammebene des Arbeitsbereichs darf kein /Workspace
-Ordner vorhanden sein. Wenn Sie über einen /Workspace
-Ordner auf der Stammebene verfügen und diese UX-Verbesserung aktivieren möchten, löschen oder benennen Sie den von Ihnen erstellten /Workspace
-Ordner um, und wenden Sie sich an Ihr Azure Databricks-Kontoteam.
Freigeben von Datei-, Ordner- oder Notebook-URLs
In Ihrem Azure Databricks-Arbeitsbereich weisen URLs für Arbeitsbereichsdateien, Notebooks und Ordner folgende Formate auf:
Arbeitsbereichsdatei-URLs
https://<databricks-instance>/?o=<16-digit-workspace-ID>#files/<16-digit-object-ID>
Notebook-URLs
https://<databricks-instance>/?o=<16-digit-workspace-ID>#notebook/<16-digit-object-ID>/command/<16-digit-command-ID>
Ordner-URLs (Arbeitsbereich und Git)
https://<databricks-instance>/browse/folders/<16-digit-ID>?o=<16-digit-workspace-ID>
Diese Links können zu Fehlern führen, wenn ein Ordner, eine Datei oder ein Notebook im aktuellen Pfad mit einem Git-Pull-Befehl aktualisiert oder gelöscht und mit demselben Namen neu erstellt wird. Sie können jedoch einen Link basierend auf dem Arbeitsbereichspfad erstellen, um ihn mit anderen Databricks-Benutzern/-Benutzerinnen mit entsprechenden Zugriffsebenen zu teilen, indem Sie ihn in einen Link in diesem Format ändern:
https://<databricks-instance>/?o=<16-digit-workspace-ID>#workspace/<full-workspace-path-to-file-or-folder>
Links zu Ordnern, Notebooks und Dateien können freigegeben werden, indem alles in der URL hinter ?o=<16-digit-workspace-ID>
durch den Pfad der Datei, des Ordners oder des Notebooks ausgehend vom Arbeitsbereichsstamm ersetzt wird. Wenn Sie eine URL für einen Ordner freigeben, entfernen Sie auch /browse/folders/<16-digit-ID>
aus der ursprünglichen URL.
Um den Dateipfad abzurufen, öffnen Sie das Kontextmenü, indem Sie in Ihrem Arbeitsbereich mit der rechten Maustaste auf den Ordner, das Notebook oder die Datei klicken, den, das oder die Sie freigeben möchten, und wählen Sie URL/Pfad kopieren>Vollständiger Pfad aus. Fügen Sie #workspace
vor dem kopierten Dateipfad ein, und fügen Sie die resultierende Zeichenfolge hinter ?o=<16-digit-workspace-ID>
an, damit sie dem obigen URL-Format entspricht.
URL-Formatierungsbeispiel 1: Ordner-URLs
Um die URL des Arbeitsbereichsordners https://<databricks-instance>/browse/folders/1111111111111111?o=2222222222222222
freizugeben, entfernen Sie die Teilzeichenfolge browse/folders/1111111111111111
aus der URL. Fügen Sie #workspace
gefolgt vom Pfad dem Objekt des Ordners oder Arbeitsbereichs hinzu, den Sie freigeben möchten.
In diesem Fall führt der Arbeitsbereichspfad zum Ordner /Workspace/Users/user@example.com/team-git/notebooks
. Nachdem Sie den vollständigen Pfad aus Ihrem Arbeitsbereich kopiert haben, können Sie nun den freigabefähigen Link erstellen:
https://<databricks-instance>/?o=2222222222222222#workspace/Workspace/Users/user@example.com/team-git/notebooks
URL-Formatierungsbeispiel 2: Notebook-URLs
Um die Notebook-URL https://<databricks-instance>/?o=1111111111111111#notebook/2222222222222222/command/3333333333333333
freizugeben, entfernen Sie #notebook/2222222222222222/command/3333333333333333
. Fügen Sie #workspace
gefolgt vom Pfad dem Objekt des Ordners oder Arbeitsbereichs hinzu.
In diesem Fall führt der Arbeitsbereichspfad zum Notebook /Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook
. Nachdem Sie den vollständigen Pfad aus Ihrem Arbeitsbereich kopiert haben, können Sie nun den freigabefähigen Link erstellen:
https://<databricks-instance>/?o=1111111111111111#workspace/Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook
Damit verfügen Sie über eine stabile URL für einen Datei-, Ordner- oder ein Notebookpfad, die Sie freigegeben können. Weitere Informationen zu URLs und Bezeichnern finden Sie unter Abrufen von Bezeichnern für Arbeitsbereichsobjekte.