Freigeben über


Einführung in Arbeitsbereichsobjekte

Dieser Artikel bietet eine allgemeine Einführung in Azure Databricks-Arbeitsbereichsobjekte. Sie können Arbeitsbereichsobjekte im Arbeitsbereichsbrowser über Personas hinweg erstellen, anzeigen und organisieren.

Hinweis zum Benennen von Arbeitsbereichsressourcen

Der vollständige Name einer Arbeitsbereichsressource besteht aus dem Basisnamen und der Dateierweiterung. Beispielsweise kann die Dateierweiterung für ein Notebook je nach Sprache und Format des Notebooks .py, .sql, .scala, .r und .ipynb sein.

Wenn Sie eine Notebook-Ressource erstellen, muss der Basisname und der vollständige Name (der mit der Dateierweiterung verkettete Basisname) innerhalb eines Arbeitsbereichsordners eindeutig sein. Wenn Sie eine Ressource benennen, fügt Databricks die Dateierweiterung hinzu und prüft, ob diese Kriterien erfüllt sind. Wenn der vollständige Name einer vorhandenen Datei im Ordner entspricht, ist der Name nicht zulässig, und Sie müssen einen neuen Namen für das Notebook auswählen. Wenn Sie beispielsweise versuchen, ein Python-Notebook (im Python-Quellformat) mit dem Namen test im selben Ordner wie eine Python-Datei mit dem Namen test.py zu erstellen, ist das nicht zulässig.

Cluster

Data Science- und Engineering-Cluster von Azure Databricks sowie Databricks Mosaic AI-Cluster bieten eine einheitliche Plattform für verschiedene Anwendungsfälle wie die Ausführung von ETL-Pipelines für die Produktion, Streaminganalysen, Ad-hoc-Analysen und maschinelles Lernen. Ein Cluster ist ein Typ von Azure Databricks-Computeressource. Andere Computeressourcentypen sind u. a. Azure Databricks-SQL-Warehouses.

Ausführliche Informationen zur Verwaltung und Verwendung von Clustern finden Sie unter Compute.

Notebooks

Ein Notizbuch ist eine webbasierte Oberfläche für Dokumente, die eine Reihe ausführbarer Zellen (Befehle) enthält, die auf Dateien und Tabellen, Visualisierungen und erzählenden Text angewendet werden. Die Befehle können nacheinander ausgeführt werden und verweisen dabei auf die Ausgaben eines oder mehrerer zuvor ausgeführter Befehle.

Notebooks sind ein Mechanismus zum Ausführen von Code in Azure Databricks. Der andere Mechanismus sind Aufträge.

Ausführliche Informationen zum Verwalten und Verwenden von Notebooks finden Sie unter Einführung in Databricks-Notebooks.

Aufträge

Aufträge sind ein Mechanismus zum Ausführen von Code in Azure Databricks. Der andere Mechanismus sind Notebooks.

Ausführliche Informationen zum Verwalten und Verwenden von Aufträgen finden Sie unter Planen und Orchestrieren von Workflows.

Bibliotheken

Eine Bibliothek macht Drittanbieter- oder lokal erstellten Code für Notebooks und Aufträge verfügbar, die in Ihren Clustern ausgeführt werden.

Ausführliche Informationen zum Verwalten und Verwenden von Bibliotheken finden Sie unter Bibliotheken.

Daten

Sie können Daten in ein verteiltes Dateisystem importieren, das in einen Azure Databricks-Arbeitsbereich eingebunden ist, und mit diesen Daten in Azure Databricks-Notebooks und -Clustern arbeiten. Sie können auch über eine Vielzahl von Apache Spark-Datenquellen auf Daten zugreifen.

Ausführliche Informationen zum Laden von Daten finden Sie unter Erfassen von Daten in ein Databricks Lakehouse.

Dateien

Wichtig

Dieses Feature befindet sich in der Public Preview.

In Databricks Runtime 11.3 LTS und höher können Sie beliebige Dateien im Databricks-Arbeitsbereich erstellen und verwenden. Dateien können einen beliebigen Dateityp aufweisen. Häufige Beispiele sind:

  • .py-Dateien, die in benutzerdefinierten Modulen verwendet werden.
  • .md-Dateien, z. B README.md.
  • .csv- oder andere kleine Datendateien.
  • .txt-Dateien.
  • Protokolldateien.

Ausführliche Informationen zur Verwendung von Dateien finden Sie unter Arbeiten mit Dateien in Azure Databricks. Informationen zur Verwendung von Dateien zum Modularisieren ihres Codes während der Entwicklung mit Databricks-Notebooks finden Sie unter Freigeben von Code zwischen Databricks-Notebooks

Git-Ordner

Git-Ordner sind Azure Databricks-Ordner, deren Inhalt durch Synchronisierung mit einem Git-Remoterepository gemeinsam versioniert wird. Mithilfe von Databricks-Git-Ordnern können Sie Notebooks in Azure Databricks entwickeln und ein Git-Remoterepository für Zusammenarbeit und Versionskontrolle verwenden.

Ausführliche Informationen zur Verwendung von Repositorys finden Sie unter Git-Integration für Databricks-Git-Ordner.

Modelle

Modell bezieht sich auf ein in der MLflow-Modellregistrierung registriertes Modell. Die Modellregistrierung ist ein zentraler Modellspeicher, mit dem Sie den gesamten Lebenszyklus von MLflow-Modellen verwalten können. Sie bietet eine chronologische Datenherkunft für Modelle, Modellversionsverwaltung, Phasenübergänge sowie Anmerkungen und Beschreibungen zu Modellen und Modellversionen.

Ausführliche Informationen zum Verwalten und Verwenden von Modellen finden Sie unter Verwalten des Modelllebenszyklus im Unity-Katalog.

Experimente

Ein MLflow-Experiment ist die primäre Einheit für die Organisation und Zugriffssteuerung von MLflow-Trainingsausführungen für Machine Learning-Modelle. Alle MLflow-Ausführungen gehören zu einem Experiment. Mit jedem Experiment können Sie Ausführungen visualisieren, durchsuchen und vergleichen sowie Ausführungsartefakte oder Metadaten für die Analyse in anderen Tools herunterladen.

Ausführliche Informationen zum Verwalten und Verwenden von Experimenten finden Sie unter Organisieren von Trainingsausführungen mit MLflow-Experimenten.

Abfragen

Abfragen sind SQL-Anweisungen, die es Ihnen ermöglichen, mit Ihren Daten zu interagieren. Weitere Informationen finden Sie unter Zugreifen auf und Verwalten von gespeicherten Abfragen.

Dashboards

Bei Dashboards handelt es sich um eine Darstellung von Abfragevisualisierungen und -kommentaren. Weitere Informationen finden Sie unter Dashboards oder Legacy-Dashboards.

Alerts

Bei Warnungen handelt es sich um Benachrichtigungen, die darüber informieren, dass ein von einer Abfrage zurückgegebenes Feld einen Schwellenwert erreicht hat. Weitere Informationen finden Sie unter Was sind Databricks SQL-Warnungen?.

Verweise auf Arbeitsbereichsobjekte

In der Vergangenheit mussten Benutzer*innen das Pfadpräfix /Workspace für einige Databricks-APIs (%sh) einschließen, für andere (%run, REST-API-Eingaben) jedoch nicht.

Benutzer*innen können Arbeitsbereichspfade mit dem Präfix /Workspace überall verwenden. Alte Verweise auf Pfade ohne das Präfix /Workspace werden umgeleitet und funktionieren weiterhin. Es wird empfohlen, alle Arbeitsbereichspfade mit dem Präfix /Workspace zu versehen, um sie von Volume- und DBFS-Pfaden unterscheiden zu können.

Die Voraussetzung für ein konsistentes Verhalten in Bezug auf /Workspace-Pfadpräfixe ist folgende: Auf der Stammebene des Arbeitsbereichs darf kein /Workspace-Ordner vorhanden sein. Wenn Sie über einen /Workspace-Ordner auf der Stammebene verfügen und diese UX-Verbesserung aktivieren möchten, löschen oder benennen Sie den von Ihnen erstellten /Workspace-Ordner um, und wenden Sie sich an Ihr Azure Databricks-Kontoteam.

Freigeben von Datei-, Ordner- oder Notebook-URLs

In Ihrem Azure Databricks-Arbeitsbereich weisen URLs für Arbeitsbereichsdateien, Notebooks und Ordner folgende Formate auf:

Arbeitsbereichsdatei-URLs

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#files/<16-digit-object-ID>

Notebook-URLs

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#notebook/<16-digit-object-ID>/command/<16-digit-command-ID>

Ordner-URLs (Arbeitsbereich und Git)

  https://<databricks-instance>/browse/folders/<16-digit-ID>?o=<16-digit-workspace-ID>

Diese Links können zu Fehlern führen, wenn ein Ordner, eine Datei oder ein Notebook im aktuellen Pfad mit einem Git-Pull-Befehl aktualisiert oder gelöscht und mit demselben Namen neu erstellt wird. Sie können jedoch einen Link basierend auf dem Arbeitsbereichspfad erstellen, um ihn mit anderen Databricks-Benutzern/-Benutzerinnen mit entsprechenden Zugriffsebenen zu teilen, indem Sie ihn in einen Link in diesem Format ändern:

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#workspace/<full-workspace-path-to-file-or-folder>

Links zu Ordnern, Notebooks und Dateien können freigegeben werden, indem alles in der URL hinter ?o=<16-digit-workspace-ID> durch den Pfad der Datei, des Ordners oder des Notebooks ausgehend vom Arbeitsbereichsstamm ersetzt wird. Wenn Sie eine URL für einen Ordner freigeben, entfernen Sie auch /browse/folders/<16-digit-ID> aus der ursprünglichen URL.

Um den Dateipfad abzurufen, öffnen Sie das Kontextmenü, indem Sie in Ihrem Arbeitsbereich mit der rechten Maustaste auf den Ordner, das Notebook oder die Datei klicken, den, das oder die Sie freigeben möchten, und wählen Sie URL/Pfad kopieren>Vollständiger Pfad aus. Fügen Sie #workspace vor dem kopierten Dateipfad ein, und fügen Sie die resultierende Zeichenfolge hinter ?o=<16-digit-workspace-ID> an, damit sie dem obigen URL-Format entspricht.

Wählen Sie „URL/Pfad kopieren“ gefolgt von „Vollständiger Pfad“ im Kontextmenü eines Arbeitsbereichsordners aus.

URL-Formatierungsbeispiel 1: Ordner-URLs

Um die URL des Arbeitsbereichsordners https://<databricks-instance>/browse/folders/1111111111111111?o=2222222222222222 freizugeben, entfernen Sie die Teilzeichenfolge browse/folders/1111111111111111 aus der URL. Fügen Sie #workspace gefolgt vom Pfad dem Objekt des Ordners oder Arbeitsbereichs hinzu, den Sie freigeben möchten.

In diesem Fall führt der Arbeitsbereichspfad zum Ordner /Workspace/Users/user@example.com/team-git/notebooks. Nachdem Sie den vollständigen Pfad aus Ihrem Arbeitsbereich kopiert haben, können Sie nun den freigabefähigen Link erstellen:

  https://<databricks-instance>/?o=2222222222222222#workspace/Workspace/Users/user@example.com/team-git/notebooks

URL-Formatierungsbeispiel 2: Notebook-URLs

Um die Notebook-URL https://<databricks-instance>/?o=1111111111111111#notebook/2222222222222222/command/3333333333333333 freizugeben, entfernen Sie #notebook/2222222222222222/command/3333333333333333. Fügen Sie #workspace gefolgt vom Pfad dem Objekt des Ordners oder Arbeitsbereichs hinzu.

In diesem Fall führt der Arbeitsbereichspfad zum Notebook /Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook. Nachdem Sie den vollständigen Pfad aus Ihrem Arbeitsbereich kopiert haben, können Sie nun den freigabefähigen Link erstellen:

  https://<databricks-instance>/?o=1111111111111111#workspace/Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook

Damit verfügen Sie über eine stabile URL für einen Datei-, Ordner- oder ein Notebookpfad, die Sie freigegeben können. Weitere Informationen zu URLs und Bezeichnern finden Sie unter Abrufen von Bezeichnern für Arbeitsbereichsobjekte.