Freigeben über


Datenhandbücher

Mit der Databricks Data Intelligence Platform können Datenexperten in Ihrer gesamten Organisation mithilfe freigegebener, sicher geregelter Datenressourcen und -tools zusammenarbeiten und Datenlösungen produzieren.

In diesem Artikel wird versucht, den richtigen Ausgangspunkt für Ihren Anwendungsfall zu identifizieren.

Viele Aufgaben in Azure Databricks erfordern erhöhte Berechtigungen. Viele Organisationen beschränken diese erhöhten Berechtigungen auf eine kleine Anzahl von Benutzern oder Teams. In diesem Artikel werden Aktionen, die von den meisten Arbeitsbereichsbenutzern ausgeführt werden können, von den Aktionen, die auf privilegierte Benutzer beschränkt sind, unterschieden.

Arbeitsbereichsadministratoren können Ihnen helfen zu bestimmen, ob Sie Zugriff auf Ressourcen anfordern oder erhöhte Berechtigungen anfordern sollten.

Suchen und Zugreifen auf Daten

Dieser Abschnitt enthält eine kurze Übersicht über Aufgaben, mit denen Sie Datenressourcen ermitteln können, die Ihnen zur Verfügung stehen. Die meisten dieser Aufgaben gehen davon aus, dass ein Administrator Berechtigungen für Datenressourcen konfiguriert hat. Siehe Konfigurieren des Datenzugriffs.

Funktionsbereich Resources
Datenermittlung Eine detailliertere Übersicht über Datenermittlungsaufgaben finden Sie unter "Ermitteln von Daten".
Catalogs Kataloge sind das Objekt der obersten Ebene im Unity Catalog-Datengovernancemodell. Verwenden Sie den Katalog-Explorer , um nach Tabellen, Ansichten und anderen Datenressourcen zu suchen. Siehe Erkunden von Datenbankobjekten.
Verbundener Speicher Wenn Sie Zugriff auf Computeressourcen haben, können Sie integrierte Befehle verwenden, um Dateien im verbundenen Speicher zu durchsuchen. Weitere Informationen finden Sie unter "Speichern und Suchen nach Datendateien".
Hochladen von lokalen Dateien Standardmäßig verfügen Benutzer über berechtigungen zum Hochladen kleiner Datendateien von Ihrem lokalen Computer wie CSVs. Weitere Informationen finden Sie unter Erstellen oder Ändern einer Tabelle mithilfe des Dateiuploads.

Mit Daten arbeiten

Dieser Abschnitt enthält eine Übersicht über allgemeine Datenaufgaben und die Tools, die zum Ausführen dieser Aufgaben verwendet werden.

Für alle beschriebenen Aufgaben müssen Benutzer über die erforderlichen Berechtigungen für Tools, Computeressourcen, Daten und andere Arbeitsbereichsartefakte verfügen. Siehe Konfigurieren des Datenzugriffs und Konfigurieren von Arbeitsbereichen und Infrastruktur.

Funktionsbereich Resources
Datenbankobjekte Zusätzlich zu Tabellen und Ansichten verwendet Azure Databricks andere sicherungsfähige Datenbankobjekte wie Volumes, um Daten sicher zu steuern. Siehe Database-Objekte in Azure Databricks.
Datenberechtigungen Der Unity-Katalog steuert alle Lese- und Schreibvorgänge in aktivierten Arbeitsbereichen. Sie müssen über ausreichende Berechtigungen zum Abschließen dieser Vorgänge verfügen. Siehe Sicherungsobjekte im Unity-Katalog.
ETL Extrahieren, Transformieren und Laden -Workloads (ETL) gehören zu den am häufigsten verwendeten Anwendungen für Apache Spark und Azure Databricks, und die meisten der Plattform verfügen über Funktionen, die für ETL erstellt und optimiert wurden. Siehe Lernprogramm: Erstellen einer ETL-Pipeline mit Lakeflow Spark Declarative Pipelines.
Queries
Dashboards und Einblicke
  • MIT AI/BI-Dashboards können Sie Erkenntnisse auf einfache Weise in der Benutzeroberfläche extrahieren und visualisieren. Siehe Dashboards.
  • Genie Spaces verwenden Textaufforderungen, um Fragen zu beantworten und Erkenntnisse zu liefern, die von Ihren Daten informiert werden. Weitere Informationen finden Sie unter Was ist ein KI/BI-Genie-Bereich?.
Ingest
  • Lakeflow Connect erfasst Daten aus beliebten externen Systemen. Weitere Informationen finden Sie unter Verwaltete Connectors in LakeFlow Connect.
  • Auto Loader kann mit Lakeflow Spark Declarative Pipelines oder strukturierten Streamingaufträgen verwendet werden, um Daten aus dem Cloudobjektspeicher inkrementell aufzunehmen. Siehe Was ist Autoloader?.
  • Sie können Lakeflow Spark Declarative Pipelines oder Structured Streaming verwenden, um Daten aus Nachrichtenwarteschlangen einschließlich Kafka aufzunehmen. Siehe Abfragestreamingdaten.
Transformations Azure Databricks verwendet allgemeine Syntax und Tools für Transformationen, die von SQL-CTAS-Anweisungen zu Nahezu-Echtzeit-Streaminganwendungen komplex sind.
KI und Machine Learning Die Databricks Data Intelligence Platform bietet eine Reihe von Tools für Data Science, Maschinelles Lernen und KI-Anwendungen. Siehe KI und Machine Learning in Databricks.

Konfigurieren des Datenzugriffs

Die meisten Azure Databricks-Arbeitsbereiche basieren auf einem Arbeitsbereichsadministrator oder anderen Power-Benutzern, um Verbindungen mit externen Datenquellen zu konfigurieren und Berechtigungen für Datenressourcen basierend auf der Teammitgliedschaft, Region oder Rollen zu erzwingen. Dieser Abschnitt enthält eine Übersicht über allgemeine Aufgaben zum Konfigurieren und Steuern von Daten acess, die erhöhte Berechtigungen erfordern.

Note

Bevor Sie erhöhte Berechtigungen anfordern, um eine neue Verbindung mit einer Datenquelle zu konfigurieren, überprüfen Sie, ob Sie nur Berechtigungen für eine vorhandene Verbindung, einen Katalog oder eine Tabelle fehlen. Wenn keine Datenquelle verfügbar ist, wenden Sie sich an Ihre Organisation, um neue Daten zu Ihrem Arbeitsbereich hinzuzufügen.

Funktionsbereich Resources
Unity-Katalog
  • Unity Catalog unterstützt die datengovernance-Features, die in die Databricks Data Intelligence Platform integriert sind. Siehe Was ist Unity Catalog?.
  • Databricks-Kontoadministratoren, Arbeitsbereichsadministratoren und Metastoreadministratoren verfügen über Standardberechtigungen zum Verwalten von Unity-Katalogdatenberechtigungen für Benutzer. Weitere Informationen finden Sie unter Verwalten von Berechtigungen in Unity Catalog.
Verbindungen und Zugriff
Sharing
  • Delta Sharing ist der Kern der Sicheren Datenfreigabeplattform von Azure Databricks, die Databricks Marketplace und Clean Rooms umfasst. Sehen Sie sich die sicheren Freigaben von Daten und KI-Ressourcen für Benutzer in anderen Organisationen an.
  • Administratoren können neue Kataloge erstellen. Kataloge bieten eine allgemeine Abstraktion für die Datenisolation und können entweder an einzelne Arbeitsbereiche gebunden oder für alle Arbeitsbereiche in einem Konto freigegeben werden. Siehe Erstellen von Katalogen - AI/BI-Dashboards ermutigen Nutzer, ihre Anmeldeinformationen beim Veröffentlichen einzubetten, um sicherzustellen, dass die Zuschauer Einblicke in freigegebene Ergebnisse gewinnen können. Ausführliche Informationen finden Sie unter "Freigeben eines Dashboards".

Konfigurieren von Arbeitsbereichen und Infrastruktur

Dieser Abschnitt enthält eine Übersicht über allgemeine Aufgaben, die der Verwaltung von Arbeitsbereichsressourcen und -infrastruktur zugeordnet sind. Im Allgemeinen werden Arbeitsbereichsressourcen wie folgt definiert:

  • Computeressourcen: Computeressourcen umfassen interaktive Cluster, SQL-Lagerhäuser, Auftragscluster und Pipeline-Compute. Ein Benutzer oder eine Workload muss über Berechtigungen zum Herstellen einer Verbindung mit ausgeführten Computeressourcen verfügen, um die angegebene Logik zu verarbeiten.

    Note

    Benutzer, die keinen Zugriff auf die Verbindung zu computeressourcen haben, verfügen über sehr begrenzte Funktionen für Azure Databricks.

  • Plattformtools: Die Databricks Data Intelligence Platform bietet eine Reihe von Tools, die auf unterschiedliche Anwendungsfälle und Personas wie Notizbücher, Databricks SQL und Mosaik AI zugeschnitten sind. Administratoren können Einstellungen anpassen, die Standardverhalten, optionale Features und Benutzerzugriff für viele dieser Tools enthalten.

  • Artefakte: Artefakte umfassen Notizbücher, Abfragen, Dashboards, Dateien, Bibliotheken, Pipelines und Aufträge. Artefakte enthalten Code und Konfigurationen, die Benutzer erstellen, um die gewünschten Aktionen für ihre Daten auszuführen.

Important

Dem Benutzer, der eine Arbeitsbereichsressource erstellt, wird standardmäßig die Besitzerrolle zugewiesen. Für die meisten Ressourcen können Besitzer allen anderen Benutzern oder Gruppen im Arbeitsbereich Berechtigungen erteilen.

Um sicherzustellen, dass Daten und Code sicher sind, empfiehlt Databricks, die Besitzerrolle für alle Artefakte und Computeressourcen zu konfigurieren, die in einem Produktionsarbeitsbereich bereitgestellt werden.

Funktionsbereich Resources
Arbeitsbereichsberechtigungen Arbeitsbereichsberechtigungen umfassen grundlegenden Arbeitsbereichszugriff, Zugriff auf Databricks SQL und uneingeschränkte Clustererstellung. Weitere Informationen finden Sie unter Verwalten von Berechtigungen.
Zugriff auf Rechenressourcen und Richtlinien
  • Die meisten Kosten für Azure Databricks gelten für Computeressourcen. Die Steuerung, welche Benutzer die Möglichkeit haben, verschiedene Ressourcen zu konfigurieren, bereitzustellen, zu starten und zu verwenden, ist für die Kostenkontrolle von entscheidender Bedeutung. Siehe klassische Berechnungsübersicht.
  • Rechenrichtlinien arbeiten mit den Rechenzugriffsrechten des Arbeitsbereichs zusammen, um sicherzustellen, dass berechtigte Benutzer Rechenressourcen nur gemäß spezifizierten Konfigurationsrichtlinien bereitstellen. Siehe Erstellen und Verwalten von Computerrichtlinien.
  • Administratoren können Standardverhalten, Datenzugriffsrichtlinien und Benutzerzugriff auf SQL-Lagerhäuser konfigurieren. Siehe SQL Warehouse-Administratoreinstellungen.
Plattformtools Verwenden Sie die Administratorkonsole, um Verhaltensweisen zu konfigurieren, die vom Anpassen der Arbeitsbereichsdarstellung bis hin zum Aktivieren oder Deaktivieren von Produkten und Features reichen. Siehe "Arbeitsbereich verwalten".
Arbeitsbereich-ACLs Die Zugriffssteuerungslisten für Arbeitsbereiche (Access Control Lists, ACLs) steuern, wie Benutzer und Gruppen mit Arbeitsbereichsressourcen interagieren können, einschließlich Computeressourcen, Codeartefakten und Aufträgen. Siehe Zugriffssteuerungslisten.

Produktionsarbeitsauslastungen

Alle Azure Databricks-Produkte werden entwickelt, um den Weg von der Entwicklung zur Produktion und zur Skalierung und Stabilität zu beschleunigen. Dieser Abschnitt enthält eine kurze Einführung in die Suite von Tools, die für das Abrufen von Workloads in die Produktion empfohlen werden.

Funktionsbereich Resources
ETL-Pipelines Lakeflow Spark Declarative Pipelines bietet eine deklarative Syntax zum Erstellen und Produzieren von ETL-Pipelines. Siehe Lakeflow Spark Declarative Pipelines.
Orchestration Mit Jobs können Sie komplexe Workflows mit Abhängigkeiten, Triggern und Zeitsteuerungen definieren. Siehe Lakeflow Jobs.
CI/CD Databricks Asset Bundles erleichtern das Verwalten und Bereitstellen von Daten, Ressourcen und Artefakten über Arbeitsbereiche hinweg. Weitere Informationen finden Sie unter Was sind Databricks-Ressourcenpakete?.