Freigeben über


Glossar der technischen Terminologie von Azure Databricks

Ein

Zugriffssteuerungsliste (Access Control List, ACL)

Eine Liste der Berechtigungen, die an den Arbeitsbereich, den Cluster, den Auftrag, die Tabelle oder das Experiment angefügt sind. Eine ACL gibt an, welchen Benutzern oder Systemprozessen Zugriff auf die Objekte gewährt wird und welche Vorgänge für die Ressourcen zulässig sind. In einer typischen ACL umfasst jeder Eintrag ein Subjekt und einen Vorgang. Siehe Zugriffssteuerungslisten.

Zugriffsmodus

Ein Sicherheitsfeature, das bestimmt, wer eine Computeressource und die Daten verwenden kann, auf die sie während der Verwendung der Computeressource zugreifen können. Jede Computeressource in Azure Databricks verfügt über einen Zugriffsmodus. Weitere Informationen finden Sie unter Zugriffsmodi.

ACID-Transaktionen

Datenbanktransaktionen, die zuverlässig verarbeitet werden. ACID steht für „Atomarität, Konsistenz, Isolation, Dauerhaftigkeit (Atomicity, Consistency, Isolation, Durability)“. Siehe Bewährte Methoden für Zuverlässigkeit.

Agent-Ziegel

Agent Bricks bietet einen einfachen Ansatz zum Erstellen und Optimieren von domänenspezifischen, qualitativ hochwertigen KI-Agent-Systemen für gängige KI-Anwendungsfälle. Siehe Agent Bricks.

Künstliche Intelligenz (KI)

Die Fähigkeit eines Computers, intelligentes menschliches Verhalten zu imitieren. Siehe KI und Machine Learning in Databricks.

KI-Agent

Eine Anwendung mit komplexen Begründungsfunktionen, die es ihr ermöglichen, einen eigenen Plan zu erstellen und die Aufgabe gemäß den verfügbaren Tools auszuführen. Siehe Agent-Systementwurfsmuster.

KI-Funktionen

Die integrierten SQL-Funktionen, mit denen Sie KI direkt aus SQL in Azure Databricks auf Ihre Daten anwenden können. Siehe Anwenden von KI auf Daten mithilfe von Azure Databricks AI Functions.

KI-Playground

Ein Azure Databricks-Feature, mit dem Benutzer in Ihrem Azure Databricks-Arbeitsbereich mit generativen KI-Modellen interagieren sowie diese testen und vergleichen können. Siehe Chatten mit LLMs und prototypischen generativen KI-Apps mit KI-Playground.

Anomalieerkennung

Techniken und Tools, die verwendet werden, um ungewöhnliche Muster zu identifizieren, die nicht dem erwarteten Verhalten in Datasets entsprechen. Azure Databricks erleichtert die Anomalieerkennung durch seine Machine Learning- und Datenverarbeitungsfunktionen.

Apache Spark

Ein Open-Source-, verteiltes Computersystem, das für Big Data-Workloads verwendet wird. Siehe Apache Spark -Übersicht.

Künstliche neuronale Netze (Artificial Neural Network, ANN)

Ein Computersystem, das der Funktionsweise der Neuronen im menschlichen Gehirn nachempfunden ist.

Vermögenswert

Eine Entität in einem Azure Databricks-Arbeitsbereich (z. B. ein Objekt oder eine Datei).

Überwachungsprotokoll

Ein Datensatz von Benutzeraktivitäten und Aktionen innerhalb der Azure Databricks-Umgebung, entscheidend für Sicherheit, Compliance und betriebliche Überwachung. Siehe Referenz zu Diagnoseprotokollen.

Autoloader

Ein Datenerfassungsfeature, dass neue Datendateien inkrementell und effizient verarbeitet, sobald sie im Cloudspeicher eingehen, ohne zusätzliche Einrichtung. Siehe Was ist Autoloader?.

AutoML

Ein Azure Databricks-Feature, die den Prozess der Anwendung des maschinellen Lernens auf Ihre Datasets vereinfacht, indem automatisch der beste Algorithmus und die beste Hyperparameterkonfiguration für Sie ermittelt werden. Siehen Was ist AutoML?.

Automatisierte Datenherkunft

Der Prozess der automatischen Nachverfolgung und Visualisierung des Datenflusses von seinem Ursprung über verschiedene Transformationen bis zu seiner endgültigen Form, der für das Debuggen, die Compliance und das Verständnis von Datenabhängigkeiten unerlässlich ist. Azure Databricks erleichtert dies durch Integrationen mit Datenlinientools.

Automatische Skalierung, horizontal

Hinzufügen oder Entfernen von Executors basierend auf der Anzahl der Aufgaben, die auf die Planung warten. Dies geschieht dynamisch während eines einzelnen Updates.

Automatische Skalierung, vertikal

Erhöhen oder Verringern der Größe eines Computers (Treiber oder Executor) auf der Grundlage des Arbeitsspeicherdrucks (oder dessen Fehlens). Dies geschieht nur zu Beginn eines neuen Updates.

Azure Databricks

Eine Version von Databricks, die für die Microsoft Azure-Cloudplattform optimiert ist.

B

Batchverarbeitung

Eine Methode der Datenverarbeitung, mit der Sie explizite Anweisungen zum Verarbeiten einer festen Menge statischer, nicht veränderlicher Daten in einem einzelnen Vorgang definieren. Azure Databricks verwendet Spark SQL oder DataFrames. Siehe Standardanschlüsse in Lakeflow Connect.

Verzerrungserkennung und -minderung

Der Prozess der Identifizierung und Behandlung von Voreingenommenheiten in Daten- und Machine Learning-Modellen, um Fairness und Genauigkeit zu gewährleisten. Databricks bietet Tools und Integrationen, um Verzerrungen zu erkennen und zu mindern. Siehe Überwachung von Fairness und Trend für Klassifizierungsmodelle.

Business Intelligence (BI)

Die Strategien und Technologien, die von Unternehmen für die Datenanalyse und die Verwaltung von Unternehmensinformationen verwendet werden.

C

Katalog-Explorer

Ein Azure Databricks-Feature, die eine Benutzeroberfläche bietet, um Daten, Schemas (Datenbanken), Tabellen, Modelle, Funktionen und andere KI-Ressourcen zu erkunden und zu verwalten. Sie können sie verwenden, um Datenobjekte und Besitzer zu finden, Datenbeziehungen über Tabellen hinweg zu verstehen und Berechtigungen und Freigaben zu verwalten. Siehe Was ist der Katalog-Explorer?.

Untergeordnete Instanz

Bei einer untergeordneten Instanz handelt es sich um einen während des Schreibvorgangs kopierten Klon der ursprünglichen Datenbankinstanz. Sie kann aus dem aktuellen Zeitpunkt oder aus einem historischen Zeitpunkt innerhalb des Aufbewahrungsfensters erstellt werden. Siehe "Daten und Zeitreisen wiederherstellen".

CICD oder CI/CD

Die kombinierten Praktiken von Continuous Integration (CI) und Continuous Delivery (CD). Siehe CI/CD auf Azure Databricks.

Daten bereinigen

Daten, die einen Datenbereinigungsprozess durchlaufen haben, bei dem beschädigte oder ungenaue Datensätze aus einer Datensatzgruppe, einer Tabelle oder einer Datenbank erkannt und korrigiert (oder entfernt) werden und der sich auf die Identifizierung unvollständiger, falscher, ungenauer oder irrelevanter Teile der Daten bezieht und dann die schmutzigen oder groben Daten ersetzt, ändert oder löscht.

Reinräume

Ein Azure Databricks-Feature, das Delta Sharing und serverlose Compute verwendet, um eine sichere und datenschutzgeschützte Umgebung bereitzustellen, in der mehrere Parteien vertrauliche Unternehmensdaten freigeben und zusammenarbeiten können, ohne direkten Zugriff auf die Daten der anderen zu haben. Mit "Clean Rooms" können Benutzer aus anderen Databricks-Konten zusammenarbeiten, um Erkenntnisse über gemeinsame Projekte wie Werbekampagnen, Investitionsentscheidungen oder Forschung und Entwicklung zu gewinnen, ohne den Zugriff auf sensible, zugrunde liegende Daten zu teilen. Siehe Was sind Azure Databricks-Reinräume?.

Cloudplattformanbieter

Ein Unternehmen, das eine Cloud Computing-Plattform bereitstellt. Beispielsweise Microsoft Azure, Amazon Web Services (AWS) und Google Cloud Platform (GCP).

Cluster

Eine nicht serverlose Computeressource, die in Notizbüchern, Aufträgen und Lakeflow Spark Declarative Pipelines verwendet wird. Der Begriff Compute hat den Begriff Cluster in der gesamten Azure Databricks-Benutzeroberfläche ersetzt. Cluster wird aber weiterhin in der Cluster-API und in Metadaten verwendet.

Compute

Bezieht sich auf Computeressourcen, bei denen es sich um Infrastrukturelemente handelt (Hardware oder Software), die durch das Empfangen, Analysieren und Speichern von Daten das Lösen von Problemen und die Entwicklung von Lösungen ermöglichen. Berechnen.

Continuous Pipeline

Eine Pipeline, die alle Tabellen kontinuierlich aktualisiert, wenn neue Daten in die Eingabe gelangen, ohne zu stoppen. Siehe Ausgelöste vs. Continuous Pipeline-Modus.

D

gerichteter azyklischer Graph (DAG)

Eine Methode zum Darstellen der Abhängigkeiten zwischen Vorgängen in einem Workflow oder einer Pipeline. In einem DAG-Verarbeitungsmodell werden Vorgänge als Knoten in einem gerichteten azyklischen Graph dargestellt, wobei die Ränder die Abhängigkeiten zwischen Vorgängen darstellen.

Datenkatalog

Ein Metadatenverwaltungstool zum Verwalten von Datenquellen, das Informationen zur Struktur, zum Speicherort und zur Verwendung der Daten bereitstellt. Azure Databricks kann in externe Datenkataloge für die erweiterte Metadatenverwaltung integriert werden.

Datenverwaltung

Die Praxis der Verwaltung der Verfügbarkeit, Integrität, Sicherheit und Nutzbarkeit von Daten, einschließlich Richtlinien, Verfahren und Technologien zur Sicherstellung der Datenqualität und -compliance.

Datenerfassung

Der Prozess des Importierens, Übertragens, Ladens und Verarbeitens von Daten aus verschiedenen Quellen in Azure Databricks zur Speicherung, Analyse und Verarbeitung.

Data Lake

Ein großes Speicher-Repository, das eine große Menge an Rohdaten in seinem systemeigenen Format enthält, bis sie benötigt werden.

Data Lakehouse

Ein Datenverwaltungssystem, das die Vorteile von Data Lakes und Data Warehouses kombiniert. Ein Data Lakehouse bietet skalierbare Speicher- und Verarbeitungskapazität für moderne Organisationen, die ein isoliertes System für die Verarbeitung verschiedener Workloads vermeiden möchten, z. B. Machine Learning (ML) und Business Intelligence (BI). Ein Data Lakehouse kann dazu beitragen, eine einzige Wahrheitsquelle zu schaffen, redundante Kosten zu beseitigen und die Aktualität der Daten sicherzustellen. Siehe Was ist ein Data Lakehouse?.

Datenprofilerstellung

Überwacht die statistischen Eigenschaften und die Qualität der Daten in allen Tabellen in Ihrem Konto. Sie können das Feature auch verwenden, um die Leistung von Machine Learning-Modellen und Modellbereitstellungsendpunkten nachzuverfolgen, indem Sie Rückschlusstabellen überwachen, die Modellausgaben und Vorhersagen enthalten. Siehe Datenprofilerstellung.

Datenpipeline

Eine Reihe von Phasen, in denen Daten generiert, gesammelt, verarbeitet und in ein Ziel verschoben werden. Databricks erleichtert die Erstellung und Verwaltung komplexer Datenpipelines für die Batch- und Echtzeitdatenverarbeitung.

Datenschutz

Die Praxis des Schutzes personenbezogener Daten vor unbefugtem Zugriff, unbefugter Verwendung, Offenlegung oder Diebstahl. Azure Databricks legt besonderen Wert auf stabile Datenschutz- und Sicherheitsfunktionen, einschließlich End-to-End-Verschlüsselung, rollenbasierter Zugriffssteuerung und Einhaltung wichtiger Datenschutzbestimmungen, um vertrauliche Informationen zu schützen und Datengovernance sicherzustellen.

Datenvisualisierung

Ein Datenverwaltungsansatz, mit dem eine Anwendung Daten abrufen und bearbeiten kann, ohne dass technische Details zu den Daten erforderlich sind, z. B. wie sie formatiert oder wo sie physisch gespeichert sind. Azure Databricks kann als Teil einer Datenvirtualisierungsebene dienen, indem es nahtlosen Zugriff auf und die Analyse von Daten über verschiedene Quellen hinweg bietet.

Datenhaltung

Bezieht sich auf das Sammeln und Speichern von Daten aus mehreren Quellen, sodass schnell auf Geschäftserkenntnisse und Berichte zugegriffen werden kann. Die Lakehouse-Architektur und Databricks SQL stellen Data Warehousing-Cloudfunktionen in Ihren Data Lakes zur Verfügung. Siehe Data Warehouse-Architektur.

Datenbankkatalog

Eine Unity-Katalog-Katalogentität, die eine Postgres-Datenbank in einer Instanz darstellt. Dies ähnelt konzeptuell einem fremden Katalog im Unity-Katalog. Siehe Registrieren Ihrer Datenbank im Unity-Katalog.

Datenbankinstanz

Eine Datenbankinstanz verwaltet Speicher- und Computeressourcen und stellt die Endpunkte bereit, mit denen Benutzer eine Verbindung herstellen. Sehen Sie sich an, was eine Datenbankinstanz ist?.

Datenbausteine

Eine einheitliche, offene Analyseplattform zum Erstellen, Bereitstellung, Teilen und Verwalten von Daten, Analysen und KI-Lösungen der Unternehmensklasse in großem Maßstab. Die Databricks Data Intelligence Platform integriert sich mit dem Cloudspeicher und der Sicherheit in Ihrem Cloud-Konto und übernimmt in Ihrem Auftrag die Verwaltung und Bereitstellung der Cloud-Infrastruktur. Siehe Was ist Azure Databricks?.

Databricks AI/BI

Ein Business Intelligence-Produkt, das das Verständnis der Semantik Ihrer Daten bereitstellt und die Self-Service-Datenanalyse ermöglicht. AI/BI basiert auf einem zusammengesetzten KI-System, das Erkenntnisse aus dem gesamten Lebenszyklus Ihrer Daten auf der Databricks-Plattform gewinnt, einschließlich ETL-Pipelines, Datenherkunft und anderer Abfragen. Siehe Databricks AI/BI.

KI-Funktionen von Databricks

Die Daten-Intelligenz-Engine, die die Databricks-Plattform antreibt. Es ist ein zusammengesetztes KI-System, das die Verwendung von KI-Modellen, Abruf-, Bewertungs- und Personalisierungssystemen kombiniert, um die Semantik der Daten und Nutzungsmuster Ihrer Organisation zu verstehen. Siehe Databricks AI-Hilfsfunktionen.

Databricks-Ressourcenpakete

Ein Tool, das die Einführung von Bewährten Methoden im Software-Engineering erleichtert, einschließlich Versionskontrolle, Code-Review, Testen und kontinuierliche Integration und Bereitstellung (CI/CD) für Ihre Daten- und KI-Projekte. Pakete ermöglichen es, Azure Databricks-Ressourcen wie Aufträge, Pipelines und Notebooks als Quelldateien zu beschreiben. Siehe Was sind Databricks-Ressourcenpakete?.

Databricks-Assistent

Ein KI-basierter Begleitprogrammierer und Support-Agent, der Sie effizienter macht, während Sie Notebooks, Abfragen, Dashboards und Dateien erstellen. Der Assistent generiert, optimiert, vervollständigt, erläutert und korrigiert Code und Abfragen, sodass Sie Fragen schnell beantworten können. Siehe Was ist der Databricks-Assistent?.

Databricks-Befehlszeilenschnittstelle

Eine Befehlszeilenschnittstelle für Azure Databricks, mit der Benutzer Databricks-Arbeitsbereiche verwalten und automatisieren und Aufträge, Notebooks und Bibliotheken bereitstellen können. Siehe Was ist die Databricks-Befehlszeilenschnittstelle?.

Databricks Connect

Eine Clientbibliothek, mit der Entwickler ihre bevorzugten IDEs, Notebooks und andere Tools mit Azure Databricks verbinden und Spark-Code remote ausführen können. Siehe Was ist Databricks Connect?.

Databricks-Containerdienste

Ein Azure Databricks-Feature, mit dem Sie beim Erstellen einer Compute ein Docker-Image angeben können. Siehe Anpassen von Containern mit dem Databricks-Containerdienst.

Databricks-Marketplace

Ein offenes Forum für den Austausch von Datenprodukten. Anbieter müssen über ein Azure Databricks-Konto verfügen, aber jeder kann Empfänger sein. Marketplace-Ressourcen umfassen Datasets, Azure Databricks-Notebooks, Azure Databricks Solution Accelerators und Machine Learning-Modelle (KI). Datasets werden in der Regel als Kataloge tabellarischer Daten verfügbar gemacht. Es werden aber auch nicht tabellarische Daten in Form von Azure Databricks-Volumes unterstützt. Siehe Was ist der Databricks-Marketplace?.

Databricks Runtime

Eine für Big Data-Analysen optimierte Runtime. Databricks bietet auch Databricks Runtime für Machine Learning an. Diese ist für Machine Learning-Workloads optimiert. Weitere Informationen finden Sie unter Versionshinweise, Versionen und Kompatibilität von Databricks Runtime.

Databricks SQL (DBSQL)

Eine Sammlung von Diensten, die Data Warehouse-Funktionen und Leistung für Ihre vorhandenen Data Lakes bereitstellen. Databricks SQL unterstützt offene Formate und standard ANSI SQL. Mit einem in die Plattform integrierten SQL-Editor und Dashboardtools können Teammitglieder direkt im Arbeitsbereich mit anderen Azure Databricks-Benutzer zusammenarbeiten. Siehe Data Warehouse auf Azure Databricks.

DBUs

Eine Databricks-Einheit (Databricks Unit, DBU) ist eine normalisierte Einheit der Rechenleistung auf der Databricks Lakehouse Platform, die für Messungs- und Preiszwecke verwendet wird. Die Anzahl der DBUs, die eine Workload verbraucht, wird durch Verarbeitungsmetriken gesteuert, welche die verwendeten Computeressourcen und die Menge der verarbeiteten Daten umfassen können. Siehe Azure Databricks-Komponenten.

DataFrame

Eine Datenstruktur, die Daten in einer zweidimensionalen Tabelle mit Zeilen und Spalten organisiert, ähnlich wie eine Kalkulationstabelle. DataFrames sind eine der gängigsten Datenstrukturen, die in modernen Datenanalysen verwendet werden, da sie eine flexible und intuitive Möglichkeit zum Speichern und Arbeiten mit Daten sind. Siehe Tutorial: Laden und Transformieren von Daten mithilfe von Apache Spark DataFrames.

Dataset

Eine strukturierte Sammlung von Daten, die für die Analyse oder Verarbeitung organisiert und gespeichert wurden. Die Daten in einem Dataset beziehen sich in der Regel auf irgendeine Weise aufeinander und stammen aus einer einzigen Quelle oder sind für ein einzelnes Projekt vorgesehen.

Delta Lake

Eine Open Source-Speicherebene, die in Data Lakes für Zuverlässigkeit sorgt. Delta Lake bietet ACID-Transaktionen, skalierbare Metadatenverarbeitung sowie die Vereinheitlichung von Streaming und Batchdatenverarbeitung. Siehe Was ist Delta Lake? in Azure Databricks.

Pipelines

Ein deklaratives Framework für die Erstellung zuverlässiger, verwaltbarer und testbarer Datenverarbeitungspipelines. Sie definieren die Transformationen, die für Ihre Daten ausgeführt werden sollen, und Lakeflow Spark Declarative Pipelines verwaltet die Aufgaben-Orchestrierung, Clusterverwaltung, Überwachung, Datenqualität und Fehlerbehandlung. Siehe Lakeflow Spark Declarative Pipelines.

Pipelines-Datasets

Streamingtabellen, materialisierte Sichten und Ansichten, die als Ergebnis deklarativer Abfragen verwaltet werden.

Delta-Freigabe

Ermöglicht ihnen das Freigeben von Daten und KI-Ressourcen in Azure Databricks für Benutzer außerhalb Ihrer Organisation, unabhängig davon, ob diese Benutzer Azure Databricks verwenden oder nicht. Die Software ist auch als Open-Source-Projekt für die Freigabe tabellarischer Daten verfügbar. Die Nutzung in Azure Databricks bietet zusätzlich die Möglichkeit, nicht tabellarische, unstrukturierte Daten (Datenvolumen), KI-Modelle, Ansichten, gefilterte Daten und Notebooks zu teilen. Siehe Was ist Delta Sharing?.

Delta-Tabellen

Das Standarddatentabellenformat in Azure Databricks und eine Funktion des Open Source-Datenframeworks Delta Lake. Delta-Tabellen werden in der Regel für Data Lakes verwendet, bei denen Daten über Streaming oder in großen Batches erfasst werden. Siehe Azure Databricks-Tabellen.

E

ETL (Extrahieren, Transformieren und Laden)

Ein moderner Ansatz für die Datenintegration, der Daten aus Quellen extrahiert, in das Zielsystem lädt und anschließend im Zielsystem transformiert. Siehe Lernprogramm: Erstellen einer ETL-Pipeline mit Lakeflow Spark Declarative Pipelines.

F

Featurespeicher

Ein zentrales Repository zum Speichern, Verwalten und Bereitstellen von Features für Machine Learning-Modelle. Siehe Databricks Feature Store.

Fluss

Ein Flow ist ein Prozess in Lakeflow Spark Declarative Pipelines, der Daten liest, transformiert und in ein Ziel schreibt.

Grundlagenmodelle

Große ML-Modelle, die vorab trainiert werden, um sie für spezifischere Aufgaben im Bereich Sprachverständnis und -generierung zu optimieren. Siehe Databricks Foundation Model-APIs.

G

Generative KI

Eine Art künstlicher Intelligenz, die sich auf die Fähigkeit von Computern konzentriert, Modelle zum Erstellen von Inhalten wie Bildern, Text, Code und synthetischen Daten zu verwenden. Generative KI-Anwendungen basieren auf generativen KI-Modellen: großen Sprachmodellen (LLMs) und Foundation-Modellen. Siehe KI und Machine Learning in Databricks.

J

Auftrag

Die primäre Einheit für die Planung und Orchestrierung von Produktionsworkloads in Azure Databricks. Ein Auftrag enthält mindestens einen Auftrag. Siehe Lakeflow Jobs.

L

Lakeflow Connect

Bietet integrierte Connectors zum Erfassen von Daten aus Unternehmensanwendungen und Datenbanken. Die resultierende Aufnahmepipeline wird vom Unity-Katalog gesteuert und durch serverlose Rechenkapazität sowie Lakeflow Spark Declarative Pipelines unterstützt. Siehe Managed Connectors in Lakeflow Connect.

Lakehouse Federation

Die Abfrageverbundplattform für Azure Databricks. Der Begriff „Abfrageverbund“ beschreibt eine Sammlung von Funktionen, mit deren Hilfe Benutzer und Systeme Abfragen für mehrere isolierte Datenquellen ausführen können, ohne alle Daten in ein einheitliches System migrieren zu müssen. Azure Databricks verwendet zum Verwalten des Abfrageverbunds Unity Catalog. Siehe Was ist Lakehouse Federation?.

Lakebase

Azure Databricks Lakebase ist eine OLTP-Datenbank, die in Ihr Lakehouse integriert ist. Eine OLTP-Datenbank (Online Transaction Processing) ist eine spezielle Art von Datenbanksystem, mit der hohe Mengen von Transaktionsdaten in Echtzeit effizient verarbeitet werden können. Lakebase ermöglicht es Ihnen, eine OLTP-Datenbank auf Azure Databricks zu erstellen und OLTP-Workloads in Ihr Lakehouse zu integrieren.

Siehe OLTP-Datenbanken.

Large Language Model (LLM)

Ein Modell zur Verarbeitung natürlicher Sprache, das für Aufgaben wie das Beantworten offener Fragen, Chats, Inhaltszusammenfassung, Ausführung nahezu beliebiger Anweisungen, Übersetzungen und Inhalts- und Codegenerierung entwickelt wurde. LLMs werden von umfangreichen Datensätzen mit erweiterten Algorithmen für maschinelles Lernen trainiert, um die Muster und Strukturen der menschlichen Sprache zu erlernen. Siehe Large Language Models (LLMs) in Databricks.

Bibliothek

Ein Paket mit Code, das für das Notebook oder den Auftrag verfügbar ist, das bzw. der in Ihrem Cluster ausgeführt wird. Databricks-Runtimes enthalten zahlreiche Bibliotheken, und Sie können auch eigene Bibliotheken hochladen. Siehe Installieren von Bibliotheken.

M

Materialisierte Sicht

Eine Ansicht, die vorkompiliert und gespeichert wurde, damit sie mit geringerer Latenz oder wiederholt ohne redundante Berechnung abgefragt werden kann. Siehe Materialisierte Ansichten.

Medallion-Architektur

Ein Datenmodellmuster, das verwendet wird, um Daten in einem Lakehouse logisch zu organisieren, mit dem Ziel, die Struktur und Qualität der Daten schrittweise und fortlaufend zu verbessern, wenn sie durch jede Ebene der Architektur fließen (von Bronze- zu Silber- zu Gold-Schichttabellen). Was ist die Medallion Lakehouse-Architektur?.

Metastore

Die Komponente, in der alle Strukturinformationen der verschiedenen Tabellen und Partitionen im Data Warehouse gespeichert werden. Hierzu zählen unter anderem Spalten- und Spaltentypinformationen, die zum Lesen und Schreiben von Daten erforderlichen Serialisierer und Deserialisierer sowie die entsprechenden Dateien, in denen die Daten gespeichert sind. Siehe Metastore.

MLflow

Eine Open-Source-Plattform zum Verwalten des End-to-End Machine Learning-Lebenszyklus, einschließlich Experimentieren, Reproduzierbarkeit und Bereitstellung. MLflow in Azure Databricks ist ein vollständig verwalteter Dienst mit zusätzlichen Funktionen für Unternehmenskunden und bietet eine skalierbare und sichere verwaltete Bereitstellung von MLflow. Siehe MLflow für den ML-Modelllebenszyklus.

Modelltraining

Der Prozess des Trainierens von Machine Learning- und Deep Learning-Modellen in Azure Databricks mit vielen beliebten Open-Source-Bibliotheken. Siehe Trainieren von KI- und ML-Modellen.

Mosaik-KI

Das Feature, das einheitliche Tools zum Erstellen, Bereitstellen, Bewerten und Steuern von KI- und ML-Lösungen bietet – vom Erstellen von Predictive ML-Modellen bis hin zu den neuesten generativen KI-Apps. Siehe KI und Machine Learning in Databricks.

Mosaik KI-Modell-Dienste

Die einheitliche Schnittstelle zur Bereitstellung, Steuerung und Abfrage von KI-Modellen für Echtzeit- und Batch-Inference. Siehe Modelle bereitstellen mithilfe von Mosaic AI Model Serving.

Training von Mosaic AI-Modellen

Das Feature, mit dem Sie Ihre eigenen Daten verwenden können, um ein Basismodell anzupassen und seine Leistung für Ihre spezifische Anwendung zu optimieren. Durch die vollständige Parameteroptimierung oder das fortlaufende Training eines Basismodells können Sie Ihr eigenes Modell mit deutlich weniger Daten, Zeit und Rechenressourcen trainieren, als ein Modell von Grund auf neu zu trainieren. Siehe Feinabstimmung von Foundation-Modellen.

Mosaic AI-Vektorsuche

Ein Vektorsuchindex, der in die Databricks Data Intelligence Platform integriert ist und in seine Governance- und Produktivitätstools integriert ist. Siehe Mosaic AI-Vektorsuche.

N

Notebook

Eine interaktive Webschnittstelle, die von Datenwissenschaftlern und Ingenieuren verwendet wird, um Code in mehreren Sprachen (z. B. Python, Scala, SQL) im selben Dokument zu schreiben und auszuführen. Siehe Databricks-Notizbücher.

O

OAuth

OAuth ist ein offener Standard für die Zugriffsdelegierung, der häufig als Möglichkeit für Internetbenutzer verwendet wird, Websites oder Anwendungen Zugriff auf ihre Informationen auf anderen Websites zu gewähren, aber ohne ihnen die Kennwörter zu geben. Siehe Autorisieren des Zugriffs auf Azure Databricks-Ressourcen.

P

Partner Connect

Ein Programm von Databricks bietet Integrationen, die von unabhängigen Softwareherstellern verwaltet werden, um eine Verbindung mit den meisten Unternehmensdatensystemen herstellen zu können. Siehe Was ist Databricks Partner Connect?.

Persönliches Zugriffstoken (PAT)

Eine Zeichenfolge, die zur Authentifizierung eines Benutzers beim Zugriff auf ein Computersystem anstelle eines Kennworts verwendet wird. Siehe Autorisieren des Zugriffs auf Azure Databricks-Ressourcen.

Photon

Ein leistungsstarkes Databricks-natives vektorisiertes Abfragemodul, das Ihre SQL-Workloads und DataFrame-API-Aufrufe schneller ausführt, um Ihre Gesamtkosten pro Workload zu senken. Photon ist mit Apache Spark-APIs kompatibel, sodass es mit Ihrem vorhandenen Code funktioniert. Siehe Was ist Photon?.

Pipeline

Ein DAG von Tabellen, Ansichten, materialisierten Sichten, Flüssen und Senken, die in einer Abhängigkeitsreihenfolge aktualisiert werden, die vom System bestimmt wird.

R

Abfragengestützte Generierung (RAG)

Eine Technik, mit der ein großes Sprachmodell (LLM) erweiterte Antworten generieren kann, indem die Eingabeaufforderung eines Benutzers mit unterstützenden Daten erweitert wird, die aus einer externen Informationsquelle abgerufen wurden. Durch Einbinden dieser abgerufenen Informationen ermöglicht RAG dem LLM, genauere, qualitativ hochwertige Antworten zu generieren, als wenn der Prompt nicht mit zusätzlichem Kontext erweitert worden wäre. Siehe RAG (Retrieval Augmented Generation) auf Azure Databricks.

E

Schema (Unity Catalog)

Das untergeordnete Element eines Katalogs in Unity Catalog, das Tabellen, Ansichten, Volumes, Modelle und Funktionen enthalten kann. Ein Schema ist die zweite Ebene des dreistufigen Namespaces von Unity Catalog (catalog.schema.table-etc).) Siehe Was ist Unity Catalog?.

Serverloses Computing

Ein von Azure Databricks verwaltetes Computing, das den Verwaltungsaufwand reduziert und sofortiges Computing zur Steigerung der Produktivität der Benutzer bereitstellt. Siehe Herstellen einer Verbindung mit serverlosem Compute.

Dienstprinzipal

Eine Identität, die für die Verwendung mit automatisierten Tools, laufenden Aufträgen und Anwendungen erstellt wurde. Sie können den Zugriff eines Dienstprinzipals auf Ressourcen mithilfe von Berechtigungen auf die gleiche Weise einschränken wie ein Azure Databricks-Benutzer. Im Gegensatz zu einem Azure-Databricks-Benutzer ist ein Dienstprinzipal eine Identität nur für APIs; er kann nicht direkt auf die Azure-Databricks-Oberfläche oder die Databricks-CLI zugreifen. Siehe Dienstprinzipale.

Senke (Pipelines)

Eine Senke ist ein Ziel für einen Flow, der in ein externes System (z. B. Kafka, Kinesis, Delta) schreibt.

SQL-Warehouse

Eine Computeressource, mit der Sie Daten in Azure Databricks abfragen und untersuchen können. Siehe Herstellen einer Verbindung mit einem SQL-Warehouse.

Streamverarbeitung

Eine Datenverarbeitungsmethode, mit der Sie eine Abfrage für ein ungebundenes, kontinuierlich wachsendes Dataset definieren und dann Daten in kleinen, inkrementellen Batches verarbeiten können. Die Azure Databricks-Streamverarbeitung verwendet strukturiertes Streaming. Siehe Konzepte des strukturierten Streamings.

Streaming

Streaming bezieht sich auf alle Medieninhalte – live oder aufgezeichnet – (d. h. einen Datenstrom), die über das Internet an Computer und mobile Geräte übermittelt und in Echtzeit wiedergegeben werden. Siehe Konzepte des strukturierten Streamings.

Streaminganalysen

Der Prozess der Analyse von Daten, die kontinuierlich von verschiedenen Quellen generiert werden. Azure Databricks unterstützt Streaminganalysen über strukturiertes Streaming, was die Verarbeitung und Analyse von Livedaten für Echtzeiteinblicke ermöglicht.

Strukturiertes Streaming

Ein skalierbares und fehlertolerantes Datenstromverarbeitungsmodul, das auf dem Spark SQL-Modul basiert und komplexe Berechnungen als Streamingabfragen ermöglicht. Siehe Konzepte des strukturierten Streamings.

Streamingtabellen

Eine verwaltete Tabelle, in die ein Datenstrom geschrieben wird. Siehe Streamingtabellen

Synchronisierte Tabelle

Eine synchronisierte Tabelle ist eine schreibgeschützte Unity Catalog-Postgres-Tabelle, die Daten automatisch von einer Unity Catalog-Tabelle mit Ihrer Datenbankinstanz synchronisiert. Siehe "Synchronisieren von Daten aus Unity Catalog-Tabellen mit einer Datenbankinstanz".

T

Tabelle

Eine Tabelle befindet sich in einem Schema und enthält Datenzeilen. Alle in Azure Databricks erstellten Tabellen verwenden standardmäßig Delta Lake. Tabellen, die von Delta Lake unterstützt werden, werden auch als „Delta-Tabellen“ bezeichnet. Siehe Azure Databricks-Tabellen.

Ausgelöste Pipeline

Eine Pipeline, die alle Daten erfasst, die zu Beginn der Aktualisierung für jede Tabelle verfügbar waren, die in Abhängigkeitsreihenfolge ausgeführt und dann beendet wird. Siehe Ausgelöste vs. Continuous Pipeline-Modus.

U

Unity-Katalog

Ein Azure Databricks-Feature, das eine zentrale Zugriffssteuerung, Überwachung, Herkunftsnachverfolgung und Funktionen zur Datenerkennung in Azure Databricks-Arbeitsbereichen bietet. Siehe Was ist Unity Catalog?.

V

Vektordatenbank

Eine Datenbank, die zum Speichern und Abrufen von Einbettungen optimiert ist. Einbettungen sind mathematische Darstellungen des semantischen Inhalts von Daten, in der Regel Text- oder Bilddaten. Databricks bietet einen Vektorsuchindex, mit dem Sie Vektordatenbankfeatures in Ihren Delta-Tabellen verwenden können. Siehe Mosaic AI-Vektorsuche.

Sicht

Eine virtuelle Tabelle, die von einer SQL-Abfrage definiert wird. Sie speichert keine Daten selbst, sondern bietet eine Möglichkeit, Daten aus einer oder mehreren Tabellen in einem bestimmten Format oder einer Abstraktion darzustellen. Siehe Was ist eine Ansicht?.

Volumes (Unity Catalog)

Unity Catalog-Objekte, die Governance über nicht tabellarische Datasets ermöglichen. Volumes stellen ein logisches Speichervolume an einem Cloudobjektspeicherort dar. Volumes bieten Funktionen zum Zugreifen auf Dateien sowie zum Speichern, Verwalten und Organisieren von Dateien. Siehe Was sind Unity Catalog-Volumes?.

W

Lakeflow-Aufträge

Eine Sammlung von Tools, mit denen Sie Datenverarbeitungsaufgaben in Azure Databricks planen und orchestrieren können. Siehe Lakeflow Jobs.

Workload

Die Menge der Verarbeitungsfunktion, die zum Ausführen einer Aufgabe oder Gruppe von Aufgaben erforderlich ist. Azure Databricks identifiziert zwei Arten von Workloads: Datentechnik (Auftrag) und Datenanalyse (universell). Siehe Azure Databricks-Komponenten.

Arbeitsbereich

Eine Organisationsumgebung, in der Databricks-Benutzer Objekte wie Notebooks, Experimente, Abfragen und Dashboards entwickeln, durchsuchen und freigeben können. Siehe Arbeitsbereich-UI.