Interagieren mit externen Daten in Azure Databricks
Databricks Runtime ermöglicht Bindungen an beliebte Datenquellen und Formate, um das Importieren und Exportieren von Daten aus dem Lakehouse einfach zu machen. In diesem Artikel finden Sie Informationen zum Identifizieren von Formaten und Integrationen mit integrierter Unterstützung. Darüber hinaus können Sie Möglichkeiten zum Erweitern von Azure Databricks entdecken, um mit noch mehr Systemen zu interagieren. Die meisten Daten in Azure Databricks befinden sich im Cloudobjektspeicher. Weitere Informationen finden Sie unter Wo sind meine Daten?.
Azure Databricks bietet eine Reihe von Optimierungen für das Laden und Erfassen von Daten.
Azure Databricks unterstützt auch den Abfrageverbund für SQL- und DataFrame-Benutzer. Siehe Was ist ein Abfrageverbund?
Wenn Sie noch nie Daten mit Azure Databricks gelesen oder geschrieben haben, sollten Sie das DataFrames-Tutorial zu Python oder Scala lesen. Selbst für Benutzer, die mit Apache Spark vertraut sind, bietet dieses Tutorial Lösungen zu neuen Herausforderungen, die mit dem Zugreifen auf Daten in der Cloud verbunden sind.
Partner Connect bietet optimierte, leicht zu konfigurierende Integrationen für viele Unternehmenslösungen. Siehe Was ist Databricks Partner Connect?.
Welche Datenformate können Sie in Azure Databricks verwenden?
Azure Databricks verfügt über integrierte Schlüsselwortzuordnungen für alle Datenformate, die nativ von Apache Spark unterstützt werden. Azure Databricks verwendet Delta Lake als Standardprotokoll zum Lesen und Schreiben von Daten und Tabellen, während Apache Spark Parquet verwendet.
Die folgenden Datenformate verfügen alle über integrierte Schlüsselwortkonfigurationen in Apache Spark DataFrames und SQL:
Azure Databricks bietet außerdem ein benutzerdefiniertes Schlüsselwort zum Laden von MLflow-Experimenten.
Verwenden von Streamingdatenquellen in Azure Databricks
Azure Databricks kann in Stream-Messaging-Dienste integriert werden, um Daten nahezu in Echtzeit in Databricks Lakehouse zu erfassen. Azure Databricks kann auch angereicherte und transformierte Daten im Lakehouse mit anderen Streamingsystemen synchronisieren.
Strukturiertes Streaming bietet nativen Streamingzugriff auf Dateiformate, die von Apache Spark unterstützt werden, aber Databricks empfiehlt Autoloader für die meisten strukturierten Streamingvorgänge, die Daten aus dem Cloudobjektspeicher lesen. Weitere Informationen finden Sie unter Automatisches Laden.
Durch die Aufnahme von Streaming-Nachrichten in Delta Lake können Sie Nachrichten unbegrenzt aufbewahren, sodass Sie Datenströme wiedergeben können, ohne befürchten zu müssen, dass Daten aufgrund von Aufbewahrungsschwellenwerten verloren gehen.
Azure Databricks verfügt über spezielle Features zum Arbeiten mit halbstrukturierten Datenfeldern, die in Avro, Protokollpuffern und JSON-Datennutzlasten enthalten sind. Weitere Informationen finden Sie unter:
Weitere Informationen zu bestimmten Konfigurationen für das Streaming von oder zu Nachrichtenwarteschlangen finden Sie unter:
Welche Datenquellen stellen mit JDBC eine Verbindung zu Azure Databricks her?
Mithilfe von JDBC können Sie eine Verbindung zu vielen Datenquellen herstellen. Databricks Runtime enthält Treiber für eine Reihe von JDBC-Datenbanken, aber möglicherweise müssen Sie einen Treiber oder eine andere Treiberversion installieren, um eine Verbindung zu Ihrer bevorzugten Datenbank herzustellen. Die unterstützten Datenbanken beinhalten Folgendes:
- Abfragen von PostgreSQL mit Azure Databricks
- Abfragen von MySQL mit Azure Databricks
- Abfragen von MariaDB mit Azure Databricks
- Abfragen von SQL Server mit Azure Databricks
- Verwenden des Databricks-Connectors zum Herstellen einer Verbindung mit einem anderen Databricks-Arbeitsbereich
In welche Datendienste wird Azure Databricks integriert?
Die folgenden Datendienste erfordern, dass Sie Verbindungseinstellungen, Sicherheitsanmeldeinformationen und Netzwerkeinstellungen konfigurieren. Möglicherweise benötigen Sie Administrator- oder Poweruser-Berechtigungen in Ihrem Azure-Konto oder Azure Databricks-Arbeitsbereich. Für einige muss außerdem eine Azure Databricks-Bibliothek erstellt und in einem Cluster installiert werden:
- Abfragen von Daten in Azure Synapse Analytics
- Azure Cosmos DB
- MongoDB
- Cassandra
- Couchbase
- ElasticSearch
- Lesen und Schreiben von Daten aus Snowflake
- Google BigQuery
Datenformate mit besonderen Überlegungen
Die folgenden Datenformate machen ggf. zusätzliche Konfigurationen oder besondere Überlegungen für ihre Verwendung erforderlich:
- Databricks empfiehlt das Laden von Bildern als
binary
-Daten. - XML wird nicht nativ unterstützt, kann aber nach der Installation einer Bibliothek verwendet werden.
- Hive-Tabellen werden ebenfalls nativ von Apache Spark unterstützt, müssen jedoch in Azure Databricks konfiguriert werden.
- Azure Databricks kann viele Dateiformate direkt lesen, während sie noch komprimiert sind. Sie können bei Bedarf komprimierte Dateien auch auf Azure Databricks entzippen.
- LZO erfordert eine Codecinstallation.
Weitere Informationen zu Apache Spark-Datenquellen finden Sie unter Generische Funktionen zum Laden/Speichern und Generische Optionen für Dateiquellen.