Was ist Azure Databricks?

Azure Databricks ist eine einheitliche, offene Analyseplattform zum Erstellen, Bereitstellung, Teilen und Verwalten von Daten, Analysen und KI-Lösungen der Unternehmensklasse in großem Maßstab. Die Databricks Data Intelligence Platform integriert sich in Ihrem Cloudkonto in Cloudspeicher und Sicherheit und übernimmt in Ihrem Auftrag die Verwaltung und Bereitstellung von Cloudinfrastruktur.

Wie funktioniert eine Datenintelligenzplattform?

Azure Databricks verwendet generative KI mit dem Data Lakehouse, um die spezifische Semantik Ihrer Daten zu verstehen. Anschließend wird automatisch die Leistung optimiert und die Infrastruktur entsprechend Ihren geschäftlichen Anforderungen verwaltet.

Zur linguistischen Datenverarbeitung erlernt das System die Sprache Ihres Unternehmens, sodass Sie Daten durchsuchen und ermitteln können, indem Sie eine Frage in Ihren eigenen Worten stellen. Die Unterstützung in natürlicher Sprache hilft Ihnen, Code zu schreiben, Fehler zu beheben und Antworten in der Dokumentation zu finden.

Darüber hinaus können Sie sich für Ihre Daten und KI-Anwendungen auf starke Governance und Sicherheit verlassen. Sie können APIs wie OpenAI integrieren, ohne Kompromisse beim Datenschutz oder beim Schutz geistigen Eigentums eingehen zu müssen.

Wozu dient Azure Databricks?

Azure Databricks bietet Tools, mit denen Sie Ihre Datenquellen mit einer Plattform verbinden können, um Datasets mit Lösungen aus BI zu verarbeiten, zu speichern, zu teilen, zu analysieren, zu modellieren und zu monetarisieren.

Der Azure Databricks-Arbeitsbereich bietet eine einheitliche Schnittstelle und Tools für die meisten Datenaufgaben, einschließlich:

  • Planung und Verwaltung der Datenverarbeitung, insbesondere ETL
  • Generieren von Dashboards und Visualisierungen
  • Verwalten von Sicherheit, Governance, hoher Verfügbarkeit und Notfallwiederherstellung
  • Datenermittlung, Anmerkungen und Untersuchung
  • Machine Learning(ML)-Modellierung, Nachverfolgung und Modellbereitstellung
  • Generative KI-Lösungen

Verwaltete Integration mit Open Source

Databricks zeichnet sich durch starkes Engagement für die Open Source-Community aus. Databricks verwaltet Updates von Open Source-Integrationen in Databricks Runtime-Releases. Die folgenden Technologien sind Open Source-Projekte, die ursprünglich von Databricks-Mitarbeiter:innen erstellt wurden:

Tools und programmgesteuerter Zugriff

Azure Databricks verwaltet eine Reihe von proprietären Tools, die sich in diese Technologien integrieren und sie erweitern, um optimierte Leistung und Benutzerfreundlichkeit hinzuzufügen, z. B. die folgenden:

Zusätzlich zur Arbeitsbereich-Benutzeroberfläche können Sie mit Azure Databricks programmgesteuert mit den folgenden Tools interagieren:

  • REST-API
  • Befehlszeilenschnittstelle (CLI)
  • Terraform

Wie arbeitet Azure Databricks mit Azure zusammen?

Die Azure Databricks-Plattformarchitektur besteht aus zwei Hauptteilen:

  • Infrastruktur, die von Azure Databricks zum Bereitstellen, Konfigurieren und Verwalten der Plattform und dienste verwendet wird.
  • Kundeneigene Infrastruktur, die in Zusammenarbeit von Azure Databricks und Ihrem Unternehmen verwaltet wird.

Im Gegensatz zu vielen Datenunternehmen für den Unternehmenseinsatz sind Sie bei Azure Databricks nicht gezwungen, Ihre Daten in proprietäre Speichersysteme zu migrieren, um die Plattform zu verwenden. Stattdessen konfigurieren Sie einen Azure Databricks-Arbeitsbereich, indem Sie sichere Integrationen zwischen der Azure Databricks-Plattform und Ihrem Cloudkonto konfigurieren. Daraufhin stellt Azure Databricks mithilfe von Cloudressourcen in Ihrem Konto Computecluster bereit, um Daten im Objektspeicher und anderen integrierten Diensten zu verarbeiten und zu speichern, die Ihrer Kontrolle unterliegen.

Unity Catalog erweitert diese Beziehung weiter und erlaubt Ihnen das Verwalten der Berechtigungen für den Datenzugriff mithilfe vertrauter SQL-Syntax aus Azure Databricks.

Azure Databricks-Arbeitsbereiche erfüllen die Sicherheits- und Netzwerkanforderungen einiger der größten und am stärksten sicherheitsorientierten Unternehmen weltweit. Azure Databricks erleichtert neuen Benutzern den Einstieg in die Plattform. Es beseitigt viele der Lasten und Bedenken bei der Arbeit mit der Cloudinfrastruktur, ohne die Anpassungen und Kontrolle einzuschränken, die erfahrene Daten-, Betriebs- und Sicherheitsteams benötigen.

Was sind häufige Anwendungsfälle für Azure Databricks?

Die Anwendungsfälle von Azure Databricks sind so unterschiedlich wie die Daten, die auf der Plattform verarbeitet werden und die vielen Persönlichkeiten der Mitarbeiter, die mit Daten als Kernbestandteil ihrer beruflichen Tätigkeit arbeiten. In den folgenden Anwendungsfällen wird dargelegt, wie Benutzer in Ihrem Unternehmen Azure Databricks nutzen können, um Aufgaben zu erledigen, die für die Verarbeitung, Speicherung und Analyse von Daten unerlässlich sind, auf denen wichtige Geschäftsfunktionen und -entscheidungen aufgebaut sind.

Erstellen eines Data Lakehouse für Unternehmen

Im Data Lakehouse sind die Stärken von Enterprise Data Warehouses und Data Lakes vereint, um Datenlösungen im Unternehmen zu beschleunigen, zu vereinfachen und zu vereinheitlichen. Technische und wissenschaftliche Fachkräfte für Daten, Analysten und Produktionssysteme können das Data Lakehouse als einzelne Wahrheitsinstanz (SSOT, Single Source of Truth) nutzen, wodurch der zeitgerechte Zugriff auf konsistente Daten ermöglicht und die Komplexität, viele verteile Datensysteme aufzubauen, zu verwalten und synchron zu halten, reduziert wird. Weitere Informationen finden Sie unter Was ist ein Data Lakehouse?.

ETL und Datentechnik

Gleich, ob Sie Dashboards generieren oder KI-Anwendungen unterstützen, bildet Datentechnik das Rückgrat für datenfokussierte Unternehmen, indem sie sicherstellt, dass Daten verfügbar, bereinigt und in Datenmodellen gespeichert sind, die eine effiziente Ermittlung und Verwendung ermöglichen. Azure Databricks kombiniert die Leistungsfähigkeit von Apache Spark mit Delta Lake und benutzerdefinierten Tools, um eine konkurrenzlose ETL-Erfahrung (Extraktion, Transformation, Laden) zu bieten. Sie können SQL, Python und Scala verwenden, um ETL-Logik zu erstellen, und dann die geplante Bereitstellung von Aufträgen mit nur wenigen Klicks orchestrieren.

Delta Live Tables vereinfachen ETL durch die intelligente Verwaltung von Abhängigkeiten zwischen Datasets und die automatische Bereitstellung und Skalierung der Produktionsinfrastruktur noch weiter, wodurch die zeitgerechte und genaue Übermittlung von Daten nach Ihren Spezifikationen sichergestellt werden kann.

Azure Databricks bietet eine Reihe benutzerdefinierter Tools für die Datenerfassung, darunter Auto Loader, ein effizientes und skalierbares Tool für inkrementelles und idempotentes Laden von Daten aus Cloudobjektspeicher und Data Lakes in das Data Lakehouse.

Maschinelles Lernen, KI und Data Science

Maschinelles Lernen in Azure Databricks erweitert die Kernfunktionen der Plattform um eine Suite von Tools, die auf die Anforderungen von wissenschaftlichen Fachkräften für Daten und ML-Techniker zugeschnitten sind, darunter MLflow und Databricks Runtime für Machine Learning.

Große Sprachmodelle und generative KI

Databricks Runtime für Machine Learning enthält Bibliotheken wie Hugging Face Transformers, mit denen Sie vorhandene vortrainierte Modelle oder andere Open-Source-Bibliotheken in Ihren Workflow integrieren können. Die Databricks MLflow-Integration erleichtert die Verwendung des MLflow-Nachverfolgungsdiensts mit Transformatorpipelines, Modellen und Verarbeitungskomponenten. Darüber hinaus können Sie OpenAI-Modelle oder Lösungen von Partnern wie John Snow Labs in Ihre Databricks-Workflows integrieren.

Mit Azure Databricks können Sie eine LLM für Ihre Daten für Ihre spezifische Aufgabe anpassen. Mit Unterstützung von Open-Source-Tools wie Hugging Face und DeepSpeed können Sie effizient ein grundlegendes LLM erstellen und mit dem Training mit Ihren eigenen Daten beginnen, um größere Genauigkeit für Ihre Domäne und Workload zu erzielen.

Darüber hinaus bietet Azure Databricks KI-Funktionen, mit denen SQL-Datenanalysten direkt innerhalb ihrer Datenpipelines und Workflows auf LLM-Modelle zugreifen können (auch aus OpenAI). Weitere Informationen finden Sie unter KI-Funktionen in Azure Databricks.

Data Warehousing, Analyse und BI

Azure Databricks kombiniert benutzerfreundliche Benutzeroberflächen mit kostengünstigen Computeressourcen und unendlich skalierbarem, erschwinglichem Speicher, um eine leistungsstarke Plattform für die Ausführung von Analyseabfragen bereitzustellen. Administratoren konfigurieren skalierbare Computecluster als SQL-Warehouses, was Endbenutzern die Ausführung von Abfragen ermöglicht, ohne sie mit den komplexen Details des Arbeitens in der Cloud zu belasten. SQL-Benutzer können Abfragen auf Daten im Lakehouse mit dem SQL-Abfrage-Editor oder in Notebooks ausführen. Notebooks unterstützen über SQL hinaus Python, R und Scala und ermöglichen Benutzern das Einbetten derselben Visualisierungen, die in Dashboards zur Verfügung stehen, parallel zu Links, Bildern und in Markdown geschriebenen Kommentaren.

Datengovernance und sichere Datenfreigabe

Der Unity Catalog bietet ein einheitliches Datengovernancemodell für das Data Lakehouse. Cloudadministratoren konfigurieren und integrieren grobe Berechtigungen zur Zugriffssteuerung für Unity Catalog; darauf aufbauend können Azure Databricks-Administratoren Berechtigungen für Teams und Einzelpersonen verwalten. Berechtigungen werden mit Zugriffssteuerungslisten (ACLs) mithilfe von benutzerfreundlichen Benutzeroberflächen oder SQL-Syntax verwaltet, was es für Datenbankadministratoren einfacher macht, den Zugriff auf Daten abzusichern, ohne auf cloudnative Verwaltung des Identitätszugriffs (IAM) und Netzwerke skalieren zu müssen.

Unity Catalog macht die sichere Ausführung von Analysen in der Cloud einfach und bietet eine Aufteilung der Verantwortung, dank derer sich die Notwendigkeit von Umschulung oder Weiterbildung sowohl für Administratoren als auch für Endbenutzer der Plattform einschränken lässt. Siehe Was ist Unity Catalog?.

Durch das Lakehouse wird die Datenfreigabe in Ihrer Organisation so einfach wie das Erteilen des Abfragezugriffs auf eine Tabelle oder Ansicht. Für die Freigabe außerhalb Ihrer sicheren Umgebung bietet Unity Catalog eine verwaltete Version der Delta-Freigabe.

DevOps, CI/CD und Orchestrierung von Aufgaben

Die Entwicklungslebenszyklen für ETL-Pipelines, ML-Modelle und Analyse-Dashboards stellen jeweils eigene, einzigartige Herausforderungen dar. Azure Databricks ermöglicht allen Ihren Benutzern die Nutzung einer einzelnen Datenquelle, wodurch doppelter Aufwand und nicht synchronisierte Berichte reduziert werden. Wenn Sie zusätzlich eine Reihe gängiger Tools für Versionsverwaltung, Automatisierung, Planung, Bereitstellung von Code und Produktionsressourcen bereitstellen, können Sie Ihren Mehraufwand für Überwachung, Orchestrierung und Betrieb vereinfachen. Mit Workflows werden Azure Databricks-Notebooks, SQL-Abfragen und anderer beliebiger Code geplant. Repos ermöglichen Ihnen das Synchronisieren von Azure Databricks-Projekten mit einer Reihe beliebter Git-Anbieter. Eine vollständige Übersicht der Tools finden Sie unter Entwicklungstools und Anleitungen.

Echtzeit- und Streaminganalysen

Azure Databricks nutzt Apache Spark Structured Streaming für die Arbeit mit Streamingdaten und inkrementellen Datenänderungen. Strukturiertes Streaming ist eng mit Delta Lake integriert, und diese Technologien bilden die Grundlage für Delta Live Tables einerseits und Auto Loader andererseits. Weitere Informationen finden Sie unter Streaming in Azure Databricks.