Freigeben über


Was ist Lakeflow Connect?

Lakeflow Connect bietet einfache und effiziente Verbindungen zum Einlesen von Daten aus beliebten Unternehmensanwendungen, Datenbanken, Cloudspeicher, lokalen Dateien, Nachrichtenbussen und mehr. Auf dieser Seite werden einige möglichkeiten beschrieben, wie Lakeflow Connect die ETL-Leistung verbessern kann. Außerdem werden gängige Anwendungsfälle und die Bandbreite der unterstützten Ingestion-Tools, von vollständig verwalteten Konnektoren bis zu anpassbaren Frameworks, behandelt.

Flexible Servicemodelle

Lakeflow Connect bietet eine breite Palette von Connectors für Unternehmensanwendungen, Cloudspeicher, Datenbanken, Nachrichtenbusse und vieles mehr. Außerdem bietet es Ihnen die Flexibilität, zwischen einem vollständig verwalteten Dienst und einer benutzerdefinierten Pipeline zu wählen. Der verwaltete Dienst verfügt über sofort einsatzbereite Connectors, die den Datenzugriff mit einfachen UIs und leistungsstarken APIs demokratisieren. Auf diese Weise können Sie schnell robuste Aufnahmepipelines erstellen und gleichzeitig die langfristigen Wartungskosten minimieren. Wenn Sie weitere Anpassungen benötigen, können Sie Lakeflow Declarative Pipelines oder Structured Streaming verwenden. Letztendlich ermöglicht diese Vielseitigkeit Lakeflow Connect, die spezifischen Anforderungen Ihrer Organisation zu erfüllen.

Vereinheitlichung mit Kern-Databricks-Tools

Lakeflow Connect verwendet Kernfunktionen von Databricks, um ein umfassendes Datenmanagement bereitzustellen. Zum Beispiel bietet es Governance mithilfe des Unity-Katalogs, Orchestrierung mit Lakeflow-Aufträgen und eine ganzheitliche Überwachung Ihrer Pipelines. Dies hilft Ihrer Organisation, Datensicherheit, Qualität und Kosten zu verwalten und gleichzeitig Ihre Erfassungsprozesse mit Ihren anderen Datentechniktools zu vereinheitlichen. Lakeflow Connect basiert auf einer offenen Data Intelligence Platform mit voller Flexibilität, um Ihre bevorzugten Drittanbietertools zu integrieren. Dadurch wird eine maßgeschneiderte Lösung sichergestellt, die sich an Ihre bestehende Infrastruktur und zukünftige Datenstrategien richtet.

Schnelle, skalierbare Aufnahme

Lakeflow Connect verwendet inkrementelle Lese- und Schreibvorgänge, um eine effiziente Aufnahme zu ermöglichen. In Kombination mit nachgelagerten inkrementellen Transformationen kann dies die ETL-Leistung erheblich verbessern.

Gängige Anwendungsfälle

Kunden nehmen Daten ein, um die herausforderndsten Probleme ihrer Organisation zu lösen. Beispiele für Anwendungsfälle sind:

Anwendungsfall BESCHREIBUNG
Kunde 360 Messen der Kampagnenleistung und Kundenführungsbewertung
Portfolioverwaltung Maximieren des ROI mit historischen und Prognosemodellen
Consumer Analytics Personalisieren der EinkaufserfahrungEn Ihrer Kunden
Zentrale Personalabteilung Unterstützung der Mitarbeiter Ihrer Organisation
Digitale Zwillinge Steigerung der Fertigungseffizienz
RAG-Chatbots Erstellen von Chatbots, die Benutzern helfen, Richtlinien, Produkte und mehr zu verstehen

Ebenen des ETL-Stapels

In der folgenden Tabelle werden die drei Ebenen der Aufnahmeprodukte beschrieben, sortiert von den meisten anpassbaren bis zu den meisten verwalteten Produkten:

Ebene BESCHREIBUNG
Strukturiertes Streaming Strukturiertes Streaming ist eine API für die inkrementelle Datenstromverarbeitung in nahezu Echtzeit. Sie bietet eine starke Leistung, Skalierbarkeit und Fehlertoleranz.
Deklarative Pipelines für Lakeflow Lakeflow Declarative Pipelines baut auf Structured Streaming auf und bietet ein deklaratives Framework zum Erstellen von Datenpipelines. Sie können die Transformationen definieren, die für Ihre Daten ausgeführt werden sollen, und Lakeflow Declarative Pipelines verwaltet die Orchestrierung, Überwachung, Datenqualität, Fehler und vieles mehr. Daher bietet es mehr Automatisierung und weniger Mehraufwand als strukturiertes Streaming.
Vollständig verwaltete Connectors Vollverwaltete Connectors bauen auf den deklarativen Pipelines von Lakeflow auf und bieten noch mehr Automatisierung für die beliebtesten Datenquellen. Sie erweitern die Funktionen von Lakeflow Declarative Pipelines, um auch quellspezifische Authentifizierung, CDC, Edge case Handling, langfristige API-Wartung, automatisierte Wiederholungen, automatisierte Schemaentwicklung usw. zu umfassen. Daher bieten sie noch mehr Automatisierung für alle unterstützten Datenquellen.

Einige Connectors arbeiten auf einer Ebene dieses ETL-Stapels. Beispielsweise bietet Databricks vollverwaltete Connectors für SaaS-Anwendungen (z. B. Salesforce) und Datenbanken (z. B. SQL Server). Andere Verbinder funktionieren auf mehreren Ebenen dieses ETL-Stapels. Sie können z. B. auto Loader mit strukturiertem Streaming für vollständige Anpassungen oder Lakeflow Declarative Pipelines für eine besser verwaltete Oberfläche verwenden. Dies gilt auch für Streamingdaten von Apache Kafka, Amazon Kinesis, Google Pub/Sub und Apache Pulsar.

Databricks empfiehlt, mit der am häufigsten verwalteten Ebene zu beginnen. Wenn Sie Ihre Anforderungen nicht erfüllt (z. B. wenn sie Ihre Datenquelle nicht unterstützt), gehen Sie zur nächsten Ebene über. Databricks plant die Erweiterung der Unterstützung für weitere Connectors auf allen drei Ebenen.

ETL-Stapeldiagramm

Hochladen und Herunterladen von Dateien

Sie können Dateien verarbeiten, die sich in Ihrem lokalen Netzwerk befinden, Dateien, die auf ein Volume hochgeladen wurden, oder Dateien, die von einer Internetquelle heruntergeladen wurden. Siehe Dateien.

Vollständig verwaltete Schnittstellen

Sie können vollständig verwaltete Connectors zum Einlesen von SaaS-Anwendungen und Datenbanken verwenden. Zu den verfügbaren Connectors gehören:

Anpassbare Steckverbinder

Zusätzlich zu den vollständig verwalteten Connectors bietet Databricks viele Möglichkeiten zum Datenimport. Dazu gehören anpassbare Connectors für Cloudobjektspeicher und Streamingquellen wie Kafka. Siehe Standardanschlüsse in Lakeflow Connect.