Zuverlässigkeit für das Data Lakehouse

2025-06-21

Die Architekturprinzipien der Säule Zuverlässigkeit beziehen sich auf die Fähigkeit eines Systems, sich nach Ausfällen zu erholen und weiterhin zu funktionieren.

Zuverlässigkeit Lakehouse-Architekturdiagramm für Databricks.

Grundsätze der Zuverlässigkeit

Design für das Scheitern

In einer stark verteilten Umgebung kann es zu Ausfällen kommen. Sowohl für die Plattform als auch für die verschiedenen Workloads – z. B. Streamingaufträge, Batchaufträge, Modelltraining und BI-Abfragen – müssen Fehler vorhergesehen und belastbare Lösungen entwickelt werden, um die Zuverlässigkeit zu erhöhen. Der Fokus liegt darauf, Anwendungen so zu gestalten, dass sie schnell und im besten Fall automatisch wiederhergestellt werden können.
Verwalten der Datenqualität

Die Datenqualität ist von grundlegender Bedeutung, um genaue und aussagekräftige Erkenntnisse aus Daten abzuleiten. Die Datenqualität hat viele Dimensionen, einschließlich Vollständigkeit, Genauigkeit, Gültigkeit und Konsistenz. Es muss aktiv verwaltet werden, um die Qualität der endgültigen Datensätze zu verbessern, damit die Daten als zuverlässige und vertrauenswürdige Informationen für Geschäftsbenutzer dienen.
Entwerfen für die automatische Skalierung

Standardmäßige ETL-Prozesse, Geschäftsberichte und Dashboards haben oft vorhersehbare Ressourcenanforderungen in Bezug auf Arbeitsspeicher und Rechenleistung. Neue Projekte, saisonale Aufgaben oder erweiterte Ansätze wie Modelltraining (für Abwanderung, Prognose und Wartung) führen jedoch zu Spitzen bei den Ressourcenanforderungen. Damit ein Unternehmen all diese Workloads bewältigen kann, benötigt es eine skalierbare Speicher- und Rechenplattform. Das Hinzufügen neuer Ressourcen nach Bedarf muss einfach sein, und es sollte nur der tatsächliche Verbrauch in Rechnung gestellt werden. Ist der Höhepunkt überwunden, können Ressourcen freigesetzt und die Kosten entsprechend gesenkt werden. Dies wird oft als horizontale Skalierung (Anzahl der Knoten) und vertikale Skalierung (Größe der Knoten) bezeichnet.
Verfahren zur Testwiederherstellung

Eine unternehmensweite Disaster Recovery-Strategie für die meisten Anwendungen und Systeme erfordert eine Bewertung der Prioritäten, Fähigkeiten, Einschränkungen und Kosten. Ein zuverlässiger Disaster Recovery-Ansatz testet regelmäßig, ob Workloads ausfallen, und validiert Wiederherstellungsverfahren. Die Automatisierung kann verwendet werden, um verschiedene Fehler zu simulieren oder Szenarien nachzubilden, die in der Vergangenheit Fehler verursacht haben.
Automatisieren von Bereitstellungen und Workloads

Durch die Automatisierung von Bereitstellungen und Arbeitslasten für das Seehaus werden diese Prozesse standardisiert, menschliche Fehler beseitigt, die Produktivität verbessert und eine größere Wiederholbarkeit gewährleistet. Dazu gehört die Verwendung von "Konfiguration als Code", um Konfigurationsabweichungen zu vermeiden, und "Infrastruktur als Code", um die Bereitstellung aller erforderlichen Lakehouse- und Clouddienste zu automatisieren.
Überwachen von Systemen und Workloads

Workloads im Lakehouse integrieren in der Regel Databricks-Plattformdienste und externe Clouddienste, z. B. als Datenquellen oder als Ziele. Erfolgreiche Ausführung kann nur auftreten, wenn jeder Dienst in der Ausführungskette ordnungsgemäß funktioniert. Wenn dies nicht der Fall ist, sind Überwachung, Warnung und Protokollierung wichtig, um Probleme zu erkennen und zu verfolgen und das Systemverhalten zu verstehen.

Weiter: Best Practices für Zuverlässigkeit

Siehe Bewährte Methoden für Zuverlässigkeit.

Freigeben über

Zuverlässigkeit für das Data Lakehouse

Grundsätze der Zuverlässigkeit

Weiter: Best Practices für Zuverlässigkeit

Feedback

Zusätzliche Ressourcen