Was ist ein Datengittermodell?

2024-09-30

Ein Datengittermodell ist ein Architekturmuster für die Implementierung von Unternehmensdatenplattformen in großen und komplexen Organisationen. Das Datengittermodell hilft bei der Skalierung der Analyseakzeptanz über eine einzelne Plattform und ein einzelnes Implementierungsteam hinaus.

Hintergrund

Die Notwendigkeit der Analyse ist nicht neu. Organisationen müssen die Geschäftsergebnisse immer analysieren und erledigen dies bereits seit ihrer Einführung mithilfe von Computern. Etwa um die 1980er-Jahre begannen Organisationen, Data Warehousing-Lösungen mithilfe von Datenbanken speziell für die Entscheidungsunterstützung zu erstellen. Diese Data Warehousing-Lösungen dienten Organisationen für lange Zeit gut.

Da sich das Geschäft ändert und immer vielfältigere Daten generiert werden, sind Data Warehousing-Lösungen, die relationale Datenbanken verwenden, möglicherweise nicht immer die beste Lösung. In den 2000er-Jahren wurde Big Data zu einem gängigen Begriff. Neue Lösungen, die eine Analyse großer Datenmengen ermöglichen und mit großer Geschwindigkeit generiert werden konnten, wurden von vielen Unternehmen schnell übernommen. Dazu gehören Technologie wie Data Lakes und Lösungen zur horizontalen Skalierung, die große Datenmengen analysieren.

In den letzten Jahren nutzen viele Organisationen erfolgreich moderne Architektur- und analytische Muster, die Datenlagertechnologien und neuere Big Data-Technologien kombinieren.

Bei einigen Organisationen treten jedoch Probleme beim Bereitstellen von analytischen Lösungen auf, die Analysemuster nutzen. Solche Lösungen werden in der Regel immer noch als monolithische Lösungen implementiert, bei denen ein einzelnes Team der Plattformanbieter ist, der die Datenintegration durchführt. Kleinere Organisationen und Organisationen, die im Hinblick auf die Teameinrichtung über ein hohes Maß an Zentralisierung anwenden, können ein einzelnes Team einsetzen. In größeren Organisationen führt die Verwendung eines einzigen Teams jedoch häufig zu einem Engpass. Dieser Engpass verursacht einen riesigen Rückstand, sodass Teile einer Organisation auf Datenintegrationsdienste und analytische Lösungen warten müssen.

Dieses Muster wird öfter angewandt, wenn Organisationen moderne Data Science-Lösungen einführen. Viele Data Science-Lösungen benötigen mehr Daten als herkömmliche Business Intelligence-Lösungen aus der Vergangenheit.

Der kürzliche Umstieg auf die Verwendung von Microservices als Anwendungsentwicklungsmuster ist ein weiterer Treiber für lange Rückstände bei der Datenintegration, da die Anzahl der Datenquellen erhöht wird.

Ein einzelnes Team einzusetzen, das alle Daten auf einer einzigen Plattform in einer großen Organisation verarbeitet, kann auch problematisch sein. Ein Team verfügt selten über Experten für jede Datenquelle. Die meisten Organisationen werden dezentralisiert und aus geschäftlicher Sicht verteilt. Unterschiedliche Geschäftseinheiten und Abteilungen sind für verschiedene Teile des Geschäftsbetriebs verantwortlich, sodass wissenschaftliche Fachkräfte für Daten in der Regel auf verschiedene Sektoren verteilt sind.

Um diese Probleme zu lösen, wurde ein Muster namens „Datengittermodell“ eingeführt. Das Ziel von Datengittermodellen ist, dass verteilte Teams dezentral und agil mit Informationen arbeiten und diese gemeinsam nutzen können.

Datengitter ist ein technisches Muster, das auch Organisationsänderungen erfordert. Die Vorteile eines Datengitteransatzes werden erreicht, indem multidisziplinäre Teams implementiert werden, die Datenprodukte veröffentlichen und nutzen.

Die folgenden Konzepte sind Grundlage für das Verständnis der Datengitterarchitektur:

Datendomänen
Datenprodukte
Self-Serve-Plattformen
Verbundgovernance

Datendomänen

Datendomänen sind die Grundlage von Datengittern. Das Konzept von Datendomänen stammt aus der domänengesteuerten Entwicklung (Domain Driven Development, DDD), einem Paradigma, das häufig in der Softwareentwicklung angewandt wird, um komplexe Softwarelösungen zu modellieren. Im Datengitter ist eine Datendomäne eine Möglichkeit, Grenzen um Ihre Unternehmensdaten zu definieren. Domänen können je nach Organisation variieren, und in einigen Fällen können Sie Domänen in Ihrer Organisation definieren. In anderen Fällen können Sie Datendomänen basierend auf Ihren Geschäftsprozessen oder Quellsystemen modellieren.

Es gibt drei Aspekte für Datendomänen:

Ihre gewählten Grenzen rendern sich langfristig in den Besitz. Sie existieren über einen langen Zeitraum und haben Besitzer identifiziert.
Ihre Domänen sollten die Realität widerspiegeln, nicht nur theoretische Konzepte.
Ihre Domänen müssen über eine atomare Integrität verfügen. Wenn Bereiche keine Beziehung zueinander haben, kombinieren Sie sie nicht in einer Domäne.

Weitere Informationen zu Datendomänen und ihrer Definition finden Sie unter Datendomänen.

Datenprodukte

Datenprodukte sind eine weitere wichtige Komponente des Datengitters. Datenprodukte zielen darauf ab, Produktdenken in die Welt der Daten zu bringen. Damit Ihr Datenprodukt erfolgreich sein kann, muss es den beabsichtigten Benutzern einen langfristigen Geschäftswert bieten. Im Datengittermodell umfasst ein Datenprodukt Daten, Coderessourcen, Metadaten und verwandte Richtlinien. Datenprodukte können als API, Bericht, Tabelle oder Dataset in einem Data Lake bereitgestellt werden.

Ein erfolgreiches Datenprodukt muss Folgendes sein:

Verwendbar: Ihr Produkt muss über Benutzer*innen außerhalb der unmittelbaren Datendomäne verfügen.
Wertvoll: Ihr Produkt muss im Laufe der Zeit Wert halten. Wenn es keinen langfristigen Wert hat, wird es nicht erfolgreich sein.
Durchführbar: Ihr Produkt muss durchführbar sein. Wenn Sie es nicht wirklich erstellen können, kann das Produkt kein Erfolg werden. Ihr Produkt muss sowohl aus einer Datenverfügbarkeit als auch aus technischer Sicht machbar sein.

Die Coderessourcen eines Datenprodukts umfassen Code, der sie generiert und Code bereitstellt. Die Coderessourcen umfassen auch Pipelines, die zum Erstellen des Produkts und zum Erstellen des Abschlussberichts für das Produkt verwendet werden.

Weitere Informationen zum Datenprodukten finden Sie unter Datenprodukte für Analysen auf Cloudebene in Azure.

Spezifische Anleitungen zur Verwendung von Datengittern finden Sie unter Was ist ein Datenprodukt?.

Self-Serve-Plattformen

Ein Kern des Datengitters hat eine Plattform, die es den Datendomänen ermöglicht, ihre Datenprodukte selbst zu erstellen. Datendomänen müssen Datenprodukte mithilfe der Tools und Prozesse definieren, die für Benutzer*innen relevant sind, ohne eine zu hohe Abhängigkeit von einer zentralen Plattform oder einem zentralen Plattformteam zu haben. In einem Datengitter haben Sie autonome Teams, die autonome Produkte entwickeln und verwalten.

Während Sie die Dezentralisierung und Ausrichtung für Geschäftsbenutzer*innen verwenden können, die Ihre Daten verstehen, sollten Sie auch die normalen Benutzer*innen nicht aus den Augen verlieren, die auf Ihrer Plattform arbeiten. Aufgrund solcher „normalen Benutzer*innen“ können Sie keine spezialisierten Tools, die fachspezifische Kenntnisse erfordern, als Basis Ihrer Gitterplattform einsetzen.

Sie können Ihre Self-Serve-Plattform erfolgreich implementieren, indem Sie die in Entwurfsaspekten beschriebenen Methoden für Self-Serve-Datenplattformen einführen.

Verbundgovernance

Wenn Sie eine Self-Service-Plattform für verteilte Daten einführen, müssen Sie einen erhöhten Schwerpunkt auf Governance legen. Der Mangel an Governance führt zu Silos und Datenduplizierungen in Ihren Datendomänen. Richten Sie einen Governanceverbund ein, da es in Ihren domänenorientierten Teams und unter den Datenbesitzern Personen gibt, die die Governanceanforderungen verstehen.

Um Ihre Verbundgovernance zu erstellen, implementieren Sie automatisierte Richtlinien für Plattform- und Datenanforderungen. Verwenden Sie einen hohen Automatisierungsgrad für Tests und Überwachung. Übernehmen Sie eine Code-first-Implementierungsstrategie, um Standards, Richtlinien, Datenprodukte und Plattformbereitstellung als Code zu behandeln.

Weitere Informationen zum Implementieren von Verbundgovernanceaspekten finden Sie unter Datengovernance – Übersicht.

Zusammenfassung

Datengitter können eine effektive Möglichkeit sein, Unternehmensdatenplattformen zu implementieren, aber es ist nicht die beste Lösung für alle Organisationen. Datengitter erfordern autonome Teams, die unabhängig arbeiten können. Ein Gittermodell funktioniert am besten in großen und komplexen Organisationen mit unabhängigen Geschäftseinheiten, die ihre Analyseakzeptanz über ein einzelnes Plattform- und Implementierungsteam hinaus skalieren müssen.

Achten Sie bei der Verwendung von Datengittern bei der Implementierung Ihrer Governance besonders darauf, dass Sie keine Silos erstellen. Denken Sie immer an produktorientierte Daten im Kern Ihrer Implementierung, um den Erfolg zu gewährleisten.

Nächste Schritte

Datendomänen

Freigeben über

Was ist ein Datengittermodell?

Hintergrund

Datendomänen

Datenprodukte

Self-Serve-Plattformen

Verbundgovernance

Zusammenfassung

Nächste Schritte

Feedback

Zusätzliche Ressourcen