Freigeben über


Datenverarbeitungsstandards für KI und Analysen

Eine einheitliche Datenplattform hängt von konsistenten Aufnahme-, Transformations- und Veröffentlichungsstandards ab, damit Führungskräfte Daten für Analysen und KI vertrauen können. Empfehlung: Richten Sie organisationsweite Standards ein, die steuern, welche Daten OneLake eingeben, wie Teams diese Daten verfeinern und wie geregelte Datenprodukte Verbraucher erreichen (siehe Abbildung 1). Um diese Empfehlung anzuwenden, verwenden Sie diesen Artikel als Checkliste:

Diagramm mit den drei wichtigsten Schritten bei der Festlegung der betrieblichen Standards. Legen Sie zunächst Datenverarbeitungsstandards fest, z. B. wie Daten durch die Bronze-, Silber- und Goldschichten verschoben werden. Legen Sie zweitens Sicherheitsstandards für das Sichern von Datenprodukten in verschiedenen Microsoft-Diensten fest. Drittens legen Sie Verbrauchs- und Lebenszyklusstandards für Datenprodukte fest. Abbildung 1. Drei Schritte zum Festlegen von Betrieblichen Standards für Daten.

1. Festlegen von Datenaufnahmestandards

OneLake dient als zentraler Datensee für Analysen und KI in Microsoft Fabric, sodass Führungskräfte steuern müssen, was eintritt. Empfehlung: Legen Sie klare Grenzen fest, sodass Teams nur Daten aufnehmen, die definierte Geschäftsergebnisse unterstützen. Verwenden Sie die folgende Checkliste, um diese Empfehlung anzuwenden.

  1. Welche Daten vereinheitlichen Sie? Die Datenvereinheitlichung in OneLake bedeutet das Auswählen von Daten, die ein Datenprodukt unterstützen, das an ein messbares Geschäftsergebnis gebunden ist. Bewährte Methoden: Daten werden nur dann in OneLake übertragen, wenn es ein Datenprodukt unterstützt und einen Geschäftswert hinzufügt. Behandeln Sie die Datenaufnahme als Produktentscheidung anstelle eines technischen Standardwerts. Entscheidungsleitfaden: Entscheiden Sie sich für die Erfassung von Daten, wenn sie einen Geschäftsprozess oder ein Ergebnis beschreibt oder misst, den Führungskräfte nachverfolgen. Wählen Sie aus, dass Daten in Betriebssystemen oder Abteilungsspeichern gespeichert werden, wenn kein aktiver Anwendungsfall vorhanden ist. Diese Wahl reduziert die Speicherkosten und den Governance-Aufwand.

  2. Behalten Sie Kollaborations- und Wissensinhalte in Microsoft 365. Microsoft 365-Daten unterstützen Microsoft 365-Copilot-Agenten. Diese Agenten rufen Dokumente, E-Mails und Kollaborationsartefakte ab, während vorhandene Berechtigungen berücksichtigt werden. Siehe Microsoft 365 Copilot-Architektur. Bewährte Methoden: Verwenden Sie Microsoft 365 als System zur Datenspeicherung für Inhalte, deren Hauptzweck die Zusammenarbeit, das Nachschlagen oder der Wissensabruf ist. Verwenden Sie das Microsoft 365-Einführungshandbuch , um diese Daten vorzubereiten.

  3. Integrieren Sie betriebsfähige Datenbanken über unterstützte Muster. Betriebsdatenbanken liefern häufig Analysen und KI-Szenarien, aber direkter Zugriff schafft Risiken und Instabilität. Bewährte Methoden: Verwenden Sie von Microsoft Fabric unterstützte Muster, z. B. Tastenkombinationen für den virtuellen Zugriff und die Spiegelung für replizierten Zugriff. Azure-Datenbanken erfordern häufig eine Spiegelung für eine zuverlässige Integration. Entscheidungsleitfaden: Wählen Sie Tastenkombinationen aus, wenn der virtuelle Zugriff leistungsanforderungen erfüllt. Wählen Sie die Spiegelung aus, wenn die Analyseleistung, Isolation oder nachgeschaltete Wiederverwendung eine physische Kopie in OneLake erfordert.

  4. Integrieren vorhandener Datenseen. Viele Organisationen betreiben bereits Datenseen, z. B. Azure Data Lake Storage (ADLS), Google Cloud Storage oder Amazon S3. Bewährte Methoden: Behandeln Sie vorhandene Seen als Teil des einheitlichen Datenbestands, anstatt sofortige Migration zu erzwingen. Verwenden Sie Tastenkombinationen oder Spiegelung. Entscheidungsleitfaden: Entscheiden Sie basierend auf Bereitschaft und Risiko. Um Duplizierungen zu vermeiden, wählen Sie Tastenkombinationen aus. Wählen Sie die Spiegelung aus, wenn Konsistenz, Leistung oder Compliance die Duplizierungskosten überwiegen.

  5. Surface Azure Databricks gibt in OneLake aus. Azure Databricks produziert häufig bereits kuratierte Analysedaten. Bewährte Methoden: Halten Sie Databricks-Pipelines aktiv und machen Sie die endgültigen Gold-Ausgaben in OneLake sichtbar. Entscheidungsleitfaden: Wählen Sie Tastenkombinationen aus, um die Replikation zu vermeiden, und wenn der Remotezugriff den Anforderungen entspricht. Wählen Sie Spiegelung aus, wenn Governance- oder Verbrauchsmuster lokale Daten erfordern.

  6. Trennen Sie interne und externe Datenaufnahme. Interne Analysedaten und extern zugängliche Daten erfordern unterschiedliche Steuerelemente. Bewährte Methoden: Erstellen Sie separate Arbeitsbereiche oder Seebereiche für externe Datenprodukte. Speichern Sie nur genehmigte externe Datasets an diesen Speicherorten. Entscheidungsleitfaden: Entscheiden Sie frühzeitig, ob Daten interne Entscheidungen oder externe Freigaben unterstützen. Wählen Sie die physische Trennung aus, um die versehentliche Exposition zu reduzieren und die Durchsetzung von Sicherheitsrichtlinien zu vereinfachen.

2. Festlegen von Datentransformationsstandards

Das Abrufen von Daten in OneLake ist nur der erste Schritt. Der reale Wert kommt aus der Umwandlung von Rohdaten in hochwertige, einsatzbereite Datenprodukte. Führungskräfte entwerfen keine Pipelines, sondern definieren Plattformen und Architekturstandards, die Fragmentierung verhindern. Empfehlung: Standardisieren Sie Transformationsplattformen und stellen Sie eine konsistente Verfeinerungsarchitektur sicher. Verwenden Sie die folgende Checkliste, um diese Empfehlung anzuwenden:

2.1. Verwenden der richtigen Datenplattform

Ihre Wahl der Plattform legt betriebliche Anforderungen für Ihre Datenprodukte in Microsoft- und Azure-Umgebungen fest. Empfehlung: Für jedes Datenprodukt sollten Sie Einfachheit und Integration mit der Notwendigkeit spezialisierter Engineering-Funktionen in Einklang bringen. Verwenden Sie die folgende Checkliste, um diese Empfehlung anzuwenden:

  1. Fabric (Standard) Fabric stellt integrierte Daten-Engineering-, Analyse- und BI-Engines bereit, die direkt auf OneLake arbeiten, der als der einheitlich verwaltete Datenbestand der Organisation fungiert. Bewährte Methoden: Verwenden Sie Fabric für Standardanalysen, Berichte und Datenvorbereitungen. Bevorzugen Sie systemeigene Fabric-Engines wie Dataflows Gen2, Spark und SQL, um die Zugriffssteuerung, Linienverwaltung und Kostenverwaltung zu vereinfachen. Verwenden Sie OneLake als einzelne Speicherebene. Entscheidungsleitfaden: Wählen Sie "Fabric" aus, wenn die Anforderungen mit den integrierten Funktionen übereinstimmen und die Führung einheitliche Governance und Abrechnung wertschätzt. Akzeptieren Sie eingeschränkte Anpassungen im Austausch für einen geringeren Betriebsaufwand.

  2. Azure Databricks Viele Personen bevorzugen Azure Databricks. Es unterstützt umfangreiche Verarbeitungs- und erweiterte Machine Learning-Szenarien. Bewährte Methoden: Verwenden Sie Databricks weiterhin, wo bereits Expertise oder Skalierung vorhanden ist. Stellen Sie sicher, dass Ausgaben in OneLake landen oder über OneLake-Verknüpfungen verbunden werden, damit Governance, Sicherheit und Erkennung zentralisiert bleiben. Entscheidungsleitfaden: Wählen Sie Databricks aus, wenn Fabric die aktuellen Anforderungen nicht erfüllt. Akzeptieren Sie einen höheren Integrations- und Qualifikationsaufwand als Kompromiss.

  3. Erzwingen Sie Plattformbesitzgrenzen. Klare Plattformgrenzen verhindern doppelte Kosten und inkonsistente Logik über Systeme hinweg. Bewährte Methoden: Weisen Sie jeder Arbeitsauslastungsklasse die Verantwortung einer Plattform zu. Fordern Sie eine Architekturüberprüfung vor der Genehmigung der plattformübergreifenden Verarbeitung an. Entscheidungsleitfaden: Entscheiden Sie, welche Plattform die Aufnahme, Transformation und Analyseergebnisse besitzt. Verhindern Sie doppelte Transformationen und überlappende Pipelines, die dasselbe Geschäftsergebnis liefern.

2.2. Anwenden der Medallion-Architektur

Die Medaillon-Architektur schafft Vertrauen, Konsistenz und Governance für alle Datenprodukte, indem ein klarer Fortschritt von Rohdaten zu geschäftsfertigen Ergebnissen definiert wird. Empfehlung: Fordern Sie, dass alle Datenprodukte in OneLake der Bronze-, Silber- und Goldstruktur folgen und Abkürzungen, die diese Schichten umgehen, verbieten. Verwenden Sie die folgende Checkliste, um diese Empfehlung anzuwenden:

  1. Vorgabe einer Bronzeschicht als maßgebliches System (Rohdatenaufnahme): Die Bronzeschicht erfasst die Daten genau so, wie sie in OneLake eintreffen, und bewahrt die originale Quelltreue. Bewährte Methoden: Speichern von Daten als "Nur anfügen" und "unveränderlich". Korrekturen oder Anreicherungen in dieser Phase verbieten. Jedes eingehende Dataset muss zuerst in Bronze landen. Entscheidungsleitfaden: Entscheiden Sie, dass Bronze nur existiert, um die Wahrheit aus Quellsystemen zu erhalten. Akzeptieren Sie langsamere Nutzbarkeit im Austausch für Auditierbarkeit und Rückverfolgbarkeit.

  2. Definieren Sie die Silberschicht als vertrauenswürdige Ansicht. Die Silberschicht enthält validierte, standardisierte und gereinigte Daten, auf die Teams für eine konsistente Analyse angewiesen sind. Bewährte Methoden: Wenden Sie Datenqualitätsregeln, Formatausrichtung und grundlegende Geschäftsüberprüfung an. Dokumentieren Sie Silver Datasets klar und verwalten Sie Änderungen durch Governance-Prozesse. Entscheidungsleitfaden: Wählen Sie Silber als maßgebliche gesäuberte Ebene aus. Untersagen Sie Teams, rohe Daten unabhängig neu zu bereinigen, da dies zu widersprüchlichen Interpretationen führt.

  3. Gold (Geschäftskontext, Datenprodukte): Zertifizieren Sie Gold-Datasets als Geschäftsdatenprodukte. Die Goldschicht liefert geregelte Datenprodukte, die Führungskräfte für Entscheidungen, Leistungsnachverfolgung und Berichterstellung verwenden. Bewährte Methoden: Ausrichten von Golddaten an genehmigten Geschäftsdefinitionen und Metriken. Optimieren Sie Strukturen für den Verbrauch. Registrieren Sie jedes Gold-Dataset als Datenprodukt in Microsoft Purview mit Eigentum, Zweck und Aktualisierungsdetails. Entscheidungsleitfaden: Entscheiden Sie, dass jedes Dataset, das in Teams oder für Entscheidungen verwendet wird, in Gold vorhanden sein muss. Ablehnen nicht verwalteter oder nicht zertifizierter Datasets, die Governance umgehen.

  4. Erstellen Sie sanitisierte Produkte für die externe Verwendung. Für die externe Freigabe ist eine bewusste Trennung von internen Betriebsdaten erforderlich. Bewährte Methoden: Erstellen Sie kuratierte Datasets, mit denen vertrauliche Felder entfernt oder maskiert werden, und reduzieren Sie bei Bedarf Details. Weisen Sie Besitz zu, und wenden Sie eindeutige Bezeichnungen an, z. B. öffentliche oder externe Verwendung. Speichern Sie diese Datasets an genehmigten Speicherorten. Entscheidungsleitfaden: Wählen Sie aus, externe Datasets als unabhängige Produkte zu behandeln. Akzeptieren Sie zusätzliche Governance-Prozesse, um rechtliche und Sicherheitsrisiken zu reduzieren.

Fabric unterstützt dieses Modell durch materialisierte Seeansichten , die die Transformationen automatisch verwalten können. Siehe Medallion Lakehouse Architecture in Fabric. Eine Analysearchitektur finden Sie unter Analytics End-to-End mit Microsoft Fabric.

Tabelle. Beispiel für Medaillon-Architektur. Goldschicht kombiniert Daten aus zwei Datasets.

Dataset Ebene Beispieldaten Was ist passiert
Verkaufstransaktionen Bronze OrderID=984321 · StoreID=17 · Amount="1,200" · TxnDate="2026-01-05T14:32:09Z" Dieser Datensatz wurde genau so übermittelt, wie er vom Vertriebssystem gesendet wurde. Der Betrag ist Text. Zeitstempel folgt dem Systemformat. Keine Bedeutung wird zugewiesen.
Silber OrderID=984321 · StoreID=17 · Betrag=1200,00 · TxnDate=2026-01-05 Die Transaktion wird standardisiert und validiert. Der Betrag ist numerisch. Das Datum folgt den Unternehmensrichtlinien. Daten sind jetzt vertrauenswürdig.
Store-Referenz Bronze StoreID="17" · RegionName="EAST " Dieser Datensatz wurde von einem Standortsystem abgerufen. Die Formatierung spiegelt die Quelle wider.
Silber StoreID=17 · Region=Ost Geschäftskennungen stimmen mit Verkaufsdaten überein. Die Regionenwerte werden bereinigt und sind konsistent.
Täglicher Umsatz nach Region Gold Region=Ost · Datum=2026-01-05 · TotalRevenue=425000 Dieser Wert kombiniert Silver-Verkaufstransaktionen mit Referenzdaten des Silver-Shops. Einzelne Datensätze werden zusammengefasst, um eine Geschäftsfrage zu beantworten.

2.3. Berücksichtigen einer adaptiven Goldschicht

Adaptives Gold ist hier als zukunftsorientierte Berücksichtigung enthalten. Die Idee ist, dass Sie KI-Agents verwenden, um Goldschichten zu erstellen. Agenten können Muster beobachten, die Sie möglicherweise nicht erkennen können. Wenn Benutzer häufig nach "wichtigsten Kundenproblemen nach Region pro Monat" fragen, können KI-Agents dieses Dataset materialisieren. Diese Funktion wird heute in Microsoft Fabric nicht standardmäßig bereitgestellt. Es wäre erforderlich, einen benutzerdefinierten KI-Agent zu erstellen, der auf Fabric- und Power BI-Telemetrie arbeitet.

3. Festlegen von Datenproduktveröffentlichungsstandards

Veröffentlichungsstandards definieren, wie Ihre Organisation vertrauenswürdige Datenprodukte über Microsoft Fabric OneLake und Microsoft Purview verfügbar macht. Ziel ist es, die Wiederverwendung zu skalieren, Governance zu erzwingen und risiken für Analysen und KI-Workloads zu reduzieren. Empfehlung: Richten Sie einen einzigen Veröffentlichungsstandard ein, mit dem jedes genehmigte Datenprodukt vor der allgemeinen Verwendung auffindbar, geregelt und klar für ein definiertes Publikum bestimmt ist. Verwenden Sie die folgende Checkliste, um diese Empfehlung anzuwenden:

  1. Standardisieren sie die Publikation über den OneLake-Katalog. Der OneLake-Katalog bietet eine einheitliche Zugriffsoberfläche für Datenprodukte auf Fabric- und externen Verarbeitungsplattformen, z. B. Databricks. Bewährte Methoden: Verwenden Sie OneLake als Standardausführungs- und Verbrauchsebene für alle genehmigten Datenprodukte. Behandeln Sie Microsoft Purview als System der Aufzeichnung für Governance und Geschäftsdefinitionen. Diese Ausrichtung ermöglicht es Power BI, Fabric-Daten-Agents und Azure AI Search, Daten konsistent zu nutzen und gleichzeitig die zentrale Governance-Sichtbarkeit zu gewährleisten.

  2. Sicherstellen der Auffindbarkeit. Die Auffindbarkeit stellt sicher, dass Entscheidungsträger und Verbraucher vertrauenswürdige Datenprodukte finden können, ohne sich auf informelles Wissen verlassen zu müssen. Bewährte Methoden: Konfigurieren Sie die Sichtbarkeit des Fabric-Arbeitsbereichs, damit relevante Zielgruppen Elemente entdecken können. Sie benötigen keinen Zugriff, nur die Möglichkeit, den Zugriff anzufordern. Aktivieren Sie Purview-Zugriffsanforderungsworkflows , damit Benutzer die Berechtigung direkt aus dem Katalog anfordern können. Entscheidungsleitfaden: Wählen Sie eine breite Auffindbarkeit, wenn das Ziel die domänenübergreifende Wiederverwendung ist. Wählen Sie eingeschränkte Auffindbarkeit aus, wenn behördliche oder Vertraulichkeitseinschränkungen gelten. Gleichen Sie die Sichtbarkeit mit Zugriffskontrollen aus, anstatt Vermögenswerte zu verbergen.

  3. Metadata-Anreicherung bei der Veröffentlichung vorschreiben. Metadaten bieten Kontext, mit dem Führungskräfte Fitness, Vertrauen und Wiederverwendung eines Datenprodukts bewerten können. Bewährte Methoden: Benötigen Sie beschreibende Metadaten bei der Veröffentlichung. Verwenden Sie Tags in Fabric , um Produkte nach Geschäftsdomäne oder Initiative zu klassifizieren. Stellen Sie sicher, dass Beschreibungen den Zweck und den Datenbereich erläutern. Diese Vorgehensweise unterstützt die Katalogsuche und verbessert das Vertrauen in die Wiederverwendung. Entscheidungsleitfaden: Entscheiden Sie, ob die Metadatenanforderungen minimal bleiben oder ein Standardschema erzwingen. Wählen Sie ein Standardschema aus, wenn die Organisation mehrere Domänen betreibt und Konsistenz benötigt. Wählen Sie einen leichteren Ansatz für frühe Reifephasen aus.

  4. Befürworten und zertifizieren Sie bei Bedarf. Definieren Sie Die Bestätigungs- und Zertifizierungskriterien. Die Bestätigung signalisiert die Reife der Vertrauensebene und der Governance für die Organisation. Bewährte Methoden: Verwenden Sie "Empfohlen", um von Ihrem Bereich empfohlene Produkte anzugeben. Verwenden Sie "Zertifiziert", um Produkte anzugeben, die eine formale Governance-Überprüfung bestanden haben. Wenden Sie die Zertifizierung auf Gold-Datasets an, die Geschäftsleitungsberichte oder kritische Analysen unterstützen. Referenz-Fabric-Bestätigungsleitfaden bei der Bestätigung. Entscheidungsleitfaden: Entscheiden Sie, welche Produkte eine Zertifizierung erfordern. Wählen Sie die obligatorische Zertifizierung für leitende oder behördliche Arbeitslasten aus. Wählen Sie optionale Zertifizierung aus, wenn Geschwindigkeit und Experiment Priorität haben. Akzeptieren Sie langsameres Onboarding als Kompromiss zugunsten höherer Vertrauenswürdigkeit.

  5. Veröffentlichen Sie als Datenprodukt in Purview. Purview-Datenprodukte bieten eine ansicht höherer Ebene, die Ressourcen in einem verwalteten Produktlebenszyklus gruppiert. Bewährte Methoden: Erstellen Sie einen Purview-Datenprodukteintrag für jedes veröffentlichte Datenprodukt. Schließen Sie Produktname, Beschreibung, Besitzer, Qualitätsstatus und zugehörige Objekte ein, z. B. Tabellen, Modelle und Berichte. Verweis auf Datenprodukte im einheitlichen Katalog. Entscheidungsleitfaden: Entscheiden Sie, ob Purview-Datenprodukte für alle veröffentlichten Ressourcen oder nur für strategische Produkte erforderlich sind. Wählen Sie die vollständige Abdeckung aus, wenn die Sichtbarkeit des Portfolios wichtig ist. Wählen Sie selektive Abdeckung aus, wenn die Governancekapazität begrenzt ist.

  6. Deklarieren Sie beabsichtigte Zielgruppe und Verwendung. Klare Absicht verhindert Missbrauch und unterstützt Compliance in Analyse- und KI-Szenarien. Bewährte Methoden: Fordern Sie jedes Datenprodukt an, seine beabsichtigte Zielgruppe und den unterstützten Workloadtyp anzugeben. Geben Sie interne, partner- oder öffentliche Verwendung an. Identifizieren Sie KI-, Analyse-, BI- oder öffentliche Webszenarien. Verwenden Sie Purview-Metadaten, Glossarbegriffe und Vertraulichkeitsbezeichnungen zusammen, um diese Absicht konsistent auszudrücken. Entscheidungsleitfaden: Entscheiden Sie, ob die Verwendung externer oder die Verwendung durch Agenten eine zusätzliche Genehmigung erfordert. Wählen Sie eine strengere Genehmigung aus, wenn Daten Organisationsgrenzen verlassen. Akzeptieren Sie langsamere Veröffentlichung als Kompromiss für reduziertes Risiko.

Nächster Schritt