In der in diesem Artikel beschriebenen Lösung werden verschiedene Azure-Dienste kombiniert, mit denen Daten und Erkenntnisse aus unterschiedlichen Quellen (strukturiert, halb strukturiert, unstrukturiert und Streaming) erfasst, gespeichert, verarbeitet, angereichert und bereitgestellt werden.
Aufbau
Laden Sie eine Visio-Datei mit dieser Architektur herunter.
Hinweis
- Die durch diese Architektur abgedeckten Dienste sind nur eine Teilmenge einer viel umfangreicheren Familie von Azure-Diensten. Ähnliche Ergebnisse lassen sich erzielen, indem andere Dienste oder Features genutzt werden, die hier nicht zum Einsatz kommen.
- Bestimmte Geschäftsanforderungen für Ihren Analyseanwendungsfall könnten die Verwendung von anderen Diensten oder Features erfordern, die mit diesem Entwurf nicht abgedeckt sind.
Datenfluss
Die von der Architektur abgedeckten Anwendungsfälle für Analysen werden durch die verschiedenen Datenquellen auf der linken Seite des Diagramms dargestellt. Die Daten durchlaufen die Lösung wie folgt (von unten nach oben):
Hinweis
In den folgenden Abschnitten wird Azure Data Lake als Basis für Daten in den verschiedenen Phasen des Datenlebenszyklus verwendet. Azure Data Lake ist in verschiedenen Ebenen und Container wie folgt organisiert:
- Die Rohebene (Raw) ist der Eingangsbereich für Daten, die aus Quellsystemen eingehen. Wie der Name impliziert, befinden sich Daten auf dieser Ebene in unformatierter, ungefilterter und nicht bereinigter Form.
- In der nächsten Phase des Lebenszyklus werden die Daten auf die angereicherte Ebene (Enriched) verschoben, auf der Daten bereinigt, gefiltert und möglicherweise transformiert werden.
- Anschließend werden die Daten auf die kuratierte Ebene (Curated) verschoben, wo für den Consumer bereite Daten gepflegt werden.
Lesen Sie die Dokumentation zu Data Lake-Zonen und -Container, um eine vollständige Besprechung der Azure Data Lake-Ebenen und -Container und deren Verwendungszwecke zu erhalten.
Azure-Datendienste, cloudnatives HTAP mit Azure Cosmos DB und Dataverse
Prozess
Azure Synapse Link für Azure Cosmos DB und Azure Synapse Link for Dataverse ermöglichen Ihnen das Ausführen von Analysen für operative und Geschäftsanwendungsdaten nahezu in Echtzeit mithilfe der Analyse-Engines, die in Ihrem Azure Synapse-Arbeitsbereich verfügbar sind: SQL Serverless und Spark Pools.
Wenn Sie Azure Synapse Link für Azure Cosmos DB einsetzen, verwenden Sie entweder eine Abfrage mit serverlosem SQL oder ein Spark-Pool-Notebook. Sie können auf den Azure Cosmos DB-Analysespeicher zugreifen und dann Datasets aus Ihren beinahe Echtzeitbetriebsdaten mit Daten aus Ihrem Data Lake oder aus Ihrem Data Warehouse kombinieren.
Wenn Sie Azure Synapse Link for Dataverse verwenden, verwenden Sie entweder eine Abfrage mit serverlosem SQL oder ein Spark-Pool-Notebook. Sie können auf die ausgewählten Dataverse-Tabellen zugreifen und dann Datasets aus Ihren beinahe Echtzeit-Geschäftsanwendungsdaten mit Daten aus Ihrem Data Lake oder aus Ihrem Data Warehouse kombinieren.
Speicher
- Die resultierenden Datasets aus Ihren SQL (serverlos)-Abfragen können dauerhaft in Ihrem Data Lake gespeichert werden. Wenn Sie Spark-Notebooks verwenden, können die resultierenden Datasets dauerhaft entweder in Ihrem Data Lake oder Data Warehouse (SQL-Pool) gespeichert werden.
Serve
Laden Sie relevante Daten aus dem Azure Synapse SQL-Pool oder Data Lake in Power BI-Datasets, um die Datenvisualisierung und -untersuchung zu ermöglichen. Mit Power BI-Modellen wird ein semantisches Modell implementiert, um die Analyse von Geschäftsdaten und Beziehungen zu vereinfachen. Wirtschaftsanalytiker nutzen Power BI-Berichte und -Dashboards, um Daten zu analysieren und geschäftliche Erkenntnisse zu gewinnen.
Daten können auch mithilfe von Azure Data Share sicher für andere Geschäftseinheiten oder externe vertrauenswürdige Partner freigegeben werden. Datenconsumer können frei wählen, welches Datenformat sie verwenden möchten und welche Compute-Engine sich am besten für die Verarbeitung der freigegebenen Datasets eignet.
In Ihrem Synapse-Arbeitsbereich gespeicherte strukturierte und unstrukturierte Daten können auch verwendet werden, um Knowledge Mining-Lösungen zu erstellen und KI zu verwenden, um verschiedene Dokumenttypen und Formate einschließlich Office-Dokumente, PDFs, Bilder, Audiodateien, Formulare und Webseiten übergreifend wertvolle Geschäftserkenntnisse zu gewinnen.
Relationale Datenbanken
Erfassen
- Es werden Azure Synapse-Pipelines verwendet, um Daten per Pullvorgang aus den unterschiedlichsten Datenbanken abzurufen – sowohl lokal als auch in der Cloud. Pipelines können basierend auf einem vordefinierten Zeitplan oder als Reaktion auf ein Ereignis ausgelöst oder explizit über REST-APIs aufgerufen werden.
Speicher
Innerhalb der Data Lake-Ebene „Raw“ organisieren Sie Ihren Data Lake mithilfe der folgenden bewährten Methoden zur Feststellung, welche Ebenen zu erstellen sind, welche Ordnerstrukturen auf den einzelnen Ebenen verwendet werden sollen und welches Dateiformat für die einzelnen Analyseszenarios verwendet werden soll.
Verwenden Sie in der Azure Synapse-Pipeline eine Aktivität „Daten kopieren“, um die aus den relationalen Datenbanken kopierten Daten auf die Raw-Ebene Ihres Azure Data Lake Store Gen 2 Data Lakes zu stagen. Sie können die Daten in einem Textformat mit Trennzeichen oder komprimiert als Parquet-Dateien speichern.
Prozess
Verwenden Sie entweder Datenflüsse, serverlose SQL-Abfragenoder Spark-Notebooks, um die Datasets auf der Rohebene zu überprüfen, zu transformieren und über die angereicherte Ebene auf Ihre kuratierte Ebene in Ihrem Data Lake zu verschieben.
- Im Rahmen Ihrer Datentransformationen können Sie maschinelle Trainingsmodelle aus Ihren SQL-Pools mittels Standard-T-SQL oder Spark-Notebooks aufrufen. Diese ML-Modelle können verwendet werden, um Ihre Datasets anzureichern und weitere Geschäftserkenntnisse zu generieren. Diese Machine Learning-Modelle können von Azure Cognitive Services oder benutzerdefinierten ML-Modellen von Azure ML verwendet werden.
Serve
Sie können Ihr endgültiges Dataset direkt von der kuratierten Ebene (Curated) des Data Lake bereitstellen, oder Sie können die Aktivität „Daten kopieren“ verwenden, um das endgültige Dataset in Ihren SQL-Pooltabellen zu erfassen, wobei Sie den COPY-Befehl für eine schnelle Erfassung verwenden.
Laden Sie relevante Daten aus dem Azure Synapse SQL-Pool in Power BI-Datasets, um die Datenvisualisierung zu ermöglichen. Mit Power BI-Modellen wird ein semantisches Modell implementiert, um die Analyse von Geschäftsdaten und Beziehungen zu vereinfachen. Wirtschaftsanalytiker nutzen Power BI-Berichte und -Dashboards, um Daten zu analysieren und geschäftliche Erkenntnisse zu gewinnen.
Daten können auch mithilfe von Azure Data Share sicher für andere Geschäftseinheiten oder externe vertrauenswürdige Partner freigegeben werden. Datenconsumer können frei wählen, welches Datenformat sie verwenden möchten und welche Compute-Engine sich am besten für die Verarbeitung der freigegebenen Datasets eignet.
In Ihrem Synapse-Arbeitsbereich gespeicherte strukturierte und unstrukturierte Daten können auch verwendet werden, um Knowledge Mining-Lösungen zu erstellen und KI zu verwenden, um verschiedene Dokumenttypen und Formate einschließlich Office-Dokumente, PDFs, Bilder, Audiodateien, Formulare und Webseiten übergreifend wertvolle Geschäftserkenntnisse zu gewinnen.
Halb strukturierte Datenquellen
Erfassen
Es werden Azure Synapse-Pipelines verwendet, um Daten per Pullvorgang aus den unterschiedlichsten Datenquellen mit halb strukturierten Daten abzurufen – sowohl lokal als auch in der Cloud. Beispiel:
- Sie können Daten aus dateibasierten Quellen erfassen, die CSV- oder JSON-Dateien enthalten.
- Sie können Verbindungen mit NoSQL-Datenbanken wie Azure Cosmos DB oder MongoDB herstellen.
- Sie können von SaaS-Anwendungen bereitgestellte REST-APIs aufrufen, die als Datenquelle für die Pipeline fungieren.
Speicher
Innerhalb der Data Lake-Ebene „Raw“ organisieren Sie Ihren Data Lake mithilfe der folgenden bewährten Methoden zur Feststellung, welche Ebenen zu erstellen sind, welche Ordnerstrukturen auf den einzelnen Ebenen verwendet werden sollen und welches Dateiformat für die einzelnen Analyseszenarios verwendet werden soll.
Verwenden Sie in der Azure Synapse-Pipeline eine Aktivität „Daten kopieren“, um die aus den halb strukturierten Datenquellen kopierten Daten auf die Raw-Ebene Ihres Azure Data Lake Store Gen 2 Data Lakes zu stagen. Speichern Sie Daten unter Beibehaltung des Originalformats, wie sie aus den Datenquellen abgerufen wurden.
Prozess
Verwenden Sie für Batch-/Mikrobatchpipelines entweder Datenflüsse, serverlose SQL-Abfragen oder Spark-Notebooks, um Ihre Datasets zu überprüfen, zu transformieren und auf Ihre kuratierte Ebene in Ihrem Data Lake zu verschieben. Serverlose SQL-Abfragen machen zugrunde liegende CSV-, Parquet- oder JSON-Dateien als externe Tabellen verfügbar, sodass sie mit T-SQL abgefragt werden können.
- Im Rahmen Ihrer Datentransformationen können Sie Machine Learning-Modelle aus Ihren SQL-Pools mittels Standard-T-SQL oder Spark-Notebooks aufrufen. Diese ML-Modelle können verwendet werden, um Ihre Datasets anzureichern und weitere Geschäftserkenntnisse zu generieren. Diese Machine Learning-Modelle können von Azure Cognitive Services oder benutzerdefinierten ML-Modellen von Azure ML verwendet werden.
Verwenden Sie für Szenarien mit nahezu Echtzeittelemetrie und Zeitreihenanalyse Data Explorer-Pools, um Protokolle und IoT-Ereignisdaten mehrere Datenquellen übergreifend einfach zu erfassen, zu konsolidieren und zu korrelieren. Mit Data Explorer-Pools können Sie Kusto-Abfragen (KQL) verwenden, um Zeitreihenanalysen, Geoclustering und Machine Learning-Anreicherung durchzuführen.
Serve
Sie können Ihr endgültiges Dataset direkt von der kuratierten Ebene (Curated) des Data Lake bereitstellen, oder Sie können die Aktivität „Daten kopieren“ verwenden, um das endgültige Dataset in Ihren SQL-Pooltabellen zu erfassen, wobei Sie den COPY-Befehl für eine schnelle Erfassung verwenden.
Laden Sie relevante Daten aus den Azure Synapse-SQL-Pools, Data Explorer-Pools oder einem Data Lake zur Datenvisualisierung in Power BI-Datasets. Mit Power BI-Modellen wird ein semantisches Modell implementiert, um die Analyse von Geschäftsdaten und Beziehungen zu vereinfachen. Wirtschaftsanalytiker nutzen Power BI-Berichte und -Dashboards, um Daten zu analysieren und geschäftliche Erkenntnisse zu gewinnen.
Daten können auch mithilfe von Azure Data Share sicher für andere Geschäftseinheiten oder externe vertrauenswürdige Partner freigegeben werden. Datenconsumer können frei wählen, welches Datenformat sie verwenden möchten und welche Compute-Engine sich am besten für die Verarbeitung der freigegebenen Datasets eignet.
In Ihrem Synapse-Arbeitsbereich gespeicherte strukturierte und unstrukturierte Daten können auch verwendet werden, um Knowledge Mining-Lösungen zu erstellen und KI zu verwenden, um verschiedene Dokumenttypen und Formate einschließlich Office-Dokumente, PDFs, Bilder, Audiodateien, Formulare und Webseiten übergreifend wertvolle Geschäftserkenntnisse zu gewinnen.
Unstrukturierte Datenquellen
Erfassen
Verwenden Sie Azure Synapse-Pipelines, um Daten per Pull aus den unterschiedlichsten Datenquellen mit unstrukturierten Daten abzurufen – sowohl lokal als auch in der Cloud. Beispiel:
- Sie können Videos, Bilder, Audiodaten oder freien Text aus dateibasierten Quellen erfassen, die die Quelldateien enthalten.
- Sie können von SaaS-Anwendungen bereitgestellte REST-APIs aufrufen, die als Datenquelle für die Pipeline fungieren.
Speicher
Innerhalb der Data Lake-Ebene „Raw“ organisieren Sie Ihren Data Lake mithilfe der folgenden bewährten Methoden zur Feststellung, welche Ebenen zu erstellen sind, welche Ordnerstrukturen auf den einzelnen Ebenen verwendet werden sollen und welches Dateiformat für die einzelnen Analyseszenarios verwendet werden soll.
Verwenden Sie in der Azure Synapse-Pipeline eine Aktivität „Daten kopieren“, um die aus den unstrukturierten Datenquellen kopierten Daten auf die Raw-Ebene Ihres Azure Data Lake Store Gen 2 Data Lakes zu stagen. Speichern Sie Daten unter Beibehaltung des Originalformats, in dem sie aus den Datenquellen abgerufen wurden.
Prozess
Verwenden Sie Spark-Notebooks, um Ihre Datasets auf der Rohebene zu überprüfen, zu transformieren, anzureichern und über die angereicherte Ebene auf Ihre kuratierte Ebene in Ihrem Data Lake zu verschieben.
- Im Rahmen Ihrer Datentransformationen können Sie Machine Learning-Modelle aus Ihren SQL-Pools mittels Standard-T-SQL oder Spark-Notebooks aufrufen. Diese ML-Modelle können verwendet werden, um Ihre Datasets anzureichern und weitere Geschäftserkenntnisse zu generieren. Diese Machine Learning-Modelle können von Azure Cognitive Services oder benutzerdefinierten ML-Modellen von Azure ML verwendet werden.
Serve
Sie können Ihr endgültiges Dataset direkt von der kuratierten Ebene (Curated) des Data Lake bereitstellen, oder Sie können die Aktivität „Daten kopieren“ verwenden, um das endgültige Dataset in Ihren Data Warehouse-Tabellen zu erfassen, wobei Sie den COPY-Befehl für eine schnelle Erfassung verwenden.
Laden Sie relevante Daten aus dem Azure Synapse SQL-Pool in Power BI-Datasets, um die Datenvisualisierung zu ermöglichen. Mit Power BI-Modellen wird ein semantisches Modell implementiert, um die Analyse von Geschäftsdaten und Beziehungen zu vereinfachen.
Wirtschaftsanalytiker nutzen Power BI-Berichte und -Dashboards, um Daten zu analysieren und geschäftliche Erkenntnisse zu gewinnen.
Daten können auch mithilfe von Azure Data Share sicher für andere Geschäftseinheiten oder externe vertrauenswürdige Partner freigegeben werden. Datenconsumer können frei wählen, welches Datenformat sie verwenden möchten und welche Compute-Engine sich am besten für die Verarbeitung der freigegebenen Datasets eignet.
In Ihrem Synapse-Arbeitsbereich gespeicherte strukturierte und unstrukturierte Daten können auch verwendet werden, um Knowledge Mining-Lösungen zu erstellen und KI zu verwenden, um verschiedene Dokumenttypen und Formate einschließlich Office-Dokumente, PDFs, Bilder, Audiodateien, Formulare und Webseiten übergreifend wertvolle Geschäftserkenntnisse zu gewinnen.
Streaming
Erfassen
- Verwenden Sie Azure Event Hubs oder Azure IoT Hubs, um Datenströme zu erfassen, die von Clientanwendungen oder IoT-Geräten generiert wurden. Event Hubs oder IoT Hub führt dann die Erfassung und Speicherung von Streamingdaten durch, wobei die Folge der empfangenen Ereignisse beibehalten wird. Consumer können dann eine Verbindung mit Event Hubs oder IoT Hub herstellen und Nachrichten zur Verarbeitung abrufen.
Speicher
Innerhalb der Data Lake-Ebene „Raw“ organisieren Sie Ihren Data Lake mithilfe der folgenden bewährten Methoden zur Feststellung, welche Ebenen zu erstellen sind, welche Ordnerstrukturen auf den einzelnen Ebenen verwendet werden sollen und welches Dateiformat für die einzelnen Analyseszenarios verwendet werden soll.
Konfigurieren Sie Event Hubs Capture oder IoT Hub-Speicherendpunkte, um eine Kopie der Ereignisse auf der Raw-Ebene Ihres Azure Data Lake Store Gen 2 Data Lakes zu speichern. Mit diesem Feature wird der „kalte Pfad“ des Lambda-Architekturmusters implementiert, und Sie können Verlaufs- und Trendanalysen mit den in Ihrem Data Lake gespeicherten Daten des Datenstroms durchführen, indem Sie SQL (serverlos)-Abfragen oder Spark-Notebooks verwenden und sich dabei an das oben beschriebene Muster für halb strukturierte Datenquellen halten.
Prozess
Verwenden Sie für Einblicke in Echtzeit einen Stream Analytics-Auftrag, um den „heißen Pfad“ des Lambda-Architekturmusters zu implementieren und Erkenntnisse aus dem übertragenen Datenstrom abzuleiten. Definieren Sie mindestens eine Eingabe für den Datenstrom von Ihren Event Hubs oder IoT Hub, eine Abfrage zur Verarbeitung des Eingabedatenstroms und eine Power BI-Ausgabe für den Ort, an den die Abfrageergebnisse gesendet werden.
- Im Rahmen Ihrer Datenverarbeitung mit Stream Analytics können Sie Machine Learning-Modelle aufrufen, um Ihre Streamdatasets anzureichern und Geschäftsentscheidungen auf Grundlage der generierten Vorhersagen zu treffen. Diese Machine Learning-Modelle können von Azure Cognitive Services oder benutzerdefinierten ML-Modellen in Azure Machine Learning verwendet werden.
Verwenden Sie andere Stream Analytics-Auftragsausgaben, um verarbeitete Ereignisse an Azure Synapse-SQL-Pools oder Data Explorer-Pools zu senden, um weitere Anwendungsfälle für die Analyse zu erhalten.
Verwenden Sie für Szenarien mit beinahe Echtzeittelemetrie und Zeitreihenanalyse Data Explorer-Pools, um IoT-Ereignisse problemlos direkt aus Event Hubs oder IoT Hubs zu erfassen. Mit Data Explorer-Pools können Sie Kusto-Abfragen (KQL) verwenden, um Zeitreihenanalysen, Geoclustering und Machine Learning-Anreicherung durchzuführen.
Serve
Wirtschaftsanalytiker verwenden dann Power BI-Echtzeitdatasets und die entsprechenden Dashboardfunktionen, um die sich schnell ändernden Erkenntnisse zu visualisieren, die von Ihrer Stream Analytics-Abfrage generiert werden.
Daten können auch mithilfe von Azure Data Share sicher für andere Geschäftseinheiten oder externe vertrauenswürdige Partner freigegeben werden. Datenconsumer können frei wählen, welches Datenformat sie verwenden möchten und welche Compute-Engine sich am besten für die Verarbeitung der freigegebenen Datasets eignet.
In Ihrem Synapse-Arbeitsbereich gespeicherte strukturierte und unstrukturierte Daten können auch verwendet werden, um Knowledge Mining-Lösungen zu erstellen und KI zu verwenden, um verschiedene Dokumenttypen und Formate einschließlich Office-Dokumente, PDFs, Bilder, Audiodateien, Formulare und Webseiten übergreifend wertvolle Geschäftserkenntnisse zu gewinnen.
Komponenten
In der Architektur wurden die folgenden Azure-Dienste verwendet:
- Azure Synapse Analytics
- Azure Data Lake Gen2
- Azure Cosmos DB
- Azure Cognitive Services
- Azure Machine Learning
- Azure Event Hubs
- Azure IoT Hub
- Azure Stream Analytics
- Microsoft Purview
- Azure Data Share
- Microsoft Power BI
- Microsoft Entra ID
- Microsoft Cost Management
- Azure Key Vault
- Azure Monitor
- Microsoft Defender für Cloud
- Azure DevOps
- Azure Policy
- GitHub
Alternativen
In der obigen Architektur sind Azure Synapse-Pipelines für die Orchestrierung der Datenpipeline zuständig. Azure Data Factory-Pipelines bieten ebenfalls dieselben Funktionen, wie in diesem Artikel beschrieben.
Azure Databricks kann auch als Compute-Engine verwendet werden, um strukturierte und unstrukturierte Daten direkt im Data Lake zu verarbeiten.
In der obigen Architektur ist Azure Stream Analytics der Dienst, der für die Verarbeitung der Streamingdaten zuständig ist. Azure Synapse Spark-Pools und Azure Databricks können ebenfalls genutzt werden, um diese Aufgabe per Ausführung von Notebooks zu erledigen.
Azure HDInsight Kafka-Cluster können auch zum Erfassen von Streamingdaten verwendet werden und bieten das richtige Maß an Leistung und Skalierbarkeit, das für große Streamingworkloads erforderlich ist.
Sie können auch Azure Functions nutzen, um aus einer Azure Synapse-Pipeline heraus Azure Cognitive Services oder benutzerdefinierte ML-Modelle von Azure Machine Learning aufzurufen.
Vergleiche mit anderen Alternativen finden Sie hier:
- Auswählen einer Technologie für die Datenpipelineorchestrierung in Azure
- Auswählen einer Batchverarbeitungstechnologie in Azure
- Auswählen eines Analysedatenspeichers in Azure
- Auswählen einer Technologie für die Datenanalyse in Azure
- Auswählen einer Technologie für die Datenstromverarbeitung in Azure
Szenariodetails
In diesem Beispielszenario wird veranschaulicht, wie Sie Azure Synapse Analytics mit den vielfältigen Diensten von Azure Data Services nutzen, um eine moderne Datenplattform zu entwickeln, mit der die gängigen Aufgaben der Datenverarbeitung in einer Organisation bewältigt werden können.
Mögliche Anwendungsfälle
Dieser Ansatz kann auch für folgende Zwecke verwendet werden:
- Einrichten einer DATENPRODUKT-Architektur, die aus einem Data Warehouse für strukturierte Daten und einem Data Lake für halb strukturierte und unstrukturierte Daten besteht. Sie können ein einzelnes Datenprodukt für zentralisierte Umgebungen oder mehrere Datenprodukte für verteilte Umgebungen wie Data Mesh bereitstellen. Weitere Informationen finden Sie unter Einführung in die Unternehmensebene für Analysen und KI in Azure.
- Integrieren von relationalen Datenquellen in andere unstrukturierte Datasets mit Nutzung von Big Data-Verarbeitungstechnologie.
- Verwenden von Semantikmodellen und leistungsstarken Visualisierungstools zur Vereinfachung der Datenanalyse
- Freigeben von Datasets innerhalb der Organisation oder für vertrauenswürdige externe Partner.
- Implementieren Sie Knowledge Mining-Lösungen, um wertvolle Geschäftsinformationen zu extrahieren, die in Bildern, PDFs, Dokumenten usw. verborgen sind.
Empfehlungen
Entdecken und Steuern
Data Governance stellt eine häufige Herausforderung in großen Unternehmensumgebungen dar. Einerseits müssen Wirtschaftsanalytiker in der Lage sein, Datenressourcen zu entdecken und zu verstehen, die ihnen bei der Lösung von Geschäftsproblemen helfen können. Auf der anderen Seite wollen Chief Data Officers Erkenntnisse über den Datenschutz und die Sicherheit von Geschäftsdaten.
Microsoft Purview
Verwenden Sie Microsoft Purview für Datenerkennung und Erkenntnisse zu Ihren Datenressourcen, Datenklassifizierungen und Vertraulichkeitsbezeichnungen, die die gesamte Datenlandschaft des Unternehmens abdecken.
Microsoft Purview kann Ihnen dabei helfen, ein Unternehmensglossar mit der spezifischen Unternehmensterminologie zu pflegen, die erforderlich ist, damit die Benutzer die Semantik dessen verstehen, was Datensätze bedeuten und wie sie im gesamten Unternehmen verwendet werden sollen.
Sie können alle Ihre Datenquellen registrieren und in Sammlungen organisieren, was auch als Sicherheitsgrenze für Ihre Metadaten dient.
Richten Sie regelmäßige Überprüfungen ein, um relevante Metadaten über Datenressourcen im Unternehmen automatisch zu katalogisieren und zu aktualisieren. Microsoft Purview kann auch automatisch Datenherkunftsinformationen basierend auf Informationen aus Azure Data Factory- oder Azure Synapse-Pipelines hinzufügen.
Datenklassifizierungs- und Datenvertraulichkeitsbezeichnungen können automatisch zu Ihren Datenressourcen hinzugefügt werden, basierend auf vorkonfigurierten oder benutzerdefinierten Regeln, die während der regelmäßigen Überprüfungen angewendet werden.
Experten für Data Governance können die von Microsoft Purview generierten Berichte und Erkenntnisse nutzen, um die Kontrolle über die gesamte Datenlandschaft zu behalten und das Unternehmen vor Sicherheits- und Datenschutzproblemen zu schützen.
Plattformdienste
Um die Qualität Ihrer Azure-Lösungen zu verbessern, befolgen Sie die Empfehlungen und Richtlinien, die in den fünf Säulen der Architekturexzellenz des Azure Well-Architected Framework definiert sind: Kostenoptimierung, Operational Excellence (optimaler Betrieb), effiziente Leistung, Zuverlässigkeit und Sicherheit.
Gemäß diesen Empfehlungen sollten die folgenden Dienste als Teil des Entwurfs berücksichtigt werden:
- Microsoft Entra ID: Identitätsdienste, einmaliges Anmelden (Single Sign-On, SSO) und Multi-Faktor-Authentifizierung für alle Azure-Workloads.
- Microsoft Cost Management: finanzielle Governance über Ihre Azure-Workloads.
- Azure Key Vault: Sichere Verwaltung von Anmeldeinformationen und Zertifikaten. Beispielsweise können Azure Synapse-Pipelines, Azure Synapse Spark-Pools und Azure ML Anmeldeinformationen und Zertifikate aus Azure Key Vault abrufen, die für den sicheren Zugriff auf Datenspeicher verwendet werden.
- Azure Monitor: Sammeln und Analysieren von sowie Reagieren auf Telemetriedaten Ihrer Azure-Ressourcen, um proaktiv Probleme zu identifizieren und die Leistung und Zuverlässigkeit zu maximieren.
- Microsoft Defender für Cloud: Stärkung und Überwachung des Sicherheitsstatus Ihrer Azure-Workloads.
- Azure DevOps und GitHub: Implementierung von DevOps-Verfahren, um Automatisierung und Compliance für Ihre Workloadentwicklungs- und -bereitstellungs-Pipelines für Azure Synapse und Azure ML durchzusetzen.
- Azure Policy: Implementierung von Unternehmensstandards und Governance für Ressourcenkonsistenz, Einhaltung gesetzlicher Bestimmungen, Sicherheit, Kosten und Verwaltung.
Überlegungen
Diese Überlegungen beruhen auf den Säulen des Azure Well-Architected Frameworks, d. h. einer Reihe von Grundsätzen, mit denen die Qualität von Workloads verbessert werden kann. Weitere Informationen finden Sie unter Microsoft Azure Well-Architected Framework.
Die Technologiekomponenten dieser Architektur wurden ausgewählt, weil sie jeweils über die benötigten Funktionen zur Bewältigung der gängigsten Datenaufgaben einer Organisation verfügen. Diese Dienste erfüllen die Anforderungen an Skalierbarkeit und Verfügbarkeit und ermöglichen gleichzeitig die Kostenkontrolle. Die durch diese Architektur abgedeckten Dienste sind nur eine Teilmenge einer viel umfangreicheren Familie von Azure-Diensten. Ähnliche Ergebnisse lassen sich erreichen, indem andere Dienste oder Features genutzt werden, die hier nicht zum Einsatz kommen.
Bei bestimmten Geschäftsanforderungen für Ihren Analyseanwendungsfall wird ggf. auch nach der Verwendung von anderen Diensten oder Features gefragt, die mit diesem Entwurf nicht abgedeckt sind.
Eine ähnliche Architektur kann auch für Vorproduktionsumgebungen implementiert werden, in denen Sie Ihre Workloads entwickeln und testen können. Berücksichtigen Sie die spezifischen Anforderungen für Ihre Workloads und die Funktionen der einzelnen Dienste für eine kosteneffiziente Vorproduktionsumgebung.
Kostenoptimierung
Bei der Kostenoptimierung geht es um die Suche nach Möglichkeiten, unnötige Ausgaben zu reduzieren und die Betriebseffizienz zu verbessern. Weitere Informationen finden Sie unter Übersicht über die Säule „Kostenoptimierung“.
Im Allgemeinen sollten Sie den Azure-Preisrechner verwenden, um Ihre Kosten zu ermitteln. Der ideale individuelle Tarif und die Gesamtkosten jedes Diensts, der in der Architektur enthalten ist, hängen von der Menge der zu verarbeitenden und zu speichernden Daten und von der erwarteten akzeptablen Leistungsstufe ab. Verwenden Sie den unten angegebenen Leitfaden, um weitere Informationen zu den Preisen für die einzelnen Dienste zu erhalten:
Mit der serverlosen Architektur von Azure Synapse Analytics können Sie Ihre Compute- und Speicherebene unabhängig voneinander skalieren. Computeressourcen werden nutzungsbasiert abgerechnet und können nach Bedarf skaliert oder angehalten werden. Speicherressourcen werden nach Terabyte abgerechnet. Ihre Kosten steigen also, wenn Sie mehr Daten erfassen.
Azure Data Lake Gen 2 wird auf Grundlage der gespeicherten Datenmenge sowie auf Basis der Anzahl der Transaktionen zum Lesen und Schreiben von Daten abgerechnet.
Azure Event Hubs und Azure IoT Hubs werden nach der Menge der Computeressourcen abgerechnet, die für die Verarbeitung Ihrer Nachrichtenströme erforderlich sind.
Die Gebühren für Azure Machine Learning ergeben sich aus der Menge der Computeressourcen, die zum Trainieren und Bereitstellen Ihrer Machine Learning-Modelle verwendet werden.
Cognitive Services werden auf Grundlage der Anzahl der von Ihnen an die Dienst-APIs gesendeten Aufrufe abgerechnet.
Der Preis für Microsoft Purview richtet sich nach der Anzahl der Datenressourcen im Katalog und der Computeleistung, die zu deren Überprüfung erforderlich ist.
Azure Stream Analytics wird auf Grundlage der für die Verarbeitung Ihrer Streamabfragen erforderlichen Computeleistung berechnet.
Power BI bietet verschiedene Produktoptionen für unterschiedliche Anforderungen. Power BI Embedded bietet eine Azure-basierte Option zum Einbetten von Power BI-Funktionen in Ihre Anwendungen. Eine Power BI Embedded-Instanz ist im obigen Preisbeispiel enthalten.
Der Preis für Azure Cosmos DB richtet sich nach der Menge an Speicher- und Computeressourcen, die für Ihre Datenbanken benötigt werden.
Bereitstellen dieses Szenarios
Diese Bereitstellung bietet Ihnen die Möglichkeit, die gesamte Referenzarchitektur zu implementieren oder auszuwählen, welche Workloads Sie für Ihren Analyseanwendungsfall benötigen. Sie können auch auswählen, ob über öffentliche Endpunkte auf Dienste zugegriffen werden kann, oder ob nur über private Endpunkte auf sie zugegriffen werden soll.
Verwenden Sie die folgende Schaltfläche, um die Referenz mithilfe des Azure-Portals bereitzustellen.
Ausführliche Informationen und zusätzliche Bereitstellungsoptionen finden Sie im Bereitstellungshandbuch im GitHub-Repository mit Dokumentation und Code, die zum Definieren dieser Lösung verwendet werden.
Beitragende
Dieser Artikel wird von Microsoft aktualisiert und gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:
Hauptautor:
- Fabio Braga | Principal MTC Technical Architect
Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.
Nächste Schritte
Informieren Sie sich über die Richtlinien, die im Azure-Datenverwaltungs- und -Analyseszenario für eine skalierbare Analyseumgebung in Azure definiert sind.
Weitere Schulungsinhalte und Labs zu den Diensten dieser Referenzarchitektur finden Sie in den Lernpfaden für technische Fachkräfte für Daten bei Microsoft Learn.
Lesen Sie die Dokumentation, und stellen Sie die Referenzarchitektur mithilfe des über GitHub verfügbaren Bereitstellungsbeschleunigers bereit.