Was ist Azure Synapse Link für Azure Cosmos DB?

GILT FÜR: NoSQL MongoDB Gremlin

Azure Synapse Link für Azure Cosmos DB ist eine cloudnative hybride Verarbeitungsfunktion für Transaktionen und Analysen (Hybrid Transactional and Analytical Processing, HTAP), die Quasi-Echtzeit-Analysen für operative Daten in Azure Cosmos DB ermöglicht. Azure Synapse Link sorgt für eine nahtlose Integration zwischen Azure Cosmos DB und Azure Synapse Analytics.

Mithilfe des Azure Cosmos DB-Analysespeichers, einem vollständig isolierten Columnstore, ermöglicht Azure Synapse Link keine maßstabgerechten ETL-Analysen (Extract-Transform-Load) in Azure Synapse Analytics für Ihre operativen Daten. Business Analysts, Data Engineers und Data Scientists können Synapse Spark oder Synapse SQL jetzt austauschbar verwenden, um Business Intelligence-, Analyse- und Machine Learning-Pipelines in Quasi-Echtzeit auszuführen. Dies können Sie erreichen, ohne dass es sich auf die Leistung der Transaktionsworkloads in Azure Cosmos DB auswirkt.

Die folgende Abbildung zeigt die Integration von Azure Synapse Link in Azure Cosmos DB und Azure Synapse Analytics:

Architekturdiagramm für die Integration von Azure Synapse Analytics in Azure Cosmos DB

Um umfangreiche operative Datasets zu analysieren und gleichzeitig die Auswirkungen auf die Leistung unternehmenskritischer Transaktionsworkloads zu minimieren, werden die operativen Daten in Azure Cosmos DB von ETL-Pipelines (Extrahieren, Transformieren, Laden) extrahiert und verarbeitet. ETL-Pipelines erfordern viele Datenverschiebungsebenen, die zu einer starken betrieblichen Komplexität und zu Leistungseinbußen bei ihren Transaktionsworkloads führt. Außerdem nimmt die Wartezeit von der Ursprungszeit zum Analysieren der operativen Daten zu.

Im Vergleich zu herkömmlichen ETL-basierten Lösungen bietet Azure Synapse Link für Azure Cosmos DB mehrere Vorteile, wie z. B.:

Verringerte Komplexität ohne zu verwaltende ETL-Aufträge

Azure Synapse Link ermöglicht Ihnen den direkten Zugriff auf den Azure Cosmos DB-Analysespeicher mithilfe von Azure Synapse Analytics ohne komplexe Datenverschiebungen. Alle Aktualisierungen der operativen Daten werden im Analysespeicher in Quasi-Echtzeit ohne ETL- oder Änderungsfeedaufträge angezeigt. Sie können umfangreiche Analysen für den Analysespeicher von Azure Synapse Analytics ohne eine zusätzliche Datentransformation ausführen.

Einblicke in Ihre operativen Daten in Quasi-Echtzeit

Sie können mit Azure Synapse Link jetzt umfassende Einblicke in Ihre operativen Daten in Quasi-Echtzeit erhalten. ETL-basierte Systeme zeichnen sich in der Regel durch längere Wartezeiten bei der Analyse der operativen Daten aus, da zum Extrahieren, Transformieren und Laden dieser Daten viele Ebenen erforderlich sind. Mit nativer Integration des Azure Cosmos DB-Analysespeichers in Azure Synapse Analytics können Sie operative Daten in Quasi-Echtzeit analysieren, um neue Geschäftsszenarien zu ermöglichen.

Keine Auswirkungen auf operative Workloads

Mit Azure Synapse Link können Sie analytische Abfragen für einen Azure Cosmos DB-Analysespeicher (eine Columnstore-Darstellung Ihrer Daten) ausführen, während die Transaktionsvorgänge mithilfe des bereitgestellten Durchsatzes für die Transaktionsworkload über den zeilenbasierten Azure Cosmos DB-Transaktionsspeicher verarbeitet werden. Die Analyseworkload ist unabhängig vom Transaktionsworkload-Datenverkehr und beansprucht keinen Teil des für Ihre operativen Daten bereitgestellten Durchsatzes.

Optimiert für umfangreiche Analyseworkloads

Der Azure Cosmos DB-Analysespeicher ist optimiert, um Skalierbarkeit, Elastizität und Leistung für Analyseworkloads ohne jegliche Abhängigkeit von den Computelaufzeiten bereitzustellen. Die Speichertechnologie ist für die Optimierung Ihrer Analyseworkloads selbstverwaltet. Dank in Azure Synapse Analytics integrierter Unterstützung bietet der Zugriff auf diese Speicherebene Einfachheit und hohe Leistung.

Kosteneffizient

Mit Azure Synapse Link erhalten Sie eine kostenoptimierte, vollständig verwaltete Lösung für die operative Analyse. Die zusätzlichen Speicher- und Computeebenen, die bei herkömmlichen ETL-Pipelines zum Analysieren operativer Daten erforderlich sind, entfallen.

Der Azure Cosmos DB-Analysespeicher beruht auf einem nutzungsbasierten Preismodell, das auf Datenspeicherung, analytischen Lese-/Schreibvorgängen und ausgeführten Abfragen basiert. Es ist nicht erforderlich, dass Sie einen Durchsatz bereitstellen, wie es heute bei Transaktionsworkloads erforderlich ist. Durch den Zugriff auf Ihre Daten mit äußerst elastischen Computemodulen aus Azure Synapse Analytics werden die Gesamtkosten für die Ausführung von Speicher und Compute sehr günstig.

Analysen für lokal verfügbare, global verteilte Schreibvorgänge in mehreren Regionen

Sie können analytische Abfragen effektiv für die nächstgelegene regionale Kopie der Daten in Azure Cosmos DB ausführen. Azure Cosmos DB bietet eine fortschrittliche Aktiv-/Aktiv-Funktion zum Ausführen der global verteilten Analyseworkloads zusammen mit Transaktionsworkloads.

Ermöglichen von HTAP-Szenarien für Ihre operativen Daten

Synapse Link kombiniert den Azure Cosmos DB-Analysespeicher mit einer Unterstützung der Azure Synapse Analytics-Runtime. Diese Integration ermöglicht Ihnen das Erstellen cloudnativer HTAP-Lösungen (Hybrid Transactional/Analytical Processing, hybride transaktionale/analytische Verarbeitung), die Erkenntnisse basierend auf Echtzeitaktualisierungen Ihrer operativen Daten über große Datasets generieren. Dies ermöglicht neue Geschäftsszenarien, um Warnungen auf Grundlage von Livetrends auszugeben, Dashboards in Quasi-Echtzeit zu erstellen und geschäftliche Erfahrungen ausgehend vom Benutzerverhalten zu erhalten.

Azure Cosmos DB-Analysespeicher

Der Azure Cosmos DB-Analysespeicher ist eine spaltenorientierte Darstellung Ihrer operativen Daten in Azure Cosmos DB. Dieser Analysespeicher eignet sich für schnelle, kosteneffiziente Abfragen großer operativer Datensätze, ohne dass Daten kopiert werden und ohne dass die Leistung Ihrer Transaktionsworkloads beeinträchtigt wird.

Der Analysespeicher ruft automatisch und nahezu in Echtzeit häufige Einfüge-, Aktualisierungs- und Löschvorgänge in Ihren Transaktionsworkloads auf. Dies ist eine vollständig verwaltete Funktion („automatische Synchronisierung“) von Azure Cosmos DB. Es ist kein Änderungsfeed oder ETL erforderlich.

Wenn Sie über ein global verteiltes Azure Cosmos DB-Konto verfügen, ist es nach dem Aktivieren des Analysespeichers für einen Container in allen Regionen für dieses Konto verfügbar. Weitere Informationen zum Analysespeicher finden Sie in der Übersicht über den Azure Cosmos DB-Analysespeicher.

Mit Synapse Link können Sie jetzt ausgehend von Azure Synapse Analytics direkt eine Verbindung mit Ihren Azure Cosmos DB-Containern herstellen und ohne separate Connectors auf den Analysespeicher zugreifen. Azure Synapse Analytics unterstützt derzeit Synapse Link mit Synapse Apache Spark und serverlosen SQL-Pools.

Sie können die Daten aus dem Azure Cosmos DB-Analysespeicher gleichzeitig abfragen, wobei Interoperabilität für verschiedene von Azure Synapse Analytics unterstützte Analyselaufzeiten unterstützt wird. Zum Analysieren der operativen Daten sind keine weiteren Datentransformationen erforderlich. Sie können die Analysespeicherdaten mithilfe von Folgendem abfragen und analysieren:

  • Synapse Apache Spark mit vollständiger Unterstützung für Scala, Python, SparkSQL und C#. Synapse Spark ist von zentraler Bedeutung für Datentechnik- und Data Science-Szenarien.

  • Serverlose SQL-Pools mit T-SQL und Unterstützung für bekannte BI-Tools (z. B. Power BI Premium usw.)

Hinweis

Aus Azure Synapse Analytics können Sie auf Analyse- und Transaktionsspeicher in Ihrem Azure Cosmos DB-Container zugreifen. Wenn Sie jedoch umfangreiche Analysen oder Scans für Ihre operativen Daten ausführen möchten, empfiehlt es sich, den Analysespeicher zu verwenden, um Leistungseinbußen bei Transaktionsworkloads zu vermeiden.

Hinweis

Sie können Analysen mit geringer Latenz in einer Azure-Region ausführen, indem Sie Ihren Azure Cosmos DB-Container mit der Synapse-Laufzeit in dieser Region verbinden.

Diese Integration ermöglicht die folgenden HTAP-Szenarien für verschiedene Benutzer:

  • Ein BI-Entwickler, der einen Power BI-Bericht modellieren und veröffentlichen möchte, um direkt über Synapse SQL auf die operativen Daten in Azure Cosmos DB zuzugreifen.

  • Ein Datenanalyst, der Erkenntnisse aus den operativen Daten in einem Azure Cosmos DB-Container ableiten möchte, indem er ihn mit Synapse SQL abfragt, die Daten im gewünschten Umfang liest und diese Ergebnisse mit anderen Datenquellen kombiniert.

  • Ein Datenanalyst, der mithilfe von Synapse Spark eine Funktion ermitteln möchte, die das Modell verbessert und es ohne eine komplexe Datentechnik trainiert. Außerdem können Sie die Ergebnisse des Modells im Anschluss in Azure Cosmos DB schreiben, um eine Echtzeitbewertung der Daten über Spark Synapse durchzuführen.

  • Ein Data Engineer, der Daten für Consumer zugänglich machen möchte, indem er SQL- oder Spark-Tabellen über Azure Cosmos DB-Container ohne manuelle ETL-Prozesse erstellt.

Weitere Informationen zur Azure Synapse Analytics-Laufzeitunterstützung für Azure Cosmos DB finden Sie unter Unterstützung für Azure Synapse Analytics für Azure Cosmos DB.

Synapse Link wird in den folgenden Fällen empfohlen:

  • Wenn Sie Azure Cosmos DB-Kunde sind und Analysen, BI und maschinelles Lernen für Ihre operativen Daten ausführen möchten. In solchen Fällen bietet Synapse Link eine stärker integrierte Analyse, ohne dass sich dies auf den bereitgestellten Durchsatz Ihres Transaktionsspeichers auswirkt. Beispiel:

    • Wenn Sie Analysen oder BI für Ihre operativen Azure Cosmos DB-Daten direkt mithilfe von separaten Connectors ausführen, oder

    • Wenn Sie ETL-Prozesse ausführen, um operative Daten in ein separates Analysesystem zu extrahieren.

In solchen Fällen bietet Synapse Link eine stärker integrierte Analyse, ohne dass sich dies auf den bereitgestellten Durchsatz Ihres Transaktionsspeichers auswirkt.

Synapse Link wird nicht empfohlen, wenn Sie herkömmliche Data Warehouse-Anforderungen wie hohe Parallelität, Workloadverwaltung und Persistenz von Aggregaten über mehrere Datenquellen hinweg erfüllen möchten. Weitere Informationen finden Sie unter den gängigen Szenarien, die mit Azure Synapse Link für Azure Cosmos DB.

Einschränkungen

  • Azure Synapse Link für Azure Cosmos DB wird für Cassandra und Tabellen-APIs nicht unterstützt. Für die API für NoSQL und MongoDB wird es unterstützt. Und es befindet sich in der Vorschau für die Gremlin-API.

  • Der Zugriff auf den Azure Cosmos DB-Analysespeicher mit dem Azure Synapse Dedicated SQL-Pool wird derzeit nicht unterstützt.

  • Das Aktivieren von Synapse Link für vorhandene Azure Cosmos DB-Container wird nur für API für NoSQL-Konten unterstützt. Synapse Link kann für neue Container sowohl für API für NoSQL- als auch für API für MongoDB-Konten aktiviert werden.

  • Auch wenn Analysespeicherdaten nicht gesichert werden und daher nicht wiederhergestellt werden können, haben Sie die Möglichkeit, Ihren Analysespeicher durch erneutes Aktivieren von Synapse Link im wiederhergestellten Container neu zu erstellen. Weitere Informationen finden Sie in der Dokumentation zum Analysespeicher.

  • Derzeit ist Synapse Link nicht vollständig mit dem fortlaufenden Sicherungsmodus kompatibel. Weitere Informationen finden Sie in der Dokumentation zum Analysespeicher.

  • Die rollenbasierte Zugriffssteuerung (RBAC) wird beim Abfragen von Synapse nicht unterstützt. Benutzer, die Zugriff auf Ihren Synapse-Arbeitsbereich und das Azure Cosmos DB-Konto haben, können auf alle Container innerhalb dieses Kontos zugreifen. Derzeit wird ein präziserer Zugriff auf die Container nicht unterstützt.

  • Derzeit werden verknüpfte Dienste mit Managed Identity von Azure Synapse-Arbeitsbereichen nicht unterstützt. Verwenden Sie immer die MasterKey-Option.

Sicherheit

Synapse Link ermöglicht das Ausführen von Analysen in Quasi-Echtzeit über unternehmenskritische Daten in Azure Cosmos DB. Es ist von entscheidender Bedeutung sicherzustellen, dass kritische Geschäftsdaten in den Transaktions- und Analysespeichern sicher gespeichert werden. Azure Synapse Link für Azure Cosmos DB trägt mithilfe der folgenden Features dazu bei, diese Sicherheitsanforderungen zu erfüllen:

  • Netzwerkisolation mithilfe privater Endpunkte: Sie können den Netzwerkzugriff auf die Daten in den Transaktions- und Analysespeichern unabhängig voneinander steuern. Die Netzwerkisolation erfolgt über separate verwaltete private Endpunkte für jeden Speicher in verwalteten virtuellen Netzwerken in Azure Synapse-Arbeitsbereichen. Weitere Informationen finden Sie im Artikel Konfigurieren privater Endpunkte für den Analysespeicher.

  • Datenverschlüsselung mit kundenseitig verwalteten Schlüsseln: Sie können Daten nahtlos im Transaktions- und Analysespeicher verschlüsseln und dabei die gleichen kundenseitig verwalteten Schlüssel automatisiert und transparent verwenden. Azure Synapse Link unterstützt nur das Konfigurieren von kundenseitig verwalteten Schlüsseln mithilfe der verwalteten Identität Ihres Azure Cosmos DB-Kontos. Sie müssen die verwaltete Identität Ihres Kontos in Ihrer Azure Key Vault-Zugriffsrichtlinie konfigurieren, bevor Sie den Azure Synapse Link für Ihr Konto aktivieren. Weitere Informationen finden Sie in dem Artikel Konfigurieren von kundenseitig verwalteten Schlüsseln mithilfe verwalteter Identitäten eines Azure Cosmos DB-Kontos.

  • Sichere Schlüsselverwaltung: Der Zugriff auf die Daten im Analysespeicher von Synapse Spark und serverlosen Synapse-SQL-Pools aus erfordert die Verwaltung von Azure Cosmos DB-Schlüsseln in Synapse Analytics-Arbeitsbereichen. Anstatt die Azure Cosmos DB-Kontoschlüssel in Spark-Aufträgen oder SQL-Skripts zu verwenden, bietet Azure Synapse Link deutlich sicherere Funktionen:

    • Wenn Sie serverlose Synapse-SQL-Pools verwenden, können Sie den Azure Cosmos DB-Analysespeicher abfragen, indem Sie vorab SQL-Anmeldeinformationen erstellen und die Kontoschlüssel speichern, auf die Sie dann in der OPENROWSET-Funktion verweisen. Weitere Informationen finden Sie im Artikel Abfragen mit einem serverlosen SQL-Pool in Azure Synapse Link.

    • Wenn Sie Synapse Spark verwenden, können Sie die Kontoschlüssel in Objekten im verknüpften Dienst speichern, die auf eine Azure Cosmos DB-Datenbank verweisen, und zur Laufzeit in der Spark-Konfiguration darauf verweisen. Weitere Informationen finden Sie im Artikel Kopieren von Daten in einen dedizierten SQL-Pool mithilfe von Apache Spark.

Preise

Das Abrechnungsmodell für Azure Synapse Link umfasst die Kosten für die Nutzung des Azure Cosmos DB-Analysespeichers und der Synapse-Runtime. Weitere Informationen finden Sie unter den Preisen für den Azure Cosmos DB-Analysespeicher und den Preisen für Azure Synapse Analytics.

Nächste Schritte

Weitere Informationen finden Sie in den folgenden Dokumenten: