Datenstromverarbeitung mit Azure Databricks

Azure Cosmos DB

Azure Databricks

Azure Event Hubs

Azure Log Analytics

Azure Monitor

Diese Referenzarchitektur zeigt eine End-to-End-Pipeline zur Datenstromverarbeitung. Die vier Phasen dieser Pipeline umfassen Aufnahme, Verarbeitung, Speicherung, sowie Analyse und Berichtserstellung. In dieser Referenzarchitektur erfasst die Pipeline Daten aus zwei Quellen, verknüpft verwandte Datensätze aus den einzelnen Datenströmen, reichert das Ergebnis an und berechnet einen Durchschnitt in Echtzeit. Die Ergebnisse werden dann zur weiteren Analyse gespeichert.

Aufbau

Laden Sie eine Visio-Datei dieser Architektur herunter.

Datenfluss

Der folgende Datenfluss entspricht dem vorherigen Diagramm:

Ingest

Das System wird von zwei Echtzeitdatenströmen gespeist: Tarifdaten und Reisedaten. In Taxi-Cabs installierte Geräte dienen als Datenquellen und veröffentlichen Ereignisse in Azure Event Hubs. Jeder Datenstrom wechselt zu einer eigenen Event Hub-Instanz, die unabhängige Aufnahmepfade bereitstellt.
Prozess

Azure Databricks nutzt sowohl Event Hubs-Streams als auch führt die folgenden Vorgänge aus:
- Korreliert Tarifdatensätze mit Reisedatensätzen
- Erweitert die Daten mithilfe eines dritten Datasets, das Nachbarschafts-Nachschlagedaten enthält, die in Azure Databricks File System gespeichert sind
Dieser Prozess erzeugt ein einheitliches, angereichertes Dataset, das für nachgeschaltete Analysen und Speicher geeignet ist.
Store

Die Ergebnissausgabe der Azure Databricks-Jobs ist eine Reihe von Datensätzen. Die verarbeiteten Datensätze werden in Azure Cosmos DB für NoSQL geschrieben.
Analysieren/Bericht

Fabric spiegelt Betriebsdaten von Azure Cosmos DB für NoSQL, um analytische Abfragen zu ermöglichen, ohne die Transaktionsleistung zu beeinträchtigen. Dieser Ansatz bietet einen No-ETL-Pfad für Analysen. In dieser Architektur können Sie die Spiegelung für die folgenden Zwecke verwenden:
- Spiegeln von Azure Cosmos DB-Daten (oder deltaformatierten Daten) in Fabric
- Synchronisieren von Datasets mit dem Betriebssystem
- Aktivieren Sie die Analyse über die folgenden Tools:
  - Fabric SQL-Analyseendpunkte für Seehäuser und Lagerhäuser
  - Apache Spark Notebooks
  - Echtzeitanalysen mithilfe der Kusto Query Language (KQL) für die Zeitreihen- und Log-Style-Erkundung
Monitor

Azure Monitor sammelt Telemetrie aus der Azure Databricks-Verarbeitungspipeline. Ein Log Analytics-Arbeitsbereich speichert Anwendungsprotokolle und Metriken. Sie können die folgenden Aktionen ausführen:
- Betriebsprotokolle abfragen
- Visualisieren von Metriken
- Überprüfen von Fehlern, Anomalien und Leistungsproblemen
- Erstellen von Dashboards

Komponenten

Azure Databricks ist eine für die Azure-Plattform optimierte Spark-basierte Analyseplattform. In dieser Architektur bereichern Azure Databricks-Aufträge Taxifahrten und Tarifdaten und speichern die Ergebnisse in Azure Cosmos DB.
Event Hubs ist ein verwalteter, verteilter Aufnahmedienst, der skaliert werden kann, um große Mengen von Ereignissen aufzunehmen. Diese Architektur verwendet zwei Event Hub-Instanzen, um Daten von Taxis zu empfangen.
Azure Cosmos DB für NoSQL ist ein verwalteter Datenbankdienst mit mehreren Modellen. In dieser Architektur speichert sie die Ausgabe der Azure Databricks-Anreicherungsaufträge. Fabric spiegelt Azure Cosmos DB-Betriebsdaten , um analytische Abfragen zu ermöglichen.
Log Analytics ist ein Tool in Azure Monitor, mit dem Sie Protokolldaten aus verschiedenen Quellen abfragen und analysieren können. In dieser Architektur konfigurieren alle Ressourcen die Azure-Diagnose, um Plattformprotokolle in diesem Arbeitsbereich zu speichern. Der Arbeitsbereich dient auch als Datensenke für Spark-Jobmetriken, die aus den Verarbeitungspipelines von Azure Databricks generiert werden.

Szenariodetails

Ein Taxiunternehmen sammelt Daten zu jeder Taxifahrt. In diesem Szenario wird davon ausgegangen, dass zwei separate Geräte Daten senden. Das Taxi verfügt über einen Meter, der Informationen über jede Fahrt sendet, einschließlich Dauer, Entfernung und Abholung und Rückgabeorte. Ein separates Gerät akzeptiert Zahlungen von Kunden und sendet Daten zu den Fahrpreisen. Um Fahrgasttrends zu erkennen, plant das Taxiunternehmen, das durchschnittliche Trinkgeld pro Kilometer für jeden Bezirk in Echtzeit zu berechnen.

Datenerfassung

Um eine Datenquelle zu simulieren, verwendet diese Referenzarchitektur den New York City Taxi-Datensatz. Dieses Dataset enthält Daten über Taxireisen in New York City von 2010 bis 2013. Es enthält sowohl Fahrdatensätze als auch Tarifdatensätze. Die Fahrtdaten umfassen die Reisedauer, die Entfernung der Reise sowie die Abhol- und Rückgabeorte. Die Fahrpreisdaten enthalten die Beträge von Fahrpreis, Steuern und Trinkgeld. Felder in beiden Datensatztypen umfassen Medaillennummer, Hacklizenz und Anbieter-ID. Die Kombination dieser drei Felder identifiziert ein Taxi und einen Fahrer eindeutig. Die Daten werden im CSV-Format gespeichert.

Der Datengenerator ist eine .NET Anwendung, die die Datensätze liest und sie an Event Hubs sendet. Der Generator sendet Fahrtdaten im JSON-Format und Fahrpreisdaten im CSV-Format.

Event Hubs verwendet Partitionen zum Segmentieren der Daten. Partitionen ermöglichen es einem Verbraucher, die einzelnen Lesedaten parallel zu lesen. Wenn Sie Daten an Event Hubs senden, können Sie den Partitionsschlüssel direkt angeben. Andernfalls werden Datensätze nach einem Round-Robin-Verfahren Partitionen zugewiesen.

In diesem Szenario sollten Fahrdaten und Tarifdaten derselben Partitions-ID für ein bestimmtes Taxi zugewiesen werden. Diese Zuordnung ermöglicht Es Databricks, einen Grad an Parallelität anzuwenden, wenn sie die beiden Datenströme korreliert. Beispielsweise entspricht ein Datensatz in Partition n der Fahrdaten einem Datensatz in Partition n der Tarifdaten.

Laden Sie eine Visio-Datei dieser Architektur herunter.

Im Datengenerator enthält das gemeinsame Datenmodell für beide Datensatztypen eine PartitionKey-Eigenschaft, bei der es sich um die Verkettung von Medallion, HackLicense und VendorId handelt.

public abstract class TaxiData
{
    public TaxiData()
    {
    }

    [JsonProperty]
    public long Medallion { get; set; }

    [JsonProperty]
    public long HackLicense { get; set; }

    [JsonProperty]
    public string VendorId { get; set; }

    [JsonProperty]
    public DateTimeOffset PickupTime { get; set; }

    [JsonIgnore]
    public string PartitionKey
    {
        get => $"{Medallion}_{HackLicense}_{VendorId}";
    }

Diese Eigenschaft stellt einen expliziten Partitionsschlüssel bereit, wenn daten an Event Hubs gesendet werden.

using (var client = pool.GetObject())
{
    return client.Value.SendAsync(new EventData(Encoding.UTF8.GetBytes(
        t.GetData(dataFormat))), t.PartitionKey);
}

Ereignis-Hubs

Die Durchsatzkapazität von Event Hubs wird in Durchsatzeinheiten gemessen. Sie können einen Event Hub automatisch skalieren, indem Sie autoinflate aktivieren. Dieses Feature skaliert automatisch die Durchsatzeinheiten basierend auf dem Datenverkehr bis zu einem konfigurierten Maximum.

Datenstromverarbeitung

In Azure Databricks führt ein Job die Datenverarbeitung durch. Der Job wird einem Cluster zugewiesen und anschließend darauf ausgeführt. Die Aufgabe kann benutzerdefinierter Code sein, der in Java geschrieben wurde oder in einem Spark-Notizbuch.

In dieser Referenzarchitektur ist der Auftrag ein Java-Archiv, das Klassen enthält, die in Java und Scala geschrieben wurden. Wenn Sie das Java-Archiv für einen Azure Databricks-Auftrag angeben, gibt der Azure Databricks-Cluster die Klasse für den Vorgang an. Hier enthält die main-Methode der Klasse com.microsoft.pnp.TaxiCabReader die Datenverarbeitungslogik.

Den Datenstrom von den beiden Event Hub-Instanzen lesen

Die Datenverarbeitungslogik verwendet strukturiertes Spark-Streaming, um Daten aus den beiden Azure Event Hub-Instanzen zu lesen:

// Create a token credential using Managed Identity
val credential = new DefaultAzureCredentialBuilder().build()

val rideEventHubOptions = EventHubsConf(rideEventHubEntraIdAuthConnectionString)
  .setTokenProvider(EventHubsUtils.buildTokenProvider(..., credential))
  .setConsumerGroup(conf.taxiRideConsumerGroup())
  .setStartingPosition(EventPosition.fromStartOfStream)
val rideEvents = spark.readStream
  .format("eventhubs")
  .options(rideEventHubOptions.toMap)
  .load

val fareEventHubOptions = EventHubsConf(fareEventHubEntraIdAuthConnectionString)
  .setTokenProvider(EventHubsUtils.buildTokenProvider(..., credential))
  .setConsumerGroup(conf.taxiFareConsumerGroup())
  .setStartingPosition(EventPosition.fromStartOfStream)
val fareEvents = spark.readStream
  .format("eventhubs")
  .options(fareEventHubOptions.toMap)
  .load

Anreichern der Daten mit den Nachbarschaftsinformationen

Die Fahrdaten umfassen die Breiten- und Längengradkoordinaten der Abholorte und Absetzorte. Diese Koordinaten sind nützlich, aber nicht leicht zu analysieren. Die Pipeline erweitert diese Daten also mit Nachbarschaftsdaten, die aus einer Shape-Datei gelesen werden.

Das Shapefile-Format ist binär und kann nicht einfach analysiert werden. Die GeoTools--Bibliothek stellt jedoch Tools für Geospatialdaten bereit, die das Shapefile-Format verwenden. Diese Bibliothek wird in der com.microsoft.pnp.GeoFinder Klasse verwendet, um den Nachbarschaftsnamen basierend auf den Koordinaten für die Abhol- und Rückgabepunkte zu bestimmen.

val neighborhoodFinder = (lon: Double, lat: Double) => {
      NeighborhoodFinder.getNeighborhood(lon, lat).get()
    }

Treten Sie dem Service für Fahrt- und Tarifdaten bei

Zunächst werden die Fahrt- und Fahrpreisdaten transformiert:

val rides = transformedRides
  .filter(r => {
    if (r.isNullAt(r.fieldIndex("errorMessage"))) {
      true
    }
    else {
      malformedRides.add(1)
      false
    }
  })
  .select(
    $"ride.*",
    to_neighborhood($"ride.pickupLon", $"ride.pickupLat")
      .as("pickupNeighborhood"),
    to_neighborhood($"ride.dropoffLon", $"ride.dropoffLat")
      .as("dropoffNeighborhood")
  )
  .withWatermark("pickupTime", conf.taxiRideWatermarkInterval())

val fares = transformedFares
  .filter(r => {
    if (r.isNullAt(r.fieldIndex("errorMessage"))) {
      true
    }
    else {
      malformedFares.add(1)
      false
    }
  })
  .select(
    $"fare.*",
    $"pickupTime"
  )
  .withWatermark("pickupTime", conf.taxiFareWatermarkInterval())

Anschließend werden die Fahrdaten mit den Tarifdaten verknüpft:

val mergedTaxiTrip = rides.join(fares, Seq("medallion", "hackLicense", "vendorId", "pickupTime"))

Verarbeiten der Daten und Einfügen in Azure Cosmos DB

Der durchschnittliche Tarifbetrag für jede Nachbarschaft wird für ein bestimmtes Zeitintervall berechnet:

val maxAvgFarePerNeighborhood = mergedTaxiTrip.selectExpr("medallion", "hackLicense", "vendorId", "pickupTime", "rateCode", "storeAndForwardFlag", "dropoffTime", "passengerCount", "tripTimeInSeconds", "tripDistanceInMiles", "pickupLon", "pickupLat", "dropoffLon", "dropoffLat", "paymentType", "fareAmount", "surcharge", "mtaTax", "tipAmount", "tollsAmount", "totalAmount", "pickupNeighborhood", "dropoffNeighborhood")
      .groupBy(window($"pickupTime", conf.windowInterval()), $"pickupNeighborhood")
      .agg(
        count("*").as("rideCount"),
        sum($"fareAmount").as("totalFareAmount"),
        sum($"tipAmount").as("totalTipAmount"),
        (sum($"fareAmount")/count("*")).as("averageFareAmount"),
        (sum($"tipAmount")/count("*")).as("averageTipAmount")
      )
      .select($"window.start", $"window.end", $"pickupNeighborhood", $"rideCount", $"totalFareAmount", $"totalTipAmount", $"averageFareAmount", $"averageTipAmount")

Der durchschnittliche Tarifbetrag wird dann in Azure Cosmos DB eingefügt:

maxAvgFarePerNeighborhood
  .writeStream
  .format("cosmos.oltp")
  .option("spark.cosmos.accountEndpoint", "<your-cosmos-endpoint>")
  .option("spark.cosmos.accountKey", "<your-cosmos-key>")
  .option("spark.cosmos.database", "<your-database-name>")
  .option("spark.cosmos.container", "<your-container-name>")
  .option("checkpointLocation", "/mnt/checkpoints/maxAvgFarePerNeighborhood")
  .outputMode("append")
  .start()
  .awaitTermination()

Überlegungen

Diese Überlegungen bilden die Säulen des Azure Well-Architected Framework, einer Reihe von Leitprinzipien, die Sie zur Verbesserung der Qualität eines Workloads verwenden können. Weitere Informationen finden Sie unter Well-Architected Framework.

Sicherheit

Sicherheit bietet Sicherheitsmaßnahmen gegen bewusste Angriffe und den Missbrauch Ihrer wertvollen Daten und Systeme. Weitere Informationen finden Sie unter Prüfliste zur Entwurfsüberprüfung für die Sicherheit.

Der Zugriff auf den Azure Databricks-Arbeitsbereich wird mithilfe der Administratorkonsolegesteuert. Die Administratorkonsole enthält Funktionen zum Hinzufügen von Benutzern, zum Verwalten von Benutzerberechtigungen und zum Einrichten des einmaligen Anmeldens. Die Zugriffssteuerung für Arbeitsbereiche, Cluster, Aufträge und Tabellen kann ebenfalls über die Administratorkonsole festgelegt werden.

Verwalten von Geheimnissen

Azure Databricks enthält einen geheimen Speicher, der zum Speichern von Anmeldeinformationen und zum Verweisen auf sie in Notizbüchern und Aufträgen verwendet wird. Bereichspartitionsgeheimnisse im geheimen Azure Databricks-Speicher:

databricks secrets create-scope --scope "azure-databricks-job"

Geheimnisse werden auf der Bereichsebene hinzugefügt:

databricks secrets put --scope "azure-databricks-job" --key "taxi-ride"

Hinweis

Verwenden Sie einen Azure Key Vault-gesicherten Bereich anstelle des systemeigenen Azure Databricks-Bereichs.

Code greift über Azure Databricks Geheimnisdienste auf geheime Schlüssel zu.

Kostenoptimierung

Die Kostenoptimierung konzentriert sich auf Möglichkeiten, unnötige Ausgaben zu reduzieren und die betriebliche Effizienz zu verbessern. Weitere Informationen finden Sie unter Prüfliste zur Design-Überprüfung für Kostenoptimierung.

Verwenden Sie den Azure-Preisrechner, um die voraussichtlichen Kosten zu ermitteln. Berücksichtigen Sie die folgenden Dienste, die in dieser Referenzarchitektur verwendet werden.

Überlegungen zu Den Kosten für Event Hubs

Diese Referenzarchitektur stellt Event Hubs auf der Standardebene bereit. Das Preismodell basiert auf Durchsatzeinheiten, Eingangsereignissen und Aufzeichnungsereignissen. Ein Eingangsereignis ist eine Dateneinheit mit 64 KB oder weniger. Größere Nachrichten werden in Vielfachen von 64 KB abgerechnet. Sie geben Durchsatzeinheiten entweder über das Azure-Portal oder Event Hubs-Verwaltungs-APIs an.

Wenn Sie weitere Aufbewahrungstage benötigen, sollten Sie den dedizierten Tarif berücksichtigen. Diese Stufe bietet Single-Tenant-Bereitstellungen, die strenge Anforderungen haben. Dieses Angebot erstellt einen Cluster basierend auf Kapazitätseinheiten und ist nicht von Durchsatzeinheiten abhängig. Die Standardebene wird auch basierend auf Eingangsereignissen und Durchsatzeinheiten abgerechnet.

Weitere Informationen finden Sie unter Event Hubs-Preise.

Überlegungen zu Azure Databricks-Kosten

Azure Databricks bietet die Standardebene und die Premium-Stufe, die beide drei Workloads unterstützen. Diese Referenzarchitektur stellt einen Azure Databricks-Arbeitsbereich auf der Premium-Ebene bereit.

Datenverarbeitungsworkloads sollten auf einem Auftragscluster ausgeführt werden. Dateningenieure verwenden Cluster zum Erstellen und Ausführen von Aufträgen. Datenanalyseworkloads sollten auf einem allzweckorientierten Cluster ausgeführt werden und sind für Datenwissenschaftler vorgesehen, um Daten und Erkenntnisse interaktiv zu untersuchen, zu visualisieren, zu bearbeiten und freizugeben.

Azure Databricks bietet mehrere Preismodelle.

Abrechnungsmodell nach Nutzung

Für bereitgestellte virtuelle Maschinen (VMs) in Clustern und Azure Databricks-Einheiten (DBUs) basierend auf der gewählten VM-Instanz werden Ihnen Gebühren berechnet. Ein DBU ist eine Einheit der Verarbeitungskapazität, die Azure nach Nutzung pro Sekunde abrechnet. Der DBU-Verbrauch hängt von der Größe und dem Typ der Instanz ab, die in Azure Databricks ausgeführt wird. Die Preise hängen von der gewählten Arbeitsauslastung und -stufe ab.
Vorkaufplan

Sie verpflichten sich, DBUs als Azure Databricks-Einheiten für ein oder drei Jahre zu übernehmen, um die Gesamtbetriebskosten für diesen Zeitraum im Vergleich zum Pay-as-you-go-Modell zu reduzieren.

Weitere Informationen finden Sie unter Azure Databricks-Preis.

Überlegungen zu Azure Cosmos DB-Kosten

In dieser Architektur schreibt der Azure Databricks-Job eine Reihe von Datensätzen in Azure Cosmos DB. Sie werden für die von Ihnen reservierte Kapazität belastet, die in Anforderungseinheiten pro Sekunde (RU/s) gemessen wird. Diese Kapazität wird verwendet, um Einfügevorgänge auszuführen. Die Abrechnungseinheit beträgt 100 RU/s pro Stunde. So liegen die Kosten für das Schreiben von Elementen mit 100 KB bei 50 RU/s.

Richten Sie für Schreibvorgänge genügend Kapazität ein, um die Anzahl der pro Sekunde benötigten Schreibvorgänge zu unterstützen. Sie können den bereitgestellten Durchsatz mithilfe des Portals oder der Azure CLI erhöhen, bevor Sie Schreibvorgänge ausführen und dann den Durchsatz nach Abschluss dieser Vorgänge verringern. Der Durchsatz für den Schreibzeitraum ist die Summe aus dem minimalen benötigten Durchsatz für die spezifischen Daten und dem für den Einfügevorgang erforderlichen Durchsatz. Bei dieser Kalkulation/Annahme wird davon ausgegangen, dass keine andere Arbeitslast ausgeführt wird.

Beispielkostenanalyse

Angenommen, Sie konfigurieren einen Durchsatzwert von 1.000 RU/s auf einem Container und führen ihn für 30 Tage kontinuierlich aus, was 720 Stunden entspricht.

Der Container wird jede Stunde mit 10 Einheiten zu je 100 RU/s in Rechnung gestellt. Zehn Einheiten zu 0,008 $ (pro 100 RU/s pro Stunde) werden zu einem Preis von 0,08 $ pro Stunde berechnet.

Für 720 Stunden oder 7.200 Einheiten (von 100 RUs) werden Sie für den Monat 57,60 $ in Rechnung gestellt.

Der Speicher wird auch für jede GB in Rechnung gestellt, die für Ihre gespeicherten Daten und den Index verwendet wird. Weitere Informationen finden Sie unter Azure Cosmos DB – Preismodell.

Verwenden Sie den Azure Cosmos DB-Kapazitätsrechner für eine schnelle Schätzung der Workloadkosten.

Operative Exzellenz

Operational Excellence deckt die Betriebsprozesse ab, mit denen eine Anwendung bereitgestellt und in der Produktion ausgeführt wird. Weitere Informationen finden Sie in der Prüfliste für das Design Review von Operational Excellence.

Überwachung

Azure Databricks basiert auf Apache Spark. Sowohl Azure Databricks als auch Apache Spark verwenden Apache Log4j als Standardbibliothek für die Protokollierung. Zusätzlich zur Standardprotokollierung, die Apache Spark bereitstellt, können Sie die Protokollierung in Log Analytics implementieren. Weitere Informationen finden Sie unter Überwachung von Azure Databricks.

Da die com.microsoft.pnp.TaxiCabReader Klasse Fahr- und Tarifmeldungen verarbeitet, ist eine Nachricht möglicherweise falsch formatiert und daher ungültig. In einer Produktionsumgebung ist es wichtig, diese falsch formatierten Nachrichten zu analysieren, um ein Problem mit den Datenquellen zu identifizieren, damit es schnell behoben werden kann, um Datenverluste zu vermeiden. Die com.microsoft.pnp.TaxiCabReader Klasse registriert einen Apache Spark Accumulator, der die Anzahl der fehlerhaften Fahrpreisdatensätze und Fahrtdatensätze verfolgt:

@transient val appMetrics = new AppMetrics(spark.sparkContext)
appMetrics.registerGauge("metrics.malformedrides", AppAccumulators.getRideInstance(spark.sparkContext))
appMetrics.registerGauge("metrics.malformedfares", AppAccumulators.getFareInstance(spark.sparkContext))
SparkEnv.get.metricsSystem.registerSource(appMetrics)

Apache Spark verwendet die Dropwizard-Bibliothek zum Senden von Metriken. Einige der nativen Dropwizard-Metrikfelder sind mit Log Analytics nicht kompatibel, weshalb diese Referenzarchitektur einen benutzerdefinierten Dropwizard-Sink und einen Reporter umfasst. Es formatiert die Metriken im Format, das Log Analytics erwartet. Wenn Apache Spark Metriken meldet, werden auch die benutzerdefinierten Metriken für die falsch formatierten Fahrt- und Fahrpreisdaten gesendet.

Sie können die folgenden Beispielabfragen in Ihrem Log Analytics-Arbeitsbereich verwenden, um den Betrieb des Streamingauftrags zu überwachen. Das Argument ago(1d) in jeder Abfrage gibt alle Datensätze zurück, die am letzten Tag generiert wurden. Sie können diesen Parameter anpassen, um einen anderen Zeitraum anzuzeigen.

Während des Datenstromabfragevorgangs protokollierte Ausnahmen

SparkLoggingEvent_CL
| where TimeGenerated > ago(1d)
| where Level == "ERROR"

Kumulation falsch formatierter Fahrpreis- und Fahrtdaten

SparkMetric_CL
| where TimeGenerated > ago(1d)
| where name_s contains "metrics.malformedrides"
| project value_d, TimeGenerated, applicationId_s
| render timechart

SparkMetric_CL
| where TimeGenerated > ago(1d)
| where name_s contains "metrics.malformedfares"
| project value_d, TimeGenerated, applicationId_s
| render timechart

Arbeitsprozess über einen Zeitraum

SparkMetric_CL
| where TimeGenerated > ago(1d)
| where name_s contains "driver.DAGScheduler.job.allJobs"
| project value_d, TimeGenerated, applicationId_s
| render timechart

Ressourcenorganisation und -bereitstellungen

Erstellen Sie separate Ressourcengruppen für Produktions-, Entwicklungs- und Testumgebungen. Separate Ressourcengruppen erleichtern das Verwalten von Bereitstellungen, das Löschen von Testbereitstellungen und das Zuweisen von Zugriffsrechten.
Verwenden Sie die Azure Resource Manager-Vorlage, um die Azure-Ressourcen gemäß dem Infrastruktur-as-Code-Prozess bereitzustellen. Mithilfe von Vorlagen können Sie Bereitstellungen mit Azure DevOps-Diensten oder anderen kontinuierlichen Integrations- und Fortlaufendbereitstellungslösungen (CI/CD) automatisieren.
Platzieren Sie jede Workload in einer separaten Bereitstellungsvorlage, und speichern Sie die Ressourcen in Quellcodeverwaltungssystemen. Sie können die Vorlagen gemeinsam oder einzeln im Rahmen eines CI/CD-Prozesses bereitstellen. Dieser Ansatz vereinfacht den Automatisierungsprozess.

In dieser Architektur werden Event Hubs, Log Analytics und Azure Cosmos DB als einzelne Workload identifiziert. Diese Ressourcen sind in einer einzigen Azure Resource Manager-Vorlage enthalten.
Erwägen Sie ein Staging Ihrer Workloads. Stellen Sie in verschiedenen Phasen bereit und führen Sie Validierungsprüfungen in jeder Phase aus, bevor Sie zur nächsten Phase wechseln. Auf diese Weise können Sie steuern, wie Sie Updates an Ihre Produktionsumgebungen übertragen und unerwartete Bereitstellungsprobleme minimieren.

In dieser Architektur gibt es mehrere Bereitstellungsphasen. Erwägen Sie das Erstellen einer Azure DevOps-Pipeline und das Hinzufügen dieser Phasen. Sie können die folgenden Phasen automatisieren:
- Starten Sie einen Azure Databricks-Cluster.
- Konfigurieren Sie die Azure Databricks CLI.
- Installieren Sie Scala-Tools.
- Fügen Sie die geheimen Azure Databricks-Schlüssel hinzu.
Erwägen Sie das Schreiben automatisierter Integrationstests, um die Qualität und Zuverlässigkeit des Azure Databricks-Codes und seines Lebenszyklus zu verbessern.

Nächster Schritt

Datenstromverarbeitung mit Azure Stream Analytics

Feedback

War diese Seite hilfreich?