Freigeben über


Aufzeichnen von Daten aus Event Hubs im Parquetformat

In diesem Artikel wird erläutert, wie Sie den No-Code-Editor zum automatischen Aufzeichnen von Streamingdaten in Event Hubs in einem Azure Data Lake Storage Gen2-Konto im Parquet-Format verwenden.

Voraussetzungen

  • Ein Azure Event Hubs-Namespace mit einem Event Hub und einem Azure Data Lake Storage Gen2-Konto mit einem Container zum Speichern der aufgezeichneten Daten. Diese Ressourcen müssen öffentlich zugänglich sein und dürfen sich nicht hinter einer Firewall befinden oder in einem virtuellen Azure-Netzwerk gesichert werden.

    Wenn Sie keinen Event Hub haben, erstellen Sie einen, indem Sie die Anweisungen unter Schnellstart: Erstellen eines Event Hubs befolgen.

    Wenn Sie kein Data Lake Storage Gen2-Konto haben, erstellen Sie ein Konto, indem Sie die Anweisungen unter Erstellen eines Speicherkontos befolgen.

  • Die Daten in Ihrer Event Hubs-Instanz müssen entweder im JSON-, CSV- oder Avro-Format serialisiert werden. Zu Testzwecken wählen Sie im linken Menü Daten generieren (Vorschau) aus. Aktivieren Sie das Dataset Bestandsdaten, und wählen Sie dann Senden aus.

    Screenshot: Die Seite „Daten generieren“ zum Generieren von Beispielbestandsdaten

Konfigurieren eines Auftrags zum Aufzeichnen von Daten

Verwenden Sie die folgenden Schritte, um einen Stream Analytics-Auftrag zum Aufzeichnen von Daten in Azure Data Lake Storage Gen2 zu konfigurieren.

  1. Navigieren Sie im Azure-Portal zu Ihrem Event Hub.

  2. Wählen Sie im linken Menü unter Featuresdie Option Daten verarbeiten aus. Wählen Sie anschließend auf der Kachel Daten im Parquet-Format in ADLS Gen2 erfassen die Option Start aus.

    Screenshot: Startkarten zum Verarbeiten von Event Hubs-Daten.

  3. Geben Sie einen Namen für Ihren Stream Analytics-Auftrag ein, und wählen Sie dann Erstellen aus.

    Screenshot: Fenster „Neuer Stream Analytics-Auftrag“, in dem der Auftragsname eingegeben wird.

  4. Geben Sie in Event Hubs den Serialisierungstyp Ihrer Daten sowie die Authentifizierungsmethode an, die der Auftrag zum Herstellen einer Verbindung mit Event Hubs verwenden soll. Wählen Sie dann Verbinden aus.

    Screenshot: Event Hubs-Verbindungskonfiguration.

  5. Wenn die Verbindung erfolgreich eingerichtet worden ist, wird Folgendes angezeigt:

    • Felder, die in den Eingabedaten vorhanden sind. Sie können Feld hinzufügen oder das Symbol mit den drei Punkten neben einem Feld auswählen, um den Namen optional zu entfernen oder zu ändern.

    • Ein Livebeispiel für eingehende Daten in der Tabelle Datenvorschau unter der Diagrammansicht. Es wird regelmäßig aktualisiert. Sie können Streamingvorschau anhalten auswählen, um eine statische Ansicht der Beispieleingabe anzuzeigen.

      Screenshot: Beispieldaten unter der Datenvorschau.

  6. Wählen Sie die Kachel Azure Data Lake Storage Gen2 aus, um die Konfiguration zu bearbeiten.

  7. Führen Sie auf der Seite für die Azure Data Lake Storage Gen2-Konfiguration die folgenden Schritte aus:

    1. Wählen Sie im Dropdownmenü das Abonnement, den Speicherkontonamen und den Container aus.

    2. Wenn das Abonnement ausgewählt wurde, sollten Authentifizierungsmethode und Speicherkontoschlüssel automatisch ausgefüllt werden.

    3. Wählen Sie Parquet als Serialisierungsformat aus.

      Screenshot: Konfigurationsseite für Data Lake Storage Gen2

    4. Für Streamingblobs wird erwartet, dass das Verzeichnispfadmuster ein dynamischer Wert ist. Das Datum, auf das mit {date} verwiesen wird, muss Teil des Dateipfads für das Blob sein. Informationen zu benutzerdefinierten Pfadmustern finden Sie in der benutzerdefinierten Blob-Ausgabepartitionierung von Azure Stream Analytics.

      Erster Screenshot, der das Fenster „Blob“ anzeigt, in dem Sie die Verbindungskonfiguration eines Blobs bearbeiten.

    5. Wählen Sie Verbinden aus.

  8. Wenn die Verbindung hergestellt wurde, werden die Felder angezeigt, die in den Ausgabedaten vorhanden sind.

  9. Wählen Sie auf der Befehlsleiste Speichern aus, um Ihre Konfiguration zu speichern.

    Screenshot: Befehlsleiste mit ausgewählter Schaltfläche „Speichern“

  10. Wählen Sie auf der Befehlsleiste Starten aus, um den Streamingdatenfluss zu starten und Daten zu erfassen. Gehen Sie dann im Aufgabenfenster „Stream Analytics-Auftrag starten“ folgendermaßen vor:

    1. Wählen Sie die Startzeit der Ausgabe aus.

    2. Wählen Sie den Tarif aus.

    3. Wählen Sie die Anzahl der Streamingeinheiten (SU) aus, mit denen der Auftrag ausgeführt wird. Streamingeinheiten stellen die Computeressourcen dar, die zum Ausführen eines Stream Analytics-Auftrags zugeordnet werden. Weitere Informationen finden Sie unter Streamingeinheiten in Azure Stream Analytics.

      Screenshot: Fenster „Stream Analytics-Auftrag starten“, in dem Sie die Startzeit der Ausgabe, die Streamingeinheiten und die Fehlerbehandlung festlegen.

  11. Der Stream Analytics-Auftrag sollte auf der Registerkarte Stream Analytics-Auftrag der Seite Daten verarbeiten für Ihren Event Hub angezeigt werden.

    Screenshot: Stream Analytics-Auftrag auf der Seiten „Daten verarbeiten“

Überprüfen der Ausgabe

  1. Wählen Sie auf der Seite „Event Hubs-Instanz“ Ihres Event Hubs Daten generieren aus. Wählen Sie das Dataset Bestandsdaten und dann Senden aus, um einige Beispieldaten an den Event Hub zu senden.

  2. Stellen Sie sicher, dass die PARQUET-Dateien im Azure Data Lake Storage-Container generiert werden.

    Screenshot: Generierte Parquet-Dateien im Azure Data Lake Storage-Container.

  3. Wählen Sie im linken MenüDaten verarbeiten aus. Wechseln Sie zur Registerkarte Stream Analytics-Aufträge. Wählen Sie Metriken öffnen aus, um sie zu überwachen.

    Screenshot: Ausgewählter Link „Metriken öffnen“.

    Hier sehen Sie einen Beispielscreenshot von Metriken mit Eingabe- und Ausgabeereignissen.

    Screenshot: Metriken des Stream Analytics-Auftrags.

Überlegungen bei der Verwendung des Georeplikationsfeatures von Event Hubs

Für Azure Event Hubs wurde kürzlich das Feature Georeplikation als öffentliche Vorschauversion eingeführt. Dieses Feature unterscheidet sich vom Feature Georedundante Notfallwiederherstellung von Azure Event Hubs.

Wenn der Failovertyp Erzwungen und die Replikationskonsistenz Asynchron ist, garantiert der Stream Analytics-Auftrag nicht, dass genau eine Ausgabe in Azure Event Hubs erfolgt.

Als Producer mit einem Event Hub als Ausgabe kann in Azure Stream Analytics eine Wasserzeichenverzögerung für den Auftrag während eines Failovers und während der Drosselung durch Event Hubs auftreten, falls die Replikationsverzögerung zwischen dem primären und dem sekundären Replikat die maximale konfigurierte Verzögerung erreicht.

Als Consumer mit Event Hubs als Eingabe kann in Azure Stream Analytics während eines Failovers eine Wasserzeichenverzögerung auftreten, und es können nach dem Abschluss des Failovers Daten übersprungen werden oder doppelte Daten auftreten.

Aufgrund dieser Nachteile empfehlen wir, den Stream Analytics-Auftrag mit entsprechender Startzeit direkt nach Abschluss des Event Hubs-Failovers neu zu starten. Da sich das Georeplikationsfeature von Event Hubs zudem in der öffentlichen Vorschau befindet, wird derzeit nicht empfohlen, dieses Muster für Stream Analytics-Aufträge in der Produktion zu verwenden. Das aktuelle Stream Analytics-Verhalten wird verbessert, bevor das Event Hubs-Georeplikationsfeature allgemein verfügbar ist und in Stream Analytics-Produktionsaufträgen verwendet werden kann.

Nächste Schritte

Jetzt wissen Sie, wie Sie den No-Code-Editor von Stream Analytics verwenden, um einen Auftrag zu erstellen, der Event Hubs-Daten in Azure Data Lake Storage Gen2 im Parquetformat aufzeichnet. Als Nächstes können Sie mehr über Azure Stream Analytics erfahren und wie Sie den von Ihnen erstellten Auftrag überwachen.