Teilen über


Daten in Azure Data Lake Storage Gen2 aufnehmen

In diesem Artikel erfahren Sie, wie Sie Daten von einem Speicherort an einen anderen in einem Azure Data Lake Gen 2 -Speicherkonto (Azure Data Lake Gen 2) mit Azure Synapse Analytics aufnehmen.

Voraussetzungen

  • Azure-Abonnement: Wenn Sie nicht über ein Azure-Abonnement verfügen, erstellen Sie ein kostenloses Azure-Konto , bevor Sie beginnen.
  • Azure Storage-Konto: Sie verwenden Azure Data Lake Gen 2 als Quelldatenspeicher . Wenn Sie nicht über ein Speicherkonto verfügen, lesen Sie die Schritte zum Erstellen eines Azure Storage-Kontos .

Erstellen von verknüpften Diensten

In Azure Synapse Analytics definiert ein verknüpfter Dienst Ihre Verbindungsinformationen mit anderen Diensten. In diesem Abschnitt fügen Sie Azure Synapse Analytics und Azure Data Lake Gen 2 als verknüpfte Dienste hinzu.

  1. Öffnen Sie die Azure Synapse Analytics UX, und wechseln Sie zur Registerkarte " Verwalten ".
  2. Wählen Sie unter "Externe Verbindungen" "Verknüpfte Dienste" aus.
  3. Um einen verknüpften Dienst hinzuzufügen, wählen Sie "Neu" aus.
  4. Wählen Sie in der Liste die Kachel "Azure Data Lake Storage Gen2" aus, und wählen Sie "Weiter" aus.
  5. Geben Sie Ihre Authentifizierungsanmeldeinformationen ein. Der Kontoschlüssel, der Dienstprinzipal und die verwaltete Identität sind die derzeit unterstützten Authentifizierungstypen. Wählen Sie die Testverbindung aus, um zu überprüfen, ob Ihre Anmeldeinformationen korrekt sind.
  6. Wählen Sie "Erstellen" aus, wenn Sie fertig sind.

Pipeline erstellen

Eine Pipeline enthält den logischen Fluss für eine Ausführung einer Reihe von Aktivitäten. In diesem Abschnitt erstellen Sie eine Pipeline mit einer Kopieraktivität, die Daten aus Azure Data Lake Gen 2 in einen dedizierten SQL-Pool einnimmt.

  1. Wechseln Sie zur Registerkarte Orchestrieren. Wählen Sie neben dem Pipelines-Header das Plussymbol aus und wählen Sie Pipeline aus.
  2. Ziehen Sie im Bereich „Aktivitäten“ unter Verschieben und transformieren den Befehl Daten kopieren auf die Pipelinecanvas.
  3. Wählen Sie die Kopieraktivität aus, und wechseln Sie zur Registerkarte " Quelle ". Wählen Sie "Neu" aus, um ein neues Quelldatenset zu erstellen.
  4. Wählen Sie Azure Data Lake Storage Gen2 als Datenspeicher aus, und fahren Sie fort.
  5. Wählen Sie "DelimitedText" als Format aus, und setzen Sie den Vorgang fort.
  6. Wählen Sie im Eigenschaftenbereich den verknüpften ADLS-Dienst aus, den Sie erstellt haben. Geben Sie den Dateipfad der Quelldaten an, und geben Sie an, ob die erste Zeile über eine Kopfzeile verfügt. Sie können das Schema aus dem Dateispeicher oder einer Beispieldatei importieren. Wählen Sie "OK" aus, wenn Sie fertig sind.
  7. Wechseln Sie zur Registerkarte "Senken ". Wählen Sie "Neu" aus, um ein neues Sink-Dataset zu erstellen.
  8. Wählen Sie Azure Data Lake Storage gen2 als Datenspeicher aus, und fahren Sie fort.
  9. Wählen Sie "DelimitedText" als Format aus, und setzen Sie den Vorgang fort.
  10. Wählen Sie im Eigenschaftenbereich den verknüpften ADLS-Dienst aus, den Sie erstellt haben. Geben Sie den Pfad des Ordners an, in den Sie Daten schreiben möchten. Wählen Sie "OK" aus, wenn Sie fertig sind.

Debuggen und Veröffentlichen der Pipeline

Nachdem Sie die Konfiguration der Pipeline abgeschlossen haben, können Sie eine Debugausführung ausführen, bevor Sie Ihre Artefakte veröffentlichen, um sicherzustellen, dass alles korrekt ist.

  1. Klicken Sie auf der Symbolleiste auf Debuggen, um die Pipeline zu debuggen. Der Status der Pipelineausführung wird unten im Fenster auf der Registerkarte Ausgabe angezeigt.
  2. Sobald die Pipeline erfolgreich ausgeführt werden kann, wählen Sie in der oberen Symbolleiste "Alle veröffentlichen" aus. Diese Aktion veröffentlicht Entitäten (Datasets und Pipelines), die Sie im Synapse Analytics-Dienst erstellt haben.
  3. Warten Sie, bis die Meldung Erfolgreich veröffentlicht angezeigt wird. Um Benachrichtigungen anzuzeigen, wählen Sie oben rechts die Glockenschaltfläche aus.

Auslösen und Überwachen der Pipeline

In diesem Schritt lösen Sie die im vorherigen Schritt veröffentlichte Pipeline manuell aus.

  1. Wählen Sie in der Symbolleiste die Option Trigger hinzufügen und dann Jetzt auslösen. Wählen Sie auf der Seite "Pipelineausführung" die Option "Fertig stellen" aus.
  2. Wechseln Sie zur Registerkarte "Monitor ", die sich in der linken Randleiste befindet. Sie sehen eine Pipelineausführung, die von einem manuellen Trigger ausgelöst wird. Sie können Links in der Spalte "Aktionen " verwenden, um Aktivitätsdetails anzuzeigen und die Pipeline erneut auszuführen.
  3. Um aktivitäten anzuzeigen, die der Pipelineausführung zugeordnet sind, wählen Sie in der Spalte "Aktionen" den Link "Aktivitätsläufe anzeigen" aus. Da in diesem Beispiel nur eine Aktivität vorhanden ist, wird in der Liste nur ein Eintrag angezeigt. Ausführliche Informationen zum Kopiervorgang erhalten Sie, indem Sie den Link "Details" (Brillensymbol) in der Spalte "Aktionen" auswählen. Wählen Sie oben Pipeline-Läufe aus, um zur Ansicht Pipeline-Läufe zurückzukehren. Klicken Sie zum Aktualisieren der Ansicht auf Aktualisieren.
  4. Überprüfen Sie, ob Ihre Daten ordnungsgemäß im dedizierten SQL-Pool geschrieben wurden.

Nächste Schritte

Weitere Informationen zur Datenintegration für Azure Synapse Analytics finden Sie im Artikel zum Erfassen von Daten in einem dedizierten SQL-Poolartikel .