Schnellstart: Erstellen einer Azure Data Factory-Instanz mithilfe der Azure CLI
Diese Schnellstartanleitung beschreibt, wie Sie die Azure CLI verwenden, um eine Azure Data Factory-Instanz zu erstellen. Die in dieser Data Factory erstellte Pipeline kopiert Daten aus einem Ordner in einen anderen Ordner in Azure Blob Storage. Informationen zum Transformieren von Daten mithilfe von Azure Data Factory finden Sie unter Transformieren von Data in Azure Data Factory.
Eine Einführung in den Azure Data Factory-Dienst finden Sie unter Einführung in Azure Data Factory.
Wenn Sie kein Azure-Abonnement besitzen, können Sie ein kostenloses Konto erstellen, bevor Sie beginnen.
Voraussetzungen
Verwenden Sie die Bash-Umgebung in Azure Cloud Shell. Weitere Informationen finden Sie unter Schnellstart für Bash in Azure Cloud Shell.
Wenn Sie CLI-Referenzbefehle lieber lokal ausführen, installieren Sie die Azure CLI. Wenn Sie Windows oder macOS ausführen, sollten Sie die Azure CLI in einem Docker-Container ausführen. Weitere Informationen finden Sie unter Ausführen der Azure CLI in einem Docker-Container.
Wenn Sie eine lokale Installation verwenden, melden Sie sich mithilfe des Befehls az login bei der Azure CLI an. Führen Sie die in Ihrem Terminal angezeigten Schritte aus, um den Authentifizierungsprozess abzuschließen. Informationen zu anderen Anmeldeoptionen finden Sie unter Anmelden mit der Azure CLI.
Installieren Sie die Azure CLI-Erweiterung beim ersten Einsatz, wenn Sie dazu aufgefordert werden. Weitere Informationen zu Erweiterungen finden Sie unter Verwenden von Erweiterungen mit der Azure CLI.
Führen Sie az version aus, um die installierte Version und die abhängigen Bibliotheken zu ermitteln. Führen Sie az upgrade aus, um das Upgrade auf die aktuelle Version durchzuführen.
Hinweis
Damit Sie Data Factory-Instanzen erstellen können, muss das Benutzerkonto, mit dem Sie sich bei Azure anmelden, ein Mitglied der Rolle „Mitwirkender“ oder „Besitzer“ oder ein Administrator des Azure-Abonnements sein. Weitere Informationen finden Sie unter Azure-Rollen.
Vorbereiten eines Containers und einer Testdatei
In dieser Schnellstartanleitung wird ein Azure Storage-Konto verwendet, das einen Container mit einer Datei enthält.
Verwenden Sie zum Erstellen einer Ressourcengruppe namens
ADFQuickStartRG
den Befehl az group create:az group create --name ADFQuickStartRG --location eastus
Erstellen Sie ein Speicherkonto mithilfe des Befehls az storage account create:
az storage account create --resource-group ADFQuickStartRG \ --name adfquickstartstorage --location eastus
Erstellen Sie mithilfe des Befehls az storage container create einen Container namens
adftutorial
:az storage container create --resource-group ADFQuickStartRG --name adftutorial \ --account-name adfquickstartstorage --auth-mode key
Erstellen Sie im lokalen Verzeichnis eine Datei namens
emp.txt
zum Hochladen. In Azure Cloud Shell können Sie das aktuelle Arbeitsverzeichnis mithilfe des Bash-Befehlsecho $PWD
ermitteln. Sie können Bash-Standardbefehle wiecat
verwenden, um eine Datei zu erstellen:cat > emp.txt This is text.
Verwenden Sie STRG+D, um die neue Datei zu speichern.
Verwenden Sie zum Hochladen der neuen Datei in Ihren Azure-Speichercontainer den Befehl az storage blob upload:
az storage blob upload --account-name adfquickstartstorage --name input/emp.txt \ --container-name adftutorial --file emp.txt --auth-mode key
Mit diesem Befehl erfolgt der Upload in einen neuen Ordner mit dem Namen
input
.
Erstellen einer Data Factory
Führen Sie zum Erstellen einer Azure Data Factory-Instanz den Befehl az datafactory create aus:
az datafactory create --resource-group ADFQuickStartRG \
--factory-name ADFTutorialFactory
Wichtig
Ersetzen Sie ADFTutorialFactory
durch einen global eindeutigen Data Factory-Namen, etwa „ADFTutorialFactorySP1127“.
Die von Ihnen erstellte Data Factory-Instanz können Sie mithilfe des Befehls az datafactory show anzeigen:
az datafactory show --resource-group ADFQuickStartRG \
--factory-name ADFTutorialFactory
Erstellen eines verknüpften Diensts und von Datasets
Erstellen Sie als Nächstes einen verknüpften Dienst und zwei Datasets.
Verwenden Sie den Befehl az storage account show-connection-string, um die Verbindungszeichenfolge für Ihr Speicherkonto abzurufen:
az storage account show-connection-string --resource-group ADFQuickStartRG \ --name adfquickstartstorage --key primary
Erstellen Sie in Ihrem Arbeitsverzeichnis eine JSON-Datei mit folgendem Inhalt, die ihre eigene Verbindungszeichenfolge aus dem vorherigen Schritt enthält. Geben Sie der Datei den Namen
AzureStorageLinkedService.json
:{ "type": "AzureBlobStorage", "typeProperties": { "connectionString": "DefaultEndpointsProtocol=https;AccountName=<accountName>;AccountKey=<accountKey>;EndpointSuffix=core.windows.net" } }
Erstellen Sie mithilfe des Befehls az datafactory linked-service create einen verknüpften Dienst namens
AzureStorageLinkedService
:az datafactory linked-service create --resource-group ADFQuickStartRG \ --factory-name ADFTutorialFactory --linked-service-name AzureStorageLinkedService \ --properties AzureStorageLinkedService.json
Erstellen Sie in Ihrem Arbeitsverzeichnis eine JSON-Datei namens
InputDataset.json
mit dem folgenden Inhalt:{ "linkedServiceName": { "referenceName": "AzureStorageLinkedService", "type": "LinkedServiceReference" }, "annotations": [], "type": "Binary", "typeProperties": { "location": { "type": "AzureBlobStorageLocation", "fileName": "emp.txt", "folderPath": "input", "container": "adftutorial" } } }
Erstellen Sie mit dem Befehl az datafactory dataset create ein Eingabedataset namens
InputDataset
:az datafactory dataset create --resource-group ADFQuickStartRG \ --dataset-name InputDataset --factory-name ADFTutorialFactory \ --properties InputDataset.json
Erstellen Sie in Ihrem Arbeitsverzeichnis eine JSON-Datei namens
OutputDataset.json
mit dem folgenden Inhalt:{ "linkedServiceName": { "referenceName": "AzureStorageLinkedService", "type": "LinkedServiceReference" }, "annotations": [], "type": "Binary", "typeProperties": { "location": { "type": "AzureBlobStorageLocation", "folderPath": "output", "container": "adftutorial" } } }
Erstellen Sie mit dem Befehl az datafactory dataset create ein Ausgabedataset namens
OutputDataset
:az datafactory dataset create --resource-group ADFQuickStartRG \ --dataset-name OutputDataset --factory-name ADFTutorialFactory \ --properties OutputDataset.json
Erstellen und Ausführen der Pipeline
Erstellen Sie abschließend die Pipeline, und führen Sie sie aus.
Erstellen Sie in Ihrem Arbeitsverzeichnis eine JSON-Datei namens
Adfv2QuickStartPipeline.json
mit dem folgenden Inhalt:{ "name": "Adfv2QuickStartPipeline", "properties": { "activities": [ { "name": "CopyFromBlobToBlob", "type": "Copy", "dependsOn": [], "policy": { "timeout": "7.00:00:00", "retry": 0, "retryIntervalInSeconds": 30, "secureOutput": false, "secureInput": false }, "userProperties": [], "typeProperties": { "source": { "type": "BinarySource", "storeSettings": { "type": "AzureBlobStorageReadSettings", "recursive": true } }, "sink": { "type": "BinarySink", "storeSettings": { "type": "AzureBlobStorageWriteSettings" } }, "enableStaging": false }, "inputs": [ { "referenceName": "InputDataset", "type": "DatasetReference" } ], "outputs": [ { "referenceName": "OutputDataset", "type": "DatasetReference" } ] } ], "annotations": [] } }
Erstellen Sie mit dem Befehl az datafactory pipeline create eine Pipeline namens
Adfv2QuickStartPipeline
:az datafactory pipeline create --resource-group ADFQuickStartRG \ --factory-name ADFTutorialFactory --name Adfv2QuickStartPipeline \ --pipeline Adfv2QuickStartPipeline.json
Führen Sie die Pipeline mithilfe des Befehls az datafactory pipeline create-run aus:
az datafactory pipeline create-run --resource-group ADFQuickStartRG \ --name Adfv2QuickStartPipeline --factory-name ADFTutorialFactory
Dieser Befehl gibt eine Ausführungs-ID zurück. Kopieren Sie diese zur Verwendung im nächsten Befehl.
Überprüfen Sie mithilfe des Befehls az datafactory pipeline-run show, ob die Pipelineausführung erfolgreich war:
az datafactory pipeline-run show --resource-group ADFQuickStartRG \ --factory-name ADFTutorialFactory --run-id 00000000-0000-0000-0000-000000000000
Sie können auch mit dem Azure-Portal überprüfen, ob die Pipeline erwartungsgemäß ausgeführt wurde. Weitere Informationen finden Sie unter Überprüfen der bereitgestellten Ressourcen.
Bereinigen von Ressourcen
Alle Ressourcen in dieser Schnellstartanleitung sind Teil derselben Ressourcengruppe. Wenn Sie sie alle entfernen möchten, verwenden Sie den Befehl az group delete:
az group delete --name ADFQuickStartRG
Wenn Sie diese Ressourcengruppe für etwas anderes verwenden, löschen Sie stattdessen einzelne Ressourcen. Verwenden Sie beispielsweise den Befehl az datafactory linked-service delete, um den verknüpften Dienst zu entfernen.
In dieser Schnellstartanleitung haben Sie die folgenden JSON-Dateien erstellt:
- AzureStorageLinkedService.json
- InputDataset.json
- OutputDataset.json
- Adfv2QuickStartPipeline.json
Löschen Sie sie mithilfe von Bash-Standardbefehlen.