Share via


Schnellstart: Erstellen einer Azure Data Factory-Instanz mithilfe der Azure CLI

Diese Schnellstartanleitung beschreibt, wie Sie die Azure CLI verwenden, um eine Azure Data Factory-Instanz zu erstellen. Die in dieser Data Factory erstellte Pipeline kopiert Daten aus einem Ordner in einen anderen Ordner in Azure Blob Storage. Informationen zum Transformieren von Daten mithilfe von Azure Data Factory finden Sie unter Transformieren von Data in Azure Data Factory.

Eine Einführung in den Azure Data Factory-Dienst finden Sie unter Einführung in Azure Data Factory.

Wenn Sie kein Azure-Abonnement besitzen, können Sie ein kostenloses Konto erstellen, bevor Sie beginnen.

Voraussetzungen

  • Verwenden Sie die Bash-Umgebung in Azure Cloud Shell. Weitere Informationen finden Sie unter Schnellstart für Bash in Azure Cloud Shell.

  • Wenn Sie CLI-Referenzbefehle lieber lokal ausführen, installieren Sie die Azure CLI. Wenn Sie Windows oder macOS ausführen, sollten Sie die Azure CLI in einem Docker-Container ausführen. Weitere Informationen finden Sie unter Ausführen der Azure CLI in einem Docker-Container.

    • Wenn Sie eine lokale Installation verwenden, melden Sie sich mithilfe des Befehls az login bei der Azure CLI an. Führen Sie die in Ihrem Terminal angezeigten Schritte aus, um den Authentifizierungsprozess abzuschließen. Informationen zu anderen Anmeldeoptionen finden Sie unter Anmelden mit der Azure CLI.

    • Installieren Sie die Azure CLI-Erweiterung beim ersten Einsatz, wenn Sie dazu aufgefordert werden. Weitere Informationen zu Erweiterungen finden Sie unter Verwenden von Erweiterungen mit der Azure CLI.

    • Führen Sie az version aus, um die installierte Version und die abhängigen Bibliotheken zu ermitteln. Führen Sie az upgrade aus, um das Upgrade auf die aktuelle Version durchzuführen.

Hinweis

Damit Sie Data Factory-Instanzen erstellen können, muss das Benutzerkonto, mit dem Sie sich bei Azure anmelden, ein Mitglied der Rolle „Mitwirkender“ oder „Besitzer“ oder ein Administrator des Azure-Abonnements sein. Weitere Informationen finden Sie unter Azure-Rollen.

Vorbereiten eines Containers und einer Testdatei

In dieser Schnellstartanleitung wird ein Azure Storage-Konto verwendet, das einen Container mit einer Datei enthält.

  1. Verwenden Sie zum Erstellen einer Ressourcengruppe namens ADFQuickStartRG den Befehl az group create:

    az group create --name ADFQuickStartRG --location eastus
    
  2. Erstellen Sie ein Speicherkonto mithilfe des Befehls az storage account create:

    az storage account create --resource-group ADFQuickStartRG \
        --name adfquickstartstorage --location eastus
    
  3. Erstellen Sie mithilfe des Befehls az storage container create einen Container namens adftutorial:

    az storage container create --resource-group ADFQuickStartRG --name adftutorial \
        --account-name adfquickstartstorage --auth-mode key
    
  4. Erstellen Sie im lokalen Verzeichnis eine Datei namens emp.txt zum Hochladen. In Azure Cloud Shell können Sie das aktuelle Arbeitsverzeichnis mithilfe des Bash-Befehls echo $PWD ermitteln. Sie können Bash-Standardbefehle wie cat verwenden, um eine Datei zu erstellen:

    cat > emp.txt
    This is text.
    

    Verwenden Sie STRG+D, um die neue Datei zu speichern.

  5. Verwenden Sie zum Hochladen der neuen Datei in Ihren Azure-Speichercontainer den Befehl az storage blob upload:

    az storage blob upload --account-name adfquickstartstorage --name input/emp.txt \
        --container-name adftutorial --file emp.txt --auth-mode key
    

    Mit diesem Befehl erfolgt der Upload in einen neuen Ordner mit dem Namen input.

Erstellen einer Data Factory

Führen Sie zum Erstellen einer Azure Data Factory-Instanz den Befehl az datafactory create aus:

az datafactory create --resource-group ADFQuickStartRG \
    --factory-name ADFTutorialFactory

Wichtig

Ersetzen Sie ADFTutorialFactory durch einen global eindeutigen Data Factory-Namen, etwa „ADFTutorialFactorySP1127“.

Die von Ihnen erstellte Data Factory-Instanz können Sie mithilfe des Befehls az datafactory show anzeigen:

az datafactory show --resource-group ADFQuickStartRG \
    --factory-name ADFTutorialFactory

Erstellen eines verknüpften Diensts und von Datasets

Erstellen Sie als Nächstes einen verknüpften Dienst und zwei Datasets.

  1. Verwenden Sie den Befehl az storage account show-connection-string, um die Verbindungszeichenfolge für Ihr Speicherkonto abzurufen:

    az storage account show-connection-string --resource-group ADFQuickStartRG \
        --name adfquickstartstorage --key primary
    
  2. Erstellen Sie in Ihrem Arbeitsverzeichnis eine JSON-Datei mit folgendem Inhalt, die ihre eigene Verbindungszeichenfolge aus dem vorherigen Schritt enthält. Geben Sie der Datei den Namen AzureStorageLinkedService.json:

    {
        "type": "AzureBlobStorage",
        "typeProperties": {
            "connectionString": "DefaultEndpointsProtocol=https;AccountName=<accountName>;AccountKey=<accountKey>;EndpointSuffix=core.windows.net"
        }
    }
    
  3. Erstellen Sie mithilfe des Befehls az datafactory linked-service create einen verknüpften Dienst namens AzureStorageLinkedService:

    az datafactory linked-service create --resource-group ADFQuickStartRG \
        --factory-name ADFTutorialFactory --linked-service-name AzureStorageLinkedService \
        --properties AzureStorageLinkedService.json
    
  4. Erstellen Sie in Ihrem Arbeitsverzeichnis eine JSON-Datei namens InputDataset.json mit dem folgenden Inhalt:

    {
        "linkedServiceName": {
            "referenceName": "AzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "annotations": [],
        "type": "Binary",
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "fileName": "emp.txt",
                "folderPath": "input",
                "container": "adftutorial"
            }
        }
    }
    
  5. Erstellen Sie mit dem Befehl az datafactory dataset create ein Eingabedataset namens InputDataset:

    az datafactory dataset create --resource-group ADFQuickStartRG \
        --dataset-name InputDataset --factory-name ADFTutorialFactory \
        --properties InputDataset.json
    
  6. Erstellen Sie in Ihrem Arbeitsverzeichnis eine JSON-Datei namens OutputDataset.json mit dem folgenden Inhalt:

    {
        "linkedServiceName": {
            "referenceName": "AzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "annotations": [],
        "type": "Binary",
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "folderPath": "output",
                "container": "adftutorial"
            }
        }
    }
    
  7. Erstellen Sie mit dem Befehl az datafactory dataset create ein Ausgabedataset namens OutputDataset:

    az datafactory dataset create --resource-group ADFQuickStartRG \
        --dataset-name OutputDataset --factory-name ADFTutorialFactory \
        --properties OutputDataset.json
    

Erstellen und Ausführen der Pipeline

Erstellen Sie abschließend die Pipeline, und führen Sie sie aus.

  1. Erstellen Sie in Ihrem Arbeitsverzeichnis eine JSON-Datei namens Adfv2QuickStartPipeline.json mit dem folgenden Inhalt:

    {
        "name": "Adfv2QuickStartPipeline",
        "properties": {
            "activities": [
                {
                    "name": "CopyFromBlobToBlob",
                    "type": "Copy",
                    "dependsOn": [],
                    "policy": {
                        "timeout": "7.00:00:00",
                        "retry": 0,
                        "retryIntervalInSeconds": 30,
                        "secureOutput": false,
                        "secureInput": false
                    },
                    "userProperties": [],
                    "typeProperties": {
                        "source": {
                            "type": "BinarySource",
                            "storeSettings": {
                                "type": "AzureBlobStorageReadSettings",
                                "recursive": true
                            }
                        },
                        "sink": {
                            "type": "BinarySink",
                            "storeSettings": {
                                "type": "AzureBlobStorageWriteSettings"
                            }
                        },
                        "enableStaging": false
                    },
                    "inputs": [
                        {
                            "referenceName": "InputDataset",
                            "type": "DatasetReference"
                        }
                    ],
                    "outputs": [
                        {
                            "referenceName": "OutputDataset",
                            "type": "DatasetReference"
                        }
                    ]
                }
            ],
            "annotations": []
        }
    }
    
  2. Erstellen Sie mit dem Befehl az datafactory pipeline create eine Pipeline namens Adfv2QuickStartPipeline:

    az datafactory pipeline create --resource-group ADFQuickStartRG \
        --factory-name ADFTutorialFactory --name Adfv2QuickStartPipeline \
        --pipeline Adfv2QuickStartPipeline.json
    
  3. Führen Sie die Pipeline mithilfe des Befehls az datafactory pipeline create-run aus:

    az datafactory pipeline create-run --resource-group ADFQuickStartRG \
        --name Adfv2QuickStartPipeline --factory-name ADFTutorialFactory
    

    Dieser Befehl gibt eine Ausführungs-ID zurück. Kopieren Sie diese zur Verwendung im nächsten Befehl.

  4. Überprüfen Sie mithilfe des Befehls az datafactory pipeline-run show, ob die Pipelineausführung erfolgreich war:

    az datafactory pipeline-run show --resource-group ADFQuickStartRG \
        --factory-name ADFTutorialFactory --run-id 00000000-0000-0000-0000-000000000000
    

Sie können auch mit dem Azure-Portal überprüfen, ob die Pipeline erwartungsgemäß ausgeführt wurde. Weitere Informationen finden Sie unter Überprüfen der bereitgestellten Ressourcen.

Bereinigen von Ressourcen

Alle Ressourcen in dieser Schnellstartanleitung sind Teil derselben Ressourcengruppe. Wenn Sie sie alle entfernen möchten, verwenden Sie den Befehl az group delete:

az group delete --name ADFQuickStartRG

Wenn Sie diese Ressourcengruppe für etwas anderes verwenden, löschen Sie stattdessen einzelne Ressourcen. Verwenden Sie beispielsweise den Befehl az datafactory linked-service delete, um den verknüpften Dienst zu entfernen.

In dieser Schnellstartanleitung haben Sie die folgenden JSON-Dateien erstellt:

  • AzureStorageLinkedService.json
  • InputDataset.json
  • OutputDataset.json
  • Adfv2QuickStartPipeline.json

Löschen Sie sie mithilfe von Bash-Standardbefehlen.