Rychlý start: Vytvoření služby Azure Data Factory pomocí Azure CLI

Tento rychlý start popisuje, jak pomocí Azure CLI vytvořit službu Azure Data Factory. Kanál, který vytvoříte v této datové továrně, kopíruje data z jedné složky do jiné složky ve službě Azure Blob Storage. Informace o tom, jak transformovat data pomocí služby Azure Data Factory, najdete v tématu Transformace dat ve službě Azure Data Factory.

Úvod do služby Azure Data Factory najdete v tématu Úvod do Azure Data Factory.

Pokud ještě nemáte předplatné Azure, vytvořte si napřed bezplatný účet.

Požadavky

Poznámka:

Pro vytvoření instancí služby Data Factory musí být uživatelský účet, který použijete pro přihlášení k Azure, členem role přispěvatel nebo vlastník nebo správcem předplatného Azure. Další informace naleznete v článku Role Azure.

Příprava kontejneru a testovacího souboru

V tomto rychlém startu se používá účet Azure Storage, který zahrnuje kontejner se souborem.

  1. K vytvoření skupiny prostředků s názvem ADFQuickStartRGpoužijte příkaz az group create :

    az group create --name ADFQuickStartRG --location eastus
    
  2. Vytvořte účet úložiště pomocí příkazu az storage account create :

    az storage account create --resource-group ADFQuickStartRG \
        --name adfquickstartstorage --location eastus
    
  3. Pomocí příkazu az storage container create vytvořte kontejner s názvem:adftutorial

    az storage container create --resource-group ADFQuickStartRG --name adftutorial \
        --account-name adfquickstartstorage --auth-mode key
    
  4. V místním adresáři vytvořte soubor s názvem emp.txt pro nahrání. Pokud pracujete v Azure Cloud Shellu, můžete aktuální pracovní adresář najít pomocí echo $PWD příkazu Bash. K vytvoření souboru můžete použít standardní příkazy Bash, například cat:

    cat > emp.txt
    This is text.
    

    K uložení nového souboru použijte Ctrl+D .

  5. K nahrání nového souboru do kontejneru úložiště Azure použijte příkaz az storage blob upload :

    az storage blob upload --account-name adfquickstartstorage --name input/emp.txt \
        --container-name adftutorial --file emp.txt --auth-mode key
    

    Tento příkaz se nahraje do nové složky s názvem input.

Vytvoření datové továrny

Pokud chcete vytvořit objekt pro vytváření dat Azure, spusťte příkaz az datafactory create :

az datafactory create --resource-group ADFQuickStartRG \
    --factory-name ADFTutorialFactory

Důležité

Nahraďte ADFTutorialFactory globálně jedinečným názvem datové továrny, například ADFTutorialFactorySP1127.

Datovou továrnu, kterou jste vytvořili, můžete zobrazit pomocí příkazu az datafactory show :

az datafactory show --resource-group ADFQuickStartRG \
    --factory-name ADFTutorialFactory

Vytvoření propojené služby a datových sad

Dále vytvořte propojenou službu a dvě datové sady.

  1. Pomocí příkazu az storage account show-connection-string získejte připojovací řetězec pro váš účet úložiště:

    az storage account show-connection-string --resource-group ADFQuickStartRG \
        --name adfquickstartstorage --key primary
    
  2. V pracovním adresáři vytvořte soubor JSON s tímto obsahem, který obsahuje vlastní připojovací řetězec z předchozího kroku. Pojmenujte soubor AzureStorageLinkedService.json:

    {
        "type": "AzureBlobStorage",
        "typeProperties": {
            "connectionString": "DefaultEndpointsProtocol=https;AccountName=<accountName>;AccountKey=<accountKey>;EndpointSuffix=core.windows.net"
        }
    }
    
  3. Vytvořte propojenou službu s názvem AzureStorageLinkedServiceaz datafactory linked-service create command:

    az datafactory linked-service create --resource-group ADFQuickStartRG \
        --factory-name ADFTutorialFactory --linked-service-name AzureStorageLinkedService \
        --properties AzureStorageLinkedService.json
    
  4. V pracovním adresáři vytvořte soubor JSON s tímto obsahem s názvem InputDataset.json:

    {
        "linkedServiceName": {
            "referenceName": "AzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "annotations": [],
        "type": "Binary",
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "fileName": "emp.txt",
                "folderPath": "input",
                "container": "adftutorial"
            }
        }
    }
    
  5. Pomocí příkazu az datafactory dataset create vytvořte vstupní datovou sadu s názvem:InputDataset

    az datafactory dataset create --resource-group ADFQuickStartRG \
        --dataset-name InputDataset --factory-name ADFTutorialFactory \
        --properties InputDataset.json
    
  6. V pracovním adresáři vytvořte soubor JSON s tímto obsahem s názvem OutputDataset.json:

    {
        "linkedServiceName": {
            "referenceName": "AzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "annotations": [],
        "type": "Binary",
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "folderPath": "output",
                "container": "adftutorial"
            }
        }
    }
    
  7. Pomocí příkazu az datafactory dataset create vytvořte výstupní datovou sadu s názvem:OutputDataset

    az datafactory dataset create --resource-group ADFQuickStartRG \
        --dataset-name OutputDataset --factory-name ADFTutorialFactory \
        --properties OutputDataset.json
    

Vytvoření a spuštění kanálu

Nakonec vytvořte a spusťte kanál.

  1. V pracovním adresáři vytvořte soubor JSON s tímto obsahem s názvem Adfv2QuickStartPipeline.json:

    {
        "name": "Adfv2QuickStartPipeline",
        "properties": {
            "activities": [
                {
                    "name": "CopyFromBlobToBlob",
                    "type": "Copy",
                    "dependsOn": [],
                    "policy": {
                        "timeout": "7.00:00:00",
                        "retry": 0,
                        "retryIntervalInSeconds": 30,
                        "secureOutput": false,
                        "secureInput": false
                    },
                    "userProperties": [],
                    "typeProperties": {
                        "source": {
                            "type": "BinarySource",
                            "storeSettings": {
                                "type": "AzureBlobStorageReadSettings",
                                "recursive": true
                            }
                        },
                        "sink": {
                            "type": "BinarySink",
                            "storeSettings": {
                                "type": "AzureBlobStorageWriteSettings"
                            }
                        },
                        "enableStaging": false
                    },
                    "inputs": [
                        {
                            "referenceName": "InputDataset",
                            "type": "DatasetReference"
                        }
                    ],
                    "outputs": [
                        {
                            "referenceName": "OutputDataset",
                            "type": "DatasetReference"
                        }
                    ]
                }
            ],
            "annotations": []
        }
    }
    
  2. Vytvořte kanál s názvem Adfv2QuickStartPipeline pomocí příkazu az datafactory pipeline create :

    az datafactory pipeline create --resource-group ADFQuickStartRG \
        --factory-name ADFTutorialFactory --name Adfv2QuickStartPipeline \
        --pipeline Adfv2QuickStartPipeline.json
    
  3. Spuštění kanálu pomocí příkazu az datafactory pipeline create-run :

    az datafactory pipeline create-run --resource-group ADFQuickStartRG \
        --name Adfv2QuickStartPipeline --factory-name ADFTutorialFactory
    

    Tento příkaz vrátí ID spuštění. Zkopírujte ho pro použití v dalším příkazu.

  4. Pomocí příkazu az datafactory pipeline-run show ověřte, že spuštění kanálu proběhlo úspěšně:

    az datafactory pipeline-run show --resource-group ADFQuickStartRG \
        --factory-name ADFTutorialFactory --run-id 00000000-0000-0000-0000-000000000000
    

Pomocí webu Azure Portal můžete také ověřit, že váš kanál běžel podle očekávání. Další informace najdete v tématu Kontrola nasazených prostředků.

Vyčištění prostředků

Všechny prostředky v tomto rychlém startu jsou součástí stejné skupiny prostředků. Pokud je chcete odebrat všechny, použijte příkaz az group delete :

az group delete --name ADFQuickStartRG

Pokud tuto skupinu prostředků používáte pro cokoli jiného, odstraňte místo toho jednotlivé prostředky. Pokud například chcete odebrat propojenou službu, použijte příkaz az datafactory linked-service delete .

V tomto rychlém startu jste vytvořili následující soubory JSON:

  • AzureStorageLinkedService.json
  • InputDataset.json
  • OutputDataset.json
  • Adfv2QuickStartPipeline.json

Odstraňte je pomocí standardních příkazů Bash.