Szybki start: tworzenie usługi Azure Data Factory przy użyciu interfejsu wiersza polecenia platformy Azure

W tym przewodniku Szybki start opisano sposób tworzenia usługi Azure Data Factory przy użyciu interfejsu wiersza polecenia platformy Azure. Potok tworzony w tej fabryce danych kopiuje dane z jednego folderu do innego folderu w usłudze Azure Blob Storage. Aby uzyskać informacje na temat przekształcania danych przy użyciu usługi Azure Data Factory, zobacz Przekształcanie danych w usłudze Azure Data Factory.

Aby zapoznać się z wprowadzeniem do usługi Azure Data Factory, zobacz Wprowadzenie do usługi Azure Data Factory.

Jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto.

Wymagania wstępne

Uwaga

Aby utworzyć wystąpienia usługi Data Factory, konto użytkownika używane do logowania się na platformie Azure musi być członkiem roli współautora lub właściciela albo administratorem subskrypcji platformy Azure. Aby uzyskać więcej informacji, zobacz Role platformy Azure.

Przygotowywanie kontenera i pliku testowego

W tym przewodniku Szybki start jest używane konto usługi Azure Storage, które zawiera kontener z plikiem.

  1. Aby utworzyć grupę zasobów o nazwie ADFQuickStartRG, użyj polecenia az group create :

    az group create --name ADFQuickStartRG --location eastus
    
  2. Utwórz konto magazynu przy użyciu polecenia az storage account create :

    az storage account create --resource-group ADFQuickStartRG \
        --name adfquickstartstorage --location eastus
    
  3. Utwórz kontener o nazwie adftutorial za pomocą polecenia az storage container create :

    az storage container create --resource-group ADFQuickStartRG --name adftutorial \
        --account-name adfquickstartstorage --auth-mode key
    
  4. W katalogu lokalnym utwórz plik o nazwie emp.txt w celu przekazania. Jeśli pracujesz w usłudze Azure Cloud Shell, możesz znaleźć bieżący katalog roboczy przy użyciu echo $PWD polecenia Bash. Do utworzenia pliku można użyć standardowych poleceń powłoki Bash, takich jak cat, :

    cat > emp.txt
    This is text.
    

    Użyj klawiszy Ctrl+D , aby zapisać nowy plik.

  5. Aby przekazać nowy plik do kontenera usługi Azure Storage, użyj polecenia az storage blob upload :

    az storage blob upload --account-name adfquickstartstorage --name input/emp.txt \
        --container-name adftutorial --file emp.txt --auth-mode key
    

    To polecenie przekazuje do nowego folderu o nazwie input.

Tworzenie fabryki danych

Aby utworzyć fabrykę danych Azure, uruchom polecenie az datafactory create :

az datafactory create --resource-group ADFQuickStartRG \
    --factory-name ADFTutorialFactory

Ważne

Zastąp ADFTutorialFactory element globalnie unikatową nazwą fabryki danych, na przykład ADFTutorialFactorySP1127.

Możesz zobaczyć utworzoną fabrykę danych za pomocą polecenia az datafactory show :

az datafactory show --resource-group ADFQuickStartRG \
    --factory-name ADFTutorialFactory

Tworzenie połączonej usługi i zestawów danych

Następnie utwórz połączoną usługę i dwa zestawy danych.

  1. Pobierz parametry połączenia dla konta magazynu przy użyciu polecenia az storage account show-connection-string:

    az storage account show-connection-string --resource-group ADFQuickStartRG \
        --name adfquickstartstorage --key primary
    
  2. W katalogu roboczym utwórz plik JSON z tą zawartością, który zawiera własne parametry połączenia z poprzedniego kroku. Nadaj plikowi AzureStorageLinkedService.jsonnazwę :

    {
        "type": "AzureBlobStorage",
        "typeProperties": {
            "connectionString": "DefaultEndpointsProtocol=https;AccountName=<accountName>;AccountKey=<accountKey>;EndpointSuffix=core.windows.net"
        }
    }
    
  3. Utwórz połączoną usługę o nazwie AzureStorageLinkedService, przy użyciu polecenia az datafactory linked-service create :

    az datafactory linked-service create --resource-group ADFQuickStartRG \
        --factory-name ADFTutorialFactory --linked-service-name AzureStorageLinkedService \
        --properties @AzureStorageLinkedService.json
    
  4. W katalogu roboczym utwórz plik JSON o tej zawartości o nazwie InputDataset.json:

    {
        "linkedServiceName": {
            "referenceName": "AzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "annotations": [],
        "type": "Binary",
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "fileName": "emp.txt",
                "folderPath": "input",
                "container": "adftutorial"
            }
        }
    }
    
  5. Utwórz wejściowy zestaw danych o nazwie InputDataset przy użyciu polecenia az datafactory dataset create :

    az datafactory dataset create --resource-group ADFQuickStartRG \
        --dataset-name InputDataset --factory-name ADFTutorialFactory \
        --properties @InputDataset.json
    
  6. W katalogu roboczym utwórz plik JSON o tej zawartości o nazwie OutputDataset.json:

    {
        "linkedServiceName": {
            "referenceName": "AzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "annotations": [],
        "type": "Binary",
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "folderPath": "output",
                "container": "adftutorial"
            }
        }
    }
    
  7. Utwórz wyjściowy zestaw danych o nazwie OutputDataset przy użyciu polecenia az datafactory dataset create :

    az datafactory dataset create --resource-group ADFQuickStartRG \
        --dataset-name OutputDataset --factory-name ADFTutorialFactory \
        --properties @OutputDataset.json
    

Tworzenie i uruchamianie potoku

Na koniec utwórz i uruchom potok.

  1. W katalogu roboczym utwórz plik JSON o tej zawartości o nazwie Adfv2QuickStartPipeline.json:

    {
        "name": "Adfv2QuickStartPipeline",
        "properties": {
            "activities": [
                {
                    "name": "CopyFromBlobToBlob",
                    "type": "Copy",
                    "dependsOn": [],
                    "policy": {
                        "timeout": "7.00:00:00",
                        "retry": 0,
                        "retryIntervalInSeconds": 30,
                        "secureOutput": false,
                        "secureInput": false
                    },
                    "userProperties": [],
                    "typeProperties": {
                        "source": {
                            "type": "BinarySource",
                            "storeSettings": {
                                "type": "AzureBlobStorageReadSettings",
                                "recursive": true
                            }
                        },
                        "sink": {
                            "type": "BinarySink",
                            "storeSettings": {
                                "type": "AzureBlobStorageWriteSettings"
                            }
                        },
                        "enableStaging": false
                    },
                    "inputs": [
                        {
                            "referenceName": "InputDataset",
                            "type": "DatasetReference"
                        }
                    ],
                    "outputs": [
                        {
                            "referenceName": "OutputDataset",
                            "type": "DatasetReference"
                        }
                    ]
                }
            ],
            "annotations": []
        }
    }
    
  2. Utwórz potok o nazwie Adfv2QuickStartPipeline za pomocą polecenia az datafactory pipeline create :

    az datafactory pipeline create --resource-group ADFQuickStartRG \
        --factory-name ADFTutorialFactory --name Adfv2QuickStartPipeline \
        --pipeline @Adfv2QuickStartPipeline.json
    
  3. Uruchom potok przy użyciu polecenia az datafactory pipeline create-run :

    az datafactory pipeline create-run --resource-group ADFQuickStartRG \
        --name Adfv2QuickStartPipeline --factory-name ADFTutorialFactory
    

    To polecenie zwraca identyfikator przebiegu. Skopiuj go do użycia w następnym poleceniu.

  4. Sprawdź, czy uruchomienie potoku zakończyło się pomyślnie, używając polecenia az datafactory pipeline-run show :

    az datafactory pipeline-run show --resource-group ADFQuickStartRG \
        --factory-name ADFTutorialFactory --run-id 00000000-0000-0000-0000-000000000000
    

Możesz również sprawdzić, czy potok był uruchamiany zgodnie z oczekiwaniami, korzystając z witryny Azure Portal. Aby uzyskać więcej informacji, zobacz Przeglądanie wdrożonych zasobów.

Czyszczenie zasobów

Wszystkie zasoby w tym przewodniku Szybki start są częścią tej samej grupy zasobów. Aby usunąć je wszystkie, użyj polecenia az group delete :

az group delete --name ADFQuickStartRG

Jeśli używasz tej grupy zasobów dla innych elementów, usuń poszczególne zasoby. Aby na przykład usunąć połączoną usługę, użyj polecenia az datafactory linked-service delete .

W tym przewodniku Szybki start utworzono następujące pliki JSON:

  • AzureStorageLinkedService.json
  • InputDataset.json
  • OutputDataset.json
  • Adfv2QuickStartPipeline.json

Usuń je przy użyciu standardowych poleceń powłoki Bash.