Vytvoření datového kanálu pomocí služby Azure Data Factory, DevOps a strojového učení

Článek
01/10/2024

Služby Azure DevOps

Začněte vytvářet datový kanál s využitím příjmu dat, transformace dat a trénování modelů.

Zjistěte, jak získat data ze souboru CSV (hodnoty oddělené čárkami) a uložit je do služby Azure Blob Storage. Transformujte data a uložte je do pracovní oblasti. Pak pomocí transformovaných dat vytrénujte model strojového učení. Zapište model do úložiště objektů blob jako soubor pickle Pythonu.

Požadavky

Než začnete, potřebujete:

Účet Azure, který má aktivní předplatné. Vytvoření účtu zdarma
Aktivní organizace Azure DevOps Zaregistrujte se ke službě Azure Pipelines.
- Role Správa istrator pro připojení služeb v projektu Azure DevOps. Zjistěte, jak přidat roli Správa istratoru.
Data z sample.csv
Přístup k řešení datového kanálu na GitHubu
DevOps pro Azure Databricks

Zřízení prostředků Azure

Přihlaste se k portálu Azure.
V nabídce vyberte tlačítko Cloud Shell . Po zobrazení výzvy vyberte prostředí Bash .

Poznámka:

K uchování všech souborů, které vytvoříte v Azure Cloud Shellu, budete potřebovat prostředek azure Storage. Při prvním otevření Cloud Shellu se zobrazí výzva k vytvoření skupiny prostředků, účtu úložiště a sdílené složky Azure Files. Toto nastavení se automaticky použije pro všechny budoucí relace Cloud Shellu.

Výběr oblasti Azure

Oblast je jedno nebo více datacenter Azure v rámci geografického umístění. Příklady oblastí jsou Východní USA, Západní USA a Severní Evropa. Každému prostředku Azure, včetně instance služby App Service, je přiřazena oblast.

Pokud chcete usnadnit spouštění příkazů, začněte výběrem výchozí oblasti. Jakmile zadáte výchozí oblast, pozdější příkazy tuto oblast použijí, pokud nezadáte jinou oblast.

Spuštěním následujícího az account list-locations příkazu v Cloud Shellu zobrazte seznam oblastí dostupných z vašeho předplatného Azure.
```
az account list-locations \
  --query "[].{Name: name, DisplayName: displayName}" \
  --output table
```
Name Ve sloupci ve výstupu zvolte oblast, která je blízko vás. Můžete například zvolit asiapacific nebo westus2.
Spuštěním az config nastavíte výchozí oblast. V následujícím příkladu nahraďte <REGION> názvem oblasti, kterou jste zvolili.
```
az config set defaults.location=<REGION>
```
Následující příklad nastaví westus2 jako výchozí oblast.
```
az config set defaults.location=westus2
```

Vytvoření proměnných Bash

V Cloud Shellu vygenerujte náhodné číslo. Toto číslo použijete k vytvoření globálně jedinečných názvů pro určité služby v dalším kroku.
```
resourceSuffix=$RANDOM
```
Vytvořte globálně jedinečné názvy pro účet úložiště a trezor klíčů. Následující příkazy používají dvojité uvozovky, které Bash instruují interpolaci proměnných pomocí vložené syntaxe.
```
storageName="datacicd${resourceSuffix}"
keyVault="keyvault${resourceSuffix}"
```
Vytvořte jednu další proměnnou Bash pro uložení názvů a oblasti vaší skupiny prostředků. V následujícím příkladu nahraďte <REGION> oblastí, kterou jste zvolili pro výchozí oblast.
```
rgName='data-pipeline-cicd-rg'
region='<REGION>'
```

Vytvořte názvy proměnných pro instance Azure Data Factory a Azure Databricks.

datafactorydev='data-factory-cicd-dev'
datafactorytest='data-factory-cicd-test'
databricksname='databricks-cicd-ws'

Vytvoření zdrojů Azure

Spuštěním následujícího az group create příkazu vytvořte skupinu prostředků pomocí rgNamepříkazu .
```
az group create --name $rgName
```

Spuštěním následujícího az storage account create příkazu vytvořte nový účet úložiště.

az storage account create \
    --name $storageName \
    --resource-group $rgName \
    --sku Standard_RAGRS \
    --kind StorageV2

Spuštěním následujícího az storage container create příkazu vytvořte dva kontejnery rawdata a prepareddata.

az storage container create -n rawdata --account-name $storageName 
az storage container create -n prepareddata --account-name $storageName

Spuštěním následujícího az keyvault create příkazu vytvořte nový trezor klíčů.
```
az keyvault create \
    --name $keyVault \
    --resource-group $rgName
```
Vytvoření nové datové továrny pomocí uživatelského rozhraní portálu nebo Azure CLI:
- Název: data-factory-cicd-dev
- Verze: V2
- Skupina prostředků: data-pipeline-cicd-rg
- Umístění: Nejbližší umístění
- Zrušte výběr pro povolení Gitu.
1. Přidejte rozšíření Azure Data Factory.
```
az extension add --name datafactory
```
2. Spuštěním následujícího az datafactory create příkazu vytvořte novou datovou továrnu.
```
 az datafactory create \
     --name data-factory-cicd-dev \
     --resource-group $rgName
```
3. ID předplatného zkopírujte. Vaše datová továrna použije toto ID později.
Vytvořte druhou datovou továrnu pomocí uživatelského rozhraní portálu nebo Azure CLI. Tuto datová továrnu použijete k testování.
- Název: data-factory-cicd-test
- Verze: V2
- Skupina prostředků: data-pipeline-cicd-rg
- Umístění: Nejbližší umístění
- Zrušte výběr pro povolení GITu.
1. Spuštěním následujícího az datafactory create příkazu vytvořte novou datovou továrnu pro testování.
```
 az datafactory create \
     --name data-factory-cicd-test \
     --resource-group $rgName
```
2. ID předplatného zkopírujte. Vaše datová továrna použije toto ID později.
Přidejte novou službu Azure Databricks:
- Skupina prostředků: data-pipeline-cicd-rg
- Název pracovního prostoru: databricks-cicd-ws
- Umístění: Nejbližší umístění
1. Pokud ještě není nainstalované, přidejte rozšíření Azure Databricks.
```
 az extension add --name databricks
```
2. Spuštěním následujícího az databricks workspace create příkazu vytvořte nový pracovní prostor.
```
az databricks workspace create \
    --resource-group $rgName \
    --name databricks-cicd-ws  \
    --location eastus2  \
    --sku trial
```
3. ID předplatného zkopírujte. Vaše služba Databricks použije toto ID později.

Nahrání dat do kontejneru úložiště

Na webu Azure Portal otevřete účet úložiště ve skupině data-pipeline-cicd-rg prostředků.
Přejděte do kontejnerů služby Blob Service>.
prepareddata Otevřete kontejner.
Nahrajte soubor sample.csv.

Nastavení úložiště Key Vault

Azure Key Vault použijete k uložení všech informací o připojení pro vaše služby Azure.

Vytvoření tokenu patu Databricks

Na webu Azure Portal přejděte na Databricks a otevřete svůj pracovní prostor.
V uživatelském rozhraní Azure Databricks vytvořte a zkopírujte osobní přístupový token.

Zkopírujte klíč účtu a připojovací řetězec pro účet úložiště.

Přejděte k účtu úložiště.
Otevřete přístupové klíče.
Zkopírujte první klíč a připojovací řetězec.

Ukládání hodnot do služby Key Vault

Vytvoření tří tajných kódů:
- databricks-token: your-databricks-pat
- Klíč úložiště: your-storage-key
- Úložiště Připojení String:your-storage-connection

Spuštěním následujícího az keyvault secret set příkazu přidejte tajné kódy do trezoru klíčů.

az keyvault secret set --vault-name "$keyVault" --name "databricks-token" --value "your-databricks-pat"
az keyvault secret set --vault-name "$keyVault" --name "StorageKey" --value "your-storage-key"
az keyvault secret set --vault-name "$keyVault" --name "StorageConnectString" --value "your-storage-connection"

Import řešení datového kanálu

Přihlaste se ke své organizaci Azure DevOps a přejděte do svého projektu.
Přejděte do úložišť a pak naimportujte forkovanou verzi úložiště GitHub. Další informace najdete v tématu Import úložiště Git do projektu.

Přidání připojení služby Azure Resource Manager

Vytvořte připojení služby Azure Resource Manager.
Vyberte instanční objekt (automatický).
Zvolte skupinu prostředků data-pipeline-cicd-rg.
Pojmenujte připojení azure_rm_connectionslužby .
Vyberte Udělit oprávnění pro přístup ke všem kanálům. Abyste mohli tuto možnost vybrat, budete muset mít Připojení iony služby Správa istrator.

Přidání proměnných kanálu

Vytvořte novou skupinu proměnných s názvem datapipeline-vg.
Pokud ještě není nainstalované, přidejte rozšíření Azure DevOps.
```
az extension add --name azure-devops 
```

Přihlaste se ke své organizaci Azure DevOps.

az devops login --org https://dev.azure.com/<yourorganizationname>

az pipelines variable-group create --name datapipeline-vg -p <yourazuredevopsprojectname> --variables \
                                    "LOCATION=$region" \
                                    "RESOURCE_GROUP=$rgName" \
                                    "DATA_FACTORY_NAME=$datafactorydev" \
                                    "DATA_FACTORY_DEV_NAME=$datafactorydev" \
                                    "DATA_FACTORY_TEST_NAME=$datafactorytest" \
                                    "ADF_PIPELINE_NAME=DataPipeline" \
                                    "DATABRICKS_NAME=$databricksname" \
                                    "AZURE_RM_CONNECTION=azure_rm_connection" \
                                    "DATABRICKS_URL=<URL copied from Databricks in Azure portal>" \
                                    "STORAGE_ACCOUNT_NAME=$storageName" \
                                    "STORAGE_CONTAINER_NAME=rawdata"

Vytvořte druhou skupinu proměnných s názvem keys-vg. Tato skupina načítá datové proměnné ze služby Key Vault.
Vyberte Propojit tajné kódy ze služby Azure Key Vault jako proměnné. Další informace najdete v tématu Propojení tajných kódů z trezoru klíčů Azure.
Autorizace předplatného Azure
Zvolte všechny dostupné tajné kódy, které chcete přidat jako proměnné (databricks-tokenStorageConnectString,).StorageKey

Konfigurace Azure Databricks a Azure Data Factory

Podle pokynů v dalších částech nastavte Azure Databricks a Azure Data Factory.

Vytvoření testscopeu v Azure Databricks

Na webu Azure Portal přejděte do části Vlastnosti trezoru>klíčů.
Zkopírujte název DNS a ID prostředku.
V pracovním prostoru Azure Databricks vytvořte obor tajného kódu s názvem testscope.

Přidání nového clusteru v Azure Databricks

V pracovním prostoru Azure Databricks přejděte do clusterů.
Vyberte Vytvořit cluster.
Pojmenujte nový cluster a uložte ho.
Vyberte název nového clusteru.
V řetězci adresy URL zkopírujte obsah mezi /clusters/ a /configuration. Například v řetězci clusters/0306-152107-daft561/configurationbyste zkopírovali 0306-152107-daft561.
Uložte tento řetězec, abyste ho mohli použít později.

Nastavení úložiště kódu ve službě Azure Data Factory

Ve službě Azure Data Factory přejděte na Vytváření a monitorování. Další informace najdete v tématu Vytvoření datové továrny.
Vyberte Nastavit úložiště kódu a připojte úložiště.
- Typ úložiště: Azure DevOps Git
- Organizace Azure DevOps: Váš aktivní účet
- Název projektu: Projekt datového kanálu Azure DevOps
- Název úložiště Git: Použijte existující.
  - Vyberte hlavní větev pro spolupráci.
  - Jako kořenovou složku nastavte /azure-data-pipeline/factorydata .
- Větev pro import prostředku do: Vyberte Použít existující a hlavní.

Propojení služby Azure Data Factory s trezorem klíčů

V uživatelském rozhraní webu Azure Portal otevřete trezor klíčů.
Vyberte Zásady přístupu.
Vyberte Přidat zásady přístupu.
Pro konfiguraci ze šablony vyberte Správa klíčů a tajných kódů.
V části Vybrat objekt zabezpečení vyhledejte název vývojové datové továrny a přidejte ho.
Vyberte Přidat a přidejte zásady přístupu.
Opakováním těchto kroků přidejte zásadu přístupu pro testovací datovou továrnu.

Aktualizace propojené služby trezoru klíčů ve službě Azure Data Factory

Přejděte na Spravovat>propojené služby.
Aktualizujte trezor klíčů Azure, aby se připojil k vašemu předplatnému.

Aktualizace propojené služby úložiště ve službě Azure Data Factory

Přejděte na Spravovat>propojené služby.
Aktualizujte hodnotu služby Azure Blob Storage, aby se připojila k vašemu předplatnému.

Aktualizace propojené služby Azure Databricks ve službě Azure Data Factory

Přejděte na Spravovat>propojené služby.
Aktualizujte hodnotu Azure Databricks tak, aby se připojila k vašemu předplatnému.
Jako ID existujícího clusteru zadejte hodnotu clusteru, kterou jste si uložili dříve.

Testování a publikování datové továrny

Ve službě Azure Data Factory přejděte na Upravit.
Otevře záznam typu DataPipeline.
Vyberte Proměnné.
Ověřte, že storage_account_name odkazuje na váš účet úložiště na webu Azure Portal. V případě potřeby aktualizujte výchozí hodnotu. Uloží vaše změny.
Vyberte Ověřit a ověřte DataPipeline.
Výběrem možnosti Publikovat publikujte prostředky datové továrny do adf_publish větve úložiště.

Spuštění kanálu CI/CD

Ke spuštění kanálu kontinuální integrace a průběžného doručování (CI/CD) postupujte takto:

Přejděte na stránku Kanály . Pak zvolte akci, která vytvoří nový kanál.
Jako umístění zdrojového kódu vyberte Git Azure Repos.
Jakmile se zobrazí seznam úložišť, vyberte úložiště.
Při nastavování kanálu vyberte Existující soubor YAML služby Azure Pipelines. Zvolte soubor YAML: /azure-data-pipeline/data_pipeline_ci_cd.yml.
Spusťte kanál. Pokud se váš kanál ještě nespustí, možná budete muset udělit oprávnění pro přístup k prostředku během spuštění.

Vyčištění prostředků

Pokud nebudete tuto aplikaci dál používat, odstraňte datový kanál pomocí následujícího postupu:

data-pipeline-cicd-rg Odstraňte skupinu prostředků.
Odstraňte projekt Azure DevOps.

Další kroky

Další informace o datech ve službě Azure Data Factory

Sdílet prostřednictvím