Vytvoření datového kanálu pomocí služby Azure Data Factory, DevOps a strojového učení
Služby Azure DevOps
Začněte vytvářet datový kanál s využitím příjmu dat, transformace dat a trénování modelů.
Zjistěte, jak získat data ze souboru CSV (hodnoty oddělené čárkami) a uložit je do služby Azure Blob Storage. Transformujte data a uložte je do pracovní oblasti. Pak pomocí transformovaných dat vytrénujte model strojového učení. Zapište model do úložiště objektů blob jako soubor pickle Pythonu.
Požadavky
Než začnete, potřebujete:
- Účet Azure, který má aktivní předplatné. Vytvoření účtu zdarma
- Aktivní organizace Azure DevOps Zaregistrujte se ke službě Azure Pipelines.
- Role Správa istrator pro připojení služeb v projektu Azure DevOps. Zjistěte, jak přidat roli Správa istratoru.
- Data z sample.csv
- Přístup k řešení datového kanálu na GitHubu
- DevOps pro Azure Databricks
Zřízení prostředků Azure
Přihlaste se k portálu Azure.
V nabídce vyberte tlačítko Cloud Shell . Po zobrazení výzvy vyberte prostředí Bash .
Poznámka:
K uchování všech souborů, které vytvoříte v Azure Cloud Shellu, budete potřebovat prostředek azure Storage. Při prvním otevření Cloud Shellu se zobrazí výzva k vytvoření skupiny prostředků, účtu úložiště a sdílené složky Azure Files. Toto nastavení se automaticky použije pro všechny budoucí relace Cloud Shellu.
Výběr oblasti Azure
Oblast je jedno nebo více datacenter Azure v rámci geografického umístění. Příklady oblastí jsou Východní USA, Západní USA a Severní Evropa. Každému prostředku Azure, včetně instance služby App Service, je přiřazena oblast.
Pokud chcete usnadnit spouštění příkazů, začněte výběrem výchozí oblasti. Jakmile zadáte výchozí oblast, pozdější příkazy tuto oblast použijí, pokud nezadáte jinou oblast.
Spuštěním následujícího
az account list-locations
příkazu v Cloud Shellu zobrazte seznam oblastí dostupných z vašeho předplatného Azure.az account list-locations \ --query "[].{Name: name, DisplayName: displayName}" \ --output table
Name
Ve sloupci ve výstupu zvolte oblast, která je blízko vás. Můžete například zvolitasiapacific
nebowestus2
.Spuštěním
az config
nastavíte výchozí oblast. V následujícím příkladu nahraďte<REGION>
názvem oblasti, kterou jste zvolili.az config set defaults.location=<REGION>
Následující příklad nastaví
westus2
jako výchozí oblast.az config set defaults.location=westus2
Vytvoření proměnných Bash
V Cloud Shellu vygenerujte náhodné číslo. Toto číslo použijete k vytvoření globálně jedinečných názvů pro určité služby v dalším kroku.
resourceSuffix=$RANDOM
Vytvořte globálně jedinečné názvy pro účet úložiště a trezor klíčů. Následující příkazy používají dvojité uvozovky, které Bash instruují interpolaci proměnných pomocí vložené syntaxe.
storageName="datacicd${resourceSuffix}" keyVault="keyvault${resourceSuffix}"
Vytvořte jednu další proměnnou Bash pro uložení názvů a oblasti vaší skupiny prostředků. V následujícím příkladu nahraďte
<REGION>
oblastí, kterou jste zvolili pro výchozí oblast.rgName='data-pipeline-cicd-rg' region='<REGION>'
Vytvořte názvy proměnných pro instance Azure Data Factory a Azure Databricks.
datafactorydev='data-factory-cicd-dev' datafactorytest='data-factory-cicd-test' databricksname='databricks-cicd-ws'
Vytvoření zdrojů Azure
Spuštěním následujícího
az group create
příkazu vytvořte skupinu prostředků pomocírgName
příkazu .az group create --name $rgName
Spuštěním následujícího
az storage account create
příkazu vytvořte nový účet úložiště.az storage account create \ --name $storageName \ --resource-group $rgName \ --sku Standard_RAGRS \ --kind StorageV2
Spuštěním následujícího
az storage container create
příkazu vytvořte dva kontejneryrawdata
aprepareddata
.az storage container create -n rawdata --account-name $storageName az storage container create -n prepareddata --account-name $storageName
Spuštěním následujícího
az keyvault create
příkazu vytvořte nový trezor klíčů.az keyvault create \ --name $keyVault \ --resource-group $rgName
Vytvoření nové datové továrny pomocí uživatelského rozhraní portálu nebo Azure CLI:
- Název:
data-factory-cicd-dev
- Verze:
V2
- Skupina prostředků:
data-pipeline-cicd-rg
- Umístění: Nejbližší umístění
- Zrušte výběr pro povolení Gitu.
Přidejte rozšíření Azure Data Factory.
az extension add --name datafactory
Spuštěním následujícího
az datafactory create
příkazu vytvořte novou datovou továrnu.az datafactory create \ --name data-factory-cicd-dev \ --resource-group $rgName
ID předplatného zkopírujte. Vaše datová továrna použije toto ID později.
- Název:
Vytvořte druhou datovou továrnu pomocí uživatelského rozhraní portálu nebo Azure CLI. Tuto datová továrnu použijete k testování.
- Název:
data-factory-cicd-test
- Verze:
V2
- Skupina prostředků:
data-pipeline-cicd-rg
- Umístění: Nejbližší umístění
- Zrušte výběr pro povolení GITu.
Spuštěním následujícího
az datafactory create
příkazu vytvořte novou datovou továrnu pro testování.az datafactory create \ --name data-factory-cicd-test \ --resource-group $rgName
ID předplatného zkopírujte. Vaše datová továrna použije toto ID později.
- Název:
Přidejte novou službu Azure Databricks:
- Skupina prostředků:
data-pipeline-cicd-rg
- Název pracovního prostoru:
databricks-cicd-ws
- Umístění: Nejbližší umístění
Pokud ještě není nainstalované, přidejte rozšíření Azure Databricks.
az extension add --name databricks
Spuštěním následujícího
az databricks workspace create
příkazu vytvořte nový pracovní prostor.az databricks workspace create \ --resource-group $rgName \ --name databricks-cicd-ws \ --location eastus2 \ --sku trial
ID předplatného zkopírujte. Vaše služba Databricks použije toto ID později.
- Skupina prostředků:
Nahrání dat do kontejneru úložiště
- Na webu Azure Portal otevřete účet úložiště ve skupině
data-pipeline-cicd-rg
prostředků. - Přejděte do kontejnerů služby Blob Service>.
prepareddata
Otevřete kontejner.- Nahrajte soubor sample.csv.
Nastavení úložiště Key Vault
Azure Key Vault použijete k uložení všech informací o připojení pro vaše služby Azure.
Vytvoření tokenu patu Databricks
- Na webu Azure Portal přejděte na Databricks a otevřete svůj pracovní prostor.
- V uživatelském rozhraní Azure Databricks vytvořte a zkopírujte osobní přístupový token.
Zkopírujte klíč účtu a připojovací řetězec pro účet úložiště.
- Přejděte k účtu úložiště.
- Otevřete přístupové klíče.
- Zkopírujte první klíč a připojovací řetězec.
Ukládání hodnot do služby Key Vault
Vytvoření tří tajných kódů:
- databricks-token:
your-databricks-pat
- Klíč úložiště:
your-storage-key
- Úložiště Připojení String:
your-storage-connection
- databricks-token:
Spuštěním následujícího
az keyvault secret set
příkazu přidejte tajné kódy do trezoru klíčů.az keyvault secret set --vault-name "$keyVault" --name "databricks-token" --value "your-databricks-pat" az keyvault secret set --vault-name "$keyVault" --name "StorageKey" --value "your-storage-key" az keyvault secret set --vault-name "$keyVault" --name "StorageConnectString" --value "your-storage-connection"
Import řešení datového kanálu
- Přihlaste se ke své organizaci Azure DevOps a přejděte do svého projektu.
- Přejděte do úložišť a pak naimportujte forkovanou verzi úložiště GitHub. Další informace najdete v tématu Import úložiště Git do projektu.
Přidání připojení služby Azure Resource Manager
- Vytvořte připojení služby Azure Resource Manager.
- Vyberte instanční objekt (automatický).
- Zvolte skupinu prostředků data-pipeline-cicd-rg.
- Pojmenujte připojení
azure_rm_connection
služby . - Vyberte Udělit oprávnění pro přístup ke všem kanálům. Abyste mohli tuto možnost vybrat, budete muset mít Připojení iony služby Správa istrator.
Přidání proměnných kanálu
Vytvořte novou skupinu proměnných s názvem
datapipeline-vg
.Pokud ještě není nainstalované, přidejte rozšíření Azure DevOps.
az extension add --name azure-devops
Přihlaste se ke své organizaci Azure DevOps.
az devops login --org https://dev.azure.com/<yourorganizationname>
az pipelines variable-group create --name datapipeline-vg -p <yourazuredevopsprojectname> --variables \ "LOCATION=$region" \ "RESOURCE_GROUP=$rgName" \ "DATA_FACTORY_NAME=$datafactorydev" \ "DATA_FACTORY_DEV_NAME=$datafactorydev" \ "DATA_FACTORY_TEST_NAME=$datafactorytest" \ "ADF_PIPELINE_NAME=DataPipeline" \ "DATABRICKS_NAME=$databricksname" \ "AZURE_RM_CONNECTION=azure_rm_connection" \ "DATABRICKS_URL=<URL copied from Databricks in Azure portal>" \ "STORAGE_ACCOUNT_NAME=$storageName" \ "STORAGE_CONTAINER_NAME=rawdata"
Vytvořte druhou skupinu proměnných s názvem
keys-vg
. Tato skupina načítá datové proměnné ze služby Key Vault.Vyberte Propojit tajné kódy ze služby Azure Key Vault jako proměnné. Další informace najdete v tématu Propojení tajných kódů z trezoru klíčů Azure.
Autorizace předplatného Azure
Zvolte všechny dostupné tajné kódy, které chcete přidat jako proměnné (
databricks-token
StorageConnectString
,).StorageKey
Konfigurace Azure Databricks a Azure Data Factory
Podle pokynů v dalších částech nastavte Azure Databricks a Azure Data Factory.
Vytvoření testscopeu v Azure Databricks
- Na webu Azure Portal přejděte do části Vlastnosti trezoru>klíčů.
- Zkopírujte název DNS a ID prostředku.
- V pracovním prostoru Azure Databricks vytvořte obor tajného kódu s názvem
testscope
.
Přidání nového clusteru v Azure Databricks
- V pracovním prostoru Azure Databricks přejděte do clusterů.
- Vyberte Vytvořit cluster.
- Pojmenujte nový cluster a uložte ho.
- Vyberte název nového clusteru.
- V řetězci adresy URL zkopírujte obsah mezi
/clusters/
a/configuration
. Například v řetězciclusters/0306-152107-daft561/configuration
byste zkopírovali0306-152107-daft561
. - Uložte tento řetězec, abyste ho mohli použít později.
Nastavení úložiště kódu ve službě Azure Data Factory
- Ve službě Azure Data Factory přejděte na Vytváření a monitorování. Další informace najdete v tématu Vytvoření datové továrny.
- Vyberte Nastavit úložiště kódu a připojte úložiště.
- Typ úložiště: Azure DevOps Git
- Organizace Azure DevOps: Váš aktivní účet
- Název projektu: Projekt datového kanálu Azure DevOps
- Název úložiště Git: Použijte existující.
- Vyberte hlavní větev pro spolupráci.
- Jako kořenovou složku nastavte /azure-data-pipeline/factorydata .
- Větev pro import prostředku do: Vyberte Použít existující a hlavní.
Propojení služby Azure Data Factory s trezorem klíčů
- V uživatelském rozhraní webu Azure Portal otevřete trezor klíčů.
- Vyberte Zásady přístupu.
- Vyberte Přidat zásady přístupu.
- Pro konfiguraci ze šablony vyberte Správa klíčů a tajných kódů.
- V části Vybrat objekt zabezpečení vyhledejte název vývojové datové továrny a přidejte ho.
- Vyberte Přidat a přidejte zásady přístupu.
- Opakováním těchto kroků přidejte zásadu přístupu pro testovací datovou továrnu.
Aktualizace propojené služby trezoru klíčů ve službě Azure Data Factory
- Přejděte na Spravovat>propojené služby.
- Aktualizujte trezor klíčů Azure, aby se připojil k vašemu předplatnému.
Aktualizace propojené služby úložiště ve službě Azure Data Factory
- Přejděte na Spravovat>propojené služby.
- Aktualizujte hodnotu služby Azure Blob Storage, aby se připojila k vašemu předplatnému.
Aktualizace propojené služby Azure Databricks ve službě Azure Data Factory
- Přejděte na Spravovat>propojené služby.
- Aktualizujte hodnotu Azure Databricks tak, aby se připojila k vašemu předplatnému.
- Jako ID existujícího clusteru zadejte hodnotu clusteru, kterou jste si uložili dříve.
Testování a publikování datové továrny
- Ve službě Azure Data Factory přejděte na Upravit.
- Otevře záznam typu
DataPipeline
. - Vyberte Proměnné.
- Ověřte, že
storage_account_name
odkazuje na váš účet úložiště na webu Azure Portal. V případě potřeby aktualizujte výchozí hodnotu. Uloží vaše změny. - Vyberte Ověřit a ověřte
DataPipeline
. - Výběrem možnosti Publikovat publikujte prostředky datové továrny do
adf_publish
větve úložiště.
Spuštění kanálu CI/CD
Ke spuštění kanálu kontinuální integrace a průběžného doručování (CI/CD) postupujte takto:
- Přejděte na stránku Kanály . Pak zvolte akci, která vytvoří nový kanál.
- Jako umístění zdrojového kódu vyberte Git Azure Repos.
- Jakmile se zobrazí seznam úložišť, vyberte úložiště.
- Při nastavování kanálu vyberte Existující soubor YAML služby Azure Pipelines. Zvolte soubor YAML: /azure-data-pipeline/data_pipeline_ci_cd.yml.
- Spusťte kanál. Pokud se váš kanál ještě nespustí, možná budete muset udělit oprávnění pro přístup k prostředku během spuštění.
Vyčištění prostředků
Pokud nebudete tuto aplikaci dál používat, odstraňte datový kanál pomocí následujícího postupu:
data-pipeline-cicd-rg
Odstraňte skupinu prostředků.- Odstraňte projekt Azure DevOps.
Další kroky
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro