Sdílejte data mezi pracovními prostory pomocí registrů

Registr služby Azure Machine Learning umožňuje spolupracovat napříč pracovními prostory ve vaší organizaci. Pomocí registrů můžete sdílet modely, komponenty, prostředí a data. V tomto článku získáte informace o těchto tématech:

Vytvořte datové aktivum v registru.
Sdílejte existující datový zdroj z pracovního prostoru do registry.
Datový prostředek z registru použijte jako vstup pro úlohu školení modelu v rámci pracovního prostoru.

Možná budete chtít mít data sdílená v různých týmech, projektech nebo pracovních prostorech v centrálním umístění. Taková data nemají citlivé řízení přístupu a dají se v organizaci používat široce.

Příkladem může být:

Tým chce sdílet veřejnou datovou sadu, která je předem zpracována a připravená k použití v experimentech.
Vaše organizace získala konkrétní datovou sadu pro projekt od externího dodavatele a chce ji zpřístupnit všem týmům pracujícím na projektu.
Tým chce sdílet datové prostředky mezi pracovními prostory v různých oblastech.

V těchto scénářích můžete vytvořit datový prostředek v registru nebo sdílet existující datový prostředek z pracovního prostoru v registru. Tento datový prostředek je pak možné použít napříč několika pracovními prostory.

Sdílení citlivých dat, která vyžadují jemně odstupňované řízení přístupu Datový prostředek v registru nemůžete vytvořit, abyste ho mohli sdílet s malou podmnožinou uživatelů nebo pracovních prostorů, zatímco registr je přístupný mnoha dalšími uživateli v organizaci.
Sdílení dat, která jsou k dispozici v existujícím úložišti, která nesmí být zkopírována nebo je příliš velká nebo příliš náročná na kopírování. Při každém vytvoření datových prostředků v registru se do úložiště registru ingestuje kopie dat, aby bylo možné je replikovat.

Typy datových assetů podporované registrem služby Azure Machine Learning

Návod

Při rozhodování, jestli chcete použít , uri_filenebo uri_folder pro váš scénář, si projděte následující mltable.

Můžete vytvořit tři datové typy assetů:

Typ	V2 API	Kanonický scénář
Soubor: Odkaz na jeden soubor	`uri_file`	Čtení a zápis jednoho souboru – soubor může mít libovolný formát.
Složka: Odkaz na jednu složku	`uri_folder`	Do Pandas/Sparku musíte číst a zapisovat adresář souborů parquet/CSV. Hluboké učení s obrázky, textem, zvukem, videosoubory umístěnými v adresáři.
Tabulka: Odkazování na tabulku dat	`mltable`	Máte složité schéma, které podléhá častým změnám, nebo potřebujete podmnožinu velkých tabulkových dat.

Cesty podporované registrem služby Azure Machine Learning

Při vytváření datového assetu je nutné zadat parametr cesty , který odkazuje na umístění dat. V současné době jsou jedinými podporovanými cestami umístění na místním počítači.

Návod

"Místní" znamená místní úložiště pro počítač, který používáte. Pokud například používáte přenosný počítač, místní disk. Pokud používáte výpočetní instanci služby Azure Machine Learning, pak "místní" jednotka výpočetní instance.

Požadavky

Než budete postupovat podle kroků v tomto článku, ujistěte se, že máte následující požadavky:

Znalost konceptů registrů a dat ve službě Azure Machine Learning
Registr služby Azure Machine Learning ke sdílení dat. Pokud chcete vytvořit registr, přečtěte si, jak vytvořit registr.
Pracovní prostor služby Azure Machine Learning. Pokud žádný nemáte, vytvořte ho podle kroků v článku Rychlý start: Vytvoření prostředků pracovního prostoru.

Důležité

Oblast (umístění) Azure, kde vytváříte pracovní prostor, musí být v seznamu podporovaných oblastí pro registr služby Azure Machine Learning.
Prostředí a komponenta vytvořená z článku Jak sdílet modely, komponenty a prostředí.
Azure CLI a ml rozšíření nebo Azure Machine Learning Python SDK v2:
- Azure CLI
- Python SDK
Pokud chcete nainstalovat Azure CLI a rozšíření, přečtěte si téma Instalace, nastavení a použití rozhraní příkazového řádku (v2).
Důležité
- Příklady rozhraní příkazového řádku v tomto článku předpokládají, že používáte prostředí Bash (nebo kompatibilní). Například ze systému Linux nebo Subsystém Windows pro Linux.
- V příkladech se také předpokládá, že jste pro Azure CLI nakonfigurovali výchozí hodnoty, abyste nemuseli zadávat parametry pro vaše předplatné, pracovní prostor, skupinu prostředků nebo umístění. Pokud chcete nastavit výchozí nastavení, použijte následující příkazy. Nahraďte následující parametry hodnotami pro vaši konfiguraci:
  
  <subscription> nahraďte ID vašeho předplatného Azure.
  
  Nahraďte <workspace> názvem pracovního prostoru služby Azure Machine Learning.
  
  Nahraďte <resource-group> skupinou prostředků Azure, která obsahuje váš pracovní prostor.
  
  Nahraďte <location> oblastí Azure, která obsahuje váš pracovní prostor.
  
  az account set --subscription <subscription> az configure --defaults workspace=<workspace> group=<resource-group> location=<location>
  
  Pomocí příkazu můžete zjistit, jaké jsou az configure -l vaše aktuální výchozí hodnoty.
K instalaci sady Python SDK v2 použijte následující příkaz:
```
pip install --pre --upgrade azure-ai-ml azure-identity
```

Klonování úložiště s příklady

Příklady kódu v tomto článku jsou založené na nyc_taxi_data_regression ukázce v úložišti příkladů. Pokud chcete tyto soubory použít ve vývojovém prostředí, naklonujte úložiště pomocí následujících příkazů a změňte adresáře na příklad:

git clone https://github.com/Azure/azureml-examples
cd azureml-examples

Azure CLI
Python SDK

V příkladu rozhraní příkazového řádku se přesuňte do adresáře cli/jobs/pipelines-with-components/nyc_taxi_data_regression ve vašem místním klonu úložiště příkladů.

cd cli/jobs/pipelines-with-components/nyc_taxi_data_regression

V příkladu sady Python SDK použijte ukázku nyc_taxi_data_regressionz úložiště příkladů. Ukázkový poznámkový blok je k dispozici v sdk/python/assets/assets-in-registry adresáři. Veškeré vzorové soubory YAML, kód pro trénování modelu a ukázková data pro trénink a inferenci jsou k dispozici v cli/jobs/pipelines-with-components/nyc_taxi_data_regression. Přejděte do sdk/resources/registry adresáře a otevřete poznámkový blok, pokud chcete procházet poznámkový blok a vyzkoušet kód v tomto dokumentu.

Vytvoření připojení sady SDK

Návod

Tento krok je potřeba jenom při použití sady Python SDK.

Vytvořte připojení klienta k pracovnímu prostoru Služby Azure Machine Learning i registru. V následujícím příkladu <...> nahraďte zástupné hodnoty hodnotami vhodnými pro vaši konfiguraci. Například ID předplatného Azure, název pracovního prostoru, název registru atd.:

ml_client_workspace = MLClient( credential=credential,
    subscription_id = "<workspace-subscription>",
    resource_group_name = "<workspace-resource-group",
    workspace_name = "<workspace-name>")
print(ml_client_workspace)

ml_client_registry = MLClient(credential=credential,
                        registry_name="<REGISTRY_NAME>",
                        registry_location="<REGISTRY_REGION>")
print(ml_client_registry)

Vytvoření dat v registru

Datové aktivum vytvořené v tomto kroku bude použito později v tomto článku k odeslání úlohy pro trénink.

Azure CLI
Python SDK

Návod

Stejný příkaz az ml data create rozhraní příkazového řádku můžete použít k vytvoření dat v pracovním prostoru nebo registru. Spuštění příkazu s --workspace-name vytvoří data v pracovním prostoru, zatímco spuštění příkazu s --registry-name vytvoří data v registru.

Zdroj dat se nachází v úložišti příkladů, které jste naklonovali dříve. V rámci místního klonu přejděte na následující cestu k adresáři: cli/jobs/pipelines-with-components/nyc_taxi_data_regression. V tomto adresáři vytvořte soubor YAML s názvem data-registry.yml a jako obsah souboru použijte následující YAML:

$schema: https://azuremlschemas.azureedge.net/latest/data.schema.json
name: transformed-nyc-taxt-data
description: Transformed NYC Taxi data created from local folder.
version: 1
type: uri_folder
path: data_transformed/

Hodnota path odkazuje na data_transformed podadresář, která obsahuje data sdílená pomocí registru.

K vytvoření dat v registru použijte příkaz az ml data create. V následujících příkladech nahraďte <registry-name> názvem vašeho registru.

az ml data create --file data-registry.yml --registry-name <registry-name>

Pokud se zobrazí chyba, že data s tímto názvem a verzí již v registru existují, můžete pole version upravit data-registry.yml nebo zadat jinou verzi rozhraní příkazového řádku, která přepíše hodnotu verze v data-registry.yml.

# use shell epoch time as the version
version=$(date +%s)
az ml data create --file data-registry.yml --registry-name <registry-name> --set version=$version

Návod

version=$(date +%s) Pokud příkaz nenastaví $version proměnnou ve vašem prostředí, nahraďte $version náhodným číslem.

Uložte data name a version z výstupu příkazu az ml data create a použijte je s příkazem az ml data show k zobrazení podrobností o prostředku.

az ml data show --name transformed-nyc-taxt-data --version 1 --registry-name <registry-name>

Návod

Pokud jste použili jiný název nebo verzi dat, nahraďte parametry --name odpovídajícím --version způsobem.

Můžete také použít az ml data list --registry-name <registry-name> k výpisu všech datových prostředků v registru.

Návod

Totéž MLClient.environmentsdata.create_or_update() lze použít k vytvoření dat v pracovním prostoru nebo registru v závislosti na cíli, se kterým byl inicializován. Vzhledem k tomu, že pracujete s pracovním prostorem i registrem v tomto dokumentu, inicializovali jste ml_client_workspace pro práci s pracovním prostorem a ml_client_registry pro práci s registrem, respektive.

Zdrojový adresář dat data_transformed je k dispozici v cli/jobs/pipelines-with-components/nyc_taxi_data_regression/. Inicializuje datový objekt a vytvoří data.

my_path = "./data_transformed/"
my_data = Data(path=my_path,
               type=AssetTypes.URI_FOLDER,
               description="Transformed NYC Taxi data created from local folder.",
               name="transformed-nyc-taxt-data",
               version='1')
ml_client_registry.data.create_or_update(my_data)

Návod

Pokud se zobrazí chyba, že data s tímto názvem a verzí již v registru existují, zadejte jinou verzi parametru version .

name Poznamenejte si data a version data z výstupu a předejte je ml_client_registry.data.get() metodě pro načtení dat z registru.

Můžete také použít ml_client_registry.data.list() k výpisu všech datových prostředků v registru.

Vytvoření prostředí a komponenty v registru

Pokud chcete vytvořit prostředí a komponentu v registru, postupujte podle kroků v článku Jak sdílet modely, komponenty a prostředí . Prostředí a komponenta se používají v trénovací úloze v další části.

Návod

Místo použití prostředí a komponenty z registru můžete použít prostředí a komponentu z pracovního prostoru.

Spustit úlohu kanálu v pracovním prostoru pomocí komponenty z registru

Při spuštění úlohy kanálu, která používá komponentu a data z registru, jsou výpočetní prostředky místní pro pracovní prostor. V následujícím příkladu úloha používá komponentu Scikit Learn k trénování modelu a datový prostředek vytvořený v předchozích sekcích.

Poznámka:

Klíčovým aspektem je, že tento kanál se bude spouštět v pracovním prostoru pomocí trénovacích dat, která nejsou v konkrétním pracovním prostoru. Data jsou v registru, který je možné použít s jakýmkoli pracovním prostorem ve vaší organizaci. Tuto trénovací úlohu můžete spustit v jakémkoli pracovním prostoru, ke kterému máte přístup, aniž byste se museli starat o zpřístupnění trénovacích dat v tomto pracovním prostoru.

Azure CLI
Python SDK

Ověřte, že jste v adresáři cli/jobs/pipelines-with-components/nyc_taxi_data_regression . Upravte oddíl v části component souboru train_job, aby odkazoval na trénovací komponentu, a single-job-pipeline.yml v části path pro odkaz na datový asset vytvořený v předchozích částech. Následující příklad ukazuje, single-job-pipeline.yml jak vypadá po úpravách. <registry_name> Nahraďte názvem vašeho registru:

$schema: https://azuremlschemas.azureedge.net/latest/pipelineJob.schema.json
type: pipeline
display_name: nyc_taxi_data_regression_single_job
description: Single job pipeline to train regression model based on nyc taxi dataset

jobs:
  train_job:
    type: command
    component: azureml://registries/<registry-name>/component/train_linear_regression_model/versions/1
    compute: azureml:cpu-cluster
    inputs:
      training_data: 
        type: uri_folder
        path: azureml://registries/<registry-name>/data/transformed-nyc-taxt-data/versions/1
    outputs:
      model_output: 
        type: mlflow_model
      test_data:

Varování

Před spuštěním úlohy potrubí ověřte, že pracovní prostor, ve kterém úlohu spouštíte, se nachází v oblasti Azure, kterou podporuje registr, ve kterém jste data vytvořili.
Ověřte, že má pracovní prostor výpočetní cluster s názvem cpu-cluster nebo upravte compute pole pod jobs.train_job.compute názvem vašeho výpočetního prostředí.

Spusťte úlohu potrubí pomocí příkazu az ml job create.

az ml job create --file single-job-pipeline.yml

Návod

Pokud jste nenakonfigurovali výchozí pracovní prostor a skupinu prostředků, jak je vysvětleno v části Požadavky, musíte zadat parametry --workspace-name a --resource-group, aby az ml job create fungovalo.

Další informace o spouštění úloh najdete v následujících článcích:

# get the data asset
data_asset_from_registry = ml_client_registry.data.get(name="transformed-nyc-taxt-data", version="1")

@pipeline()
def pipeline_with_registered_components(
    training_data
):
    train_job = train_component_from_registry(
        training_data=training_data,
    )
pipeline_job = pipeline_with_registered_components(
    training_data=Input(type="uri_folder", path=data_asset_from_registry.id"),
)
pipeline_job.settings.default_compute = "cpu-cluster"
print(pipeline_job)

Varování

Před spuštěním úlohy pracovního postupu ověřte, že pracovní prostor, ve kterém tuto úlohu spustíte, se nachází v umístění Azure podporovaném registrem, ve kterém jste komponentu vytvořili.
Ověřte, že má pracovní prostor výpočetní cluster s názvem cpu-cluster nebo ho pipeline_job.settings.default_compute=<compute-cluster-name>aktualizujte.

Spusťte úlohu kanálu a počkejte na dokončení.

pipeline_job = ml_client_workspace.jobs.create_or_update(
    pipeline_job, experiment_name="sdk_job_data_from_registry" ,  skip_validation=True
)
ml_client_workspace.jobs.stream(pipeline_job.name)
pipeline_job=ml_client_workspace.jobs.get(pipeline_job.name)
pipeline_job

Návod

Všimněte si, že používáte ml_client_workspace ke spuštění úlohy kanálu, zatímco jste použili ml_client_registry k vytvoření prostředí a komponenty.

Vzhledem k tomu, že komponenta použitá v úloze trénování se sdílí prostřednictvím registru, můžete ji odeslat do libovolného pracovního prostoru, ke kterému máte přístup ve vaší organizaci, a to i v různých předplatných. Pokud dev-workspacetest-workspace máte například a prod-workspace, můžete se k těmto pracovním prostorům připojit a znovu odeslat úlohu.

Další informace o spouštění úloh najdete v následujících článcích:

Následující kroky ukazují, jak sdílet existující datový prostředek z pracovního prostoru do registru.

Azure CLI
Python SDK

Vytvořte nejprve v pracovním prostoru datovou položku. Ujistěte se, že jste v adresáři cli/assets/data . Umístění local-folder.yml v tomto adresáři slouží k vytvoření datového assetu v pracovním prostoru. Data zadaná v tomto souboru jsou k dispozici v cli/assets/data/sample-data adresáři. Následující YAML je obsah local-folder.yml souboru:

$schema: https://azuremlschemas.azureedge.net/latest/data.schema.json
name: local-folder-example-titanic
description: Dataset created from local folder.
type: uri_folder
path: sample-data/

K vytvoření datového assetu v pracovním prostoru použijte následující příkaz:

az ml data create -f local-folder.yml

Další informace o vytváření datových prostředků v pracovním prostoru najdete v tématu Vytváření datových prostředků.

Datový prostředek vytvořený v pracovním prostoru lze sdílet s registrem. Z registru jej lze použít ve více pracovních prostorech. Předáváme parametr --share_with_name a --share_with_version ve funkci share. Tyto parametry jsou volitelné a pokud nepředáte tato data, budou sdílena se stejným názvem a verzí jako v pracovním prostoru.

Následující příklad ukazuje použití příkazu sdílení ke sdílení datového assetu. Nahraďte <registry-name> názvem registru, do kterého budou data sdílena.

az ml data share --name local-folder-example-titanic --version <version-in-workspace> --share-with-name <name-in-registry> --share-with-version <version-in-registry> --registry-name <registry-name>

Vytvořte nejprve v pracovním prostoru datovou položku. Ujistěte se, že jste v sdk/assets/data adresáři. Data jsou k dispozici v adresáři sdk/assets/data/sample-data .

my_path = "./sample-data/"
my_data = Data(path=my_path,
               type=AssetTypes.URI_FOLDER,
               description="",
               name="titanic-dataset",
               version='1')
ml_client_workspace.data.create_or_update(my_data)

Další informace o vytváření datových prostředků v pracovním prostoru najdete v tématu Vytváření datových prostředků.

Datový prostředek vytvořený v pracovním prostoru se dá sdílet do registru a dá se použít ve více pracovních prostorech. Při sdílení dat z pracovního prostoru do registru můžete také změnit název a verzi.

Předáváme parametr share_with_name a share_with_version ve funkci share. Tyto parametry jsou volitelné a pokud nepředáte tato data, budou sdílena se stejným názvem a verzí jako v pracovním prostoru.

# Sharing data from workspace to registry
ml_client_workspace.data.share(
    name="titanic-dataset",
    version="1",
    registry_name="<REGISTRY_NAME>",
    share_with_name=<name-in-registry>,
    share_with_version=<version-in-registry>,
)

Další kroky

Váš názor

Byla tato stránka užitečná?

Last updated on 2025-04-07

Sdílet prostřednictvím

Klíčový scénář vyřešený sdílením dat pomocí registru služby Azure Machine Learning

Scénáře, které se neřeší sdílením dat pomocí registru Služby Azure Machine Learning

Typy datových assetů podporované registrem služby Azure Machine Learning

Cesty podporované registrem služby Azure Machine Learning

Požadavky

Klonování úložiště s příklady

Vytvoření připojení sady SDK

Vytvoření dat v registru

Vytvoření prostředí a komponenty v registru

Spustit úlohu kanálu v pracovním prostoru pomocí komponenty z registru

Sdílení dat z pracovního prostoru do registru

Další kroky

Váš názor

Další materiály