Udostępnianie danych między obszarami roboczymi za pomocą rejestrów (wersja zapoznawcza)

Artykuł
04/09/2024

Rejestr usługi Azure Machine Learning umożliwia współpracę między obszarami roboczymi w organizacji. Za pomocą rejestrów można udostępniać modele, składniki, środowiska i dane. Udostępnianie danych rejestrom jest obecnie funkcją w wersji zapoznawczej. W tym artykule omówiono sposób wykonywania następujących zadań:

Utwórz zasób danych w rejestrze.
Udostępnianie istniejącego zasobu danych z obszaru roboczego do rejestru
Użyj zasobu danych z rejestru jako danych wejściowych do zadania trenowania modelu w obszarze roboczym.

Ważne

Ta funkcja jest obecnie w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą być nieobsługiwane lub ograniczone.

Aby uzyskać więcej informacji, zobacz Uzupełniające warunki korzystania z wersji zapoznawczych platformy Microsoft Azure.

Dane mogą być współużytkowane przez wiele zespołów, projektów lub obszarów roboczych w centralnej lokalizacji. Takie dane nie mają poufnych kontroli dostępu i mogą być szeroko używane w organizacji.

Przykłady:

Zespół chce udostępnić publiczny zestaw danych, który jest wstępnie przetworzony i gotowy do użycia w eksperymentach.
Twoja organizacja uzyskała określony zestaw danych dla projektu od zewnętrznego dostawcy i chce udostępnić go wszystkim zespołom pracującym nad projektem.
Zespół chce udostępniać zasoby danych między obszarami roboczymi w różnych regionach.

W tych scenariuszach można utworzyć zasób danych w rejestrze lub udostępnić istniejący zasób danych z obszaru roboczego do rejestru. Ten zasób danych może być następnie używany w wielu obszarach roboczych.

Udostępnianie poufnych danych, które wymagają szczegółowej kontroli dostępu. Nie można utworzyć zasobu danych w rejestrze, aby udostępnić go małym podzbiorom użytkowników/obszarów roboczych, podczas gdy rejestr jest dostępny dla wielu innych użytkowników w organizacji.
Udostępnianie danych dostępnych w istniejącym magazynie, które nie może być kopiowane lub jest zbyt duże lub zbyt drogie, aby można je było skopiować. Za każdym razem, gdy zasoby danych są tworzone w rejestrze, kopia danych jest pozyskiwana do magazynu rejestru, aby można je było replikować.

Typy zasobów danych obsługiwane przez rejestr usługi Azure Machine Learning

Porada

Zapoznaj się z następującymi scenariuszami kanonicznymi podczas podejmowania decyzji, czy chcesz użyć uri_filewartości , uri_folderlub mltable dla danego scenariusza.

Możesz utworzyć trzy typy zasobów danych:

Typ	Interfejs API w wersji 2	Scenariusz kanoniczny
Plik: Odwoływanie się do pojedynczego pliku	`uri_file`	Odczyt/zapis pojedynczego pliku — plik może mieć dowolny format.
Folder: Odwoływanie się do pojedynczego folderu	`uri_folder`	Musisz odczytywać/zapisywać katalog plików parquet/CSV w bibliotece Pandas/Spark. Uczenie głębokie przy użyciu obrazów, tekstu, dźwięku, plików wideo znajdujących się w katalogu.
Tabeli: Odwoływanie się do tabeli danych	`mltable`	Masz złożony schemat, którego dotyczą częste zmiany, lub potrzebujesz podzestawu dużych danych tabelarycznych.

Ścieżki obsługiwane przez rejestr usługi Azure Machine Learning

Podczas tworzenia zasobu danych należy określić parametr ścieżki wskazujący lokalizację danych. Obecnie jedynymi obsługiwanymi ścieżkami są lokalizacje na komputerze lokalnym.

Porada

"Lokalne" oznacza magazyn lokalny dla komputera, którego używasz. Jeśli na przykład używasz laptopa, dysk lokalny. Jeśli wystąpienie obliczeniowe usługi Azure Machine Learning, dysk "lokalny" wystąpienia obliczeniowego.

Wymagania wstępne

Przed wykonaniem kroków opisanych w tym artykule upewnij się, że masz następujące wymagania wstępne:

Znajomość rejestrów i pojęć dotyczących danych usługi Azure Machine Learning w usłudze Azure Machine Learning.
Rejestr usługi Azure Machine Learning do udostępniania danych. Aby utworzyć rejestr, zobacz Dowiedz się, jak utworzyć rejestr.
Obszar roboczy usługi Azure Machine Learning. Jeśli go nie masz, wykonaj kroki opisane w artykule Szybki start: tworzenie zasobów obszaru roboczego , aby je utworzyć.

Ważne

Region platformy Azure (lokalizacja), w którym tworzysz obszar roboczy, musi znajdować się na liście obsługiwanych regionów dla rejestru usługi Azure Machine Learning.
Środowisko i składnik utworzony w artykule How to share models, components, and environments (Jak udostępniać modele, składniki i środowiska).
Interfejs wiersza polecenia platformy ml Azure i rozszerzenie lub zestaw SDK języka Python usługi Azure Machine Learning w wersji 2:
- Interfejs wiersza polecenia platformy Azure
- Zestaw SDK dla języka Python
Aby zainstalować interfejs wiersza polecenia platformy Azure i rozszerzenie, zobacz Instalowanie, konfigurowanie i używanie interfejsu wiersza polecenia (wersja 2).
Ważne
- W przykładach interfejsu wiersza polecenia w tym artykule założono, że używasz powłoki Bash (lub zgodnej). Na przykład z systemu Linux lub Podsystem Windows dla systemu Linux.
- W przykładach założono również, że skonfigurowano wartości domyślne dla interfejsu wiersza polecenia platformy Azure, aby nie trzeba było określać parametrów subskrypcji, obszaru roboczego, grupy zasobów ani lokalizacji. Aby ustawić ustawienia domyślne, użyj następujących poleceń. Zastąp następujące parametry wartościami konfiguracji:
  
  Zamień wartość <subscription> na identyfikator swojej subskrypcji platformy Azure.
  
  Zastąp <workspace> ciąg nazwą obszaru roboczego usługi Azure Machine Learning.
  
  Zastąp <resource-group> element grupą zasobów platformy Azure zawierającą obszar roboczy.
  
  Zastąp <location> element regionem świadczenia usługi Azure zawierającym obszar roboczy.
  
  az account set --subscription <subscription> az configure --defaults workspace=<workspace> group=<resource-group> location=<location>
  
  Bieżące wartości domyślne można zobaczyć za pomocą az configure -l polecenia .
Aby zainstalować zestaw PYTHON SDK w wersji 2, użyj następującego polecenia:
```
pip install --pre --upgrade azure-ai-ml azure-identity
```

Klonowanie repozytorium przykładów

Przykłady kodu w tym artykule są oparte na przykładzie nyc_taxi_data_regression w repozytorium przykładów. Aby użyć tych plików w środowisku projektowym, użyj następujących poleceń, aby sklonować repozytorium i zmienić katalogi na przykład:

git clone https://github.com/Azure/azureml-examples
cd azureml-examples

Interfejs wiersza polecenia platformy Azure
Zestaw SDK dla języka Python

W przykładzie interfejsu wiersza polecenia zmień katalogi na cli/jobs/pipelines-with-components/nyc_taxi_data_regression w lokalnym klonie repozytorium przykładów.

cd cli/jobs/pipelines-with-components/nyc_taxi_data_regression

W przykładzie zestawu SDK języka Python użyj nyc_taxi_data_regression przykładu z repozytorium przykładów. Przykładowy notes jest dostępny w sdk/python/assets/assets-in-registry katalogu . Cały przykładowy kod trenowania modelu plików YAML, przykładowe dane do trenowania i wnioskowania są dostępne w programie cli/jobs/pipelines-with-components/nyc_taxi_data_regression. Przejdź do sdk/resources/registry katalogu i otwórz notes, jeśli chcesz przejść przez notes, aby wypróbować kod w tym dokumencie.

Tworzenie połączenia zestawu SDK

Porada

Ten krok jest wymagany tylko w przypadku korzystania z zestawu SDK języka Python.

Utwórz połączenie klienta z obszarem roboczym usługi Azure Machine Learning i rejestrem. W poniższym przykładzie zastąp <...> wartości symboli zastępczych wartościami odpowiednimi dla twojej konfiguracji. Na przykład identyfikator subskrypcji platformy Azure, nazwa obszaru roboczego, nazwa rejestru itp.:

ml_client_workspace = MLClient( credential=credential,
    subscription_id = "<workspace-subscription>",
    resource_group_name = "<workspace-resource-group",
    workspace_name = "<workspace-name>")
print(ml_client_workspace)

ml_client_registry = MLClient(credential=credential,
                        registry_name="<REGISTRY_NAME>",
                        registry_location="<REGISTRY_REGION>")
print(ml_client_registry)

Tworzenie danych w rejestrze

Zasób danych utworzony w tym kroku jest używany w dalszej części tego artykułu podczas przesyłania zadania szkoleniowego.

Interfejs wiersza polecenia platformy Azure
Zestaw SDK dla języka Python

Porada

To samo polecenie interfejsu wiersza polecenia az ml data create może służyć do tworzenia danych w obszarze roboczym lub rejestrze. Uruchomienie polecenia z --workspace-name poleceniem tworzy dane w obszarze roboczym, a uruchomienie polecenia z poleceniem --registry-name tworzy dane w rejestrze.

Źródło danych znajduje się w sklonowanym wcześniej repozytorium przykładów . W obszarze klonu lokalnego przejdź do następującej ścieżki katalogu: cli/jobs/pipelines-with-components/nyc_taxi_data_regression. W tym katalogu utwórz plik YAML o nazwie data-registry.yml i użyj następującego kodu YAML jako zawartości pliku:

$schema: https://azuremlschemas.azureedge.net/latest/data.schema.json
name: transformed-nyc-taxt-data
description: Transformed NYC Taxi data created from local folder.
version: 1
type: uri_folder
path: data_transformed/

Wartość path wskazuje data_transformed podkatalog, który zawiera dane udostępniane przy użyciu rejestru.

Aby utworzyć dane w rejestrze, użyj polecenia az ml data create. W poniższych przykładach zastąp ciąg <registry-name> nazwą rejestru.

az ml data create --file data-registry.yml --registry-name <registry-name>

Jeśli wystąpi błąd, że dane o tej nazwie i wersji już istnieją w rejestrze, możesz edytować version pole w data-registry.yml programie lub określić inną wersję interfejsu wiersza polecenia, która zastępuje wartość wersji w data-registry.ymlprogramie .

# use shell epoch time as the version
version=$(date +%s)
az ml data create --file data-registry.yml --registry-name <registry-name> --set version=$version

Porada

version=$(date +%s) Jeśli polecenie nie ustawi zmiennej $version w środowisku, zastąp $version zmienną liczbą losową.

name Zapisz dane i version z danych wyjściowych az ml data create polecenia i użyj ich za pomocą az ml data show polecenia , aby wyświetlić szczegóły elementu zawartości.

az ml data show --name transformed-nyc-taxt-data --version 1 --registry-name <registry-name>

Porada

Jeśli użyto innej nazwy lub wersji danych, zastąp --name odpowiednio parametry i --version .

Można również użyć az ml data list --registry-name <registry-name> polecenia , aby wyświetlić listę wszystkich zasobów danych w rejestrze.

Porada

To samo MLClient.environmentsdata.create_or_update() może służyć do tworzenia danych w obszarze roboczym lub rejestrze w zależności od miejsca docelowego, z którego został zainicjowany. Ponieważ pracujesz zarówno w obszarze roboczym, jak i rejestrze w tym dokumencie, zainicjowano ml_client_workspace i ml_client_registry odpowiednio pracę z obszarem roboczym i rejestrem.

Źródłowy katalog data_transformed danych jest dostępny w programie cli/jobs/pipelines-with-components/nyc_taxi_data_regression/. Zainicjuj obiekt danych i utwórz dane.

my_path = "./data_transformed/"
my_data = Data(path=my_path,
               type=AssetTypes.URI_FOLDER,
               description="Transformed NYC Taxi data created from local folder.",
               name="transformed-nyc-taxt-data",
               version='1')
ml_client_registry.data.create_or_update(my_data)

Porada

Jeśli wystąpi błąd, że dane o tej nazwie i wersji już istnieją w rejestrze, określ inną wersję parametru version .

Zanotuj name dane i version z danych wyjściowych i przekaż je do ml_client_registry.data.get() metody, aby pobrać dane z rejestru.

Można również użyć ml_client_registry.data.list() polecenia , aby wyświetlić listę wszystkich zasobów danych w rejestrze.

Tworzenie środowiska i składnika w rejestrze

Aby utworzyć środowisko i składnik w rejestrze, wykonaj kroki opisane w artykule Jak udostępniać modele, składniki i środowiska . Środowisko i składnik są używane w zadaniu szkoleniowym w następnej sekcji.

Porada

Możesz użyć środowiska i składnika z obszaru roboczego zamiast używać tych z rejestru.

Uruchamianie zadania potoku w obszarze roboczym przy użyciu składnika z rejestru

Podczas uruchamiania zadania potoku, które używa składnika i danych z rejestru, zasoby obliczeniowe są lokalne w obszarze roboczym. W poniższym przykładzie zadanie używa składnika szkoleniowego Scikit Learn i zasobu danych utworzonego w poprzednich sekcjach do trenowania modelu.

Uwaga

Kluczowym aspektem jest to, że ten potok będzie uruchamiany w obszarze roboczym przy użyciu danych szkoleniowych, które nie są w określonym obszarze roboczym. Dane są w rejestrze, który może być używany z dowolnym obszarem roboczym w organizacji. Możesz uruchomić to zadanie szkoleniowe w dowolnym obszarze roboczym, do którego masz dostęp bez obaw o udostępnienie danych szkoleniowych w tym obszarze roboczym.

Interfejs wiersza polecenia platformy Azure
Zestaw SDK dla języka Python

Sprawdź, czy jesteś w cli/jobs/pipelines-with-components/nyc_taxi_data_regression katalogu. Edytuj sekcję component w sekcji pliku, train_job aby odwoływać się do składnika szkoleniowego single-job-pipeline.yml i path w sekcji training_data , aby odwoływać się do zasobu danych utworzonego w poprzednich sekcjach. W poniższym przykładzie pokazano, jak wygląda wygląd single-job-pipeline.yml po edycji. <registry_name> Zastąp ciąg nazwą rejestru:

$schema: https://azuremlschemas.azureedge.net/latest/pipelineJob.schema.json
type: pipeline
display_name: nyc_taxi_data_regression_single_job
description: Single job pipeline to train regression model based on nyc taxi dataset

jobs:
  train_job:
    type: command
    component: azureml://registries/<registry-name>/component/train_linear_regression_model/versions/1
    compute: azureml:cpu-cluster
    inputs:
      training_data: 
        type: uri_folder
        path: azureml://registries/<registry-name>/data/transformed-nyc-taxt-data/versions/1
    outputs:
      model_output: 
        type: mlflow_model
      test_data:

Ostrzeżenie

Przed uruchomieniem zadania potoku upewnij się, że obszar roboczy, w którym uruchomisz zadanie, znajduje się w regionie świadczenia usługi Azure obsługiwanym przez rejestr, w którym utworzono dane.
Upewnij się, że obszar roboczy ma klaster obliczeniowy o nazwie lub edytuj compute pole pod jobs.train_job.compute nazwą cpu-cluster obliczeń.

Uruchom zadanie potoku za az ml job create pomocą polecenia .

az ml job create --file single-job-pipeline.yml

Porada

Jeśli nie skonfigurowano domyślnego obszaru roboczego i grupy zasobów, zgodnie z opisem w sekcji wymagań wstępnych, należy określić --workspace-name parametry i --resource-group do az ml job create pracy.

Aby uzyskać więcej informacji na temat uruchamiania zadań, zobacz następujące artykuły:

# get the data asset
data_asset_from_registry = ml_client_registry.data.get(name="transformed-nyc-taxt-data", version="1")

@pipeline()
def pipeline_with_registered_components(
    training_data
):
    train_job = train_component_from_registry(
        training_data=training_data,
    )
pipeline_job = pipeline_with_registered_components(
    training_data=Input(type="uri_folder", path=data_asset_from_registry.id"),
)
pipeline_job.settings.default_compute = "cpu-cluster"
print(pipeline_job)

Ostrzeżenie

Upewnij się, że obszar roboczy, w którym uruchomisz to zadanie, znajduje się w lokalizacji platformy Azure obsługiwanej przez rejestr, w którym został utworzony składnik przed uruchomieniem zadania potoku.
Upewnij się, że obszar roboczy ma klaster obliczeniowy o nazwie cpu-cluster lub zaktualizuj go pipeline_job.settings.default_compute=<compute-cluster-name>.

Uruchom zadanie potoku i poczekaj na jego ukończenie.

pipeline_job = ml_client_workspace.jobs.create_or_update(
    pipeline_job, experiment_name="sdk_job_data_from_registry" ,  skip_validation=True
)
ml_client_workspace.jobs.stream(pipeline_job.name)
pipeline_job=ml_client_workspace.jobs.get(pipeline_job.name)
pipeline_job

Porada

Zwróć uwagę, że używasz polecenia ml_client_workspace do uruchamiania zadania potoku, podczas gdy użyto go ml_client_registry do tworzenia środowiska i składnika.

Ponieważ składnik używany w zadaniu trenowania jest współużytkowany za pośrednictwem rejestru, możesz przesłać zadanie do dowolnego obszaru roboczego, do którego masz dostęp w organizacji, nawet w różnych subskrypcjach. Jeśli na przykład masz elementy dev-workspace, test-workspace i prod-workspace, możesz nawiązać połączenie z tymi obszarami roboczymi i ponownie przesłać zadanie.

Aby uzyskać więcej informacji na temat uruchamiania zadań, zobacz następujące artykuły:

W poniższych krokach pokazano, jak udostępnić istniejący zasób danych z obszaru roboczego do rejestru.

Interfejs wiersza polecenia platformy Azure
Zestaw SDK dla języka Python

Najpierw utwórz zasób danych w obszarze roboczym. Upewnij się, że jesteś w cli/assets/data katalogu. Obiekt local-folder.yml znajdujący się w tym katalogu służy do tworzenia zasobu danych w obszarze roboczym. Dane określone w tym pliku są dostępne w cli/assets/data/sample-data katalogu. Następujący kod YAML jest zawartością local-folder.yml pliku:

$schema: https://azuremlschemas.azureedge.net/latest/data.schema.json
name: local-folder-example-titanic
description: Dataset created from local folder.
type: uri_folder
path: sample-data/

Aby utworzyć zasób danych w obszarze roboczym, użyj następującego polecenia:

az ml data create -f local-folder.yml

Aby uzyskać więcej informacji na temat tworzenia zasobów danych w obszarze roboczym, zobacz How to create data assets (Jak tworzyć zasoby danych).

Zasób danych utworzony w obszarze roboczym można udostępnić rejestrowi. Z rejestru można go używać w wielu obszarach roboczych. Należy pamiętać, że przekazujemy --share_with_name parametry i --share_with_version w funkcji udostępniania. Te parametry są opcjonalne i jeśli te dane nie zostaną przekazane, zostaną udostępnione tej samej nazwie i wersji, co w obszarze roboczym.

W poniższym przykładzie pokazano użycie polecenia udostępniania w celu udostępnienia zasobu danych. Zastąp <registry-name> ciąg nazwą rejestru, do którego będą udostępniane dane.

az ml data share --name local-folder-example-titanic --version <version-in-workspace> --share-with-name <name-in-registry> --share-with-version <version-in-registry> --registry-name <registry-name>

Najpierw utwórz zasób danych w obszarze roboczym. Upewnij się, że jesteś w sdk/assets/data katalogu. Dane są dostępne w sdk/assets/data/sample-data katalogu.

my_path = "./sample-data/"
my_data = Data(path=my_path,
               type=AssetTypes.URI_FOLDER,
               description="",
               name="titanic-dataset",
               version='1')
ml_client_workspace.data.create_or_update(my_data)

Aby uzyskać więcej informacji na temat tworzenia zasobów danych w obszarze roboczym, zobacz How to create data assets (Jak tworzyć zasoby danych).

Zasób danych utworzony w obszarze roboczym może być udostępniany rejestrowi i może być używany w wielu obszarach roboczych. Możesz również zmienić nazwę i wersję podczas udostępniania danych z obszaru roboczego do rejestru.

Należy pamiętać, że przekazujemy share_with_name parametry i share_with_version w funkcji udostępniania. Te parametry są opcjonalne i jeśli te dane nie zostaną przekazane, zostaną udostępnione tej samej nazwie i wersji, co w obszarze roboczym.

# Sharing data from workspace to registry
ml_client_workspace.data.share(
    name="titanic-dataset",
    version="1",
    registry_name="<REGISTRY_NAME>",
    share_with_name=<name-in-registry>,
    share_with_version=<version-in-registry>,
)

Share via

Typy zasobów danych obsługiwane przez rejestr usługi Azure Machine Learning

Ścieżki obsługiwane przez rejestr usługi Azure Machine Learning

Wymagania wstępne

Klonowanie repozytorium przykładów

Tworzenie połączenia zestawu SDK

Tworzenie danych w rejestrze

Tworzenie środowiska i składnika w rejestrze

Uruchamianie zadania potoku w obszarze roboczym przy użyciu składnika z rejestru

Następne kroki

Dodatkowe zasoby

Share via

Kluczowy scenariusz rozwiązany przez udostępnianie danych przy użyciu rejestru usługi Azure Machine Learning

Scenariusze NIE rozwiązane przez udostępnianie danych przy użyciu rejestru usługi Azure Machine Learning

Typy zasobów danych obsługiwane przez rejestr usługi Azure Machine Learning

Ścieżki obsługiwane przez rejestr usługi Azure Machine Learning

Wymagania wstępne

Klonowanie repozytorium przykładów

Tworzenie połączenia zestawu SDK

Tworzenie danych w rejestrze

Tworzenie środowiska i składnika w rejestrze

Uruchamianie zadania potoku w obszarze roboczym przy użyciu składnika z rejestru

Udostępnianie danych z obszaru roboczego do rejestru

Następne kroki

Dodatkowe zasoby