Kurz: Vývoj modelů na cloudové pracovní stanici

Článek
11/28/2023

Naučte se vyvíjet trénovací skript s poznámkovým blokem na cloudové pracovní stanici Azure Machine Učení. Tento kurz popisuje základy, které potřebujete, abyste mohli začít:

Nastavte a nakonfigurujte cloudovou pracovní stanici. Vaše cloudová pracovní stanice využívá výpočetní instanci Azure Machine Učení, která je předem nakonfigurovaná s prostředími pro podporu různých potřeb vývoje modelů.
Používejte cloudová vývojová prostředí.
Pomocí MLflow můžete sledovat metriky modelu, a to vše v poznámkovém bloku.

Předpoklady

Pokud chcete používat Učení Azure Machine, budete nejdřív potřebovat pracovní prostor. Pokud ho nemáte, dokončete vytváření prostředků, které potřebujete, abyste mohli začít vytvářet pracovní prostor a získat další informace o jeho používání.

Začínáme s poznámkovými bloky

Oddíl Poznámkové bloky ve vašem pracovním prostoru je dobrým místem, kde se můžete seznámit se službou Azure Machine Učení a jejími možnostmi. Tady se můžete připojit k výpočetním prostředkům, pracovat s terminálem a upravovat a spouštět poznámkové bloky a skripty Jupyter.

Přihlaste se k studio Azure Machine Learning.
Vyberte pracovní prostor, pokud ještě není otevřený.
V levém navigačním panelu vyberte Poznámkové bloky.
Pokud nemáte výpočetní instanci, uprostřed obrazovky se zobrazí vytvoření výpočetních prostředků . Vyberte Vytvořit výpočetní prostředky a vyplňte formulář. Můžete použít všechny výchozí hodnoty. (Pokud už máte výpočetní instanci, zobrazí se místo tohoTerminál na místě. Terminál použijete později v tomto kurzu.)

Nastavení nového prostředí pro vytváření prototypů (volitelné)

Abyste mohli skript spustit, musíte pracovat v prostředí nakonfigurované se závislostmi a knihovnami, které kód očekává. Tato část vám pomůže vytvořit prostředí přizpůsobené vašemu kódu. K vytvoření nového jádra Jupyter, ke kterému se váš poznámkový blok připojuje, použijete soubor YAML, který definuje závislosti.

Nahrajte soubor.

Soubory, které nahrajete, se ukládají do sdílené složky Azure a tyto soubory se připojují ke každé výpočetní instanci a sdílí se v rámci pracovního prostoru.
1. Stáhněte si tento soubor prostředí conda, workstation_env.yml do počítače pomocí tlačítka Stáhnout nezpracovaný soubor v pravém horním rohu.
1. Vyberte Přidat soubory a pak vyberte Nahrát soubory a nahrajte je do svého pracovního prostoru.
2. Vyberte Procházet a vyberte soubory.
3. Vyberte soubor workstation_env.yml , který jste stáhli.
4. Vyberte Odeslat.
Soubor workstation_env.yml uvidíte na kartě Soubory ve složce Soubory . Vyberte tento soubor, abyste ho zobrazili, a podívejte se, jaké závislosti určuje. Zobrazí se obsah podobný tomuto:
```
name: workstation_env
# This file serves as an example - you can update packages or versions to fit your use case
dependencies:
  - python=3.8
  - pip=21.2.4
  - scikit-learn=0.24.2
  - scipy=1.7.1
  - pandas>=1.1,<1.2
  - pip:
    - mlflow-skinny 
    - azureml-mlflow
    - psutil>=5.8,<5.9
    - ipykernel~=6.0
    - matplotlib
```
Vytvořte jádro.

Teď pomocí terminálu Azure Machine Učení vytvořte nové jádro Jupyter založené na souboru workstation_env.yml.
1. Výběrem terminálu otevřete okno terminálu. Terminál můžete otevřít také z levého panelu příkazů:
2. Pokud je výpočetní instance zastavená, vyberte Spustit výpočetní prostředky a počkejte, až bude spuštěný.
3. Po spuštění výpočetních prostředků se v terminálu zobrazí uvítací zpráva a můžete začít psát příkazy.
4. Zobrazte si aktuální prostředí Conda. Aktivní prostředí je označené znakem *.
```
conda env list
```
5. Pokud jste pro tento kurz vytvořili podsložku, cd přejděte do této složky.
6. Vytvořte prostředí na základě zadaného souboru conda. Sestavení tohoto prostředí trvá několik minut.
```
conda env create -f workstation_env.yml
```
7. Aktivujte nové prostředí.
```
 conda activate workstation_env
```
8. Ověřte, že je správné prostředí aktivní, a znovu vyhledejte prostředí označené znakem *.
```
conda env list
```
9. Vytvořte nové jádro Jupyter založené na aktivním prostředí.
```
python -m ipykernel install --user --name workstation_env --display-name "Tutorial Workstation Env" 
```
10. Zavřete okno terminálu.

Teď máte nové jádro. Dále otevřete poznámkový blok a použijete toto jádro.

Vytvoření poznámkového bloku

Vyberte Přidat soubory a zvolte Vytvořit nový soubor.
Pojmenujte nový poznámkový blok develop-tutorial.ipynb (nebo zadejte preferovaný název).
Pokud je výpočetní instance zastavená, vyberte Spustit výpočetní prostředky a počkejte, až bude spuštěný.
Uvidíte, že je poznámkový blok připojený k výchozímu jádru v pravém horním rohu. Pokud jste jádro vytvořili, přepněte na použití jádra Env pracovní stanice kurzu.

Vývoj trénovacího skriptu

V této části vytvoříte trénovací skript Pythonu, který předpovídá výchozí platby platební kartou pomocí připravených testovacích a trénovacích datových sad z datové sady UCI.

Tento kód se používá sklearn pro trénování a MLflow pro protokolování metrik.

Začněte kódem, který importuje balíčky a knihovny, které použijete v trénovacím skriptu.

import os
import argparse
import pandas as pd
import mlflow
import mlflow.sklearn
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import classification_report
from sklearn.model_selection import train_test_split

Dále načtěte a zpracujte data pro tento experiment. V tomto kurzu si přečtete data ze souboru na internetu.

# load the data
credit_df = pd.read_csv(
    "https://azuremlexamples.blob.core.windows.net/datasets/credit_card/default_of_credit_card_clients.csv",
    header=1,
    index_col=0,
)

train_df, test_df = train_test_split(
    credit_df,
    test_size=0.25,
)

Příprava dat na trénování:

# Extracting the label column
y_train = train_df.pop("default payment next month")

# convert the dataframe values to array
X_train = train_df.values

# Extracting the label column
y_test = test_df.pop("default payment next month")

# convert the dataframe values to array
X_test = test_df.values

Přidejte kód pro zahájení automatickéhologování pomocí MLflow, abyste mohli sledovat metriky a výsledky. S iterativní povahou vývoje MLflow modelů vám pomůže protokolovat parametry a výsledky modelu. Vraťte se k těmto spuštěním a porovnejte a zjistěte, jak model funguje. Protokoly také poskytují kontext, kdy jste připraveni přejít z fáze vývoje do fáze trénování pracovních postupů v rámci Učení Azure Machine.
```
# set name for logging
mlflow.set_experiment("Develop on cloud tutorial")
# enable autologging with MLflow
mlflow.sklearn.autolog()
```

Trénování modelu

# Train Gradient Boosting Classifier
print(f"Training with data of shape {X_train.shape}")

mlflow.start_run()
clf = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1)
clf.fit(X_train, y_train)

y_pred = clf.predict(X_test)

print(classification_report(y_test, y_pred))
# Stop logging for this model
mlflow.end_run()

Poznámka:

Upozornění mlflow můžete ignorovat. Pořád získáte všechny výsledky, které potřebujete sledovat.

Iterovat

Teď, když máte výsledky modelu, můžete něco změnit a zkusit to znovu. Zkuste například použít jinou techniku klasifikátoru:

# Train  AdaBoost Classifier
from sklearn.ensemble import AdaBoostClassifier

print(f"Training with data of shape {X_train.shape}")

mlflow.start_run()
ada = AdaBoostClassifier()

ada.fit(X_train, y_train)

y_pred = ada.predict(X_test)

print(classification_report(y_test, y_pred))
# Stop logging for this model
mlflow.end_run()

Poznámka:

Upozornění mlflow můžete ignorovat. Pořád získáte všechny výsledky, které potřebujete sledovat.

Prozkoumání výsledků

Teď, když jste vyzkoušeli dva různé modely, využijte výsledky sledované MLFfow a rozhodněte se, který model je lepší. Můžete odkazovat na metriky, jako je přesnost nebo jiné indikátory, které jsou pro vaše scénáře nejdůležitější. Na tyto výsledky se můžete podívat podrobněji, když se podíváte na úlohy vytvořené .MLflow

V levém navigačním panelu vyberte Úlohy.
Vyberte odkaz pro kurz Vývoj v cloudu.
Zobrazí se dvě různé úlohy, jedna pro každý z modelů, které jste vyzkoušeli. Tyto názvy se automaticky vygenerují. Když najedete myší na název, použijte nástroj tužky vedle názvu, pokud ho chcete přejmenovat.
Vyberte odkaz pro první úlohu. Název se zobrazí v horní části. Můžete ho také přejmenovat pomocí nástroje tužky.
Na stránce se zobrazují podrobnosti úlohy, jako jsou vlastnosti, výstupy, značky a parametry. V části Značky uvidíte estimator_name, který popisuje typ modelu.
Výběrem karty Metriky zobrazíte metriky, které byly protokolovány MLflow. (Očekáváte, že se výsledky budou lišit, protože máte jinou trénovací sadu.)
Výběrem karty Obrázky zobrazíte obrázky vygenerované nástrojem MLflow.
Vraťte se zpět a prohlédněte si metriky a obrázky pro druhý model.

Vytvoření skriptu Pythonu

Teď vytvořte skript Pythonu z poznámkového bloku pro trénování modelu.

Na panelu nástrojů poznámkového bloku vyberte nabídku.
Vyberte Exportovat jako> Python.
Pojmenujte soubor train.py.
Prohlédněte si tento soubor a odstraňte kód, který v trénovacím skriptu nechcete. Například ponechte kód modelu, který chcete použít, a odstraňte kód pro model, který nechcete.
- Ujistěte se, že máte kód, který spouští automatickélogování (mlflow.sklearn.autolog()).
- Můžete chtít odstranit automaticky generované komentáře a přidat další vlastní komentáře.
- Když skript Pythonu spustíte interaktivně (v terminálu nebo poznámkovém bloku), můžete ponechat řádek, který definuje název experimentu (mlflow.set_experiment("Develop on cloud tutorial")). Nebo ho pojmenujte jinak, abyste ho viděli jako jinou položku v části Úlohy . Když ale připravíte skript pro trénovací úlohu, tento řádek nebude fungovat a měl by být vynechán – definice úlohy obsahuje název experimentu.
- Při trénování jednoho modelu nejsou čáry pro zahájení a ukončení běhumlflow.start_run() (a mlflow.end_run()) také nezbytné (nebudou mít žádný vliv), ale pokud chcete, můžete je nechat.
Až budete s úpravami hotovi, soubor uložte.

Teď máte skript Pythonu, který můžete použít k trénování preferovaného modelu.

Spuštění skriptu Pythonu

Prozatím tento kód spouštíte na výpočetní instanci, což je vaše vývojové prostředí Azure Machine Učení. Kurz: Trénování modelu vám ukáže, jak spustit trénovací skript škálovatelným způsobem na výkonnějších výpočetních prostředcích.

Na levé straně vyberte Otevřít terminál a otevřete okno terminálu.
Zobrazte si aktuální prostředí Conda. Aktivní prostředí je označené znakem *.
```
conda env list
```
Pokud jste vytvořili nové jádro, aktivujte ho teď:
```
conda activate workstation_env
```
Pokud jste pro tento kurz vytvořili podsložku, cd přejděte do této složky.
Spusťte trénovací skript.
```
python train.py
```

Poznámka:

Upozornění mlflow můžete ignorovat. Stále získáte všechny metriky a obrázky z automatickéhologování.

Prozkoumání výsledků skriptu

Vraťte se do úloh a podívejte se na výsledky trénovacího skriptu. Mějte na paměti, že se trénovací data mění s jednotlivými rozděleními, takže se výsledky mezi spuštěními liší.

Vyčištění prostředků

Pokud chcete pokračovat v dalších kurzech, přejděte k dalším krokům.

Zastavení výpočetní instance

Pokud ji teď nebudete používat, zastavte výpočetní instanci:

V sadě Studio v levé navigační oblasti vyberte Compute.
Na horních kartách vyberte Výpočetní instance.
V seznamu vyberte výpočetní instanci.
Na horním panelu nástrojů vyberte Zastavit.

Odstranění všech prostředků

Důležité

Prostředky, které jste vytvořili, se dají použít jako předpoklady pro další kurzy a postupy pro azure machine Učení články.

Pokud nemáte v úmyslu používat žádné prostředky, které jste vytvořili, odstraňte je, abyste za ně neúčtovaly žádné poplatky:

Úplně nalevo na webu Azure Portal vyberte Skupiny prostředků.
V seznamu vyberte skupinu prostředků, kterou jste vytvořili.
Vyberte Odstranit skupinu prostředků.
Zadejte název skupiny prostředků. Poté vyberte Odstranit.

Další kroky

Přečtěte si další informace:

V tomto kurzu jste si ukázali počáteční kroky vytvoření modelu, vytváření prototypů na stejném počítači, ve kterém se nachází kód. V případě produkčního trénování se naučíte používat tento trénovací skript pro výkonnější vzdálené výpočetní prostředky:

Trénování modelu

Kurz: Vývoj modelů na cloudové pracovní stanici

Předpoklady

Začínáme s poznámkovými bloky

Nastavení nového prostředí pro vytváření prototypů (volitelné)

Vytvoření poznámkového bloku

Vývoj trénovacího skriptu

Iterovat

Prozkoumání výsledků

Vytvoření skriptu Pythonu

Spuštění skriptu Pythonu

Prozkoumání výsledků skriptu

Vyčištění prostředků

Zastavení výpočetní instance

Odstranění všech prostředků

Další kroky

Další materiály