Model strojového učení v Microsoft Fabric

Model strojového učení je soubor natrénovaný tak, aby rozpoznal určité typy vzorů. Vytrénujete model na datové sadě a poskytnete mu algoritmus, který slouží k analýze a učení z této datové sady. Jakmile model vytrénujete, můžete ho použít k odůvodnění nad daty, která předtím neviděla, a vytvářet předpovědi o datech.

V MLflow může model strojového učení obsahovat více verzí modelu. Každá verze zde může představovat iteraci modelu. V tomto článku se dozvíte, jak pracovat s modely ML a sledovat a porovnávat iterace modelů.

V tomto článku se naučíte:

Vytváření modelů strojového učení v Microsoft Fabric
Správa a sledování verzí modelu
Porovnání výkonu modelu napříč verzemi
Použití modelů pro bodování a odvozování

Vytvoření modelu strojového učení

Model strojového učení můžete vytvořit z uživatelského rozhraní Fabric nebo programově pomocí rozhraní API MLflow. V MLflow používají modely standardní formát balení, který funguje s různými podřízenými nástroji, včetně dávkového odvozování v Apache Sparku. Formát uloží model v různých "příchutích", které můžou pochopit různé podřízené nástroje.

Vytvoření modelu strojového učení z uživatelského rozhraní:

Vyberte existující pracovní prostor datové vědy nebo vytvořte nový pracovní prostor.
Vytvořte novou položku prostřednictvím pracovního prostoru nebo pomocí tlačítka Vytvořit:
1. Pracovní plocha:
  1. Vyberte váš pracovní prostor.
  2. Vyberte Nová položka.
  3. V části Analýza a trénování dat vyberte model ML.
2. Vytvořit tlačítko:
  1. Vyberte Vytvořit, které lze najít ve ... v vertikální nabídce.
  2. V části Datové vědy vyberte model ML.
Po vytvoření modelu můžete začít přidávat verze modelu, abyste mohli sledovat metriky a parametry spuštění. Zaregistrujte nebo uložte spuštění experimentu do existujícího modelu.

Model strojového učení můžete také vytvořit přímo z prostředí pro vytváření pomocí mlflow.register_model() rozhraní API. Pokud zaregistrovaný model strojového učení s daným názvem neexistuje, rozhraní API ho vytvoří automaticky.

import mlflow

model_uri = "runs:/{}/model-uri-name".format(run.info.run_id)
mv = mlflow.register_model(model_uri, "model-name")

print("Name: {}".format(mv.name))
print("Version: {}".format(mv.version))

Správa verzí v rámci modelu strojového učení

Model strojového učení obsahuje kolekci verzí modelu pro zjednodušené sledování a porovnání. V rámci modelu může datový vědec procházet různé verze modelu a zkoumat základní parametry a metriky. Datoví vědci můžou také provádět porovnání mezi verzemi modelu, aby zjistili, jestli novější modely můžou přinést lepší výsledky.

Note

Díky podpoře MLflow 3 ve Fabric každý model, který zaznamenáte pomocí mlflow.<flavor>.log_model(model, name="..."), vytvoří entitu LoggedModel, která je propojená se zdrojovým během, parametry, metrikami, datovými sadami a prostředím. Model LoggedModel můžete otevřít ze stránky experimentu a zaregistrovat ho jako nový model strojového učení nebo jako novou verzi existujícího modelu. Podrobnosti najdete v článku MLflow 3 in Fabric Data Science.

Sledování modelů strojového učení

Verze modelu strojového učení představuje jednotlivý model, který je zaregistrovaný ke sledování.

Každá verze modelu obsahuje následující informace:

Vlastnictví	Description
Čas vytvoření	Datum a čas vytvoření modelu
Název spuštění	Identifikátor spuštění experimentu, který se používá k vytvoření této konkrétní verze modelu.
Hyperparametry	Uloženo jako páry klíčů a hodnot. Klíče i hodnoty jsou řetězce.
Metriky	Spusťte metriky uložené jako páry klíč-hodnota. Hodnota je číselná.
Schéma nebo podpis modelu	Popis vstupů a výstupů modelu.
Protokolované soubory	Zalogované soubory v jakémkoli formátu. Můžete například zaznamenávat obrázky, prostředí, modely a datové soubory.
Štítky	Vlastní metadata jako páry klíč-hodnota připojená k běhům. Naučte se používat značky.

Použití značek na modely strojového učení

Označování MLflow pro verze modelu umožňuje uživatelům připojit vlastní metadata ke konkrétním verzím registrovaného modelu v registru modelů MLflow. Tyto značky, uložené jako páry klíč-hodnota, pomáhají organizovat, sledovat a rozlišovat mezi verzemi modelu, což usnadňuje správu životního cyklu modelu. Značky se dají použít k označení účelu, prostředí nasazení modelu nebo jiných relevantních informací, což usnadňuje efektivnější správu modelů a rozhodování v rámci týmů.

Tento kód ukazuje, jak trénovat model RandomForestRegressor pomocí Scikit-learn, protokolovat model a parametry pomocí MLflow a pak zaregistrovat model v registru modelů MLflow s vlastními značkami. Tyto značky poskytují užitečná metadata, jako je název projektu, oddělení, tým a čtvrtletí projektu, což usnadňuje správu a sledování verze modelu.

import mlflow.sklearn
from mlflow.models import infer_signature
from sklearn.datasets import make_regression
from sklearn.ensemble import RandomForestRegressor

# Generate synthetic regression data
X, y = make_regression(n_features=4, n_informative=2, random_state=0, shuffle=False)

# Model parameters
params = {"n_estimators": 3, "random_state": 42}

# Model tags for MLflow
model_tags = {
    "project_name": "grocery-forecasting",
    "store_dept": "produce",
    "team": "stores-ml",
    "project_quarter": "Q3-2023"
}

# Log MLflow entities
with mlflow.start_run() as run:
    # Train the model
    model = RandomForestRegressor(**params).fit(X, y)
    
    # Infer the model signature
    signature = infer_signature(X, model.predict(X))
    
    # Log parameters and the model
    mlflow.log_params(params)
    mlflow.sklearn.log_model(model, artifact_path="sklearn-model", signature=signature)

# Register the model with tags
model_uri = f"runs:/{run.info.run_id}/sklearn-model"
model_version = mlflow.register_model(model_uri, "RandomForestRegressionModel", tags=model_tags)

# Output model registration details
print(f"Model Name: {model_version.name}")
print(f"Model Version: {model_version.version}")

Po použití značek je můžete zobrazit přímo na stránce s podrobnostmi o verzi modelu. Značky lze navíc kdykoli přidat, aktualizovat nebo odebrat z této stránky.

Porovnání a filtrování modelů strojového učení

Pokud chcete porovnat a vyhodnotit kvalitu verzí modelu strojového učení, můžete porovnat parametry, metriky a metadata mezi vybranými verzemi.

Vizuální porovnání modelů strojového učení

Můžete vizuálně porovnat spuštění v rámci existujícího modelu. Vizuální porovnání umožňuje snadnou navigaci a třídění mezi různými verzemi.

Pro porovnání běhů můžete:

Vyberte existující model strojového učení, který obsahuje více verzí.
Vyberte kartu Zobrazení a pak přejděte do zobrazení seznamu modelů . Můžete také vybrat možnost Zobrazit seznam modelů přímo ze zobrazení podrobností.
Sloupce v tabulce můžete přizpůsobit. Rozbalte podokno Přizpůsobit sloupce . Odtud můžete vybrat vlastnosti, metriky, značky a hyperparametry, které chcete zobrazit.
Nakonec můžete vybrat více verzí a porovnat jejich výsledky v podokně porovnání metrik. V tomto podokně můžete grafy přizpůsobit změnami názvu grafu, typu vizualizace, osy X, osy Y a dalších možností.

Porovnání modelů strojového učení pomocí rozhraní API MLflow

Datoví vědci mohou také použít MLflow k vyhledávání mezi několika modely uloženými v pracovním prostoru. Navštivte dokumentaci MLflow a prozkoumejte další rozhraní API pro interakci s modelem v MLflow.

from pprint import pprint
from mlflow import MlflowClient

client = MlflowClient()
for rm in client.search_registered_models():
    pprint(dict(rm), indent=4)

Použití modelů strojového učení

Jakmile model vytrénujete na sadě dat, můžete ho použít na data, která nikdy neviděla ke generování předpovědí. Tento model nazýváme metodou bodování nebo odvozování.

Fabric podporuje více přístupů pro použití natrénovaných modelů:

Dávkové vyhodnocování - použijte model ve velkém měřítku, napříč velkými datovými sadami pomocí Apache Sparku. To je ideální pro generování předpovědí pro historická nebo plánovaná data.
Bodování v reálném čase Nasaďte model do koncového bodu pro predikce na vyžádání, které jsou užitečné pro aplikace, které potřebují okamžité výsledky.

Pokud chcete začít s používáním modelů, zvolte přístup, který odpovídá vašemu scénáři:

Začínáme s dávkovým hodnocením

Nasazení modelů pro vyhodnocování v reálném čase

Sledujte experimenty s MLflow ve Fabric
Referenční informace k rozhraním API experimentů MLflow
Správa modelů MLflow napříč pracovními prostory a platformami
MLflow 3 ve Fabric Data Science

Váš názor

Byla tato stránka užitečná?

Last updated on 2026-06-04