Kurz: Trénování modelu strojového učení bez kódu (zastaralé)

Článek
03/12/2024

Data v tabulkách Sparku můžete rozšířit o nové modely strojového učení, které natrénujete pomocí automatizovaného strojového učení. Ve službě Azure Synapse Analytics můžete v pracovním prostoru vybrat tabulku Sparku, která se použije jako trénovací datová sada pro vytváření modelů strojového učení, a to v prostředí bez kódu.

V tomto kurzu se naučíte trénovat modely strojového učení pomocí prostředí bez kódu v nástroji Synapse Studio. Synapse Studio je funkce Azure Synapse Analytics.

Místo ručního kódování prostředí použijete automatizované strojové učení ve službě Azure Machine Učení. Typ modelu, který natrénujete, závisí na problému, který se pokoušíte vyřešit. V tomto kurzu použijete regresní model k predikci jízdného taxíku z datové sady taxislužby v New Yorku.

Pokud ještě nemáte předplatné Azure, vytvořte si napřed bezplatný účet.

Upozorňující

Od 29. září 2023 ukončí Azure Synapse oficiální podporu pro moduly Runtime Sparku 2.4. Po 29. září 2023 nebudeme řešit žádné lístky podpory související se Sparkem 2.4. Pro chyby nebo opravy zabezpečení pro Spark 2.4 nebude zaveden žádný kanál verze. Využití Sparku 2.4 po datu ukončení podpory se provádí na vlastním riziku. Důrazně nedoporučujeme jeho trvalé používání kvůli potenciálním obavám o zabezpečení a funkčnost.
V rámci procesu vyřazení Apache Sparku 2.4 bychom vás chtěli upozornit, že AutoML ve službě Azure Synapse Analytics bude také zastaralé. To zahrnuje rozhraní s nízkým kódem i rozhraní API používaná k vytváření zkušebních verzí AutoML prostřednictvím kódu.
Mějte na paměti, že funkce AutoML byla výhradně dostupná prostřednictvím modulu runtime Spark 2.4.
Zákazníkům, kteří chtějí dál využívat funkce AutoML, doporučujeme ukládat data do účtu Azure Data Lake Storage Gen2 (ADLSg2). Odtud můžete bez problémů přistupovat k prostředí AutoML prostřednictvím služby Azure Machine Učení (AzureML). Další informace týkající se tohoto alternativního řešení najdete tady.

Požadavky

Pracovní prostor Azure Synapse Analytics Ujistěte se, že má účet úložiště Azure Data Lake Storage Gen2 nakonfigurovaný jako výchozí úložiště. V systému souborů Data Lake Storage Gen2, se kterým pracujete, se ujistěte, že jste přispěvatelem dat objektů blob služby Storage.
Fond Apache Sparku (verze 2.4) ve vašem pracovním prostoru Azure Synapse Analytics Podrobnosti najdete v tématu Rychlý start: Vytvoření bezserverového fondu Apache Spark pomocí nástroje Synapse Studio.
Propojená služba Azure Machine Učení v pracovním prostoru Azure Synapse Analytics. Podrobnosti najdete v tématu Rychlý start: Vytvoření nové propojené služby Azure Machine Učení ve službě Azure Synapse Analytics.

Přihlaste se k portálu Azure.

Vytvoření tabulky Sparku pro trénovací datovou sadu

Pro účely tohoto kurzu potřebujete tabulku Sparku. Následující poznámkový blok vytvoří:

Stáhněte si poznámkový blok Create-Spark-Table-NYCTaxi- Data.ipynb.
Importujte poznámkový blok do nástroje Synapse Studio.
Vyberte fond Sparku, který chcete použít, a pak vyberte Spustit vše. Tento krok získá data taxislužby New Yorku z otevřené datové sady a uloží data do výchozí databáze Spark.
Po dokončení spuštění poznámkového bloku se pod výchozí databází Spark zobrazí nová tabulka Sparku. V části Data vyhledejte tabulku s názvem nyc_taxi.

Otevření průvodce automatizovaným strojovém učením

Průvodce otevřete tak, že kliknete pravým tlačítkem na tabulku Sparku, kterou jste vytvořili v předchozím kroku. Pak vyberte Machine Učení> Trénování nového modelu.

Snímek obrazovky tabulky Spark se zvýrazněnou možností Machine Učení a Train a new model train

Zvolte typ modelu

Na základě otázky, na kterou se pokoušíte odpovědět, vyberte typ modelu strojového učení pro experiment. Vzhledem k tomu, že hodnota, kterou chcete predikovat, je číselná (jízdná taxíkem), vyberte zde regresi . Potom vyberte Pokračovat.

Snímek obrazovky s možností Trénovat nový model se zvýrazněnou regresí

Konfigurace experimentu

Zadejte podrobnosti konfigurace pro vytvoření experimentu automatizovaného strojového učení spuštěného ve službě Azure Machine Učení. Tento běh trénuje více modelů. Nejlepší model z úspěšného spuštění je zaregistrovaný v registru modelů azure machine Učení.
- Pracovní prostor Učení Azure: Pro vytvoření spuštění experimentu automatizovaného strojového učení se vyžaduje pracovní prostor Učení Azure. Musíte také propojit pracovní prostor Azure Synapse Analytics s pracovním prostorem azure machine Učení pomocí propojené služby. Po splnění všech požadavků můžete zadat pracovní prostor Azure Machine Učení, který chcete pro toto automatizované spuštění použít.
- Název experimentu: Zadejte název experimentu. Když odešlete spuštění automatizovaného strojového učení, zadáte název experimentu. Informace o spuštění se ukládají v rámci daného experimentu v pracovním prostoru Azure Machine Učení. Toto prostředí ve výchozím nastavení vytvoří nový experiment a vygeneruje navrhovaný název, ale můžete také zadat název existujícího experimentu.
- Nejlepší název modelu: Zadejte název nejlepšího modelu z automatizovaného spuštění. Nejlepší model má tento název a uloží se do registru modelů Azure Machine Učení automaticky po tomto spuštění. Spuštění automatizovaného strojového učení vytváří mnoho modelů strojového učení. Na základě primární metriky, kterou vyberete v pozdějším kroku, je možné tyto modely porovnat a vybrat nejlepší model.
- Cílový sloupec: Model se natrénuje tak, aby předpověděl. Vyberte sloupec v datové sadě obsahující data, která chcete předpovědět. Pro účely tohoto kurzu vyberte číselný sloupec fareAmount jako cílový sloupec.
- Fond Spark: Zadejte fond Sparku, který chcete použít pro spuštění automatizovaného experimentu. Výpočty se spouští ve vámi zadaném fondu.
- Podrobnosti konfigurace Sparku: Kromě fondu Sparku máte možnost zadat podrobnosti o konfiguraci relace.
Zvolte Pokračovat.

Konfigurace modelu

Vzhledem k tomu, že jste jako typ modelu v předchozí části vybrali Regresi, jsou k dispozici následující konfigurace (jsou k dispozici také pro typ klasifikačního modelu):

Primární metrika: Zadejte metriku, která měří, jak dobře model dělá. Pomocí této metriky můžete porovnat různé modely vytvořené v automatizovaném spuštění a určit, který model fungoval nejlépe.
Doba trénování úlohy (hodiny):: Zadejte maximální dobu v hodinách, po kterou má experiment spouštět a trénovat modely. Všimněte si, že můžete také zadat hodnoty menší než 1 (například 0,5).
Maximální počet souběžných iterací: Zvolte maximální počet iterací, které běží paralelně.
Kompatibilita modelů ONNX: Pokud tuto možnost povolíte, modely natrénované automatizovaným strojovém učení se převedou do formátu ONNX. To je zvlášť důležité, pokud chcete použít model pro bodování ve fondech SQL služby Azure Synapse Analytics.

Všechna tato nastavení mají výchozí hodnotu, kterou můžete přizpůsobit.

Snímek obrazovky s dalšími konfiguracemi pro konfiguraci regresního modelu

Spuštění

Po dokončení všech požadovaných konfigurací můžete spustit automatizované spuštění. Spuštění můžete vytvořit přímo výběrem možnosti Vytvořit spuštění – tím se spustí bez kódu. Pokud dáváte přednost kódu, můžete vybrat Otevřít v poznámkovém bloku – tím se otevře poznámkový blok obsahující kód, který vytvoří spuštění, abyste mohli kód zobrazit a spustit sami.

Snímek obrazovky s možnostmi Vytvořit spuštění nebo Otevřít v poznámkovém bloku

Poznámka:

Pokud jste jako typ modelu v předchozí části vybrali prognózování časových řad, musíte provést další konfigurace. Prognózování také nepodporuje kompatibilitu modelu ONNX.

Vytvoření spuštění přímo

Pokud chcete spustit automatizované strojové učení přímo, vyberte Vytvořit spuštění. Zobrazí se oznámení, které indikuje, že spuštění začíná. Pak se zobrazí další oznámení, které indikuje úspěch. Stav ve službě Azure Machine Učení můžete také zkontrolovat tak, že v oznámení vyberete odkaz.

Snímek obrazovky s úspěšným oznámením

Vytvoření spuštění s poznámkovým blokem

Pokud chcete vygenerovat poznámkový blok, vyberte Otevřít v poznámkovém bloku. Díky tomu můžete přidat nastavení nebo jinak upravit kód pro spuštění automatizovaného strojového učení. Až budete připraveni spustit kód, vyberte Spustit vše.

Snímek obrazovky s poznámkovým blokem se zvýrazněnou možností Spustit vše

Monitorování spuštění

Po úspěšném odeslání spuštění se ve výstupu poznámkového bloku zobrazí odkaz na spuštění experimentu v pracovním prostoru Azure Machine Učení. Vyberte odkaz pro monitorování automatizovaného spuštění ve službě Azure Machine Učení.

Snímek obrazovky se službou Azure Synapse Analytics se zvýrazněným odkazem

Sdílet prostřednictvím

Kurz: Trénování modelu strojového učení bez kódu (zastaralé)

Požadavky

Vytvoření tabulky Sparku pro trénovací datovou sadu

Otevření průvodce automatizovaným strojovém učením

Zvolte typ modelu

Konfigurace experimentu

Konfigurace modelu

Spuštění

Vytvoření spuštění přímo

Vytvoření spuštění s poznámkovým blokem

Monitorování spuštění

Další kroky

Váš názor

Váš názor

Další materiály

Sdílet prostřednictvím

Kurz: Trénování modelu strojového učení bez kódu (zastaralé)

Požadavky

Přihlaste se k portálu Azure Portal.

Vytvoření tabulky Sparku pro trénovací datovou sadu

Otevření průvodce automatizovaným strojovém učením

Zvolte typ modelu

Konfigurace experimentu

Konfigurace modelu

Spuštění

Vytvoření spuštění přímo

Vytvoření spuštění s poznámkovým blokem

Monitorování spuštění

Další kroky

Váš názor

Váš názor

Další materiály