Data ve službě Azure Machine Learning v1

Článek
06/01/2023

PLATÍ PRO:Sada Python SDK azureml v1

Azure Machine Learning usnadňuje připojení k datům v cloudu. Poskytuje vrstvu abstrakce nad podkladovou službou úložiště, takže můžete bezpečně přistupovat k datům a pracovat s daty, aniž byste museli psát kód specifický pro váš typ úložiště. Azure Machine Learning také poskytuje následující možnosti dat:

Interoperabilita s pandasem a datovými rámci Sparku
Správa verzí a sledování rodokmenu dat
Popisování dat
Monitorování odchylek dat

Pracovní postup dat

Až budete připraveni používat data v cloudovém řešení úložiště, doporučujeme následující pracovní postup doručování dat. Tento pracovní postup předpokládá, že máte účet úložiště Azure a data v cloudové službě úložiště v Azure.

Vytvořte úložiště dat Azure Machine Learning pro ukládání informací o připojení k úložišti Azure.
V tomto úložišti dat vytvořte datovou sadu Azure Machine Learning , která bude odkazovat na konkrétní soubory v podkladovém úložišti.
Pokud chcete tuto datovou sadu použít v experimentu strojového učení, můžete buď
- Připojte ho k cílovému výpočetnímu objektu experimentu pro trénování modelu.
  
  OR
- Využijte ho přímo v řešeních Azure Machine Learning, jako jsou spuštění experimentů automatizovaného strojového učení (automatizované strojové učení), kanály strojového učení nebo návrhář Azure Machine Learning.
Vytvořte monitorování datových sad pro výstupní datovou sadu modelu, abyste zjistili posun dat.
Pokud zjistíte posun dat, aktualizujte vstupní datovou sadu a odpovídajícím způsobem model znovu natrénujte.

Následující diagram obsahuje vizuální ukázku tohoto doporučeného pracovního postupu.

Diagram znázorňuje službu Azure Storage, která proudí do úložiště dat, které tokuje do datové sady.

Připojení k úložišti pomocí úložišť dat

Úložiště dat Azure Machine Learning bezpečně uchovávají informace o připojení k vašemu úložišti dat v Azure, takže je nemusíte kódovat ve skriptech. Zaregistrujte a vytvořte úložiště dat pro snadné připojení k účtu úložiště a přístup k datům v podkladové službě úložiště.

Podporované služby cloudového úložiště v Azure, které je možné zaregistrovat jako úložiště dat:

Kontejner objektů blob Azure
Sdílená složka Azure
Azure Data Lake
Azure Data Lake Gen2
Azure SQL Database
Azure Database for PostgreSQL
Systém souborů Databricks
Azure Database for MySQL

Tip

Úložiště dat můžete vytvořit s ověřováním na základě přihlašovacích údajů pro přístup ke službám úložiště, jako je instanční objekt nebo token sdíleného přístupového podpisu (SAS). K těmto přihlašovacím údajům mají přístup uživatelé, kteří k pracovnímu prostoru mají přístup čtenáře.

Pokud se jedná o problém, vytvořte úložiště dat, které používá přístup k datům založeným na identitách pro připojení ke službám úložiště.

Odkazovat na data v úložišti pomocí datových sad

Datové sady Azure Machine Learning nejsou kopiemi vašich dat. Vytvořením datové sady vytvoříte odkaz na data v její službě úložiště spolu s kopií jejích metadat.

Vzhledem k tomu, že se datové sady líně vyhodnocují a data zůstávají ve stávajícím umístění, můžete

Neúčtují se žádné další náklady na úložiště.
Neriskujte neúmyslnou změnou původních zdrojů dat.
Zvyšte rychlost výkonu pracovního postupu ML.

Pokud chcete pracovat s daty v úložišti, vytvořte datovou sadu , která data zabalí do využitelného objektu pro úlohy strojového učení. Zaregistrujte datovou sadu do pracovního prostoru, abyste ji mohli sdílet a opakovaně používat v různých experimentech bez složitosti příjmu dat.

Datové sady je možné vytvářet z místních souborů, veřejných adres URL, datových sad Azure Open Datasets nebo služeb úložiště Azure prostřednictvím úložišť dat.

Existují 2 typy datových sad:

Sada FileDataset odkazuje na jeden nebo více souborů ve vašich úložištích dat nebo veřejných adresách URL. Pokud jsou vaše data už vyčištěná a připravená k použití v trénovacích experimentech, můžete stáhnout nebo připojit soubory , na které fileDatasets odkazují, k cílovému výpočetnímu objektu.
A TabularDataset představuje data v tabulkovém formátu parsováním poskytnutého souboru nebo seznamu souborů. Tabulkovýdataset můžete načíst do datového rámce pandas nebo Spark pro další manipulaci a čištění. Úplný seznam datových formátů, ze které můžete vytvořit TabularDataset, najdete ve třídě TabularDatasetFactory.

Další možnosti datových sad najdete v následující dokumentaci:

Verze a sledování rodokmenu datové sady.
Monitorování datové sady vám pomůže s detekcí posunu dat.

Práce s daty

S datovými sadami můžete provádět řadu úloh strojového učení prostřednictvím bezproblémové integrace s funkcemi služby Azure Machine Learning.

Vytvořte projekt popisování dat.
Trénování modelů strojového učení:
Přístup k datovým sadám pro vyhodnocování pomocí dávkového odvozování v kanálech strojového učení
Nastavte monitorování datové sady pro detekci posunu dat .

Popisování dat pomocí projektů popisování dat

Označování velkých objemů dat je často v projektech strojového učení problémem. Ty s komponentou počítačového zpracování obrazu, jako je klasifikace obrázků nebo detekce objektů, obvykle vyžadují tisíce obrázků a odpovídajících popisků.

Azure Machine Learning poskytuje centrální umístění pro vytváření, správu a monitorování projektů popisování. Projekty označování pomáhají koordinovat data, popisky a členy týmu, což vám umožní efektivněji spravovat úkoly popisování. Aktuálně podporované úlohy jsou klasifikace obrázků, buď s více popisky nebo více třídami, a identifikace objektů pomocí ohraničených polí.

Vytvořte projekt označování obrázků nebo projekt popisování textu a vypište datovou sadu pro použití v experimentech se strojovým učením.

Monitorování výkonu modelu s posunem dat

V kontextu strojového učení je posun dat změnou vstupních dat modelu, která vede ke snížení výkonu modelu. Je to jeden z hlavních důvodů, proč se přesnost modelu v průběhu času snižuje, a proto monitorování posunu dat pomáhá detekovat problémy s výkonem modelu.

Další informace o tom, jak zjistit posun dat u nových dat v datové sadě a upozorňovat na to, najdete v článku Věnovaném monitorování datové sady vytvoření datové sady.

Další kroky

Pomocí těchto kroků vytvořte datovou sadu v studio Azure Machine Learning nebo pomocí sady Python SDK.
Vyzkoušejte příklady trénování datových sad s našimi ukázkovými poznámkovými bloky.