Sdílet prostřednictvím


Koncepty dat ve službě Azure Machine Learning

Pomocí služby Azure Machine Learning můžete importovat data z místního počítače nebo z existujícího cloudového prostředku úložiště. Tento článek popisuje klíčové koncepty dat služby Azure Machine Learning.

Úložiště dat

Úložiště dat Azure Machine Learning slouží jako odkaz na existující účet úložiště Azure. Úložiště dat Azure Machine Learning nabízí tyto výhody:

  • Běžné snadno použitelné rozhraní API, které komunikuje s různými typy úložiště (Blob/Files/ADLS).
  • Snadnější zjišťování užitečných úložišť dat v týmových operacích.
  • Pro přístup na základě přihlašovacích údajů (instanční objekt/ SAS/klíč) zabezpečí úložiště dat Azure Machine Learning informace o připojení. Tímto způsobem nemusíte tyto informace zadávat do skriptů.

Při vytváření úložiště dat s existujícím účtem úložiště Azure máte dvě různé možnosti metody ověřování:

  • Na základě přihlašovacích údajů – ověřování přístupu k datům pomocí instančního objektu, tokenu sdíleného přístupového podpisu (SAS) nebo klíče účtu Uživatelé s přístupem k pracovnímu prostoru Čtenář mají přístup k přihlašovacím údajům.
  • Na základě identity – k ověření přístupu k datům použijte identitu Microsoft Entra nebo spravovanou identitu.

Tato tabulka shrnuje cloudové služby úložiště Azure, které může úložiště dat Azure Machine Learning vytvořit. Kromě toho tabulka shrnuje typy ověřování, které mají přístup k těmto službám:

Podporované služby úložiště Ověřování na základě přihlašovacích údajů Ověřování na základě identity
Kontejner objektů blob Azure
Sdílená složka Azure
Azure Data Lake Gen1
Azure Data Lake Gen2

Další informace o úložištích dat najdete v tématu Vytváření úložišť dat.

Výchozí úložiště dat

Každý pracovní prostor Azure Machine Learning má výchozí účet úložiště (účet úložiště Azure), který obsahuje tyto úložiště dat:

Tip

Pokud chcete najít ID vašeho pracovního prostoru, přejděte do pracovního prostoru na webu Azure Portal. Rozbalte položku Nastavení a pak vyberte Vlastnosti. Zobrazí se ID pracovního prostoru.

Název úložiště dat Typ datového úložiště Název úložiště dat Popis
workspaceblobstore Kontejner objektů blob azureml-blobstore-{workspace-id} Ukládá nahrávání dat, snímky kódu úlohy a mezipaměť dat kanálu.
workspaceworkingdirectory Sdílená složka code-{GUID} Ukládá data pro poznámkové bloky, výpočetní instance a tok výzvy.
workspacefilestore Sdílená složka azureml-filestore-{workspace-id} Alternativní kontejner pro nahrání dat
workspaceartifactstore Kontejner objektů blob azureml Úložiště pro prostředky, jako jsou metriky, modely a komponenty.

Datové typy

Identifikátor URI (umístění úložiště) může odkazovat na soubor, složku nebo tabulku dat. Definice vstupu a výstupu úlohy strojového učení vyžaduje jeden z těchto tří datových typů:

Typ V2 API V1 API Kanonické scénáře Rozdíl mezi rozhraním API V2 a V1
Soubor
Odkaz na jeden soubor
uri_file FileDataset Čtení a zápis jednoho souboru – soubor může mít libovolný formát. Typ nového rozhraní vůči API V2. V rozhraních API V1 se soubory vždy mapují na složku v cílovém systému souborů výpočetního prostředí; toto mapování vyžadovalo os.path.join. V rozhraních API V2 se namapuje jeden soubor. Tímto způsobem můžete odkazovat na toto umístění v kódu.
Složka
Odkaz na jednu složku
uri_folder FileDataset Do Pandas/Sparku musíte číst/zapisovat složku souborů parquet/CSV.

Hluboké učení s obrázky, textem, zvukem, videosoubory umístěnými ve složce.
V rozhraních API V1 měl FileDataset přidružený modul, který mohl ze složky brát ukázkový soubor. V rozhraních API V2 je složka jednoduchým mapováním na cílový systém souborů výpočetních prostředků.
Tabulka
Odkazování na tabulku dat
mltable TabularDataset Máte složité schéma, které podléhá častým změnám, nebo potřebujete podmnožinu velkých tabulkových dat.

AutoML s tabulkami
V rozhraních API uložil back-end služby Azure Machine Learning podrobný plán materializace dat. V důsledku toho fungovalo pouze v případě, TabularDataset že jste měli pracovní prostor Azure Machine Learning. mltable ukládá podrobný plán materializace dat do úložiště . Toto umístění úložiště znamená, že ho můžete použít odpojené ke službě Azure Machine Learning – například místně i místně. V rozhraních API V2 je jednodušší přejít z místního na vzdálené úlohy. Další informace najdete v tématu Práce s tabulkami ve službě Azure Machine Learning.

Identifikátor URI

Identifikátor URI (Uniform Resource Identifier) představuje umístění úložiště na místním počítači, úložišti Azure nebo veřejně dostupném umístění HTTP. Tyto příklady ukazují identifikátory URI pro různé možnosti úložiště:

Dočasné úložiště Příklady identifikátorů URI
Úložiště dat služby Azure Machine Learning azureml://datastores/<data_store_name>/paths/<folder1>/<folder2>/<folder3>/<file>.parquet
Místní počítač ./home/username/data/my_data
Veřejný server HTTP https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv
Blob Storage wasbs://<containername>@<accountname>.blob.core.windows.net/<folder>/
Azure Data Lake (Gen2) abfss://<file_system>@<account_name>.dfs.core.windows.net/<folder>/<file>.csv
Azure Data Lake (Gen1) adl://<accountname>.azuredatalakestore.net/<folder1>/<folder2>

Úloha Azure Machine Learning mapuje identifikátory URI do cílového systému souborů compute. Toto mapování znamená, že pro příkaz, který využívá nebo vytváří identifikátor URI, funguje jako soubor nebo složka. Identifikátor URI používá ověřování založené na identitách pro připojení ke službám úložiště s id Microsoft Entra (výchozí) nebo spravovanou identitou. Identifikátory URI úložiště dat služby Azure Machine Learning můžou používat ověřování na základě identity nebo ověřování na základě přihlašovacích údajů (například instanční objekt, token SAS, klíč účtu) bez vystavení tajných kódů.

Identifikátor URI může sloužit jako vstup nebo výstup úlohy Azure Machine Learning a může se mapovat na cílový systém výpočetních souborů s jednou ze čtyř různých možností režimu:

  • Připojení jen pro čtení (ro_mount): Identifikátor URI představuje umístění úložiště připojené k cílovému systému souborů výpočetních prostředků. Připojené umístění dat výhradně podporuje výstup jen pro čtení.
  • Připojení pro čtení i zápis (): Identifikátor URI představuje umístění úložiště připojené k cílovému systému souborů výpočetních prostředků.rw_mount Připojené umístění dat podporuje výstup pro čtení i zápis dat do něj.
  • Download (download): Identifikátor URI představuje umístění úložiště obsahující data stažená do cílového systému souborů výpočetních prostředků.
  • Nahrání (upload): Všechna data zapsaná do cílového umístění výpočetních prostředků se nahrají do umístění úložiště reprezentované identifikátorem URI.

Kromě toho můžete identifikátor URI předat jako vstupní řetězec úlohy pomocí přímého režimu. Tato tabulka shrnuje kombinaci režimů dostupných pro vstupy a výstupy:

Úloha
Vstup nebo výstup
upload download ro_mount rw_mount direct
Vstup
Výstup

Další informace najdete v accessových datech v úloze.

Funkce modulu runtime dat

Azure Machine Learning používá vlastní modul runtime dat pro jeden ze tří účelů:

  • pro připojení, nahrávání a stahování
  • mapování identifikátorů URI úložiště na cílový systém souborů výpočetních prostředků
  • materializace tabulkových dat do knihovny pandas/spark pomocí tabulek Azure Machine Learning (mltable)

Modul runtime dat Služby Azure Machine Learning je navržený pro úlohy strojového učení s vysokou rychlostí a vysokou efektivitou . Nabízí tyto klíčové výhody:

  • Architektura jazyka Rust . Jazyk Rust je známý pro vysokou rychlost a vysokou efektivitu paměti.
  • Lehká hmotnost; Modul runtime dat Azure Machine Learning nemá žádné závislosti na jiných technologiích – JVM, takže modul runtime se rychle nainstaluje na cílové výpočetní objekty.
  • Načítání více procesů (paralelních) dat
  • Předběžné načtení dat funguje jako úloha na pozadí procesorů, aby se zvýšilo využití GPU v operacích hlubokého učení.
  • Bezproblémové ověřování do cloudového úložiště

Datový asset

Datový prostředek služby Azure Machine Learning se podobá záložkám webového prohlížeče (oblíbené položky). Místo zapamatování dlouhých cest úložiště (URI), které odkazují na nejčastěji používaná data, můžete vytvořit datový prostředek a pak k ho získat přístup popisným názvem.

Vytvoření datového assetu také vytvoří odkaz na umístění zdroje dat spolu s kopií jeho metadat. Vzhledem k tomu, že data zůstávají v existujícím umístění, neúčtují se vám žádné další náklady na úložiště a neriskujete integritu zdroje dat. Datové prostředky můžete vytvářet z úložišť dat služby Azure Machine Learning, Azure Storage, veřejných adres URL nebo místních souborů.

Další informace o datových prostředcích najdete v tématu Vytvoření datových prostředků.

Další kroky