Koncepty dat ve službě Azure Machine Učení

Pomocí služby Azure Machine Učení můžete importovat data z místního počítače nebo z existujícího cloudového prostředku úložiště. Tento článek popisuje klíčové koncepty dat služby Azure Machine Učení.

Úložiště dat

Úložiště dat azure machine Učení slouží jako odkaz na existující účet úložiště Azure. Úložiště dat azure machine Učení nabízí tyto výhody:

  • Běžné snadno použitelné rozhraní API, které komunikuje s různými typy úložiště (Blob/Files/ADLS).
  • Snadnější zjišťování užitečných úložišť dat v týmových operacích.
  • Pro přístup na základě přihlašovacích údajů (instanční objekt/ SAS/klíč) Azure Machine Učení datastore zabezpečuje informace o připojení. Tímto způsobem nebudete muset tyto informace umístit do skriptů.

Když vytvoříte úložiště dat s existujícím účtem úložiště Azure, můžete si vybrat mezi dvěma různými metodami ověřování:

  • Na základě přihlašovacích údajů – ověřování přístupu k datům pomocí instančního objektu, tokenu sdíleného přístupového podpisu (SAS) nebo klíče účtu Uživatelé s přístupem k pracovnímu prostoru Čtenář mají přístup k přihlašovacím údajům.
  • Na základě identity – k ověření přístupu k datům použijte identitu Microsoft Entra nebo spravovanou identitu.

Následující tabulka shrnuje cloudové služby úložiště Azure, které může vytvořit azure machine Učení úložiště dat. Kromě toho tabulka shrnuje typy ověřování, které mají přístup k těmto službám:

Podporované služby úložiště Ověřování na základě přihlašovacích údajů Ověřování na základě identity
Kontejner objektů blob Azure
Sdílená složka Azure
Azure Data Lake Gen1
Azure Data Lake Gen2

Další informace o úložištích dat najdete v tématu Vytváření úložišť dat.

Výchozí úložiště dat

Každý pracovní prostor azure machine Učení má výchozí účet úložiště (účet úložiště Azure), který obsahuje následující úložiště dat:

Tip

Pokud chcete najít ID vašeho pracovního prostoru, přejděte do pracovního prostoru na webu Azure Portal. Rozbalte Nastavení a pak vyberte Vlastnosti. Zobrazí se ID pracovního prostoru.

Název úložiště dat Typ datového úložiště Název úložiště dat Popis
workspaceblobstore Kontejner objektů blob azureml-blobstore-{workspace-id} Ukládá nahrávání dat, snímky kódu úlohy a mezipaměť dat kanálu.
workspaceworkingdirectory Sdílená složka code-{GUID} Ukládá data pro poznámkové bloky, výpočetní instance a tok výzvy.
workspacefilestore Sdílená složka azureml-filestore-{workspace-id} Alternativní kontejner pro nahrání dat
workspaceartifactstore Kontejner objektů blob azureml Úložiště pro prostředky, jako jsou metriky, modely a komponenty.

Datové typy

Identifikátor URI (umístění úložiště) může odkazovat na soubor, složku nebo tabulku dat. Definice vstupu a výstupu úlohy strojového učení vyžaduje jeden z následujících tří datových typů:

Typ V2 API V1 API Kanonické scénáře Rozdíl rozhraní API V2/V1
Soubor
Odkaz na jeden soubor
uri_file FileDataset Čtení a zápis jednoho souboru – soubor může mít libovolný formát. Typ nového rozhraní API V2 V rozhraních API V1 se soubory vždy mapují na složku v cílovém systému souborů výpočetních prostředků; toto mapování vyžadovalo .os.path.join V rozhraních API V2 se namapuje jeden soubor. Tímto způsobem můžete odkazovat na toto umístění v kódu.
Složka
Odkaz na jednu složku
uri_folder FileDataset Do Pandas/Sparku musíte číst/zapisovat složku souborů parquet/CSV.

Hluboké učení s obrázky, textem, zvukem, videosoubory umístěnými ve složce
V rozhraních API V1 měl přidružený modul, FileDataset který by mohl ze složky vzít ukázkový soubor. V rozhraních API V2 je složka jednoduchým mapováním na cílový systém souborů výpočetních prostředků.
Tabulka
Odkazování na tabulku dat
mltable TabularDataset Máte složité schéma, které podléhá častým změnám, nebo potřebujete podmnožinu velkých tabulkových dat.

AutoML s tabulkami
V rozhraních API v1 služba Azure Machine Učení back-end uložila podrobný plán materializace dat. V důsledku toho fungovalo pouze v případě, TabularDataset že jste měli pracovní prostor Učení Azure Machine. mltable ukládá podrobný plán materializace dat do úložiště . Toto umístění úložiště znamená, že ho můžete použít odpojené k AzureML – například místně i místně. V rozhraních API V2 zjistíte, že přechod z místního prostředí na vzdálené úlohy je jednodušší. Další informace najdete v tématu Práce s tabulkami ve službě Azure Machine Učení.

Identifikátor URI

Identifikátor URI (Uniform Resource Identifier) představuje umístění úložiště na místním počítači, úložišti Azure nebo veřejně dostupném umístění HTTP. Tyto příklady ukazují identifikátory URI pro různé možnosti úložiště:

Umístění úložiště Příklady identifikátorů URI
Azure Machine Učení Datastore azureml://datastores/<data_store_name>/paths/<folder1>/<folder2>/<folder3>/<file>.parquet
Místní počítač ./home/username/data/my_data
Veřejný server HTTP https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv
Blob Storage wasbs://<containername>@<accountname>.blob.core.windows.net/<folder>/
Azure Data Lake (Gen2) abfss://<file_system>@<account_name>.dfs.core.windows.net/<folder>/<file>.csv
Azure Data Lake (Gen1) adl://<accountname>.azuredatalakestore.net/<folder1>/<folder2>

Úloha Učení Azure mapuje identifikátory URI na cílový systém souborů výpočetních prostředků. Toto mapování znamená, že v příkazu, který využívá nebo vytváří identifikátor URI, funguje jako soubor nebo složka. Identifikátor URI používá ověřování založené na identitě pro připojení ke službám úložiště s id Microsoft Entra (výchozí) nebo spravovanou identitou. Azure Machine Učení Identifikátory URI úložiště dat můžou používat ověřování na základě identity nebo přihlašovací údaje (například instanční objekt, token SAS, klíč účtu) bez vystavení tajných kódů.

Identifikátor URI může sloužit jako vstup nebo výstup úlohy Učení počítače Azure a může se mapovat na cílový systém výpočetních souborů s jednou ze čtyř různých možností režimu:

  • Připojení jen pro čtení (ro_mount): Identifikátor URI představuje umístění úložiště připojené k cílovému systému souborů výpočetních prostředků. Připojené umístění dat podporuje výhradně výstup jen pro čtení.
  • Připojení pro čtení i zápis (): Identifikátor URI představuje umístění úložiště připojenék cílovému systému souborů výpočetních prostředků.rw_mount Připojené umístění dat podporuje výstup pro čtení i zápis dat do něj.
  • Download (download): Identifikátor URI představuje umístění úložiště obsahující data stažená do cílového systému souborů výpočetních prostředků.
  • Nahrání (upload): Všechna data zapsaná do cílového umístění výpočetních prostředků se nahrají do umístění úložiště reprezentované identifikátorem URI.

Kromě toho můžete identifikátor URI předat jako vstupní řetězec úlohy pomocí přímého režimu. Tato tabulka shrnuje kombinaci režimů dostupných pro vstupy a výstupy:

Úloha
Vstup nebo výstup
upload download ro_mount rw_mount direct
Vstup
Výstup

Další informace najdete v accessových datech v úloze .

Funkce modulu runtime dat

Azure Machine Učení používá vlastní modul runtime dat pro jeden ze tří účelů:

  • pro připojení, nahrávání a stahování
  • mapování identifikátorů URI úložiště na cílový systém souborů výpočetních prostředků
  • materializace tabulkových dat do knihovny pandas/Spark pomocí tabulek azure Machine Učení (mltable)

Modul runtime dat Azure Machine Učení je navržený pro úlohy strojového učení s vysokou rychlostí a vysokou efektivitou. Nabízí tyto klíčové výhody:

  • Architektura jazyka Rust . Jazyk Rust je známý pro vysokou rychlost a vysokou efektivitu paměti.
  • Lehká hmotnost; Azure Machine Učení data runtime nemá žádné závislosti na jiných technologiích – JVM, takže modul runtime se rychle nainstaluje na cílové výpočetní objekty.
  • Načítání více procesů (paralelních) dat
  • Předběžné načtení dat funguje jako úloha na pozadí procesorů, aby se zvýšilo využití GPU v operacích hlubokého učení.
  • Bezproblémové ověřování do cloudového úložiště

Datový asset

Datový prostředek azure machine Učení se podobá záložkám webového prohlížeče (oblíbené položky). Místo zapamatování dlouhých cest úložiště (URI), které odkazují na nejčastěji používaná data, můžete vytvořit datový prostředek a pak k ho získat přístup popisným názvem.

Vytvoření datového assetu také vytvoří odkaz na umístění zdroje dat spolu s kopií jeho metadat. Vzhledem k tomu, že data zůstávají v existujícím umístění, neúčtují se vám žádné další náklady na úložiště a neriskujete integritu zdroje dat. Datové prostředky můžete vytvářet ze služby Azure Machine Učení úložištích dat, Azure Storage, veřejných adres URL nebo místních souborů.

Další informace o datových prostředcích najdete v tématu Vytváření datových assetů.

Další kroky