Koncepty dat ve službě Azure Machine Učení
Pomocí služby Azure Machine Učení můžete importovat data z místního počítače nebo z existujícího cloudového prostředku úložiště. Tento článek popisuje klíčové koncepty dat služby Azure Machine Učení.
Úložiště dat
Úložiště dat azure machine Učení slouží jako odkaz na existující účet úložiště Azure. Úložiště dat azure machine Učení nabízí tyto výhody:
- Běžné snadno použitelné rozhraní API, které komunikuje s různými typy úložiště (Blob/Files/ADLS).
- Snadnější zjišťování užitečných úložišť dat v týmových operacích.
- Pro přístup na základě přihlašovacích údajů (instanční objekt/ SAS/klíč) Azure Machine Učení datastore zabezpečuje informace o připojení. Tímto způsobem nebudete muset tyto informace umístit do skriptů.
Když vytvoříte úložiště dat s existujícím účtem úložiště Azure, můžete si vybrat mezi dvěma různými metodami ověřování:
- Na základě přihlašovacích údajů – ověřování přístupu k datům pomocí instančního objektu, tokenu sdíleného přístupového podpisu (SAS) nebo klíče účtu Uživatelé s přístupem k pracovnímu prostoru Čtenář mají přístup k přihlašovacím údajům.
- Na základě identity – k ověření přístupu k datům použijte identitu Microsoft Entra nebo spravovanou identitu.
Následující tabulka shrnuje cloudové služby úložiště Azure, které může vytvořit azure machine Učení úložiště dat. Kromě toho tabulka shrnuje typy ověřování, které mají přístup k těmto službám:
Podporované služby úložiště | Ověřování na základě přihlašovacích údajů | Ověřování na základě identity |
---|---|---|
Kontejner objektů blob Azure | ✓ | ✓ |
Sdílená složka Azure | ✓ | |
Azure Data Lake Gen1 | ✓ | ✓ |
Azure Data Lake Gen2 | ✓ | ✓ |
Další informace o úložištích dat najdete v tématu Vytváření úložišť dat.
Výchozí úložiště dat
Každý pracovní prostor azure machine Učení má výchozí účet úložiště (účet úložiště Azure), který obsahuje následující úložiště dat:
Tip
Pokud chcete najít ID vašeho pracovního prostoru, přejděte do pracovního prostoru na webu Azure Portal. Rozbalte Nastavení a pak vyberte Vlastnosti. Zobrazí se ID pracovního prostoru.
Název úložiště dat | Typ datového úložiště | Název úložiště dat | Popis |
---|---|---|---|
workspaceblobstore |
Kontejner objektů blob | azureml-blobstore-{workspace-id} |
Ukládá nahrávání dat, snímky kódu úlohy a mezipaměť dat kanálu. |
workspaceworkingdirectory |
Sdílená složka | code-{GUID} |
Ukládá data pro poznámkové bloky, výpočetní instance a tok výzvy. |
workspacefilestore |
Sdílená složka | azureml-filestore-{workspace-id} |
Alternativní kontejner pro nahrání dat |
workspaceartifactstore |
Kontejner objektů blob | azureml |
Úložiště pro prostředky, jako jsou metriky, modely a komponenty. |
Datové typy
Identifikátor URI (umístění úložiště) může odkazovat na soubor, složku nebo tabulku dat. Definice vstupu a výstupu úlohy strojového učení vyžaduje jeden z následujících tří datových typů:
Typ | V2 API | V1 API | Kanonické scénáře | Rozdíl rozhraní API V2/V1 |
---|---|---|---|---|
Soubor Odkaz na jeden soubor |
uri_file |
FileDataset |
Čtení a zápis jednoho souboru – soubor může mít libovolný formát. | Typ nového rozhraní API V2 V rozhraních API V1 se soubory vždy mapují na složku v cílovém systému souborů výpočetních prostředků; toto mapování vyžadovalo .os.path.join V rozhraních API V2 se namapuje jeden soubor. Tímto způsobem můžete odkazovat na toto umístění v kódu. |
Složka Odkaz na jednu složku |
uri_folder |
FileDataset |
Do Pandas/Sparku musíte číst/zapisovat složku souborů parquet/CSV. Hluboké učení s obrázky, textem, zvukem, videosoubory umístěnými ve složce |
V rozhraních API V1 měl přidružený modul, FileDataset který by mohl ze složky vzít ukázkový soubor. V rozhraních API V2 je složka jednoduchým mapováním na cílový systém souborů výpočetních prostředků. |
Tabulka Odkazování na tabulku dat |
mltable |
TabularDataset |
Máte složité schéma, které podléhá častým změnám, nebo potřebujete podmnožinu velkých tabulkových dat. AutoML s tabulkami |
V rozhraních API v1 služba Azure Machine Učení back-end uložila podrobný plán materializace dat. V důsledku toho fungovalo pouze v případě, TabularDataset že jste měli pracovní prostor Učení Azure Machine. mltable ukládá podrobný plán materializace dat do úložiště . Toto umístění úložiště znamená, že ho můžete použít odpojené k AzureML – například místně i místně. V rozhraních API V2 zjistíte, že přechod z místního prostředí na vzdálené úlohy je jednodušší. Další informace najdete v tématu Práce s tabulkami ve službě Azure Machine Učení. |
Identifikátor URI
Identifikátor URI (Uniform Resource Identifier) představuje umístění úložiště na místním počítači, úložišti Azure nebo veřejně dostupném umístění HTTP. Tyto příklady ukazují identifikátory URI pro různé možnosti úložiště:
Umístění úložiště | Příklady identifikátorů URI |
---|---|
Azure Machine Učení Datastore | azureml://datastores/<data_store_name>/paths/<folder1>/<folder2>/<folder3>/<file>.parquet |
Místní počítač | ./home/username/data/my_data |
Veřejný server HTTP | https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv |
Blob Storage | wasbs://<containername>@<accountname>.blob.core.windows.net/<folder>/ |
Azure Data Lake (Gen2) | abfss://<file_system>@<account_name>.dfs.core.windows.net/<folder>/<file>.csv |
Azure Data Lake (Gen1) | adl://<accountname>.azuredatalakestore.net/<folder1>/<folder2> |
Úloha Učení Azure mapuje identifikátory URI na cílový systém souborů výpočetních prostředků. Toto mapování znamená, že v příkazu, který využívá nebo vytváří identifikátor URI, funguje jako soubor nebo složka. Identifikátor URI používá ověřování založené na identitě pro připojení ke službám úložiště s id Microsoft Entra (výchozí) nebo spravovanou identitou. Azure Machine Učení Identifikátory URI úložiště dat můžou používat ověřování na základě identity nebo přihlašovací údaje (například instanční objekt, token SAS, klíč účtu) bez vystavení tajných kódů.
Identifikátor URI může sloužit jako vstup nebo výstup úlohy Učení počítače Azure a může se mapovat na cílový systém výpočetních souborů s jednou ze čtyř různých možností režimu:
- Připojení jen pro čtení (
ro_mount
): Identifikátor URI představuje umístění úložiště připojené k cílovému systému souborů výpočetních prostředků. Připojené umístění dat podporuje výhradně výstup jen pro čtení. - Připojení pro čtení i zápis (): Identifikátor URI představuje umístění úložiště připojenék cílovému systému souborů výpočetních prostředků.
rw_mount
Připojené umístění dat podporuje výstup pro čtení i zápis dat do něj. - Download (
download
): Identifikátor URI představuje umístění úložiště obsahující data stažená do cílového systému souborů výpočetních prostředků. - Nahrání (
upload
): Všechna data zapsaná do cílového umístění výpočetních prostředků se nahrají do umístění úložiště reprezentované identifikátorem URI.
Kromě toho můžete identifikátor URI předat jako vstupní řetězec úlohy pomocí přímého režimu. Tato tabulka shrnuje kombinaci režimů dostupných pro vstupy a výstupy:
Úloha Vstup nebo výstup |
upload |
download |
ro_mount |
rw_mount |
direct |
---|---|---|---|---|---|
Vstup | ✓ | ✓ | ✓ | ||
Výstup | ✓ | ✓ |
Další informace najdete v accessových datech v úloze .
Funkce modulu runtime dat
Azure Machine Učení používá vlastní modul runtime dat pro jeden ze tří účelů:
- pro připojení, nahrávání a stahování
- mapování identifikátorů URI úložiště na cílový systém souborů výpočetních prostředků
- materializace tabulkových dat do knihovny pandas/Spark pomocí tabulek azure Machine Učení (
mltable
)
Modul runtime dat Azure Machine Učení je navržený pro úlohy strojového učení s vysokou rychlostí a vysokou efektivitou. Nabízí tyto klíčové výhody:
- Architektura jazyka Rust . Jazyk Rust je známý pro vysokou rychlost a vysokou efektivitu paměti.
- Lehká hmotnost; Azure Machine Učení data runtime nemá žádné závislosti na jiných technologiích – JVM, takže modul runtime se rychle nainstaluje na cílové výpočetní objekty.
- Načítání více procesů (paralelních) dat
- Předběžné načtení dat funguje jako úloha na pozadí procesorů, aby se zvýšilo využití GPU v operacích hlubokého učení.
- Bezproblémové ověřování do cloudového úložiště
Datový asset
Datový prostředek azure machine Učení se podobá záložkám webového prohlížeče (oblíbené položky). Místo zapamatování dlouhých cest úložiště (URI), které odkazují na nejčastěji používaná data, můžete vytvořit datový prostředek a pak k ho získat přístup popisným názvem.
Vytvoření datového assetu také vytvoří odkaz na umístění zdroje dat spolu s kopií jeho metadat. Vzhledem k tomu, že data zůstávají v existujícím umístění, neúčtují se vám žádné další náklady na úložiště a neriskujete integritu zdroje dat. Datové prostředky můžete vytvářet ze služby Azure Machine Učení úložištích dat, Azure Storage, veřejných adres URL nebo místních souborů.
Další informace o datových prostředcích najdete v tématu Vytváření datových assetů.