Připojení k datům pomocí studia Azure Machine Learning
V tomto článku se dozvíte, jak získat přístup k datům pomocí studio Azure Machine Learning. Připojení k datům ve službách úložiště v Azure Azure Machine Učení úložiště dat a pak tato data zabalíte pro úlohy v pracovních postupech ML pomocí datových sad Učení Azure Machine.
Následující tabulka definuje a shrnuje výhody úložišť dat a datových sad.
Objekt | Popis | Zaměstnanecké výhody |
---|---|---|
Úložiště dat | Bezpečné připojení ke službě Storage v Azure uložením informací o připojení, jako je ID předplatného a autorizace tokenu ve službě Key Vault přidružené k pracovnímu prostoru | Protože jsou vaše informace bezpečně uložené, můžete |
Datové sady | Vytvořením datové sady vytvoříte odkaz na umístění zdroje dat společně s kopií jeho metadat. S datovými sadami, které můžete |
Vzhledem k tomu, že se datové sady lazily vyhodnocují a data zůstávají v jejich stávajícím umístění, |
Pokud chcete zjistit, kde se úložiště dat a datové sady vejdou do celkového pracovního postupu přístupu k datům v Azure Machine Učení, přečtěte si článek o bezpečném přístupu k datům.
První zkušenosti s kódem najdete v následujících článcích o použití sady Azure Machine Učení Python SDK k:
- Připojení do služeb úložiště Azure s úložištěm dat.
- Vytvoření datových sad Učení Azure Machine
Požadavky
Předplatné Azure. Pokud ještě nemáte předplatné Azure, vytvořte si napřed bezplatný účet. Vyzkoušejte bezplatnou nebo placenou verzi služby Azure Machine Učení.
Přístup k studio Azure Machine Learning
Pracovní prostor služby Azure Machine Learning. Vytvořte prostředky pracovního prostoru.
- Při vytváření pracovního prostoru se kontejner objektů blob Azure a sdílená složka Azure automaticky zaregistrují jako úložiště dat do pracovního prostoru. Pojmenují
workspaceblobstore
se aworkspacefilestore
v uvedeném pořadí. Pokud úložiště objektů blob stačí pro vaše potřeby,workspaceblobstore
nastaví se jako výchozí úložiště dat a už je nakonfigurované pro použití. Jinak potřebujete účet úložiště v Azure s podporovaným typem úložiště.
- Při vytváření pracovního prostoru se kontejner objektů blob Azure a sdílená složka Azure automaticky zaregistrují jako úložiště dat do pracovního prostoru. Pojmenují
Vytváření úložišť dat
Úložiště dat můžete vytvářet z těchto řešení úložiště Azure. U nepodporovaných řešení úložiště a ukládání nákladů na výchozí přenos dat během experimentů ML je nutné přesunout data do podporovaného řešení úložiště Azure. Přečtěte si další informace o úložištích dat.
Úložiště dat můžete vytvářet pomocí přístupu na základě přihlašovacích údajů nebo přístupu na základě identity.
Vytvořte nové úložiště dat v několika krocích pomocí studio Azure Machine Learning.
Důležité
Pokud je váš účet úložiště dat ve virtuální síti, je potřeba provést další kroky konfigurace, aby studio získalo přístup k vašim datům. Pokud chcete zajistit, aby byly použity příslušné kroky konfigurace, přečtěte si téma Izolace sítě a ochrana osobních údajů .
- Přihlaste se k studio Azure Machine Learning.
- V levém podokně v části Prostředky vyberte Data.
- Nahoře vyberte Úložiště dat.
- Vyberte +Vytvořit.
- Vyplňte formulář pro vytvoření a registraci nového úložiště dat. Formulář se inteligentně aktualizuje na základě vašich výběrů pro typ úložiště Azure a typ ověřování. Informace o tom, kde najít přihlašovací údaje pro ověřování, které potřebujete k vyplnění tohoto formuláře, najdete v části Přístup k úložišti a oprávnění.
Následující příklad ukazuje, jak formulář vypadá při vytváření úložiště dat objektů blob Azure:
Vytváření datových prostředků
Po vytvoření úložiště dat vytvořte datovou sadu pro interakci s daty. Datové sady zabalí vaše data do lazily vyhodnoceného spotřebního objektu pro úlohy strojového učení, jako je trénování. Další informace o datových sadách
Existují dva typy datových sad, FileDataset a TabularDataset. FileDatasets vytváří odkazy na jeden nebo více souborů nebo veřejných adres URL. Zatímco tabulkové datové sady představují vaše data v tabulkovém formátu. Tabulkové datové sady můžete vytvářet z .csv, .tsv, .parquet, souborů .jsonl a z výsledků dotazu SQL.
Následující kroky popisují, jak vytvořit datovou sadu v studio Azure Machine Learning.
Poznámka:
Datové sady vytvořené prostřednictvím studio Azure Machine Learning se automaticky zaregistrují do pracovního prostoru.
Přejděte na studio Azure Machine Learning
V části Prostředky v levém navigačním panelu vyberte Data. Na kartě Datové prostředky vyberte Vytvořit.
Zadejte název datového assetu a volitelný popis. Potom v části Typ vyberte jeden z typů datových sad, a to buď Soubor , nebo Tabulkový.
Pro zdroj dat máte několik možností. Pokud už jsou vaše data uložená v Azure, zvolte Z úložiště Azure. Pokud chcete nahrát data z místního disku, zvolte "From local files" (Z místních souborů). Pokud jsou vaše data uložená ve veřejném webovém umístění, zvolte Z webových souborů. Můžete také vytvořit datový asset z databáze SQL nebo z Azure Open Datasets.
V kroku výběru souboru vyberte, kam chcete data ukládat v Azure, a jaké datové soubory chcete použít.
- Pokud jsou vaše data ve virtuální síti, povolte ověření přeskočením. Přečtěte si další informace o izolaci virtuální sítě a ochraně osobních údajů.
Podle pokynů nastavte nastavení analýzy dat a schéma datového assetu. Nastavení se předvyplní na základě typu souboru a před vytvořením datového assetu můžete nastavení dále nakonfigurovat.
Jakmile se dostanete ke kroku Revize, klikněte na vytvořit na poslední stránce.
Náhled dat a profil
Po vytvoření datové sady ověřte, že můžete zobrazit náhled a profil v sadě Studio pomocí následujícího postupu:
- Přihlaste se k studio Azure Machine Learning
- V části Prostředky v levém navigačním panelu vyberte Data.
- Vyberte název datové sady, kterou chcete zobrazit.
- Vyberte kartu Prozkoumat.
- Vyberte kartu Náhled.
- Vyberte kartu Profil.
V datové sadě můžete získat širokou škálu souhrnných statistik, abyste ověřili, jestli je vaše datová sada připravená. V případě nečíselných sloupců obsahují jenom základní statistiky, jako je minimum, maximum a počet chyb. U číselných sloupců můžete také zkontrolovat statistické momenty a odhadované quantily.
Konkrétně profil dat datové sady Azure Machine Učení zahrnuje:
Poznámka:
Prázdné položky se zobrazují pro funkce s irelevantními typy.
Statistický údaj | Popis |
---|---|
Funkce | Název sloupce, který se sumarizuje. |
Profil | Vložená vizualizace založená na odvození typu Například řetězce, logické hodnoty a kalendářní data budou mít počty hodnot, zatímco desetinná čísla (číselné hodnoty) mají přibližné histogramy. Díky tomu můžete rychle porozumět distribuci dat. |
Distribuce typů | Počet hodnot v řádku v rámci sloupce Hodnoty Null jsou jejich vlastním typem, takže tato vizualizace je užitečná pro detekci lichých nebo chybějících hodnot. |
Typ | Odvozený typ sloupce Mezi možné hodnoty patří: řetězce, logické hodnoty, kalendářní data a desetinná místa. |
Min. | Minimální hodnota sloupce. U funkcí, jejichž typ nemá vlastní řazení (například logická hodnota), se zobrazí prázdné položky. |
Maximum | Maximální hodnota sloupce |
Počet | Celkový počet chybějících a chybějících položek ve sloupci |
Chybějící počet | Počet položek ve sloupci, který chybí Prázdné řetězce a chyby se považují za hodnoty, takže nepřispívají do chybějícího počtu. |
Kvantily | Přibližné hodnoty v každém quantile poskytují představu o rozdělení dat. |
Střední hodnota | Aritmetický průměr nebo průměr sloupce. |
Směrodatná odchylka | Míra množství rozptylu nebo variace dat tohoto sloupce |
Odchylka | Míra toho, jak daleko jsou data tohoto sloupce rozložená od průměrné hodnoty |
Šikmost | Míra toho, jak se liší data tohoto sloupce od normálního rozdělení |
Kurtóza | Míra toho, jak silně chvostní data tohoto sloupce jsou porovnávána s normálním rozdělením. |
Přístup k úložišti a oprávnění
Abyste se ujistili, že se bezpečně připojíte ke službě Azure Storage, služba Azure Machine Učení vyžaduje, abyste měli oprávnění pro přístup k odpovídajícímu úložišti dat. Tento přístup závisí na přihlašovacích údajích ověřování použitých k registraci úložiště dat.
Virtuální síť
Pokud je váš účet úložiště dat ve virtuální síti, je potřeba provést další kroky konfigurace, které zajistí, aby služba Azure Machine Učení přístup k vašim datům. Informace o použití studio Azure Machine Learning ve virtuální síti zajistěte, aby se při vytváření a registraci úložiště dat použily příslušné kroky konfigurace.
Ověření přístupu
Upozorňující
Přístup mezi tenanty k účtům úložiště se nepodporuje. Pokud je pro váš scénář potřeba přístup mezi tenanty, obraťte se na alias týmu podpory dat Azure Učení a amldatasupport@microsoft.com požádejte ho o pomoc s vlastním řešením kódu.
V rámci počátečního procesu vytvoření a registrace úložiště dat azure machine Učení automaticky ověří, že existuje podkladová služba úložiště a že k zadanému úložišti má přístup zadaný objekt zabezpečení (uživatelské jméno, instanční objekt nebo token SAS).
Po vytvoření úložiště dat se toto ověření provádí pouze pro metody, které vyžadují přístup k podkladovému kontejneru úložiště, a ne pokaždé, když se načtou objekty úložiště dat. Ověření se stane například v případě, že chcete stáhnout soubory z úložiště dat; ale pokud chcete jenom změnit výchozí úložiště dat, neproběhne ověření.
Pokud chcete ověřit přístup k podkladové službě úložiště, můžete zadat klíč účtu, tokeny sdíleného přístupového podpisu (SAS) nebo instanční objekt podle typu úložiště dat, který chcete vytvořit. Matice typů úložiště obsahuje seznam podporovaných typů ověřování, které odpovídají jednotlivým typům úložiště dat.
Klíč účtu, token SAS a informace o instančním objektu najdete na webu Azure Portal.
Pokud chcete pro ověřování použít klíč účtu nebo token SAS, vyberte v levém podokně účty úložiště a zvolte účet úložiště, který chcete zaregistrovat.
- Na stránce Přehled najdete informace, jako je název účtu, kontejner a název sdílené složky.
- V případě klíčů účtu přejděte na Přístupové klíče v podokně Nastavení.
- V případě tokenů SAS přejděte do části Sdílené přístupové podpisy v podokně Nastavení.
- Na stránce Přehled najdete informace, jako je název účtu, kontejner a název sdílené složky.
Pokud chcete k ověřování použít instanční objekt, přejděte na Registrace aplikací a vyberte aplikaci, kterou chcete použít.
- Odpovídající stránka Přehled bude obsahovat požadované informace, jako je ID tenanta a ID klienta.
Důležité
- Pokud potřebujete změnit přístupové klíče pro účet Azure Storage (klíč účtu nebo token SAS), nezapomeňte nové přihlašovací údaje synchronizovat s pracovním prostorem a úložištěm dat připojenými k němu. Zjistěte, jak synchronizovat aktualizované přihlašovací údaje.
- Pokud zrušíte registraci a znovu zaregistrujete úložiště dat se stejným názvem a selže, nemusí mít služba Azure Key Vault pro váš pracovní prostor povolené obnovitelné odstranění. Ve výchozím nastavení je u instance trezoru klíčů vytvořené vaším pracovním prostorem povolené obnovitelné odstranění, ale pokud jste použili existující trezor klíčů nebo jste vytvořili pracovní prostor před říjnem 2020, nemusí být povolený. Informace o povolení obnovitelného odstranění najdete v tématu Zapnutí obnovitelného odstranění pro existující trezor klíčů.
Oprávnění
V případě kontejneru objektů blob Azure a úložiště Azure Data Lake Gen2 se ujistěte, že vaše přihlašovací údaje pro ověřování mají přístup ke čtenáři dat objektů blob služby Storage. Přečtěte si další informace o čtečce dat objektů blob služby Storage. Token SAS účtu ve výchozím nastavení nemá žádná oprávnění.
Pro přístup ke čtení dat musí přihlašovací údaje pro ověřování obsahovat minimálně oprávnění seznamu a čtení pro kontejnery a objekty.
Pro přístup k zápisu dat se vyžadují také oprávnění k zápisu a přidání.
Trénování s datovými sadami
Datové sady můžete použít v experimentech strojového učení pro trénovací modely ML. Přečtěte si další informace o tom, jak trénovat pomocí datových sad.
Další kroky
Podrobný příklad trénování pomocí tabulkových datových sad a automatizovaného strojového učení
Další příklady trénování datových sad najdete v ukázkových poznámkových blocích.