Připojení k datům pomocí studia Azure Machine Learning

V tomto článku se dozvíte, jak získat přístup k datům pomocí studio Azure Machine Learning. Připojení k datům ve službách úložiště v Azure Azure Machine Učení úložiště dat a pak tato data zabalíte pro úlohy v pracovních postupech ML pomocí datových sad Učení Azure Machine.

Následující tabulka definuje a shrnuje výhody úložišť dat a datových sad.

Objekt Popis Zaměstnanecké výhody
Úložiště dat Bezpečné připojení ke službě Storage v Azure uložením informací o připojení, jako je ID předplatného a autorizace tokenu ve službě Key Vault přidružené k pracovnímu prostoru Protože jsou vaše informace bezpečně uložené, můžete

  • Neohrožujte přihlašovací údaje ověřování ani původní zdroje dat.
  • Už je nemusíte pevně kódovat ve skriptech.
  • Datové sady Vytvořením datové sady vytvoříte odkaz na umístění zdroje dat společně s kopií jeho metadat. S datovými sadami, které můžete

  • Přístup k datům během trénování modelu
  • Sdílejte data a spolupracujte s ostatními uživateli.
  • Pro zkoumání dat používejte opensourcové knihovny, jako je pandas.
  • Vzhledem k tomu, že se datové sady lazily vyhodnocují a data zůstávají v jejich stávajícím umístění,

  • Uchovávejte v úložišti jednu kopii dat.
  • Neúčtují se žádné další náklady na úložiště
  • Neriskujte neúmyslnou změnu původních zdrojů dat.
  • Zvýšení rychlosti výkonu pracovního postupu ML
  • Pokud chcete zjistit, kde se úložiště dat a datové sady vejdou do celkového pracovního postupu přístupu k datům v Azure Machine Učení, přečtěte si článek o bezpečném přístupu k datům.

    První zkušenosti s kódem najdete v následujících článcích o použití sady Azure Machine Učení Python SDK k:

    Požadavky

    • Předplatné Azure. Pokud ještě nemáte předplatné Azure, vytvořte si napřed bezplatný účet. Vyzkoušejte bezplatnou nebo placenou verzi služby Azure Machine Učení.

    • Přístup k studio Azure Machine Learning

    • Pracovní prostor služby Azure Machine Learning. Vytvořte prostředky pracovního prostoru.

      • Při vytváření pracovního prostoru se kontejner objektů blob Azure a sdílená složka Azure automaticky zaregistrují jako úložiště dat do pracovního prostoru. Pojmenují workspaceblobstore se a workspacefilestorev uvedeném pořadí. Pokud úložiště objektů blob stačí pro vaše potřeby, workspaceblobstore nastaví se jako výchozí úložiště dat a už je nakonfigurované pro použití. Jinak potřebujete účet úložiště v Azure s podporovaným typem úložiště.

    Vytváření úložišť dat

    Úložiště dat můžete vytvářet z těchto řešení úložiště Azure. U nepodporovaných řešení úložiště a ukládání nákladů na výchozí přenos dat během experimentů ML je nutné přesunout data do podporovaného řešení úložiště Azure. Přečtěte si další informace o úložištích dat.

    Úložiště dat můžete vytvářet pomocí přístupu na základě přihlašovacích údajů nebo přístupu na základě identity.

    Vytvořte nové úložiště dat v několika krocích pomocí studio Azure Machine Learning.

    Důležité

    Pokud je váš účet úložiště dat ve virtuální síti, je potřeba provést další kroky konfigurace, aby studio získalo přístup k vašim datům. Pokud chcete zajistit, aby byly použity příslušné kroky konfigurace, přečtěte si téma Izolace sítě a ochrana osobních údajů .

    1. Přihlaste se k studio Azure Machine Learning.
    2. V levém podokně v části Prostředky vyberte Data.
    3. Nahoře vyberte Úložiště dat.
    4. Vyberte +Vytvořit.
    5. Vyplňte formulář pro vytvoření a registraci nového úložiště dat. Formulář se inteligentně aktualizuje na základě vašich výběrů pro typ úložiště Azure a typ ověřování. Informace o tom, kde najít přihlašovací údaje pro ověřování, které potřebujete k vyplnění tohoto formuláře, najdete v části Přístup k úložišti a oprávnění.

    Následující příklad ukazuje, jak formulář vypadá při vytváření úložiště dat objektů blob Azure:

    Form for a new datastore

    Vytváření datových prostředků

    Po vytvoření úložiště dat vytvořte datovou sadu pro interakci s daty. Datové sady zabalí vaše data do lazily vyhodnoceného spotřebního objektu pro úlohy strojového učení, jako je trénování. Další informace o datových sadách

    Existují dva typy datových sad, FileDataset a TabularDataset. FileDatasets vytváří odkazy na jeden nebo více souborů nebo veřejných adres URL. Zatímco tabulkové datové sady představují vaše data v tabulkovém formátu. Tabulkové datové sady můžete vytvářet z .csv, .tsv, .parquet, souborů .jsonl a z výsledků dotazu SQL.

    Následující kroky popisují, jak vytvořit datovou sadu v studio Azure Machine Learning.

    Poznámka:

    Datové sady vytvořené prostřednictvím studio Azure Machine Learning se automaticky zaregistrují do pracovního prostoru.

    1. Přejděte na studio Azure Machine Learning

    2. V části Prostředky v levém navigačním panelu vyberte Data. Na kartě Datové prostředky vyberte Vytvořit. This screenshot highlights Create in the Data assets tab.

    3. Zadejte název datového assetu a volitelný popis. Potom v části Typ vyberte jeden z typů datových sad, a to buď Soubor , nebo Tabulkový. This screenshot shows set the name, description, and type of the data asset.

    4. Pro zdroj dat máte několik možností. Pokud už jsou vaše data uložená v Azure, zvolte Z úložiště Azure. Pokud chcete nahrát data z místního disku, zvolte "From local files" (Z místních souborů). Pokud jsou vaše data uložená ve veřejném webovém umístění, zvolte Z webových souborů. Můžete také vytvořit datový asset z databáze SQL nebo z Azure Open Datasets.

    5. V kroku výběru souboru vyberte, kam chcete data ukládat v Azure, a jaké datové soubory chcete použít.

      1. Pokud jsou vaše data ve virtuální síti, povolte ověření přeskočením. Přečtěte si další informace o izolaci virtuální sítě a ochraně osobních údajů.
    6. Podle pokynů nastavte nastavení analýzy dat a schéma datového assetu. Nastavení se předvyplní na základě typu souboru a před vytvořením datového assetu můžete nastavení dále nakonfigurovat.

    7. Jakmile se dostanete ke kroku Revize, klikněte na vytvořit na poslední stránce.

    Náhled dat a profil

    Po vytvoření datové sady ověřte, že můžete zobrazit náhled a profil v sadě Studio pomocí následujícího postupu:

    1. Přihlaste se k studio Azure Machine Learning
    2. V části Prostředky v levém navigačním panelu vyberte Data. Screenshot highlights Create in the Data assets tab.
    3. Vyberte název datové sady, kterou chcete zobrazit.
    4. Vyberte kartu Prozkoumat.
    5. Vyberte kartu Náhled.Screenshot shows a preview of a dataset.
    6. Vyberte kartu Profil.Screenshot shows dataset column metadata in the Profile tab.

    V datové sadě můžete získat širokou škálu souhrnných statistik, abyste ověřili, jestli je vaše datová sada připravená. V případě nečíselných sloupců obsahují jenom základní statistiky, jako je minimum, maximum a počet chyb. U číselných sloupců můžete také zkontrolovat statistické momenty a odhadované quantily.

    Konkrétně profil dat datové sady Azure Machine Učení zahrnuje:

    Poznámka:

    Prázdné položky se zobrazují pro funkce s irelevantními typy.

    Statistický údaj Popis
    Funkce Název sloupce, který se sumarizuje.
    Profil Vložená vizualizace založená na odvození typu Například řetězce, logické hodnoty a kalendářní data budou mít počty hodnot, zatímco desetinná čísla (číselné hodnoty) mají přibližné histogramy. Díky tomu můžete rychle porozumět distribuci dat.
    Distribuce typů Počet hodnot v řádku v rámci sloupce Hodnoty Null jsou jejich vlastním typem, takže tato vizualizace je užitečná pro detekci lichých nebo chybějících hodnot.
    Typ Odvozený typ sloupce Mezi možné hodnoty patří: řetězce, logické hodnoty, kalendářní data a desetinná místa.
    Min. Minimální hodnota sloupce. U funkcí, jejichž typ nemá vlastní řazení (například logická hodnota), se zobrazí prázdné položky.
    Maximum Maximální hodnota sloupce
    Počet Celkový počet chybějících a chybějících položek ve sloupci
    Chybějící počet Počet položek ve sloupci, který chybí Prázdné řetězce a chyby se považují za hodnoty, takže nepřispívají do chybějícího počtu.
    Kvantily Přibližné hodnoty v každém quantile poskytují představu o rozdělení dat.
    Střední hodnota Aritmetický průměr nebo průměr sloupce.
    Směrodatná odchylka Míra množství rozptylu nebo variace dat tohoto sloupce
    Odchylka Míra toho, jak daleko jsou data tohoto sloupce rozložená od průměrné hodnoty
    Šikmost Míra toho, jak se liší data tohoto sloupce od normálního rozdělení
    Kurtóza Míra toho, jak silně chvostní data tohoto sloupce jsou porovnávána s normálním rozdělením.

    Přístup k úložišti a oprávnění

    Abyste se ujistili, že se bezpečně připojíte ke službě Azure Storage, služba Azure Machine Učení vyžaduje, abyste měli oprávnění pro přístup k odpovídajícímu úložišti dat. Tento přístup závisí na přihlašovacích údajích ověřování použitých k registraci úložiště dat.

    Virtuální síť

    Pokud je váš účet úložiště dat ve virtuální síti, je potřeba provést další kroky konfigurace, které zajistí, aby služba Azure Machine Učení přístup k vašim datům. Informace o použití studio Azure Machine Learning ve virtuální síti zajistěte, aby se při vytváření a registraci úložiště dat použily příslušné kroky konfigurace.

    Ověření přístupu

    Upozorňující

    Přístup mezi tenanty k účtům úložiště se nepodporuje. Pokud je pro váš scénář potřeba přístup mezi tenanty, obraťte se na alias týmu podpory dat Azure Učení a amldatasupport@microsoft.com požádejte ho o pomoc s vlastním řešením kódu.

    V rámci počátečního procesu vytvoření a registrace úložiště dat azure machine Učení automaticky ověří, že existuje podkladová služba úložiště a že k zadanému úložišti má přístup zadaný objekt zabezpečení (uživatelské jméno, instanční objekt nebo token SAS).

    Po vytvoření úložiště dat se toto ověření provádí pouze pro metody, které vyžadují přístup k podkladovému kontejneru úložiště, a ne pokaždé, když se načtou objekty úložiště dat. Ověření se stane například v případě, že chcete stáhnout soubory z úložiště dat; ale pokud chcete jenom změnit výchozí úložiště dat, neproběhne ověření.

    Pokud chcete ověřit přístup k podkladové službě úložiště, můžete zadat klíč účtu, tokeny sdíleného přístupového podpisu (SAS) nebo instanční objekt podle typu úložiště dat, který chcete vytvořit. Matice typů úložiště obsahuje seznam podporovaných typů ověřování, které odpovídají jednotlivým typům úložiště dat.

    Klíč účtu, token SAS a informace o instančním objektu najdete na webu Azure Portal.

    • Pokud chcete pro ověřování použít klíč účtu nebo token SAS, vyberte v levém podokně účty úložiště a zvolte účet úložiště, který chcete zaregistrovat.

      • Na stránce Přehled najdete informace, jako je název účtu, kontejner a název sdílené složky.
        1. V případě klíčů účtu přejděte na Přístupové klíče v podokně Nastavení.
        2. V případě tokenů SAS přejděte do části Sdílené přístupové podpisy v podokně Nastavení.
    • Pokud chcete k ověřování použít instanční objekt, přejděte na Registrace aplikací a vyberte aplikaci, kterou chcete použít.

      • Odpovídající stránka Přehled bude obsahovat požadované informace, jako je ID tenanta a ID klienta.

    Důležité

    • Pokud potřebujete změnit přístupové klíče pro účet Azure Storage (klíč účtu nebo token SAS), nezapomeňte nové přihlašovací údaje synchronizovat s pracovním prostorem a úložištěm dat připojenými k němu. Zjistěte, jak synchronizovat aktualizované přihlašovací údaje.

    • Pokud zrušíte registraci a znovu zaregistrujete úložiště dat se stejným názvem a selže, nemusí mít služba Azure Key Vault pro váš pracovní prostor povolené obnovitelné odstranění. Ve výchozím nastavení je u instance trezoru klíčů vytvořené vaším pracovním prostorem povolené obnovitelné odstranění, ale pokud jste použili existující trezor klíčů nebo jste vytvořili pracovní prostor před říjnem 2020, nemusí být povolený. Informace o povolení obnovitelného odstranění najdete v tématu Zapnutí obnovitelného odstranění pro existující trezor klíčů.

    Oprávnění

    V případě kontejneru objektů blob Azure a úložiště Azure Data Lake Gen2 se ujistěte, že vaše přihlašovací údaje pro ověřování mají přístup ke čtenáři dat objektů blob služby Storage. Přečtěte si další informace o čtečce dat objektů blob služby Storage. Token SAS účtu ve výchozím nastavení nemá žádná oprávnění.

    • Pro přístup ke čtení dat musí přihlašovací údaje pro ověřování obsahovat minimálně oprávnění seznamu a čtení pro kontejnery a objekty.

    • Pro přístup k zápisu dat se vyžadují také oprávnění k zápisu a přidání.

    Trénování s datovými sadami

    Datové sady můžete použít v experimentech strojového učení pro trénovací modely ML. Přečtěte si další informace o tom, jak trénovat pomocí datových sad.

    Další kroky