Součást Import dat

Tento článek popisuje komponentu v návrháři služby Azure Machine Learning.

Tuto komponentu použijte k načtení dat z existujících cloudových datových služeb do kanálu strojového učení.

Poznámka

Všechny funkce poskytované touto komponentou lze provádět pomocí úložiště dat a datových sad na cílové stránce pracovního prostoru. Doporučujeme použít úložiště dat a datovou sadu , které obsahují další funkce, jako je monitorování dat. Další informace najdete v článku Přístup k datům a registrace datových sad . Po registraci datové sady ji najdete v kategorii Datové sady –>Moje datové sady v rozhraní návrháře. Tato komponenta je vyhrazená pro uživatele studia (classic) pro známé prostředí.

Komponenta Importovat data podporuje čtení dat z následujících zdrojů:

  • Adresa URL přes HTTP
  • Cloudová úložiště Azure prostřednictvím úložišť dat)
    • Kontejner objektů blob Azure
    • Sdílená složka Azure
    • Azure Data Lake
    • Azure Data Lake Gen2
    • Databáze Azure SQL
    • Azure PostgreSQL

Před použitím cloudového úložiště musíte nejprve zaregistrovat úložiště dat v pracovním prostoru Služby Azure Machine Learning. Další informace najdete v tématu Jak získat přístup k datům.

Jakmile definujete požadovaná data a připojíte se ke zdroji, import dat odvodí datový typ každého sloupce na základě hodnot, které obsahuje, a načte data do kanálu návrháře. Výstupem importu dat je datová sada, kterou je možné použít s libovolným kanálem návrháře.

Pokud se zdrojová data změní, můžete datovou sadu aktualizovat a přidat nová data opětovným spuštěním importu dat.

Upozornění

Pokud je váš pracovní prostor ve virtuální síti, musíte úložiště dat nakonfigurovat tak, aby používala funkce vizualizace dat návrháře. Další informace o používání úložišť dat a datových sad ve virtuální síti najdete v tématu Použití studio Azure Machine Learning ve virtuální síti Azure.

Postup konfigurace importu dat

  1. Přidejte do svého kanálu komponentu Importovat data . Tuto komponentu najdete v kategorii Vstup a výstup dat v návrháři.

  2. Výběrem komponenty otevřete pravé podokno.

  3. Vyberte Zdroj dat a zvolte typ zdroje dat. Může se jednat o HTTP nebo úložiště dat.

    Pokud zvolíte úložiště dat, můžete vybrat existující úložiště dat, která jsou už zaregistrovaná ve vašem pracovním prostoru Azure Machine Learning, nebo vytvořit nové úložiště dat. Pak definujte cestu k datům, která se mají importovat v úložišti dat. Cestu můžete snadno procházet tak, že vyberete Procházet cestu.

    Snímek obrazovky s odkazem Procházet cestu, který otevře dialogové okno Výběr cesty.

    Poznámka

    Součást Import Data je určena pouze pro tabulková data. Pokud chcete importovat více tabulkových datových souborů najednou, vyžaduje to následující podmínky, jinak dojde k chybám:

    1. Pokud chcete do složky zahrnout všechny datové soubory, musíte zadat cestufolder_name/**.
    2. Všechny datové soubory musí být zakódované v unicode-8.
    3. Všechny datové soubory musí mít stejná čísla sloupců a názvy sloupců.
    4. Výsledkem importu více datových souborů je zřetězení všech řádků z více souborů v pořadí.
  4. Vyberte náhled schématu a vyfiltrujte sloupce, které chcete zahrnout. V možnostech analýzy můžete také definovat upřesňující nastavení, jako je oddělovač.

    Snímek obrazovky s náhledem schématu s vybranými sloupci 3, 4, 5 a 6

  5. Zaškrtávací políčko Znovu vygenerovat výstup určuje, jestli se má komponenta spustit, aby se výstup znovu vygeneruje za běhu.

    Ve výchozím nastavení je nevybraná, což znamená, že pokud byla komponenta dříve spuštěna se stejnými parametry, systém znovu použije výstup z posledního spuštění, aby zkrátil dobu běhu.

    Pokud je vybrána, systém spustí komponentu znovu, aby znovu vygeneruje výstup. Proto tuto možnost vyberte, když se podkladová data v úložišti aktualizují, může vám pomoct získat nejnovější data.

  6. Odešlete kanál.

    Při importu dat načte data do návrháře, odvodí datový typ každého sloupce na základě hodnot, které obsahuje, a to buď číselné, nebo kategorické.

    Pokud záhlaví existuje, použije se k pojmenování sloupců výstupní datové sady.

    Pokud v datech neexistují žádná záhlaví sloupců, vygenerují se nové názvy sloupců ve formátu sloupec 1, sloupec2,... , coln*.

Výsledky

Po dokončení importu klikněte pravým tlačítkem na výstupní datovou sadu a vyberte Vizualizovat , abyste zjistili, jestli se data úspěšně naimportovala.

Pokud chcete data uložit pro opakované použití a neimportovat novou sadu dat při každém spuštění kanálu, vyberte ikonu Zaregistrovat datovou sadu na kartě Výstupy a protokoly na pravém panelu komponenty. Zvolte název datové sady. Uložená datová sada zachovává data v době uložení. Datová sada se při opětovném spuštění kanálu neaktualizuje, a to ani v případě, že se datová sada v kanálu změní. To může být užitečné při pořizování snímků dat.

Po importu dat může být potřeba provést další přípravy na modelování a analýzu:

  • Pomocí možnosti Upravit metadata můžete změnit názvy sloupců, zpracovat sloupec jako jiný datový typ nebo označit, že některé sloupce jsou popisky nebo funkce.

  • Pomocí možnosti Vybrat sloupce v datové sadě můžete vybrat podmnožinu sloupců, které chcete transformovat nebo použít při modelování. Transformované nebo odebrané sloupce se dají snadno znovu připojit k původní datové sadě pomocí komponenty Přidat sloupce .

  • Pomocí oddílů a ukázek můžete datovou sadu rozdělit, provést vzorkování nebo získat prvních n řádků.

Omezení

Z důvodu omezení přístupu k úložišti dat se při nasazení do koncového bodu v reálném čase automaticky odebere, pokud váš kanál odvozování obsahuje komponentu Import Data .

Další kroky

Podívejte se na sadu komponent dostupných pro Azure Machine Learning.