Sdílet prostřednictvím


Import dat

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Načte data z externích zdrojů na webu; z různých forem cloudového úložiště v Azure, jako jsou tabulky, objekty blob a SQL databáze, a z místních SQL Server databází.

Kategorie: Vstup a výstup dat

Poznámka

Platí jenom pro: Machine Learning Studio (jenom Classic)

Podobné moduly pro přetažení jsou k dispozici v návrháři Azure Machine Learning.

Přehled modulu

Tento článek popisuje, jak pomocí modulu Importovat data v nástroji Machine Learning Studio (Classic) načíst data do experimentu strojového učení z existujících cloudových datových služeb.

Modul teď obsahuje průvodce, který vám pomůže vybrat možnost úložiště a vybrat si z existujících předplatných a účtů a rychle nakonfigurovat všechny možnosti. Potřebujete upravit existující datové připojení? Žádný problém; Průvodce načte všechny předchozí podrobnosti o konfiguraci, abyste nemuseli znovu spouštět od začátku.

Jakmile definujete požadovaná data a připojíte se ke zdroji, importuje data datový typ každého sloupce na základě hodnot, které obsahuje, a načte data do pracovního prostoru Machine Learning Studio (classic). Výstupem importu dat je datová sada, která se dá použít s jakýmkoli experimentem.

Důležité

V současné době existují omezení typů účtů úložiště, které jsou podporovány. Další informace najdete v technických poznámkách.

Pokud se zdrojová data změní, můžete datovou sadu aktualizovat a přidat nová data opětovným spuštěním importu dat. Pokud ale nechcete při každém spuštění experimentu znovu číst ze zdroje, vyberte možnost Použít výsledky uložené v mezipaměti na hodnotu TRUE. Pokud je tato možnost vybraná, modul zkontroluje, jestli se experiment spustil dříve, pomocí stejných zdrojových a stejných vstupních možností. Pokud se najde předchozí spuštění, použijí se data v mezipaměti místo opětovného načtení dat ze zdroje.

Poznámka

Tento modul se dříve jmenoval Reader. Pokud jste dříve použili modul Čtenář v experimentu, při aktualizaci experimentu se přejmenuje na Import dat .

Zdroje dat

Modul Import dat podporuje následující zdroje dat. Kliknutím na odkazy zobrazíte podrobné pokyny a příklady použití jednotlivých zdrojů dat.

Pokud si nejste jistí, jak nebo kam byste měli data ukládat, projděte si tohoto průvodce běžnými scénáři dat v procesu datových věd: Scénáře pro pokročilou analýzu v Machine Learning.

Zdroj dat Použití s
Webová adresa URL přes HTTP Získání dat hostovaných na webové adrese URL, která používá protokol HTTP a která byla poskytována ve formátech CSV, TSV, ARFF nebo SvmLight
Dotaz Hive Získejte data z distribuovaného úložiště v Hadoopu. Data, která chcete zadat pomocí jazyka HiveQL
Azure SQL Database Získání dat z Azure SQL Database nebo z Azure SQL Data Warehouse
Azure Table Získání dat uložených ve službě Azure Table Service
Import z Azure Blob Storage Získání dat uložených ve službě Azure Blob Service
Poskytovatelé datových kanálů Získání dat vystavených jako informačního kanálu ve formátu OData
Import z místní databáze SQL Server Získání dat z místní databáze SQL Server pomocí služby Microsoft Správa dat Gateway
Azure Cosmos DB Získejte data uložená ve formátu JSON ve službě Azure Cosmos DB.

Tip

Potřebujete importovat data ve formátu JSON? R i Python podporují rozhraní REST API, takže k parsování dat použijte moduly Spustit skript Pythonu nebo Spustit skript jazyka R a uložte je jako datovou sadu Azure ML.

Můžete také použít rozhraní API SQL DB pro CosmosDB, které podporuje více úložišť JSON, včetně MongoDB, ke čtení dat pomocí možnosti Import z Azure Cosmos DB. Další informace najdete v tématu Import z Azure Cosmos DB.

Jak používat import dat

  1. Přidejte do experimentu modul Import dat . Tento modul najdete v kategorii Vstup a výstup dat v sadě Studio (classic).

  2. Kliknutím na Spustit průvodce importem dat nakonfigurujte zdroj dat pomocí průvodce.

    Průvodce získá název účtu a přihlašovací údaje a pomůže vám nakonfigurovat další možnosti. Pokud upravujete existující konfiguraci, nejprve načte aktuální hodnoty.

  3. Pokud průvodce nechcete používat, klikněte na Zdroj dat a zvolte typ cloudového úložiště, ze kterého čtete.

    Další nastavení závisí na typu zvoleného úložiště a na tom, jestli je úložiště zabezpečené nebo ne. Možná budete muset zadat název účtu, typ souboru nebo přihlašovací údaje. Některé zdroje nevyžadují ověřování; pro ostatní možná budete muset znát název účtu, klíč nebo název kontejneru.

    Podrobnosti najdete v seznamu zdrojů dat.

  4. Pokud chcete datovou sadu uložit do mezipaměti pro opakované použití při následných spuštěních, vyberte možnost Použít výsledky uložené v mezipaměti .

    Za předpokladu, že nedošlo k žádným dalším změnám parametrů modulu, experiment načte data pouze při prvním spuštění modulu a potom použije verzi datové sady uloženou v mezipaměti.

    Tuto možnost zrušte, pokud potřebujete znovu načíst data při každém spuštění experimentu.

  5. Spusťte experiment.

    Při importu dat se data načtou do studia (classic), odvodí datový typ každého sloupce na základě hodnot, které obsahuje, a to buď číselně, nebo kategoricky.

    • Pokud je záhlaví k dispozici, použije se záhlaví k pojmenování sloupců výstupní datové sady.

    • Pokud v datech nejsou žádná záhlaví sloupců, vygenerují se nové názvy sloupců pomocí sloupce ve formátu col1, col2,... ,coln.

Výsledky

Po dokončení importu klikněte na výstupní datovou sadu a vyberte Vizualizovat , abyste zjistili, jestli se data úspěšně naimportovala.

Pokud chcete uložit data pro opakované použití, místo importu nové sady dat při každém spuštění experimentu klikněte pravým tlačítkem myši na výstup a vyberte Uložit jako datovou sadu. Zvolte název datové sady. Uložená datová sada zachovává data v době uložení a data se při opětovném spuštění experimentu neaktualizují, i když se datová sada v experimentu změní. To může být užitečné pro pořizování snímků dat.

Po importu dat může být potřeba několik dalších příprav na modelování a analýzu:

Technické poznámky

Tato část obsahuje seznam známých problémů s modulem Import Dat a také některé obecné informace o řešení potíží, které nejsou specifické pro typ zdroje.

Podporované typy účtu

Azure často vydává nové služby nebo nové typy úložiště; V Machine Learning Studiu (classic) se však obvykle dochází ke zpoždění, zatímco podpora nových typů účtů je implementována.

  • V současné době Machine Learning podporuje všechny účty úložiště pro obecné účely, s výjimkou těch, které používají zónově redundantní úložiště (ZRS).

  • Podporují se místně redundantní úložiště (LRS) a možnosti geograficky redundantního úložiště.

  • Objekty blob bloku jsou podporované, ale doplňovací objekty blob nejsou.

Běžné otázky a problémy:

Tato část popisuje některé známé problémy, běžné otázky a alternativní řešení.

Záhlaví musí být jeden řádek.

Pokud importujete ze souborů CSV, mějte na paměti, že Machine Learning umožňuje jeden řádek záhlaví. Nelze vložit víceřádkové záhlaví.

Vlastní oddělovače podporované při importu, ale ne při exportu

Modul Import dat podporuje import dat, která používají alternativní oddělovače sloupců, jako je středník (;), který se často používá v Evropě. Při importu dat ze souborů CSV v externím úložišti vyberte soubor CSV s možností kódování a vyberte podporované kódování.

Při přípravě dat na export pomocí modulu Convert to CSV ale nemůžete generovat alternativní oddělovače.

Špatné oddělení sloupců u řetězcových dat obsahujících čárky

Stejně jako každý znak, který lze zadat jako oddělovač sloupců (tabulátory, mezery, čárky atd.), najdete také náhodně v textových polích. Import textu ze souboru CSV vždy vyžaduje opatrnost, aby se zabránilo oddělení textu mezi nepotřebnými novými sloupci. Je to běžný problém při zpracování textu, ke kterému jste pravděpodobně narazili a zvládli různými způsoby.

K problémům může dojít také při pokusu o export sloupce řetězcových dat obsahujících čárky. Machine Learning nepodporuje žádné zvláštní zpracování ani speciální překlad těchto dat, například uzavření řetězců do uvozovek. Řídicí znaky také nelze použít před čárkou, abyste zajistili, že čárky jsou zpracovávány jako literálový znak. V důsledku toho se nová pole vytvoří ve výstupním souboru pro každou čárku, která je v řetězcovém poli zjištěna.

Pokud se chcete vyhnout problémům při exportu, pomocí modulu Předzpracování textu odeberte interpunkční znaky z řetězcových polí.

Můžete také použít vlastní skript jazyka R nebo skript Pythonu ke zpracování složitého textu a zajistit, aby se data dají importovat nebo exportovat správně.

Vyžadováno kódování UTF-8

Machine Learning vyžaduje kódování UTF-8. Pokud importovaná data používají jiné kódování nebo byla exportována ze zdroje dat, který používá jiné výchozí kódování, mohou se v textu objevit různé problémy.

Následující obrázek například obsahuje stejnou multilanguage datovou sadu exportovanou z Excel a pak importovaná do Machine Learning pod čtyřmi různými kombinacemi typu a kódování souborů.

Visualization of import encoding

Třetí příklad představuje data, která se ztratila během ukládání z Excel ve formátu CSV, protože v té době nebylo zadáno správné kódování. Pokud tedy narazíte na problémy, nezapomeňte zkontrolovat nejen importovaný soubor, ale jestli byl soubor správně exportován ze zdroje.

Datová sada nemá názvy sloupců

Pokud importovaná datová sada neobsahuje názvy sloupců, nezapomeňte zadat jednu z možností bez záhlaví. Když to uděláte, import dat přidá výchozí názvy sloupců pomocí formátu Col1, Col2 atd. Později pomocí upravit metadata opravte názvy sloupců.

Pokud exportujete datovou sadu do souboru CSV, přidejte před převodem nebo exportem názvy sloupců pomocí upravit metadata .

Alternativní řešení pro nepodporované zdroje dat

Pokud potřebujete získat data ze zdroje, který není v seznamu, můžete zkusit různá alternativní řešení:

  • Pokud chcete nahrávat data ze souboru v počítači, klikněte na Nový v sadě Studio (classic), vyberte Datová sada a pak vyberte Z místního souboru. Vyhledejte soubor a zadejte formát (TSV, CSV atd.). Další informace najdete v tématu Import trénovacích dat do studia (classic).

  • Použijte jazyk R nebo Python. K získání dat z jiných cloudových databází můžete použít modul Execute R Script s příslušným balíčkem R.

    Modul Execute Python Script také umožňuje číst a převádět data z různých zdrojů. Podívejte se na tyto příklady od datových vědců Microsoftu v galerii Cortana Intelligence:

    Převést PDF na text

    Načtení netextového souboru ze služby Azure Blob Storage

  • Získejte data z clusterů AWS. Můžete spustit dotaz na obecný cluster Hive s povoleným koncovým bodem WebHCat nebo HCatalog. Nebo publikujte jako stránku a přečtěte si ji z webové adresy URL.

  • Získejte data z MongoDB. Nástroj pro migraci dat pro Azure Cosmos DB podporuje širokou škálu zdrojů a formátů. Další informace a příklady najdete v tématu Azure Cosmos DB: Nástroj pro migraci dat

Další nápady a alternativní řešení najdete na fóru Machine Learning nebo galerii Azure AI.

Parametry modulu

Každý zdroj dat musí být nakonfigurovaný pomocí různých možností. Tato tabulka uvádí jenom možnosti, které jsou společné pro všechny zdroje dat.

Name Rozsah Typ Výchozí Description
Zdroj dat Seznam Zdroj dat nebo jímka Služba blob ve službě Azure Storage Zdrojem dat může být HTTP, anonymní HTTPS, soubor ve službě Blob Service nebo Table Service, SQL databáze v Azure, Azure SQL Data Warehouse, tabulka Hive nebo koncový bod OData.
Použití výsledků uložených v mezipaměti PRAVDA/NEPRAVDA Logická hodnota FALSE Pokud ano, modul zkontroluje, jestli se experiment spustil dříve pomocí stejných možností zdroje a stejného vstupu a pokud se najde předchozí spuštění, použijí se data v mezipaměti. Pokud jsou nalezeny hodnoty FALSE nebo pokud jsou nalezeny změny, data se znovu načtou ze zdroje.

Výstupy

Název Typ Description
Datová sada výsledků Tabulka dat Datová sada se staženými daty

Výjimky

Výjimka Description
Chyba 0027 K výjimce dochází, když dva objekty musí mít stejnou velikost, ale nejsou.
Chyba 0003 K výjimce dochází v případě, že jeden nebo více vstupů je null nebo prázdný.
Chyba 0029 Při předání neplatného identifikátoru URI dojde k výjimce.
Chyba 0030 k výjimce dochází v případě, že není možné stáhnout soubor.
Chyba 0002 K výjimce dochází v případě, že jeden nebo více parametrů nelze analyzovat nebo převést ze zadaného typu na typ požadovaný cílovou metodou.
Chyba 0009 K výjimce dochází, pokud je název účtu úložiště Azure nebo název kontejneru zadán nesprávně.
Chyba 0048 K výjimce dochází, když není možné otevřít soubor.
Chyba 0015 K výjimce dochází v případě, že připojení k databázi selhalo.
Chyba 0046 K výjimce dochází v případě, že není možné vytvořit adresář v zadané cestě.
Chyba 0049 K výjimce dochází v případě, že není možné analyzovat soubor.

Seznam chyb specifických pro moduly Studio (Classic) najdete v tématu Machine Learning Kódy chyb.

Seznam výjimek rozhraní API najdete v tématu Machine Learning kódy chyb rozhraní REST API.

Viz také

Vstup a výstup dat
Převody formátu dat
Export dat
Seznam modulů A-Z