Sdílet prostřednictvím


Import z poskytovatelů datových kanálů

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

tento článek popisuje, jak pomocí modulu import dat v aplikaci Machine Learning Studio (classic) importovat Data zadaná ve formátu OData do experimentu Machine learningu.

Poznámka

platí pro: jenom Machine Learning Studio (classic)

podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.

Vytvořením koncového bodu OData pro datovou sadu je jeden ze způsobů, jak vytvořit datový model k dispozici pro využití prostřednictvím adresy URL. Můžete také určit, které operace OData bude koncový bod podporovat. Další informace o vytváření Odata koncových bodů najdete v tématu OData v4 (ASP.NET).

Import dat z informačního kanálu

Důrazně doporučujeme profilovat data před importem, abyste se ujistili, že je schéma očekávaným způsobem. Proces importu kontroluje určitý počet řádků hlavní řádky a určí schéma, ale pozdější řádky mohou obsahovat nadbytečné sloupce nebo data, která způsobují chyby.

Použití Průvodce importem dat

Modul nabízí nového průvodce, který vám pomůže vybrat možnost úložiště. Pomocí Průvodce můžete vybrat z existujících předplatných a účtů a rychle nakonfigurovat všechny možnosti.

  1. Přidejte modul Import dat do experimentu. Modul můžete najít v nástroji Studio (Classic) v kategorii vstup a výstup dat .

  2. Klikněte na Spustit Průvodce importem dat a postupujte podle zobrazených výzev.

  3. Po dokončení konfigurace můžete data skutečně zkopírovat do experimentu, kliknout pravým tlačítkem na modul a vybrat možnost Spustit vybrané.

Pokud potřebujete upravit existující datové připojení, průvodce načte všechny předchozí podrobnosti konfigurace, takže se nemusíte znovu spouštět od začátku.

Ručně nastavit vlastnosti v modulu import dat

Můžete také ručně nakonfigurovat zdroj importu.

  1. Přidejte modul Import dat do experimentu. Tento modul můžete najít v nástroji Studio (Classic) v kategorii vstup a výstup dat .

  2. Jako zdroj datvyberte poskytovatele datového kanálu.

  3. V poli datový typ obsahuvyberte typ informačního kanálu. V současné době jsou podporovány pouze koncové body OData.

  4. Do pole zdrojová adresa URLvložte adresu URL webu, který poskytuje data v požadovaném formátu.

    Například následující příkaz získá seznam produktů z ukázkové databáze Northwind:

    https://services.odata.org/northwind/northwind.svc/Products

    Další informace najdete v tématu syntaxe OData.

  5. Vyberte možnost použít výsledky uložené v mezipaměti , pokud nepotřebujete znovu načíst data po prvním spuštění. Tato možnost je vhodná, pokud se neočekává, že se data mění mezi spuštění experimentu.

    Pokud žádné jiné změny parametrů modulu neexistují, experiment načte data při prvním spuštění modulu a potom použije verzi datové sady uloženou v mezipaměti.

    Pokud potřebujete pravidelně aktualizovat data, zrušte výběr této možnosti.

  6. Spusťte experiment.

Výsledky

Po dokončení klikněte na výstupní datovou sadu, vyberte vizualizovat a ověřte, jestli se data úspěšně importovala.

Když Import dat načte data informačního kanálu do studia (Classic), odvodí datový typ každého sloupce podle hodnot, které obsahuje, buď číselného, nebo kategorií.

  • Pokud je hlavička k dispozici, záhlaví se použije k pojmenování sloupců výstupní datové sady.

  • Pokud v datech nejsou žádná existující záhlaví sloupců, generují se nové názvy sloupců ve formátu col1, col2,… ,coln .

Technické poznámky

Tato část obsahuje podrobné informace o implementaci, tipy a odpovědi na nejčastější dotazy.

Syntaxe OData

Dotaz musí vracet plochou tabulku. Sloučení vnořených záznamů OData není podporováno.

Některé sloupce zahrnuté v kanálech OData můžou mít datové typy, které se v studiu (Classic) nepodporují, například jako desetinná místa. Data můžete ingestovat jako řetězce a později je převést pomocí modulů pro spuštění skriptu R nebo editoru metadat .

Další informace o syntaxi a adresách URL OData najdete v tématu konvence OData.org-URI .

Časté dotazy

Můžu filtrovat data při jejich čtení ze zdroje?

Modul Import dat obecně nepodporuje filtrování při čtení dat. Podmínku filtru ale můžete zadat jako součást adresy URL prostředku informačního kanálu.

Chcete-li filtrovat data z informačního kanálu, použijte příkazy podporované protokolem OData. Například tato adresa URL používá $filter výraz pro získání pouze objednávek vztahujících se k zaměstnanci s ID, které se rovná 1.

https://services.odata.org/Northwind/Northwind.svc/Orders?$filter=Employee/EmployeeID eq 1

Další příklady syntaxe filtru najdete v tématu použití výrazů filtru v identifikátorech URI OData.

případně můžete získat všechna data a filtrovat je po načtení do Machine Learning studia (classic):

  • Pomocí vlastního skriptu jazyka R můžete získat pouze data, která potřebujete.

  • K izolaci dat, která chcete použít, použijte modul rozdělit data s relativním výrazem nebo regulárním výrazem a pak ho uložte jako datovou sadu.

Poznámka

Pokud zjistíte, že jste načetli více dat, než kolik potřebujete, můžete přepsat datovou sadu uloženou v mezipaměti tak, že si přečtete novou datovou sadu a uložíte ji se stejným názvem jako starší, větší data.

Zobrazila se mi chyba, pro připojení ke zdroji OData se vyžadují přihlašovací údaje. Pokračujte prosím aktualizací a zadáním přihlašovacích údajů. Jak lze zadat pověření? * *

Modul Import dat podporuje pouze koncové body OData s anonymním přístupem. Pokud služba OData vyžaduje přihlašovací údaje, nemůžete k získání dat použít možnost OData.

Pokud je však služba ve stejné doméně, k ověřování může někdy dojít automaticky bez zásahu uživatele.

jako alternativní řešení můžete použít PowerQuery nebo PowerPivot ke čtení dat informačního kanálu a pak získat data z Excel.

Jak se můžu vyhnout opakovanému načtení stejných dat?

Pokud se vaše zdrojová data změní, můžete datovou sadu aktualizovat a přidat nová data tak, že znovu spustíte importovaná data. Pokud se však nechcete znovu načíst ze zdroje při každém spuštění experimentu, vyberte možnost použít výsledky v mezipaměti na hodnotu true. Pokud je tato možnost nastavena na hodnotu TRUE, modul zkontroluje, zda byl experiment spuštěn dříve pomocí stejné možnosti zdroje a stejného vstupu a v případě, že je nalezen předchozí běh, jsou použita data v mezipaměti namísto opětovného načtení dat ze zdroje.

Proč se zobrazí chybová zpráva "typ Decimal není podporován"?

decimalDatový typ není v Machine Learning podporován. Důvodem je, že Import dat nemůže automaticky provádět převody, které by způsobily ztrátu přesnosti.

Další informace o podporovaných datových typech najdete v tématu datové typy modulů.

Jako alternativní řešení můžete data číst jako datový typ String a pak pomocí Upravit metadata převést desetinná místa na podporovaná data před čtením dat.

Proč se některé znaky v informačním kanálu nezobrazují správně?

Machine Learning podporuje kódování UTF-8. Pokud váš zdroj používá jiný typ kódování, znaky nemusí být importovány správně.

Jako alternativní řešení můžete data ukládat do souboru CSV ve službě Azure Table Storage nebo v úložišti objektů BLOB v Azure. Pak použijte parametr CSV s kódováním pro určení parametrů pro vlastní oddělovače, znakovou stránku a tak dále.

Parametry modulu

Name Rozsah Typ Výchozí Description
Zdroj dat Seznam Zdroj dat nebo jímka Azure Blob Storage zdroj dat může být HTTP, FTP, anonymní HTTPS nebo FTPS, soubor ve službě azure BLOB storage, tabulka azure, Azure SQL Database, místní databáze SQL Server, tabulka podregistru nebo koncový bod OData.
Typ obsahu dat Seznam (podmnožina) Obsah adresy URL OData Typ formátu dat
Adresa URL zdroje Libovolný Řetězec adresa URL pro Power Query zdroj dat
Použití výsledků uložených v mezipaměti TRUE NEBO FALSE Logická hodnota FALSE description

Výstupy

Název Typ Description
Datová sada výsledků Tabulka dat Datová sada se staženými daty

Výjimky

Výjimka Description
Chyba 0003 K výjimce dojde v případě, že jeden nebo více vstupů má hodnotu null nebo je prázdné.
Chyba 0029 K výjimce dojde, pokud je předán neplatný identifikátor URI.
Chyba 0030 v případě, že není možné stáhnout soubor, dojde k výjimce.
Chyba 0,002 K výjimce dojde v případě, že jeden nebo více parametrů nelze analyzovat nebo převést ze zadaného typu na typ vyžadovaný cílovou metodou.

seznam chyb, které jsou specifické pro moduly studia (classic), najdete v článku kódy chyb Machine Learning.

seznam výjimek rozhraní API najdete v tématu Machine Learning REST API chybové kódy.

Viz také

Import dat
Exportovat data
Import z webové adresy URL přes HTTP
Importovat z dotazu na podregistr
Import z Azure SQL Database
Import z tabulky Azure
Importovat z Azure Blob Storage
Import z místní databáze SQL Server