Sdílet prostřednictvím


Převod na C

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Převede datový vstup na formát hodnot oddělených čárkami.

Kategorie: Převody formátu dat

Poznámka

Platí jenom pro: Machine Learning Studio (jenom Classic)

Podobné moduly pro přetažení jsou k dispozici v návrháři Azure Machine Learning.

Přehled modulu

Tento článek popisuje, jak pomocí modulu Convert to CSV (Convert to CSV) v Machine Learning Studiu (Classic) převést datovou sadu z Azure ML do formátu CSV, který je možné stáhnout, exportovat nebo sdílet s moduly skriptů jazyka R nebo Python.

Další informace o formátu CSV

Formát CSV, který je zkratkou pro "hodnoty oddělené čárkami", je formát souboru používaný mnoha externími nástroji strojového učení. I když nativní formát datové sady používaný Machine Learning je založený na datové tabulce .NET, a proto je možné je číst knihovnami .NET, csv je běžný formát výměny při práci s opensourcovými jazyky, jako je R nebo Python.

I když ve Machine Learning Studiu (klasickém) pracujete většinu práce, může být užitečné převést datovou sadu na CSV tak, aby se používala v externích nástrojích. Například:

  • Stáhněte si soubor CSV a otevřete ho pomocí Excel nebo ho naimportujte do relační databáze.
  • Uložte soubor CSV do cloudového úložiště a připojte se k němu z Power BI a vytvořte vizualizace.
  • Formát CSV slouží k přípravě dat pro použití v R a Pythonu. Stačí kliknout pravým tlačítkem na výstup modulu a vygenerovat kód potřebný pro přístup k datům přímo z Pythonu nebo poznámkového bloku Jupyter.

Při převodu datové sady na CSV se soubor uloží do pracovního prostoru Azure ML. Pomocí nástroje úložiště Azure můžete soubor otevřít a použít přímo, nebo můžete kliknout pravým tlačítkem myši na výstup modulu a stáhnout soubor CSV do počítače nebo ho použít v kódu R nebo Pythonu.

Postup konfigurace převodu na sdílený svazek clusteru

  1. Přidejte do experimentu modul Převést na CSV . Tento modul najdete ve skupině Převod formátu dat v sadě Studio (classic).

  2. Připojení do libovolného modulu, který vypíše datovou sadu.

  3. Spusťte experiment nebo klikněte na modul Převést na sdílený svazek clusteru a klikněte na Tlačítko Spustit.

Výsledky

Poklikejte na výstup Příkazu Převést na sdílený svazek clusteru a vyberte jednu z těchto možností.

  • Stáhnout: Okamžitě otevře kopii dat ve formátu CSV, kterou můžete uložit do místní složky. Pokud nezadáte složku, použije se výchozí název souboru a soubor CSV se uloží do místní knihovny stažené soubory .

    Pokud vyberete Možnost Stáhnout datovou sadu, musíte určit, jestli chcete datovou sadu otevřít, nebo ji uložit do místního souboru.

    Pokud vyberete Otevřít, datová sada se načte pomocí aplikace, která je ve výchozím nastavení přidružená k .CSV souborům: například Microsoft Excel.

    Pokud ve výchozím nastavení vyberete Možnost Stáhnout datovou sadu, uloží se soubor s názvem modulu a identifikátorEM GUID představujícím ID pracovního prostoru. Během stahování ale můžete vybrat možnost Uložit jako a změnit název souboru nebo umístění.

  • Uložit jako datovou sadu: Uloží soubor CSV zpět do pracovního prostoru Azure ML jako samostatnou datovou sadu.

  • Generování kódu pro přístup k datům: Azure ML vygeneruje dvě sady kódu pro přístup k datům, a to buď pomocí Pythonu, nebo pomocí jazyka R. Pokud chcete získat přístup k datům, zkopírujte fragment kódu do aplikace.

  • Otevřít v novém poznámkovém bloku: Nový poznámkový blok Jupyter se vytvoří pro vás a vloží kód pro čtení dat z pracovního prostoru pomocí jazyka podle vašeho výběru: Python 2, Python 3 nebo R s Microsoft R Open.

    Pokud například zvolíte možnost R, zobrazí se ukázkový kód R, který načte soubor CSV do datového rámce a zobrazí prvních několik řádků pomocí head funkce.

Technické poznámky

Tato část obsahuje podrobnosti o implementaci, tipy a odpovědi na nejčastější dotazy.

Požadavky formátu CSV

Formát souboru CSV je oblíbeným formátem podporovaným mnoha architekturami strojového učení. Formát se různě označuje jako "hodnoty oddělené čárkami" nebo "hodnoty oddělené znakem".

Soubor CSV ukládá tabulková data (čísla a text) ve formátu prostého textu. Soubor CSV se skládá z libovolného počtu záznamů oddělených konců řádků určitého druhu. Každý záznam se skládá z polí oddělených literálovou čárkou. V některých oblastech může být oddělovač středníkem.

Všechny záznamy mají obvykle stejný počet polí a chybějící hodnoty jsou reprezentovány jako null nebo prázdné řetězce.

Tip

Data z Excel, Accessu nebo relační databáze můžete snadno exportovat do souborů CSV, abyste je mohli použít v Machine Learning. Přestože názvy souborů obvykle mají příponu .CSV, Machine Learning nevyžaduje, aby tato přípona souboru byla k dispozici, pokud chcete importovat data jako CSV. Soubory XLSX, TXT a další soubory můžete importovat jako CSV. Pole v souboru však musí být naformátovaná tak, jak je popsáno v předchozí části, a soubor musí používat kódování UTF-8.

Běžné otázky a problémy:

Tato část popisuje některé známé problémy, běžné otázky a alternativní řešení týkající se modulu Převést na sdílený svazek clusteru .

Záhlaví musí být jeden řádek.

Formát souboru CSV použitý v Machine Learning podporuje jeden řádek záhlaví. Záhlaví s více řádky nelze vložit.

Vlastní oddělovače podporované při importu, ale ne při exportu

Modul Convert to CSV nepodporuje generování alternativních oddělovačů sloupců, jako je středník (;), který se často používá v Evropě.

Při importu dat ze souborů CSV v externím úložišti však můžete zadat alternativní oddělovače. V modulu Importovat data vyberte možnost CSV s kódováním a vyberte podporované kódování.

Nepřesné oddělení sloupců u řetězcových dat obsahujících čárky

Běžným problémem při zpracování textu je to, že v textových polích je možné zadat pouze každý znak, který lze zadat jako oddělovač sloupců (tabulátory, mezery, čárky atd.). Import textu ze sdíleného svazku clusteru vždy vyžaduje upozornění, abyste zabránili oddělení textu mezi nepotřebné nové sloupce.

Při pokusu o export sloupce řetězcových dat obsahujících čárky můžete narazit také na problémy. Machine Learning nepodporuje žádné zvláštní zpracování ani speciální překlad těchto dat, například uzavření řetězců do uvozovek. Řídicí znaky také nelze použít před čárkou, abyste měli jistotu, že čárky jsou zpracovávány jako literálový znak.

Proto se nová pole vytvoří ve výstupním souboru pro každou čárku, která je v řetězcovém poli zjištěna. Pokud se chcete tomuto problému vyhnout, existuje několik alternativních řešení:

Požadované kódování UTF-8

Modul Convert to CSV podporuje pouze kódování znaků UTF-8. Pokud potřebujete exportovat data pomocí jiného kódování, můžete zkusit vygenerovat vlastní výstup pomocí modulu Execute R Script nebo Execute Python Script .

Datová sada nemá názvy sloupců

Pokud datová sada, kterou exportujete do souboru CSV, nemá názvy sloupců, doporučujeme před převodem použít upravit metadata k přidání názvů sloupců. Názvy sloupců nelze přidat jako součást procesu převodu nebo exportu.

SYLK: Formát souboru není platný.

Pokud první sloupec datové sady, kterou převedete na sdílený svazek clusteru, má ID názvu, může se při pokusu o otevření souboru v Excel zobrazit následující chyba:

"SYLK: Formát souboru není platný."

Chcete-li se této chybě vyhnout, je nutné sloupec přejmenovat.

Potřebuji pomoc s importem ze souboru CSV

Pro import nepoužívejte modul Export do sdíleného svazku clusteru . Místo toho použijte modul Import dat .

Obecné informace o importu ze sdíleného svazku clusteru najdete v těchto zdrojích informací:

Očekávané vstupy

Název Typ Popis
Datová sada Tabulka dat Vstupní datová sada

Výstup

Název Typ Popis
Datová sada výsledků GenericCsv Výstupní datová sada

Viz také

Převody formátu dat
Seznam modulů A-Z