Sdílet prostřednictvím


Převod na datovou sadu

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Převede vstup dat na formát interní datové sady, který používá Microsoft Machine Learning

Kategorie: převody formátu dat

Poznámka

platí pro: jenom Machine Learning Studio (classic)

podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.

Přehled modulu

tento článek popisuje, jak použít modul převést na datovou sadu v Machine Learning studiu (classic) k převodu všech dat, která budete možná potřebovat pro experiment do interního formátu, který používá Studio (classic).

ve většině případů není převod vyžadován, protože Machine Learning implicitně převádí data na formát nativní datové sady, když je provedena jakákoli operace s daty.

Ukládání dat do formátu datové sady je však doporučeno, pokud jste provedli určitý druh normalizace nebo čištění na základě sady dat a chcete zajistit, aby se změny používaly i v dalších experimentech.

Poznámka

Převod na datovou sadu změny pouze ve formátu dat a neuloží novou kopii dat v pracovním prostoru. Datovou sadu uložte dvojitým kliknutím na výstupní port, vyberte Uložit jako datovou sadua zadejte nový název.

Jak použít převod na datovou sadu

Doporučujeme, abyste před použitím rutiny převést na datovousadu připravili datovou sadu pomocí modulu Upravit metadata . Můžete přidávat nebo měnit názvy sloupců, upravovat typy dat a tak dále.

  1. Přidejte modul převést do datové sady do experimentu. tento modul můžete najít v kategorii převody formátů dat v Machine Learning studiu (classic).

  2. Připojení ho do libovolného modulu, který výstupuje datovou sadu.

    Pokud jsou data tabulková, můžete je převést na datovou sadu. to zahrnuje data načtená pomocí importovanádata, data vytvořená pomocí ručního zadání dat, data generovaná kódem ve vlastních modulech, datových sad pomocí transformace použít transformacinebo datové sady, které se vygenerovaly nebo změnily pomocí SQL transformaci použít.

  3. V rozevíracím seznamu Akce určete, zda chcete provést čištění dat před uložením datové sady:

    • Žádné: použijte data tak, jak je.

    • SetMissingValue: zadejte zástupný text, který se vloží do datové sady, kde chybí hodnota. Výchozí zástupný symbol je znak otazníku (?), ale můžete použít možnost vlastní chybějící hodnota k zadání jiné hodnoty.

    • ReplaceValues: tuto možnost použijte, pokud chcete zadat jedinou hodnotu, která se má nahradit jakoukoliv jinou přesnou hodnotu. Například za předpokladu, že data obsahují řetězec obs použitý jako zástupný symbol pro chybějící hodnoty, můžete zadat vlastní operaci nahrazení pomocí těchto možností:

      1. Nastavit nahradit na vlastní

      2. Do pole vlastní hodnotazadejte hodnotu, kterou chcete najít. V takovém případě zadáte obs .

      3. V poli Nová hodnotazadejte novou hodnotu, která má původní řetězec nahradit hodnotou. V takovém případě je možné zadat ?

    Všimněte si, že operace ReplaceValues se vztahuje pouze na přesné shody. Například tyto řetězce nebudou ovlivněny: obs. , obsolete .

    • SparseOutput: Určuje, zda je datová sada zhuštěná. Vytvořením zhuštěného vektoru dat můžete zajistit, aby chybějící hodnoty neovlivnily distribuci zhuštěných dat. Po výběru této možnosti musíte určit, jak mají být zpracovány chybějící hodnoty a nulové hodnoty.

    Chcete-li odebrat jakoukoli jinou hodnotu než nulu, klikněte na možnost Odebrat a zadejte jednu hodnotu, kterou chcete odebrat. Můžete odebrat chybějící hodnoty nebo nastavit vlastní hodnotu pro odstranění z vektoru. Odeberou se jenom přesné shody. Pokud například zadáte x do textového pole Odebrat hodnotu , řádek xx nebude ovlivněn.

    Ve výchozím nastavení je možnost Odebrat nuly nastavena na True hodnotu, což znamená, že při vytvoření zhuštěného sloupce jsou odebrány všechny nulové hodnoty.

  4. Spusťte experiment nebo klikněte pravým tlačítkem na modul převést na datovou sadu a vyberte Spustit vybrané.

Výsledky

  • Chcete-li uložit výslednou datovou sadu s novým názvem, klikněte pravým tlačítkem na výstup převést na datovou sadu a vyberte Uložit jako datovou sadu.

Příklady

Můžete vidět příklady, jak se v Azure AI Gallerypoužívá modul convert to DataSet :

  • Ukázka CRM: čte ze sdílené datové sady a uloží kopii datové sady do místního pracovního prostoru.

  • Příklad zpoždění letu: uloží datovou sadu, která byla vyčištěna nahrazením chybějících hodnot, takže ji můžete použít pro budoucí experimenty.

Technické poznámky

Tato část obsahuje podrobné informace o implementaci, tipy a odpovědi na nejčastější dotazy.

  • Libovolný modul, který přebírá datovou sadu jako vstup, může také přijímat data ve formátech CSV, TSV nebo ARFF. Před provedením jakéhokoli kódu modulu je proveden předzpracování vstupů, což je ekvivalentem spuštění modulu převést na datovou sadu na vstupu.

  • Z formátu SVMLight nelze převést na DataSet.

  • Při určování vlastní operace nahrazení se operace vyhledávání a nahrazování vztahují na úplné hodnoty; částečné shody nejsou povoleny. Například můžete nahradit 3 znakem-1 nebo s 33, ale nemůžete nahradit 3 za dvoumístné číslo, například 35.

  • U vlastních operací nahrazení dojde k tiché chybě, pokud použijete jako náhradu libovolný znak, který není v souladu s aktuálním datovým typem sloupce.

  • Pokud potřebujete uložit data, která používají zhuštěná data, která jsou zhuštěná a mají chybějící hodnoty, interně Studio (Classic) podporuje zhuštěná pole pomocí SparseVector, což je třída v číselné knihovně Math.NET. Připravte data, která používají nuly a chybějící hodnoty, a pak použijte příkaz převést na datovou sadu s argumenty SparseOutput a Odebrat nuly = true.

Očekávané vstupy

Název Typ Description
Datová sada Tabulka dat Vstupní datová sada

Parametry modulu

Name Rozsah Typ Výchozí Popis
Akce Seznam Action – metoda Žádné Akce, která se má použít na vstupní datovou sadu

Výstup

Název Typ Description
Datová sada výsledků Tabulka dat Výstupní datová sada

Viz také

Převody formátu dat
Seznam modulů a-Z