Převod na datovou sadu

Tento článek popisuje, jak pomocí komponenty Převést na datovou sadu v návrháři Azure Machine Learning převést všechna data kanálu do interního formátu návrháře.

Převod se ve většině případů nevyžaduje. Azure Machine Learning implicitně převádí data do nativního formátu datové sady, když se s daty provede jakákoli operace.

Pokud jste u sady dat provedli nějakou normalizaci nebo čištění a chcete zajistit, aby se změny použily v jiných kanálech, doporučujeme ukládat data ve formátu datové sady.

Poznámka

Převod na datovou sadu změní jenom formát dat. Neuloží novou kopii dat v pracovním prostoru. Pokud chcete datovou sadu uložit, poklikejte na výstupní port, vyberte Uložit jako datovou sadu a zadejte nový název.

Jak používat převod na datovou sadu

Před použitím funkce Převést na datovou sadu doporučujeme k přípravě datové sady použít komponentu Upravit metadata . Podle potřeby můžete přidávat nebo měnit názvy sloupců, upravovat datové typy a provádět další změny.

  1. Přidejte do svého kanálu komponentu Convert to Dataset (Převést na datovou sadu). Tuto komponentu najdete v kategorii Transformace dat v návrháři.

  2. Připojte ji k libovolné komponentě, která vypíše datovou sadu.

    Pokud jsou data tabulková, můžete je převést na datovou sadu. Patří sem data načtená prostřednictvím importu dat, data vytvořená prostřednictvím funkce Zadat data ručně nebo datové sady transformované pomocí funkce Použít transformaci.

  3. V rozevíracím seznamu Akce uveďte, jestli chcete před uložením datové sady provést vyčištění dat:

    • Žádné: Používejte data tak, jak jsou.

    • SetMissingValue: Nastavte konkrétní hodnotu na chybějící hodnotu v datové sadě. Výchozím zástupným symbolem je znak otazníku (?), ale můžete použít možnost Vlastní chybějící hodnota a zadat jinou hodnotu. Pokud například zadáte Taxi jako Vlastní chybějící hodnotu, změní se všechny instance Taxi v datové sadě na chybějící hodnotu.

    • ReplaceValues: Tuto možnost použijte, pokud chcete zadat jednu přesnou hodnotu, která se má nahradit jakoukoli jinou přesnou hodnotou. Chybějící hodnoty nebo vlastní hodnoty můžete nahradit nastavením metody Replace :

      • Chybějící: Tuto možnost zvolte, pokud chcete nahradit chybějící hodnoty ve vstupní datové sadě. Do pole Nová hodnota zadejte hodnotu, kterou chcete nahradit chybějícími hodnotami.
      • Vlastní: Tuto možnost vyberte, pokud chcete ve vstupní datové sadě nahradit vlastní hodnoty. Do pole Vlastní hodnota zadejte hodnotu, kterou chcete najít. Pokud například vaše data obsahují řetězec obs použitý jako zástupný symbol pro chybějící hodnoty, zadejte obs. Do pole Nová hodnota zadejte novou hodnotu, kterou chcete nahradit původní řetězec.

    Všimněte si, že operace ReplaceValues se vztahuje pouze na přesné shody. Například tyto řetězce nebudou ovlivněny: obs., obsolete.

  4. Odešlete kanál.

Výsledky

  • Pokud chcete výslednou datovou sadu uložit pod novým názvem, vyberte na pravém panelu komponenty na kartě Výstupy ikonu Zaregistrovat datovou sadu.

Technické poznámky

  • Jakákoli komponenta, která přijímá datovou sadu jako vstup, může také přijímat data ze souboru CSV nebo souboru TSV. Před spuštěním kódu komponenty se vstupy předzpracují. Předběžné zpracování je ekvivalentem spuštění komponenty Převést na datovou sadu na vstupu.

  • Formát SVMLight nelze převést na datovou sadu.

  • Když zadáváte vlastní operaci nahrazení, operace hledání a nahrazení se použije pro úplné hodnoty. Částečné shody nejsou povoleny. 3 můžete například nahradit znakem -1 nebo 33, ale nemůžete nahradit 3 dvouciferným číslem, například 35.

  • U vlastních operací nahrazení se nahrazení bezobslužně nezdaří, pokud jako náhradu použijete jakýkoli znak, který neodpovídá aktuálnímu datovému typu sloupce.

Další kroky

Podívejte se na sadu komponent dostupných pro Azure Machine Learning.