Převod na datovou sadu
Tento článek popisuje, jak pomocí komponenty Převést na datovou sadu v návrháři Služby Azure Machine Learning převést všechna data pro kanál do interního formátu návrháře.
Převod se ve většině případů nevyžaduje. Azure Machine Learning implicitně převádí data do nativního formátu datové sady, když se s daty provede jakákoli operace.
Pokud jste provedli nějakou normalizaci nebo čištění sady dat, doporučujeme ukládat data do formátu datové sady a chcete zajistit, aby se změny používaly v jiných kanálech.
Poznámka:
Převést na datovou sadu změní jenom formát dat. Neukládá novou kopii dat v pracovním prostoru. Pokud chcete datovou sadu uložit, poklikejte na výstupní port, vyberte Uložit jako datovou sadu a zadejte nový název.
Jak používat funkci Převést na datovou sadu
Před použitím funkce Převést na datovou sadu doporučujeme použít komponentu Upravit metadata . Podle potřeby můžete přidávat nebo měnit názvy sloupců, upravovat datové typy a provádět další změny.
Přidejte do kanálu komponentu Převést na datovou sadu. Tuto komponentu najdete v kategorii Transformace dat v návrháři.
Připojte ji k libovolné komponentě, která vypíše datovou sadu.
Pokud jsou data tabulková, můžete je převést na datovou sadu. To zahrnuje data načtená prostřednictvím importu dat, dat vytvořených prostřednictvím ručního zadávání dat nebo datových sad transformovaných prostřednictvím použití transformace.
V rozevíracím seznamu Akce uveďte, jestli chcete před uložením datové sady provést vyčištění dat:
Žádné: Použijte data tak, jak jsou.
SetMissingValue: Nastavte konkrétní hodnotu na chybějící hodnotu v datové sadě. Výchozí zástupný symbol je znak otazníku (?), můžete ale použít možnost Vlastní chybějící hodnota k zadání jiné hodnoty. Pokud například zadáte Taxi pro vlastní chybějící hodnotu, změní se všechny instance Taxi v datové sadě na chybějící hodnotu.
ReplaceValues: Tuto možnost použijte k určení jedné přesné hodnoty, která se má nahradit jinou přesnou hodnotou. Chybějící hodnoty nebo vlastní hodnoty můžete nahradit nastavením metody Replace :
- Chybějící: Tuto možnost vyberte, pokud chcete nahradit chybějící hodnoty ve vstupní datové sadě. Do pole Nová hodnota zadejte hodnotu, kterou chcete nahradit chybějícími hodnotami.
- Vlastní: Tuto možnost zvolte, pokud chcete nahradit vlastní hodnoty ve vstupní datové sadě. Do pole Vlastní hodnota zadejte hodnotu, kterou chcete najít. Pokud například vaše data obsahují řetězec
obs
použitý jako zástupný symbol pro chybějící hodnoty, zadáteobs
. Do pole Nová hodnota zadejte novou hodnotu, kterou chcete nahradit původním řetězcem.
Všimněte si, že operace ReplaceValues se vztahuje pouze na přesné shody. Například tyto řetězce by nebyly ovlivněny:
obs.
,obsolete
.Odešlete kanál.
Výsledky
- Pokud chcete výslednou datovou sadu uložit pod kartou Výstupy na pravém panelu komponenty, vyberte na ikoně Zaregistrovat datovou sadu.
Technické poznámky
Každá komponenta, která jako vstup přebírá datovou sadu, může také přijímat data v souboru CSV nebo v souboru TSV. Před spuštěním kódu komponenty se vstupy předzpracují. Předběžné zpracování odpovídá spuštění komponenty Převést na datovou sadu na vstupu.
Z formátu SVMLight nelze převést na datovou sadu.
Když zadáváte vlastní operaci nahrazení, operace hledání a nahrazení se vztahuje na úplné hodnoty. Částečné shody nejsou povoleny. Můžete například nahradit číslo 3 znakem -1 nebo 33, ale nemůžete nahradit číslo 3 ve dvouciferném čísle, například 35.
U vlastních operací nahrazení se nahrazení bezobslužně nezdaří, pokud použijete jako náhradu libovolný znak, který neodpovídá aktuálnímu datovému typu sloupce.
Další kroky
Podívejte se na sadu komponent dostupných pro Azure Machine Learning.