Sdílet prostřednictvím


Převod na SVMLight

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Převede datový vstup do formátu, který používá SVM-Light framework.

Kategorie: Převody formátu dat

Poznámka

Platí pro: Machine Learning Studio (classic)

Podobné moduly s přetahováním jsou k dispozici v Azure Machine Learning návrháři.

Přehled modulu

Tento článek popisuje, jak pomocí modulu Převést na SVMLight v Machine Learning Studiu (klasickém) převést datové sady do formátu, který používá SVMLight.

Tento SVM-Light vyvinuli výzkumníci na Cornellově univerzitě. Knihovna SVM-Light implementuje metodu Support Vector Machine od Vapniku, ale formát byl přijat jinde a lze ho použít pro mnoho úloh strojového učení, včetně klasifikace a regrese.

Další informace najdete v tématu SvmLight Support Vector Machine.

Konfigurace funkce Převést na SVMLight

Převod na formát SVMLight zahrnuje převod každého případu na řádek dat, který začíná popiskem, následovaný dvojicemi funkcí a hodnot vyjádřených jako dvojtečkami oddělená čísly. Proces převodu automaticky ne identifikuje správné sloupce, takže je důležité, abyste sloupce v datové sadě připravili před pokusem o převod. Další informace najdete v tématu Příprava dat na převod.

  1. Přidejte do experimentu modul Převést na SVMLight . Tento modul najdete v kategorii Převody formátu dat v Machine Learning Studiu (classic).

  2. Připojení datovou sadu nebo výstup, které chcete převést do formátu SVMLight.

  3. Spusťte experiment.

  4. Klikněte pravým tlačítkem na výstup modulu, vyberte Stáhnout a uložte data do místního souboru pro úpravy nebo pro opakované použití s programem, který podporuje SVMLight.

Příprava dat pro převod

Pro ilustraci procesu převodu tento příklad používá datovou sadu Blood Dataset v sadě Studio (klasická).

Tato ukázková datová sada má následující formát v tabulkovém formátu.

Recience Frekvence Měnové Čas Třída
2 50 12500 98 1
0 13 3250 28 1
1 1 4000 35 1
2 20 5000 45 1
1 24 6000 77 0

Všimněte si, že sloupec popisku s názvem [Class] v této datové sadě je posledním sloupcem v tabulce. Pokud ale převedete datovou sadu na SVMLight bez předchozího označení, který sloupec obsahuje popisek, použije se jako popisek první sloupec [Recency] a sloupec [Class] se bude považovat za funkci:

2 1:50 2:12500 3:98 4:1
0 1:13 2:3250 3:28 4:1
1 1:16 2:4000 3:35 4:1

Abyste se ujistili, že se popisky pro každý případ správně generují na začátku řádku, musíte přidat dvě instance modulu Upravit metadata .

  1. V první instanci upravit metadata vyberte sloupec popisku ([Třída]) a jako Pole vyberte Popisek.

  2. V druhé instanci možnosti Upravit metadata vyberte všechny sloupce funkcí, které potřebujete v převedeném souboru ([Doba], [Frekvence], [Peněžní], [Čas]) a v části Pole vyberte Funkce.

Po správné identifikování sloupců můžete spustit modul Převést na SVMLight . Po převodu má prvních několik řádků datové sady Blood Dataset tento formát:

  • Hodnota popisku předchází každé položce, za kterou následují hodnoty [Recency], [Frequency], [Monetary] a [Time], identifikované jako funkce 1, 2, 3 a 4.

  • Hodnota popisku 0 v pátém řádku byla převedena na -1. Je to proto, že SVMLight podporuje pouze binární popisky klasifikace.

1 1:2 2:50 3:12500 4:98
1 1:0 2:13 3:3250 4:28
1 1:1 2:16 3:4000 4:35
1 1:2 2:20 3:5000 4:45
-1 1:1 2:24 3:6000 4:77

Tato textová data nemůžete přímo použít pro modely v Azure ML ani je vizualizovat. Můžete ho ale stáhnout do místní sdílené složky.

Když máte soubor otevřený, #doporučujeme přidat řádek komentáře s předek , abyste mohli přidat poznámky o zdroji nebo původních názvech sloupců funkcí.

Pokud chcete použít soubor SVMLight ve Vowpal Wabbitu a provést další úpravy, jak je popsáno tady: Převod na formát Vowpal Wabbit. Až bude soubor připravený, nahrajte ho do úložiště objektů blob v Azure a volejte ho přímo z jednoho z modulů Vowpal Wabbit.

Příklady

V tomto příkladu nejsou žádné Azure AI Gallery: které jsou specifické pro tento formát.

Technické poznámky

Tato část obsahuje podrobnosti o implementaci, tipy a odpovědi na nejčastější dotazy.

Tipy k používání

Spustitelné soubory poskytované v SVM-Light rozhraní vyžadují jak soubor s příkladem, tak soubor modelu. Tento modul ale vytvoří pouze příklad souboru. Soubor modelu musíte vytvořit samostatně pomocí knihoven SVMLight.

Příkladem je soubor, který obsahuje trénovací příklady.

  • Volitelná hlavička

    První řádky mohou obsahovat komentáře. Komentáře musí mít předponu se znaménkem čísla (#).

    Výstup formátu souboru převedením na SVMLight nevytváří hlavičky. Soubor můžete upravit přidáním komentářů, seznamu názvů sloupců atd.

  • Data pro trénink

    Každý případ je na vlastním řádku. Případ se skládá z cílové hodnoty následované řadou indexů a přidružených hodnot vlastností.

    Hodnota odpovědi musí být 1 nebo -1 pro klasifikaci nebo číslo pro regresi.

    Cílová hodnota a každý z párů index-hodnota jsou oddělené mezerou.

Příklad trénování dat

Následující tabulka ukazuje, jak se hodnoty ve sloupcích datové sady Two-Class Iris převedou na reprezentaci, ve které je každý sloupec reprezentovaný indexem, za kterým následuje dvojtečka a hodnota v tomto sloupci:

Iris Dataset Iris Dataset Converted to SVMLight
1 6.3 2.9 5.6 1.8 1 1:6.3 2:2.9 3:5.6 4:1.8
0 4.8 3.4 1.6 0.2 -1 1:4.8 2:3.4 3:1.6 4:0.2
1 7.2 3.2 6 1.8 1 1:7.2 2:3.2 3:6 4:1.8

Všimněte si, že při převodu se ztratí názvy sloupců funkcí.

Příprava souboru Vowpal Wabbit pomocí SVMLight

Formát SVMLight je podobný formátu, který používá Vowpal Wabbit. Pokud chcete změnit výstupní soubor SVMLight na formát použitelný pro trénování modelu Vowpal Wabbit, stačí přidat symbol kanálu mezi popisek a seznam funkcí.

Porovnejte například tyto řádky vstupu:

Formát Vowpal Wabbit, včetně volitelného komentáře

# features are [Recency], [Frequency], [Monetary], [Time]
1 | 1:2 2:50 3:12500 4:98
1 | 1:0 2:13 3:3250 4:28

Formát SVMLight včetně volitelného komentáře

# features are [Recency], [Frequency], [Monetary], [Time]
1 1:2 2:50 3:12500 4:98
1 1:0 2:13 3:3250 4:28

Očekávané vstupy

Název Typ Description
Datová sada Tabulka dat Vstupní datová sada

Výstup

Název Typ Description
Datová sada výsledků SvmLight Výstupní datová sada

Viz také

Převody formátu dat
Seznam modulů A až Z