Převod na SVMLight
Důležité
Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.
Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).
- Podívejte se na informace o přesunu projektů strojového učení z ML Studia (klasického) do Azure Machine Learning.
- Další informace o Azure Machine Learning.
Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.
Převede datový vstup do formátu, který používá SVM-Light framework.
Kategorie: Převody formátu dat
Poznámka
Platí pro: Machine Learning Studio (classic)
Podobné moduly s přetahováním jsou k dispozici v Azure Machine Learning návrháři.
Přehled modulu
Tento článek popisuje, jak pomocí modulu Převést na SVMLight v Machine Learning Studiu (klasickém) převést datové sady do formátu, který používá SVMLight.
Tento SVM-Light vyvinuli výzkumníci na Cornellově univerzitě. Knihovna SVM-Light implementuje metodu Support Vector Machine od Vapniku, ale formát byl přijat jinde a lze ho použít pro mnoho úloh strojového učení, včetně klasifikace a regrese.
Další informace najdete v tématu SvmLight Support Vector Machine.
Konfigurace funkce Převést na SVMLight
Převod na formát SVMLight zahrnuje převod každého případu na řádek dat, který začíná popiskem, následovaný dvojicemi funkcí a hodnot vyjádřených jako dvojtečkami oddělená čísly. Proces převodu automaticky ne identifikuje správné sloupce, takže je důležité, abyste sloupce v datové sadě připravili před pokusem o převod. Další informace najdete v tématu Příprava dat na převod.
Přidejte do experimentu modul Převést na SVMLight . Tento modul najdete v kategorii Převody formátu dat v Machine Learning Studiu (classic).
Připojení datovou sadu nebo výstup, které chcete převést do formátu SVMLight.
Spusťte experiment.
Klikněte pravým tlačítkem na výstup modulu, vyberte Stáhnout a uložte data do místního souboru pro úpravy nebo pro opakované použití s programem, který podporuje SVMLight.
Příprava dat pro převod
Pro ilustraci procesu převodu tento příklad používá datovou sadu Blood Dataset v sadě Studio (klasická).
Tato ukázková datová sada má následující formát v tabulkovém formátu.
Recience | Frekvence | Měnové | Čas | Třída |
---|---|---|---|---|
2 | 50 | 12500 | 98 | 1 |
0 | 13 | 3250 | 28 | 1 |
1 | 1 | 4000 | 35 | 1 |
2 | 20 | 5000 | 45 | 1 |
1 | 24 | 6000 | 77 | 0 |
Všimněte si, že sloupec popisku s názvem [Class] v této datové sadě je posledním sloupcem v tabulce. Pokud ale převedete datovou sadu na SVMLight bez předchozího označení, který sloupec obsahuje popisek, použije se jako popisek první sloupec [Recency] a sloupec [Class] se bude považovat za funkci:
2 1:50 2:12500 3:98 4:1
0 1:13 2:3250 3:28 4:1
1 1:16 2:4000 3:35 4:1
Abyste se ujistili, že se popisky pro každý případ správně generují na začátku řádku, musíte přidat dvě instance modulu Upravit metadata .
V první instanci upravit metadata vyberte sloupec popisku ([Třída]) a jako Pole vyberte Popisek.
V druhé instanci možnosti Upravit metadata vyberte všechny sloupce funkcí, které potřebujete v převedeném souboru ([Doba], [Frekvence], [Peněžní], [Čas]) a v části Pole vyberte Funkce.
Po správné identifikování sloupců můžete spustit modul Převést na SVMLight . Po převodu má prvních několik řádků datové sady Blood Dataset tento formát:
Hodnota popisku předchází každé položce, za kterou následují hodnoty [Recency], [Frequency], [Monetary] a [Time], identifikované jako funkce 1, 2, 3 a 4.
Hodnota popisku 0 v pátém řádku byla převedena na -1. Je to proto, že SVMLight podporuje pouze binární popisky klasifikace.
1 1:2 2:50 3:12500 4:98
1 1:0 2:13 3:3250 4:28
1 1:1 2:16 3:4000 4:35
1 1:2 2:20 3:5000 4:45
-1 1:1 2:24 3:6000 4:77
Tato textová data nemůžete přímo použít pro modely v Azure ML ani je vizualizovat. Můžete ho ale stáhnout do místní sdílené složky.
Když máte soubor otevřený, #
doporučujeme přidat řádek komentáře s předek , abyste mohli přidat poznámky o zdroji nebo původních názvech sloupců funkcí.
Pokud chcete použít soubor SVMLight ve Vowpal Wabbitu a provést další úpravy, jak je popsáno tady: Převod na formát Vowpal Wabbit. Až bude soubor připravený, nahrajte ho do úložiště objektů blob v Azure a volejte ho přímo z jednoho z modulů Vowpal Wabbit.
Příklady
V tomto příkladu nejsou žádné Azure AI Gallery: které jsou specifické pro tento formát.
Technické poznámky
Tato část obsahuje podrobnosti o implementaci, tipy a odpovědi na nejčastější dotazy.
Tipy k používání
Spustitelné soubory poskytované v SVM-Light rozhraní vyžadují jak soubor s příkladem, tak soubor modelu. Tento modul ale vytvoří pouze příklad souboru. Soubor modelu musíte vytvořit samostatně pomocí knihoven SVMLight.
Příkladem je soubor, který obsahuje trénovací příklady.
Volitelná hlavička
První řádky mohou obsahovat komentáře. Komentáře musí mít předponu se znaménkem čísla (#).
Výstup formátu souboru převedením na SVMLight nevytváří hlavičky. Soubor můžete upravit přidáním komentářů, seznamu názvů sloupců atd.
Data pro trénink
Každý případ je na vlastním řádku. Případ se skládá z cílové hodnoty následované řadou indexů a přidružených hodnot vlastností.
Hodnota odpovědi musí být 1 nebo -1 pro klasifikaci nebo číslo pro regresi.
Cílová hodnota a každý z párů index-hodnota jsou oddělené mezerou.
Příklad trénování dat
Následující tabulka ukazuje, jak se hodnoty ve sloupcích datové sady Two-Class Iris převedou na reprezentaci, ve které je každý sloupec reprezentovaný indexem, za kterým následuje dvojtečka a hodnota v tomto sloupci:
Iris Dataset | Iris Dataset Converted to SVMLight |
---|---|
1 6.3 2.9 5.6 1.8 | 1 1:6.3 2:2.9 3:5.6 4:1.8 |
0 4.8 3.4 1.6 0.2 | -1 1:4.8 2:3.4 3:1.6 4:0.2 |
1 7.2 3.2 6 1.8 | 1 1:7.2 2:3.2 3:6 4:1.8 |
Všimněte si, že při převodu se ztratí názvy sloupců funkcí.
Příprava souboru Vowpal Wabbit pomocí SVMLight
Formát SVMLight je podobný formátu, který používá Vowpal Wabbit. Pokud chcete změnit výstupní soubor SVMLight na formát použitelný pro trénování modelu Vowpal Wabbit, stačí přidat symbol kanálu mezi popisek a seznam funkcí.
Porovnejte například tyto řádky vstupu:
Formát Vowpal Wabbit, včetně volitelného komentáře
# features are [Recency], [Frequency], [Monetary], [Time]
1 | 1:2 2:50 3:12500 4:98
1 | 1:0 2:13 3:3250 4:28
Formát SVMLight včetně volitelného komentáře
# features are [Recency], [Frequency], [Monetary], [Time]
1 1:2 2:50 3:12500 4:98
1 1:0 2:13 3:3250 4:28
Očekávané vstupy
Název | Typ | Description |
---|---|---|
Datová sada | Tabulka dat | Vstupní datová sada |
Výstup
Název | Typ | Description |
---|---|---|
Datová sada výsledků | SvmLight | Výstupní datová sada |