Sdílet prostřednictvím


Rozdělení a ukázky

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Vytvoří více oddílů datové sady na základě vzorkování.

Kategorie: transformace/ukázka a rozdělení dat

Poznámka

platí pro: jenom Machine Learning Studio (classic)

podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.

Přehled modulu

tento článek popisuje, jak pomocí oddílu a ukázkového modulu v aplikaci Machine Learning Studio (classic) provést vzorkování s datovou sadou nebo vytvořit oddíly z datové sady.

Vzorkování je důležitý nástroj ve strojovém učení, protože umožňuje zmenšit velikost datové sady a přitom zachovat stejný poměr hodnot. Tento modul podporuje několik souvisejících úloh, které jsou důležité ve strojovém učení:

  • Rozdělení dat do více dílčích částí stejné velikosti.

    Oddíly můžete použít pro křížové ověřování nebo pro přiřazení případů k náhodným skupinám.

  • Oddělení dat do skupin a následné práce s daty z konkrétní skupiny.

    Po náhodném přiřazení případů do různých skupin budete možná muset upravit funkce, které jsou přidružené jenom k jedné skupině.

  • Kontrol.

    Můžete extrahovat procentuální podíl dat, použít náhodné vzorkování nebo zvolit sloupec, který se má použít k vyvážení datové sady a provádět vzorkování stratified na svých hodnotách.

  • Vytváření menší datové sady pro testování.

    Pokud máte velké množství dat, můžete při nastavování experimentu použít jenom prvních n řádků a pak při sestavování modelu přepnout na použití úplné datové sady. Vzorkování můžete také použít k vytvoření s menší datovou sadou pro použití při vývoji.

Postup konfigurace oddílu a vzorku

Tento modul podporuje více metod, jak rozdělit data do oddílů nebo pro vzorkování. Zvolte nejprve metodu a pak nastavte další možnosti vyžadované metodou.

  • Získat nejvyšší počet řádků

Získat HORNÍch N řádků z datové sady

Tento režim použijte k získání pouze prvních n řádků. Tato možnost je užitečná, pokud chcete otestovat experiment na malém počtu řádků a nepotřebujete, aby data byla vyrovnávána nebo odebírána jakýmkoli způsobem.

  1. Přidejte oddíl a vzorový modul do experimentu v studiu (Classic) a připojte datovou sadu.

  2. Oddíl nebo vzorový režim: nastavte tuto možnost na head.

  3. Počet řádků, které se mají vybrat: zadejte počet řádků, které se mají vrátit.

    Počet řádků, které zadáte, musí být nezáporné celé číslo. Pokud je počet vybraných řádků větší než počet řádků v datové sadě, vrátí se celá datová sada.

  4. Spusťte experiment.

Modul výstupuje jedinou datovou sadu obsahující pouze zadaný počet řádků. Řádky jsou vždy čteny z horní části datové sady.

Vytvoření ukázkového data

Tato možnost podporuje jednoduché náhodné vzorkování nebo náhodné vzorkování stratified. To je užitečné, pokud chcete vytvořit menší reprezentativní ukázkovou datovou sadu pro testování.

  1. Přidejte oddíl a vzorový modul do experimentu v studiu (Classic) a připojte datovou sadu.

  2. Oddíl nebo vzorový režim: nastavte tuto hodnotu na vzorkování.

  3. Frekvence vzorkování: zadejte hodnotu mezi 0 a 1. Tato hodnota určuje procento řádků ze zdrojové datové sady, které by měly být zahrnuty do výstupní datové sady.

    Pokud například potřebujete jenom polovinu původní datové sady, zadejte 0.5 , že chcete, aby frekvence vzorkování byla 50%.

    Řádky vstupní datové sady jsou v režimu bez omezení a selektivně vloženy do výstupní datové sady podle zadaného poměru.

  4. Náhodný základ pro vzorkování: Volitelně můžete zadat celé číslo, které se má použít jako počáteční hodnota.

    Tato možnost je důležitá, pokud chcete, aby byly řádky v každém okamžiku rozděleny stejným způsobem. Výchozí hodnota je 0, což znamená, že počáteční počáteční hodnota se vygeneruje na základě systémových hodin. To může vést ke vzniku mírně odlišných výsledků pokaždé, když spustíte experiment.

  5. Stratified rozdělení pro vzorkování: tuto možnost vyberte, pokud je důležité, aby řádky v datové sadě byly před vzorkováním rovnoměrně rozděleny podle sloupce klíče.

    Pro sloupec Key rozvrstvení pro vzorkovánívyberte jeden sloupec vrstvy , který se použije při rozdělování datové sady. Řádky v datové sadě se pak rozdělí takto:

    1. Všechny vstupní řádky jsou seskupené (stratified) podle hodnot v zadaném sloupci vrstvy.

    2. Řádky jsou v rámci každé skupiny v rozmísené.

    3. Každá skupina je selektivně přidaná do výstupní datové sady, aby splňovala zadaný poměr.

    Další informace o vzorkování stratified najdete v části technické poznámky .

  6. Spusťte experiment.

    Pomocí této možnosti modul výstupuje jedinou datovou sadu, která obsahuje reprezentativní vzorkování dat.

    Zbývající nevzorkovaná část DataSet není ve výstupu. k určení, které řádky se nepoužívaly, ale můžete vytvořit připojení k datovým sadám pomocí modulu použít SQL transformaci .

Rozdělit data na oddíly

Tuto možnost použijte, pokud chcete datovou sadu rozdělit na podmnožiny dat. Tato možnost je užitečná také v případě, že chcete vytvořit vlastní počet skládání pro křížové ověření, nebo rozdělit řádky do několika skupin.

  1. Přidejte oddíl a vzorový modul do experimentu v studiu (Classic) a připojte datovou sadu.

  2. Pro oddíl nebo vzorový režimvyberte přiřadit k skládání.

  3. Použití náhrady při dělení: tuto možnost vyberte, pokud chcete, aby byl vzorový řádek vrácen zpět do fondu řádků pro potenciální opakované použití. V důsledku toho může být stejný řádek přiřazen několika skládáními.

    Pokud nepoužijete náhradu (výchozí možnost), vzorový řádek se nevrátí zpět do fondu řádků pro potenciální opakované použití. Výsledkem je, že každý řádek lze přiřadit pouze k jednomu skládání.

  4. Náhodné rozdělení: tuto možnost vyberte, pokud chcete, aby byly řádky náhodně přiřazeny k skládání.

    Pokud tuto možnost nevyberete, řádky se přiřadí k skládání pomocí metody kruhového dotazování.

  5. Náhodné osazení: Volitelně zadejte celé číslo, které se má použít jako hodnota počáteční hodnoty. Tato možnost je důležitá, pokud chcete, aby byly řádky v každém okamžiku rozděleny stejným způsobem. V opačném případě výchozí hodnota 0 znamená, že bude použito náhodné počáteční osivo.

  6. Zadejte metodu rozdělovače: Určete, jakým způsobem mají být data rozdělena do jednotlivých oddílů, pomocí těchto možností:

    • Rozdělit rovnoměrně: tuto možnost použijte, pokud chcete umístit stejný počet řádků do každého oddílu. Chcete-li zadat počet výstupních oddílů, zadejte celé číslo v poli Zadejte počet přeložení, které chcete rozdělit rovnoměrně do textového pole.

    • Oddíl s přizpůsobenými poměry: tuto možnost použijte, pokud chcete určit velikost každého oddílu jako seznam oddělený čárkami.

      Pokud například chcete vytvořit tři oddíly s prvním oddílem obsahujícím 50% dat a zbývající dva oddíly, které obsahují 25% dat, klikněte na pole se seznamem proporcí oddělené čárkami a zadejte tato čísla: .5, .25, .25

      Součet všech velikostí oddílů musí být přidán přesně na 1.

      • Pokud zadáte čísla, která přidají méně než 1, vytvoří se další oddíl, který bude obsahovat zbývající řádky. Pokud například zadáte hodnoty .2 a .3, vytvoří se třetí oddíl, který obsahuje zbývající 50% všech řádků.

      • Pokud zadáte čísla, která se dají přidat až do 1, při spuštění experimentu se vyvolá chyba.

  7. Stratified rozdělení: tuto možnost vyberte, pokud chcete, aby se řádky Stratified při rozdělení, a pak vyberte sloupec vrstvy.

    Další informace o vzorkování stratified najdete v části technické poznámky .

  8. Spusťte experiment.

    Pomocí této možnosti modul výstupuje více datových sad, které jsou rozdělené podle zadaných pravidel.

Použití dat z předdefinovaného oddílu

Tato možnost se používá, pokud jste rozdělili datovou sadu do několika oddílů a teď chcete načíst jednotlivé oddíly, a dále analyzovat nebo zpracovávat.

  1. Přidejte oddíl a vzorový modul do experimentu v nástroji Studio (Classic).

  2. Připojení na výstup předchozí instance oddílu a vzorku. Aby bylo možné vygenerovat určitý počet oddílů, musí tato instance používat možnost přiřadit k skládání .

  3. Oddíl nebo vzorový režim: vyberte vybrat skládání.

  4. Určete, ze kterého skládáníse mají vzorkovat: vyberte oddíl, který chcete použít, zadáním jeho indexu. Indexy oddílů jsou založené na 1. Například pokud jste datovou sadu rozdělili na tři části, oddíly budou mít indexy 1, 2 a 3.

    Pokud zadáte neplatnou hodnotu indexu, dojde k chybě v době návrhu: "Error 0018: DataSet obsahuje neplatná data."

    Kromě seskupení datové sady pomocí skládání lze datovou sadu Oddělit do dvou skupin: cílové skládání a všechno ostatní. Provedete to tak, že zadáte index jednoho skládání a potom vyberete možnost, vyberete doplněk vybrané skládánía získáte vše, ale data v zadaném skládání.

  5. Pokud pracujete s více oddíly, je nutné přidat další instance oddílu a vzorový modul pro zpracování jednotlivých oddílů.

    Řekněme například, že dřív Předělené pacienty do pěti skládání za použití stáří. Chcete-li pracovat s jednotlivými skládáními, potřebujete pět kopií oddílu a vzorového modulu a v každém z nich vyberete jiné skládání.

    Tip

    Vzorový experiment, rozdělený oddíl a Sample, demonstruje tuto techniku.

  6. Spusťte experiment.

    Pomocí této možnosti modul výstupuje jedinou datovou sadu obsahující pouze řádky přiřazené k tomuto přeložení.

Poznámka

Nemůžete zobrazit označení skládání přímo; jsou k dispozici pouze v metadatech.

Příklady

Příklady toho, jak se tento modul používá, najdete v Azure AI Gallery:

  • Vzájemné ověřování pro binární klasifikaci: pro vytvoření menší náhodně navzorkovaných datové sady se použije 20% vzorkovací frekvence. Původní objekt pro sčítání obsahoval více než 30 000 řádků; Ukázková datová sada má přibližně 6500.

  • Křížové ověření regrese: data jsou náhodně a rovnoměrně přiřazena k pěti skládáním bez rozdělení a výsledky se používají pro křížové ověřování.

  • Rozdělit oddíl a ukázku: ukazuje více způsobů použití dělení a vzorkování. Nejprve se k přiřazení řádků v datové sadě k jedné ze tří rovnoměrně velkých skupin používá možnost přiřadit k skládání . Pak se tři další instance oddílů a ukázek přidají pomocí režimu skládání výběru , aby se operace používaly v podmnožinách dat.

    • V prvním skládání (index 1) jsou řádky náhodně rozděleny.
    • Ve druhém skládání (index 2) jsou řádky rozděleny podle vzdělání.
    • Ve třetím skládání (index ze 3) jsou řádky rozdělené podle stáří.

Technické poznámky

  • Sloupec rozvrstvení musí být kategorií s diskrétními hodnotami. Pokud sloupec ještě není kategorií a zobrazí se chyba, změňte vlastnosti sloupce pomocí možnosti Upravit metadata .

  • Sloupec vrstvy, který zadáte, nesmí obsahovat průběžná data: to znamená, že číselná data s hodnotami s plovoucí desetinnou čárkou v každé buňce. V opačném případě modul nemůže zpracovat data a vrátí chybu.

    Důvodem je, že každý sloupec, který se používá pro rozdělení na více verzí, musí mít konečnou sadu možných hodnot. Pokud zadaný sloupec vrstvy obsahuje všechny hodnoty s plovoucí desetinnou čárkou a sloupec není typu kategorií, potenciálně obsahuje nekonečný počet hodnot.

  • Pokud sloupec vrstvy obsahuje logické hodnoty a chcete je interpretovat jako kategorií, je nutné použít modul Upravit metadata a změnit popisek metadat.

  • Pokud sloupec vrstvy obsahuje řetězec nebo číselná data s příliš velkým počtem jedinečných hodnot, sloupec není dobrým kandidátem na vzorkování stratified.

Další informace o vzorkování stratified

Vzorkování Stratified zajišťuje, že podmnožiny dat mají reprezentativní vzorkování vybraného sloupce vrstvy. Tato technika je užitečná například v případě, že chcete zajistit, že vaše školicí data obsahují stejnou distribuci věkových hodnot, které mají testovací data nebo naopak. Nebo můžete chtít stratify sloupec pohlaví v rámci studie péče o zdravotní péči, abyste zajistili, že se samci a samici mají rovnoměrně rozmístit, když budou data rozdělená na oddíly. Rozvrstvení zajišťuje zachování poměrů vybraných hodnot.

Hodnoty, na které chcete data oddělit, určíte tak, že vyberete jeden sloupec, který bude sloužit jako sloupec vrstev.

Tento modul vyžaduje, aby sloupec vrstvy byl kategorií sloupec. Pokud chcete použít sloupec celočíselných hodnot pro vrstvy, je osvědčeným postupem přiřazení kategorií typu k tomuto sloupci. můžete to provést pomocí schématu dat před tím, než ho přidáte do Machine Learning studia (classic), nebo můžete aktualizovat metadata sloupce pomocí Edit metadata.

Sloupce se souvislými daty (tj. číselné údaje s hodnotami s plovoucí desetinnou čárkou v jednotlivých buňkách) nelze použít jako sloupce vrstev. Pokud se zobrazí chyba, můžete k seřadíní hodnot do diskrétních rozsahů použít data skupin do přihrádek a pak pomocí Upravit metadata zaručit, že se sloupec bude považovat za kategorií.

Očekávané vstupy

Název Typ Description
Datová sada Tabulka dat Datová sada, která se má rozdělit

Parametry modulu

Name Rozsah Typ Výchozí Description
Oddíl nebo vzorový režim Seznam Metody vzorkování Vzorkování Vyberte oddíl nebo režim vzorkování.
Použití náhrady při dělení Všechny Logická hodnota Ne Určete, jestli se mají přeložení odkrývat (výchozí hodnota bez náhrady) nebo překrývající se (true – použít nahrazení).
Náhodné rozdělení Všechny Logická hodnota Ano Označuje, zda je rozdělení náhodné.
Náhodné osazení Všechny Integer 0 Zadejte počáteční hodnotu generátoru náhodných čísel.
Zadat metodu rozdělovače Seznam Metody oddílu Rozdělit rovnoměrně Pokud chcete rozdělit oddíly na velikost se stejnou velikostí nebo rozdělit na oddíly pomocí přizpůsobených proporcí , přidělte je na skládání přizpůsobených velikostí.
Zadejte počet přeložení, které chcete rozdělit rovnoměrně na >= 1 Integer 5 Vyberte počet oddílů, které se mají rozdělit.
Stratified rozdělení Seznam Typ true nebo false Ne Označení, zda je rozdělení stratified
Sloupec klíče ve vrstvách Všechny ColumnSelection Obsahuje klíč rozvrstvení
Seznam proporcí oddělených čárkou Všechny Řetězec Seznam poměrů oddělených čárkami
Stratifikované rozdělení pro přizpůsobené přiřazení násobku Všechny Typ Pravda/Nepravda Ne Určete, jestli je rozdělení vrstvené pro přizpůsobená přiřazení násobků.
Sloupec klíče rozvrstvení pro přizpůsobené přiřazení násobku Všechny Výběr sloupce Obsahuje klíč pro vrstvení pro přizpůsobená přiřazení násobků.
Určení posouní, ze kterého se má vzorkovat >=1 Integer 1 Obsahuje index násobku, který se má vzorkovat.
Výběr doplňku vybraného násobku Všechny Logická hodnota Ne Výběr doplňku zadaného násobku
Frekvence vzorkování Všechny Float 0,01 Volba vzorkovací frekvence
Náhodné seedy pro vzorkování Všechny Integer 0 Určení předsíně pro generátor náhodných čísel pro vzorkování
Stratifikované rozdělení pro vzorkování Všechny Pravda/nepravda Ne Určete, jestli je rozdělení vrstvené pro vzorkování.
Sloupec klíče rozvrstvení pro vzorkování Všechny Výběr sloupce Obsahuje klíč pro vrstvení pro vzorkování.
Počet řádků k výběru >=0 Integer 10 Vyberte maximální počet záznamů, které se budou moci předat do dalšího modulu.

Výstupy

Název Typ Description
oDataset Tabulka dat Datová sada vyplývající z rozdělení

Viz také

Ukázka a rozdělení
Rozdělení dat
Úpravy metadat
Seskupení dat do přihrádek