Seskupovat data do přihrádek

Tento článek popisuje, jak pomocí komponenty Seskupit data do přihrádek v návrháři služby Azure Machine Learning seskupit čísla nebo změnit distribuci průběžných dat.

Komponenta Seskupování dat do přihrádek podporuje několik možností binningu dat. Můžete přizpůsobit, jak se nastaví hrany přihrádky a jak se hodnoty přiřadí do přihrádek. Můžete například:

  • Ručně zadejte řadu hodnot, které budou sloužit jako hranice intervalu.
  • Přiřaďte hodnoty k intervalům pomocí kvantilí nebo percentilových pořadí.
  • Vynutí rovnoměrné rozdělení hodnot do intervalů.

Další informace o binningu a seskupení

Binning nebo seskupování dat (někdy označované jako kvantování) je důležitým nástrojem při přípravě číselných dat pro strojové učení. Je to užitečné v těchto scénářích:

  • Sloupec souvislých čísel má příliš mnoho jedinečných hodnot, aby bylo možné efektivně modelovat. Proto automaticky nebo ručně přiřadíte hodnoty skupinám, abyste vytvořili menší sadu diskrétních oblastí.

  • Chcete nahradit sloupec čísel hodnotami kategorií, které představují konkrétní oblasti.

    Můžete například chtít seskupit hodnoty ve sloupci stáří tak, že zadáte vlastní rozsahy, například 1–15, 16–22, 23–30 atd.

  • Datová sada má několik extrémních hodnot, všechny mimo očekávaný rozsah, a tyto hodnoty mají na trénovaný model velký vliv. Pokud chcete zmírnit předsudky v modelu, můžete data transformovat na jednotnou distribuci pomocí metody kvantantiles.

    Při použití této metody určuje komponenta Seskupit data do přihrádek ideální umístění a šířky přihrádky, aby se zajistilo, že do každé přihrádky spadá přibližně stejný počet vzorků. V závislosti na metodě normalizace, kterou zvolíte, se pak hodnoty v intervalech buď transformují na percentily, nebo se mapují na číslo intervalu.

Příklady binningu

Následující diagram znázorňuje rozdělení číselných hodnot před a po binningu pomocí metody kvantiles . Všimněte si, že v porovnání s nezpracovanými daty nalevo jsou data binována a transformována na jednotkově normální měřítko.

Vizualizace výsledků

Vzhledem k tomu, že existuje mnoho způsobů, jak data seskupit a všechny přizpůsobitelné, doporučujeme experimentovat s různými metodami a hodnotami.

Konfigurace skupinových dat do přihrádek

  1. Přidejte komponentu Seskupit data do přihrádek do kanálu v návrháři. Tuto komponentu najdete v kategorii Transformace dat.

  2. Připojte datovou sadu, která obsahuje číselná data, k přihrádce. Kvantování lze použít pouze u sloupců, které obsahují číselná data.

    Pokud datová sada obsahuje nečíselné sloupce, pomocí komponenty Vybrat sloupce v datové sadě vyberte podmnožinu sloupců, se kterými chcete pracovat.

  3. Zadejte režim binningu. Režim binningu určuje další parametry, proto nejprve vyberte možnost Režim binningu . Podporují se následující typy binningu:

    • Kvantily: Metoda kvantilí přiřazuje hodnoty do intervalů na základě pořadí percentilu. Tato metoda se také označuje jako binning s rovnou výškou.

    • Rovná šířka: Při použití této možnosti musíte zadat celkový počet přihrádek. Hodnoty ze sloupce dat jsou umístěny do intervalů tak, aby každá přihrádka měla stejný interval mezi počáteční a koncovou hodnotou. V důsledku toho můžou mít některé přihrádky více hodnot, pokud jsou data kolem určitého bodu shlukovaná.

    • Vlastní hrany: Můžete zadat hodnoty, které začínají každou přihrádku. Hodnota okraje je vždy dolní hranice intervalu.

      Předpokládejme například, že chcete seskupit hodnoty do dvou intervalů. Jeden bude mít hodnoty větší než 0 a jeden bude mít hodnoty menší nebo rovno 0. V tomto případě pro hrany přihrádky zadáte 0 do seznamu okrajů intervalu oddělených čárkami. Výstup komponenty bude 1 a 2, což označuje index bin pro každou hodnotu řádku. Všimněte si, že seznam hodnot oddělených čárkami musí být ve vzestupném pořadí, například 1, 3, 5, 7.

    Poznámka

    Režim Entropy MDL je definován v aplikaci Studio (classic) a zatím neexistuje žádný odpovídající balíček open source, který by bylo možné využít k podpoře v Návrháři.

  4. Pokud používáte binningové režimy Quantiles a Equal Width , pomocí možnosti Počet přihrádek určete, kolik přihrádek nebo kvantilí chcete vytvořit.

  5. Pro sloupce do intervalu použijte selektor sloupců a zvolte sloupce, které mají hodnoty, které chcete přihrádky rozdělit. Sloupce musí být číselný datový typ.

    Stejné pravidlo binningu se použije pro všechny příslušné sloupce, které zvolíte. Pokud potřebujete rozdělit do intervalu některé sloupce pomocí jiné metody, použijte pro každou sadu sloupců samostatnou instanci komponenty Seskupit data do přihrádek.

    Upozornění

    Pokud zvolíte sloupec, který není povolený typ, vygeneruje se chyba za běhu. Jakmile komponenta najde libovolný sloupec zakázaného typu, vrátí chybu. Pokud se zobrazí chyba, zkontrolujte všechny vybrané sloupce. Chyba neobsahuje seznam všech neplatných sloupců.

  6. V části Režim výstupu zadejte, jak chcete kvantovat hodnoty:

    • Připojení: Vytvoří nový sloupec s hodnotami ve formátu binned a připojí ho ke vstupní tabulce.

    • Inplace: Nahradí původní hodnoty novými hodnotami v datové sadě.

    • ResultOnly: Vrátí pouze sloupce výsledků.

  7. Pokud vyberete režim binningu Quantiles , pomocí možnosti normalizace kvantál před řazením do kvantálů určete, jak se normalizují hodnoty. Všimněte si, že normalizace hodnot transformuje hodnoty, ale nemá vliv na konečný počet intervalů.

    Podporují se následující typy normalizace:

    • Procento: Hodnoty jsou normalizovány v rozsahu [0,100].

    • PQuantile: Hodnoty jsou normalizovány v rozsahu [0,1].

    • QuantileIndex: Hodnoty jsou normalizovány v rozsahu [1,počet intervalů].

  8. Pokud zvolíte možnost Vlastní hrany , zadejte seznam čísel oddělených čárkami, který chcete použít jako hrany přihrádek do textového pole Seznam okrajů oddělených čárkami.

    Hodnoty označují bod, který rozděluje intervaly. Pokud například zadáte jednu hodnotu okraje přihrádky, vygenerují se dvě přihrádky. Pokud zadáte dvě hodnoty okrajů přihrádky, vygenerují se tři intervaly.

    Hodnoty musí být seřazeny v pořadí, ve jakém jsou vytvořeny intervaly, od nejnižšího po nejvyšší.

  9. Výběrem možnosti Označit sloupce jako kategorické označte, že se mají kvantované sloupce zpracovávat jako proměnné kategorií.

  10. Odešlete kanál.

Výsledky

Komponenta Seskupit data do přihrádek vrátí datovou sadu, ve které byl každý prvek binován podle zadaného režimu.

Vrátí také binningovou transformaci. Tuto funkci je možné předat komponentě Použít transformaci na přihrádku nových vzorků dat pomocí stejného režimu binningu a parametrů.

Tip

Pokud u trénovacích dat používáte binning, musíte pro data použít stejnou metodu binningu, kterou používáte k testování a predikci. Musíte také použít stejná umístění přihrádek a šířku přihrádky.

Pokud chcete zajistit, aby se data vždy transformovala pomocí stejné metody binningu, doporučujeme uložit užitečné transformace dat. Potom je použijte u jiných datových sad pomocí komponenty Použít transformaci .

Další kroky

Projděte si sadu komponent dostupných pro Azure Machine Learning.