Sdílet prostřednictvím


Upravit komponentu Metadata

Tento článek popisuje komponentu, která je součástí návrháře služby Azure Machine Learning.

Pomocí komponenty Upravit metadata můžete změnit metadata přidružená ke sloupcům v datové sadě. Hodnota a datový typ datové sady se po použití komponenty Upravit metadata změní.

Mezi typické změny metadat patří:

  • Zacházení s logickými nebo číselnými sloupci jako s hodnotami kategorií

  • Určuje, který sloupec obsahuje popisek třídy nebo obsahuje hodnoty, které chcete zařadit do kategorií nebo předpovědět.

  • Označení sloupců jako funkcí

  • Změna hodnot data a času na číselné hodnoty nebo naopak

  • Přejmenování sloupců

Upravit metadata používejte vždy, když potřebujete upravit definici sloupce, obvykle tak, aby splňovala požadavky na podřízenou komponentu. Některé komponenty například pracují pouze s konkrétními datovými typy nebo vyžadují příznaky ve sloupcích, například IsFeature nebo IsCategorical.

Po provedení požadované operace můžete obnovit metadata do původního stavu.

Konfigurace metadat pro úpravy

  1. V návrháři služby Azure Machine Learning přidejte do kanálu komponentu Upravit metadata a připojte datovou sadu, kterou chcete aktualizovat. Komponentu najdete v kategorii Transformace dat.

  2. Klikněte na Upravit sloupec v pravém panelu komponenty a zvolte sloupec nebo sadu sloupců, se kterými chcete pracovat. Sloupce můžete zvolit jednotlivě podle názvu nebo indexu nebo můžete vybrat skupinu sloupců podle typu.

  3. Pokud potřebujete přiřadit k vybraným sloupcům jiný datový typ, vyberte možnost Datový typ. Možná budete muset změnit datový typ pro určité operace. Pokud například zdrojová datová sada obsahuje čísla zpracovávaná jako text, musíte je před použitím matematických operací změnit na číselný datový typ.

    • Podporované datové typy jsou String, Integer, Double, Boolean a DateTime.

    • Pokud vyberete více sloupců, musíte u všech vybraných sloupců použít změny metadat. Řekněme například, že zvolíte dva nebo tři číselné sloupce. Můžete je změnit na datový typ řetězce a přejmenovat je v jedné operaci. Nemůžete ale změnit jeden sloupec na datový typ řetězce a jiný sloupec z float na celé číslo.

    • Pokud nezadáte nový datový typ, metadata sloupců se nezmění.

    • Typ sloupce a hodnoty se po provedení operace Upravit metadata změní. Původní datový typ můžete kdykoli obnovit pomocí funkce Upravit metadata k resetování datového typu sloupce.

    Poznámka:

    Formát DateTime se řídí předdefinovaný formát datetime v Pythonu.
    Pokud změníte libovolný typ čísla na typ DateTime, ponechte pole DateTime Format prázdné. V současné době není možné zadat cílový formát dat.

  4. Pokud chcete určit, že se hodnoty ve vybraných sloupcích mají považovat za kategorie, vyberte možnost Zařadit do kategorií.

    Můžete mít například sloupec, který obsahuje čísla 0, 1 a 2, ale víte, že čísla ve skutečnosti znamenají "Kouři", "Nekuřač" a "Neznámý". V takovém případě tím, že sloupec označíte příznakem jako kategorický, zajistíte, že se hodnoty použijí jenom k seskupení dat a ne k číselným výpočtům.

  5. Pokud chcete změnit způsob, jakým Azure Machine Learning používá data v modelu, použijte možnost Pole.

    • Funkce: Tuto možnost použijte k označení sloupce jako funkce v součástech, které pracují pouze se sloupci funkcí. Ve výchozím nastavení se všechny sloupce zpočátku považují za funkce.

    • Popisek: Tuto možnost použijte k označení popisku, který se označuje také jako předvídatelný atribut nebo cílová proměnná. Mnoho komponent vyžaduje, aby v datové sadě byl právě jeden sloupec popisku.

      V mnoha případech může Azure Machine Learning odvodit, že sloupec obsahuje popisek třídy. Nastavením těchto metadat můžete zajistit, aby byl sloupec správně identifikován. Nastavení této možnosti nemění hodnoty dat. Mění se pouze způsob, jakým některé algoritmy strojového učení zpracovávají data.

    Tip

    Máte data, která se nevejdou do těchto kategorií? Vaše datová sada může například obsahovat hodnoty, jako jsou jedinečné identifikátory, které nejsou užitečné jako proměnné. Někdy můžou taková ID způsobovat problémy při použití v modelu.

    Azure Machine Learning naštěstí uchovává všechna vaše data, takže tyto sloupce nemusíte z datové sady odstraňovat. Pokud potřebujete provádět operace s určitou speciální sadou sloupců, stačí dočasně odebrat všechny ostatní sloupce pomocí komponenty Vybrat sloupce v datové sadě . Později můžete sloupce sloučit zpět do datové sady pomocí komponenty Přidat sloupce .

  6. Pomocí následujících možností zrušte zaškrtnutí předchozích výběrů a obnovte metadata na výchozí hodnoty.

    • Vymazat funkci: Tuto možnost použijte k odebrání příznaku funkce.

      Všechny sloupce se zpočátku považují za funkce. U komponent, které provádějí matematické operace, můžete tuto možnost použít, abyste zabránili tomu, aby se číselné sloupce zacházelo jako s proměnnými.

    • Vymazat popisek: Tuto možnost použijte k odebrání metadat popisků ze zadaného sloupce.

    • Vymazat skóre: Tuto možnost použijte k odebrání metadat skóre ze zadaného sloupce.

      V současné době nemůžete sloupec explicitně označit jako skóre ve službě Azure Machine Learning. Některé operace ale vedou k internímu označení sloupce jako skóre. Vlastní komponenta jazyka R může také výstupní hodnoty skóre.

  7. Do pole Nové názvy sloupců zadejte nový název vybraného sloupce nebo sloupců.

    • Názvy sloupců můžou používat pouze znaky podporované kódováním UTF-8. Prázdné řetězce, hodnoty null nebo názvy, které se skládají výhradně z mezer, nejsou povolené.

    • Pokud chcete přejmenovat více sloupců, zadejte názvy jako seznam oddělený čárkami v pořadí indexů sloupců.

    • Všechny vybrané sloupce musí být přejmenovány. Sloupce nemůžete vynechat ani přeskočit.

  8. Odešlete kanál.

Další kroky

Podívejte se na sadu komponent dostupných pro Azure Machine Learning.