Sdílet prostřednictvím


Ruční zadávání dat

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Umožňuje zadávat a upravovat malé datové sady zadáním hodnot.

Kategorie: transformace nebo manipulace s daty

Poznámka

platí pro: jenom Machine Learning Studio (classic)

podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.

Přehled modulu

tento článek popisuje, jak pomocí modulu zadat Data ručně v Machine Learning studiu (classic) vytvořit malou datovou sadu zadáním hodnot. Datová sada může mít více sloupců.

Tento modul může být užitečný ve scénářích, jako jsou tyto:

Ruční použití ENTER data

  1. Přidejte do experimentu modul zadat data ručně . tento modul můžete najít v kategorii vstup a výstup dat v Machine Learning studiu (classic).

  2. V poli Formát DataFormatvyberte jednu z následujících možností. Tyto možnosti určují, jak se mají analyzovat data, která zadáte. Požadavky na jednotlivé formáty se značně liší, proto si nezapomeňte přečíst Příbuzná témata.

    • Arff. Formát souboru relace atributu, který používá weka. Další informace najdete v tématu převod na arff.

    • Sdílený svazek clusteru. Formát hodnot oddělených čárkami. Další informace najdete v tématu převedení do sdíleného svazku clusteru.

    • SVMLight. Formát používaný pro dostupné a dalšími architekturami strojového učení. Další informace najdete v tématu převod na SVMLight.

    • TSV. Formát hodnot oddělených tabulátorem. Další informace najdete v tématu převedení na TSV.

    Pokud zvolíte Formát a neposkytnete data, která vyhovují specifikacím formátu, dojde k chybě modulu runtime.

  3. Klikněte do textového pole data a začněte zadávat data. Následující formáty vyžadují zvláštní pozornost:

    • CSV: pro vytvoření více sloupců, vložení do čárkami odděleného textu nebo zadání více sloupců s čárkami mezi poli.

      Pokud vyberete možnost HasHeader , můžete použít první řádek hodnot jako záhlaví sloupce.

      Pokud zrušíte výběr této možnosti, použijí se názvy sloupců, Sloupec1, col2 a tak dále. Později můžete přidat nebo změnit názvy sloupců pomocí Upravit metadata.

    • TSV: Chcete-li vytvořit více sloupců, vložte text oddělený tabulátorem nebo zadejte více sloupců pomocí tabulátorů mezi poli.

      Pokud vyberete možnost HasHeader , můžete použít první řádek hodnot jako záhlaví sloupce.

      Pokud zrušíte výběr této možnosti, použijí se názvy sloupců, Sloupec1, col2 a tak dále. Později můžete přidat nebo změnit názvy sloupců pomocí Upravit metadata.

    • Arff: vložte do existujícího souboru formátu arff. Pokud zadáváte hodnoty přímo, nezapomeňte přidat volitelné záhlaví a požadovaná pole atributu na začátek dat.

      Například následující záhlaví a řádky atributů mohou být přidány do jednoduchého seznamu. Záhlaví sloupce by SampleText bylo.

      % Title: SampleText.ARFF  
      % Source: Enter Data module  
      @ATTRIBUTE SampleText STRING  
      @DATA  
      \<type first data row here>  
      
    • SVMLight: zadejte nebo vložte hodnoty pomocí formátu SVMLight.

      Například následující příklad představuje první pár řádků datové sady krve darování ve formátu SVMight:

      # features are [Recency], [Frequency], [Monetary], [Time]  
      1 1:2 2:50 3:12500 4:98   
      1 1:0 2:13 3:3250 4:28   
      

      Když spustíte modul zadat data ručně , tyto řádky se převedou na datovou sadu sloupců a hodnot indexu následujícím způsobem:

      Sloupec 1 Sloupec 2 Col3 Col4 Popisky
      0,00016 0,004 0,999961 0,00784 1
      0 0,004 0,999955 0,008615 1
  4. Po každém řádku stiskněte klávesu ENTER a začněte nový řádek.

    Nezapomeňte stisknout ENTER po posledním řádku.

    Pokud přidáte více prázdných koncových řádků několikrát stisknutím klávesy ENTER, bude poslední prázdný řádek oříznutý, ale jiné prázdné řádky budou považovány za chybějící hodnoty.

    Pokud vytvoříte řádky s chybějícími hodnotami, můžete je kdykoli filtrovat později.

  5. Klikněte pravým tlačítkem na modul a vyberte Spustit vybrané a analyzujte data a načtěte je do pracovního prostoru jako datovou sadu.

    Chcete-li zobrazit datovou sadu, klikněte na výstupní port a vyberte vizualizovat.

Příklady

Příklady toho, jak se tento modul používá ve službě Machine Learning, najdete v Azure AI Gallery:

  • ukázka stažení dat: načte data z úložiště UCI Machine Learning a potom pomocí Enter data (ručně ) vytvoří názvy sloupců. K dispozici je také ukázkový kód jazyka R, který můžete použít ke sloučení zadaných řádků s datovou sadou.

Technické poznámky

Tato část obsahuje podrobné informace o implementaci, tipy a odpovědi na nejčastější dotazy.

  • Bez ohledu na uložený formát se data, která zadáte, implicitně převedou na formát DataSet (Tabulka dat), který se použije při experimentech. Data se ale neuchovávají jako uložená datová sada, pokud explicitně neklepnete na možnost Uložit jako datovou sadu .

    Pokud data neuložíte do pole zadat data ručně jako datovou sadu, při ukončení relace se odebere z mezipaměti pracovního prostoru. Můžete však znovu spustit experiment, aby data byla k dispozici.

  • Pokud kombinujete data ze zadaných dat ručně s jinou datovou sadou, kombinovaná datová sada nemůže mít dva sloupce se stejným názvem. Pokud jsou k dispozici duplicitní názvy sloupců, je do sloupce z pravé datové sady připojena číselná přípona, aby názvy sloupců byly jedinečné.

    Předpokládejme například, že máte dvě instance zadat data ručně , které obsahují sloupec TestData, a použijte modul Přidat sloupce pro jejich sloučení. Sloupec z levé instance ručně zadaných dat by zůstal jako TestDataa sloupec z pravé instance ručně zadaných dat by se přejmenoval na TestData (2).

Viz také

Vstup a výstup dat
Seznam modulů a-Z