手動輸入資料元件

本文針對 Azure Machine Learning 設計工具中的一個元件進行說明。

瞭解如何使用「手動輸入資料」元件,透過輸入值來建立小型資料集。 資料集可以有多個資料行。

此元件在許多情況下很有幫助,例如:

  • 產生一小組的值進行測試。
  • 建立標籤的簡短清單。
  • 輸入要插入資料集內的資料行名稱清單。

建立資料集

  1. 「手動輸入資料」元件新增至您的管線。 您可以在 Azure Machine Learning 的 [資料輸入與輸出] 類別中找到此元件。

  2. 針對 [DataFormat],請選取下列其中一個選項。 這些選項會決定應如何剖析您提供的資料。 每種格式的需求有明顯差異,因此請務必閱讀相關的主題。

    • ARFF:由 Weka 使用的屬性關聯檔案格式。
    • CSV:逗號分隔值格式。 如需詳細資訊,請參閱轉換為 CSV
    • SVMLight:Vowpal Wabbit 與其他機器學習架構所使用的格式。
    • TSV:以 Tab 鍵分隔的值格式。

    如果您選擇某個格式,但未提供符合格式規格的資料,就會發生執行階段錯誤。

  3. 在 [資料] 文字方塊內按一下,並開始輸入資料。 以下是需要特別注意的格式:

    • CSV:若要建立多個資料行,請貼上逗點分隔的文字,或在欄位之間使用逗號來輸入多個資料行。

      如果您選取 [HasHeader] 選項,可以使用第一列的值作為資料行標題。

      如果您取消選取此選項,則會使用資料行名稱 (Col1、Col2 等等)。 您稍後可以使用 [編輯中繼資料] 來新增或變更資料行名稱。

    • TSV:若要建立多個資料行,請貼上以 Tab 分隔的文字,或在欄位之間使用 Tab 來輸入多個資料行。

      如果您選取 [HasHeader] 選項,可以使用第一列的值作為資料行標題。

      如果您取消選取此選項,則會使用資料行名稱 (Col1、Col2 等等)。 您稍後可以使用 [編輯中繼資料] 來新增或變更資料行名稱。

    • ARFF:貼在現有 ARFF 格式檔案中。 如果您要直接輸入值,請務必在資料的開頭新增選擇性的標題和必要屬性欄位。

      例如,您可以將下列標題和屬性資料列新增至一個簡單的清單中。 資料行標題為 SampleText。 請注意,不支援字串類型。

      % Title: SampleText.ARFF  
      % Source: Enter Data component  
      @ATTRIBUTE SampleText NUMERIC  
      @DATA  
      \<type first data row here>  
      
    • SVMLight:使用 SVMLight 格式輸入或貼上值。

      例如,下列範例代表 [捐血] 資料集的前幾行,格式為 SVMLight:

      # features are [Recency], [Frequency], [Monetary], [Time]  
      1 1:2 2:50 3:12500 4:98   
      1 1:0 2:13 3:3250 4:28   
      

      當您執行「手動輸入資料」元件時,這幾行會轉換為包含資料行與索引值的資料集,如下所示:

      Col1 Col2 Col3 Col4 標籤
      0.00016 0.004 0.999961 0.00784 1
      0 0.004 0.999955 0.008615 1
  4. 選取每個資料列後面的 Enter 鍵,即可開始新的一行。

    如果您選取 Enter 多次來新增多個空白的尾端資料列,系統將會移除或修剪空白的資料列。

    如果您建立的資料列中有遺漏值,您之後可以隨時篩選出這些資料列。

  5. 將輸出連接埠與其他元件連線,並執行管線。

    若要檢視資料集,請以滑鼠右鍵按一下元件,然後選取 [視覺化]。

後續步驟

請參閱 Azure Machine Learning 可用的元件集