共用方式為


輸入手動數據元件

本文說明 Azure 機器學習 設計工具中的元件。

使用 [ 手動 輸入數據] 元件輸入值來建立小型數據集。 數據集可以有多個數據行。

此元件在下列案例中很有用:

  • 產生一組用於測試的值。
  • 建立簡短的標籤清單。
  • 輸入要插入資料集的數據列名稱清單。

建立資料集

  1. 將 [ 手動 輸入數據] 元件新增至管線。 您可以在 Azure 機器學習 的 [資料輸入和輸出] 類別中找到此元件。

  2. 針對 DataFormat,選取下列其中一個選項。 這些選項會決定您應該如何剖析您提供的數據。 每個格式的需求都大不相同,因此請務必閱讀相關的主題。

    • ARFF:Weka 所使用的屬性關聯檔格式。
    • CSV:以逗號分隔的值格式。 如需詳細資訊,請參閱 轉換成 CSV
    • SVMLight:Vowpal Wabbit 和其他機器學習架構所使用的格式。
    • TSV:Tab 分隔值格式。

    如果您選擇格式,但未提供符合格式規格的數據,就會發生運行時錯誤。

  3. 按兩下 [ 資料 ] 文字框中以開始輸入資料。 下列格式需要特別注意:

    • CSV:若要建立多個數據行,請貼上逗號分隔文字,或使用欄位之間的逗號輸入多個數據行。

      如果您選取 [HasHeader ] 選項,您可以使用值的第一列做為數據行標題。

      如果您取消選取此選項,則會使用資料行名稱 (Col1、Col2 等等)。 您稍後 可以使用編輯元數據來新增或變更資料行名稱。

    • TSV:若要建立多個數據行,請貼上索引卷標分隔文字,或使用欄位之間的索引標籤來輸入多個數據行。

      如果您選取 [HasHeader ] 選項,您可以使用值的第一列做為數據行標題。

      如果您取消選取此選項,則會使用資料行名稱 (Col1、Col2 等等)。 您稍後 可以使用編輯元數據來新增或變更資料行名稱。

    • ARFF:貼上現有的 ARFF 格式檔案。 如果您直接輸入值,請務必在數據開頭新增選擇性標頭和必要的屬性欄位。

      例如,下列標頭和屬性數據列可以新增至簡單清單。 資料列標題會是 SampleText。 請注意,不支援 String 類型。

      % Title: SampleText.ARFF  
      % Source: Enter Data component  
      @ATTRIBUTE SampleText NUMERIC  
      @DATA  
      \<type first data row here>  
      
    • SVMLight:使用 SVMLight 格式輸入或貼上值。

      例如,下列範例代表 SVMLight 格式的獻血數據集的前幾行:

      # features are [Recency], [Frequency], [Monetary], [Time]  
      1 1:2 2:50 3:12500 4:98   
      1 1:0 2:13 3:3250 4:28   
      

      當您執行 [ 手動 輸入數據] 元件時,這些行會轉換成數據行和索引值的數據集,如下所示:

      col1 Col2 Col3 Col4 標籤
      0.00016 0.004 0.999961 0.00784 1
      0 0.004 0.999955 0.008615 1
  4. 選取每個數據列之後的 Enter 鍵,以啟動新行。

    如果您選取 Enter 多次以新增多個空白尾端數據列,則會移除或修剪空白數據列。

    如果您建立含有遺漏值的數據列,您稍後一律可以篩選掉這些數據列。

  5. 將輸出埠連線至其他元件,然後執行管線。

    若要檢視數據集,請以滑鼠右鍵單擊元件,然後選取 [ 可視化]。

下一步

請參閱 Azure 機器學習 可用的元件集。