Enter Data Manually (データの手動入力) コンポーネント

[アーティクル]
06/01/2023

この記事では Azure Machine Learning デザイナーのコンポーネントについて説明します。

値を入力して小さなデータセットを作成するには、Enter Data Manually (データの手動入力) コンポーネントを使用します。データセットには、複数の列を含めることができます。

このコンポーネントは、次のような用途に使用できます。

テスト用に少数の値のセットを生成する。
ラベルの簡単なリストを作成する。
データセットに挿入する列名のリストを入力する。

データセットを作成する

Enter Data Manually (データの手動入力) コンポーネントをパイプラインに追加します。このコンポーネントは、Azure Machine Learning の [Data Input and Output]\(データの入力と出力\) カテゴリにあります。
[DataFormat] で、次のいずれかのオプションを選択します。指定したデータの解析方法は、これらのオプションによって決まります。それぞれの形式で要件が大きく異なるため、関連するトピックに必ず目を通してください。
- ARFF: Weka で使用される属性関連ファイル形式。
- CSV: コンマ区切りの値形式。詳細については、「Convert to CSV (CSV への変換)」を参照してください。
- SVMLight: Vowpal Wabbit などの機械学習フレームワークで使用される形式。
- TSV: タブ区切りの値形式。
形式を選択したにもかかわらず、その形式の仕様を満たしたデータを入力しなかった場合、実行時エラーが発生します。
[Data]\(データ\) ボックス内をクリックして、データの入力を開始します。次の形式には、特別な注意が必要です。
- CSV: 複数の列を作成するには、コンマ区切りテキストを貼り付けるか、フィールド間にコンマを使用して複数の列を入力します。
  
  HasHeader オプションをオンにすると、値の先頭行を列見出しとして使用できます。
  
  このオプションをオフにした場合は、Col1、Col2... という列名が使用されます。列名は、後から [メタデータの編集] を使用して追加したり変更したりできます。
- TSV: 複数の列を作成するには、タブ区切りテキストを貼り付けるか、フィールド間にタブを使用して複数の列を入力します。
  
  HasHeader オプションをオンにすると、値の先頭行を列見出しとして使用できます。
  
  このオプションをオフにした場合は、Col1、Col2... という列名が使用されます。列名は、後から [メタデータの編集] を使用して追加したり変更したりできます。
- ARFF:既存の ARFF 形式のファイルを貼り付けます。値を直接入力する場合は、データの先頭にヘッダー (省略可能) と必須の属性フィールドを追加してください。
  
  たとえば、単純なリストに次のヘッダーと属性行を追加できます。この場合、列見出しは SampleText となります。文字列型はサポートされていません。
```
% Title: SampleText.ARFF  
% Source: Enter Data component  
@ATTRIBUTE SampleText NUMERIC  
@DATA  
\<type first data row here>  
```
- SVMLight:SVMLight 形式を使用して値を入力するか貼り付けます。
  
  たとえば次のサンプルは、SVMLight 形式の献血データセットの最初の 2 行を表したものです。
```
# features are [Recency], [Frequency], [Monetary], [Time]  
1 1:2 2:50 3:12500 4:98   
1 1:0 2:13 3:3250 4:28   
```
  Enter Data Manually (データの手動入力) コンポーネントを実行すると、これらの行が列とインデックス値のデータセットに変換されます。その例を次に示します。
  
  Col1 Col2 Col3 Col4 ラベル
  
  0.00016 0.004 0.999961 0.00784 1
  
  0 0.004 0.999955 0.008615 1
それぞれの行の後に Enter キーを選択して改行します。

複数回 Enter キーを選択して空の後続行を複数追加した場合、空の行は削除またはトリミングされます。

欠損値を含んだ行を作成した場合、それらの行は、後からいつでもフィルターで除去できます。
出力ポートを他のコンポーネントに接続し、パイプラインを実行します。

データセットを表示するには、コンポーネントを右クリックして [可視化] を選択します。

Col1	Col2	Col3	Col4	ラベル
0.00016	0.004	0.999961	0.00784	1
0	0.004	0.999955	0.008615	1

次の手順

Azure Machine Learning で使用できる一連のコンポーネントを参照してください。

次の方法で共有

Enter Data Manually (データの手動入力) コンポーネント

データセットを作成する

次の手順

フィードバック

フィードバック

その他のリソース