モデルビルダーにトレーニングデータを読み込む

2023-05-10

ML.NET 用のモデルビルダーシナリオのいずれかで使用するために、ファイルまたは SQL Server データベースからご利用のトレーニングデータセットを読み込む方法について説明します。モデルビルダーのシナリオでは、SQL Server データベース、イメージファイル、CSV または TSV ファイル形式をトレーニングデータとして使用できます。

Model Builder では、コンマ、タブ、およびセミコロン区切り記号と PNG および JPG 画像を含む TSV、CSV、TXT ファイルのみが受け入れられます。

モデルビルダーのシナリオ

モデルビルダーは、次の機械学習シナリオ用のモデルを作成するのに役立ちます。

データ分類 (二項分類と多クラス分類): テキストデータを 2 つ以上のカテゴリに分類します。
値の予測 (回帰): 数値を予測します。
画像分類 (ディープラーニング): 画像を 2 つ以上のカテゴリに分類します。
レコメンデーション (レコメンデーション): 特定のユーザーに推奨される項目の一覧を生成します。
物体検出 (ディープラーニング): 画像内の物体を検出して識別します。これにより、1 つ以上の物体を検索し、適切にラベルを付けることができます。

この記事では、テキストまたは数値データを含む分類と回帰、画像分類、および物体検出シナリオについて説明します。

ファイルからのテキストデータまたは数値データの読み込み

ファイルからモデルビルダーにテキストデータまたは数値データを読み込むことができます。コンマ区切り (CSV) またはタブ区切り (TSV) のファイル形式が受け入れられます。

Model Builder のデータステップで、データソースの種類として [ファイル] を選択します。
テキストボックスの横にある [参照] ボタンを選択し、エクスプローラーを使用してデータファイルを参照して選択します。
[予測する列 (ラベル)] ドロップダウンでカテゴリを選択します。

Note

(省略可能) データ分類シナリオ: ラベル列のデータ型 ([予測する列 (ラベル)] ドロップダウンの値) をブール値 (True または False) に設定すると、モデルトレーニングパイプラインで二項分類アルゴリズムが使用されます。それ以外の場合は、多クラス分類トレーナーが使用されます。 [Advanced data options](詳細データオプション) を使用してラベル列のデータ型を変更し、データに使用するトレーナーの種類を Model Builder に通知します。
[Advanced data options](詳細データオプション) リンクのデータを更新して、列の設定を行うか、データの書式設定を更新します。

モデルビルダーで使用するデータソースファイルの設定が完了しました。 [次のステップ] ボタンをクリックして、Model Builder での次のステップに進みます。

SQL Server データベースからデータを読み込む

モデルビルダーでは、ローカルおよびリモートの SQL Server データベースからのデータの読み込みがサポートされています。

ローカルデータベースファイル

SQL Server データベースファイルから Model Builder にデータを読み込むには、次のようにします。

Model Builder のデータステップで、データソースの種類として [SQL Server] を選択します。
[データソースの選択] ボタンを選択します。
1. [データソースの選択] ダイアログで、 [Microsoft SQL Server データベースファイル] を選択します。
2. [常にこれを選択する] チェックボックスをオフにして、 [続行] を選択します。
3. [接続プロパティ] ダイアログで、[参照] を選択し、ダウンロードした .MDF ファイルを選択します。
4. [OK] を選択します。
[テーブル名] ドロップダウンからデータセット名を選択します。
[予測する列 (ラベル)] ドロップダウンで、予測を作成するデータカテゴリを選択します。

Note

(省略可能) データ分類シナリオ: ラベル列のデータ型 ([予測する列 (ラベル)] ドロップダウンの値) をブール値 (True または False) に設定すると、モデルトレーニングパイプラインで二項分類アルゴリズムが使用されます。それ以外の場合は、多クラス分類トレーナーが使用されます。 [Advanced data options](詳細データオプション) を使用してラベル列のデータ型を変更し、データに使用するトレーナーの種類を Model Builder に通知します。
[Advanced data options](詳細データオプション) リンクのデータを更新して、列の設定を行うか、データの書式設定を更新します。

リモートデータベース

SQL Server データベース接続から Model Builder にデータを読み込むには、次のようにします。

Model Builder のデータステップで、データソースの種類として [SQL Server] を選択します。
[データソースの選択] ボタンを選択します。
1. [データソースの選択] ダイアログで、 [Microsoft SQL Server] を選択します。
[接続のプロパティ] ダイアログで、Microsoft SQL データベースのプロパティを入力します。
1. 接続するテーブルを含むサーバー名を指定します。
2. サーバーへの認証を設定します。 [SQL Server 認証] が選択されている場合は、サーバーのユーザー名とパスワードを入力します。
3. [データベース名の選択または入力] ドロップダウンで、接続するデータベースを選択します。サーバー名とログイン情報が正しい場合は、自動的に設定されるはずです。
4. [OK] を選択します。
[テーブル名] ドロップダウンからデータセット名を選択します。
[予測する列 (ラベル)] ドロップダウンで、予測を作成するデータカテゴリを選択します。

Note

(省略可能) データ分類シナリオ: ラベル列のデータ型 ([予測する列 (ラベル)] ドロップダウンの値) をブール値 (True または False) に設定すると、モデルトレーニングパイプラインで二項分類アルゴリズムが使用されます。それ以外の場合は、多クラス分類トレーナーが使用されます。 [Advanced data options](詳細データオプション) を使用してラベル列のデータ型を変更し、データに使用するトレーナーの種類を Model Builder に通知します。
[Advanced data options](詳細データオプション) リンクのデータを更新して、列の設定を行うか、データの書式設定を更新します。

モデルビルダーで使用するデータソースファイルの設定が完了しました。 [次のステップ] ボタンリンクをクリックして、Model Builder での次のステップに進みます。

画像分類データファイルを設定する

Model Builder では、画像分類データが、分類のカテゴリに対応するフォルダーに整理された JPG または PNG ファイルである必要があります。

モデルビルダーにイメージを読み込むには、単一の最上位ディレクトリへのパスを指定します。

この最上位ディレクトリには、予測するカテゴリごとにサブフォルダーが 1 つ含まれています。
各サブフォルダーには、そのカテゴリに属するイメージファイルが含まれています。

次に示すフォルダー構造で、最上位ディレクトリは flower_photos です。予測するカテゴリに対応したサブディレクトリとして、daisy、dandelion、roses、sunflowers、および tulips の 5 つがあります。これらの各サブディレクトリには、それぞれのカテゴリに属するイメージが含まれています。

\---flower_photos
    +---daisy
    |       100080576_f52e8ee070_n.jpg
    |       102841525_bd6628ae3c.jpg
    |       105806915_a9c13e2106_n.jpg
    |
    +---dandelion
    |       10443973_aeb97513fc_m.jpg
    |       10683189_bd6e371b97.jpg
    |       10919961_0af657c4e8.jpg
    |
    +---roses
    |       102501987_3cdb8e5394_n.jpg
    |       110472418_87b6a3aa98_m.jpg
    |       118974357_0faa23cce9_n.jpg
    |
    +---sunflowers
    |       127192624_afa3d9cb84.jpg
    |       145303599_2627e23815_n.jpg
    |       147804446_ef9244c8ce_m.jpg
    |
    \---tulips
            100930342_92e8746431_n.jpg
            107693873_86021ac4ea_n.jpg
            10791227_7168491604.jpg

物体検出画像データファイルを設定する

Model Builder では、物体検出画像データが、VoTT から生成された JSON 形式である必要があります。 JSON ファイルは、プロジェクト設定で指定されている [ターゲットの場所] の vott-json-export フォルダーにあります。

JSON ファイルは、VoTT から生成された次の情報で構成されます。

作成されたすべてのタグ
画像ファイルの場所
画像境界ボックスの情報
画像に関連付けられているタグ

物体検出用のデータの準備について詳しくは、「VoTT から物体検出データを生成する」を参照してください。

次のステップ

次のチュートリアルに従って、モデルビルダーを使用した機械学習アプリの作成を行います。

コードを使用してモデルをトレーニングする場合は、ML.NET API を使用したデータ読み込みの方法に関するページを参照してください。

次の方法で共有

モデル ビルダーにトレーニング データを読み込む

モデル ビルダーのシナリオ

ファイルからのテキスト データまたは数値データの読み込み

SQL Server データベースからデータを読み込む

ローカル データベース ファイル

リモート データベース

画像分類データ ファイルを設定する

物体検出画像データ ファイルを設定する