スタジオ (クラシック) のデータセットを Azure Machine Learning に移行する

重要

Azure Machine Learning スタジオ (クラシック) のサポートは、2024 年 8 月 31 日に終了します。 その日までに、Azure Machine Learning に切り替えることをおすすめします。

2021 年 12 月 1 日の時点で、新しい Machine Learning Studio (クラシック) リソース (ワークスペースと Web サービス プラン) を作成することはできません。 2024 年 8 月 31 日まで、既存の Machine Learning スタジオ (クラシック) の実験と Web サービスを引き続き使用できます。 詳細については、以下を参照してください:

Machine Learning Studio (クラシック) のドキュメントは廃止予定であり、今後更新されない可能性があります。

この記事では、スタジオ (クラシック) のデータセットを Azure Machine Learning に移行する方法について説明します。 スタジオ (クラシック) からの移行の詳細については、移行の概要に関する記事を参照してください。

データセットを Azure Machine Learning に移行するには、3 つのオプションがあります。 各セクションを読み、シナリオに最適なオプションを決定します。

データの保存場所 移行オプション
スタジオ (クラシック) オプション 1: データセットをスタジオ (クラシック) からダウンロードし、Azure Machine Learning にアップロードします
クラウド ストレージ オプション 2: クラウド ソースからデータセットを登録します

オプション 3: データのインポート モジュールを使用して、クラウド ソースからデータを取得します

注意

Azure Machine Learning では、データセットを作成および管理するためのコードファースト ワークフローもサポートされています。

前提条件

スタジオ (クラシック) からデータセットをダウンロードする

スタジオ (クラシック) のデータセットを Azure Machine Learning に移行する最も簡単な方法は、データセットをダウンロードして Azure Machine Learning に登録することです。 これにより、データセットの新しいコピーが作成され、Azure Machine Learning データストアにアップロードされます。

スタジオ (クラシック) のデータセットは、次の種類を直接ダウンロードできます。

  • プレーン テキスト (.txt)
  • コンマ区切り値 (CSV) - ヘッダー付き (.csv) またはヘッダーなし (.nh.csv)
  • タブ区切り値 (TSV) - ヘッダー付き (.tsv) またはヘッダーなし (.nh.tsv)
  • Excel ファイル
  • Zip ファイル (.zip)

データセットを直接ダウンロードするには、次のようにします。

  1. スタジオ (クラシック) のワークスペース (https://studio.azureml.net) にアクセスします。

  2. 左側のナビゲーション バーで、 [データセット] タブを選択します。

  3. ダウンロードするデータセットを選択します。

  4. 下部のアクション バーで、 [ダウンロード] を選択します。

    AScreenshot showing how to download a dataset in Studio (classic).

次のデータ型については、 [Convert to CSV](CSV への変換) モジュールを使用してデータセットをダウンロードする必要があります。

  • SVMLight データ (svmlight)
  • Attribute Relation File Format (ARFF) データ (.arff)
  • R オブジェクトまたはワークスペース ファイル (.RData)
  • データセットの種類 (.data)。 データセットの種類は、スタジオ (クラシック) のモジュール出力用の内部データ型です。

データセットを CSV に変換し、結果をダウンロードするには、次のようにします。

  1. スタジオ (クラシック) のワークスペース (https://studio.azureml.net) にアクセスします。

  2. 新しい実験を作成する

  3. ダウンロードするデータセットをキャンバスにドラッグ アンド ドロップします。

  4. [Convert to CSV](CSV への変換) モジュールを追加します。

  5. [Convert to CSV](CSV への変換) 入力ポートをデータセットの出力ポートに接続します。

  6. 実験を実行します。

  7. [Convert to CSV](CSV への変換) モジュールを右クリックします。

  8. [Results dataset](結果データセット)>[ダウンロード] を選択します。

    Screenshot showing how to setup a convert to CSV pipeline.

データセットを Azure Machine Learning にアップロードする

データ ファイルをダウンロードしたら、Azure Machine Learning にデータアセットとして登録できます。

  1. Azure Machine Learning Studio に移動します

  2. 左側のナビゲーションの [資産][データ] を選択します。 [データ アセット] タブで [作成] を選びます Screenshot highlights Create in the Data assets tab.

  3. データ資産に名前と説明 (省略可能) を指定します。 次に、ドロップダウンの [データセットの種類] セクションで [種類] の下にある [表形式 オプション] を選択します。

    Note

    ZIP ファイルをデータ資産としてアップロードすることもできます。 ZIP ファイルをアップロードするには、ドロップダウンの [データセットの種類] セクションで [種類][ファイル] 選択します。 Screenshot shows data asset source choices.

  4. データソースの場合は、「ローカルファイルから」オプションを選択してデータセットをアップロードします。

  5. ファイルを選択するには、まず Azure でデータを格納する場所を選択します。 Azure Machine Learning データストアを選択します。 データストアの詳細については、「Azure のストレージ サービスに接続する」を参照してください。 次に、先ほどダウンロードしたデータセットをアップロードします。

  6. データ資産のデータ解析設定とスキーマを設定する手順に従います。

  7. [レビュー] のステップに到達したら、最後のページで [作成] をクリックします

クラウド ソースからデータをインポートする

データが既にクラウド ストレージ サービス内にあり、データをそのネイティブな場所に保持する場合。 次のいずれかのオプションを使用できます。

インジェスト方法 説明
Azure Machine Learning データセットを登録する ローカルとオンラインのデータ ソース (Blob、ADLS Gen1、ADLS Gen2、ファイル共有、SQL DB) からデータを取り込みます。

データ ソースへの参照を作成します。これは、実行時に遅延評価されます。 このオプションは、このデータセットに繰り返しアクセスし、データのバージョン管理や監視などの高度なデータ機能を有効にする場合に使用します。
データのインポート モジュール オンライン データ ソース (Blob、ADLS Gen1、ADLS Gen2、ファイル共有、SQL DB) からデータを取り込みます。

データセットは、現在のデザイナーのパイプライン実行にのみインポートされます。

Note

スタジオ (クラシック) ユーザーは、次のクラウド ソースが Azure Machine Learning ではネイティブにサポートされていないことに注意してください。

  • Hive クエリ
  • Azure テーブル
  • Azure Cosmos DB
  • オンプレミス SQL Database

ユーザーは Azure Data Factory を使用して、サポートされているストレージ サービスにデータを移行することをお勧めします。

Azure Machine Learning データセットを登録する

クラウド サービスから Azure Machine Learning にデータセットを登録するには、次の手順に従います。

  1. データストアを作成します。これにより、クラウド ストレージ サービスが Azure Machine Learning ワークスペースにリンクされます。

  2. データセットを登録します。 スタジオ (クラシック) のデータセットを移行する場合は、 [表形式] データセット設定を選択します。

データセットを Azure Machine Learning に登録したら、デザイナーで使用できるようになります。

  1. デザイナーの新しいパイプライン ドラフトを作成します。
  2. 左側のモジュール パレットで、 [データセット] セクションを展開します。
  3. 登録したデータセットをキャンバスにドラッグします。

[データのインポート] モジュールを使用する

デザイナー パイプラインにデータを直接インポートするには、次の手順に従います。

  1. データストアを作成します。これにより、クラウド ストレージ サービスが Azure Machine Learning ワークスペースにリンクされます。

データストアを作成したら、デザイナーの [データのインポート] モジュールを使用して、データストアからデータを取り込むことができます。

  1. デザイナーの新しいパイプライン ドラフトを作成します。
  2. 左側のモジュール パレットで、 [データのインポート] モジュールを見つけてキャンバスにドラッグします。
  3. [データのインポート] モジュールを選択し、右側のパネルの設定を使用してデータ ソースを構成します。

次のステップ

この記事では、スタジオ (クラシック) のデータセットを Azure Machine Learning に移行する方法について説明しました。 次の手順では、スタジオ (クラシック) のトレーニング パイプラインを再構築します

スタジオ (クラシック) 移行シリーズの他の記事を参照してください。

  1. 移行の概要に関するドキュメントを参照してください。
  2. データセットを移行します
  3. スタジオ (クラシック) のトレーニング パイプラインを再構築します
  4. スタジオ (クラシック) の Web サービスを再構築します
  5. Azure Machine Learning の Web サービスをクライアント アプリと統合します
  6. R スクリプトの実行を移行します