スタジオ (クラシック) のデータセットを Azure Machine Learning に移行する
重要
Azure Machine Learning スタジオ (クラシック) のサポートは、2024 年 8 月 31 日に終了します。 その日までに、Azure Machine Learning に切り替えることをおすすめします。
2021 年 12 月 1 日の時点で、新しい Machine Learning Studio (クラシック) リソース (ワークスペースと Web サービス プラン) を作成することはできません。 2024 年 8 月 31 日まで、既存の Machine Learning スタジオ (クラシック) の実験と Web サービスを引き続き使用できます。 詳細については、以下を参照してください:
Machine Learning Studio (クラシック) のドキュメントは廃止予定であり、今後更新されない可能性があります。
この記事では、スタジオ (クラシック) のデータセットを Azure Machine Learning に移行する方法について説明します。 スタジオ (クラシック) からの移行の詳細については、移行の概要に関する記事を参照してください。
データセットを Azure Machine Learning に移行するには、3 つのオプションがあります。 各セクションを読み、シナリオに最適なオプションを決定します。
データの保存場所 | 移行オプション |
---|---|
スタジオ (クラシック) | オプション 1: データセットをスタジオ (クラシック) からダウンロードし、Azure Machine Learning にアップロードします。 |
クラウド ストレージ | オプション 2: クラウド ソースからデータセットを登録します。 オプション 3: データのインポート モジュールを使用して、クラウド ソースからデータを取得します。 |
注意
Azure Machine Learning では、データセットを作成および管理するためのコードファースト ワークフローもサポートされています。
前提条件
- アクティブなサブスクリプションが含まれる Azure アカウント。 無料でアカウントを作成できます。
- Azure Machine Learning ワークスペース。 ワークスペース リソースを作成します。
- スタジオ (クラシック) から移行するデータセット。
スタジオ (クラシック) からデータセットをダウンロードする
スタジオ (クラシック) のデータセットを Azure Machine Learning に移行する最も簡単な方法は、データセットをダウンロードして Azure Machine Learning に登録することです。 これにより、データセットの新しいコピーが作成され、Azure Machine Learning データストアにアップロードされます。
スタジオ (クラシック) のデータセットは、次の種類を直接ダウンロードできます。
- プレーン テキスト (.txt)
- コンマ区切り値 (CSV) - ヘッダー付き (.csv) またはヘッダーなし (.nh.csv)
- タブ区切り値 (TSV) - ヘッダー付き (.tsv) またはヘッダーなし (.nh.tsv)
- Excel ファイル
- Zip ファイル (.zip)
データセットを直接ダウンロードするには、次のようにします。
スタジオ (クラシック) のワークスペース (https://studio.azureml.net) にアクセスします。
左側のナビゲーション バーで、 [データセット] タブを選択します。
ダウンロードするデータセットを選択します。
下部のアクション バーで、 [ダウンロード] を選択します。
次のデータ型については、 [Convert to CSV](CSV への変換) モジュールを使用してデータセットをダウンロードする必要があります。
- SVMLight データ (svmlight)
- Attribute Relation File Format (ARFF) データ (.arff)
- R オブジェクトまたはワークスペース ファイル (.RData)
- データセットの種類 (.data)。 データセットの種類は、スタジオ (クラシック) のモジュール出力用の内部データ型です。
データセットを CSV に変換し、結果をダウンロードするには、次のようにします。
スタジオ (クラシック) のワークスペース (https://studio.azureml.net) にアクセスします。
新しい実験を作成する
ダウンロードするデータセットをキャンバスにドラッグ アンド ドロップします。
[Convert to CSV](CSV への変換) モジュールを追加します。
[Convert to CSV](CSV への変換) 入力ポートをデータセットの出力ポートに接続します。
実験を実行します。
[Convert to CSV](CSV への変換) モジュールを右クリックします。
[Results dataset](結果データセット)>[ダウンロード] を選択します。
データセットを Azure Machine Learning にアップロードする
データ ファイルをダウンロードしたら、Azure Machine Learning にデータアセットとして登録できます。
左側のナビゲーションの [資産] で [データ] を選択します。 [データ アセット] タブで [作成] を選びます
データ資産に名前と説明 (省略可能) を指定します。 次に、ドロップダウンの [データセットの種類] セクションで [種類] の下にある [表形式 オプション] を選択します。
Note
ZIP ファイルをデータ資産としてアップロードすることもできます。 ZIP ファイルをアップロードするには、ドロップダウンの [データセットの種類] セクションで [種類] の [ファイル] 選択します。
データソースの場合は、「ローカルファイルから」オプションを選択してデータセットをアップロードします。
ファイルを選択するには、まず Azure でデータを格納する場所を選択します。 Azure Machine Learning データストアを選択します。 データストアの詳細については、「Azure のストレージ サービスに接続する」を参照してください。 次に、先ほどダウンロードしたデータセットをアップロードします。
データ資産のデータ解析設定とスキーマを設定する手順に従います。
[レビュー] のステップに到達したら、最後のページで [作成] をクリックします
クラウド ソースからデータをインポートする
データが既にクラウド ストレージ サービス内にあり、データをそのネイティブな場所に保持する場合。 次のいずれかのオプションを使用できます。
インジェスト方法 | 説明 |
---|---|
Azure Machine Learning データセットを登録する | ローカルとオンラインのデータ ソース (Blob、ADLS Gen1、ADLS Gen2、ファイル共有、SQL DB) からデータを取り込みます。 データ ソースへの参照を作成します。これは、実行時に遅延評価されます。 このオプションは、このデータセットに繰り返しアクセスし、データのバージョン管理や監視などの高度なデータ機能を有効にする場合に使用します。 |
データのインポート モジュール | オンライン データ ソース (Blob、ADLS Gen1、ADLS Gen2、ファイル共有、SQL DB) からデータを取り込みます。 データセットは、現在のデザイナーのパイプライン実行にのみインポートされます。 |
Note
スタジオ (クラシック) ユーザーは、次のクラウド ソースが Azure Machine Learning ではネイティブにサポートされていないことに注意してください。
- Hive クエリ
- Azure テーブル
- Azure Cosmos DB
- オンプレミス SQL Database
ユーザーは Azure Data Factory を使用して、サポートされているストレージ サービスにデータを移行することをお勧めします。
Azure Machine Learning データセットを登録する
クラウド サービスから Azure Machine Learning にデータセットを登録するには、次の手順に従います。
データストアを作成します。これにより、クラウド ストレージ サービスが Azure Machine Learning ワークスペースにリンクされます。
データセットを登録します。 スタジオ (クラシック) のデータセットを移行する場合は、 [表形式] データセット設定を選択します。
データセットを Azure Machine Learning に登録したら、デザイナーで使用できるようになります。
- デザイナーの新しいパイプライン ドラフトを作成します。
- 左側のモジュール パレットで、 [データセット] セクションを展開します。
- 登録したデータセットをキャンバスにドラッグします。
[データのインポート] モジュールを使用する
デザイナー パイプラインにデータを直接インポートするには、次の手順に従います。
- データストアを作成します。これにより、クラウド ストレージ サービスが Azure Machine Learning ワークスペースにリンクされます。
データストアを作成したら、デザイナーの [データのインポート] モジュールを使用して、データストアからデータを取り込むことができます。
- デザイナーの新しいパイプライン ドラフトを作成します。
- 左側のモジュール パレットで、 [データのインポート] モジュールを見つけてキャンバスにドラッグします。
- [データのインポート] モジュールを選択し、右側のパネルの設定を使用してデータ ソースを構成します。
次のステップ
この記事では、スタジオ (クラシック) のデータセットを Azure Machine Learning に移行する方法について説明しました。 次の手順では、スタジオ (クラシック) のトレーニング パイプラインを再構築します。
スタジオ (クラシック) 移行シリーズの他の記事を参照してください。
- 移行の概要に関するドキュメントを参照してください。
- データセットを移行します。
- スタジオ (クラシック) のトレーニング パイプラインを再構築します。
- スタジオ (クラシック) の Web サービスを再構築します。
- Azure Machine Learning の Web サービスをクライアント アプリと統合します。
- R スクリプトの実行を移行します。