HTTP 経由の Web URL からのインポート

2019-05-06

重要

Machine Learning Studio (クラシック) のサポートは、2024 年 8 月 31 日に終了します。その日までに、Azure Machine Learning に切り替えすることをお勧めします。

2021 年 12 月 1 日以降、新しい Machine Learning Studio (クラシック) リソースは作成できません。 2024 年 8 月 31 日まで、既存の Machine Learning Studio (クラシック) リソースを引き続き使用できます。

ML Studio (クラシック) から Azure Machine Learning への機械学習プロジェクトの移動に関する情報を参照してください。
Azure Machine Learning についての詳細を参照してください。

ML Studio (クラシック) のドキュメントは廃止予定であり、今後更新されない可能性があります。

この記事では、Machine Learning Studio (クラシック) でデータのインポートモジュールを使用して、機械学習実験で使用するためにパブリック Web ページからデータを読み取る方法について説明します。

注意

適用対象: Machine Learning Studio (クラシック) のみ

類似のドラッグアンドドロップモジュールは Azure Machine Learning デザイナーで使用できます。

Web ページで公開されているデータには次の制限が適用されます。

データは、サポートされている形式の 1 つである必要があります:CSV、TSV、ARFF、または SvmLight。その他のデータではエラーが発生します。
認証が必須でもサポートされてもいないこと。データは公開されている必要があります。

HTTP 経由でデータをインポートする方法

データを取得する 2 つの方法があります。ウィザードを使用してデータソースを設定するか、または手動で構成します。

データインポートウィザードを使用する

データのインポート モジュールを実験に追加します。モジュールは、Studio (クラシック) の [データの入力と出力] カテゴリで確認 できます。
[Launch Import Data Wizard]\(データのインポートウィザードを起動\) をクリックし、[HTTP を使用する Web URL] を選択します。
URL を貼り付け、データ形式を選択します。
構成が完了したら、モジュールを右クリックし、選択したファイルの実行 を選択します。

既存のデータ接続を編集するには、ウィザードを再び起動します。ウィザードにより前の構成詳細がすべて読み込まれるため、一からやり直す必要はありません。

データのインポートモジュールのプロパティを手動で設定する

次の手順では、インポート元を手動で構成する方法について説明します。

データのインポートモジュールを実験に追加します。モジュールは、Studio (クラシック) の [データの入力と出力] カテゴリで確認 できます。
[データソース] で、 [HTTP を使用する Web URL] を選択します。
[URL] に、読み込むデータが含まれるページの完全な URL を入力するか貼り付けます。

URL には、読み込むデータを含むページのサイトの URL とファイル名および拡張子を含む完全なパスを含める必要があります。

たとえば、次のページには、カリフォルニア大学アーバイン校の機械学習リポジトリの Iris データセットが含まれています。

https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data
[データ形式] で、サポートされているデータ形式のいずれかをリストから選択します。

形式を判別するために常に事前にデータを確認することをお勧めします。カリフォルニア大学アーバイン校のページでは、CSV 形式が使用されています。他のサポートされているデータ形式は、TSV、ARFF、および SvmLight です。
データが CSV または TSV 形式である場合は、[File has header row]\(ファイルにヘッダー行が含まれる\) オプションを使用して、ソースデータにヘッダー行が含まれるかどうかを示します。ヘッダー行は列名の割り当てに使用されます。
データが大きく変化しないと予測される場合、または実験を実行するたびにデータを再読み込みしたくない場合は、[Use cached results]\(キャッシュされた結果を使用する\) オプションを選択します。

このオプションを選択すると、実験はモジュールの初回実行時にデータを読み込み、その後、キャッシュされたバージョンのデータセットを使用します。

実験データセットの反復ごとにデータセットを再読み込みする場合は、キャッシュされた結果を使用する オプションの選択を解除 します。 [データのインポート] のパラメーターに変更がある場合は、結果も再読み込みされます。
実験を実行します。

結果

完了したら、出力されたデータセットをクリックし、[Visualize]\(視覚化\) を選択し、データが正常にインポートされたかどうかを確認します。

例

パブリック Web サイトからデータを取得Azure AI Gallery 機械学習実験の詳細については、以下の例を参照してください。

文字認識サンプル: UC Irvine によってホストされているパブリック機械学習リポジトリからトレーニングデータセットを取得します。
UCI データセットのダウンロード: CSV 形式でデータセットを読み取ります。

テクニカルノート

このセクションには、実装の詳細、ヒント、よく寄せられる質問への回答が含まれています。

一般的な質問

ソースから読み取り中のデータをフィルター処理できる

不正解です。このオプションは、このデータソースではサポートされていません。

Machine Learning Studio (クラシック) にデータを読み取った後、データセットを分割し、サンプリングを使用して、必要な行を取得できます。

行または列でデータの一部を取得するには、R スクリプトの実行にいくつかの簡単な R コードを記述します。
データの分割モジュールを相対式または正規表現と一緒に使用して、必要なデータを分離します。
必要以上のデータを読み込んだ場合は、新しいデータセットを読み取り、同じ名前で保存することで、キャッシュされたデータセットを上書きします。

同じデータを不必要に再読み込みしないようにする方法

ソースデータが変更された場合は、データのインポートを再び実行することで、データセットを更新し、新しいデータを追加できます。

実験を実行するごとにソースから再読み取りを行いたくない場合は、[キャッシュされた結果を使用する] オプションを [TRUE] に選択します。このオプションが TRUE に設定されている場合、モジュールは、同じソースと同じ入力オプションを使用して実験が以前に実行されたかどうかを確認します。以前の実行が見つかった場合は、ソースからデータを再読み込みするのではなく、キャッシュ内のデータが使用されます。

データセットの末尾に追加された行が追加された理由

データのインポートモジュールで、その後に空の行または末尾の新しい行文字が続くデータ行が検出された場合は、テーブルの末尾に追加の行が追加されます。この新しい行には欠損値が含まれています。

末尾の新しい行を新しい行として解釈する理由は、データのインポートでは、実際の空の行と、ファイルの末尾で Enter キーを押してユーザーが作成した空の行の違いを特定できないことです。

一部の機械学習アルゴリズムでは不足データがサポートされ、この行がケースとして扱われるため (結果に影響を与える可能性があります)、欠損値 (特に完全に空の行) を確認し、必要に応じて削除する必要があります。

空の行を確認する前に、データの分割を使用してデータセットを分割することもできます。部分的な欠損値を持つこのような個別の行は、ソースデータに実際に欠損値があることを示しています。 [先頭の N 行を選択] オプションを使用して、データセットの最初の部分を、個別のコンテナー (最後の行から) に読み取ります。

ソースファイルの一部の文字が正しく表示されない理由

Machine Learning UTF-8 エンコードがサポートされています。ソースファイルにそれ以外の種類のエンコードが含まれていると、その文字は正しくインポートされません。

モジュールのパラメーター

名前	Range	Type	Default	説明
データソース	一覧	データソースまたはシンク	Azure Blob Storage	データソースには、HTTP、FTP、匿名 HTTPS または FTPS、Azure BLOB ストレージ内のファイル、Azure テーブル、Azure SQL Database、オンプレミスの SQL Server データベース、Hive テーブル、または OData エンドポイントがあります。
URL	any	String	なし	HTTP の URL
データ形式	CSV TSV ARFF SvmLight	データ形式	CSV	HTTP ソースのファイルの種類
ヘッダー行がある CSV または TSV	TRUE または FALSE	Boolean	false	CSV または TSV ファイルにヘッダー行があるかどうかを示します
キャッシュされた結果の使用	TRUE または FALSE	Boolean	FALSE	モジュールは、有効なキャッシュが存在しない場合にのみ実行されます。それ以外の場合は、以前の実行からキャッシュされたデータが使用されます。

出力

名前	型	説明
結果のデータセット	データテーブル	ダウンロードしたデータを含むデータセット

例外

例外	説明
エラー 0027	同じサイズが必要である 2 つのオブジェクトのサイズが異なる場合に、例外が発生します。
エラー 0003	1 つ以上の入力が null または空の場合に、例外が発生します。
エラー 0029	無効な URI が渡された場合に、例外が発生します。
エラー 0030	ファイルをダウンロードできない場合は例外が発生します。
エラー 0002	1 つ以上のパラメーターが解析できなかった、または指定した型から対象のメソッドの種類で必要な型に変換されなかった場合に、例外が発生します。
エラー 0048	ファイルを開けない場合、例外が発生します。
エラー 0046	指定したパスにディレクトリを作成できない場合に、例外が発生します。
エラー 0049	ファイルを解析できない場合、例外が発生します。

Studio (クラシック) モジュール固有のエラーの一覧については、「 Machine Learning エラーコード」を参照してください。

API 例外の一覧については、「 Machine Learning REST API のエラーコード」を参照してください。

こちらもご覧ください

データのインポート
 データのエクスポート
 Hive クエリからのインポート
 Azure SQL Database からのインポート
 Azure Table からのインポート
 Azure Blob Storage からのインポート
 データフィードプロバイダーからのインポート
 オンプレミスの SQL Server データベースからのインポート

次の方法で共有