Machine Learning Studio (クラシック) におけるサンプルデータセットの使用

適用対象:Machine Learning Studio (クラシック) 適用対象外 Azure Machine Learning

重要

Machine Learning Studio (クラシック) のサポートは、2024 年 8 月 31 日に終了します。その日までに、Azure Machine Learning に切り替えすることをお勧めします。

2021 年 12 月 1 日以降、新しい Machine Learning Studio (クラシック) リソースは作成できません。 2024 年 8 月 31 日まで、既存の Machine Learning Studio (クラシック) リソースを引き続き使用できます。

ML Studio (クラシック) から Azure Machine Learning への機械学習プロジェクトの移動に関する情報を参照してください。
Azure Machine Learning についての詳細を参照してください

ML Studio (クラシック) のドキュメントは廃止予定であり、今後更新されない可能性があります。

Machine Learning Studio (クラシック) で新しいワークスペースを作成する場合、既定でさまざまなサンプルのデータセットと実験が含まれています。これらのサンプルデータセットの多くは、Azure AI ギャラリーのサンプルモデルで使用されます。その他のデータセットは、機械学習で通常使用されるさまざまなデータのサンプルとして含まれています。

データセットの一部は、Azure Blob Storage で使用できます。これらのデータセットでは、次の表に直接リンクが提供されています。これらのデータセットは、データのインポートモジュールを使用して実験で使用できます。

これらのサンプルデータセットの残りの部分は、[Saved Datasets]/(保存されたデータセット/) の下にあるワークスペースで使用できます。これは、Machine Learning Studio (クラシック) の実験キャンバスの左側のモジュールパレットにあります。実験キャンバスにこれらのデータセットのいずれかをドラッグすると、独自の実験で使用できます。

データセット

データセットの名前	データセットの説明
米国国勢調査局提供の、成人収入に関する二項分類データセット	調整後の所得指数が 100 を超える就労成人男性 (16 歳以上) を対象とした、米国国勢調査局のデータベース (1994 年) のサブセットです。 [使用状況] :人口統計データを使用して対象の人々を分類し、個人が 1 年間に 50,000 ドル以上の年収を得られるかどうかを予測します。関連の研究: Kohavi, R.、Becker, B. (1996 年)。 UCI Machine Learning リポジトリ https://archive.ics.uci.edu/ml。カリフォルニア州アーバイン:カリフォルニア大学情報コンピュータサイエンス学部
空港コードのデータセット	米国の空港コード。このデータセットは、米国の各空港ごとに 1 行という構成になっており、各行には、空港の ID 番号、名前、所在する都市および州が記載されています。
自動車価格データ (生データ)	メーカー/モデル別にまとめた自動車の情報です。価格、シリンダー数、燃費、保険リスクスコアなどの情報が含まれます。リスクスコアはまず車体価格に関連付けられます。その後、アクチュアリー (保険数理士) の間でシンボリングと呼ばれるプロセスによって、実際のリスクに対して調整されます。 +3 は自動車のリスクが高く、-3 は高い安全性が見込まれることを示しています。 [使用状況] :回帰または多変量分類を使用して、機能別のリスクスコアを予測します。関連の研究: Schlimmer, J.C. (1987)。 UCI Machine Learning リポジトリ https://archive.ics.uci.edu/ml。カリフォルニア州アーバイン:カリフォルニア大学情報コンピュータサイエンス学部
自転車レンタルの UCI データセット	UCI Bike Rental データセットを使用します。このデータセットは、ワシントン D.C. で自転車のレンタルネットワークを管理している Capital Bikeshare 社の実際のデータに基づいています。このデータセットは、2011 年と 2012 年の各日の 1 時間ごとに 1 行という構成になっており、全体で 17,379 行あります。毎時間の自転車レンタル数の範囲は 1 ～ 977 です。
Bill Gates の RGB 画像	CSV データに変換された、公開の画像ファイル。画像を変換するコードは、K-平均法クラスタリングを使用した色の量子化モデルの詳細ページで提供されています。
献血データ	台湾新竹市にある輸血サービスセンターの献血者データベースから提供されたデータのサブセットです。献血データには、最後の献血からの経過月数、頻度、献血の合計回数、最後の献血からの経過期間、献血量が含まれます。使用法: 目標は、2007 年 3 月に献血者が献血を実施したかどうかの分類に基づいて予測を実行することです。1 は対象期間に献血をした人、0 はしなかった人を示しています。関連の研究: Yeh, I.C. (2008 年)。 UCI Machine Learning リポジトリ https://archive.ics.uci.edu/ml。カリフォルニア州アーバイン:カリフォルニア大学情報コンピュータサイエンス学部 Yeh, I-Cheng、Yang, King-Jang、Ting, Tao-Ming、「Knowledge discovery on RFM model using Bernoulli sequence」、Expert Systems with Applications、2008 年、https://dx.doi.org/10.1016/j.eswa.2008.07.018
乳がんデータ	機械学習に関する文献で頻繁に登場する腫瘍学研究所が提供した、3 つのがん関連データセットの 1 つです。診断情報と、研究所が分析した 300 個の細胞組織サンプルの特徴が組み合わせられています。使用法: がんの種類を 9 つの属性 (線形、カテゴリなど) に基づいて分類します。関連の研究: Wohlberg, W.H.、Street, W.N.、Mangasarian, O.L. (1995 年)。 UCI Machine Learning リポジトリ https://archive.ics.uci.edu/ml。カリフォルニア州アーバイン:カリフォルニア大学情報コンピュータサイエンス学部
乳がんの特徴	それぞれ 117 個の特徴によって説明される、約 102,000 件の疑わしい領域 (対象) を示す X 線画像に関する情報が含まれます。特徴は独占所有されており、データセット作成元 (Siemens Healthcare) は特徴の意味を公開していません。
乳がん情報	データセットには、X 線画像の疑わしい領域それぞれについての追加情報が含まれています。それぞれの例に、乳がんの特徴データセット内の対応する行番号について、ラベル、患者 ID、画像全体に対する患部の座標などの情報が提供されています。 1 人の患者に複数の例あります。がんを発症している患者については、いくつかの例は陽性で、いくつかの例は陰性です。がんでない患者の場合、すべての例は陰性です。データセットには約 102,000 件の例が含まれています。データセットには偏りがあり、陽性は全ポイントの 0.6% で、残りは陽性です。データセットは Siemens Healthcare によって提供されています。
CRM アペテンシーラベルの共有	KDD Cup 2009 顧客関係予測チャレンジのラベル (orange_small_train_appetency.labels)。
CRM 解約ラベルの共有	KDD Cup 2009 顧客関係予測課題のラベル (orange_small_train_churn.labels)。
CRM データセットの共有	このデータは、KDD Cup 2009 顧客関係の予測に関する課題から取得しています (orange_small_train.data.zip)。データセットには、French Telecom company Orange の顧客 50,000 人のデータが含まれます。各顧客には匿名化された特徴が 230 あり、その中の 190 が数値で、40 がカテゴリです。特徴はきわめて少ないです。
CRM アップセリングラベルの共有	KDD Cup 2009 顧客間関係の予測に関する課題のラベル (orange_large_train_upselling.labels)。
エネルギー効率回帰データ	12 種類の建物形状に基づいてシミュレーションされたエネルギープロファイルのコレクションです。建物は 8 種類の特徴によって区別されています。これには、ガラス部分、ガラス部分の配置、方向が含まれます。使用法: 回帰または分類を使用して、2 つの実数値のうち 1 つを応答としてエネルギー効率を評価します。マルチクラス分類の場合、応答変数が最も近い整数に丸められます。関連研究: Xifara, A. > Tsanas, A. (2012). UCI Machine Learning リポジトリ https://archive.ics.uci.edu/ml。カリフォルニア州アーバイン:カリフォルニア大学情報コンピュータサイエンス学部
フライト遅延データ	米国運輸省の TranStats データコレクションから取得した旅客機の定時運航データ (定時)。データセットには、2013 年 4 月から 10 月までの期間のデータが含まれます。 Machine Learning Studio (クラシック) にアップロードする前に、データセットは次のように処理されました。米国本土の混雑度が上位 70 位までの空港を含めるように、データセットをフィルター処理します。キャンセルされたフライトは 15 分超の遅延として分類します。迂回したフライトをフィルターで外します。 Year、Month、DayofMonth、DayOfWeek、Carrier、OriginAirportID、DestAirportID、CRSDepTime、DepDelay、DepDel15、CRSArrTime、ArrDelay、ArrDel15、Cancelled の各列が選択されています。
時間通りのフライトパフォーマンス (生データ)	2011 年 10 月の米国における航空機のフライトの発着記録です。使用法: フライトの遅延を予測します。関連の研究: 米国運輸省 https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time より。
森林火災データ	不快指数や風速などの気象データが含まれます。データはポルトガル北東地域から取得され、森林火災の記録と結合されます。使用法: 森林火災の被害地域を予測する回帰を実行するという、難しい作業となります。関連研究: Cortez, P., & Morais, A. (2008). UCI Machine Learning リポジトリ https://archive.ics.uci.edu/ml。カリフォルニア州アーバイン:カリフォルニア大学情報コンピュータサイエンス学部 [Cortez and Morais、2007 年] P. Cortez、A. Morais. 「A Data Mining Approach to Predict Forest Fires using Meteorological Data」 J. Neves、M. F. Santos、J. Machado 編「New Trends in Artificial Intelligence」(第 13 回 EPIA 2007 - Portuguese Conference on Artificial Intelligence 議事録、512 から 523 ページ) 開催地: ギマランエス (ポルトガル)。2007 年。 APPIA,、SBN-13 978-989-95618-0-9。 http://www.dsi.uminho.pt/~pcortez/fires.pdf で入手可能。
ドイツのクレジットカード UCI データセット	german.data ファイルを使用した、UCI Statlog (ドイツのクレジットカード) データセット (Statlog+German+Credit+Data)。データセットは、低信用リスクまたは高信用リスクとして属性のセットで表現された人々を分類します。サンプルはそれぞれ人を表します。 20 の特徴があり、数値とカテゴリの両方と、二項のラベル (信用リスク値) で構成されます。高信用リスクのエントリにはラベル 2、低信用リスクのエントリにはラベル 1 が付きます。低信用リスクのサンプルを高信用リスクとして誤って分類した場合のコストは 1 ですが、高信用リスクのサンプルを低信用リスクとして誤って分類した場合のコストは 5 です。
IMDB 映画のタイトル	このデータセットには、Twitter のツイートで評価された映画に関する情報として、IMDB 登録 ID、映画の名称、ジャンル、および制作年が含まれます。約 17,000 件の映画の情報があります。データセットは、論文「S」において紹介されました。 Dooms, T. De Pessemier と L. Martens Twitterから収集された映画評価データセット「MovieTweetings」。 2013年のRecSysで開催された推奨システムのためのクラウドソーシングとヒューマンコンピュテーションのワークショップ、CrowdRec。
アイリスの2クラスデータ	パターン認識の文献でおそらく最も多く使用されているデータベースです。 3 種類のあやめの品種について 50 例の花弁を測定した、比較的小さなデータセットです。使用法: 植物のアイリスの品種を測定値から予測します。関連の研究: Fisher, R.A. (1988 年)。 UCI Machine Learning リポジトリ https://archive.ics.uci.edu/ml。カリフォルニア州アーバイン:カリフォルニア大学情報コンピュータサイエンス学部
映画のツイート	このデータセットは、ムービーツイートデータセットの拡張バージョンです。 Twitterで適切に構成されたツイートから抽出した映画に対する約170,000件の評価を含むデータセットです。各インスタンスは 1 つのツイートを表し、ユーザー ID、IMDB 登録 ID、評価、タイプスタンプ、このツイートのお気に入りの数、そして、このツイートのリツイートの数を組み合わせたタプルです。データセットは、A. Said、S. Dooms、B. Loni、D. Tikk によって Recommender Systems Challenge 2014 のために提供されました。
さまざまな自動車の燃費データ	カーネギーメロン大学 StatLib 研究所が提供したデータセットを多少変更したものです。このデータセットは 1983 年に米国統計学会で使用された実績があります。データには、さまざまな車体の燃料消費量がガロンあたりのマイル数で一覧表示されます。これには、シリンダー数、エンジン排気量、馬力、総重量、加速度などの情報が含まれます。使用法: 3 つの多値離散属性と 5 つの連続属性に基づいて燃費効率を予測します。関連の研究: カーネギーメロン大学 StatLib (1993 年)。 UCI Machine Learning リポジトリ https://archive.ics.uci.edu/ml。カリフォルニア州アーバイン:カリフォルニア大学情報コンピュータサイエンス学部
ピマ族の糖尿病に関する二項分類データセット	国立糖尿病・消化器・腎疾病研究所のデータベースから提供されたデータのサブセットです。データセットはフィルタリングされ、ピマ族の女性患者だけが対象とされています。データには、血糖値やインスリン値などの医療データと、生活習慣要因が含まれています。使用法: 対象者が糖尿病にかかっているかどうかを予測します (二項分類)。関連研究: Sigillito, V. (1990). UCI Machine Learning リポジトリ https://archive.ics.uci.edu/ml"。カリフォルニア州アーバイン:カリフォルニア大学情報コンピュータサイエンス学部
レストラン顧客データ	人口統計データや嗜好など、顧客に関するメタデータのセットです。 [使用状況] :このデータセットを、レストランに関する他の 2 つのデータセットと組み合わせて使用して、レコメンダーシステムの調整とテストを実施します。関連の研究: Bache, K.、Lichman, M.(2013 年)。 UCI Machine Learning リポジトリ https://archive.ics.uci.edu/ml。カリフォルニア州アーバイン:カリフォルニア大学、情報・コンピューターサイエンス学部。
レストラン特徴データ	料理の種類、食事スタイル、場所など、レストランとその特徴に関するメタデータのセットです。 [使用状況] :このデータセットを、レストランに関する他の 2 つのデータセットと組み合わせて使用して、レコメンダーシステムの調整とテストを実施します。関連の研究: Bache, K.、Lichman, M.(2013 年)。 UCI Machine Learning リポジトリ https://archive.ics.uci.edu/ml。カリフォルニア州アーバイン:カリフォルニア大学、情報・コンピューターサイエンス学部。
レストランの評価	ユーザーによるレストランの評価 (0 ～ 2) が含まれます。 [使用状況] :このデータセットを、レストランに関する他の 2 つのデータセットと組み合わせて使用して、レコメンダーシステムの調整とテストを実施します。関連の研究: Bache, K.、Lichman, M.(2013 年)。 UCI Machine Learning リポジトリ https://archive.ics.uci.edu/ml。カリフォルニア州アーバイン:カリフォルニア大学、情報・コンピューターサイエンス学部。
鉄鋼のアニール処理に関するマルチクラスデータセット	このデータセットには、鉄鋼のアニール処理試験に関する一連の記録が含まれています。その結果として得られる鋼の種類の物理的属性（幅、厚み、種類（コイル、シートなど））が含まれています。使用法: 2 つの数値クラス属性 (硬度と強度) のいずれかを予測します。属性間の相関関係を分析することも可能です。鉄鋼のグレードは、SAE その他の機関が定義した標準に準拠します。特定の "グレード"(クラス変数) を検索して、必要な値を把握する必要があります。関連研究: スターリング, D. & バンティン, W. (NA). UCI Machine Learning リポジトリ https://archive.ics.uci.edu/ml。カリフォルニア州アーバイン:カリフォルニア大学情報コンピュータサイエンス学部鉄鋼グレードの有用なガイドは、https://www.steamforum.com/pictures/Outokumpu-steel-grades-properties-global-standards.pdf にあります。
望遠鏡データ	高エネルギーガンマ線バーストとバックグラウンドノイズをモンテカルロ法でシミュレーションした記録です。シミュレーションの目的は大気地上チェレンコフガンマ望遠鏡の精度向上です。これは、期待する信号 (チェレンコフ放射) と上層大気の宇宙線から発生するバックグラウンドノイズ (ハドロン放射) を統計的手法によって区別することで実現します。データを前処理することによって、長軸がカメラの中心を向く伸長クラスターが作成されています。この楕円のさまざまな特性は通常 Hillas パラメーターと呼ばれ、これらが画像のパラメーターに表れることによって区別が可能になります。使用法: シャワーの画像が信号かバックグラウンドノイズのどちらかを予測します。注: バックグラウンドイベントを信号に分類することは、シグナルイベントをバックグラウンドに分類することよりも大きな悪影響を及ぼすため、シンプルな分類の正確度は、このデータでは意味を持ちません。異なる分類子の比較には ROC グラフを使用する必要があります。バックグラウンドイベントを信号として受信する可能性は、次のしきい値のいずれかを下回る必要があります: 0.01、0.02、0.05、0.1、0.2。また、バックグラウンドイベントの数 (ハドロン放射の場合 h) は過小評価されます。実際の測定では、h またはノイズクラスがイベントの大部分を占めています。関連の研究: Bock, R.K. (1995 年)。 UCI Machine Learning リポジトリ https://archive.ics.uci.edu/ml。カリフォルニア州アーバイン:カリフォルニア大学情報学部
天候データセット	NOAA の 1 時間ごとの陸上の気象観測 (2013 年 4 月から 2013 年 10 月までのデータをマージ)。気象データには、2013 年 4 月から 10 月までの期間の航空気象観測所での観測が含まれます。 Machine Learning Studio (クラシック) にアップロードする前に、データセットは次のように処理されました。気象観測所 ID を対応する空港 ID にマッピングします。混雑度が上位 70 位の空港に関連付けられていない気象観測所をフィルターで外します。 Date 列を Year、Month、Day の列に分割します。 AirportID、Year、Month、Day、Time、TimeZone、SkyCondition、Visibility、WeatherType、DryBulbFarenheit、DryBulbCelsius、WetBulbFarenheit、WetBulbCelsius、DewPointFarenheit、DewPointCelsius、RelativeHumidity、WindSpeed、WindDirection、ValueForWindCharacter、StationPressure、PressureTendency、PressureChange、SeaLevelPressure、RecordType、HourlyPrecip、Altimeter の各列が選択されています。
Wikipedia SP 500 データセット	データは、S&P 500 企業それぞれの記事に基づいて Wikipedia (https://www.wikipedia.org/) から取得され、XML データとして格納されています。 Machine Learning Studio (クラシック) にアップロードする前に、データセットは次のように処理されました。特定の企業のテキストコンテンツを抽出します。 Wiki の書式設定を削除します。英数字以外の文字を削除します。すべてのテキストを小文字に変換します。既知の会社のカテゴリを追加します。いくつかの企業の記事が見つからないため、レコード数は 500 未満であることに注意してください。
direct_marketing.csv	顧客データと、ダイレクトメールキャンペーンに対する顧客の反応を示す指標が含まれます。 1 行につき 1 件の顧客を表します。データセットには、ユーザーの人口統計と過去の行動に関する 9 個の特徴と、3 つのラベル列 (訪問、コンバージョン、支出) が含まれます。訪問は、顧客がマーケティングキャンペーン後に訪問したことを示すバイナリ列です。コンバージョンは、顧客が何かを購入したことを示します。支出は、使われた金額です。データセットは Kevin Hillstrom によって、MineThatData 電子メール分析とデータマイニングの課題用に提供されています。
lyrl2004_tokens_test.csv	RCV1-V2 Reuters ニュースのデータセットにあるテスト例の特徴。データセットには約 781,000 本のニュース記事が、それぞれの記事の ID (データセットの最初の列) と共に含まれます。各記事はトークン化され、ストップワード処理と語幹処理が行われています。データセットはデイビッドによって公開されました。 D. ルイス
lyrl2004_tokens_train.csv	RCV1-V2 Reuters ニュースのデータセットにあるトレーニング例の特徴。データセットには約 23,000 本のニュース記事が、それぞれの記事の ID (データセットの最初の列) と共に含まれます。各記事はトークン化され、ストップワード処理と語幹処理が行われています。データセットはデイビッドによって公開されました。 D. ルイス
network_intrusion_detection.csv	KDD Cup 1999 ナレッジ検出とデータマイニングツールのコンペティションのデータセット (kddcup99.html)。データセットは、Azure Blob Storage にダウンロードされ、格納されています (network_intrusion_detection.csv)。データセットには、トレーニングとテストの両方のデータセットが含まれます。トレーニングデータセットには、ラベルも含めておよそ 126,000 個の行と 43 個の列があります。ラベル情報の一部である 3 列と、数値、文字列、カテゴリによる特徴で構成される 40 列がモデルのトレーニングに使用できます。テストデータには約 22,500 個のテスト例があります (トレーニングデータと同じ 43 列が含まれます)。
rcv1-v2.topics.qrels.csv	RCV1-V2 Reuters ニュースデータセット内のニュース記事のトピック割り当てです。 1 つのニュース記事を複数のトピックに割り当てることができます。各行の形式は "<トピック名><ドキュメント ID> 1" です。データセットには、260 万件のトピック割り当てが含まれます。データセットはDavidによって提供された。 D. ルイス。
student_performance.txt	このデータは、KDD Cup 2010 学生の成績評価に関する課題 (学生の成績評価) から取得しています。使用されるデータは、Algebra_2008_2009 トレーニングセット (Stamper, J.、Niculescu-Mizil, A.、Ritter, S.、Gordon, G.J.、Koedinger, K.R. (2010 年) Algebra I 2008-2009 です。 KDD Cup 2010 教育データマイニングチャレンジのデータセット downloads.jsp にあります。データセットは、Azure Blob Storage にダウンロードされ、格納されています (student_performance.txt)。データセットには、学生のチュータリングシステムのログファイルが含まれます。提供される特徴には、問題 ID とその簡潔な説明、学生 ID、タイムスタンプ、学生が問題を正しい方法で解くまでにかかった回数があります。元のデータセットには、8,900,000 件のレコードが含まれますが、このデータセットは、最初の 100,000 行にダウンサンプリングされています。このデータセットには、23 個のタブで区切られた、さまざまなタイプ (数値、カテゴリ、およびタイムスタンプ) の列が含まれます。

次のステップ

例を使用して実験を開始する

Last updated on 2018-01-19

Machine Learning Studio (クラシック) におけるサンプル データセットの使用

データセット

次のステップ

その他のリソース

Machine Learning Studio (クラシック) におけるサンプルデータセットの使用