次の方法で共有


Azure Open Datasets

一般公開されているデータセットを使用して、機械学習モデルの精度を高めてください。 データの発見と準備のための時間を節約するために、機械学習プロジェクト用に準備されたキュレーション データセットを使用します。

輸送

データセット 説明
TartanAir: AirSim のシミュレーション データセット Simultaneous Localization and Mapping (SLAM) を解決するために生成された AirSim の自動車両データ。
NYC タクシー & リムジン協会 - イエロー タクシー運行記録 イエロー タクシー運行記録には、乗車と降車の日時、乗車と降車の場所、移動距離、料金明細、料金の種類、支払いの種類、運転手が報告した乗車人数が含まれています。
NYC タクシー & リムジン協会 - グリーン タクシー運行記録 グリーン タクシー運行記録には、乗車と降車の日時、乗車と降車の場所、移動距離、料金明細、料金の種類、支払いの種類、運転手が報告した乗車人数が含まれています。
NYC タクシー & リムジン協会 - リムジン車両 (FHV) 運行記録 リムジン車両の乗車記録には、配車側のベース ライセンス番号、乗車の日時、タクシー ゾーンの場所 ID が含まれています。

健康とゲノム

データセット 説明
COVID-19 データ レイク COVID-19 Data Lake コレクションは、さまざまなソースからの COVID-19 関連のデータ セットのコレクションで、検査と患者のアウトカムのデータ追跡、ソーシャル ディスタンス ポリシー、病床数、流動性などをカバーしています。
COVID-19 Open Research Dataset COVID-19 とコロナウイルス関連の学術的な記事に関するフルテキストおよびメタデータのデータセット。機械が容易に読み取れるように最適化されており、世界中の研究コミュニティが利用できます。
Genomics データ レイク Genomics データ レイクは、無料で利用でき、お使いのゲノミクス解析のワークフローやアプリケーションに統合できるさまざまな公開データセットを提供しています。 データセットには、ゲノム配列、変異情報、被験者/サンプルのメタデータが BAM、FASTA、VCF、CSV ファイル形式で含まれています。

雇用と経済

データセット 説明
US Labor Force Statistics (米国労働力統計) US Labor Force Statistics (米国労働力統計) では、米国における労働力統計、労働参加率、年齢、性別、人種、民族グループ別の一般労働人口がまとめられます。
US National Employment Hours and Earnings (全米労働時間および賃金) Current Employment Statistics (CES) プログラムでは、米国の給与支払い名簿を基に、非農業部門雇用者数、労働時間、賃金の詳細な業界推定値を生成します。
US State Employment Hours and Earnings (米国州労働時間および賃金) Current Employment Statistics (CES) プログラムでは、米国の給与支払い名簿を基に、非農業部門雇用者数、労働時間、賃金の詳細な業界推定値を生成します。
US Local Area Unemployment Statistics (米国地域別失業統計) 米国 Local Area Unemployment Statistics データセットは、米国の国勢調査地域/区分、州、郡、大都市圏、および多数の都市の雇用、失業、労働力に関する月次および年次データを提供します。
米国消費者物価指数 消費者物価指数 (CPI) は、都市部の消費者が消費財やサービスの市場バスケットに対して支払う価格の平均変動を時系列で測定する指標です。
米国生産者物価指数 - 業種 生産者物価指数 (PPI) は、国内生産者が生産した物に対して受け取る販売価格の平均変動を時系列で測定する指標です。
米国生産者物価指数 - 商品 生産者物価指数 (PPI) は、国内生産者が生産した商品に対して受け取る販売価格の平均変動を時系列で測定する指標です。

人口と安全性

データセット 説明
US Population by County (米国の郡別人口) 2000 年および 2010 年に実施された 10 年ごとの国勢調査をソースとする、米国の郡ごとの性別および人種別の米国人口。 このデータセットは、米国国勢調査局がソースです。
US Population by ZIP Code (米国の郵便番号別人口) 2010 年に実施された 10 年ごとの国勢調査をソースとする、米国郵便番号ごとの性別および人種別の米国人口。 このデータセットは、米国国勢調査局がソースです。
Boston Safety Data ボストン市に報告された 311 コールの読み取りデータ。 このデータセットは Parquet 形式で格納され、更新データを毎日受け取ります。
Chicago Safety Data シカゴ市に報告された 311 コールの読み取りデータ。 このデータセットは Parquet 形式で格納され、更新データを毎日受け取ります。
New York City Safety Data このデータセットには、2010 年から現在までのすべてのニューヨーク市の 311 サービス要求が含まれています。 このデータセットは Parquet 形式で格納され、更新データを毎日受け取ります。
San Francisco Safety Data サンフランシスコの消防局への出動要請と 311 ケース。 このデータセットには、2015 年から現在までに蓄積された過去の記録が含まれます。
Seattle Safety Data シアトル消防局 (911) からの派遣。 このデータセットは毎日更新され、2010 年から現在までに蓄積された過去の記録が含まれています。

補助的で一般的なデータセット

データセット 説明
糖尿病 Diabetes データセットには、442 のサンプルと 10 個の機能が含まれ、機械学習アルゴリズムの使用をすぐに試すことができます。
OJ Sales Simulated Data このデータセットは Dominick's OJ データセットが元となっており、Azure Machine Learning で数千のモデルを同時に簡単にトレーニングできるデータセットの提供を目的とした、特別にシミュレートされたデータが含まれています。
手書き数字の MNIST データベース 手書き数字の MNIST データベースには、60,000 件の例が含まれたトレーニング セットと、10,000 件の例が含まれたテスト セットがあります。 数字は、サイズが正規化され、固定サイズの画像に中心が揃えられています。
Microsoft News Recommendation Dataset Microsoft News Dataset (MIND) は、ニュース推奨研究のための大規模なデータセットです。 ニュース推奨のためのベンチマーク データセットの役割を果たし、ニュース推奨と推奨システムでの研究を支援しています。
祝日 PyPI holidays パッケージと Wikipedia をソースとする世界の祝日データ。1970 年から 2099 年まで、38 の国または地域を対象としています。
Russian Open Speech To Text (ロシア語の公開音声テキスト変換) Russain Open STT は、ロシア語の大規模なオープン音声テキスト変換データセットです。