Share via


Azure Open Datasets とその使用方法

Azure オープン データセットは選別されたパブリック データセットであり、機械学習ソリューションにシナリオ固有の機能を追加してモデルの精度を上げるために使用できます。 Open Datasets は Microsoft Azure 上のクラウド内にあり、Azure Machine Learning と統合され、Azure Databricks や Machine Learning Studio (クラシック) ですぐに利用できます。 API を介してデータセットにアクセスすることもでき、Power BI や Azure Data Factory などの他の製品内でも使用できます。

データセットには、機械学習モデルのトレーニングと予測ソリューションのエンリッチメントに役立つ天気、国勢調査、祝日、公共の安全、場所に関するパブリック ドメイン データが含まれます。 Azure オープン データセット上でパブリック データセットを共有することもできます。

Azure オープン データセットのコンポーネント

選別されて準備されたデータセット

Azure オープン データセット内の選別されたオープン パブリック データセットは、機械学習ワークフロー内で使用するために最適化されています。

使用可能なすべてのデータセットを確認するには、Azure Open Datasets カタログにアクセスします。

データ サイエンティストは、多くの場合、高度な分析のためのデータのクリーニングと準備に時間の大半を費やしています。 オープン データセットは、ユーザーの時間を節約するために Azure クラウドにコピーされ、前処理されます。 データは、米国海洋大気庁 (NOAA) への FTP 接続などによってソースから定期的な間隔でプルされます。 その後、構造化形式に解析されてから、郵便番号や最寄りの測候所の場所などの特徴によって適宜エンリッチメントされます。

データセットは、Azure 内のクラウド コンピューティングと共同ホスティングされるので、アクセスと操作が簡単になります。

使用可能なデータセットの例を次に示します。

気象データ

データセット ノートブック 説明
NOAA Integrated Surface Data (ISD) Azure Notebooks
Azure Databricks
北米、ヨーロッパ、オーストラリア、およびアジアの一部の空間を最適にカバーする、NOAA から 1 時間ごとに取得される世界各地の気象データ。 毎日更新されます。
NOAA Global Forecast System (GFS) Azure Notebooks
Azure Databricks
NOAA から取得される 15 日間の米国の 1 時間ごとの天気予報。 毎日更新されます。

カレンダー データ

データセット ノートブック 説明
祝日 Azure Notebooks
Azure Databricks
1970 年から 2099 年までの 41 の国または地域をカバーする、世界各地の祝日データ。 国/リージョンと、ほとんどの人が有給休暇を取得しているかどうかが含まれています。

データセットへのアクセス

Azure アカウントでは、コードを使用するか Azure サービス インターフェイスを通じてオープン データセットにアクセスできます。 データは、機械学習ソリューション内で使用するために Azure クラウド コンピューティング リソースと併置されます。

Open Datasets は、Azure Machine Learning UI と SDK を通じて利用できます。 Open Datasets では、Azure Machine Learning service と Azure Databricks にデータを接続するために使用できる Azure Notebooks と Azure Databricks ノートブックが提供されます。 データセットには、Python SDK を通じてアクセスすることもできます。

ただし、オープン データセットにアクセスするために Azure アカウントは必要ありません。Spark の有無に関係なく、任意の Python 環境内からアクセスできます。

データセットの要求または投稿

必要なデータが見つからない場合は、データセットを要求またはデータセットを投稿します。

次のステップ