什麼是 Azure 開放資料集,以及如何使用它們?

Azure 開放資料集是策劃的公用資料集,您可以使用這些公用資料集,將案例專有的功能新增至機器學習解決方案,以獲得更準確的模型。 開放資料集位於 Microsoft Azure 的雲端並整合於 Azure Machine Learning,而且立即可供 Azure Databricks 和 Machine Learning Studio (傳統) 使用。 您也可以透過 API 存取資料集,並在其他產品 (例如 Power BI 和 Azure Data Factory) 中使用它們。

資料集包含用於天氣、人口普查、假日、公共安全和位置的公用領域資料,可協助您將機器學習模型定型並擴充預測性解決方案。 您也可以在 Azure 開放資料集上共用公用資料集。

Azure 開放資料集元件

經過策劃、準備的資料集

Azure 開放資料集中經過策劃的開放式公用資料集已針對機器學習工作流程的取用進行最佳化。

若要查看所有可用的資料集,請移至 Azure 開放資料集目錄

資料科學家通常會花費大部分的時間在清除和準備資料以進行進階分析。 開放資料集會複製到 Azure 雲端進行前置處理,以節省時間。 系統會定期從來源提取資料,例如經由與美國國家海洋暨大氣總署 (NOAA) 的 FTP 連線。 接下來,會將資料剖析成結構化格式,然後使用一些特性 (例如最接近氣象站的郵遞區號或位置) 適度擴充。

資料集在 Azure 中與雲端運算共同裝載,讓存取和操作更容易。

以下是可用資料集的範例。

天氣資料

資料集 Notebooks 描述
NOAA 整合式地面資料 (ISD) \(英文\) Azure Notebooks
Azure Databricks
來自 NOAA 的全球每小時天氣資料,北美、歐洲、澳大利亞和亞洲部分地區的空間覆蓋率最高。 每日更新。
NOAA 全球預測系統 (GFS) Azure Notebooks
Azure Databricks
來自 NOAA 的 15 天美國每小時天氣預測資料。 每日更新。

行事曆資料

資料集 Notebooks 描述
國定假日 \(英文\) Azure Notebooks
Azure Databricks
1970 年到 2099 年的全球國定假日資料,涵蓋 41 個國家/地區。 包括國家/地區,以及大部分人員是否已付費逾時。

資料集的存取

您可以使用 Azure 帳戶,利用程式碼或透過 Azure 服務介面來存取開放資料集。 資料會與 Azure 雲端運算資源共置,以便用於機器學習解決方案。

開啟資料集可透過 Azure Machine Learning UI 和 SDK 取得。 開放資料集也提供 Azure Notebooks 與 Azure Databricks 筆記本,可用來將資料連線至 Azure Machine Learning 與 Azure Databricks。 您也可以透過 Python SDK 存取資料集。

不過,您不需要有 Azure 帳戶,就可以存取開放資料集;無論是否有 Spark,都可以從任何 Python 環境存取開放資料集。

要求或參與資料集

如果找不到想要的資料,請寄電子郵件給我們,以要求資料集參與資料集

後續步驟