什麼是 Azure 開放資料集,以及如何使用它們?
Azure 開放資料集是策展的公用資料集,您將其新增至機器學習解決方案的案例專屬功能,以獲得更準確的模型。 開放資料集可在 Microsoft Azure 上的雲端中取得。 它們已整合到 Azure Machine Learning 中,並可供 Azure Databricks 和 Machine Learning Studio 使用 (傳統版)。 您也可以透過 API 存取資料集,並在其他產品 (例如 Power BI 和 Azure Data Factory) 中使用它們。
資料集包含用於天氣、人口普查、假日、公共安全和位置的公用領域資料,可協助您將機器學習模型定型並擴充預測性解決方案。 您也可以透過 Azure 開放資料集共用公用資料集。
經過策劃、準備的資料集
Azure 開放資料集中經過策劃的開放式公用資料集已針對機器學習工作流程的取用進行最佳化。
如需可用資料集的詳細資訊,請瀏覽 Azure 開放資料集目錄資源。
資料科學家通常會花費大部分的時間在清除和準備資料以進行進階分析。 為了節省時間,開放資料集會複製到 Azure 雲端,然後進行前置處理。 系統會定期從來源提取資料,例如經由與美國國家海洋暨大氣總署 (NOAA) 的 FTP 連線。 接下來,會將資料剖析成結構化格式,然後使用一些特性 (例如最接近氣象站的郵遞區號或位置) 視需要進行擴充。
資料集在 Azure 中與雲端運算共同裝載,讓存取和操作更容易。
以下是可用資料集的範例:
天氣資料
資料集 | Notebooks | 描述 |
---|---|---|
NOAA 整合式地面資料 (ISD) \(英文\) | Azure Notebooks Azure Databricks |
來自 NOAA 的全球每小時天氣資料,北美、歐洲、澳大利亞和亞洲部分地區的空間覆蓋率最高。 每日更新。 |
NOAA 全球預測系統 (GFS) | Azure Notebooks Azure Databricks |
來自 NOAA 的 15 天美國每小時天氣預測資料。 每日更新。 |
日曆資料
資料集 | Notebooks | 描述 |
---|---|---|
國定假日 \(英文\) | Azure Notebooks Azure Databricks |
1970 年到 2099 年的全球國定假日資料,涵蓋 41 個國家或地區。 包含國家/地區,以及大多數人是否帶薪休假。 |
資料集的存取
您可以使用 Azure 帳戶,透過程式碼或透過 Azure 服務介面來存取開放資料集。 資料會與 Azure 雲端運算資源共置,以便用於機器學習解決方案。
開啟資料集可透過 Azure Machine Learning UI 和 SDK 取得。 開放資料集也提供 Azure Notebooks 與 Azure Databricks 筆記本,可用來將資料連線至 Azure Machine Learning 與 Azure Databricks。 您也可以透過 Python SDK 存取資料集。
不過,您不需要有 Azure 帳戶,就可以存取開放資料集;無論是否有 Spark,都可以從任何 Python 環境存取開放資料集。
要求或參與資料集
如果找不到想要的資料,請寄電子郵件給我們,以要求資料集或參與資料集。