opendatasets 套件
包含使用 Azure 開放數據集作為數據框架和擴充客戶數據的功能。
Azure 開放數據集是策劃的公用數據集,可用來將案例特定功能新增至機器學習解決方案,以取得更精確的模型。 您可以將這些公用數據集轉換成 Spark 和 pandas 數據框架,並套用篩選。 對於某些數據集,您可以使用擴充器來聯結公用數據與您的數據。 例如,您可以依經度和緯度或郵遞區編碼和時間,將您的資料與天氣數據聯結。
Azure 開放數據集隨附於天氣、人口普查、假日、公共安全和位置的公用網域數據,可協助您定型機器學習模型並擴充預測解決方案。 開放數據集位於 azure 上的雲端Microsoft,並整合到 Azure Machine Learning 中。 如需使用 Azure 開放數據集的詳細資訊,請參閱 使用 Azure 開放數據集建立數據集。
如需 Azure 開放數據集的一般資訊,請參閱 Azure Open Datasets 檔。
套件
| accessories |
包含可協助識別數據中的數據行類型的功能,包括 lat/long、zipcode 和 time。 |
| aggregators |
包含定義聯結數據匯總方式的功能。 彙總工具會定義可在聯結兩個數據集之數據的結果上執行的作業。 例如,當您在 中使用 enrichers其中一個類別時,您可以將匯總工具指定為作業的一部分。 如果不需要匯總,請使用 AggregatorAll。 |
| data |
包含 publicholidays 模組中數據資源的 init 檔案。 |
| dataaccess |
包含提供 Blob 檔案存取方法的功能。 當您使用類別之類的opendatasets封裝中的ChicagoSafety類別時,此套件中的 dataaccess 類別和函式會在內部使用。 一般而言,您不需要直接使用 dataaccess 套件中的功能。 |
| enrichers |
包含從兩個數據集擴充和聯結數據的功能。 一般而言,擴充器會將來自不同來源的數據聯結在一起。 具體而言,擴充器可讓您將數據(客戶數據)與來自 Azure 開放數據集或其他公用數據集的數據聯結。 |
| granularities |
包含定義擴充器所使用的時間和距離量值的功能。 粒度是擴充(聯結)數據時所使用的 enrichers 時間或距離量值。 有時間粒度,例如每小時或每日,以及位置數據粒度,例如最接近的距離。 |
| selectors |
包含從客戶數據集選取和聯結數據與公用數據集數據的功能。 選取器會定義邏輯,可讓您根據時間和距離量值,使用公用數據集來擴充數據。 例如,使用選取器,您可以根據最接近的位置,或捨入至相同的時間粒度,找到要與數據聯結的公用數據。 使用封裝中的 enrichers 其中一個類別時,指定選取器。 |
單元
| environ |
定義使用 Azure 開放資料集的運行時間環境類別。 本課程模組中的類別可確保 Azure 開放數據集功能已針對不同的環境優化。
一般而言,您不需要具現化這些環境類別,或擔心其實作。
請改用模組函 |
類別
| BingCOVID19Data |
代表 Bing COVID-19 數據集。 此數據集包含來自多個受信任、可靠來源的 Bing COVID-19 數據,包括世界衛生組織(WHO)、疾病控制和預防中心(CDC)、國家和州公共衛生部門、BNO 新聞、24/7 牆街和維琪百科。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式和範例,請參閱 Azure 開放數據集目錄中 Microsoft 的 Bing COVID-19 數據 。 初始化篩選欄位。 |
| BostonSafety |
代表波士頓安全公用數據集。 此數據集包含向波士頓市報告的 311 個通話。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Azure 開放數據集目錄中的 Microsoft 波士頓 安全數據 。 初始化篩選欄位。 |
| COVID19OpenResearch |
代表 COVID-19 開放式研究數據集。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式和範例,請參閱 Microsoft Azure 開放數據集目錄中的 COVID-19 開放式研究數據集 。 |
| COVIDTrackingProject |
代表 COVID 追蹤項目數據集。 此數據集包含 COVID 追蹤項目數據集,提供來自每個美國州和地區的最新測試、確診病例、住院和患者結果。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式和範例,請參閱 Microsoft Azure 開放數據集目錄中 的 COVID 追蹤專案數據集 。 初始化篩選欄位。 |
| ChicagoSafety |
表示芝加哥安全公用數據集。 此數據集包含來自芝加哥市的 311 個服務要求,包括歷史衛生程式代碼投訴、報告鍋洞和路燈問題。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure 開放數據集目錄中的 芝加哥安全數據 。 初始化篩選欄位。 |
| CitySafety |
城市安全類別 - 這是可由每個個別城市繼承的父類別。 初始化篩選欄位。 |
| Diabetes |
代表範例糖尿病公用數據集。 糖尿病資料集有 442 份具有 10 項特徵的範例,因此很適合作為機器學習演算法入門。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式和範例,請參閱範例:Microsoft Azure Open Datasets 目錄中的 糖尿病 。 |
| EcdcCOVIDCases |
代表歐洲疾病預防控制中心(ECDC)Covid-19病例。 此數據集包含來自歐洲疾病預防控制中心 (ECDC) 的數據集。 每個數據列/專案都包含每天和每個國家/地區報告的新案例數目。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure 開放數據集目錄中的 歐洲疾病預防控制中心 (ECDC) Covid-19 案例 。 初始化篩選欄位。 |
| MNIST |
表示手寫數位的 MNIST 數據集。 手寫數字的 MNIST 資料庫包含一個訓練集 (共有 60,000 個範例) 及一個測試集 (共有 10,000 個範例)。 數位已以大小正規化並置中固定大小影像中。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式和範例,請參閱 Microsoft azure Open Datasets 目錄中 手寫數位的 MNIST 資料庫 。 如需使用 MNIST 數據集的範例,請參閱 使用 Azure Machine Learning 將影像分類模型定型與 MNIST 數據和 scikit-learn 教學課程。 |
| NoParameterOpenDatasetBase |
美國勞動基類。 初始化。 |
| NoaaGfsWeather |
代表國家海洋和大氣管理局(NOAA)全球預報系統(GFS)數據集。 此數據集包含來自國家海洋和大氣管理局(NOAA)的全球預報系統(GFS)產生的15天美國每小時天氣預報數據(例如:溫度、降水、風力)。 如需此數據集的相關信息,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure 開放數據集目錄中 的 NOAA 全域預測系統 。 初始化篩選欄位。 |
| NoaaIsdWeather |
代表國家海洋和大氣管理局(NOAA)綜合表面數據集(ISD)。 此數據集包含來自國家海洋和大氣管理局(NOAA)的全球每小時天氣歷程記錄數據(例如:溫度、降水、風力)。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式和範例,請參閱 Microsoft Azure Open Datasets 目錄中 的 NOAA 整合 Surface 數據 。 初始化篩選欄位。 |
| NycSafety |
表示紐約市安全公用數據集。 此資料集包含 2010 年至今所有的紐約市 311 服務要求。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式和範例,請參閱 azure 開放數據集目錄中的 Microsoft 紐約市安全數據 。 初始化篩選欄位。 |
| NycTaxiBase |
紐約計程車類別 - 這是可繼承的父類別。 初始化篩選欄位。 |
| NycTlcFhv |
代表NYC計程車和豪華轎車委員會公用數據集。 此數據集包含 For-Hire Vechicle (FHV) 車程記錄,其中包括擷取發送基底授權號碼和取貨日期、時間和計程車區域位置標識符的欄位(下方的圖形檔案)。 這些記錄是由基底所提交的 FHV Trip Record 提交所產生。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式和範例,請參閱 NYC Taxi & Limousine Commission - For-Hire Vehicle (FHV) Microsoft Azure Open Datasets 目錄中的車程記錄。 初始化篩選欄位。 |
| NycTlcGreen |
代表NYC計程車和豪華轎車委員會綠色計程車車程公用數據集。 綠色計程車車程記錄包括擷取起和下車日期/時間、上車和下車地點、車程距離、分項票價、費率類型、付款類型和司機報告乘客計數的字段。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 NYC Taxi & Limousine Commission - Microsoft Azure Open Datasets 目錄中的綠色計程車車程記錄。 如需使用 NycTlcGreen 類別的範例,請參閱 教學課程使用自動化機器學習來預測計程車車資。 初始化篩選欄位。 |
| NycTlcYellow |
代表NYC計程車和豪華轎車委員會黃色計程車車程公用數據集。 黃色計程車車程記錄包括擷取上車和下車日期/時間、上車和下車地點、車程距離、分項票價、費率類型、付款類型和司機報告乘客計數的字段。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 NYC Taxi & Limousine Commission - Microsoft Azure Open Datasets 目錄中的黃色計程車車程記錄。 初始化篩選欄位。 |
| OjSalesSimulated |
代表範例橙汁銷售模擬數據數據集。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式和範例,請參閱範例:Microsoft Azure 開放數據集目錄中的 OJ 銷售模擬數據 。 |
| PublicHolidays |
表示公用假日公用數據集。 此數據集包含來自 PyPI 假日套件和維琪百科的全球公用假日數據,涵蓋 1970 到 2099 年 38 個國家或地區。 每個數據列都會指出特定日期、國家或地區的假日資訊,以及大多數人是否有帶薪休假。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式和範例,請參閱 Azure 開放數據集目錄中的 Microsoft 公用假日 。 初始化篩選欄位。 |
| PublicHolidaysOffline |
表示公用假日脫機公用數據集。 如需數據列的描述,請參閱 Microsoft Azure 開放數據集目錄中的 公用假日 。 初始化篩選欄位。 |
| SampleDatasetBase |
表示範例數據集基類。 |
| SanFranciscoSafety |
代表三藩市安全公用數據集。 此數據集包含消防部門服務電話,以及三藩市的 311 個案例。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式和範例,請參閱 Azure Open Datasets 目錄中的 Microsoft 三藩市安全數據 。 初始化篩選欄位。 |
| SeattleSafety |
代表 Seattle Safety 公用數據集。 此數據集包含西雅圖消防部門 911 分派數據。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Azure 開放數據集目錄中Microsoft 西雅圖安全數據 。 初始化篩選欄位。 |
| UsLaborCPI |
表示美國消費者價格指數公用數據集。 消費者價格指數(CPI)是城市消費者為一籃子消費品和服務市場支付的價格一段時間的平均變化的衡量標準。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 azure 開放式數據集目錄中Microsoft 美國消費者價格指數 。 初始化。 |
| UsLaborEHENational |
代表美國國家就業時數和收益公用數據集。 此數據集包含美國非農工就業、時數和工人收入的產業估計。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式和範例,請參閱 Microsoft Azure 開放數據集目錄中的 美國國家就業時數和收益 。 初始化。 |
| UsLaborEHEState |
代表美國國家就業時數和收益公用數據集。 此數據集包含美國非農工就業、時數和工人收入的產業估計。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure 開放數據集目錄中的 美國州就業時數和收益 。 初始化。 |
| UsLaborLAUS |
代表美國地區失業統計公用數據集。 此數據集包含美國人口普查區域和部門、州、縣、大都市區和許多城市的每月和年度就業、失業和勞動力數據。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure 開放數據集目錄中的 美國地區失業統計數據 。 初始化。 |
| UsLaborLFS |
代表美國勞動力統計公用數據集。 此數據集包含美國勞動力的相關數據,包括勞動力參與率,以及依年齡、性別、種族和種族群體的平民非憲法人口。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式和範例,請參閱 azure Open Datasets 目錄中Microsoft 的美國勞動力統計數據 。 初始化。 |
| UsLaborPPICommodity |
代表美國生產者價格指數 (PPI) - 商品公共數據集。 生產者價格指數(PPI)是國內生產者為其產出收到的銷售價格隨著時間平均變化的衡量標準。 PPI 中包含的價格來自涵蓋產品和服務的第一筆商業交易。 此數據集包含個別產品和每月發行產品群組的PPIS。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 azure 開放數據集目錄中的 Microsoft美國生產者價格指數 - 商品 。 初始化。 |
| UsLaborPPIIndustry |
代表美國生產者價格指數 (PPI) - 產業公共數據集。 生產者價格指數(PPI)是國內生產者為其產出收到的銷售價格隨著時間平均變化的衡量標準。 PPI 中包含的價格來自涵蓋產品和服務的第一筆商業交易。 此數據集包含適用於美國經濟各種產業部門的PPIS。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure 開放數據集目錄中的 美國生產者價格指數 - 產業 。 如需 Azure 開放數據集的一般資訊,請參閱 Azure Open Datasets 檔。 初始化。 |
| UsPopulationCounty |
代表依縣/縣公用數據集的美國人口。 此數據集包含 2000 年和 2010 年 12 月人口普查中每個美國縣的性別和種族人口。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure 開放數據集目錄中 的 US Population by County 。 初始化。 |
| UsPopulationZip |
代表依郵政編碼的美國母體擴展公用數據集。 此數據集包含 2010 年 12 月人口普查中每個美國郵遞區編碼的性別和種族人口。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure 開放數據集目錄中的 US Population by ZIP Code 。 初始化。 |