opendatasets 套件

包含使用 Azure 開放數據集作為數據框架和擴充客戶數據的功能。

Azure 開放資料集是策劃的公用資料集,您可以使用這些公用資料集,將案例專有的功能新增至機器學習解決方案,以獲得更準確的模型。 您可以將這些公用資料集轉換成已套用篩選的 Spark 和 pandas 資料框架。 對於某些數據集,您可以使用擴充器來聯結公用數據與您的數據。 例如,您可以依經度和緯度或郵遞區編碼和時間,將您的資料與天氣數據聯結。

Azure 開放數據集包含氣象、人口普查、假日、公用安全及位置的公用領域數據,可協助您定型機器學習模型並擴充預測解決方案。 開放式數據集位於 Microsoft Azure 上的雲端,並已整合到 Azure Machine Learning 中。 如需使用 Azure 開放數據集的詳細資訊,請參閱 使用 Azure 開放數據集建立數據集

如需 Azure 開放數據集的一般資訊,請參閱 Azure 開放數據集檔

套件

accessories

包含可協助識別數據中數據行類型的功能,包括 lat/long、zipcode 和 time。

aggregators

包含定義聯結數據匯總方式的功能。

彙總工具會定義可在聯結來自兩個數據集之數據的結果上執行的作業。 例如,當您使用 中的 enrichers其中一個類別時,您可以將匯總工具指定為作業的一部分。 如果不需要匯總,請使用 AggregatorAll

data

包含 publicholidays 模組中數據資源的 init 檔案。

dataaccess

包含提供 Blob 檔案存取方法的功能。

當您使用類別之類的ChicagoSafety封裝中的opendatasets類別時,此套件中的 dataaccess 類別和函式會在內部使用。 一般而言,您不需要直接使用 dataaccess 套件中的功能。

enrichers

包含從兩個數據集擴充和聯結數據的功能。

一般而言,擴充器會將來自不同來源的數據聯結在一起。 具體而言,擴充器可讓您將數據聯結 (客戶數據,) 來自 Azure 開放數據集或其他公用數據集的數據。

granularities

包含定義擴充器所使用時間和距離量值的功能。

粒度是擴充 (聯結) 數據時所使用的 enrichers 時間或距離量值。 有時間粒度,例如每小時或每日,以及位置粒度,例如最接近的距離。

selectors

包含從客戶數據集選取和聯結數據與公用數據集數據的功能。

選取器會定義邏輯,讓您根據時間和距離量值,使用公用數據集擴充數據。 例如,使用選取器,您可以根據最接近的位置,或四捨五入至相同的時間粒度,找到要與數據聯結的公用數據。

使用封裝中的 enrichers 其中一個類別時,指定選取器。

單元

environ

定義使用 Azure 開放資料集的運行時間環境類別。

本課程模組中的類別可確保 Azure 開放數據集功能已針對不同的環境優化。 一般而言,您不需要具現化這些環境類別,或擔心其實作。 請改用 get_environ 模組函式傳回環境。

類別

BingCOVID19Data

代表 Bing COVID-19 數據集。

此數據集包含來自多個受信任、可靠來源的 Bing COVID-19 數據,包括 World Health Organization (WHO) 、CDC 中心 (CDC) 、國家和州公健康部門、BNO 新聞、24/7 Wall St.和 Wikipedia。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure 開放數據集目錄中的 Bing COVID-19 數據

初始化篩選欄位。

BostonSafety

代表波士頓安全公用數據集。

此數據集包含向紐約城市回報的 311 個通話。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure 開放數據集目錄中的 波士頓安全數據

初始化篩選欄位。

COVID19OpenResearch

代表 COVID-19 開放式研究數據集。

如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式和範例,請參閱 Microsoft Azure 開放數據集目錄中的 COVID-19 Open Research 數據集。

COVIDTrackingProject

代表 COVID 追蹤項目數據集。

此數據集包含 COVID 追蹤項目數據集,提供來自每個美國州和地區的測試、已確認案例、醫院和病患結果的最新數位。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure 開放數據集目錄中的 COVID 追蹤專案數據集

初始化篩選欄位。

ChicagoSafety

代表芝加哥安全公用數據集。

此數據集包含來自芝加哥市的 311 個服務要求,包括歷程記錄程式代碼抱怨、回報的池洞和街燈問題。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure 開放數據集目錄中的 芝加哥安全數據

初始化篩選欄位。

CitySafety

城市安全類別 - 這是可由每個個別城市繼承的父類別。

初始化篩選欄位。

Diabetes

代表範例糖尿病公用數據集。

糖尿病資料集有 442 份具有 10 項特徵的範例,因此很適合作為機器學習演算法入門。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式和範例,請參閱 Microsoft Azure 開放數據集目錄中的 範例:糖尿病

EcdcCOVIDCases

代表歐洲疾病防護中心 (ECDC) Covid-19 案例。

此數據集包含來自歐洲疾病預防與控制中心 (ECDC) 。 每個數據列/專案都包含每天和每個國家/地區報告的新案例數目。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure 開放數據集目錄中的 歐洲疾病預防與控制中心 (ECDC) Covid-19 案例

初始化篩選欄位。

MNIST

表示手寫數位的 MNIST 數據集。

手寫數字的 MNIST 資料庫有 60,000 個範例的訓練集,以及 10,000 個範例的測試集。 數字已大小正規化且在固定大小的影像置中。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure 開放數據集目錄中 手寫數位的 MNIST 資料庫

如需使用 MNIST 數據集的範例,請參閱 使用 MNIST 數據和 scikit-learn 使用 Azure Machine Learning 將影像分類模型定型教學課程。

NoParameterOpenDatasetBase

美國人力基類。

初始化。

NoaaGfsWeather

代表 NOAA) 全域預測系統 (GFS) 數據集的國家海洋和氣候系統 (。

此數據集包含 15 天的美國每小時氣象預報數據, (範例:全域預測系統 (GFS 所產生的溫度、濕度、風力發電) ) , (NOAA) 。 如需此數據集的相關信息,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure 開放數據集目錄中的 NOAA 全域預測系統

初始化篩選欄位。

NoaaIsdWeather

代表IS) D (ISD (ISD (NOAA) 整合式 Surface 數據集。

此數據集包含全球每小時天氣歷程記錄數據, (範例:溫度、濕度、風力發電) 從國家海洋和氣候管理 (NOAA) 。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure 開放數據集目錄中的 NOAA 整合式 Surface 數據

初始化篩選欄位。

NycSafety

代表紐約市安全公用數據集。

此資料集包含 2010 年至今所有的紐約市 311 服務要求。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure 開放數據集目錄中的 紐約市安全數據

初始化篩選欄位。

NycTaxiBase

紐約計程車類別 - 這是可繼承的父類別。

初始化篩選欄位。

NycTlcFhv

代表 NYC 計程車 & Limousine Commission 公用數據集。

此數據集包含 For-Hire Vechicle (FHV) 車程記錄,其中包括擷取分派基礎授權號碼和下車日期、時間和計程車區域位置標識符的欄位, (下方的圖形檔案) 。 這些記錄是根據公司提交的 FHV 行程記錄所產生。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 NYC 計程車 & Limousine Commission - For-Hire Vehicle (FHV) Microsoft Azure Open Datasets 目錄中的車程記錄。

初始化篩選欄位。

NycTlcGreen

代表 NYC 計程車 & Limousine Commission 綠色計程車車程公用數據集。

綠色計程車車程記錄包括各種欄位:用以擷取上車和下車日期/時間、上車和下車地點、車程距離、列舉車資、費率類型、付款類型和司機回報的乘客數。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 NYC 計程車 & Limousine Commission - Microsoft Azure 開放數據集目錄中的綠色計程車車程記錄。

如需使用 NycTlcGreen 類別的範例,請參閱 教學課程使用自動化機器學習來預測計程車車資

初始化篩選欄位。

NycTlcYellow

代表 NYC 計程車 & Limousine Commission 黃色計程車車程公用數據集。

黃色計程車車程記錄包括各種欄位:用以擷取上車和下車日期/時間、上車和下車地點、車程距離、列舉車資、費率類型、付款類型和司機回報的乘客數。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure 開放數據集目錄中 的 NYC 計程車 & Limousine Commission - 黃色計程車車程記錄

初始化篩選欄位。

OjSalesSimulated

代表 [範例橘色] [銷售模擬數據] 數據集。

如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure 開放數據集目錄中的 範例:OJ 銷售模擬數據

PublicHolidays

代表公用假日公用數據集。

此數據集包含來自 PyPI 假日套件和 Wikipedia 的全球公用假日數據,涵蓋 1970 到 2099 年 38 個國家或地區。 每個資料列都會載明假日資訊,指出特定日期、國家或地區,以及多數人是否具有帶薪休假。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure 開放數據集目錄中的 公用假日

初始化篩選欄位。

PublicHolidaysOffline

代表公用假日脫機公用數據集。

如需數據列的描述,請參閱 Microsoft Azure 開放數據集目錄中的 公開假日

初始化篩選欄位。

SampleDatasetBase

表示範例數據集基類。

SanFranciscoSafety

代表 San Francisco Safety 公用數據集。

此數據集包含適用於服務的火災部門呼叫,以及 San Francisco 中的 311 個案例。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure 開放數據集目錄中的 San Francisco Safety Data

初始化篩選欄位。

SeattleSafety

代表 Seattle Safety 公用數據集。

此數據集包含 Seattle Fire Department 911 分派數據。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure 開放數據集目錄中的 西雅圖安全數據

初始化篩選欄位。

UsLaborCPI

代表美國消費者價格索引公用數據集。

消費者物價指數 (CPI) 用於衡量一段時間內都市消費者為一個購物籃中消費性商品和服務所支付價格的平均變化情況。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure 開放數據集目錄中的 美國消費者價格索引

初始化。

UsLaborEHENational

代表美國國家雇用時數和收益公用數據集。

此數據集包含 美國 中員工薪資的非工時數、時數和收益的產業估計值。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure 開放數據集目錄中的 美國國家雇用時數和收益

初始化。

UsLaborEHEState

代表美國州僱用時數和收益公用數據集。

此數據集包含 美國 中員工薪資的非工時數、時數和收益的產業估計值。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure 開放數據集目錄中的 美國州雇用時數和收益

初始化。

UsLaborLAUS

代表美國當地區域未認證統計數據公用數據集。

此數據集包含 美國 中人口普查區域和部門、州、縣、城市區域和許多城市的每月和年度僱用、取消和人力數據。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure Open Datasets 目錄中的 美國當地區域未加入統計數據

初始化。

UsLaborLFS

代表美國人力統計數據公用數據集。

此數據集包含 美國 中人力的相關數據,包括人力參與率,以及依年齡、性別、種族和種族群組的人口非機構人口。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure 開放數據集目錄中的 美國人力強制統計數據

初始化。

UsLaborPPICommodity

代表美國生產者價格索引 (PPI) - 商品公用數據集。

生產者物價指數 (PPI) 用於衡量一段時間內國內生產者就其生產所獲售價的平均變化情況。 PPI 中包含的價格取自所涵蓋之產品和服務的第一次商業交易。 此數據集包含每月發行之個別產品和產品群組的PPI。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure 開放數據集目錄中的 美國生產者價格索引 - 商品

初始化。

UsLaborPPIIndustry

代表美國生產者價格索引 (PPI) - 產業公用數據集。

生產者物價指數 (PPI) 用於衡量一段時間內國內生產者就其生產所獲售價的平均變化情況。 PPI 中包含的價格取自所涵蓋之產品和服務的第一次商業交易。 此數據集包含適用於美國經濟各種產業部門的PPI。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure 開放數據集目錄中的 美國生產者價格索引 - 產業

如需 Azure 開放數據集的一般資訊,請參閱 Azure 開放數據集檔

初始化。

UsPopulationCounty

代表依縣/市的美國人口公用數據集。

此數據集包含來自 2000 年和 2010 年十二月人口普查的每個美國縣的性別和競爭。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure 開放數據集目錄中的 美國人口依縣/市

初始化。

UsPopulationZip

代表依郵政編碼的美國人口公用數據集。

此數據集包含 2010 年 12 月人口普查所來源每個美國郵遞區編碼的性別和競爭。 如需此數據集的詳細資訊,包括數據行描述、存取數據集的不同方式,以及範例,請參閱 Microsoft Azure 開放數據集目錄中的 US Population by ZIP Code

初始化。