opendatasets Balíček
Obsahuje funkce pro využívání datových sad Azure Open Datasets jako datových rámců a pro rozšiřování zákaznických dat.
Azure Open Datasets jsou kurátorované veřejné datové sady, které můžete použít k přidání funkcí specifických pro scénáře do řešení strojového učení pro přesnější modely. Tyto veřejné datové sady můžete převést na datové rámce Spark a pandas s použitými filtry. U některých datových sad můžete pomocí rozšiřujícího nástroje připojit veřejná data k vašim datům. Data můžete například spojit s daty o počasí podle zeměpisné délky a zeměpisné šířky nebo PSČ a času.
Součástí Azure Open Datasets jsou data veřejné domény pro počasí, sčítání lidu, svátky, veřejnou bezpečnost a umístění, které vám pomůžou trénovat modely strojového učení a rozšiřovat prediktivní řešení. Otevřené datové sady jsou v cloudu v Microsoft Azure a jsou integrované do Služby Azure Machine Learning. Další informace o práci s Azure Open Datasets najdete v tématu Vytváření datových sad pomocí Azure Open Datasets.
Obecné informace o službě Azure Open Datasets najdete v dokumentaci k Azure Open Datasets.
Balíčky
| accessories |
Obsahuje funkce, které pomáhají identifikovat typy sloupců v datech, včetně lat/long, PSČ a času. |
| aggregators |
Obsahuje funkce pro definování agregace připojených dat. Agregátoři definují operace, které lze provést s výsledkem spojení dat ze dvou datových sad. Například při použití jedné z tříd v enrichers, můžete zadat agregátor jako součást operace. Pokud není potřeba agregace, použijte AggregatorAll. |
| data |
Obsahuje inicializační soubor pro datové prostředky v modulu publicholidays. |
| dataaccess |
Obsahuje funkce poskytující metody přístupu k souborům objektů blob. Když použijete třídu z opendatasets balíčku, jako je ChicagoSafety třída, třídy a funkce datového přístupu v tomto balíčku se používají interně. Obecně platí, že nebudete muset funkci v balíčku dataaccess používat přímo. |
| enrichers |
Obsahuje funkce pro rozšiřování a spojování dat ze dvou datových sad. Obecně platí, že rozšiřování spojuje data z různých zdrojů. Konkrétně rozšíření umožňují spojit data (zákaznická data) s daty z Azure Open Datasets nebo jiných veřejných datových sad. |
| granularities |
Obsahuje funkce definující míry času a vzdálenosti používané rozšiřováním. Členitosti jsou míry času nebo vzdálenosti používané enrichers při rozšiřování (spojování) dat. K dispozici jsou časové intervaly, jako je hodinová nebo denní, a členitost umístění, jako je nejbližší vzdálenost. |
| selectors |
Obsahuje funkce pro výběr a spojování dat z datové sady zákazníka s daty z veřejné datové sady. Selektory definují logiku, která umožňuje rozšířit data o veřejné datové sady na základě měr času a vzdálenosti. Pomocí selektoru můžete například najít veřejná data, která se mají spojit s daty na základě nejbližšího umístění, nebo zaokrouhlováním na stejnou časovou členitost. Určete selektory při práci s jednou z tříd v enrichers balíčku. |
Moduly
| environ |
Definuje třídy prostředí runtime, ve kterých se používají azure Open Datasets. Třídy v tomto modulu zajišťují, že funkce Azure Open Datasets jsou optimalizované pro různá prostředí.
Obecně platí, že nemusíte vytvářet instance těchto tříd prostředí nebo se starat o jejich implementaci.
Místo toho použijte |
Třídy
| BingCOVID19Data |
Představuje datovou sadu Bingu COVID-19. Tyto datové sady obsahují data Bingu o COVID-19 z několika důvěryhodných, spolehlivých zdrojů, včetně Světové zdravotnické organizace (WHO), center for Disease Control and Prevention (CDC), národních a státních zdravotnických oddělení, BNO News, 24/7 Wall St. a Wikipedie. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Data Bingu COVID-19 v katalogu Microsoft Azure Open Datasets. Inicializace polí filtrování |
| BostonSafety |
Představuje veřejnou datovou sadu Boston Safety. Tato datová sada obsahuje 311 volání hlášených městu Boston. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Boston Safety Data v katalogu Microsoft Azure Open Datasets. Inicializace polí filtrování |
| COVID19OpenResearch |
Představuje otevřenou datovou sadu pro výzkum COVID-19. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu COVID-19 Open Research Dataset v katalogu Microsoft Azure Open Datasets. |
| COVIDTrackingProject |
Představuje datovou sadu projektu COVID Tracking. Tyto datové sady obsahují datovou sadu projektu COVID Tracking, která poskytuje nejnovější čísla testů, potvrzených případů, hospitalizací a výsledků pacientů z každého státu a území USA. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu o datové sadě projektu COVID Tracking v katalogu Microsoft Azure Open Datasets. Inicializace polí filtrování |
| ChicagoSafety |
Představuje veřejnou datovou sadu Zabezpečení Pro Chicago. Tato datová sada obsahuje 311 žádostí o služby z Města Chicago, včetně historických stížností na sanitační kód, nahlášených otvorů pro pot a problémů s pouličním osvětlením. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Data o bezpečnosti Pro Chicago v katalogu Microsoft Azure Open Datasets. Inicializace polí filtrování |
| CitySafety |
Třída bezpečnosti města - to je nadřazená třída, která může být zděděna jednotlivými městy. Inicializace polí filtrování |
| Diabetes |
Představuje ukázkovou veřejnou datovou sadu Diabetes. Datová sada Diabetes má 442 vzorků s 10 funkcemi a je ideální pro zahájení práce s algoritmy strojového učení. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Ukázka: Diabetes v katalogu Microsoft Azure Open Datasets. |
| EcdcCOVIDCases |
Představuje Evropské středisko pro prevenci a kontrolu nemocí (ECDC) případy covid-19. Tyto datové sady jsou součástí Evropského centra pro prevenci a kontrolu nemocí (ECDC). Každý řádek/položka obsahuje počet nových případů hlášených za den a pro zemi/oblast. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Evropské centrum pro prevenci a kontrolu nemocí (ECDC) Případy Covid-19 v katalogu Microsoft Azure Open Datasets. Inicializace polí filtrování |
| MNIST |
Představuje datovou sadu MNIST ručně psaných číslic. Databáze MNIST ručně psaných číslic obsahuje trénovací sadu 60 000 příkladů a testovací sadu 10 000 příkladů. Číslice byly normalizovány a zacentrovány na obrázku s pevnou velikostí. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Databáze MNIST ručně psaných číslic v katalogu Microsoft Azure Open Datasets. Příklad použití datové sady MNIST najdete v kurzu Trénování modelů klasifikace obrázků pomocí dat MNIST a scikit-learn pomocí služby Azure Machine Learning. |
| NoParameterOpenDatasetBase |
Us labor base class. Inicializovat. |
| NoaaGfsWeather |
Představuje datovou sadu GFS (National Oceanic and Atmospheric Administration) Global Forecast System (NOAA). Tato datová sada obsahuje 15denní data předpovědi počasí v USA (příklad: teplota, srážky, vítr) vytvářená globálním systémem prognóz (GFS) z Národní správy oceánů a atmosféry (NOAA). Informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu NOAA Global Forecast System v katalogu Microsoft Azure Open Datasets. Inicializace polí filtrování |
| NoaaIsdWeather |
Představuje národní správu oceánu a atmosféry (NOAA) integrované surface dataset (ISD). Tato datová sada obsahuje data historie počasí po celém světě (například teplota, srážky, vítr) ze správy národního oceánu a atmosféry (NOAA). Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu NOAA Integrated Surface Data in the Microsoft Azure Open Datasets catalog. Inicializace polí filtrování |
| NycSafety |
Představuje veřejnou datovou sadu Bezpečnosti města New York. Tato datová sada obsahuje všechny žádosti o služby 311 v New Yorku od roku 2010 až do současnosti. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu New York City Safety Data v katalogu Microsoft Azure Open Datasets. Inicializace polí filtrování |
| NycTaxiBase |
New York Taxi třída - to je nadřazená třída, která může být zděděna. Inicializace polí filtrování |
| NycTlcFhv |
Představuje veřejnou datovou sadu NYC Taxi & Limousine Commission. Tato datová sada obsahuje záznamy o cestě For-Hire Vechicle (FHV), které zahrnují pole zachycující číslo základní licence dispečera a datum vyzvednutí, čas a ID polohy v zóně taxi (soubor obrazce níže). Tyto záznamy se generují ze záznamů o jízdě FHV provedených základnami. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu NYC Taxi & Limousine Commission - For-Hire Vehicle (FHV) záznamy jízdy v katalogu Microsoft Azure Open Datasets. Inicializace polí filtrování |
| NycTlcGreen |
Představuje veřejnou datovou sadu veřejné datové sady výletů taxislužby NYC Taxi & Limousine Commission. Mezi zelené záznamy o jízdě taxíkem patří pole zachycující data vyzvednutí a odkládací časy, vyzvednutí a odkládací místa, vzdálenosti jízdy, položky jízdné, typy sazeb, typy plateb a počty cestujících hlášených řidičem. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu NYC Taxi &Limousine Commission - green taxi trip records in the Microsoft Azure Open Datasets catalog. Příklad použití třídy NycTlcGreen najdete v kurzu Použití automatizovaného strojového učení k predikci jízdného taxíkem. Inicializace polí filtrování |
| NycTlcYellow |
Představuje veřejnou datovou sadu veřejné cesty taxislužby NYC Taxi & Limousine Commission. Žluté záznamy o jízdě taxíkem zahrnují pole zachycující data vyzvednutí a odkládací časy, vyzvednutí a odkládací místa, vzdálenosti jízdy, položky jízdné, typy sazeb, typy plateb a počty cestujících hlášených řidičem. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu NYC Taxi &Limousine Commission – žluté záznamy o jízdě taxíkem v katalogu Microsoft Azure Open Datasets. Inicializace polí filtrování |
| OjSalesSimulated |
Představuje ukázkovou datovou sadu s datovou sadou Orange Juice Sales Sales. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Ukázka: Sales Simulated Dataoj v katalogu Microsoft Azure Open Datasets. |
| PublicHolidays |
Představuje veřejnou datovou sadu svátků. Tyto datové sady obsahují data o veřejných svátcích po celém světě ze svátků PyPI a Wikipedie, která pokrývají 38 zemí nebo oblastí z roku 1970 až 2099. Každý řádek označuje informace o svátcích pro konkrétní datum, zemi nebo oblast a informace o tom, jestli většina lidí zaplatila volno. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v katalogu Microsoft Azure Open Datasets na veřejných svátcích . Inicializace polí filtrování |
| PublicHolidaysOffline |
Představuje veřejnou datovou sadu pro veřejné svátky offline. Inicializace polí filtrování |
| SampleDatasetBase |
Představuje ukázkovou třídu Dataset Base. |
| SanFranciscoSafety |
Představuje veřejnou datovou sadu San Francisco Safety. Tato datová sada obsahuje volání hasičského sboru pro služby a 311 případů v San Franciscu. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu San Francisco Safety Data v katalogu Microsoft Azure Open Datasets. Inicializace polí filtrování |
| SeattleSafety |
Představuje veřejnou datovou sadu Seattle Safety. Tato datová sada obsahuje data o expedičním oddělení Seattlu 911. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Bezpečnostní data Seattlu v katalogu Microsoft Azure Open Datasets. Inicializace polí filtrování |
| UsLaborCPI |
Představuje veřejnou datovou sadu indexu spotřebitelských cen USA. Index spotřebitelských cen (CPI) je míra průměrné změny v čase v cenách placených městskými spotřebiteli za tržní košík spotřebního zboží a služeb. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v katalogu Microsoft Azure Open Datasets index spotřebitelských cen . Inicializovat. |
| UsLaborEHENational |
Představuje veřejnou datovou sadu pracovních hodin a příjmů v USA. Tato datová sada obsahuje odhady pracovních příležitostí, hodin a příjmů pracovníků na mzdách ve Spojených státech. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v katalogu Microsoft Azure Open Datasets v usa – národní pracovní doba a příjmy . Inicializovat. |
| UsLaborEHEState |
Představuje veřejnou datovou sadu pracovních hodin a příjmů státního státu USA. Tato datová sada obsahuje odhady pracovních příležitostí, hodin a příjmů pracovníků na mzdách ve Spojených státech. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v katalogu Microsoft Azure Open Datasets v hodinách zaměstnání a příjmu ve státě USA . Inicializovat. |
| UsLaborLAUS |
Představuje veřejnou datovou sadu statistiky nezaměstnanosti v oblasti USA. Tato datová sada obsahuje měsíční a roční údaje o zaměstnanosti, nezaměstnanosti a pracovní síle pro oblasti a divize sčítání lidu, státy, okresy, metropolitní oblasti a mnoho měst ve Spojených státech. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Statistika nezaměstnanosti v oblasti USA v katalogu Microsoft Azure Open Datasets. Inicializovat. |
| UsLaborLFS |
Představuje veřejnou datovou sadu statistiky pracovních sil USA. Tato datová sada obsahuje data o pracovní síle ve Spojených státech, včetně míry účasti pracovních sil a civilního neintitučního obyvatelstva podle věku, pohlaví, rasy a etnických skupin. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v katalogu Microsoft Azure Open Datasets statistiky pracovních sil v USA . Inicializovat. |
| UsLaborPPICommodity |
Představuje index cen výrobců v USA (PPI) – veřejná datová sada komodit. Index cen výrobců (PPI) je míra průměrné změny v průběhu času v prodejních cenách přijatých domácími výrobci za jejich výstup. Ceny zahrnuté v PPI pocházejí z první komerční transakce pro produkty a služby, na které se vztahuje. Tato datová sada obsahuje PPI pro jednotlivé produkty a skupiny produktů vydaných měsíčně. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Index cen výrobců USA – komodity v katalogu Microsoft Azure Open Datasets. Inicializovat. |
| UsLaborPPIIndustry |
Představuje index cen výrobců v USA (PPI) – veřejná datová sada odvětví. Index cen výrobců (PPI) je míra průměrné změny v průběhu času v prodejních cenách přijatých domácími výrobci za jejich výstup. Ceny zahrnuté v PPI pocházejí z první komerční transakce pro produkty a služby, na které se vztahuje. Tato datová sada obsahuje PPI pro širokou škálu odvětví americké ekonomiky. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Index cen výrobců USA – obor v katalogu Microsoft Azure Open Datasets. Obecné informace o službě Azure Open Datasets najdete v dokumentaci k Azure Open Datasets. Inicializovat. |
| UsPopulationCounty |
Představuje veřejnou datovou sadu pro populaci USA podle okresu. Tato datová sada obsahuje populaci USA podle pohlaví a rasy pro každou okres USA, která pochází z roku 2000 a 2010 Decennial Census. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Počet obyvatel USA podle okresu v katalogu Microsoft Azure Open Datasets. Inicializovat. |
| UsPopulationZip |
Představuje populaci USA veřejnou datovou sadou PSČ. Tato datová sada obsahuje populaci USA podle pohlaví a rasy pro každý PSČ v USA, který pochází z roku 2010 Decennial Census. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v katalogu Microsoft Azure Open Datasets podle PSČ populace USA . Inicializovat. |