Sdílet prostřednictvím


opendatasets Balíček

Obsahuje funkce pro využívání datových sad Azure Open Datasets jako datových rámců a pro rozšiřování zákaznických dat.

Azure Open Datasets jsou kurátorované veřejné datové sady, které můžete použít k přidání funkcí specifických pro scénáře do řešení strojového učení pro přesnější modely. Tyto veřejné datové sady můžete převést na datové rámce Spark a pandas s použitými filtry. U některých datových sad můžete pomocí rozšiřujícího nástroje připojit veřejná data k vašim datům. Data můžete například spojit s daty o počasí podle zeměpisné délky a zeměpisné šířky nebo PSČ a času.

Součástí Azure Open Datasets jsou data veřejné domény pro počasí, sčítání lidu, svátky, veřejnou bezpečnost a umístění, které vám pomůžou trénovat modely strojového učení a rozšiřovat prediktivní řešení. Otevřené datové sady jsou v cloudu v Microsoft Azure a jsou integrované do Služby Azure Machine Learning. Další informace o práci s Azure Open Datasets najdete v tématu Vytváření datových sad pomocí Azure Open Datasets.

Obecné informace o službě Azure Open Datasets najdete v dokumentaci k Azure Open Datasets.

Balíčky

accessories

Obsahuje funkce, které pomáhají identifikovat typy sloupců v datech, včetně lat/long, PSČ a času.

aggregators

Obsahuje funkce pro definování agregace připojených dat.

Agregátoři definují operace, které lze provést s výsledkem spojení dat ze dvou datových sad. Například při použití jedné z tříd v enrichers, můžete zadat agregátor jako součást operace. Pokud není potřeba agregace, použijte AggregatorAll.

data

Obsahuje inicializační soubor pro datové prostředky v modulu publicholidays.

dataaccess

Obsahuje funkce poskytující metody přístupu k souborům objektů blob.

Když použijete třídu z opendatasets balíčku, jako je ChicagoSafety třída, třídy a funkce datového přístupu v tomto balíčku se používají interně. Obecně platí, že nebudete muset funkci v balíčku dataaccess používat přímo.

enrichers

Obsahuje funkce pro rozšiřování a spojování dat ze dvou datových sad.

Obecně platí, že rozšiřování spojuje data z různých zdrojů. Konkrétně rozšíření umožňují spojit data (zákaznická data) s daty z Azure Open Datasets nebo jiných veřejných datových sad.

granularities

Obsahuje funkce definující míry času a vzdálenosti používané rozšiřováním.

Členitosti jsou míry času nebo vzdálenosti používané enrichers při rozšiřování (spojování) dat. K dispozici jsou časové intervaly, jako je hodinová nebo denní, a členitost umístění, jako je nejbližší vzdálenost.

selectors

Obsahuje funkce pro výběr a spojování dat z datové sady zákazníka s daty z veřejné datové sady.

Selektory definují logiku, která umožňuje rozšířit data o veřejné datové sady na základě měr času a vzdálenosti. Pomocí selektoru můžete například najít veřejná data, která se mají spojit s daty na základě nejbližšího umístění, nebo zaokrouhlováním na stejnou časovou členitost.

Určete selektory při práci s jednou z tříd v enrichers balíčku.

Moduly

environ

Definuje třídy prostředí runtime, ve kterých se používají azure Open Datasets.

Třídy v tomto modulu zajišťují, že funkce Azure Open Datasets jsou optimalizované pro různá prostředí. Obecně platí, že nemusíte vytvářet instance těchto tříd prostředí nebo se starat o jejich implementaci. Místo toho použijte get_environ funkci modulu k vrácení prostředí.

Třídy

BingCOVID19Data

Představuje datovou sadu Bingu COVID-19.

Tyto datové sady obsahují data Bingu o COVID-19 z několika důvěryhodných, spolehlivých zdrojů, včetně Světové zdravotnické organizace (WHO), center for Disease Control and Prevention (CDC), národních a státních zdravotnických oddělení, BNO News, 24/7 Wall St. a Wikipedie. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Data Bingu COVID-19 v katalogu Microsoft Azure Open Datasets.

Inicializace polí filtrování

BostonSafety

Představuje veřejnou datovou sadu Boston Safety.

Tato datová sada obsahuje 311 volání hlášených městu Boston. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Boston Safety Data v katalogu Microsoft Azure Open Datasets.

Inicializace polí filtrování

COVID19OpenResearch

Představuje otevřenou datovou sadu pro výzkum COVID-19.

Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu COVID-19 Open Research Dataset v katalogu Microsoft Azure Open Datasets.

COVIDTrackingProject

Představuje datovou sadu projektu COVID Tracking.

Tyto datové sady obsahují datovou sadu projektu COVID Tracking, která poskytuje nejnovější čísla testů, potvrzených případů, hospitalizací a výsledků pacientů z každého státu a území USA. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu o datové sadě projektu COVID Tracking v katalogu Microsoft Azure Open Datasets.

Inicializace polí filtrování

ChicagoSafety

Představuje veřejnou datovou sadu Zabezpečení Pro Chicago.

Tato datová sada obsahuje 311 žádostí o služby z Města Chicago, včetně historických stížností na sanitační kód, nahlášených otvorů pro pot a problémů s pouličním osvětlením. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Data o bezpečnosti Pro Chicago v katalogu Microsoft Azure Open Datasets.

Inicializace polí filtrování

CitySafety

Třída bezpečnosti města - to je nadřazená třída, která může být zděděna jednotlivými městy.

Inicializace polí filtrování

Diabetes

Představuje ukázkovou veřejnou datovou sadu Diabetes.

Datová sada Diabetes má 442 vzorků s 10 funkcemi a je ideální pro zahájení práce s algoritmy strojového učení. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Ukázka: Diabetes v katalogu Microsoft Azure Open Datasets.

EcdcCOVIDCases

Představuje Evropské středisko pro prevenci a kontrolu nemocí (ECDC) případy covid-19.

Tyto datové sady jsou součástí Evropského centra pro prevenci a kontrolu nemocí (ECDC). Každý řádek/položka obsahuje počet nových případů hlášených za den a pro zemi/oblast. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Evropské centrum pro prevenci a kontrolu nemocí (ECDC) Případy Covid-19 v katalogu Microsoft Azure Open Datasets.

Inicializace polí filtrování

MNIST

Představuje datovou sadu MNIST ručně psaných číslic.

Databáze MNIST ručně psaných číslic obsahuje trénovací sadu 60 000 příkladů a testovací sadu 10 000 příkladů. Číslice byly normalizovány a zacentrovány na obrázku s pevnou velikostí. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Databáze MNIST ručně psaných číslic v katalogu Microsoft Azure Open Datasets.

Příklad použití datové sady MNIST najdete v kurzu Trénování modelů klasifikace obrázků pomocí dat MNIST a scikit-learn pomocí služby Azure Machine Learning.

NoParameterOpenDatasetBase

Us labor base class.

Inicializovat.

NoaaGfsWeather

Představuje datovou sadu GFS (National Oceanic and Atmospheric Administration) Global Forecast System (NOAA).

Tato datová sada obsahuje 15denní data předpovědi počasí v USA (příklad: teplota, srážky, vítr) vytvářená globálním systémem prognóz (GFS) z Národní správy oceánů a atmosféry (NOAA). Informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu NOAA Global Forecast System v katalogu Microsoft Azure Open Datasets.

Inicializace polí filtrování

NoaaIsdWeather

Představuje národní správu oceánu a atmosféry (NOAA) integrované surface dataset (ISD).

Tato datová sada obsahuje data historie počasí po celém světě (například teplota, srážky, vítr) ze správy národního oceánu a atmosféry (NOAA). Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu NOAA Integrated Surface Data in the Microsoft Azure Open Datasets catalog.

Inicializace polí filtrování

NycSafety

Představuje veřejnou datovou sadu Bezpečnosti města New York.

Tato datová sada obsahuje všechny žádosti o služby 311 v New Yorku od roku 2010 až do současnosti. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu New York City Safety Data v katalogu Microsoft Azure Open Datasets.

Inicializace polí filtrování

NycTaxiBase

New York Taxi třída - to je nadřazená třída, která může být zděděna.

Inicializace polí filtrování

NycTlcFhv

Představuje veřejnou datovou sadu NYC Taxi & Limousine Commission.

Tato datová sada obsahuje záznamy o cestě For-Hire Vechicle (FHV), které zahrnují pole zachycující číslo základní licence dispečera a datum vyzvednutí, čas a ID polohy v zóně taxi (soubor obrazce níže). Tyto záznamy se generují ze záznamů o jízdě FHV provedených základnami. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu NYC Taxi & Limousine Commission - For-Hire Vehicle (FHV) záznamy jízdy v katalogu Microsoft Azure Open Datasets.

Inicializace polí filtrování

NycTlcGreen

Představuje veřejnou datovou sadu veřejné datové sady výletů taxislužby NYC Taxi & Limousine Commission.

Mezi zelené záznamy o jízdě taxíkem patří pole zachycující data vyzvednutí a odkládací časy, vyzvednutí a odkládací místa, vzdálenosti jízdy, položky jízdné, typy sazeb, typy plateb a počty cestujících hlášených řidičem. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu NYC Taxi &Limousine Commission - green taxi trip records in the Microsoft Azure Open Datasets catalog.

Příklad použití třídy NycTlcGreen najdete v kurzu Použití automatizovaného strojového učení k predikci jízdného taxíkem.

Inicializace polí filtrování

NycTlcYellow

Představuje veřejnou datovou sadu veřejné cesty taxislužby NYC Taxi & Limousine Commission.

Žluté záznamy o jízdě taxíkem zahrnují pole zachycující data vyzvednutí a odkládací časy, vyzvednutí a odkládací místa, vzdálenosti jízdy, položky jízdné, typy sazeb, typy plateb a počty cestujících hlášených řidičem. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu NYC Taxi &Limousine Commission – žluté záznamy o jízdě taxíkem v katalogu Microsoft Azure Open Datasets.

Inicializace polí filtrování

OjSalesSimulated

Představuje ukázkovou datovou sadu s datovou sadou Orange Juice Sales Sales.

Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Ukázka: Sales Simulated Dataoj v katalogu Microsoft Azure Open Datasets.

PublicHolidays

Představuje veřejnou datovou sadu svátků.

Tyto datové sady obsahují data o veřejných svátcích po celém světě ze svátků PyPI a Wikipedie, která pokrývají 38 zemí nebo oblastí z roku 1970 až 2099. Každý řádek označuje informace o svátcích pro konkrétní datum, zemi nebo oblast a informace o tom, jestli většina lidí zaplatila volno. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v katalogu Microsoft Azure Open Datasets na veřejných svátcích .

Inicializace polí filtrování

PublicHolidaysOffline

Představuje veřejnou datovou sadu pro veřejné svátky offline.

Popisřádkůch

Inicializace polí filtrování

SampleDatasetBase

Představuje ukázkovou třídu Dataset Base.

SanFranciscoSafety

Představuje veřejnou datovou sadu San Francisco Safety.

Tato datová sada obsahuje volání hasičského sboru pro služby a 311 případů v San Franciscu. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu San Francisco Safety Data v katalogu Microsoft Azure Open Datasets.

Inicializace polí filtrování

SeattleSafety

Představuje veřejnou datovou sadu Seattle Safety.

Tato datová sada obsahuje data o expedičním oddělení Seattlu 911. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Bezpečnostní data Seattlu v katalogu Microsoft Azure Open Datasets.

Inicializace polí filtrování

UsLaborCPI

Představuje veřejnou datovou sadu indexu spotřebitelských cen USA.

Index spotřebitelských cen (CPI) je míra průměrné změny v čase v cenách placených městskými spotřebiteli za tržní košík spotřebního zboží a služeb. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v katalogu Microsoft Azure Open Datasets index spotřebitelských cen .

Inicializovat.

UsLaborEHENational

Představuje veřejnou datovou sadu pracovních hodin a příjmů v USA.

Tato datová sada obsahuje odhady pracovních příležitostí, hodin a příjmů pracovníků na mzdách ve Spojených státech. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v katalogu Microsoft Azure Open Datasets v usa – národní pracovní doba a příjmy .

Inicializovat.

UsLaborEHEState

Představuje veřejnou datovou sadu pracovních hodin a příjmů státního státu USA.

Tato datová sada obsahuje odhady pracovních příležitostí, hodin a příjmů pracovníků na mzdách ve Spojených státech. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v katalogu Microsoft Azure Open Datasets v hodinách zaměstnání a příjmu ve státě USA .

Inicializovat.

UsLaborLAUS

Představuje veřejnou datovou sadu statistiky nezaměstnanosti v oblasti USA.

Tato datová sada obsahuje měsíční a roční údaje o zaměstnanosti, nezaměstnanosti a pracovní síle pro oblasti a divize sčítání lidu, státy, okresy, metropolitní oblasti a mnoho měst ve Spojených státech. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Statistika nezaměstnanosti v oblasti USA v katalogu Microsoft Azure Open Datasets.

Inicializovat.

UsLaborLFS

Představuje veřejnou datovou sadu statistiky pracovních sil USA.

Tato datová sada obsahuje data o pracovní síle ve Spojených státech, včetně míry účasti pracovních sil a civilního neintitučního obyvatelstva podle věku, pohlaví, rasy a etnických skupin. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v katalogu Microsoft Azure Open Datasets statistiky pracovních sil v USA .

Inicializovat.

UsLaborPPICommodity

Představuje index cen výrobců v USA (PPI) – veřejná datová sada komodit.

Index cen výrobců (PPI) je míra průměrné změny v průběhu času v prodejních cenách přijatých domácími výrobci za jejich výstup. Ceny zahrnuté v PPI pocházejí z první komerční transakce pro produkty a služby, na které se vztahuje. Tato datová sada obsahuje PPI pro jednotlivé produkty a skupiny produktů vydaných měsíčně. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Index cen výrobců USA – komodity v katalogu Microsoft Azure Open Datasets.

Inicializovat.

UsLaborPPIIndustry

Představuje index cen výrobců v USA (PPI) – veřejná datová sada odvětví.

Index cen výrobců (PPI) je míra průměrné změny v průběhu času v prodejních cenách přijatých domácími výrobci za jejich výstup. Ceny zahrnuté v PPI pocházejí z první komerční transakce pro produkty a služby, na které se vztahuje. Tato datová sada obsahuje PPI pro širokou škálu odvětví americké ekonomiky. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Index cen výrobců USA – obor v katalogu Microsoft Azure Open Datasets.

Obecné informace o službě Azure Open Datasets najdete v dokumentaci k Azure Open Datasets.

Inicializovat.

UsPopulationCounty

Představuje veřejnou datovou sadu pro populaci USA podle okresu.

Tato datová sada obsahuje populaci USA podle pohlaví a rasy pro každou okres USA, která pochází z roku 2000 a 2010 Decennial Census. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Počet obyvatel USA podle okresu v katalogu Microsoft Azure Open Datasets.

Inicializovat.

UsPopulationZip

Představuje populaci USA veřejnou datovou sadou PSČ.

Tato datová sada obsahuje populaci USA podle pohlaví a rasy pro každý PSČ v USA, který pochází z roku 2010 Decennial Census. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v katalogu Microsoft Azure Open Datasets podle PSČ populace USA .

Inicializovat.