Sdílet prostřednictvím


Otevřené datové sady Azure

Zlepšete přesnost svých modelů strojového učení s využitím veřejně dostupných datových sad. Pokud chcete ušetřit čas při zjišťování a přípravě dat, použijte kurátorované datové sady, které jsou připravené pro projekty strojového učení.

Doprava

Datová sada Popis
TartanAir: Datová sada simulace AirSim Data autonomních vozidel AirSim generovaná k řešení souběžné lokalizace a mapování (SLAM).
NYC Taxi & Limousine Komise - žlutý taxikář záznamy Žluté záznamy o jízdě taxíkem zahrnují vyzvednutí a odkládací data a časy, vyzvednutí a odkládací místa, vzdálenosti jízdy, položky jízdné, typy sazeb, typy plateb a počty cestujících hlášených řidičem.
NYC Taxi & Limousine Komise - green taxi trip records Mezi zelené záznamy o jízdě taxíkem patří vyzvednutí a odkládací data a časy, vyzvednutí a odkládací místa, vzdálenosti jízdy, položky jízdné, typy sazeb, typy plateb a počty cestujících hlášených řidičem.
NYC Taxi & Limousine Komise - Pronajmutí vozidla (FHV) záznamy jízdy Záznamy o jízdě vozidla For-Hire zahrnují číslo základní licence dispečera a datum vyzvednutí, čas a ID polohy zóny taxislužby.

Stav a genomika

Datová sada Popis
COVID-19 Data Lake Kolekce Datové jezero COVID-19 je kolekcí datových sad souvisejících s COVID-19 z různých zdrojů a zahrnuje data týkající se testování a výsledků pacientů, zásady společenského odstupu, kapacity nemocnic, mobility atd.
COVID-19 Open Research Dataset Fulltextová datová sada článků souvisejících s COVID-19 a metadaty související s covidem-19, optimalizovaná pro strojovou čitelnost a dostupná pro použití globální komunitou výzkumu.
Genomics Data Lake Genomics Data Lake poskytuje různé veřejné datové sady, které jsou k dispozici zdarma a jsou připravené k integraci do pracovních postupů a aplikací pro analýzu genomiky. Tyto datové sady obsahují sekvence genomů, informace o variantách a metadata jednotlivých subjektů/ukázek ve formátech souborů BAM, FASTA, VCF a CSV.

Práce a ekonomika

Datová sada Popis
Statistika pracovních sil v USA Statistiky pracovních sil USA poskytují statistiky pracovních sil, míry účasti na pracovní síle a civilní neinstituční populaci podle věku, pohlaví, rasy a etnických skupin v USA.
Pracovní doba a výdělky v USA Program Statistika aktuální zaměstnanosti (CES) generuje podrobné odhady zaměstnanosti, pracovních hodin a mezd pracovníků v nezemědělských odvětvích v USA.
Pracovní doba a výdělky v jednotlivých státech USA Program Statistika aktuální zaměstnanosti (CES) generuje podrobné odhady zaměstnanosti, pracovních hodin a mezd pracovníků v nezemědělských odvětvích v USA.
Statistika nezaměstnanosti v jednotlivých oblastech USA Datové sady statistiky místní nezaměstnanosti v USA poskytují měsíční a roční údaje o zaměstnanosti, nezaměstnanosti a pracovní síle pro účely sčítání lidu v jednotlivých oblastech a okresech, státech, okresech, metropolitních oblastech a řadě měst v USA.
Index spotřebitelských cen v USA Index spotřebitelských cen (CPI) měří průměrnou změnu v čase v cenách placených městskými spotřebiteli za tržní košík spotřebního zboží a služeb.
Index cen výrobců v USA – průmysl Index cen výrobců (PPI) měří průměrnou změnu v prodejních cenách přijatých domácími výrobci za jejich výstup.
Index výrobních cen v USA – komodity Index cen výrobců (PPI) měří průměrnou změnu v čase v prodejních cenách přijatých domácími výrobci za své komodity.

Populace a bezpečnost

Datová sada Popis
Obyvatelstvo USA podle okresu Populace USA podle pohlaví a rasy pro každou okres USA, která pochází z roku 2000 a 2010 Decennial Census. Zdrojem této datové sady je statistický úřad USA (United States Census Bureau).
Obyvatelstvo USA podle směrovacího čísla Populace USA podle pohlaví a rasy pro každý PSČ v USA, pochází z roku 2010 Decennial Census. Zdrojem této datové sady je statistický úřad USA (United States Census Bureau).
Data o bezpečnosti Bostonu Prohlédněte si data o nahlášených voláních na linku 311 ve městě Boston. Tato datová sada je uložená ve formátu Parquet a přijímá denní aktualizace.
Data o bezpečnosti v Chicagu Prohlédněte si data o nahlášených voláních na linku 311 ve městě Chicago. Tato datová sada je uložená ve formátu Parquet a přijímá denní aktualizace.
New York City Safety Data Tato datová sada obsahuje všechny žádosti o služby 311 v New Yorku od roku 2010 až do současnosti. Tato datová sada je uložená ve formátu Parquet a přijímá denní aktualizace.
Bezpečnostní data v San Franciscu Volání o zásah hasičů a případy 311 v San Francisku. Tato datová sada obsahuje historické záznamy shromážděné od roku 2015 až do současnosti.
Bezpečnostní data v Seattlu Výjezdy hasičů v Seattlu v reakci na zavolání na linku 911. Tato datová sada se denně aktualizuje a obsahuje historické záznamy shromážděné od roku 2010 až do současnosti.

Doplňkové a běžné datové sady

Datová sada Popis
Cukrovka Datová sada Diabetes má 442 vzorků s 10 funkcemi a je ideální pro zahájení práce s algoritmy strojového učení.
OJ Sales Simulated Data Tato datová sada je odvozená od datové sady Dominick's OJ a obsahuje navíc simulovaná data s cílem poskytnout datovou sadu, která usnadňuje souběžné trénování tisíců modelů ve službě Azure Machine Learning.
Databáze MNIST ručně psaných číslic Databáze MNIST ručně psaných číslic obsahuje trénovací sadu 60 000 příkladů a testovací sadu 10 000 příkladů. Číslice jsou normalizované a zacentrované na obrázku s pevnou velikostí.
Datová sada doporučení Microsoft News Microsoft News Dataset (MIND) je rozsáhlá datová sada pro výzkum doporučení zpráv. Slouží jako srovnávací datová sada pro doporučení zpráv a usnadňuje výzkum v systémech doporučení a doporučovačů.
Svátcích Data o celosvětových svátcích pocházející z balíčku PyPI holidays a z Wikipedie, která pokrývají 38 zemí nebo oblastí od roku 1970 do roku 2099.
Ruská otevřená řeč na text Ruština Open STT je rozsáhlá otevřená řeč na textovou datovou sadu pro ruský jazyk.