Otevřené datové sady Azure

Zlepšete přesnost svých modelů strojového učení s využitím veřejně dostupných datových sad. Ušetřete čas při zjišťování a přípravě dat pomocí kurátorovaných datových sad, které jsou připravené k použití v projektech strojového učení.

Doprava

Datová sada Popis
TartanAir: Datová sada simulace AirSim Data autonomních vozidel AirSim generovaná k řešení souběžné lokalizace a mapování (SLAM).
NYC Taxi & Limousine Komise - žlutý taxikář záznamy Žluté záznamy o jízdě taxíkem zahrnují vyzvednutí a odkládací data a časy, vyzvednutí a odkládací místa, vzdálenosti jízdy, položky jízdné, typy sazeb, typy plateb a počty cestujících hlášených řidičem.
NYC Taxi & Limousine Komise - green taxi trip records Mezi zelené záznamy o jízdě taxíkem patří vyzvednutí a odkládací data a časy, vyzvednutí a odkládací místa, vzdálenosti jízdy, položky jízdné, typy sazeb, typy plateb a počty cestujících hlášených řidičem.
NYC Taxi & Limousine Komise - Pronajmutí vozidla (FHV) záznamy jízdy Záznamy o jízdě vozidla For-Hire zahrnují číslo základní licence dispečera a datum vyzvednutí, čas a ID polohy zóny taxislužby.

Stav a genomika

Datová sada Popis
COVID-19 Data Lake Kolekce Datové jezero COVID-19 je kolekcí datových sad souvisejících s COVID-19 z různých zdrojů a zahrnuje data týkající se testování a výsledků pacientů, zásady společenského odstupu, kapacity nemocnic, mobility atd.
COVID-19 Open Research Dataset Datová sada metadat a úplného znění pro vědecké články související s COVID-19 a koronavirem, která je optimalizovaná pro strojovou čitelnost a zpřístupněná globální komunitě výzkumných pracovníků
Genomics Data Lake Genomics Data Lake poskytuje různé veřejné datové sady, ke kterým můžete získat přístup zdarma a integrovat je do pracovních postupů a aplikací pro analýzu genomiky. Tyto datové sady obsahují sekvence genomů, informace o variantách a metadata jednotlivých subjektů/ukázek ve formátech souborů BAM, FASTA, VCF a CSV.

Práce a ekonomika

Datová sada Popis
Statistika pracovních sil v USA Statistika pracovní síly USA poskytuje statistické údaje o pracovní síle, míře zapojení pracovní síly a civilním svéprávném obyvatelstvu podle věku, pohlaví, rasy a etnických skupin v USA.
Pracovní doba a výdělky v USA Program Statistika aktuální zaměstnanosti (CES) generuje podrobné odhady zaměstnanosti, pracovních hodin a mezd pracovníků v nezemědělských odvětvích v USA.
Pracovní doba a výdělky v jednotlivých státech USA Program Statistika aktuální zaměstnanosti (CES) generuje podrobné odhady zaměstnanosti, pracovních hodin a mezd pracovníků v nezemědělských odvětvích v USA.
Statistika nezaměstnanosti v jednotlivých oblastech USA Datové sady statistiky místní nezaměstnanosti v USA poskytují měsíční a roční údaje o zaměstnanosti, nezaměstnanosti a pracovní síle pro účely sčítání lidu v jednotlivých oblastech a okresech, státech, okresech, metropolitních oblastech a řadě měst v USA.
Index spotřebitelských cen v USA Index spotřebitelských cen (CPI) měří průměrnou změnu cen, které městští spotřebitelé zaplatí za spotřební koš zboží a služeb, v průběhu času.
Index cen výrobců v USA – průmysl Index cen výrobců (PPI) měří průměrnou změnu prodejních cen, za které domácí výrobci prodávají své výstupy, v průběhu času.
Index výrobních cen v USA – komodity Index cen výrobců (PPI) měří průměrnou změnu prodejních cen, za které domácí výrobci prodávají své komodity, v průběhu času.

Populace a bezpečnost

Datová sada Popis
Obyvatelstvo USA podle okresu Informace o obyvatelstvu jednotlivých okresů USA podle pohlaví a rasy vyplývající z desetiletého sčítání lidu z let 2000 a 2010. Zdrojem této datové sady je statistický úřad USA (United States Census Bureau).
Obyvatelstvo USA podle směrovacího čísla Informace o obyvatelstvu USA pro jednotlivá PSČ podle pohlaví a rasy vyplývající z desetiletého sčítání lidu z roku 2010. Zdrojem této datové sady je statistický úřad USA (United States Census Bureau).
Boston Sejf ty Data Prohlédněte si data o nahlášených voláních na linku 311 ve městě Boston. Tato datová sada se uchovává ve formátu Parquet a je denně aktualizovaná.
Chicago Sejf ty Data Prohlédněte si data o nahlášených voláních na linku 311 ve městě Chicago. Tato datová sada se uchovává ve formátu Parquet a je denně aktualizovaná.
New York City Sejf ty Data Tato datová sada obsahuje všechny žádosti o služby 311 v New Yorku od roku 2010 až do současnosti. ™Je uložená ve formátu Parquet a denně aktualizována.
San Francisco Sejf ty Data Volání o zásah hasičů a případy 311 v San Francisku. Tato datová sada obsahuje historické záznamy shromážděné od roku 2015 až do současnosti.
Seattle Sejf ty Data Výjezdy hasičů v Seattlu v reakci na zavolání na linku 911. Tato datová sada se denně aktualizuje a obsahuje historické záznamy shromážděné od roku 2010 až do současnosti.

Doplňkové a běžné datové sady

Datová sada Popis
Diabetes Datová sada Diabetes má 442 vzorků s 10 funkcemi a je ideální pro zahájení práce s algoritmy strojového učení.
OJ Sales Simulated Data Tato datová sada je odvozená od datové sady Dominick OJ a zahrnuje navíc simulovaná data s cílem poskytnout datovou sadu, která usnadňuje souběžné trénování tisíců modelů na azure Machine Učení.
Databáze MNIST ručně psaných číslic Databáze MNIST ručně psaných číslic obsahuje trénovací sadu 60 000 příkladů a testovací sadu 10 000 příkladů. Číslice mají normalizovanou velikost a jsou umístěné ve středu obrázku s pevnou velikostí.
Datová sada doporučení Microsoft News Microsoft News Dataset (MIND) je rozsáhlá datová sada pro výzkum doporučení zpráv. Slouží jako srovnávací datová sada pro doporučení zpráv a usnadňuje výzkum v systémech doporučení a doporučovačů.
Svátcích Data o celosvětových svátcích pocházející z balíčku PyPI holidays a z Wikipedie, která pokrývají 38 zemí nebo oblastí od roku 1970 do roku 2099.
Ruská otevřená řeč na text Ruština Open STT je rozsáhlá otevřená řeč na textovou datovou sadu pro ruský jazyk.