Zlepšete přesnost svých modelů strojového učení s využitím veřejně dostupných datových sad. Pokud chcete ušetřit čas při zjišťování a přípravě dat, použijte kurátorované datové sady, které jsou připravené pro projekty strojového učení.
Žluté záznamy o jízdě taxíkem zahrnují vyzvednutí a odkládací data a časy, vyzvednutí a odkládací místa, vzdálenosti jízdy, položky jízdné, typy sazeb, typy plateb a počty cestujících hlášených řidičem.
Mezi zelené záznamy o jízdě taxíkem patří vyzvednutí a odkládací data a časy, vyzvednutí a odkládací místa, vzdálenosti jízdy, položky jízdné, typy sazeb, typy plateb a počty cestujících hlášených řidičem.
Kolekce Datové jezero COVID-19 je kolekcí datových sad souvisejících s COVID-19 z různých zdrojů a zahrnuje data týkající se testování a výsledků pacientů, zásady společenského odstupu, kapacity nemocnic, mobility atd.
Fulltextová datová sada článků souvisejících s COVID-19 a metadaty související s covidem-19, optimalizovaná pro strojovou čitelnost a dostupná pro použití globální komunitou výzkumu.
Genomics Data Lake poskytuje různé veřejné datové sady, které jsou k dispozici zdarma a jsou připravené k integraci do pracovních postupů a aplikací pro analýzu genomiky. Tyto datové sady obsahují sekvence genomů, informace o variantách a metadata jednotlivých subjektů/ukázek ve formátech souborů BAM, FASTA, VCF a CSV.
Statistiky pracovních sil USA poskytují statistiky pracovních sil, míry účasti na pracovní síle a civilní neinstituční populaci podle věku, pohlaví, rasy a etnických skupin v USA.
Program Statistika aktuální zaměstnanosti (CES) generuje podrobné odhady zaměstnanosti, pracovních hodin a mezd pracovníků v nezemědělských odvětvích v USA.
Program Statistika aktuální zaměstnanosti (CES) generuje podrobné odhady zaměstnanosti, pracovních hodin a mezd pracovníků v nezemědělských odvětvích v USA.
Datové sady statistiky místní nezaměstnanosti v USA poskytují měsíční a roční údaje o zaměstnanosti, nezaměstnanosti a pracovní síle pro účely sčítání lidu v jednotlivých oblastech a okresech, státech, okresech, metropolitních oblastech a řadě měst v USA.
Populace USA podle pohlaví a rasy pro každou okres USA, která pochází z roku 2000 a 2010 Decennial Census. Zdrojem této datové sady je statistický úřad USA (United States Census Bureau).
Populace USA podle pohlaví a rasy pro každý PSČ v USA, pochází z roku 2010 Decennial Census. Zdrojem této datové sady je statistický úřad USA (United States Census Bureau).
Tato datová sada obsahuje všechny žádosti o služby 311 v New Yorku od roku 2010 až do současnosti. Tato datová sada je uložená ve formátu Parquet a přijímá denní aktualizace.
Výjezdy hasičů v Seattlu v reakci na zavolání na linku 911. Tato datová sada se denně aktualizuje a obsahuje historické záznamy shromážděné od roku 2010 až do současnosti.
Tato datová sada je odvozená od datové sady Dominick's OJ a obsahuje navíc simulovaná data s cílem poskytnout datovou sadu, která usnadňuje souběžné trénování tisíců modelů ve službě Azure Machine Learning.
Databáze MNIST ručně psaných číslic obsahuje trénovací sadu 60 000 příkladů a testovací sadu 10 000 příkladů. Číslice jsou normalizované a zacentrované na obrázku s pevnou velikostí.
Microsoft News Dataset (MIND) je rozsáhlá datová sada pro výzkum doporučení zpráv. Slouží jako srovnávací datová sada pro doporučení zpráv a usnadňuje výzkum v systémech doporučení a doporučovačů.