Dela via


Offentliga datauppsättningar för testning och prototyper

Gäller för:SQL Server på Azure VMAzure SQL DatabaseAzure SQL Managed Instance

Bläddra i den här listan över offentliga datamängder för data som du kan använda för att skapa prototyper och testa tjänster och lösningar för lagring och analys.

Amerikanska myndigheter och myndighetsdata

Data source Om datan Om filerna
Us Government-data Över 250 000 datauppsättningar som täcker jordbruk, klimat, konsument, ekosystem, utbildning, energi, ekonomi, hälsa, lokala myndigheter, tillverkning, maritimt, hav, allmän säkerhet och vetenskap och forskning i USA. Filer av olika storlekar i olika format, inklusive HTML, XML, CSV, JSON, Excel och många andra. Du kan filtrera tillgängliga datauppsättningar efter filformat.
Amerikanska censusdata Statistiska data om populationen i USA Datauppsättningar finns i olika format.
Geovetenskapsdata från NASA Över 32 000 datasamlingar omfattar jordbruk, atmosfär, biosfär, klimat, kryosfär, mänskliga dimensioner, hydrosfär, landyta, hav, interaktioner mellan sol och jord med mera. Datauppsättningar finns i olika format.
Flygförseningar och andra transportdata "U.S. Department of Transportation's (DOT) Bureau of Transportation Statistics (BTS) spårar prestanda i tid för inrikesflyg som drivs av stora flygbolag. Sammanfattningsinformation om antalet flygningar i tid, fördröjda, inställda och omdirigerade flyg visas ... i sammanfattningstabeller som publicerats på denna webbplats." Filerna är i CSV-format.
Trafikolyckor – US Fatality Analysis Reporting System (FARS) "FARS är en landsomfattande folkräkning som tillhandahåller NHTSA, kongressen och amerikanska årliga uppgifter om dödliga skador i trafikolyckor i motorfordon." "Skapa dina egna dödsdata som körs online med hjälp av FARS-frågesystemet. Eller ladda ned alla FARS-data från 1975 för att presentera från FTP-platsen."
Giftiga kemiska data – EPA Toxicitet ForeCaster -data (ToxCast™) "EPA:s mest uppdaterade, offentligt tillgängliga toxicitetsdata med högt dataflöde på tusentals kemikalier. Dessa data genereras via EPA:s ToxCast-forskningsinsats." Datauppsättningar är tillgängliga i olika format, inklusive kalkylblad, R-paket och MySQL-databasfiler.
Giftiga kemiska data – NIH Tox21 Data Challenge 2014 "Datautmaningen 2014 Tox21 är utformad för att hjälpa forskare att förstå potentialen hos de kemikalier och föreningar som testas genom toxikologin i 2000-talets initiativ för att störa biologiska vägar på sätt som kan leda till toxiska effekter." Datauppsättningar är tillgängliga i SMILES- och SDF-format. Data ger "analysaktivitetsdata och kemiska strukturer på Tox21-samlingen av ~10 000 föreningar (Tox21 10K)."
Bioteknik- och genomdata från NCBI Flera datauppsättningar som täcker gener, genom och proteiner. Datauppsättningar finns i text, XML, BLAST och andra format. En BLAST-app är tillgänglig.

Andra statistiska och vetenskapliga data

Data source Om datan Om filerna
Taxidata för New York City "Taxi reseposter inkluderar fält som samlar in upphämtnings- och avlämningsdatum/tider, upphämtnings- och avlämningsplatser, reseavstånd, specificerade priser, pristyper, betalningstyper och passagerarantal som rapporterats av förare." Datauppsättningar finns i CSV-filer per månad.
Microsoft Research-datauppsättningar – "Data Science for Research" Flera datauppsättningar som omfattar interaktion mellan människa och dator, ljud/video, datautvinning/informationshämtning, geospatial/plats, bearbetning av naturligt språk och robotteknik/visuellt innehåll. Datauppsättningar är i olika format, zippade för nedladdning.
Öppna Science Data Cloud-data "Open Science Data Cloud ger forskarsamhället resurser för att lagra, dela och analysera vetenskapliga datamängder i terabyte- och petabyteskala." Datauppsättningar finns i olika format.
Globala klimatdata – WorldClim "WorldClim är en uppsättning globala klimatskikt (rutnätade klimatdata) med en rumslig upplösning på cirka 1 km2. Dessa data kan användas för mappning och rumslig modellering." Dessa filer innehåller geospatiala data.
Data om mänskligt samhälle – GDELT-projektet "GDELT-projektet är den största, mest omfattande och högsta upplösningsdatabasen i det mänskliga samhället som någonsin skapats." Rådatafilerna är i CSV-format.
Annonsering klickar på förutsägelsedata för maskininlärning från Criteo "Den största ml-datauppsättningen någonsin som släppts offentligt." Mer information finns i Criteos datauppsättning med 1 TB klickförutsägelse.

Onlinetjänstdata

Data source Om datan Om filerna
GitHub-arkiv "GitHub Archive är ett projekt för att registrera den offentliga GitHub-tidslinjen [av händelser], arkivera den och göra den lättillgänglig för ytterligare analys." Ladda ned JSON-kodade händelsearkiv i Gzip-format (.gz) från en webbklient.
GitHub-aktivitetsdata från GHTorrent-projektet "GHTorrent-projektet [är] ett försök att skapa en skalbar, frågebar, offlinespegling av data som erbjuds via GitHub REST API. GHTorrent övervakar den offentliga GitHub-händelsetidslinjen. För varje händelse hämtar den innehållet och deras beroenden, fullständigt." MySQL-databasdumpar är i CSV-format.
Stack Overflow-datadump "Det här är en anonymiserad dump av allt innehåll som användaren bidragit med i Stack Exchange-nätverket [inklusive Stack Overflow]." "Varje webbplats [till exempel Stack Overflow] är formaterad som ett separat arkiv som består av XML-filer som zippads via 7-zip med bzip2-komprimering. Varje webbplatsarkiv innehåller inlägg, användare, röster, kommentarer, posthistory och postlänkar."