Freigeben über


Öffentliche Datasets zum Testen und Erstellen von Prototypen

Gilt für : Azure SQL-Datenbank Azure SQL Managed Instance SQL Server auf Azure-VMs SQL-Datenbank in Microsoft Fabric

Durchsuchen Sie diese Liste mit öffentlichen Datasets nach Daten, mit denen Sie Prototypen von Diensten und Lösungen für Speicher und Analysen erstellen und diese Dienste und Lösungen testen können.

USA von US-Regierung und -Behörden

Datenquelle Informationen zu den Daten Informationen zu den Dateien
Daten von US-Regierungsbehörden Über 250.000 Datasets zu Landwirtschaft, Klima, Verbrauchern, Ökosystemen, Bildung, Energie, Finanzen, Gesundheit, kommunalen Behörden, Fertigung, Seefahrt, Ozeanen, öffentlicher Sicherheit sowie Wissenschaft und Forschung in den USA Dateien unterschiedlicher Größe in vielen verschiedenen Formaten, u.a. HTML, XML, CSV, JSON, Excel. Sie können die verfügbaren Datasets nach Dateiformat filtern.
Daten der Bundesbehörde „United States Census Bureau“ Statistische Daten zur Bevölkerungszahl der USA Die Datasets liegen in verschiedenen Formaten vor.
Geowissenschaftliche Daten der NASA Über 32.000 Datensammlungen zu Landwirtschaft, Atmosphäre, Biosphäre, Klima, Kryosphäre, Personenmaßen, Hydrosphäre, Landoberfläche, Ozeanen, Wechselwirkung zwischen Sonne und Erde und vielem mehr. Die Datasets liegen in verschiedenen Formaten vor.
Flugverspätungen bei Fluggesellschaften und andere Daten des Transportwesens „Das Bureau of Transportation Statistics (BTS) des US-Verkehrsministeriums verfolgt die Pünktlichkeit von Inlandsflügen großer Fluggesellschaften. Zusammenfassende Informationen zur Anzahl der pünktlichen, verspäteten, annullierten und umgeleiteten Flüge werden ... in Zusammenfassungstabellen auf dieser Website angezeigt.“ Die Dateien werden im CSV-Format bereitgestellt.
Verkehrstote – US Fatality Analysis Reporting System (FARS) „FARS erfasst bundesweit Daten zu tödlichen Verletzungen, die durch Unfälle im Straßenverkehr verursacht wurden, und stellt diese Daten jährlich der NHTSA, dem Kongress und der Öffentlichkeit in den USA zur Verfügung.“ „Erstellen Sie online mithilfe des FARS-Abfragesystems eine eigene Datenausführung zu tödlichen Unfällen. Laden Sie alternativ alle FARS-Daten von 1975 bis heute von der FTP-Website herunter.“
Daten zu giftigen Chemikalien – Toxicity ForeCaster (ToxCast™)-Daten der EPA „Die neuesten öffentlich verfügbaren High-Throughput-Toxizitätsdaten für tausende Chemikalien. Diese Daten werden im Zuge der ToxCast-Forschung der EPA generiert.“ Datasets stehen in verschiedenen Formaten zur Verfügung, unter anderem als Kalkulationstabellen, R-Pakete und MySQL-Datenbankdateien.
Biotechnologie und Genomdaten des NCBI Mehrere Datasets zu Genen, Genomen und Proteinen Datasets liegen u.a. im Text-, XML- und BLAST-Format vor. Eine BLAST-App ist verfügbar.

Andere statistische und wissenschaftliche Daten

Datenquelle Informationen zu den Daten Informationen zu den Dateien
New York City-Taxidaten „Datensätze zu Taxifahrten enthalten Felder mit Datum/Uhrzeit für Abholung und Ankunft, Start- und Zielort, Fahrtentfernungen, Einzelkosten, Tarifarten, Zahlungsarten und vom Fahrer gemeldeten Fahrgastzahlen.“ Datasets liegen in CSV-Dateien sortiert nach Monat vor.
Microsoft Research-Datasets – „Data Science für Research“ Mehrere Datasets zu Interaktionen zwischen Mensch und Computer, Audio/Video, Data Mining/Informationsabruf, raum-/standortbezogenen Daten, Verarbeitung natürlicher Sprache und Robotik/maschinellem Sehen. Datasets sind in verschiedenen Formaten verfügbar (ZIP-Dateien für den Download).
Open Science Data Cloud-Daten „Open Science Data Cloud stellt der wissenschaftlichen Gemeinschaft Ressourcen zum Speichern, Teilen und Analysieren von wissenschaftlichen Datasets im Tera- und Petabytebereich zur Verfügung.“ Die Datasets liegen in verschiedenen Formaten vor.
Globale Klimadaten – WorldcLIM „Das WorldClim-Dataset enthält eine Reihe von globalen Klimastufen (gerasterte Klimadaten) mit einer räumlichen Auflösung von etwa einem Quadratkilometer. Diese Daten können für Kartierung und Raummodelle verwendet werden.“ Diese Dateien enthalten Geodaten.
Daten zur menschlichen Gesellschaft – The GDELT Project „The GDELT Project ist die größte, umfangreichste und detaillierteste offene Datenbank zur menschlichen Gesellschaft, die je erstellt wurde.“ Die Rohdatendateien liegen im CSV-Format vor.
Daten zur Werbungsklickvorhersage für Machine Learning von Criteo „Das größte jemals öffentlich freigegebene ML-Dataset.“ Weitere Informationen finden Sie unter Criteo's 1 TB Click Prediction Dataset (1-TB-Klickvorhersage-Dataset von Criteo).

Onlinedienstdaten

Datenquelle Informationen zu den Daten Informationen zu den Dateien
GitHub-Archiv „GitHub Archive ist ein Projekt zum Erfassen und Archivieren der öffentlichen GitHub-Zeitachse [von Ereignissen], auf die zur weiteren Analyse einfach zugegriffen werden kann.“ Laden Sie JSON-verschlüsselte Archive im GZ-Format (Gzip) über einen Webclient herunter.
Stack Overflow-Datensicherungen „Hierbei handelt es sich um eine anonymisierte Sicherung aller von Benutzern bereitgestellten Inhalte im Stack Exchange-Netzwerk [einschließlich Stack Overflow].“ „Jede Website [etwa Stack Overflow] ist als ein separates Archiv formatiert, das aus mit 7-zip gezippten XML-Dateien mit bzip2-Komprimierung besteht. Jedes Websitearchive enthält Beiträge, Benutzer, Stimmen, Kommentare, Beitragsverlauf und Beitragslinks.“