Azure Open Datasets

Artikel
06/18/2024

Verbessern Sie die Genauigkeit Ihrer Machine Learning-Modelle mit öffentlich verfügbaren Datasets. Um Zeit bei der Datenermittlung und -vorbereitung zu sparen, können Sie zusammengestellte Datasets verwenden, die in Machine Learning-Projekten verwendet werden können.

Transport

Dataset	Beschreibung
TartanAir: AirSim-Simulationsdataset	AirSim-Daten für autonome Fahrzeuge für Simultaneous Localization and Mapping (SLAM) generiert.
NYC Taxi & Limousine Commission – Fahrtenaufzeichnungen für „Yellow Taxi“	Zu den Fahrtenaufzeichnungen für „Yellow Taxi“ gehören Datum/Uhrzeit für Abholung und Ankunft, Start- und Zielort, Fahrtentfernungen, Einzelkosten, Tarifarten, Zahlungsarten und vom Fahrer gemeldete Fahrgastzahlen.
NYC Taxi and Limousine Commission – Fahrtenaufzeichnungen für „Green Taxi“	Zu den Fahrtenaufzeichnungen für „Green Taxi“ gehören Datum/Uhrzeit für Abholung und Ankunft, Start- und Zielort, Fahrtentfernungen, Einzelkosten, Tarifarten, Zahlungsarten und vom Fahrer gemeldete Fahrgastzahlen.
NYC Taxi & Limousine Commission – Fahrtenaufzeichnungen für Mietfahrzeuge (FHV – For-Hire Vehicle)	Zu den Fahrtenaufzeichnungen für Mietfahrzeuge (For-Hire Vehicle) gehören die jeweiligen Lizenznummern der Zentrale, das Datum und die Uhrzeit der Abholung und die Standort-ID der Taxizone.

Gesundheit und Genomik

Dataset	Beschreibung
COVID-19: Data Lake	Die Sammlung „COVID-19 Data Lake“ enthält Datasets zu COVID-19 aus unterschiedlichen Quellen, die Tracking- und Testdaten zu Patientenergebnissen, Social-Distancing-Vorgaben, Krankenhauskapazitäten, Mobilität und weitere Informationen umfassen.
COVID-19 Open Research Dataset	Ein Volltext- und Metadaten-Dataset von wissenschaftlichen Artikeln über COVID-19 und Coronaviren, der für die maschinelle Lesbarkeit optimiert und der weltweiten Forschungsgemeinschaft zur Verfügung gestellt wurde.
Genomics Data Lake	Genomics Data Lake enthält eine Vielzahl öffentlicher Datasets, die Sie kostenlos nutzen und in Ihre Workflows und Anwendungen zur Genomikanalyse integrieren können. Die Datasets enthalten Genomsequenzen, Varianteninformationen und Metadaten zu Probanden und Proben in den Dateiformaten BAM, FASTA, VCF und CSV.

Arbeit und Wirtschaft

Dataset	Beschreibung
Statistik zu Arbeitskräften in den USA	Die US-Arbeitskräftestatistik enthält Arbeitskräftestatistiken, Erwerbsquoten und die zivile nicht-institutionelle Bevölkerung nach Alter, Geschlecht, Rasse und ethnischen Gruppen in den Vereinigten Staaten.
Nationale Beschäftigungszeit und Einnahmen in den USA	Das CES-Programm (Current Employment Statistics) produziert detaillierte Branchenschätzungen für nicht landwirtschaftliche Beschäftigung, Arbeitszeit und Einnahmen von Arbeitnehmern in den USA, die Gehaltsabrechnungen erhalten.
Beschäftigungszeit und Einnahmen in den USA nach Bundesstaat	Das CES-Programm (Current Employment Statistics) produziert detaillierte Branchenschätzungen für nicht landwirtschaftliche Beschäftigung, Arbeitszeit und Einnahmen von Arbeitnehmern in den USA, die Gehaltsabrechnungen erhalten.
Statistik zur Arbeitslosigkeit in den USA nach lokaler Umgebung	Die Datasets „US Local Area Unemployment Statistics“ produzieren monatliche und jährliche Daten zu Beschäftigung, Arbeitslosigkeit und Arbeitskräften für Volkszählungsregionen und -abteilungen, Staaten, Landkreise, Metropolregionen und zahlreiche Städte in den Vereinigten Staaten.
US-Verbraucherpreisindex	Der Verbraucherpreisindex (Consumer Price Index, CPI) misst die durchschnittliche Änderung im Laufe der Zeit der Preise, die von städtischen Verbrauchern für einen Warenkorb von Konsumgütern und Dienstleistungen gezahlt werden.
US-Erzeugerpreisindex – Industrie	Der Erzeugerpreisindex (Producer Price Index, PPI) misst die durchschnittliche Änderung im Laufe der Zeit bei den Verkaufspreisen, die inländische Erzeuger für ihre Produktion erhalten haben.
US-Erzeugerpreisindex – Güter	Der Erzeugerpreisindex (Producer Price Index, PPI) misst die durchschnittliche Änderung im Laufe der Zeit bei den Verkaufspreisen, die inländische Erzeuger für ihre Waren erhalten haben.

Bevölkerung und Sicherheit

Dataset	Beschreibung
US-Bevölkerung nach County	US-Bevölkerung nach Geschlecht und ethnischer Gruppe für alle US-Countys nach den Volkszählungen von 2000 und 2010. Dieses Dataset stammt von der Behörde United States Census Bureau.
US-Bevölkerung nach Postleitzahl	US-Bevölkerung nach Geschlecht und ethnischer Gruppe für alle US-Postleitzahlen nach der alle zehn Jahre stattfindenden Volkszählung von 2010. Dieses Dataset stammt von der Behörde United States Census Bureau.
Sicherheitsdaten zu Boston	Daten zu Anrufen der Nummer 311, die der Stadt Boston gemeldet wurden. Dieses Dataset wird im Parquet-Format gespeichert und enthält tägliche Updates.
Sicherheitsdaten zu Chicago	Daten zu Anrufen der Nummer 311, die der Stadt Chicago gemeldet wurden. Dieses Dataset wird im Parquet-Format gespeichert und enthält tägliche Updates.
Sicherheitsdaten zu New York City	Dieses Dataset enthält alle Anforderungen des 311-Service in New York City von 2010 bis heute. Dieses Dataset wird im Parquet-Format gespeichert und enthält tägliche Updates.
Sicherheitsdaten zu San Francisco	Anrufe bei der Feuerwehrdienststelle und 311-Fälle in San Francisco. Dieses Dataset enthält historische Datensätze, die von 2015 bis heute gesammelt wurden.
Sicherheitsdaten zu Seattle	911-Einsätze des Seattle Fire Department. Dieses Dataset wird täglich aktualisiert und enthält Datensätze zum Verlauf, die von 2010 bis heute gesammelt wurden.

Ergänzende und allgemeine Datasets

Dataset	Beschreibung
Diabetes	Das „Diabetes“-Dataset besitzt 442 Beispiele mit 10 Features, wodurch es einfach ist, mit Algorithmen für maschinelles Lernen zu beginnen.
Simulierte Daten zum Verkauf von Orangensaft	Dieses Dataset stammt aus dem OJ-Dataset von Dominick und enthält zusätzliche simulierte Daten mit dem Ziel, ein Dataset bereitzustellen, das das gleichzeitige Trainieren von Tausenden von Modellen in Azure Machine Learning vereinfacht.
MNIST-Datenbank handschriftlicher Ziffern	Die MNIST-Datenbank handschriftlicher Ziffern verfügt über 60.000 Tranings- und 10.000 Testbeispiele. Die Größe der Ziffern werden normalisiert, und die Ziffern wurden in einem Bild mit fester Größe zentriert.
Microsoft News-Empfehlungsdataset	Microsoft News Dataset (MIND) ist ein umfangreiches Dataset für die Recherche von News-Empfehlungen. Es dient als Benchmark-Dataset für News-Empfehlungen und erleichtert die Recherche bei News-Empfehlungen und Empfehlungssystemen.
Gesetzliche Feiertage	Daten zu Feiertagen weltweit aus dem Feiertagspaket von PyPI und von Wikipedia (38 Länder oder Regionen von 1970–2099).
Russian open speech to text	„Russain Open STT“ ist ein großes Open-Source-Dataset für die Spracherkennung für die russische Sprache

Teilen über