Verbessern Sie die Genauigkeit Ihrer Machine Learning-Modelle mit öffentlich verfügbaren Datasets. Um Zeit bei der Datenermittlung und -vorbereitung zu sparen, können Sie zusammengestellte Datasets verwenden, die in Machine Learning-Projekten verwendet werden können.
Zu den Fahrtenaufzeichnungen für „Yellow Taxi“ gehören Datum/Uhrzeit für Abholung und Ankunft, Start- und Zielort, Fahrtentfernungen, Einzelkosten, Tarifarten, Zahlungsarten und vom Fahrer gemeldete Fahrgastzahlen.
Zu den Fahrtenaufzeichnungen für „Green Taxi“ gehören Datum/Uhrzeit für Abholung und Ankunft, Start- und Zielort, Fahrtentfernungen, Einzelkosten, Tarifarten, Zahlungsarten und vom Fahrer gemeldete Fahrgastzahlen.
Zu den Fahrtenaufzeichnungen für Mietfahrzeuge (For-Hire Vehicle) gehören die jeweiligen Lizenznummern der Zentrale, das Datum und die Uhrzeit der Abholung und die Standort-ID der Taxizone.
Die Sammlung „COVID-19 Data Lake“ enthält Datasets zu COVID-19 aus unterschiedlichen Quellen, die Tracking- und Testdaten zu Patientenergebnissen, Social-Distancing-Vorgaben, Krankenhauskapazitäten, Mobilität und weitere Informationen umfassen.
Ein Volltext- und Metadaten-Dataset von wissenschaftlichen Artikeln über COVID-19 und Coronaviren, der für die maschinelle Lesbarkeit optimiert und der weltweiten Forschungsgemeinschaft zur Verfügung gestellt wurde.
Genomics Data Lake enthält eine Vielzahl öffentlicher Datasets, die Sie kostenlos nutzen und in Ihre Workflows und Anwendungen zur Genomikanalyse integrieren können. Die Datasets enthalten Genomsequenzen, Varianteninformationen und Metadaten zu Probanden und Proben in den Dateiformaten BAM, FASTA, VCF und CSV.
Die US-Arbeitskräftestatistik enthält Arbeitskräftestatistiken, Erwerbsquoten und die zivile nicht-institutionelle Bevölkerung nach Alter, Geschlecht, Rasse und ethnischen Gruppen in den Vereinigten Staaten.
Das CES-Programm (Current Employment Statistics) produziert detaillierte Branchenschätzungen für nicht landwirtschaftliche Beschäftigung, Arbeitszeit und Einnahmen von Arbeitnehmern in den USA, die Gehaltsabrechnungen erhalten.
Das CES-Programm (Current Employment Statistics) produziert detaillierte Branchenschätzungen für nicht landwirtschaftliche Beschäftigung, Arbeitszeit und Einnahmen von Arbeitnehmern in den USA, die Gehaltsabrechnungen erhalten.
Die Datasets „US Local Area Unemployment Statistics“ produzieren monatliche und jährliche Daten zu Beschäftigung, Arbeitslosigkeit und Arbeitskräften für Volkszählungsregionen und -abteilungen, Staaten, Landkreise, Metropolregionen und zahlreiche Städte in den Vereinigten Staaten.
Der Verbraucherpreisindex (Consumer Price Index, CPI) misst die durchschnittliche Änderung im Laufe der Zeit der Preise, die von städtischen Verbrauchern für einen Warenkorb von Konsumgütern und Dienstleistungen gezahlt werden.
Der Erzeugerpreisindex (Producer Price Index, PPI) misst die durchschnittliche Änderung im Laufe der Zeit bei den Verkaufspreisen, die inländische Erzeuger für ihre Produktion erhalten haben.
Der Erzeugerpreisindex (Producer Price Index, PPI) misst die durchschnittliche Änderung im Laufe der Zeit bei den Verkaufspreisen, die inländische Erzeuger für ihre Waren erhalten haben.
US-Bevölkerung nach Geschlecht und ethnischer Gruppe für alle US-Countys nach den Volkszählungen von 2000 und 2010. Dieses Dataset stammt von der Behörde United States Census Bureau.
US-Bevölkerung nach Geschlecht und ethnischer Gruppe für alle US-Postleitzahlen nach der alle zehn Jahre stattfindenden Volkszählung von 2010. Dieses Dataset stammt von der Behörde United States Census Bureau.
Daten zu Anrufen der Nummer 311, die der Stadt Chicago gemeldet wurden. Dieses Dataset wird im Parquet-Format gespeichert und enthält tägliche Updates.
Dieses Dataset enthält alle Anforderungen des 311-Service in New York City von 2010 bis heute. Dieses Dataset wird im Parquet-Format gespeichert und enthält tägliche Updates.
Anrufe bei der Feuerwehrdienststelle und 311-Fälle in San Francisco. Dieses Dataset enthält historische Datensätze, die von 2015 bis heute gesammelt wurden.
911-Einsätze des Seattle Fire Department. Dieses Dataset wird täglich aktualisiert und enthält Datensätze zum Verlauf, die von 2010 bis heute gesammelt wurden.
Dieses Dataset stammt aus dem OJ-Dataset von Dominick und enthält zusätzliche simulierte Daten mit dem Ziel, ein Dataset bereitzustellen, das das gleichzeitige Trainieren von Tausenden von Modellen in Azure Machine Learning vereinfacht.
Die MNIST-Datenbank handschriftlicher Ziffern verfügt über 60.000 Tranings- und 10.000 Testbeispiele. Die Größe der Ziffern werden normalisiert, und die Ziffern wurden in einem Bild mit fester Größe zentriert.
Microsoft News Dataset (MIND) ist ein umfangreiches Dataset für die Recherche von News-Empfehlungen. Es dient als Benchmark-Dataset für News-Empfehlungen und erleichtert die Recherche bei News-Empfehlungen und Empfehlungssystemen.