Teilen über


Verwenden von Beispieldatasets in Machine Learning Studio (klassisch)

GILT FÜR: Gilt für.Machine Learning Studio (klassisch) Gilt für.Azure Machine Learning

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

Beim Erstellen eines neuen Arbeitsbereichs in Machine Learning Studio (klassisch) ist eine Reihe von Beispieldatasets und -experimenten standardmäßig enthalten. Viele dieser Beispieldatasets werden von den Beispielmodellen im Azure KI-Katalog verwendet. Andere sind als Beispiele für verschiedene Arten von Daten vorhanden, die normalerweise für Machine Learning verwendet werden.

Einige dieser Datasets sind in Azure Blob Storage verfügbar. Für diese Datasets enthält die folgende Tabelle einen direkten Link. Sie können die Datasets mithilfe des Moduls Import Data in Ihren Experimenten nutzen.

Die restlichen dieser Beispieldatasets sind in Ihrem Arbeitsbereich unter Saved Datasets verfügbar. Sie finden dies in der Modulpalette links vom Experimentbereich in Machine Learning Studio (klassisch). Sie können alle diese DataSets für Ihre eigenen Experimente verwenden, indem Sie sie auf Ihren Experimentcanvas ziehen.

Datasets

Datasetname Datasetbeschreibung
Dataset "Adult Census Income Binary Classification" Eine Teilmenge der Volkszählungsdatenbank von 1994, die arbeitende Erwachsene (älter als 16 Jahre) mit einem bereinigten Einkommensindex über 100 verwendet.

Verwendung: Klassifizierung von Personen mithilfe von demografischen Daten für die Vorhersage, ob eine Person mehr als 50.000 pro Jahr verdient.

Zugrunde liegende Untersuchungen: Kohavi, R., Becker, B., (1996). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Flughafencodes-Dataset Flughafencodes (USA).

Dieses Dataset enthält eine Zeile für jeden Flughafen in den USA, in der die ID-Nummer des Flughafens zusammen mit dem Ort und Bundesstaat enthalten ist.
Automobile price data (Raw) Informationen zu Automobilen nach Marke und Modell, einschließlich Preis und Merkmalen wie Zylinderanzahl und Verbrauch sowie einer Risikoeinstufung der Versicherung.

Der Risikobewertung ist anfänglich mit dem Fahrzeugpreis verknüpft. Sie wird dann in einem Prozess, den Versicherungsfachleute als „Symbolisierung“ bezeichnen, an das tatsächliche Risiko angepasst. Der Wert +3 weist auf ein Fahrzeug mit hohem Risiko hin, während der Wert -3 auf ein voraussichtlich sicheres Fahrzeug hinweist.

Verwendung: Vorhersage der Risikoeinstufung nach Merkmalen unter Verwendung der Regression oder multivariaten Klassifizierung.

Zugrunde liegende Untersuchungen: Schlimmer, J.C. (1987). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Fahrradvermietung UCI-Datensatz UCI Bike Rental-Dataset basierend auf tatsächlichen Daten der Firma Capital Bikeshare, die ein Fahrradverleih-Netzwerk in Washington DC betreibt.

Dieses DataSet enthält eine Zeile pro Stunde für jeden Tag der Jahre 2011 und 2012, insgesamt 17.379 Zeilen. Der Bereich der stündlich verliehenen Fahrräder reicht von 1 bis 977.
RGB-Bild von Bill Gates Öffentlich verfügbare, in CSV-Daten konvertierte Imagedatei.

Der Code zum Konvertieren des Bildes wird auf der Detailseite des Modells Farbquantifizierung mithilfe von K-Means-Clustering bereitgestellt.
Blutspendedaten Eine Teilmenge der Daten aus der Blutspendedatenbank des Blood Transfusion Service Centers von Hsin-Chu City, Taiwan.

Die Spenderdaten beinhalten die Anzahl der Monate seit der letzten Spende, die Häufigkeit oder Gesamtanzahl der Spenden, der seit der letzten Spende vergangenen Zeit sowie die Menge des gespendeten Bluts.

Verwendung: Das Ziel ist die Vorhersage über die Klassifizierung, ob der Spender im März 2007 Blut gespendet hat, wobei „1“ auf einen Spender im Zielzeitraum und „0“ auf eine Person hinweist, die nicht gespendet hat.

Zugrunde liegende Untersuchungen: Yeh, I. C., (2008). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science

Yeh, I-Cheng, Yang, King-Jang und Ting, Tao-Ming, „Knowledge discovery on RFM model using Bernoulli sequence“, Expert Systems with Applications, 2008, https://dx.doi.org/10.1016/j.eswa.2008.07.018
Brustkrebsdaten Eines von drei krebsbezogenen DataSets, das vom Onkologieinstitut bereitgestellt wurde, das häufig in Dokumenten zum maschinellen Lernen verwendet wird. Kombiniert Diagnoseinformationen mit Merkmalen der Laboranalyse von über 300 Gewebeproben.

Verwendung: Klassifizierung des Krebstyps auf Basis von neun Attributen, von denen einige linear, andere kategorisch sind.

Zugrunde liegende Untersuchungen: Wohlberg, W. H., Street, W. N., & Mangasarian, O.L. (1995). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Brustkrebsmerkmale Das Dataset enthält Informationen über 102.000 verdächtige Regionen (Kandidaten) von Röntgenbildern, jede beschrieben durch 117 Merkmale. Die Funktionen sind proprietär und ihre Bedeutung wird vom Dataset-Ersteller (Siemens Healthcare) nicht offengelegt.
Brustkrebsdaten Das Dataset enthält zusätzliche Informationen für jede verdächtige Region eines Röntgenbilds. Jedes Beispiel enthält Informationen (z. B. Überschrift, Patienten-ID, die Koordinaten des Patches in Bezug auf das gesamte Bild) über die Nummer der entsprechenden Zeile im Dataset für Brustkrebsmerkmale. Jeder Patient hat eine Anzahl von Beispielen. Für Patienten, die an Krebs erkrankt sind, sind einige Beispiele positiv und einige negativ. Für Patienten, die nicht an Krebs erkrankt sind, sind alle Beispiele negativ. Das Dataset hat 102.000 Beispiele. Das Dataset ist verzerrt, 0,6 % der Punkte sind positiv, der Rest ist negativ. Das Dataset wurde von Siemens Healthcare zur Verfügung gestellt.
CRM Appetency Bezeichnungen freigegeben Beschriftungen vom KDD Cup 2009 (Kundenbeziehungsprognose, orange_small_train_appetency.labels).
CRM Codeänderung Bezeichnungen freigegeben Beschriftungen vom KDD Cup 2009 (Kundenbeziehungsprognose, orange_small_train_churn.labels).
CRM-Dataset gemeinsam genutzt Diese Daten stammen vom KDD Cup 2009, Kundenbeziehungsprognose (orange_small_train.data.zip).

Das DataSet enthält 50.000 Kunden des französischen Telekommunikationsunternehmens Orange. Jeder Kunde verfügt über 230 anonymisierte Merkmale, von denen 190 numerisch und 40 kategorisch sortiert sind. Die Merkmale sind sehr karg.
CRM Upselling Bezeichnungen freigegeben Beschriftungen vom KDD Cup 2009 (Kundenbeziehungsprognose, orange_large_train_upselling.labels).
Daten zur Energieeffizienzregression Eine Sammlung von simulierten Energieprofilen, die auf 12 verschiedenen Gebäudeformen basieren. Das Gebäude unterscheiden sich in acht Merkmalen. Hierzu gehören die Verglasungsbereiche, die Verteilung der Verglasungsbereiche und die Ausrichtung.

Verwendung: Verwendung der Regression oder Klassifizierung zur Vorhersage der Energieeffizienzbewertung, die die Grundlage für eine von zwei Realwertantworten darstellt. Für die Multiklassen-Klassifizierung wird die Antwortvariable auf die nächste ganze Zahl gerundet.

Verwandte Forschung: Xifara, A. & Tsanas, A. (2012). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Flugverspätungsdaten Pünktlichkeitsratendaten zu Passagierflügen aus der TranStats-Datensammlung des US-Verkehrsministeriums (On-Time).

Das DataSet deckt den Zeitraum April bis Oktober 2013 ab. Vor dem Hochladen in Machine Learning Studio (klassisch) wurde das Dataset wie folgt verarbeitet:
  • Es wurde gefiltert, damit nur die 70 verkehrsreichsten Flughäfen in Kontinental-USA enthalten waren.
  • Ausgefallene Flüge wurden als um mehr als 15 Minuten verspätet gekennzeichnet.
  • Umgeleitete Flüge wurden herausgefiltert.
  • Die folgenden Spalten wurden ausgewählt: Year, Month, DayofMonth, DayOfWeek, Carrier, OriginAirportID, DestAirportID, CRSDepTime, DepDelay, DepDel15, CRSArrTime, ArrDelay, ArrDel15, Canceled
Planmäßige Durchführung von Flügen (unformatiert) Datensätze zu Ankunft und Abflug von Flügen innerhalb der USA von Oktober 2011.

Verwendung: Vorhersage von Verspätungen im Flugverkehr.

Verwandte Untersuchung: vom US Dept. of Transportation https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time.
Waldbranddaten Enthält Wetterdaten, etwa Temperatur und Luftfeuchtigkeit sowie die Windgeschwindigkeit. Die Daten stammen aus einem Gebiet im Nordosten von Portugal und sind mit Datensätzen von Waldbränden kombiniert.

Verwendung: Dies ist eine schwierige Regressionsaufgabe, bei der die bei Waldbränden verbrannte Fläche vorhergesagt werden soll.

Verwandte Forschung: Cortez, P., & Morais, A. (2008). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science

[Cortez and Morais, 2007] P. Cortez und A. Morais. A Data Mining Approach to Predict Forest Fires using Meteorological Data. In J. Neves, M. F. Santos and J. Machado Eds., New Trends in Artificial Intelligence, Proceedings of the 13th EPIA 2007 – Portuguese Conference on Artificial Intelligence, Dezember, Guimarães, Portugal, Seiten 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9. Verfügbar unter: http://www.dsi.uminho.pt/~pcortez/fires.pdf.
Deutsche Kreditkarte UCI-Dataset Das DataSet „UCI Statlog“ (deutsche Kreditkarte) (Statlog+German+Credit+Data), das die Datei „german.data“ verwendet.

Dieses DataSet klassifiziert Personen anhand verschiedener Attribute in hohes und niedriges Kreditrisiko. Jedes Beispiel stellt eine Person dar. Insgesamt existieren 20 numerische und kategorische Merkmale sowie eine binäre Beschriftung (der Wert für das Kreditrisiko). Hohe Kreditrisiken tragen die Beschriftung = 2, während geringe Kreditrisiken die Beschriftung = 1 tragen. Die Belastung für die falsche Klassifizierung eines Beispiels mit geringem Risiko beträgt 1, während die Belastung für die falsche Klassifizierung eines Beispiels mit hohem Risiko 5 beträgt.
IMDB-Filmtitel Das Dataset enthält Informationen über Filme, die in Tweets auf Twitter bewertet wurden: Film-ID in der IMDB, Filmname, Genre und Produktionsjahr. Das DataSet enthält 17.000 Filme. Das Dataset wurde im Dokument „S. Dooms, T. De Pessemier und L. Martens. MovieTweetings: a Movie Rating Dataset Collected From Twitter. Workshop on Crowdsourcing and Human Computation for Recommender Systems, CrowdRec at RecSys 2013“ eingeführt.
Zwei-Klassen-Daten zu Schwertlilien Dies ist wahrscheinlich die bekannteste Datenbank, die in der Literatur zur Mustererkennung gefunden werden kann. Das Dataset ist relativ klein und enthält 50 Proben, die jeweils Blütenblatteinstufungen von drei Unterarten der Schwertlilie enthalten.

Verwendung: Vorhersage der Schwertlilienart aus diesen Einstufungen.

Zugrunde liegende Untersuchungen: Fisher, R. A. (1988). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Film-Tweets Das Dataset ist eine erweiterte Version des Films Tweetings Datasets. Das Dataset enthält 170K Bewertungen für Filme, extrahiert aus gut strukturierten Tweets auf Twitter. Jede Instanz stellt einen Tweet dar und ist ein Tupel: Benutzer-ID, IMDB Film-ID, Bewertung, Timestamp, Anzahl von Favoriten für diesen Tweet und Anzahl der Retweets dieses Tweets. Das Dataset wurde von A. Said, S. Dooms, B. Loni und D. Tikk für Recommender Systems Challenge 2014 zur Verfügung gestellt.
MPG data for various automobiles Dieses DataSet ist eine leicht abgewandelte Version des DataSets, das von der StatLib-Bibliothek der Carnegie Mellon University bereitgestellt wurde. Das Dataset wurde 1983 in der Ausführung der American Statistical Association verwendet.

Die Daten geben den Kraftstoffverbrauch für verschiedene Fahrzeuge in Meilen pro Gallone an. Sie umfassen außerdem Informationen wie Anzahl der Zylinder, Hubraum, Leistung, Gesamtgewicht und Beschleunigung.

Verwendung: Vorhersage der Kraftstoffeinsparung auf Basis von drei mehrwertigen Attributen und fünf kontinuierlichen Attributen.

Zugrunde liegende Untersuchungen: StatLib, Carnegie Mellon University, (1993). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Dataset für binäre Klassifizierung der Diabetes bei Pima-Indianern Eine Teilmenge der Daten der Datenbank des National Institute of Diabetes and Digestive and Kidney Diseases. Das Dataset wurde gefiltert, um sich auf weibliche Patienten zu konzentrieren, die von den Pima-Indianern abstammen. Die Daten umfassen medizinische Daten wie Zucker- und Insulinspiegel sowie Lebensstilfaktoren.

Verwendung: Vorhersage einer Diabeteserkrankung für den Patienten (binäre Klassifikation).

Verwandte Forschung: Sigillito, V. (1990). UCI Machine Learning Repository https://archive.ics.uci.edu/ml". Irvine, CA: University of California, School of Information and Computer Science
Daten zu Restaurantkunden Eine Sammlung von Metadaten zu Kunden, einschließlich Demografie und Präferenzen.

Verwendung: Verwenden Sie dieses Dataset in Kombination mit den anderen beiden Restaurantdatasets, um ein Empfehlungssystem zu trainieren und zu testen.

Zugrunde liegende Untersuchungen: Bache, K. und Lichman, M. (2013). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Daten zu Restaurantmerkmalen Eine Sammlung von Metadaten zu Restaurants und ihren Merkmalen wie Speisetyp, Stil und Lage.

Verwendung: Verwenden Sie dieses Dataset in Kombination mit den anderen beiden Restaurantdatasets, um ein Empfehlungssystem zu trainieren und zu testen.

Zugrunde liegende Untersuchungen: Bache, K. und Lichman, M. (2013). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Restaurantbewertungen Enthält von Benutzern abgegebene Bewertungen für Restaurants auf einer Skala von 0 bis 2.

Verwendung: Verwenden Sie dieses Dataset in Kombination mit den anderen beiden Restaurantdatasets, um ein Empfehlungssystem zu trainieren und zu testen.

Zugrunde liegende Untersuchungen: Bache, K. und Lichman, M. (2013). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Multiklassen-Dataset zur Stahlhärtung Dieses Dataset enthält eine Reihe von Datensätzen aus Stahlvergütungsversuchen. Es enthält die physischen Attribute (Breite, Dicke, Typ (Coil, Blech usw.)) der resultierenden Stahltypen.

Verwendung: Vorhersage eines von zwei numerischen Klassenattributen: Härte oder Belastbarkeit. Sie können auch Korrelationen zwischen den Attributen analysieren.

Die Stahlsorten folgen einem festgelegten Standard, der von SAE und anderen Organisationen definiert wurde. Sie suchen nach einer bestimmten „Sorte“ (die Klassenvariable) und möchten die erforderlichen Werte verstehen.

Verwandte Forschung: Sterling, D. & Buntine, W. (NA). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science

Ein nützliches Handbuch zu den Stahlsorten finden Sie hier: https://www.steamforum.com/pictures/Outokumpu-steel-grades-properties-global-standards.pdf
Teleskopdaten Aufzeichnung von hochenergetischen Gammapartikelausbrüchen zusammen mit Hintergrundrauschen, die beide mithilfe eines Monte Carlo-Prozesses simuliert wurden.

Die Absicht der Simulation war, die Genauigkeit von erdgebundenen atmosphärischen Tscherenkow-Gammateleskopen zu verbessern. Dies erfolgt über statistische Methoden, um zwischen gewünschtem Signal (Tscherenkow-Strahlungsschauer) und Hintergrundrauschen (hadronische Schauer, die durch kosmische Strahlung in der oberen Atmosphäre ausgelöst werden) zu unterscheiden.

Die Daten wurden vorverarbeitet, um ein gestrecktes Bündel zu erstellen, bei dem die Längsachse zur Kameramitte ausgerichtet ist. Die Merkmale dieser Ellipse (die häufig als Hillas-Parameter bezeichnet werden) gehören zu den Bildparametern, die zur Unterscheidung verwendet werden können.

Verwendung: Vorhersage, ob das Bild eines Schauers ein Signal oder Hintergrundrauschen darstellt.

Hinweise: Eine einfache Klassifizierungsgenauigkeit ist für diese Daten nicht aussagekräftig, da die Klassifizierung eines Hintergrundereignisses als Signal schlechter ist als die Klassifizierung eines Signals als Hintergrundrauschen. Für den Vergleich der verschiedenen Klassifizierer soll das ROC-Diagramm verwendet werden. Die Wahrscheinlichkeit der Annahme eines Hintergrundereignisses als Signal muss unter einem der folgenden Schwellenwerte liegen: 0,01, 0,02, 0,05, 0,1 oder 0,2.

Beachten Sie außerdem, dass die Anzahl der Hintergrundereignisse (h für hadronische Schauer) zu niedrig angesetzt ist. In realen Messungen stellt die h- oder Rauschen-Klasse die Mehrzahl der Ereignisse dar.

Zugrunde liegende Untersuchungen: Bock, R. K. (1995). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information
Wetter-Dataset Stündliche flächenbasierte Wetterbeobachtungen aus NOAA (zusammengeführte Daten von 201304 bis 201310).

Die Wetterdaten umfassen Beobachtungen der Wetterstationen von Flughäfen für den Zeitraum April bis Oktober 2013. Vor dem Hochladen in Machine Learning Studio (klassisch) wurde das Dataset wie folgt verarbeitet:
  • Die IDs der Wetterstationen wurden den entsprechenden Flughafen-IDs zugeordnet.
  • Wetterstationen, die nicht zu den 70 verkehrsreichsten Flughäfen gehören, wurden herausgefiltert
  • Die Datumsspalte wurde in separate Jahres-, Monats- und Tagesspalten aufgeteilt.
  • Die folgenden Spalten wurden ausgewählt: AirportID, Year, Month, Day, Time, TimeZone, SkyCondition, Visibility, WeatherType, DryBulbFarenheit, DryBulbCelsius, WetBulbFarenheit, WetBulbCelsius, DewPointFarenheit, DewPointCelsius, RelativeHumidity, WindSpeed, WindDirection, ValueForWindCharacter, StationPressure, PressureTendency, PressureChange, SeaLevelPressure, RecordType, HourlyPrecip, Altimeter
Wikipedia SP 500 Dataset Die Daten stammen aus Wikipedia (https://www.wikipedia.org/) und basieren auf Artikeln der einzelnen S&P-500-Unternehmen, die als XML-Daten gespeichert wurden.

Vor dem Hochladen in Machine Learning Studio (klassisch) wurde das Dataset wie folgt verarbeitet:
  • Extrahieren der Textinhalte für die einzelnen Unternehmen
  • Entfernen der Wiki-Formatierung
  • Entfernen aller nicht alphanumerischen Zeichen
  • Konvertieren sämtlicher Texte in Kleinbuchstaben
  • Bekannte Firmenkategorien wurden hinzugefügt.

Beachten Sie, dass für einige Unternehmen keine Artikel gefunden werden konnten, daher ist die Anzahl der Datensätze kleiner als 500.
direct_marketing.csv Das Dataset enthält Kundendaten und Angaben über ihre Reaktion auf eine direkte Mailing-Kampagne. Jede Zeile stellt einen Kunden dar. Das Dataset enthält neun Merkmale über demografische Benutzerdaten und Verhalten in der Vergangenheit und drei Beschriftungsspalten („visit“, „conversion“ und „spend“). „visit“ ist eine Binärspalte, die angibt, dass ein Kunde nach der Marketingkampagne die Seite besucht hat. „conversion“ kennzeichnet, dass ein Kunde etwas gekauft hat. „spend“ ist der Betrag, der ausgegeben wurde. Das Dataset wurde von Kevin Hillstrom für MineThatData E-Mail Analytics And Data Mining Challenge zur Verfügung gestellt.
lyrl2004_tokens_test.csv Merkmale der Beispiele im Reuters-Nachrichtendataset RCV1 V2. Das Dataset besteht aus 781.000 Nachrichtenbeiträgen sowie deren IDs (erste Spalte des Datasets). Alle Artikel sind mit Token und Stoppwort versehen und bezeichnet. Das DataSet wurde von D: Lewis zur Verfügung gestellt.
lyrl2004_tokens_train.csv Merkmale von Schulungsbeispielen im Reuters-Nachrichtendataset RCV1 V2. Das Dataset besteht aus 23.000 Nachrichtenbeiträgen sowie deren IDs (erste Spalte des Datasets). Alle Artikel sind mit Token und Stoppwort versehen und bezeichnet. Das DataSet wurde von D: Lewis zur Verfügung gestellt.
network_intrusion_detection.csv
Dataset von KDD Cup 1999 Knowledge Discovery and Data Mining Tools Competition (kddcup99.html).

Das Dataset wurde heruntergeladen und in Azure Blob Storage abgelegt (network_intrusion_detection.csv). Es enthält Trainings- und Testdatasets. Das Trainingsdataset enthält ca. 126.000 Zeilen und 43 Spalten, inklusive der Bezeichnungen. Drei Spalten sind Teil der Bezeichnungsinformationen, und 40 Spalten, die aus numerischen und Zeichenfolgen-/Kategoriefeatures bestehen, sind zum Trainieren des Modells verfügbar. Die Testdaten enthalten ca. 22.500 Testbeispiele, die die gleichen 43 Spalten wie die Schulungsdaten enthalten.
rcv1-v2.topics.qrels.csv Themenzuweisungen für Nachrichtenartikel im Reuters-Nachrichtendataset RCV1-V2 Ein Nachrichtenartikel kann verschiedenen Themen zugewiesen werden. Das Format jeder Zeile lautet „<Themenname><Dokument-ID> 1“. Das Dataset enthält 2,6 Mio. Themenzuweisungen. Das DataSet wurde von D: Lewis zur Verfügung gestellt.
student_performance.txt Diese Daten stammen aus dem KDD Cup 2010 zur Leistungsbewertung von Schülern (Schülerleistungsbewertung). Die verwendeten Daten stammen aus dem Trainingssatz „Algebra_2008_2009“ (Stamper, J., Niculescu-Mizil, A., Ritter, S., Gordon, G.J., & Koedinger, K.R. (2010). Algebra I 2008-2009. Dataset des KDD Cup 2010 – Educational Data Mining Challenge. Sie finden das Dataset unter downloads.jsp.

Das Dataset wurde in Azure Blob Storage heruntergeladen und gespeichert (student_performance.txt). Es enthält Protokolldateien aus einem Tutorensystem für Schüler. Die bereitgestellten Funktionen umfassen eine Problem-ID und eine zugehörige Kurzbeschreibung, die Schüler-ID, einen Zeitstempel und die Anzahl der Versuche, bevor das Problem vom Schüler ordnungsgemäß gelöst wurde. Das ursprüngliche Dataset umfasst 8,9 Millionen Datensätze. Dieses Dataset wurde auf die ersten 100.000 Zeilen reduziert. Das DataSet umfasst 23 durch Tabulatoren getrennte Spalten mit verschiedenen Typen: numerisch, kategorisch und Zeitstempel.

Nächste Schritte