Dela via


Använda exempeldatauppsättningarna i Machine Learning Studio (klassisk)

GÄLLER FÖR:Gäller för. Machine Learning Studio (klassisk) Gäller inte för.Azure Machine Learning

Viktigt

Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.

Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.

Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.

När du skapar en ny arbetsyta i Machine Learning Studio (klassisk) ingår ett antal exempeldatauppsättningar och experiment som standard. Många av dessa exempeldatauppsättningar används av exempelmodellerna i Azure AI-galleriet. Andra ingår som exempel på olika typer av data som vanligtvis används i maskininlärning.

Vissa av dessa datauppsättningar är tillgängliga i Azure Blob Storage. För dessa datauppsättningar innehåller följande tabell en direktlänk. Du kan använda dessa datauppsättningar i dina experiment med hjälp av modulen Importera data .

Resten av dessa exempeldatauppsättningar är tillgängliga på din arbetsyta under Sparade datauppsättningar. Du hittar detta i modulpaletten till vänster om experimentarbetsytan i Machine Learning Studio (klassisk). Du kan använda någon av dessa datauppsättningar i ditt eget experiment genom att dra den till experimentarbetsytan.

Datauppsättningar

Namn på datauppsättning Beskrivning av datauppsättning
Datauppsättning för binär klassificering av vuxnas censusinkomster En delmängd av folkräkningsdatabasen från 1994 med arbetande vuxna över 16 år med ett justerat inkomstindex på > 100.

Användning: Klassificera personer som använder demografi för att förutsäga om en person tjänar över 50 000 om året.

Relaterad forskning: Kohavi, R., Becker, B., (1996). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Datauppsättning för flygplatskoder Amerikanska flygplatskoder.

Den här datamängden innehåller en rad för varje flygplats i USA, vilket ger flygplatsens ID-nummer och namn tillsammans med orten och delstaten.
Prisdata för bilar (rådata) Information om bilar efter märke och modell, inklusive priset, funktioner som antalet cylindrar och MPG, samt en försäkringsriskpoäng.

Riskpoängen associeras inledningsvis med autopris. Den justeras sedan för den faktiska risken i en process som kallas aktuärer som symbol. Värdet +3 anger att auto är riskabelt och värdet -3 att det förmodligen är säkert.

Användning: Förutse riskpoängen efter funktioner med hjälp av regression eller multivariatklassificering.

Relaterad forskning: Schlimmer, J.C. (1987). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
UCI-datauppsättning för cykeluthyrning Datamängden UCI Bike Rental som baseras på verkliga data från Capital Bikeshare-företaget som underhåller ett cykeluthyrningsnätverk i Washington DC.

Datauppsättningen har en rad för varje timme varje dag under 2011 och 2012, för totalt 17 379 rader. Utbudet av cykeluthyrning varje timme är mellan 1 och 977.
Bill Gates RGB-bild Offentligt tillgänglig bildfil som konverterats till CSV-data.

Koden för att konvertera bilden finns i färgkvantiseringen med hjälp av informationssidan för K-Means-klustringsmodellen .
Blodgivningsdata En delmängd av data från blodgivardatabasen i Blood Transfusion Service Center i Hsin-Chu City, Taiwan.

Donatordata omfattar månaderna sedan den senaste donationen) och frekvens, eller det totala antalet donationer, tid sedan den senaste donationen och mängden blod som donerades.

Användning: Målet är att via klassificering förutsäga om donatorn donerade blod i mars 2007, där 1 indikerar en donator under målperioden, och 0 en icke-donator.

Relaterad forskning: Yeh, I.C., (2008). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science

Yeh, I-Cheng, Yang, King-Jang, and Ting, Tao-Ming, "Knowledge discovery on RFM model using Bernoulli sequence, "Expert Systems with Applications, 2008, https://dx.doi.org/10.1016/j.eswa.2008.07.018
Bröstcancerdata En av tre cancerrelaterade datamängder från Oncology Institute som förekommer ofta i maskininlärningslitteraturen. Kombinerar diagnostisk information med funktioner från laboratorieanalys av cirka 300 vävnadsprover.

Användning: Klassificera typen av cancer, baserat på 9 attribut, varav vissa är linjära och vissa är kategoriska.

Relaterad forskning: Wohlberg W.H., Gata, W.N., & Mangasarian, O.L. (1995). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Bröstcancer funktioner Datamängden innehåller information om 102 000 misstänkta regioner (kandidater) för röntgenbilder, som var och en beskrivs av 117 funktioner. Funktionerna är upphovsrättsskyddade och deras innebörd avslöjas inte av datamängdens skapare (Siemens Healthcare).
Information om bröstcancer Datamängden innehåller ytterligare information för varje misstänkt region av röntgenbilden. Varje exempel innehåller information (till exempel etikett, patient-ID, koordinater för korrigering i förhållande till hela bilden) om motsvarande radnummer i datauppsättningen Bröstcancerfunktioner. Varje patient har ett antal exempel. För patienter som har cancer är vissa exempel positiva och vissa är negativa. För patienter som inte har cancer är alla exempel negativa. Datauppsättningen har 102 000 exempel. Datamängden är partisk, 0,6 % av punkterna är positiva, resten är negativa. Datamängden har gjorts tillgänglig av Siemens Healthcare.
Delade CRM-appetency-etiketter Etiketter från förutsägelseutmaningen för KDD Cup 2009-kundrelationer (orange_small_train_appetency.labels).
Delade CRM-omsättningsetiketter Etiketter från förutsägelseutmaningen för KDD Cup 2009-kundrelationer (orange_small_train_churn.labels).
DELAD CRM-datauppsättning Dessa data kommer från förutsägelseutmaningen för KDD Cup 2009-kundrelationer (orange_small_train.data.zip).

Datamängden innehåller 50 000 kunder från det franska telekomföretaget Orange. Varje kund har 230 anonymiserade funktioner, varav 190 är numeriska och 40 är kategoriska. Funktionerna är mycket glesa.
Delade CRM-etiketter Etiketter från förutsägelseutmaningen för KDD Cup 2009-kundrelationer (orange_large_train_upselling.labels).
Energy-Efficiency regressionsdata En samling simulerade energiprofiler baserade på 12 olika byggnadsformer. Byggnaderna särskiljs med åtta funktioner. Detta inkluderar glasyta, glasområdesfördelning och orientering.

Användning: Använd antingen regression eller klassificering för att förutsäga energieffektivitetsklassificeringen baserat på ett av två reella värdesvar. För klassificering med flera klasser avrundas svarsvariabeln till närmaste heltal.

Relaterad forskning: Xifara, A. & Tsanas, A. (2012). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Data om flygförseningar Prestandadata för passagerarflygning i tid från TranStats-datainsamlingen från U.S. Department of Transportation (On-Time).

Datauppsättningen omfattar tidsperioden April-October 2013. Innan du laddar upp till Machine Learning Studio (klassisk) bearbetades datauppsättningen på följande sätt:
  • Datamängden filtrerades för att endast omfatta de 70 mest trafikerade flygplatserna i kontinentala USA
  • Inställda flyg betecknades som försenade med mer än 15 minuter
  • Omdirigerade flygningar filtrerades bort
  • Följande kolumner har valts: Year, Month, DayofMonth, DayOfWeek, Carrier, OriginAirportID, DestAirportID, CRSDepTime, DepDelay, DepDel15, CRSArrTime, ArrDelay, ArrDel15, Canceled
Prestanda för flyg i tid (raw) Register över ankomster och avgångar för flygplansflyg inom USA från oktober 2011.

Användning: Förutse flygförseningar.

Relaterad forskning: Från US Dept. of Transportation https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time.
Skogsbrandsdata Innehåller väderdata, till exempel temperatur- och luftfuktighetsindex och vindhastighet. Uppgifterna hämtas från ett område i nordöstra Portugal, i kombination med register över skogsbränder.

Användning: Detta är en svår regressionsuppgift, där målet är att förutsäga det brända området av skogsbränder.

Relaterad forskning: Cortez, P., & Morais, A. (2008). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science

[Cortez och Morais, 2007] P. Cortez och A. Morais. En datautvinningsmetod för att förutsäga skogsbränder med hjälp av meteorologiska data. I J. Neves, M. F. Santos och J. Machado Eds., New Trends in Artificial Intelligence, Proceedings of the 13th EPIA 2007 - Portuguese Conference on Artificial Intelligence, December, Guimarães, Portugal, pp. 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9. Tillgänglig på: http://www.dsi.uminho.pt/~pcortez/fires.pdf.
UCI-datauppsättning för tyska kreditkort Datamängden UCI Statlog (tyska kreditkort) (Statlog+German+Credit+Data) med hjälp av filen german.data.

Datauppsättningen klassificerar personer, som beskrivs av en uppsättning attribut, som låg eller hög kreditrisk. Varje exempel representerar en person. Det finns 20 funktioner, både numeriska och kategoriska, och en binär etikett (kreditriskvärdet). Poster med hög kreditrisk har etiketten = 2, poster med låg kreditrisk har etiketten = 1. Kostnaden för att felklassificeras som ett lågriskexempel som högt är 1, medan kostnaden för att felklassifica ett högriskexempel som lågt är 5.
IMDB-filmtitlar Datamängden innehåller information om filmer som klassificerats i Twitter-tweets: IMDB-film-ID, filmnamn, genre och produktionsår. Det finns 17 000 filmer i datauppsättningen. Datamängden introducerades i artikeln "S. Dooms, T. De Pessemier och L. Martens. MovieTweetings: en filmklassificeringsdatauppsättning som samlats in från Twitter. Workshop on Crowdsourcing and Human Computation for Recommender Systems, CrowdRec at RecSys 2013."
Två klassdata i Iris Detta är kanske den mest kända databasen som finns i mönsterigenkänningslitteraturen. Datamängden är relativt liten och innehåller 50 exempel på var och en av kronbladsmåtten från tre irissorter.

Användning: Förutsäga iristypen från mätningarna.

Relaterad forskning: Fisher, R.A. (1988). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Film tweets Datauppsättningen är en utökad version av datauppsättningen Movie Tweetings. Datauppsättningen har 170 000 betyg för filmer, extraherade från välstrukturerade tweets på Twitter. Varje instans representerar en tweet och är en tupplar: användar-ID, IMDB-film-ID, omdöme, tidsstämpel, antal favoriter för den här tweeten och antalet retweets för den här tweeten. Datauppsättningen gjordes tillgänglig av A. Said, S. Dooms, B. Loni och D. Tikk för Recommender Systems Challenge 2014.
MPG-data för olika bilar Den här datauppsättningen är en något modifierad version av datauppsättningen som tillhandahålls av StatLib-biblioteket vid Carnegie Mellon University. Datamängden användes i American Statistical Association Exposition 1983.

Data visar bränsleförbrukning för olika bilar i miles per gallon. Den innehåller också information som antalet cylindrar, motorförskjutning, hästkrafter, total vikt och acceleration.

Användning: Förutsäga bränsleekonomi baserat på tre diskreta attribut med flera värden och fem kontinuerliga attribut.

Relaterad forskning: StatLib, Carnegie Mellon University, (1993). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Datamängden Pima Indians Diabetes Binary Classification En delmängd av data från nationalinstitutet för diabetes och matsmältnings- och njursjukdomar. Datamängden filtrerades för att fokusera på kvinnliga patienter med pima indiskt arv. Uppgifterna omfattar medicinska data som glukos- och insulinnivåer samt livsstilsfaktorer.

Användning: Förutsäga om ämnet har diabetes (binär klassificering).

Relaterad forskning: Sigillito, V. (1990). UCI Machine Learning Repository https://archive.ics.uci.edu/ml". Irvine, CA: University of California, School of Information and Computer Science
Kunddata för restaurang En uppsättning metadata om kunder, inklusive demografi och preferenser.

Användning: Använd den här datauppsättningen, i kombination med de andra två restaurangdatauppsättningarna, för att träna och testa ett rekommenderande system.

Relaterad forskning: Bache, K. och Lichman, M. (2013). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science.
Funktionsdata för restaurang En uppsättning metadata om restauranger och deras funktioner, till exempel mattyp, matstil och plats.

Användning: Använd den här datauppsättningen, i kombination med de andra två restaurangdatauppsättningarna, för att träna och testa ett rekommenderande system.

Relaterad forskning: Bache, K. och Lichman, M. (2013). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science.
Restaurangklassificeringar Innehåller omdömen från användare till restauranger i en skala från 0 till 2.

Användning: Använd den här datauppsättningen, i kombination med de andra två restaurangdatauppsättningarna, för att träna och testa ett rekommenderande system.

Relaterad forskning: Bache, K. och Lichman, M. (2013). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science.
Datauppsättning för flera klasser i Stålglödning Den här datamängden innehåller en serie poster från försök med anlöpning av stål. Den innehåller de fysiska attributen (bredd, tjocklek, typ (spole, ark osv.) för de resulterande ståltyperna.

Användning: Förutsäga något av två numeriska klassattribut; hårdhet eller styrka. Du kan också analysera korrelationer mellan attribut.

Stålkvaliteter följer en fast standard som definieras av SAE och andra organisationer. Du letar efter ett specifikt "betyg" (klassvariabeln) och vill förstå de värden som behövs.

Relaterad forskning: Sterling, D. & Buntine, W. (NA). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science

En användbar guide till stålkvaliteter finns här: https://www.steamforum.com/pictures/Outokumpu-steel-grades-properties-global-standards.pdf
Teleskopdata Rekord av gammapartiklar med hög energi spricker tillsammans med bakgrundsbrus, båda simulerade med hjälp av en Monte Carlo-process.

Avsikten med simuleringen var att förbättra noggrannheten hos markbaserade atmosfäriska Cherenkov gammateleskop. Detta görs med hjälp av statistiska metoder för att skilja mellan önskad signal (Cherenkov strålning duschar) och bakgrundsbrus (hadroniska duschar initieras av kosmiska strålar i den övre atmosfären).

Data har förbehandlats för att skapa ett avlångt kluster med den långa axeln riktad mot kameracentret. Egenskaperna hos denna ellips (kallas ofta Hillas-parametrar) är bland de bildparametrar som kan användas för diskriminering.

Användning: Förutsäga om bilden av en dusch representerar signal- eller bakgrundsbrus.

Anteckningar: Enkel klassificeringsprecision är inte meningsfull för dessa data, eftersom klassificeringen av en bakgrundshändelse som signal är sämre än att klassificera en signalhändelse som bakgrund. För jämförelse av olika klassificerare bör ROC-grafen användas. Sannolikheten att acceptera en bakgrundshändelse som signal måste ligga under något av följande tröskelvärden: 0,01, 0,02, 0,05, 0,1 eller 0,2.

Observera också att antalet bakgrundshändelser (h, för hadroniska duschar) är underskattat. I verkliga mätningar representerar klassen h eller noise majoriteten av händelserna.

Relaterad forskning: Bock, R.K. (1995). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information
Väderdatauppsättning Landbaserade väderobservationer varje timme från NOAA (sammanfogade data från 201304 till 201310).

Väderdata omfattar observationer från flygplats väderstationer, som täcker tidsperioden April-October 2013. Innan du laddar upp till Machine Learning Studio (klassisk) bearbetades datauppsättningen på följande sätt:
  • Väderstations-ID:n mappades till motsvarande flygplats-ID:n
  • Väderstationer som inte är associerade med de 70 mest trafikerade flygplatserna filtrerades bort
  • Kolumnen Datum delades upp i separata kolumner för år, månad och dag
  • Följande kolumner har valts: AirportID, Year, Month, Day, Time, TimeZone, SkyCondition, Synlighet, WeatherType, DryBulbFarenheit, DryBulbCelsius, WetBulbFarenheit, WetBulbCelsius, DewPointFarenheit, DewPointCelsius, RelativeHumidity, WindSpeed, WindDirection, ValueForWindCharacter, StationPressure, PressureTendency, PressureChange, SeaLevelPressure, RecordType, HourlyPrecip, Altimeter
Wikipedia SP 500-datauppsättning Data härleds från Wikipedia (https://www.wikipedia.org/) baserat på artiklar från varje S-&P 500-företag som lagras som XML-data.

Innan du laddar upp till Machine Learning Studio (klassisk) bearbetades datauppsättningen på följande sätt:
  • Extrahera textinnehåll för varje specifikt företag
  • Ta bort wiki-formatering
  • Ta bort icke-alfanumeriska tecken
  • Konvertera all text till gemener
  • Kända företagskategorier har lagts till

Observera att det inte gick att hitta en artikel för vissa företag, så antalet poster är mindre än 500.
direct_marketing.csv Datamängden innehåller kunddata och uppgifter om deras svar på en direktutskickskampanj. Varje rad representerar en kund. Datauppsättningen innehåller nio funktioner om användardemografi och tidigare beteende och tre etikettkolumner (besök, konvertering och utgifter). Visit är en binär kolumn som anger att en kund besökte efter marknadsföringskampanjen. Konvertering anger att en kund har köpt något. Utgifter är det belopp som spenderades. Datauppsättningen gjordes tillgänglig av Kevin Hillstrom för MineThatData e-postanalys och datautvinningsutmaning.
lyrl2004_tokens_test.csv Funktioner i testexempel i nyhetsdatauppsättningen RCV1-V2 Reuters. Datamängden har 781 000 nyhetsartiklar tillsammans med deras ID:n (den första kolumnen i datamängden). Varje artikel är tokeniserad, stopworded och stemmed. Datauppsättningen gjordes tillgänglig av David. D. Lewis.
lyrl2004_tokens_train.csv Funktioner i träningsexempel i nyhetsdatauppsättningen RCV1-V2 Reuters. Datamängden har 23 000 nyhetsartiklar tillsammans med deras ID:n (den första kolumnen i datamängden). Varje artikel är tokeniserad, stopworded och stemmed. Datauppsättningen gjordes tillgänglig av David. D. Lewis.
network_intrusion_detection.csv
Datauppsättning från KDD Cup 1999 Knowledge Discovery and Data Mining Tools Competition (kddcup99.html).

Datauppsättningen laddades ned och lagrades i Azure Blob Storage (network_intrusion_detection.csv) och innehåller både tränings- och testningsdatauppsättningar. Träningsdatauppsättningen har cirka 126 000 rader och 43 kolumner, inklusive etiketterna. Tre kolumner är en del av etikettinformationen, och 40 kolumner, som består av numeriska och sträng-/kategoriska funktioner, är tillgängliga för träning av modellen. Testdata har cirka 22,5 000 testexempel med samma 43 kolumner som i träningsdata.
rcv1-v2.topics.qrels.csv Ämnesuppgifter för nyhetsartiklar i nyhetsdatauppsättningen RCV1-V2 Reuters. En nyhetsartikel kan tilldelas flera ämnen. Formatet för varje rad är "<ämnesnamn><dokument-ID> 1". Datauppsättningen innehåller 2,6 miljoner ämnestilldelningar. Datauppsättningen gjordes tillgänglig av David. D. Lewis.
student_performance.txt Dessa data kommer från KDD Cup 2010 Student performance evaluation challenge (utvärdering av elevprestanda). De data som används är Algebra_2008_2009 träningsuppsättningen (Stamper, J., Niculescu-Mizil, A., Ritter, S., Gordon, G.J., & Koedinger, K.R. (2010). Algebra I 2008-2009. Utmaningsdatauppsättning från KDD Cup 2010 Educational Data Mining Challenge. Hitta den på downloads.jsp.

Datauppsättningen laddades ned och lagrades i Azure Blob Storage (student_performance.txt) och innehåller loggfiler från ett elevhandledaresystem. De angivna funktionerna omfattar problem-ID och dess korta beskrivning, elev-ID, tidsstämpel och hur många försök eleven gjorde innan han eller hon löste problemet på rätt sätt. Den ursprungliga datauppsättningen har 8,9 miljoner poster. den här datauppsättningen har tagits bort till de första 100 000 raderna. Datauppsättningen har 23 tab-separated kolumner av olika typer: numeriska, kategoriska och tidsstämpel.

Nästa steg