Använda exempeldatauppsättningarna i Machine Learning Studio (klassisk)

GÄLLER FÖR: Gäller för. Machine Learning Studio (klassisk) Gäller inte för. Azure Machine Learning

Viktigt!

Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.

Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.

Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.

När du skapar en ny arbetsyta i Machine Learning Studio (klassisk) ingår ett antal exempeldatauppsättningar och experiment som standard. Många av dessa exempeldatauppsättningar används av exempelmodellerna i Azure AI-galleriet. Andra ingår som exempel på olika typer av data som vanligtvis används i maskininlärning.

Vissa av dessa datauppsättningar är tillgängliga i Azure Blob Storage. För dessa datauppsättningar innehåller följande tabell en direktlänk. Du kan använda dessa datauppsättningar i experimenten med hjälp av modulen Importera data .

Resten av dessa exempeldatauppsättningar är tillgängliga på din arbetsyta under Sparade datauppsättningar. Du hittar detta i modulpaletten till vänster om experimentarbetsytan i Machine Learning Studio (klassisk). Du kan använda någon av dessa datauppsättningar i ditt eget experiment genom att dra den till experimentarbetsytan.

Datauppsättningar

Namn på datauppsättning	Beskrivning av datauppsättning
Datauppsättning för binär klassificering av vuxnas censusinkomster	En delmängd av 1994 års folkräkningsdatabas med arbetande vuxna över 16 år med ett justerat inkomstindex på > 100. Användning: Klassificera personer som använder demografi för att förutsäga om en person tjänar över 50 000 om året. Relaterad forskning: Kohavi, R., Becker, B., (1996). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Datauppsättning för flygplatskoder	Amerikanska flygplatskoder. Den här datamängden innehåller en rad för varje amerikansk flygplats, vilket ger flygplats-ID-numret och namnet tillsammans med platsstad och delstat.
Prisdata för bilar (rådata)	Information om bilar efter märke och modell, inklusive priset, funktioner som antalet cylindrar och MPG, samt en försäkringsriskpoäng. Riskpoängen är initialt associerad med bilpris. Den justeras sedan för faktisk risk i en process som aktuarier kallar symbolisering. Värdet +3 anger att det automatiska värdet är riskabelt och värdet -3 att det förmodligen är säkert. Användning: Förutsäga riskpoängen efter funktioner med hjälp av regression eller multivariatklassificering. Relaterad forskning: Schlimmer, J.C. (1987). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
UCI-datauppsättning för cykeluthyrning	UCI Bike Rental-datauppsättning som baseras på verkliga data från Capital Bikeshare-företaget som underhåller ett cykeluthyrningsnätverk i Washington DC. Datauppsättningen har en rad för varje timme varje dag 2011 och 2012, totalt 17 379 rader. Antalet cykeluthyrningar per timme är från 1 till 977.
Bill Gates RGB-avbildning	Offentligt tillgänglig bildfil konverterad till CSV-data. Koden för att omvandla bilden finns på detaljsidan för modellen Färgkvantisering med K-Means-klustring.
Blodgivningsdata	En delmängd av data från blodgivardatabasen i Blood Transfusion Service Center i Hsin-Chu City, Taiwan. Donatordata omfattar månaderna sedan den senaste donationen), och frekvens, eller det totala antalet donationer, tid sedan den senaste donationen och mängden blod som donerades. Användning: Målet är att via klassificering förutsäga om givaren donerade blod i mars 2007, där 1 indikerar en donator under målperioden, och 0 en icke-donator. Relaterad forskning: Yeh, I.C., (2008). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science Yeh, I-Cheng, Yang, King-Jang, och Ting, Tao-Ming, "Kunskapsupptäckt på RFM-modell med hjälp av Bernoulli-sekvens," Expert Systems with Applications, 2008, https://dx.doi.org/10.1016/j.eswa.2008.07.018
Bröstcancerdata	En av tre cancerrelaterade datamängder som tillhandahålls av Oncology Institute som förekommer ofta i maskininlärningslitteratur. Kombinerar diagnostisk information med funktioner från laboratorieanalys av cirka 300 vävnadsprover. Användning: Klassificera typen av cancer, baserat på 9 attribut, varav vissa är linjära och vissa är kategoriska. Relaterad forskning: Wohlberg, W.H., Street, W.N., & Mangasarian, O.L. (1995). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Bröstcancer egenskaper	Datamängden innehåller information för 102 000 misstänkta regioner (kandidater) av röntgenbilder, som var och en beskrivs av 117 funktioner. Funktionerna är patentskyddade och deras innebörd avslöjas inte av datamängdsskaparna (Siemens Healthcare).
Information om bröstcancer	Datamängden innehåller ytterligare information för varje misstänkt region med röntgenbild. Varje exempel innehåller information (till exempel etikett, patient-ID, koordinater för patch i förhållande till hela bilden) om det motsvarande radnumret i bröstcancerfunktionsdatauppsättningen. Varje patient har ett antal exempel. För patienter som har en cancer är vissa exempel positiva och vissa är negativa. För patienter som inte har cancer är alla exempel negativa. Datamängden har 102 000 exempel. Datamängden är partisk, 0,6 % av punkterna är positiva, resten är negativa. Datamängden gjordes tillgänglig av Siemens Healthcare.
Delade CRM-intresseetiketter	Etiketter från KDD Cup 2009-utmaningen för förutsägelse av kundrelationer (orange_small_train_appetency.labels).
Gemensamma CRM-kundbortfallsetiketter	Etiketter från kundrelationsförutsägelseutmaningen i KDD Cup 2009 (orange_small_train_churn.labels).
CRM-dataset delad	Dessa data härrör från prediktionsutmaningen KDD Cup 2009 för kundrelationer (orange_small_train.data.zip). Datamängden innehåller 50 000 kunder från det franska telekomföretaget Orange. Varje kund har 230 anonymiserade funktioner, varav 190 är numeriska och 40 är kategoriska. Egenskaperna är mycket sparsamma.
Delade CRM-märknings etiketter för merförsäljning	Etiketter från KDD Cup 2009-utmaningen för förutsägelse av kundrelationer (orange_large_train_upselling.labels).
Regressionsdata för energieffektivitet	En samling simulerade energiprofiler baserade på 12 olika byggnadsformer. Byggnaderna särskiljs av åtta funktioner. Detta inkluderar glasyta, fördelningen av glasytan och orientering. Användning: Använd antingen regression eller klassificering för att förutsäga energieffektivitetsklassificeringen baserat på ett av två verkliga värdesvar. För klassificering med flera klasser avrundas svarsvariabeln till närmaste heltal. Relaterad forskning: Xifara, A. & Tsanas, A. (2012). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Data om flygförseningar	Punktlighetsdata för passagerarflyg hämtade från TranStats-datainsamlingen från U.S. Department of Transportation (On-Time). Datamängden omfattar tidsperioden april-oktober 2013. Innan du överförde till Machine Learning Studio (klassisk) bearbetades datauppsättningen på följande sätt: Datamängden filtrerades för att endast täcka de 70 mest trafikerade flygplatserna i kontinentala USA Inställda flyg betecknades som försenade med mer än 15 minuter Omdirigerade flygningar filtrerades bort Följande kolumner valdes: Year, Month, DayofMonth, DayOfWeek, Carrier, OriginAirportID, DestAirportID, CRSDepTime, DepDelay, DepDel15, CRSArrTime, ArrDelay, ArrDel15, Canceled
Prestanda för flyg i tid (raw)	Register över flyg ankomster och avgångar inom USA från oktober 2011. Användning: Förutsäga flygförseningar. Relaterad forskning: Från US Dept. of Transportation https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time.
Data om skogsbränder	Innehåller väderdata, till exempel temperatur- och luftfuktighetsindex och vindhastighet. Uppgifterna hämtas från ett område i nordöstra Portugal, i kombination med register över skogsbränder. Användning: Detta är en svår regressionsuppgift, där syftet är att förutsäga det brända området med skogsbränder. Relaterad forskning: Cortez, P., & Morais, A. (2008). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science [Cortez och Morais, 2007] P. Cortez och A. Morais. En datautvinningsmetod för att förutsäga skogsbränder med meteorologiska data. I J. Neves, M. F. Santos och J. Machado Eds., Nya trender inom artificiell intelligens, Proceedings of the 13th EPIA 2007 - Portuguese Conference on Artificial Intelligence, December, Guimarães, Portugal, pp. 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9. Finns på: http://www.dsi.uminho.pt/~pcortez/fires.pdf.
UCI-datauppsättning för tyska kreditkort	Datamängden UCI Statlog (Tyska kreditdata) (Statlog+German+Credit+Data) med användning av filen german.data. Datauppsättningen klassificerar personer, som beskrivs av en uppsättning attribut, som låg eller hög kreditrisk. Varje exempel representerar en person. Det finns 20 funktioner, både numeriska och kategoriska, och en binär etikett (kreditriskvärdet). Poster med hög kreditrisk har etikett 2, poster med låg kreditrisk har etikett 1. Kostnaden för att felklassificera ett lågriskexempel som högrisk är 1, medan kostnaden för att felklassificera ett högriskexempel som lågrisk är 5.
IMDB-filmtitlar	Datamängden innehåller information om filmer som har betygsatts i Twitter-tweets: IMDB-film-ID, filmnamn, genre och produktionsår. Det finns 17 000 filmer i datamängden. Datamängden introducerades i artikeln "S. Dooms, T. De Pessemier och L. Martens. MovieTweetings: en filmklassificeringsdatauppsättning som samlats in från Twitter. Workshop om crowdsourcing och mänsklig beräkning för rekommendationssystem, CrowdRec på RecSys 2013.
Två klassdata i Iris	Detta är kanske den mest kända databasen som finns i mönsterigenkänningslitteraturen. Datamängden är relativt liten och innehåller 50 exempel på var och en av kronbladsmätningarna från tre irissorter. Användning: Förutsäga iris-typen från mätningarna. Relaterad forskning: Fisher, R.A. (1988). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Tweets för film	Datamängden är en utökad version av datauppsättningen Movie Tweetings. Datauppsättningen har 170 000 betyg för filmer, extraherade från välstrukturerade tweets på Twitter. Varje instans representerar en tweet och är en tupler: användar-ID, IMDB-film-ID, betyg, tidsstämpel, antalet gånger bokmärkt samt antalet retweets. Datauppsättningen gjordes tillgänglig av A. Said, S. Dooms, B. Loni och D. Tikk för Recommender Systems Challenge 2014.
MPG-data för olika bilar	Den här datamängden är en något modifierad version av datamängden som tillhandahålls av StatLib-biblioteket vid Carnegie Mellon University. Datamängden användes i American Statistical Association Exposition från 1983. Data visar bränsleförbrukning för olika bilar i miles per gallon. Den innehåller också information som antalet cylindrar, motorförskjutning, hästkrafter, total vikt och acceleration. Användning: Förutsäga bränsleekonomi baserat på tre diskreta attribut med flera värden och fem kontinuerliga attribut. Relaterad forskning: StatLib, Carnegie Mellon University, (1993). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Datamängden för Pima Indians Diabetes med binär klassificering	En delmängd av data från nationalinstitutet för diabetes och matsmältnings- och njursjukdomar. Datamängden filtrerades för att fokusera på kvinnliga patienter med pima-indiskt arv. Uppgifterna omfattar medicinska data som glukos- och insulinnivåer samt livsstilsfaktorer. Användning: Förutsäga om personen har diabetes (binär klassificering). Relaterad forskning: Sigillito, V. (1990). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml". Irvine, CA: University of California, School of Information and Computer Science
Restaurangens kunddata	En uppsättning metadata om kunder, inklusive demografi och inställningar. Användning: Använd den här datamängden, i kombination med de andra två restaurangdatauppsättningarna, för att träna och testa ett rekommenderande system. Relaterad forskning: Bache, K. och Lichman, M. (2013). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science.
Restaurangens funktionsdata	En uppsättning metadata om restauranger och deras funktioner, till exempel mattyp, matstil och plats. Användning: Använd den här datamängden, i kombination med de andra två restaurangdatauppsättningarna, för att träna och testa ett rekommenderande system. Relaterad forskning: Bache, K. och Lichman, M. (2013). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science.
Restaurangbetyg	Innehåller omdömen från användare till restauranger i en skala från 0 till 2. Användning: Använd den här datamängden, i kombination med de andra två restaurangdatauppsättningarna, för att träna och testa ett rekommenderande system. Relaterad forskning: Bache, K. och Lichman, M. (2013). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science.
Steel Annealing datauppsättning för flera klasser	Det här datasetet innehåller en serie poster från försök med utglödning av stål. Den innehåller de fysiska attributen (bredd, tjocklek, typ (spole, plåt osv.) av de resulterande ståltyperna. Användning: Förutsäga något av två numeriska klassattribut, hårdhet eller styrka. Du kan också analysera korrelationer mellan attribut. Stålkvaliteter följer en fast standard som definieras av SAE och andra organisationer. Du letar efter ett specifikt "betyg" (klassvariabeln) och vill förstå de värden som behövs. Relaterad forskning: Sterling, D. & Buntine, W. (NA). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science En användbar guide till stål kvaliteter finns här: https://www.steamforum.com/pictures/Outokumpu-steel-grades-properties-global-standards.pdf
Teleskopdata	Dokumentation av högenergi-gammapartikelutbrott tillsammans med bakgrundsljud, båda simulerade med hjälp av en Monte Carlo-process. Avsikten med simuleringen var att förbättra noggrannheten hos markbaserade atmosfäriska Cherenkov gammateleskop. Detta görs genom att använda statistiska metoder för att skilja mellan den önskade signalen (Cherenkov strålning duschar) och bakgrundsbrus (hadroniska duschar initieras av kosmiska strålar i den övre atmosfären). Data har förbehandlats för att skapa ett långsträckt kluster med den långa axeln riktad mot kameracentret. Egenskaperna för den här ellipsen (kallas ofta Hillas-parametrar) är bland de bildparametrar som kan användas för diskriminering. Användning: Förutsäga om bilden av en dusch representerar signal- eller bakgrundsbrus. Anmärkningar: Enkel klassificeringsnoggrannhet är inte meningsfull för dessa data, eftersom klassificering av en bakgrundshändelse som signal är sämre än att klassificera en signalhändelse som bakgrund. För jämförelse av olika klassificerare bör ROC-grafen användas. Sannolikheten att acceptera en bakgrundshändelse som signal måste ligga under något av följande tröskelvärden: 0,01, 0,02, 0,05, 0,1 eller 0,2. Observera också att antalet bakgrundshändelser (h, för hadroniska duschar) är underskattat. I verkliga mätningar representerar klassen h eller noise majoriteten av händelserna. Relaterad forskning: Bock, R.K. (1995). UCI Machine Learning-lagringsplats https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information
Väderdatauppsättning	Landbaserade väderobservationer varje timme från NOAA (sammanfogade data från 201304 till 201310). Väderdata omfattar observationer från flygplatsens väderstationer som täcker tidsperioden april-oktober 2013. Innan du överförde till Machine Learning Studio (klassisk) bearbetades datauppsättningen på följande sätt: Väderstations-ID:n mappades till motsvarande flygplats-ID:n Väderstationer som inte är associerade med de 70 mest trafikerade flygplatserna filtrerades bort Kolumnen Datum delades upp i separata kolumner för år, månad och dag Följande kolumner har valts: AirportID, Year, Month, Day, Time, TimeZone, SkyCondition, Sikt, Vädertyp, Torr temperatur i Fahrenheit, Torr temperatur i Celsius, Våt temperatur i Fahrenheit, Våt temperatur i Celsius, Daggpunkt i Fahrenheit, Daggpunkt i Celsius, Relativ luftfuktighet, Vindhastighet, Vindriktning, Värde för vindelement, Stationslufttryck, Trycktendens, Tryckändring, Lufttryck vid havsytan, Posttyp, Timvis nederbörd, Altimeter
Wikipedia SP 500-datauppsättning	Data härleds från Wikipedia (https://www.wikipedia.org/) baserat på artiklar från varje S&P 500-företag som lagras som XML-data. Innan du överförde till Machine Learning Studio (klassisk) bearbetades datauppsättningen på följande sätt: Extrahera textinnehåll för varje specifikt företag Ta bort wiki-formatering Ta bort icke-alfanumeriska tecken Konvertera all text till gemener Kända företagskategorier har lagts till Observera att det inte gick att hitta en artikel för vissa företag, så antalet poster är mindre än 500.
direct_marketing.csv	Datamängden innehåller kunddata och indikationer om deras svar på en direktutskickskampanj. Varje rad representerar en kund. Datamängden innehåller nio funktioner om användardemografi och tidigare beteende samt tre etikettkolumner (besök, konvertering och utgifter). Visit är en binär kolumn som anger att en kund har besökt efter marknadsföringskampanjen. Konvertering anger att en kund har köpt något. Utgifter är det belopp som spenderades. Datauppsättningen gjordes tillgänglig av Kevin Hillstrom för MineThatData e-postanalys och datautvinningsutmaning.
lyrl2004_tokens_test.csv	Egenskaper hos testexempel i Reuters nyhetsdatauppsättning RCV1-V2. Datamängden har 781 000 nyhetsartiklar tillsammans med sina ID (första kolumnen i datamängden). Varje artikel är tokeniserad, stoppordbefriad och stammande. Datamängden gjordes tillgänglig av David. D. Lewis.
lyrl2004_tokens_train.csv	Egenskaper hos träningsdata i nyhetsdatauppsättningen RCV1-V2 från Reuters. Datamängden har 23 000 nyhetsartiklar och deras ID:n (den första kolumnen i datamängden). Varje artikel är tokeniserad, stoppordbefriad och stammande. Datamängden gjordes tillgänglig av David. D. Lewis.
network_intrusion_detection.csv	Datamängd från KDD Cup 1999 Knowledge Discovery and Data Mining Tools Competition (kddcup99.html). Datamängden laddades ned och lagrades i Azure Blob Storage (network_intrusion_detection.csv) och innehåller både tränings- och testningsdatauppsättningar. Träningsdatauppsättningen har cirka 126 000 rader och 43 kolumner, inklusive etiketterna. Tre kolumner ingår i etikettinformationen och 40 kolumner, som består av numeriska och sträng-/kategoriska funktioner, är tillgängliga för träning av modellen. Testdata har cirka 22,5 000 testexempel med samma 43 kolumner som i träningsdata.
rcv1-v2.topics.qrels.csv	Ämnestilldelningar för nyhetsartiklar i nyhetsdatauppsättningen RCV1-V2 Reuters. En nyhetsartikel kan tilldelas till flera ämnen. Formatet för varje rad är "<ämnesnamn><dokument-ID> 1". Datamängden innehåller 2,6 miljoner ämnestilldelningar. Datamängden gjordes tillgänglig av David. D. Lewis.
student_performance.txt	Dessa data kommer från KDD Cup 2010 Student performance evaluation challenge (utvärdering av elevprestanda). De data som används är Algebra_2008_2009 träningsuppsättningen (Stamper, J., Niculescu-Mizil, A., Ritter, S., Gordon, G.J., & Koedinger, K.R. (2010). Algebra I 2008-2009. Utmaningsdatauppsättning från KDD Cup 2010 Educational Data Mining Challenge. Hitta den på downloads.jsp. Datamängden laddades ned och lagrades i Azure Blob Storage (student_performance.txt) och innehåller loggfiler från ett elevhandledaresystem. De angivna funktionerna omfattar problem-ID och dess korta beskrivning, elev-ID, tidsstämpel och hur många försök eleven gjorde innan han eller hon löste problemet på rätt sätt. Den ursprungliga datamängden har 8,9 miljoner poster. Den här datamängden har tagits ned till de första 100 000 raderna. Datauppsättningen har 23 flikavgränsade kolumner av olika typer: numeriska, kategoriska och tidsstämpel.

Nästa steg

Kickstarta experimenten med exempel

Last updated on 2018-01-19

Dela via

Använda exempeldatauppsättningarna i Machine Learning Studio (klassisk)

Datauppsättningar

Nästa steg

Ytterligare resurser