Automatiseret ML i Fabric (prøveversion)
AutoML (Automated Machine Learning) gør det muligt for brugerne at bygge og udrulle modeller til maskinel indlæring ved at automatisere de mest tidskrævende og komplekse dele af modeludviklingsprocessen. Traditionelt kræver oprettelse af en model til maskinel indlæring ekspertise inden for datavidenskab, modelvalg, hyperparameterjustering og evaluering – en proces, der kan være ressourcekrævende og udsat for prøveversioner og fejl. AutoML forenkler dette ved automatisk at vælge de bedste algoritmer, justere hyperparametre og generere optimerede modeller baseret på inputdataene og de ønskede resultater.
I Microsoft Fabric bliver AutoML endnu mere effektiv ved at integrere problemfrit med platformens dataøkosystem, så brugerne kan bygge, oplære og udrulle modeller direkte på deres lakehouses. Med AutoML kan både tekniske og ikke-tekniske brugere hurtigt oprette forudsigende modeller, hvilket gør maskinel indlæring tilgængelig for en bredere målgruppe. Fra at forudsige efterspørgslen til at registrere uregelmæssigheder og optimere virksomhedshandlinger fremskynder AutoML i Fabric stien fra rådata til handlingsbaseret indsigt, så brugerne kan udnytte kunstig intelligens med minimal indsats og maksimal indvirkning.
Vigtigt
Denne funktion er en prøveversion.
Hvordan fungerer AutoML?
FLAML (Fast and Lightweight AutoML) driver AutoML-funktionerne i Fabric, så brugerne nemt kan bygge, optimere og udrulle modeller til maskinel indlæring i platformens dataøkosystem.
FLAML er et AutoML-bibliotek med åben kildekode, der er designet til hurtigt at levere nøjagtige modeller ved at fokusere på effektivitet, minimere beregningsomkostninger og dynamisk justere hyperparametre. FLAML automatiserer modelvalg og -optimering bag kulisserne ved hjælp af en ressourceorienteret søgestrategi, der afbalancerer udforskning og udnyttelse for at identificere de bedste modeller uden udtømmende prøveversioner og fejl. Dens adaptive søgeplads og lette algoritmer gør den ideel til store datasæt og begrænsede miljøer og sikrer skalerbar og hurtig ydeevne. Denne integration med Fabric gør maskinel indlæring tilgængelig for både tekniske og ikke-tekniske brugere og fremskynder vejen fra rådata til handlingsorienteret indsigt.
Opgaver i forbindelse med maskinel indlæring
AutoML i Fabric understøtter en lang række opgaver i forbindelse med maskinel indlæring, herunder klassificering, regression og prognoser, hvilket gør den alsidig til forskellige datadrevne programmer.
Binær klassificering
Binær klassificering er en type overvåget maskinel indlæringsopgave, hvor målet er at kategorisere datapunkter i en af to forskellige klasser. Det omfatter oplæring af en model på navngivne data, hvor hver forekomst er tildelt en af to mulige kategorier, og modellen lærer at forudsige den korrekte klasse for nye, usete data. Eksempler er:
- Spamregistrering: Klassificering af mails som enten spam eller ikke spam.
- Registrering af svindel: Markerer finansielle transaktioner som falske eller legitime.
- Sygdomsscreening: Forudsigelse af, om en patient har en tilstand (positiv) eller ej (negativ).
Klassificering i flere klasser
Klassificering i flere klasser for tabeldata omfatter tildeling af et af flere mulige mærkater til hver række med strukturerede data baseret på funktionerne i det pågældende datasæt. Her er nogle eksempler, der er relevante for datasæt i tabelformat i den virkelige verden:
- Kundesegmentering: Klassificering af kunder i segmenter, f.eks. "Høj værdi", "Moderat værdi" eller "Lav værdi" baseret på demografiske data, køb og adfærdsdata.
- Vurdering af lånrisiko: Forudsigelse af risikoniveauet for en låneansøgning som "Lav", "Mellem" eller "Høj" ved hjælp af ansøgerdata, f.eks. indkomst, kreditscore og ansættelsesstatus.
- Forudsigelse af produktkategori: Tildeling af en passende produktkategori, f.eks. "Elektronik", "Tøj" eller "Møbler", baseret på attributter som pris, mærke og produktspecifikationer.
- Sygdomsdiagnosticering: Identifikation af den type sygdom, som en patient kan have, f.eks. "Diabetestype 1", "Diabetestype 2" eller "Svangerskabsdiabetes", baseret på kliniske målepunkter og testresultater.
Disse eksempler fremhæver, hvordan klassificering i flere klasser kan understøtte beslutningstagning i forskellige brancher, hvor resultatet kan tage en af flere kategorier, der gensidigt udelukker hinanden.
Regression
Regression er en type maskinel indlæring, der bruges til at forudsige et tal baseret på andre relaterede data. Det er nyttigt, når vi vil beregne en bestemt værdi, f.eks. en pris, temperatur eller tid, baseret på forskellige faktorer, der kan påvirke den. Her er nogle eksempelscenarier:
- Forudsigelse af huspriser ved hjælp af oplysninger som f.eks. firkantede optagelser, antal værelser og placering.
- Anslå månedligt salg baseret på marketingudgifter, sæsonudsving og tidligere salgstendenser.
Prognoser
Prognose er en maskinel indlæringsteknik, der bruges til at forudsige fremtidige værdier baseret på historiske data. Det er især nyttigt til planlægning og beslutningstagning i situationer, hvor tidligere tendenser og mønstre kan informere om, hvad der sandsynligvis vil ske næste. Prognosen tager tidsbaserede data – også kaldet tidsseriedata – og analyserer mønstre som sæsonudsving, tendenser og cyklusser for at foretage nøjagtige forudsigelser. Her er nogle eksempelscenarier:
- Salgsprognose: Forudsigelse af fremtidige salgstal baseret på tidligere salg, sæsonudsving og markedstendenser.
- Lagerprognoser: Fastlæggelse af den fremtidige efterspørgsel efter produkter ved hjælp af tidligere købsdata og sæsonbestemte cyklusser.
Prognoser hjælper organisationer med at træffe velunderbyggede beslutninger, uanset om det er at sikre tilstrækkeligt lager, planlægge ressourcer eller forberede sig på markedsændringer.
Oplærings- og testdatasæt
Oprettelse af oplærings- og testdatasæt er et vigtigt skridt i opbygningen af modeller til maskinel indlæring. Oplæringsdatasættet bruges til at undervise modellen, så den kan lære mønstre fra navngivne data, mens testdatasættet evaluerer modellens ydeevne på nye, usete data, hvilket hjælper med at kontrollere nøjagtigheden og generaliserbarheden. Opdeling af data på denne måde sikrer, at modellen ikke blot husker, men kan generalisere til andre data.
I Fabric forenkler AutoML-værktøjer denne proces ved automatisk at opdele data i oplærings- og testsæt og tilpasse opdelingen baseret på bedste praksis for den specifikke opgave, f.eks. klassificering, regression eller prognoser.
Funktionskonstruktion
Funktionskonstruktion er processen med at transformere rådata til meningsfulde funktioner, der forbedrer ydeevnen for en model til maskinel indlæring. Det er et vigtigt trin, fordi de rigtige funktioner hjælper modellen med at lære de vigtige mønstre og relationer i dataene at kende, hvilket fører til bedre forudsigelser. I et datasæt med datoer kan oprettelse af funktioner som "er ferie" f.eks. afsløre tendenser, der forbedrer prognoser for modeller.
I Fabric kan brugerne udnytte auto_featurize
funktionaliteten til at automatisere dele af denne proces.
auto_featurize
analyserer dataene og foreslår eller genererer relevante funktioner, f.eks. sammenlægninger, kategorikodninger eller transformationer, der kan forbedre modellens forudsigende effekt. Denne funktionalitet sparer tid og giver mulighed for funktionskonstruktion for brugere med forskellige oplevelsesniveauer, så de kan bygge mere nøjagtige og robuste modeller.