Ennustemallin suorituskyky
Kunkin koulutuskerran jälkeen AI Builder arvioi testitietojoukon avulla uuden mallin laadun ja sopivuuden. Mallin yhteenvetosivulla näkyy mallin koulutustulos. Nämä tulokset ilmaistaan suorituskykyluokilla A, B, C tai D.
AI Builder näyttää kunkin koulutuksen jälkeen luokituksen, joka auttaa arvioimaan mallin tarkkuutta. Päätös mallin julkaisuvalmiudesta on tehtävä omien yksilöllisten tarpeiden ja olosuhteiden mukaan. AI Builder sisältää seuraavat suorituskykyluokitukset päätöksen tueksi.
Luokka | Ohjeet |
---|---|
A | Mallia voi ehkä vielä parantaa, mutta tämä on paras luokka, jonka voi saada. |
B | Malli toimii oikein useimmissa tapauksissa. Voiko sitä vielä parantaa? Se määräytyy omien olosuhteiden, tietojen ja tarpeiden mukaan. |
C | Malli toimii hieman satunnaisarvausta paremmin. Joissakin sovelluksissa se voitaisiin ehkä hyväksyä, mutta useimmissa tapauksissa tämä on sellainen malli, jota on vielä kehitettävä ja parannettava. |
D | Jokin on vialla. Malli toimii joko huonommin kuin satunnaisarvaukselta voisi odottaa (underfit-malli). Tai se suoriutuu niin hyvin (100 % tai lähelle sitä), että sinulla on todennäköisesti tietosarake, joka korreloi suoraan tulokseen (overfit-malli). |
- Lisätietoja underfit-malleista
- Lisätietoja overfit-malleista
Jos ennustettavia tuloksia on enemmän kuin kaksi, edellä olevia luokkia vastaavat todelliset tarkkuusarvot voivat vaihdella historiatietojen jakautumisen mukaan. Ero liittyy siihen, että parannus lähtöarvoon verrattuna muuttuu, kun siirrät tätä lähtöarvoa.
Oletetaan, että mallissa ennustetaan sitä, saapuuko lähetys ajallaan. Jos historiallinen ajallaan-arvosi on 80%, 92 %:n suorituskykypistemääräsi vastaisi B-arvosanaa. Mutta jos historiallinen ajallaan-arvosi on vain 50%, 92 % vastaisi A-arvosanaa. Tämä johtuu siitä, että 92 % on paljon suurempi parannus verrattuna 50%:iin kuin verrattuna 80%:iin, ja satunnainen arvaus olisi paljon lähempänä näitä prosenttimääriä.
Tämä esimerkki näyttää tarkkuusalueet jokaiselle luokalle, kun historialliset tiedot sisältävät erilaisia ajallaan-arvoja binaariennusteelle.
Luokka | Tarkkuusalue, kun historiallinen ajallaan-arvo on 25 % | Tarkkuusalue, kun historiallinen ajallaan-arvo on 50 % | Tarkkuusalue, kun historiallinen ajallaan-arvo on 80 % | Tarkkuusalue, kun historiallinen ajallaan-arvo on 95 % |
---|---|---|---|---|
A | 92,5 – <99,3 % | 90 – 98 % | 93 – <99 % | 98,1 – <99,8 % |
B | 81,3 – <92,5 % | 75 – <90 % | 84 – <93 % | 95,3 – <98,1 % |
C | 66,3 – <81,3 % | 55 – <75 % | 71 – <84 % | 91,5 – <95,3 % |
D | <66,3 % tai ≥99,3 % | <55 % tai ≥98 % | <71 % tai ≥99 % | <91,5 % tai ≥99,8 % |
Kutakin luokkaa vastaavat tarkkuusarvot voivat myös vaihdella, kun ennustettavia tuloksia on enemmän kuin kaksi. Oletetaan, että malli ennustaa toimituksella enemmän kuin kaksi toimitusvaihtoehtoa: etuajassa, aikataulussa tai myöhässä.
Kunkin luokan tarkkuusalueet muuttuvat historiallisten etuajassa-arvojen muuttuessa.
Luokka | Etuajassa (33,3 %) | Etuajassa (20 %) | Etuajassa (10 %) |
---|---|---|---|
Aikataulussa (33,3 %) | Aikataulussa (40 %) | Aikataulussa (80 %) | |
Myöhässä (33,4 %) | Myöhässä (40 %) | Myöhässä (10 %) | |
A | 86,7 – <98,7 % | 87,2 – <98,7 % | 93,2 – <99,3 % |
B | 66,7 – <86,7 % | 68,0 – <87,2 % | 83,0 – <93,2 % |
C | 40,0 – <66,7 % | 42,4 – <68,0 % | 69,4 – <83,0 % |
D | 33,3 – <40,0 % | 36,0 – <42,4 % | 66,0 – <69,4 % |
AI Builder käyttää numeerisessa ennusteessa tilastollista determinaatiokerrointa mallien tarkkuusluokitusten laskemiseen. Seuraava taulukko sisältää kutakin luokkaa vastaavat arvot:
Luokka | Determinaatiokerroin |
---|---|
A | 85 % – <99 % |
B | 60 % – <85 % |
C | 10 % – <60 % |
D | ≥99 % tai <10 % |
Kun haluat lisätietoja koulutuksesta, valitse Näytä tiedot mallin luokkaruudussa. Suorituskyky-välilehdessä on seuraavat tiedot:
Huomautus
Lisätietoja suunnitelluista tätä aluetta koskevista lisätoiminnoista on julkaisusuunnitelmissa.
- Tarkkuuspisteet
- Determinaatiokerroin
AI Builder laskee mallin tarkkuuspisteet testitietojoukon ennustustuloksen perusteella. Ennen koulutusta AI Builder jakaa tietojoukon erillisiin koulutustieto- ja testaustietojoukkoihin. Koulutuksen jälkeen AI Builder käyttää tekoälymallia testaustietojoukkoon ja laskee sitten tarkkuuspisteet. Esimerkki: jos testitietojoukossa on 200 riviä ja AI Builder ennustaa niistä 192 oikein, AI Builderin näyttää tarkkuuspisteiksi 96 prosenttia.
Lisätietoja on kohdassa Mallin arvioiminen.
Numeerisessa ennusteessa AI Builder laskee determinaatiokertoimen kunkin koulutuksen jälkeen. Tämä arvo mittaa mallin sopivuutta, ja mallin suorituskykyluokitus määritetään sen perusteella.
Oletetaan, että ennustetaan, kuinka monta päivää tarvitaan tilauksen täyttämiseen, lähettämiseen ja toimittamiseen. Malli ennustaa joukon lukuja. Korrelaatioarvo perustuu ennustettujen arvojen ja todellisten arvojen välisen eron koulutustiedoissa. Se ilmaistaan lukuna 0–100 %, jossa suuret arvot ilmaisevat, että ennustettu arvo on lähempänä todellista arvoa. Yleensä suurempi pistemäärä tarkoittaa, että malli toimii paremmin. Muista kuitenkin, että täydelliset tai lähes täydelliset pistemäärät (overfit-mallit) tarkoittavat yleensä, että koulutustiedoissa on ongelma.
Yhteenveto-välilehdessä on seuraavat suorituskykytiedot:
- Koulutuspäivä
- Tietolähde
- Historiallinen tulos
- Ennusteessa käytettävä taulukkoluettelo.
Kun olet kouluttanut ja arvioinut mallin, on aika muokata mallia ja parantaa sen suorituskykyä. Mallin ennustustehoa voi yrittää parantaa esimerkiksi alla mainituilla tavoilla.
- Jos koulutuksen jälkeen löytyy virheitä, korjaa ne ja kouluta malli uudelleen.
- Jos virheitä ei ole, tarkista koulutuksen tiedot. Yritä ratkaista mahdollisimman monta ongelmaa ja kouluta malli sitten uudelleen.
Kunkin koulutuksen jälkeen mallin tietosivulle tulee näkyviin luettelo tärkeimmistä vaikuttajista. Jokaisella koulutuksessa käytetyllä sarakkeella on pistearvo, joka ilmaisee kentän vaikutuksen koulutukseen. Näiden pisteiden kokonaissumma on 100 prosenttia.
Näin voit selvittää, onko mallisi koulutettu odotustesi mukaisesti. Jos esimerkiksi haluat ennustaa online-ostajien tarkoituksen ja odotat Ikä- ja Tuote-sarakkeiden olevan vaikuttavimipia, se pitäisi nähdä mallin tietosivun vaikuttavimpien sarakkeiden luettelossa. Muussa tapauksessa koulutuksen tulos saattoi poiketa oletetusta. Tässä tapauksessa voit joko poistaa merkityksettömien tai harhaanjohtavien sarakkeiden valinnan sekä kouluttaa mallin uudelleen tai tarkistaa koulutukseen liittyvät ongelmat, niin että saat lisätietoja.
Koulutustietojen vähimmäisvaatimus on 50 riviä, mikä ei kuitenkaan tarkoita, että 50 tietoriviä riittäisi erittäin ennustavan mallin kouluttamiseen. Yritä antaa vähintään 1 000 tietoriviä, jotka on otsikoitu oikein ja joissa vaihtoehdot ovat jakautuneet realistisesti.
Jos esimerkiksi käytät kahta vaihtoehdon otsikkoa (Kyllä ja Ei) ja suurimmalla osalla tietoriveistä tässä kentässä on vain Kyllä, mallin on vaikea oppia tämän datan perusteella. Yritä järjestää niin, että asetusten jakautuminen datassa vastaa suunnilleen todellista asetusten jakautumista. Jos esimerkiksi tutkit datasarakkeita kissan_omistaja ja koiran_omistaja, käytä datan jakautumisarvona suunnilleen 50 prosenttia. Jos etsit vilpillisiä tapahtumia, käytä epätasapainoisempaa jakautumista – esimerkiksi 95 %–5 %. Etsi tällaisia tietoja alan standardeista, jos et tiedä, mitä pitäisi odottaa.
Haluat ehkä esimerkiksi ennustaa, mikä asiakas todennäköisimmin palaa ostamaan tuotteitasi. Voit lisätä sarakkeita, jotta koulutustiedot ovat monipuolisempia. Esimerkkejä:
- Kuinka asiakas arvioi tuotteen?
- Kuinka paljon asiakas käyttää tuotetta?
- Onko kyseessä nykyinen asiakas?
Hallussasi saattaa olla jo paljon oikein nimettyjä koulutustietoja, joihin liittyy paljon tietosarakkeita. Miksi malli ei sitten kuitenkaan toimi kunnolla? Saattaa olla, että olet valinnut sarakkeita, jotka johtavat ei-toivottuun painotukseen. Varmista, että kaikki valitsemasi sarakkeet osaltaan vaikuttavat siihen, mitä haluat ennustaa. Poista merkityksettömät tai harhaanjohtavat sarakkeet.
- Varmista, että tietosarakkeissa ei ole suurta määrää puuttuvia arvoja (enemmän kuin 99 prosenttia). Täytä puuttuvat arvot oletusdatalla tai poista tietosarake mallin koulutuksesta.
- Jos tietosarake korreloi vahvasti ennusteen tuloksen kanssa, poista tietosarake mallin kouluttamisesta.