Olvasás angol nyelven

Megosztás a következőn keresztül:


A ML.NET modell fejlesztése

Megtudhatja, hogyan fejlesztheti ML.NET modelljét.

A probléma újrakeretezése

Előfordulhat, hogy a modell fejlesztésének semmi köze a modell betanítása során használt adatokhoz vagy technikákhoz. Ehelyett lehet, hogy csak rossz kérdést tesznek fel. A kérdés pontosítása érdekében fontolja meg a probléma különböző szögekből való megtekintését, és az adatok használatával nyerjen ki látens mutatókat és rejtett kapcsolatokat.

További adatminták megadása

Az emberekhez hasonlóan minél több betanítási algoritmust kapnak, annál nagyobb a jobb teljesítmény valószínűsége. A modell teljesítményének javításának egyik módja, ha több betanítási adatmintát biztosít az algoritmusoknak. Minél több adatból tanul, annál több esetet képes megfelelően azonosítani.

Környezet hozzáadása az adatokhoz

Az egyetlen adatpont jelentését nehéz lehet értelmezni. Az adatpontok környezetének kialakítása segít az algoritmusoknak és a témaszakértőknek a döntéshozatalban. Például az a tény, hogy egy ház három hálószobával rendelkezik, önmagában nem jó jelzést ad az árára. Ha azonban kontextust ad hozzá, és most már tudja, hogy egy külvárosi környéken van egy nagyobb nagyvárosi területen kívül, ahol az átlagéletkor 38, az átlagos háztartási jövedelem 80 000 dollár, és az iskolák a 20. percentilisben vannak, akkor az algoritmus több információval rendelkezik a döntéseinek alapjául. Mindez a környezet jellemzőként adható hozzá a gépi tanulási modell bemenetéhez.

Hasznos adatok és funkciók használata

Bár további adatminták és funkciók segíthetnek a modell pontosságának javításában, zajt is okozhatnak, mivel nem minden adat és funkció értelmezhető. Ezért fontos tisztában lenni azzal, hogy mely funkciók befolyásolják a leginkább az algoritmus által hozott döntéseket. Az olyan technikák használata, mint a Permutation Feature Importance (PFI) segíthet azonosítani ezeket a hasznos funkciókat, és nem csak a modell magyarázatában, hanem a kimenet funkcióválasztási módszerként való használatával csökkentheti a betanítási folyamat zajos funkcióinak mennyiségét.

További információ a PFI használatáról: Modellelőjelzések magyarázata a permutációs funkció fontosságahasználatával.

Keresztérvényesítés

A keresztérvényesítés egy betanítási és modellértékelési technika, amely több partícióra osztja az adatokat, és több algoritmust tanít be ezeken a partíciókon. Ez a technika a betanítási folyamatból származó adatok visszatartásával javítja a modell robusztusságát. A nem látott megfigyelések teljesítményének javítása mellett az adatkorlátozott környezetekben hatékony eszköz lehet a kisebb adatkészlettel rendelkező modellek betanítására.

További információért lásd: Hogyan használható a keresztvalidáció az ML.NET-ben.

Hiperparaméter finomhangolása

A gépi tanulási modellek betanítása iteratív és feltáró folyamat. Például mi az optimális fürtszám, amikor egy modellt a K-Means algoritmussal tanítunk be? A válasz számos tényezőtől függ, például az adatok szerkezetétől. Ennek a számnak a megkereséséhez a k különböző értékeivel kell kísérletezni, majd kiértékelni a teljesítményt annak meghatározásához, hogy melyik érték a legjobb. A betanítási folyamatot az optimális modell megtalálásához vezető paraméterek finomhangolásának gyakorlatát hiperparaméter-finomhangolásnak nevezzük.

Másik algoritmus kiválasztása

A gépi tanulási feladatok, például a regresszió és a besorolás különböző algoritmus-implementációkat tartalmaznak. Előfordulhat, hogy a megoldani kívánt probléma és az adatok strukturálásának módja nem illeszkedik jól az aktuális algoritmusba. Ilyen esetben fontolja meg egy másik algoritmus használatát a feladathoz, hogy megtudja, jobban tanul-e az adatokból.

Az alábbi hivatkozás további útmutatást nyújt arról, hogy melyik algoritmust válassza ki.