Ефективност на модела за прогнозиране
След всяко обучение използва набора от тестови данни, AI Builder за да оцени качеството и прилягането на новия модел. Страница с резюме за вашия модел показва резултата от обучението на вашия модел. Тези резултати се изразяват като степен на изпълнение A, B, C или D.
Измерване на ефективността
Оценка за производителност
След всяко обучение показва оценка, AI Builder която да ви помогне да оцените точността на вашия модел. Решението дали вашият модел е готов за публикуване е това, което трябва да направите въз основа на вашите уникални нужди и обстоятелства. AI Builder предоставя следните оценки на ефективността, за да ви помогне да направите това повикване за преценка.
Как да тълкуваме всеки клас
Grade | Насоки |
---|---|
A | Все още е възможно да се подобри моделът, но това е най-добрата оценка, която можете да получите. |
B | Моделът е правилен в много от случаите. Може ли да бъде подобрена? Това зависи от вашите уникални обстоятелства, данни и изисквания. |
C | Моделът се справя малко по-добре от случайно предположение. Може да е приемливо за някои приложения, но в повечето случаи това е модел, който ще продължите да променяте и подобрявате. |
D | Нещо не е наред. Вашият модел или се представя по-зле, отколкото бихме очаквали да се представи случайно предположение (модел на underfit). Или се представя толкова добре (на или близо до 100%), че вероятно имате колона с данни, която е пряко свързана с резултата (overfit модел). |
- Повече информация за underfit моделите
- Повече информация за overfit моделите
Диапазонът на точност варира в зависимост от вашите данни
Ако прогнозирате 2 или повече резултата, действителните проценти на точност, които съответстват на горните оценки, могат да варират в зависимост от разпределението на данните от вашите исторически данни. Разликата се дължи на факта, че подобрението спрямо базовата ви честота се променя, когато преместите тази базова линия.
Да предположим, че вашият модел прогнозира дали пратката ще пристигне навреме. Ако историческата ви навременна ставка е 80 процента, оценка на ефективността от 92 би съответствала на степен B. Но ако вашият исторически процент на време е само 50 процента, 92 ще съответства на степен А. Това е така, защото 92 е много по-добро подобрение над 50 процента, отколкото е над 80 процента, и бихте очаквали случайно предположение да е близо до тези проценти.
Пример за двоични исторически данни
Този пример показва диапазоните на точност за всяка степен, когато историческите данни съдържат различни времеви ставки за двоичен прогноза.
Grade | Диапазон на точност за исторически 25% навременна ставка | Диапазон на точност за исторически 50% навременна ставка | Диапазон на точност за исторически 80% навременна скорост | Диапазон на точност за исторически 95% навременна скорост |
---|---|---|---|---|
A | 92.5 – <99.3% | 90 – 98% | 93 – < 99% | 98.1 – < 99.8% |
B | 81.3 – <92.5% | 75 – < 90% | 84 – < 93% | 95.3 – <98.1% |
C | 66.3 – <81.3% | 55 – < 75% | 71 – < 84% | 91.5 – <95.3% |
D | <66,3% или ≥99,3% | <55% или ≥98% | <71% или ≥99% | <91,5% или ≥99,8% |
Пример за данни за множество резултати
Степента на точност, която съответства на всяка степен, също може да варира, когато прогнозирате повече от 2 резултата. Да предположим, че вашият модел прогнозира повече от две възможности за доставка: рано, навреме или късно.
Диапазоните на точност за всяка степен се променят, когато историческите ви навременни проценти се променят.
Grade | Рано (33,3%) | Рано (20%) | Рано (10%) |
---|---|---|---|
Навреме (33.3%) | Навреме (40%) | Навреме (80%) | |
Късно (33.4%) | Късно (40%) | Късно (10%) | |
A | 86.7 – <98.7% | 87.2 – <98.7% | 93.2 – <99.3% |
B | 66.7 – <86.7% | 68.0 – <87.2% | 83.0 – <93.2% |
C | 40.0 – <66.7% | 42.4 – <68.0% | 69.4 – <83.0% |
D | 33.3 – <40.0% | 36.0 – <42.4% | 66.0 – <69.4% |
Числов пример за прогноза
За числени прогноза AI Builder използва статистическата мярка R на квадрат, за да изчисли степента на точност на вашите модели. Следната таблица показва оценките, които съответстват на всяка степен:
Grade | R на квадрат |
---|---|
A | 85% - <99% |
B | 60% - <85% |
C | 10% - <60% |
D | ≥99% или <10% |
Подробности за производителността
За подробности относно обучението изберете Вижте подробности в полето за оценка на модела. В раздела Производителност е налична следната информация:
Бележка
За информация относно допълнителни функции, планирани за тази област, вижте планове за издаване.
- Оценка на точността
- R на квадрат
Оценка на точността
AI Builder изчислява оценката за точност за вашия модел въз основа прогноза резултат от набора от тестови данни. Преди обучението AI Builder разделя набора от данни в отделни данни за обучение и набори от данни за тестване. И след обучение, AI Builder прилага вашия AI модел към тестовия набор от данни и след това изчислява резултата ви за точност. Например: ако вашият набор от тестови данни има 200 реда и AI Builder правилно прогнозира 192 от тях, AI Builder показва оценка за точност от 96 процента.
За повече информация вижте Оценка на вашия модел.
R на квадрат
За числови прогноза, AI Builder изчислява r-квадрат резултат след всяко обучение. Този резултат измерва "добротата на прилягане" на вашия модел и се използва за определяне на степента на изпълнение на вашия модел.
Да предположим, че прогнозирате броя на дните за изпълнение, изпращане и доставяне на поръчка. Моделът прогнозира набор от числа. Стойността на r на квадрат се основава на разстоянията между прогнозираните стойности и действителните стойности във вашите данни за обучение. Това се изразява като число между 0 – 100%, като по-високите стойности показват, че прогнозната стойност е по-близка до реалната стойност. Обикновено по-високият резултат означава, че моделът се представя по-добре. Не забравяйте обаче, че перфектните или почти перфектни резултати (overfit модели) обикновено са показателни за проблем с вашите данни за обучение.
В раздела Резюме е налична следната информация за ефективността:
- Дата на обучение
- Източник на данни
- Исторически резултат
- Табличен списък, използван за прогноза.
Подобрете производителността на прогноза си модел
След като сте обучили и оценили модела си, е време да промените модела си, за да подобрите ефективността му. Ето някои неща, които можете да опитате, за да подобрите прогнозната сила на вашия модел.
Преглед на грешки и проблеми
- Ако има някакви грешки, след като приключите с обучението, поправете ги и преквалифицирайте модела.
- Ако няма грешки, проверете подробностите за обучението. Опитайте се да се справите с възможно най-много въпроси и след това преквалифицирайте модела.
Преглед на топ инфлуенсърите
След всяко обучение на страницата с подробности за модела се появява списък с топ инфлуенсъри. Всяка колона, използвана в обучението, има резултат, който представя нейното влияние върху обучението. Тези резултати се комбинират, за да се равняват на 100 процента.
Това помага да се покаже дали вашият модел е обучен, както очаквате. Например, ако искате да предскажете намерението на онлайн купувачите и очаквате Age, Product като най-влиятелната колона, трябва да видите това в списъка с най-влиятелните колони в страницата с подробности за модела. Ако не, това може да означава, че резултатът от обучението не е такъв, какъвто се очаква. В този случай можете или да премахнете избора на неподходящи или подвеждащи колони и да преквалифицирате модела, или да проверите проблемите си с обучението, за да видите повече подробности.
Добавяне на още данни
Минималното изискване за данни за обучение е 50 реда, но това не означава, че 50 реда с данни ще обучат силно предсказуем модел. Опитайте се да предоставите 1000 или повече реда с данни, правилно обозначени, с реалистично разпределение между опциите.
Проверете разпределението на данните си
Ако например използвате два етикета на опции " Да" или "Не " и повечето от вашите редове с данни иматсамо "Да " в тази колона, за вашия модел е трудно да се поучи от тези данни. Опитайте се да имате разпределение на опциите в данните си, което приблизително отразява разпределението на опциите, които може да очаквате да видите. Например, ако разглеждате колони с данни за cat_owner и dog_owner, използвайте разпределение на данни някъде около 50 процента. Ако разглеждате измамни транзакции, използвайте по-небалансирано разпределение – може би 95 процента до 5 процента. Погледнете индустриалните стандарти за този тип информация, ако не знаете какво да очаквате.
Добавяне на още колона
Например, искате да предвидите кои клиенти са по-склонни да се върнат и да купят вашите продукти. Можете да добавите още колони, за да направите данните за обучението по-богати. Например:
- Как оценяват продукта?
- Колко използват продукта?
- Съществуващ клиент ли е?
Стесняване на избраните колони до съответната информация
Може би вече имате много правилно обозначени данни за обучение с много колони с данни. Тогава защо моделът все още не може да се представи добре? Може да се окаже, че избирате колони, които водят до нежелани пристрастия. Уверете се, че всички колони, които избирате, са подходящи, за да повлияят на това, което искате да прогнозирате. Премахнете избора на неподходящи или подвеждащи колони.
Проверка на данни
- Уверете се, че колоните с данни нямат висок процент на липсващи стойности (по-голям от 99 процента). Попълнете липсващите стойности с данни по подразбиране или премахнете колоната с данни от обучението по модел.
- Ако колоната с данни има висока корелация с прогноза резултат, премахнете колоната с данни от обучението по модел.