Epizoda
Hluboké učení bez špatného místního minima
with Kenji Kawaguchi
V tomto dokumentu prokážeme konvenci publikovanou v roce 1989 a také částečně řešíme otevřený problém oznámený na Konferenci o teorii učení (COLT) 2015. Pro očekávanou ztrátovou funkci hluboké nelineární neurální sítě prokážeme následující tvrzení podle předpokladu nezávislosti přijatého z poslední práce: 1) funkce není konvexní a nekonkutná, 2) každé místní minimum je globální minimum, 3) každý kritický bod, který není globálním minimem, je sedlový bod a 4) vlastnost sedlových bodů se liší pro mělké sítě (se třemi vrstvami) a hlubší sítě (s více než třemi vrstvami). Kromě toho prokážeme, že stejné čtyři příkazy jsou pro hluboké lineární neurální sítě s jakoukoli hloubkou, jakékoli šířky a žádné nerealistické předpoklady. V důsledku toho představujeme příklad, pro který můžeme odpovědět na následující otázku: jak obtížné přímo trénovat hluboký model teorie? Je obtížnější než klasické modely strojového učení (kvůli nekonvexitě), ale není příliš obtížné (kvůli neexistující místní minima a vlastnosti sedlových bodů). Všimněte si, že i když jsme pokročili teoreticky základy hlubokého učení, stále existuje mezera mezi teoriemi a praxí.
V tomto dokumentu prokážeme konvenci publikovanou v roce 1989 a také částečně řešíme otevřený problém oznámený na Konferenci o teorii učení (COLT) 2015. Pro očekávanou ztrátovou funkci hluboké nelineární neurální sítě prokážeme následující tvrzení podle předpokladu nezávislosti přijatého z poslední práce: 1) funkce není konvexní a nekonkutná, 2) každé místní minimum je globální minimum, 3) každý kritický bod, který není globálním minimem, je sedlový bod a 4) vlastnost sedlových bodů se liší pro mělké sítě (se třemi vrstvami) a hlubší sítě (s více než třemi vrstvami). Kromě toho prokážeme, že stejné čtyři příkazy jsou pro hluboké lineární neurální sítě s jakoukoli hloubkou, jakékoli šířky a žádné nerealistické předpoklady. V důsledku toho představujeme příklad, pro který můžeme odpovědět na následující otázku: jak obtížné přímo trénovat hluboký model teorie? Je obtížnější než klasické modely strojového učení (kvůli nekonvexitě), ale není příliš obtížné (kvůli neexistující místní minima a vlastnosti sedlových bodů). Všimněte si, že i když jsme pokročili teoreticky základy hlubokého učení, stále existuje mezera mezi teoriemi a praxí.
Chcete se podělit o svůj názor? Tady můžete odeslat problém.