Episode
Pembelajaran Mendalam tanpa Minima Lokal Yang Buruk
dengan Kenji Kawaguchi
Dalam makalah ini, kami membuktikan dugaan yang diterbitkan pada tahun 1989 dan juga sebagian mengatasi masalah terbuka yang diumumkan di Conference on Learning Theory (COLT) 2015. Untuk fungsi kehilangan yang diharapkan dari jaringan neural nonlinear yang mendalam, kami membuktikan pernyataan berikut di bawah asumsi kemerdekaan yang diadopsi dari pekerjaan baru-baru ini: 1) fungsinya non-cembung dan non-cekur, 2) setiap minimum lokal adalah minimum global, 3) setiap titik kritis yang bukan minimum global adalah titik pelana, dan 4) properti titik pelana berbeda untuk jaringan dangkal (dengan tiga lapisan) dan jaringan yang lebih dalam (dengan lebih dari tiga lapisan). Selain itu, kami membuktikan bahwa empat pernyataan yang sama memegang jaringan saraf linier dalam dengan kedalaman apa pun, lebar apa pun, dan tidak ada asumsi yang tidak realistis. Akibatnya, kami menyajikan instans, yang dapat kami jawab atas pertanyaan berikut: seberapa sulit untuk langsung melatih model mendalam secara teori? Ini lebih sulit daripada model pembelajaran mesin klasik (karena non-konveksisitas), tetapi tidak terlalu sulit (karena tidak adanya minima lokal yang buruk dan properti titik pelana). Kami perhatikan bahwa meskipun kami telah memajukan fondasi teoritis pembelajaran mendalam, masih ada kesenjangan antara teori dan praktik.
Dalam makalah ini, kami membuktikan dugaan yang diterbitkan pada tahun 1989 dan juga sebagian mengatasi masalah terbuka yang diumumkan di Conference on Learning Theory (COLT) 2015. Untuk fungsi kehilangan yang diharapkan dari jaringan neural nonlinear yang mendalam, kami membuktikan pernyataan berikut di bawah asumsi kemerdekaan yang diadopsi dari pekerjaan baru-baru ini: 1) fungsinya non-cembung dan non-cekur, 2) setiap minimum lokal adalah minimum global, 3) setiap titik kritis yang bukan minimum global adalah titik pelana, dan 4) properti titik pelana berbeda untuk jaringan dangkal (dengan tiga lapisan) dan jaringan yang lebih dalam (dengan lebih dari tiga lapisan). Selain itu, kami membuktikan bahwa empat pernyataan yang sama memegang jaringan saraf linier dalam dengan kedalaman apa pun, lebar apa pun, dan tidak ada asumsi yang tidak realistis. Akibatnya, kami menyajikan instans, yang dapat kami jawab atas pertanyaan berikut: seberapa sulit untuk langsung melatih model mendalam secara teori? Ini lebih sulit daripada model pembelajaran mesin klasik (karena non-konveksisitas), tetapi tidak terlalu sulit (karena tidak adanya minima lokal yang buruk dan properti titik pelana). Kami perhatikan bahwa meskipun kami telah memajukan fondasi teoritis pembelajaran mendalam, masih ada kesenjangan antara teori dan praktik.
Memiliki umpan balik? Kirimkan masalah di sini.