Episodio
Optimización a gran escala: más allá del descenso del degradado estocástico y la convexidad
con Suvrit Sra, Francis Bach
La optimización estocástica se encuentra en el corazón del aprendizaje automático, y su piedra angular es el descenso de degradado estocástico (SGD), una grapa introducida hace más de 60 años! Sin embargo, los últimos años han traído un nuevo desarrollo emocionante: reducción de varianza (VR) para métodos estocásticos. Estos métodos de VR se destacan en la configuración en la que se permite más de un paso a través de los datos de entrenamiento, logrando la convergencia más rápido que SGD, en teoría, así como la práctica. Estas aceleraciones subrayan la enorme sobrecarga de interés en los métodos de VR; por ahora ha surgido un gran cuerpo de trabajo, mientras que los nuevos resultados aparecen regularmente! Este tutorial lleva a la audiencia de aprendizaje automático más amplia los principios clave detrás de los métodos de VR, al colocarlos frente a SGD. Además, el tutorial toma un paso más allá de la convexidad y cubre los resultados de investigación de los problemas que no son convexas también, al tiempo que se describen los puntos clave y, aún, se abren desafíos.
Objetivos de aprendizaje:
– Introducir métodos estocásticos rápidos para el público de aprendizaje automático más amplio para ir más allá de un algoritmo de 60 años (SGD) – Proporcionar una luz guía a través de este área de movimiento rápido, unificar y simplificar su presentación, describir los problemas comunes y desmitificar sus capacidades – Aumentar la conciencia sobre los desafíos abiertos en el área y, por lo tanto, impulsar futuras investigaciones
Audiencia objetivo;
– Estudiantes graduados (maestros, así como flujo de doctorado)
– Investigadores de aprendizaje automático en la academia y la industria que no son expertos en optimización estocástica
– Profesionales que quieren ampliar su repertorio de herramientas
La optimización estocástica se encuentra en el corazón del aprendizaje automático, y su piedra angular es el descenso de degradado estocástico (SGD), una grapa introducida hace más de 60 años! Sin embargo, los últimos años han traído un nuevo desarrollo emocionante: reducción de varianza (VR) para métodos estocásticos. Estos métodos de VR se destacan en la configuración en la que se permite más de un paso a través de los datos de entrenamiento, logrando la convergencia más rápido que SGD, en teoría, así como la práctica. Estas aceleraciones subrayan la enorme sobrecarga de interés en los métodos de VR; por ahora ha surgido un gran cuerpo de trabajo, mientras que los nuevos resultados aparecen regularmente! Este tutorial lleva a la audiencia de aprendizaje automático más amplia los principios clave detrás de los métodos de VR, al colocarlos frente a SGD. Además, el tutorial toma un paso más allá de la convexidad y cubre los resultados de investigación de los problemas que no son convexas también, al tiempo que se describen los puntos clave y, aún, se abren desafíos.
Objetivos de aprendizaje:
– Introducir métodos estocásticos rápidos para el público de aprendizaje automático más amplio para ir más allá de un algoritmo de 60 años (SGD) – Proporcionar una luz guía a través de este área de movimiento rápido, unificar y simplificar su presentación, describir los problemas comunes y desmitificar sus capacidades – Aumentar la conciencia sobre los desafíos abiertos en el área y, por lo tanto, impulsar futuras investigaciones
Audiencia objetivo;
– Estudiantes graduados (maestros, así como flujo de doctorado)
– Investigadores de aprendizaje automático en la academia y la industria que no son expertos en optimización estocástica
– Profesionales que quieren ampliar su repertorio de herramientas
¿Quiere hacer algún comentario? Comunique un problema aquí.