Episódio

Otimização em larga escala: além do gradiente descendente estocástico e da convexidade

por Suvrit Sra, Francis Bach

A otimização estocástica está no centro do aprendizado de máquina, e sua pedra angular é o gradiente descendente estocástico (SGD), um grampo introduzido há mais de 60 anos! Os últimos anos, no entanto, trouxeram um novo desenvolvimento empolgante: redução de variância (VR) para métodos estocásticos. Esses métodos de RV se destacam em ambientes onde mais de uma passagem pelos dados de treinamento é permitida, alcançando convergência mais rápida do que o SGD, tanto na teoria quanto na prática. Essas acelerações destacam o enorme aumento do interesse em métodos de RV; Até agora, um grande corpo de trabalho surgiu, enquanto novos resultados aparecem regularmente! Este tutorial traz para o público mais amplo de aprendizado de máquina os princípios-chave por trás dos métodos de RV, posicionando-os em relação ao SGD. Além disso, o tutorial dá um passo além da convexidade e cobre resultados de ponta de pesquisa para problemas não convexos também, enquanto descreve pontos-chave e desafios ainda em aberto.

Objetivos de Aprendizado:

– Introduzir métodos estocásticos rápidos para o público mais amplo de ML para ir além de um algoritmo de 60 anos (SGD) – Fornecer uma luz orientadora através dessa área em rápida evolução, para unificar e simplificar sua apresentação, delinear armadilhas comuns e desmistificar suas capacidades – Aumentar a conscientização sobre os desafios abertos na área e, assim, estimular pesquisas futuras

Público-alvo;

– Estudantes de pós-graduação (mestrado e doutorado)

– Pesquisadores de ML na academia e na indústria que não são especialistas em otimização estocástica

– Profissionais que desejam ampliar seu repertório de ferramentas