Noções básicas sobre os conceitos de aprendizado profundo

Concluído

Em seu cérebro, você tem células nervosas chamadas neurônios, que estão conectadas umas às outras por extensões nervosas que passam sinais eletroquímicos pela rede.

Diagrama de um cérebro humano com uma rede de neurônios.

Quando o primeiro neurônio na rede é estimulado, o sinal de entrada é processado e, se excede um limite específico, o neurônio é ativado e passa o sinal para os neurônios aos quais está conectado. Esses neurônios, por sua vez, podem ser ativados e passar o sinal através do resto da rede. Com o tempo, as conexões entre os neurônios são reforçadas pelo uso frequente à medida que você aprende a responder efetivamente. Por exemplo, se você for mostrado uma imagem de um pinguim, suas conexões de neurônio permitem processar as informações na imagem e seu conhecimento das características de um pinguim para identificá-la como tal. Com o tempo, se forem mostradas várias imagens de vários animais, a rede de neurônios envolvidos na identificação de animais com base em suas características crescerá mais forte. Em outras palavras, você fica melhor em identificar com precisão diferentes animais.

O aprendizado profundo emula esse processo biológico usando redes neurais artificiais que processam entradas numéricas em vez de estímulos eletroquímicos.

Diagrama de uma rede neural artificial.

As conexões nervosas de entrada são substituídas por entradas numéricas que normalmente são identificadas como x. Quando há mais de um valor de entrada, x é considerado um vetor com elementos chamados x1, x2 e assim por diante.

Associado a cada valor x é um peso (w), que é usado para fortalecer ou enfraquecer o efeito do valor x para simular o aprendizado. Além disso, uma entrada bias (b) é adicionada para permitir um controle refinado sobre a rede. Durante o processo de treinamento, os valores w e b são ajustados para ajustar a rede para que ela "aprenda" a produzir saídas corretas.

O neurônio em si encapsula uma função que calcula uma soma ponderada de x, w e b. Essa função, por sua vez, está entre uma função de ativação que restringe o resultado (geralmente a um valor entre 0 e 1) para determinar se o neurônio passa ou não uma saída para a próxima camada de neurônios na rede.

Treinar um modelo de aprendizado profundo

Modelos de aprendizado profundo são redes neurais que consistem em várias camadas de neurônios artificiais. Cada camada representa um conjunto de funções que são executadas nos valores x com pesos w associados e vieses b , e a camada final resulta em uma saída do rótulo y que o modelo prevê. No caso de um modelo de classificação (que prevê a categoria ou classe mais provável para os dados de entrada), a saída é um vetor que contém a probabilidade para cada classe possível.

O diagrama a seguir representa um modelo de aprendizado profundo que prevê a classe de uma entidade de dados com base em quatro recursos (os valores x ). A saída do modelo (os valores y ) é a probabilidade para cada um dos três rótulos de classe possíveis.

Diagrama de uma rede neural.

Para treinar o modelo, uma estrutura de aprendizado profundo alimenta vários lotes de dados de entrada (para os quais os valores reais do rótulo são conhecidos), aplica as funções em todas as camadas de rede e mede a diferença entre as probabilidades de saída e os rótulos de classe conhecidos reais dos dados de treinamento. A diferença agregada entre as saídas de previsão e os rótulos reais é conhecida como perda.

Tendo calculado a perda agregada para todos os lotes de dados, a estrutura de aprendizado profundo usa um otimizador para determinar como os pesos e vieses no modelo devem ser ajustados para reduzir a perda geral. Esses ajustes são então repropagados para as camadas no modelo de rede neural e, em seguida, os dados são passados pela rede novamente e a perda recalculada. Esse processo se repete várias vezes (cada iteração é conhecida como uma época) até que a perda seja minimizada e o modelo tenha "aprendido" os pesos e preconceitos certos a serem capazes de prever com precisão.

Durante cada época, os pesos e vieses são ajustados para minimizar a perda. O valor pelo qual eles são ajustados é regido pela taxa de aprendizado especificada para o otimizador. Se a taxa de aprendizado for muito baixa, o processo de treinamento poderá levar muito tempo para determinar valores ideais; mas se for muito alto, o otimizador poderá nunca encontrar os valores ideais.