Resumo
Neste módulo, aprendemos como as redes neurais convolucionais funcionam e como elas podem capturar padrões em imagens 2D.
Aqui está um resumo dos conceitos-chave que abordámos:
- Dados de imagem como tensores: Representar imagens como matrizes multidimensionais (H×W para tons de cinzentos, H×W×3 para cor) e normalizar os valores dos píxeis.
- Redes neuronais densas: Construção de redes totalmente conectadas de camada única e multicamada para classificação de imagens, incluindo conceitos como softmax, codificação one-hot, funções de perda e otimizadores.
- Overfitting: Reconhecer quando um modelo ajusta demasiado bem os dados de treino mas não generaliza, e estratégias para os resolver.
- Redes Neurais Convolucionais (CNNs): Utilização de filtros convolucionais para extrair padrões espaciais, acumulação de camadas para reduzir a dimensionalidade e arquiteturas de pirâmides que combinam múltiplas camadas convolucionais.
- Aprendizagem por transferência: Aproveitar modelos pré-treinados como o VGG-16 para extrair funcionalidades e construir classificadores para tarefas personalizadas com menos dados e tempo de treino.
De facto, as CNNs também podem ser usadas para encontrar padrões em sinais unidimensionais (como ondas sonoras ou séries temporais) e em estruturas multidimensionais (por exemplo, eventos em vídeos onde alguns padrões são repetidos entre frames). As CNNs também são os blocos de construção simples para resolver tarefas mais complexas de visão computacional, como a geração de imagens. Redes Generativas Adversariais (GANs) e modelos de difusão (como Stable Diffusion e DALL· E) são usados para gerar imagens, com modelos de difusão a representarem o estado atual da arte. De forma semelhante, as CNNs são usadas para deteção de objetos, segmentação de instâncias e muito mais.