Resumen

Completado

En este módulo, hemos descubierto cómo funcionan las redes neuronales convolucionales y cómo pueden capturar patrones en imágenes 2D.

Este es un resumen de los conceptos clave que hemos tratado:

  • Datos de imagen como tensores: representar imágenes como matrices multidimensionales (H×W para escala de grises, H×W×3 para color) y normalizar valores de píxeles.
  • Redes neuronales densas: Creación de redes totalmente conectadas de capa única y de múltiples capas para la clasificación de imágenes, que incluyen conceptos como softmax, codificación one-hot, funciones de pérdida y optimizadores.
  • Sobreajuste: reconocer cuándo un modelo se ajusta demasiado bien a los datos de entrenamiento, pero no se puede generalizar y las estrategias para abordarlos.
  • Redes neuronales convolucionales (CNN): uso de filtros convolucionales para extraer patrones espaciales, capas de agrupación para reducir la dimensionalidad y arquitecturas piramidales que combinan varias capas convolucionales.
  • Aprendizaje de transferencia: aprovechar modelos entrenados previamente, como VGG-16, para extraer características y generar clasificadores para tareas personalizadas con menos datos y tiempo de entrenamiento.

De hecho, los CNN también se pueden usar para buscar patrones en señales 1 dimensionales (como ondas sonoras o series temporales) y en estructuras multidimensionales (por ejemplo, eventos en vídeos donde algunos patrones se repiten entre fotogramas). Las CNN también son bloques de creación sencillos para resolver tareas de visión informática más complejas, como la generación de imágenes. Redes adversarios generativas (GAN) y modelos de difusión (como difusión estable y DALL· E) se usan para generar imágenes, con modelos de difusión que representan el estado actual del arte. Del mismo modo, los CNN se usan para la detección de objetos, la segmentación de instancias, etc.