Canalizaciones de datos de CI/CD de Azure

Artículo
07/16/2024

Azure DevOps Services

En este artículo se explican las canalizaciones de datos de integración continua y entrega continua (CI/CD) de Azure y su importancia para la ciencia de datos.

Puede usar canalizaciones de datos para:

Ingerir datos de varios orígenes de datos.
Procese y transforme los datos.
Guarde los datos procesados en una ubicación de almacenamiento provisional para que otros los consuman.

Diagrama que muestra una introducción a la canalización de datos.

Las canalizaciones de datos empresariales pueden evolucionar en escenarios más complicados con varios sistemas de origen y varias aplicaciones de nivel inferior compatibles.

Las canalizaciones de datos proporcionan:

Coherencia, mediante la transformación de datos en un formato coherente para que los usuarios consuman.
Reducción de errores, mediante el uso de canalizaciones de datos automatizadas para eliminar errores humanos al manipular datos.
Eficiencia, al reducir el tiempo invertido en la transformación del procesamiento de datos.

Las canalizaciones de datos permiten a los profesionales de datos centrarse en sus principales funciones de trabajo, obtener información de los datos y ayudar a las empresas a tomar mejores decisiones.

Integración continua y entrega continua (CI/CD)

La integración continua y la entrega continua (CI/CD) es un enfoque de desarrollo de software en el que todos los desarrolladores trabajan juntos en un repositorio de código compartido de código. A medida que los desarrolladores realizan cambios, los procesos automatizados detectan problemas de código. El resultado del uso de CI/CD es un ciclo de vida de desarrollo más rápido con tasas de error más bajas.

Canalizaciones de datos de CI/CD en ciencia de datos

La creación de modelos de aprendizaje automático es similar al desarrollo de software tradicional en que los científicos de datos escriben código para entrenar y puntuar modelos de aprendizaje automático. Pero, a diferencia del software tradicional basado en código, los modelos de aprendizaje automático de ciencia de datos se basan en código, como algoritmos e hiperparámetros, y en los datos usados para entrenar los modelos. La mayoría de los científicos de datos dicen que dedican el 80 % de su tiempo a realizar la preparación, la limpieza y la ingeniería de características.

Para garantizar la calidad de los modelos de aprendizaje automático, también se usan técnicas como las pruebas A/B para comparar y mantener el rendimiento del modelo. Las pruebas A/B suelen usar un modelo de control y uno o varios modelos de tratamiento.

Es posible que varios modelos de aprendizaje automático se usen simultáneamente, agregando otra capa de complejidad para la CI/CD de los modelos de aprendizaje automático. Una canalización de datos de CI/CD es fundamental para que el equipo de ciencia de datos ofrezca modelos de aprendizaje automático de calidad a la empresa de forma oportuna.

Pasos siguientes

Crear una canalización de datos con Azure

Compartir a través de

Canalizaciones de datos de CI/CD de Azure

Integración continua y entrega continua (CI/CD)

Canalizaciones de datos de CI/CD en ciencia de datos

Pasos siguientes

Comentarios

Comentarios

Recursos adicionales