Compartir a través de


¿Por qué las canalizaciones de datos?

Azure DevOps Services

Puede usar canalizaciones de datos para:

  • Ingesta de datos de varios orígenes de datos
  • Procesar y transformar los datos
  • Guardar los datos procesados en una ubicación de almacenamiento provisional para que otros usuarios consuman

Información general de canalización de datos

Las canalizaciones de datos de la empresa pueden evolucionar en escenarios más complicados con varios sistemas de origen y admitir varias aplicaciones de bajada.

Las canalizaciones de datos proporcionan:

  • Coherencia: las canalizaciones de datos transforman los datos en un formato coherente para que los usuarios consuman
  • Reducción de errores: las canalizaciones de datos automatizadas eliminan los errores humanos al manipular datos
  • Eficiencia: los profesionales de datos ahorran tiempo invertido en la transformación de procesamiento de datos. Ahorrar tiempo permite centrarse en su función de trabajo principal: obtener la información de los datos y ayudar a la empresa a tomar mejores decisiones

¿Qué es CI/CD?

La integración continua y la entrega continua (CI/CD) es un enfoque de desarrollo de software en el que todos los desarrolladores trabajan juntos en un repositorio compartido de código y, a medida que se realizan cambios, hay un proceso de compilación automatizado para detectar problemas de código. El resultado es un ciclo de vida de desarrollo más rápido y una tasa de errores menor.

¿Qué es una canalización de datos de CI/CD y por qué importa la ciencia de datos?

La creación de modelos de aprendizaje automático es similar al desarrollo de software tradicional en el sentido de que el científico de datos necesita escribir código para entrenar y puntuar modelos de aprendizaje automático.

A diferencia del desarrollo de software tradicional en el que el producto se basa en el código, los modelos de aprendizaje automático de ciencia de datos se basan en el código (algoritmo, hiperparámetros) y en los datos usados para entrenar el modelo. Por eso la mayoría de los científicos de datos le indicarán que pasan el 80 % del tiempo realizando la preparación de datos, la limpieza y la ingeniería de características.

Para complicar aún más el asunto, para garantizar la calidad de los modelos de aprendizaje automático, se usan técnicas como las pruebas A/B. Con las pruebas A/B, podría haber varios modelos de aprendizaje automático que se usan simultáneamente. Normalmente hay un modelo de control y uno o varios modelos de tratamiento para la comparación, de modo que el rendimiento del modelo se pueda comparar y mantener. Tener varios modelos agrega otra capa de complejidad para ci/CD de modelos de aprendizaje automático.

Tener una canalización de datos de CI/CD es fundamental para que el equipo de ciencia de datos entregue los modelos de aprendizaje automático al negocio de forma oportuna y de calidad.

Pasos siguientes