El ciclo de vida del proceso de ciencia de datos en equipo

El Proceso de ciencia de datos en equipo (TDSP) ofrece un ciclo de vida recomendado que se puede usar para estructurar los proyectos de ciencia de datos. En el ciclo de vida se describen los pasos completos que siguen los proyectos correctos. Si usa otro ciclo de vida de la ciencia de datos, como Cross Industry Standard Process for Data Mining (CRISP-DM), Knowledge Discovery in Databases (KDD) o propio proceso personalizado de la organización, puede seguir usando el TDSP basado en tareas.

Este ciclo de vida está diseñado para los proyectos de ciencia de datos que se enviarán como parte de aplicaciones inteligentes. Estas aplicaciones implementan modelos de aprendizaje o inteligencia artificial de máquina para realizar un análisis predictivo. Los proyectos de ciencia de datos exploratorios y los proyectos de análisis improvisados también se pueden beneficiar del uso de este proceso. Pero para esos proyectos, algunos de los pasos descritos a continuación pueden no ser necesarios.

Cinco fases del ciclo de vida

El ciclo de vida de TDSP se compone de cinco fases principales que se ejecutan de forma iterativa. Estas fases incluyen:

  1. Conocimiento del negocio
  2. Adquisición y comprensión de los datos
  3. Modelado
  4. Implementación
  5. Aceptación del cliente

Esta es una representación visual del ciclo de vida de TDSP:

Ciclo de vida del TDSP

El ciclo de vida del TDSP se modela como una secuencia de pasos repetidos que le orientan respecto a las tareas necesarias para usar modelos predictivos. El usuario implementa modelos de predicción en el entorno de producción que tiene previsto utilizar para compilar las aplicaciones inteligentes. El objetivo del ciclo de vida del proceso consiste en hacer avanzar un proyecto de ciencia de datos hacia un punto final de interacción claro. La ciencia de datos es un ejercicio de investigación y detección. La posibilidad de comunicar tareas a su equipo y sus clientes mediante un conjunto bien definido de artefactos que utilizan plantillas estandarizadas ayuda a evitar malos entendidos. El uso de estas plantillas también incrementa la posibilidad de finalizar correctamente un proyecto de ciencia de datos complejo.

Para cada fase, damos la siguiente información:

  • Objetivos: objetivos específicos.
  • Cómo hacerlo: un esquema de las tareas específicas y orientación sobre cómo realizarlas.
  • Artefactos: las entregas y la asistencia para producirlas.

Pasos siguientes

Para obtener ejemplos de cómo ejecutar pasos en TDSP que usan Azure Machine Learning, consulte Uso del Proceso de ciencia de los datos en equipo con Azure Machine Learning.

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Autor principal:

Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.