IA y aprendizaje automático en Databricks

Artículo
10/14/2024

En este artículo se describen las herramientas que proporciona Mosaic AI (anteriormente Databricks Machine Learning) para ayudarle a crear sistemas de IA y ML. En el diagrama se muestra cómo varios productos de la plataforma de Databricks le ayudan a implementar los flujos de trabajo de un extremo a otro para compilar e implementar sistemas de IA y ML.

Diagrama de aprendizaje automático: Desarrollo e implementación de modelos en Databricks

IA generativa en Databricks

Mosaic AI unifica el ciclo de vida de la inteligencia artificial desde la recolección y preparación de datos, hasta el desarrollo del modelo y LLMOps, para atender y supervisar. Las siguientes características están optimizadas específicamente para facilitar el desarrollo de aplicaciones de IA generativas:

Unity Catalog para gobernanza, detección, control de versiones y control de acceso a datos, características, modelos y funciones.
MLflow para el seguimiento del desarrollo de modelos y la evaluación de LLM.
Mosaic AI Model Serving para implementar LLM. Puede configurar punto de conexión de servicio de modelos específicamente para acceder a los modelos de IA generativa:
- LLM abiertos de última generación mediante las API del modelo fundacional.
- Modelos de terceros hospedados fuera de Databricks. Consulte Modelos externos en Mosaic AI Model Serving.
El vector de búsqueda de Mosaic AI proporciona una base de datos vectorial que se puede consultar que almacena vectores de inserción y se puede configurar para que se sincronice automáticamente con la knowledge base.
Lakehouse Monitoring para la supervisión y el seguimiento de la calidad y el desfase del modelo de seguimiento mediante registro de carga automática con tablas de inferencia.
AI Playground para probar modelos de IA generativa desde el área de trabajo de Databricks. Puede consultar, comparar y ajustar parámetros como la consulta del sistema y los parámetros de inferencia.
Mosaic AI Model Training (anteriormente denominado Foundation Model Training) para personalizar un modelo de base mediante datos propios con el fin de optimizar su rendimiento para una aplicación específica.
Mosaic AI Agent Framework para compilar e implementar agentes de calidad de producción, como aplicaciones de generación aumentada de recuperación (RAG).
Mosaic AI Agent Evaluation para evaluar la calidad, el costo y la latencia de las aplicaciones de IA generativas, incluidas las aplicaciones y cadenas RAG.

¿Qué es la inteligencia artificial generativa?

La inteligencia artificial generativa es un tipo de inteligencia artificial centrada en la capacidad de los equipos de usar modelos para crear contenido como imágenes, texto, código y datos sintéticos.

Las aplicaciones de IA generativa se basan en modelos de IA generativa: modelos de lenguaje de gran tamaño (LLM) y modelos de base.

Las LLM son modelos de aprendizaje profundo que consumen y entrenan en conjuntos de datos masivos para destacar en tareas de procesamiento de lenguaje. Crean nuevas combinaciones de texto que imitan el lenguaje natural en función de sus datos de entrenamiento.
Los modelos fundamentales son modelos de ML de gran tamaño entrenados previamente con la intención de que se ajusten para tareas de generación y comprensión del lenguaje más específicas. Estos modelos se usan para distinguir patrones dentro de los datos de entrada.

Después de que estos modelos hayan completado sus procesos de aprendizaje, juntos generan salidas estadísticamente probables cuando se les solicita y se pueden emplear para realizar diversas tareas, entre las que se incluyen:

Generación de imágenes basada en las existentes o utilizando el estilo de una imagen para modificar o crear una nueva.
Tareas de voz como transcripción, traducción, generación de preguntas y respuestas e interpretación de la intención o significado del texto.

Importante

Aunque muchos LLM u otros modelos de IA generativa tienen medidas de seguridad, pueden generar información perjudicial o inexacta.

La inteligencia artificial generativa tiene los siguientes modelos de diseño:

Ingeniería de avisos: creación de avisos especializados para guiar el comportamiento de LLM
Generación aumentada de recuperación (RAG): combinación de un LLM con recuperación de conocimientos externos
Ajuste preciso: adaptación de un LLM entrenado previamente a conjuntos de datos específicos de dominios
Entrenamiento previo: Entrenamiento de un LLM desde cero

Aprendizaje automático en Databricks

Con Mosaic AI, una única plataforma sirve cada paso del proceso de desarrollo e implementación del ML, desde datos sin procesar hasta tablas de inferencia que guardan todas las solicitudes y respuestas de un modelo servido. Los científicos de datos, los ingenieros de datos, los ingenieros de aprendizaje automático y DevOps pueden realizar su labor con el mismo conjunto de herramientas y una única fuente fiable para los datos.

Mosaic AI unifica la capa de datos y la plataforma de ML. Todos los recursos de datos y artefactos, como modelos y funciones, se pueden detectar y gobernar en un único catálogo. El uso de una sola plataforma para datos y modelos permite realizar un seguimiento del linaje, desde los datos sin procesar hasta el modelo de producción. La supervisión de modelos y datos integrados guarda métricas de calidad en tablas que también se almacenan en la plataforma, lo cual facilita la identificación de la causa principal de los problemas de rendimiento del modelo. Para obtener más información sobre cómo Databricks admite el ciclo de vida completo de ML y MLOps, consulte Flujos de trabajo de MLOps en Azure Databricks y MLOps Stacks: proceso de desarrollo de modelo como código.

Algunos de los componentes clave de la plataforma de inteligencia de datos son:

Tareas	Componente
Controlar y administrar datos, características, modelos y funciones. Además, detección, control de versiones y linaje.	Unity Catalog
Seguimiento de cambios en los datos, calidad de los datos y calidad de predicción del modelo	Lakehouse Monitoring, tablas de inferencia
Administración y desarrollo de características	Ingeniería de características y servicios
Entrenamiento de modelos	Databricks AutoML, cuadernos de Databricks
Seguimiento del desarrollo de modelos	Seguimiento de MLflow
Servicio de modelos personalizados	Servicio de modelo de IA de Mosaic
Creación de flujos de trabajo automatizados y canalizaciones ETL listas para producción.	Trabajos de Databricks
Integración de Git	Carpetas Git de Databricks

Aprendizaje profundo en Databricks

La configuración de la infraestructura para aplicaciones de aprendizaje profundo puede ser difícil. Databricks Runtime para Machine Learning se ocupa de ello por usted, al disponer de clústeres que tienen versiones compatibles integradas de las bibliotecas de aprendizaje profundo más comunes, como TensorFlow, PyTorch y Keras.

Los clústeres de Databricks Runtime ML también incluyen compatibilidad con GPU preconfigurada gracias a controladores y bibliotecas auxiliares. También admite bibliotecas como Ray para paralelizar el procesamiento de proceso para escalar flujos de trabajo y aplicaciones de ML.

Los clústeres de Databricks Runtime ML también incluyen compatibilidad con GPU preconfigurada gracias a controladores y bibliotecas auxiliares. Mosaic AI Model Serving permite la creación de puntos de conexión de GPU escalables para modelos de aprendizaje profundo sin configuración adicional.

En el caso de las aplicaciones de aprendizaje automático, Databricks recomienda usar un clúster que ejecute Databricks Runtime para Machine Learning. Consulte Creación de un clúster mediante Databricks Runtime ML.

Para empezar con el aprendizaje profundo en Databricks, consulte:

Pasos siguientes

Para empezar, consulte:

Tutoriales: Introducción a la inteligencia artificial y al aprendizaje automático

Para obtener un flujo de trabajo de MLOps recomendado en Databricks Mosaic AI, consulte:

Flujos de trabajo de MLOps en Azure Databricks

Para obtener información sobre las características clave de Databricks Mosaic AI, consulte:

Compartir a través de