Introducción a los modelos personalizados

En este artículo se describe la compatibilidad con modelos personalizados mediante Mosaic AI Model Serving. Proporciona detalles sobre las opciones de registro de modelos y los tipos de proceso admitidos, cómo empaquetar las dependencias del modelo para servir y las expectativas de creación y escalado de puntos de conexión.

¿Qué son los modelos personalizados?

Model Serving puede implementar cualquier modelo de Python o código personalizado como UNA API de nivel de producción mediante recursos de proceso de CPU o GPU. Databricks hace referencia a modelos como modelos personalizados. Estos modelos de APRENDIZAJE automático se pueden entrenar mediante bibliotecas de ML estándar, como scikit-learn, XGBoost, PyTorch y Transformadores HuggingFace, y pueden incluir cualquier código de Python.

Para implementar un modelo personalizado,

Registre el modelo o el código en el formato MLflow, usando los tipos de integrados de MLflow nativos o pyfunc.
Una vez registrado el modelo, regístrelo en el Catálogo de Unity (recomendado) o en el registro del área de trabajo.
Desde aquí puede crear un modelo que sirva de punto de conexión para implementar y consultar el modelo.
1. Consulte Creación de un modelo personalizado que atiende puntos de conexión
2. Vea Puntos de conexión de servicio de consulta para modelos personalizados.

Para obtener un tutorial completo sobre cómo servir modelos personalizados en Databricks, consulte Tutorial de servicio de modelos.

Databricks también admite el servicio de modelos básicos para aplicaciones de inteligencia artificial generativa, consulta Foundation Model API y Modelos externos para modelos y ofertas de proceso compatibles.

Modelos del registro de Machine Learning

Hay diferentes métodos para registrar el Machine Learning automático para el servicio de modelos. En la lista siguiente se resumen los métodos y ejemplos admitidos.

Registro automático Este método se habilita automáticamente al usar Databricks Runtime para ML.

import mlflow
from sklearn.ensemble import RandomForestRegressor
from sklearn.datasets import load_iris

iris = load_iris()
model = RandomForestRegressor()
model.fit(iris.data, iris.target)

Inicie sesión con los tipos integrados de MLflow. Puede usar este método si desea registrar manualmente el modelo para obtener un control más detallado.

import mlflow
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

iris = load_iris()
model = RandomForestClassifier()
model.fit(iris.data, iris.target)

with mlflow.start_run():
    mlflow.sklearn.log_model(model, "random_forest_classifier")

Registro personalizado con pyfunc. Puede usar este método para implementar modelos arbitrarios de código de Python o implementar código adicional junto con el modelo.

  import mlflow
  import mlflow.pyfunc

  class Model(mlflow.pyfunc.PythonModel):
      def predict(self, context, model_input):
          return model_input * 2

  with mlflow.start_run():
      mlflow.pyfunc.log_model("custom_model", python_model=Model())

Ejemplos de firma y entrada

Se recomienda agregar un ejemplo de firma y entrada a MLflow. Las firmas son necesarias para registrar modelos en el catálogo de Unity.

A continuación se muestra un ejemplo de la firma:

from mlflow.models.signature import infer_signature

signature = infer_signature(training_data, model.predict(training_data))
mlflow.sklearn.log_model(model, "model", signature=signature)

A continuación se muestra un ejemplo de Input:


input_example = {"feature1": 0.5, "feature2": 3}
mlflow.sklearn.log_model(model, "model", input_example=input_example)

Compute type (Tipo de proceso)

Servicio de modelos de Mosaic AI proporciona una variedad de opciones de CPU y GPU para implementar el modelo. Al implementar con una GPU, debes asegurarte de que el código está configurado para que las predicciones se ejecuten en la GPU mediante los métodos proporcionados por el marco. MLflow lo hace automáticamente para los modelos registrados con los tipos de PyTorch o Transformers.

Tipo de carga de trabajo	Instancia de GPU	Memoria
`CPU`		4 GB por simultaneidad
`GPU_SMALL`	1xT4	16 GB
`GPU_LARGE`	1xA100	80 GB
`GPU_LARGE_2`	2xA100	160 GB
`GPU_LARGE_4`	4xA100	320 GB

Contenedor de implementación y dependencias

Durante la implementación, se crea e implementa un contenedor de nivel de producción como punto de conexión. Este contenedor incluye bibliotecas capturadas o especificadas automáticamente en el modelo de MLflow. La imagen base puede incluir algunas dependencias de nivel de sistema, pero las dependencias de nivel de aplicación deben especificarse explícitamente en el modelo de MLflow.

Si no todas las dependencias necesarias se incluyen en el modelo, es posible que encuentre errores de dependencia durante la implementación. Al encontrarse con problemas de implementación de modelos, Databricks recomienda probar el modelo localmente.

Dependencias de código y paquetes

Las bibliotecas personalizadas o privadas se pueden agregar a la implementación. Consulte Usar bibliotecas personalizadas de Python con el Servicio de modelos.

En el caso de los modelos de tipo nativo de MLflow, las dependencias de paquete necesarias se capturan automáticamente.

En el caso de los modelos de pyfunc personalizados, se pueden agregar dependencias explícitamente. Para obtener información detallada sobre los requisitos de registro y los procedimientos recomendados, consulte la documentación de modelos de MLflow y la referencia de la API de Python de MLflow.

Puede agregar dependencias de paquete mediante:

El pip_requirements parámetro:

mlflow.sklearn.log_model(model, "sklearn-model", pip_requirements = ["scikit-learn", "numpy"])

El conda_env parámetro:


conda_env = {
    'channels': ['defaults'],
    'dependencies': [
        'python=3.7.0',
        'scikit-learn=0.21.3'
    ],
    'name': 'mlflow-env'
}

mlflow.sklearn.log_model(model, "sklearn-model", conda_env = conda_env)

Para incluir requisitos adicionales más allá de lo que se captura automáticamente, use extra_pip_requirements.
```
mlflow.sklearn.log_model(model, "sklearn-model", extra_pip_requirements = ["sklearn_req"])
```

Si tiene dependencias de código, se pueden especificar mediante code_path.

  mlflow.sklearn.log_model(model, "sklearn-model", code_path=["path/to/helper_functions.py"],)

Para obtener información sobre cómo validar y actualizar las dependencias antes de la implementación, consulte Validación previa a la implementación para Model Serving.

Expectativas y limitaciones

Nota:

La información de esta sección no se aplica a los puntos de conexión que sirven a modelos de fundación o modelos externos.

En las siguientes secciones se describen las expectativas y limitaciones conocidas para atender modelos personalizados mediante Model Serving.

Expectativas de creación y actualización de puntos de conexión

Tiempo de implementación: la implementación de una versión de modelo recién registrada implica empaquetar el modelo y su entorno de modelo y aprovisionar el propio punto de conexión del modelo. Este proceso puede tardar aproximadamente 10 minutos, pero puede tardar más tiempo en función de la complejidad, el tamaño y las dependencias del modelo.
Actualizaciones de tiempo de inactividad cero: Azure Databricks realiza una actualización sin tiempo de inactividad de los puntos de conexión manteniendo la configuración del punto de conexión existente hasta que el nuevo esté listo. Al hacerlo, se reduce el riesgo de interrupción de los puntos de conexión que están en uso. Durante este proceso de actualización, se le facturan las configuraciones de punto de conexión antiguos y nuevos hasta que se complete la transición.
Tiempo de espera de la solicitud: si el cálculo del modelo tarda más de 297 segundos, se agotará el tiempo de espera en las solicitudes.

Importante

Databricks realiza actualizaciones ocasionales del sistema de tiempo de inactividad cero y mantenimiento en los puntos de conexión existentes de Model Serving. Durante el mantenimiento, Databricks vuelve a cargar modelos. Si un modelo no se puede volver a cargar, la actualización del punto de conexión se marca como con errores y la configuración del punto de conexión existente sigue atendiendo las solicitudes. Asegúrese de que los modelos personalizados son sólidos y pueden volver a cargarse en cualquier momento.

Expectativas de escalado de puntos de conexión

El servicio de puntos de conexión se escala automáticamente en función del tráfico y de la capacidad de las unidades de simultaneidad aprovisionadas.

La simultaneidad aprovisionada:: es el número máximo de solicitudes paralelas que el sistema puede controlar. Calcule la simultaneidad necesaria mediante la fórmula: simultaneidad aprovisionada = consultas por segundo (QPS) * tiempo de ejecución del modelo (s). Para validar la configuración de concurrencia, consulte Pruebas de carga para servir puntos de conexión.
comportamiento de escalado: Los puntos de conexión de escalan verticalmente casi inmediatamente con un mayor tráfico y se reducen verticalmente cada cinco minutos para que coincidan con el tráfico reducido.
Escalar a cero: Escalar a cero es una característica opcional para los puntos de conexión que les permite reducirse a cero después de 30 minutos de inactividad. La primera solicitud después de escalar a cero experimenta un "inicio en frío", lo que conduce a una mayor latencia. El escalado vertical desde cero suele tardar entre 10 y 20 segundos, pero a veces puede tardar minutos. No hay ningún Acuerdo de Nivel de Servicio a escala a partir de una latencia cero.
Optimización de rutas: Para casos de uso de alto QPS y baja latencia, la optimización de rutas es la opción óptima y recomendada para mejorar el rendimiento.
Implementaciones optimizadas sin servidor: Para una mayor velocidad de implementación de puntos de conexión, use implementaciones optimizadas sin servidor.

Advertencia

La escala a cero no debe usarse para cargas de trabajo de producción que requieran tiempos de actividad coherentes o tiempos de respuesta garantizados. En el caso de las aplicaciones o puntos de conexión sensibles a la latencia que requieren disponibilidad continua, deshabilite la escala a cero.

Limitaciones de la carga de trabajo de GPU

Las siguientes son limitaciones para atender puntos de conexión con cargas de trabajo de GPU:

La creación de imágenes de contenedor para el servicio en la GPU lleva más tiempo que la creación de imágenes para el servicio en la CPU debido al tamaño del modelo y a los mayores requisitos de instalación para los modelos servidos en la GPU.
Al implementar modelos muy grandes, el proceso de implementación podría exceder el tiempo de espera límite si la construcción del contenedor y el despliegue del modelo superan una duración de 60 minutos, o la construcción del contenedor podría fallar con el error "No queda espacio en el dispositivo" debido a limitaciones de almacenamiento. En el caso de los modelos de lenguaje grande, use en su lugar las API de Foundation Model .
El autoescalado para el servicio de GPU tarda más que para el servicio de CPU.
No se garantiza la capacidad de GPU al escalar a cero. Los puntos de conexión de GPU pueden sufrir una latencia adicional alta para la primera solicitud después de escalar a cero.

Aviso de licencia de Anaconda para modelos heredados

Nota:

Esta sección solo se aplica a los modelos registrados con MLflow v1.17 o versiones anteriores (Databricks Runtime 8.3 ML o versiones anteriores). Si usa una versión más reciente, puede omitir esta sección.

El siguiente aviso es para los clientes que dependen de Anaconda con modelos heredados.

Importante

Anaconda Inc. actualizó sus términos del servicio para los canales de anaconda.org. En función de los nuevos términos de servicio, puede requerir una licencia comercial si confía en el empaquetado y la distribución de Anaconda. Consulte las preguntas más frecuentes sobre Anaconda Commercial Edition para obtener más información. El uso de cualquier canal de Anaconda se rige por sus términos del servicio.

Los modelos de MLflow registrados antes de la versión 1.18 (Databricks Runtime 8.3 ML o versiones anteriores) se registraron de forma predeterminada con el canal de Conda defaults (https://repo.anaconda.com/pkgs/) como dependencia. Debido a este cambio de licencia, Databricks ha detenido el uso del canal defaults para los modelos registrados mediante MLflow v1.18 y versiones posteriores. El canal predeterminado registrado es ahora conda-forge, que apunta a la comunidad administrada https://conda-forge.org/.

Si registró un modelo antes de MLflow v1.18 sin excluir el canal defaults del entorno de Conda para el modelo, es posible que ese modelo tenga una dependencia en el defaults canal que no haya previsto. Para confirmar manualmente si un modelo tiene esta dependencia, puede examinar el valor channel en el archivo conda.yaml que se empaqueta con el modelo registrado. Por ejemplo, un modelo conda.yaml con una defaults dependencia de canal puede tener este aspecto:

channels:
- defaults
dependencies:
- python=3.8.8
- pip
- pip:
    - mlflow
    - scikit-learn==0.23.2
    - cloudpickle==1.6.0
      name: mlflow-env

Dado que Databricks no puede determinar si el uso del repositorio de Anaconda para interactuar con los modelos está permitido en su relación con Anaconda, Databricks no obliga a sus clientes a realizar ningún cambio. Si el uso del repositorio de Anaconda.com mediante el uso de Databricks se permite en los términos de Anaconda, no es necesario realizar ninguna acción.

Si desea cambiar el canal usado en el entorno de un modelo, puede volver a registrar el modelo en el registro de modelos con un nuevo conda.yaml. Para ello, especifique el canal en el parámetro conda_env de log_model().

Para más información sobre la log_model() API, consulte la documentación de MLflow para el tipo de modelo con el que está trabajando, por ejemplo, log_model para scikit-learn.

Para más información sobre los archivos conda.yaml, consulte la documentación de MLflow.

Recursos adicionales

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2025-12-19

Compartir a través de

Introducción a los modelos personalizados

¿Qué son los modelos personalizados?

Modelos del registro de Machine Learning

Ejemplos de firma y entrada

Compute type (Tipo de proceso)

Contenedor de implementación y dependencias

Dependencias de código y paquetes

Expectativas y limitaciones

Expectativas de creación y actualización de puntos de conexión

Expectativas de escalado de puntos de conexión

Limitaciones de la carga de trabajo de GPU

Aviso de licencia de Anaconda para modelos heredados

Recursos adicionales

Comentarios

Recursos adicionales