Mosaic AI Gateway
Importante
Esta característica está en versión preliminar pública.
En este artículo se describe Mosaic AI Gateway, la solución Databricks para gobernar y supervisar el acceso a los modelos de IA generativos admitidos y sus puntos de conexión de servicio de modelos asociados.
¿Qué es Mosaic AI Gateway?
Mosaic AI Gateway está diseñada para simplificar el uso y la administración de modelos de IA generativos dentro de una organización. Es un servicio centralizado que aporta la gobernanza, la supervisión y la preparación de producción para modelar los puntos de conexión de servicio. También le permite ejecutar, proteger y controlar el tráfico de inteligencia artificial para democratizar y acelerar la adopción de la inteligencia artificial para su organización.
Todos los datos se registran en tablas delta en Unity Catalog.
Para empezar a visualizar información a partir de los datos de AI Gateway, descargue el panel de puerta de enlace de AI de ejemplo desde GitHub. Este panel aprovecha los datos de las tablas de inferencia de registro de carga y seguimiento de uso.
Después de descargar el archivo JSON, importe el panel en el área de trabajo. Para obtener instrucciones sobre cómo importar paneles, consulte Importar un archivo de panel.
AI Gateway admite las siguientes características:
- Limitación de permisos y volumen para controlar quién tiene acceso y en qué nivel.
- Registro de carga para supervisar y auditar los datos que se envían a las API de modelo mediante tablas de inferencia.
- Seguimiento de uso para supervisar el uso operativo en puntos de conexión y costes asociados mediante tablas del sistema.
- AI Guardrails para evitar datos no deseados y datos no seguros en solicitudes y respuestas.
- Enrutamiento del tráfico para minimizar las interrupciones de producción durante y después de la implementación.
Mosaic AI Gateway incurre en cargos por característica habilitada. Durante la versión preliminar, estas características de pago incluyen los límites de protección de IA, registro de carga y seguimiento de uso. Las características como los permisos de consulta, la limitación de velocidad y el enrutamiento del tráfico son gratuitos. Las nuevas características están sujetas a cargos.
En la tabla siguiente se refleja la tasa de tokens de unidades de Databricks por millón (M) para las características de puerta de enlace de IA de pago. Los cargos se enumeran en la SKU Serverless Real-time Inference
.
Característica | Tasa de DBU |
---|---|
Límites de protección de IA | 21,429 DBU por M tokens |
Registro de carga | 2857 DBU por M tokens |
Seguimiento de uso | 0,571 DBU por M tokens |
Límites de protección de IA
Límites de protección de IA permite a los usuarios configurar y aplicar el cumplimiento de los datos en el nivel de punto de conexión de servicio del modelo y reducir el contenido dañino en las solicitudes enviadas al modelo subyacente. Las solicitudes y respuestas incorrectas se bloquean y se devuelve un mensaje predeterminado al usuario. Vea cómo configurar límites de protección en un punto de conexión de servicio de modelo.
Importante
Los límites de protección de IA solo están disponibles en las regiones que admiten las API de Foundation Model de pago por token.
En la tabla siguiente se resumen los límites de protección configurables.
Límite de protección | Definición |
---|---|
Filtrado de seguridad | El filtrado de seguridad impide que el modelo interactúe con contenido no seguro y dañino, como el crimen violento, autolesiones y el lenguaje inflamatorio. El filtro de seguridad de AI Gateway se crea con Meta Llama 3. Databricks usa Llama Guard 2-8b como filtro de seguridad. Para obtener más información sobre el filtro de seguridad llama Guard y los temas que se aplican al filtro de seguridad, consulte la tarjeta del modelo Meta Llama Guard 2 8B. Llama 3 tiene licencia bajo la licencia LLAMA 3 Community License, Propiedad intelectual de © Meta Platforms, Inc. Todos los derechos reservados. Los clientes son responsables de garantizar el cumplimiento de las licencias de modelo aplicables. |
Detección de información de identificación personal | Los clientes pueden detectar cualquier información confidencial, como nombres, direcciones, números de tarjeta de crédito para los usuarios. Para esta característica, AI Gateway usa Presidio para detectar las siguientes categorías de PII de Estados Unidos: números de tarjeta de crédito, direcciones de correo electrónico, números de teléfono, números de cuenta bancaria y números de seguridad social. El clasificador de DCP puede ayudar a identificar información confidencial o DCP en datos estructurados y no estructurados. Sin embargo, dado que usa mecanismos de detección automatizados, no hay ninguna garantía de que el servicio encuentre toda la información confidencial. Por consiguiente, deben emplearse sistemas y protecciones adicionales. Estos métodos de clasificación se limitan principalmente a las categorías de DCP de EE. UU., como los números de teléfono de EE. UU. y los números de seguridad social. |
Moderación de temas | Funcionalidad para enumerar un conjunto de temas permitidos. Dada una solicitud de chat, este límite de protección marca la solicitud si su tema no está en los temas permitidos. |
Filtrado de palabras clave | Los clientes pueden especificar diferentes conjuntos de palabras clave no válidas para la entrada y la salida. Un posible caso de uso para el filtrado de palabras clave es para que el modelo no hable de competidores. Este límite de protección usa la palabra clave o la coincidencia de cadenas para decidir si la palabra clave existe en el contenido de la solicitud o respuesta. |
Uso de AI Gateway
Puede configurar las características de AI Gateway en los puntos de conexión de servicio del modelo mediante la interfaz de usuario de servicio. Consulte Configuración de AI Gateway en puntos de conexión de servicio de modelos.
Limitaciones
Las siguientes limitaciones se aplican durante la versión preliminar:
- AI Gateway solo se admite para los puntos de conexión de servicio de modelos que atienden modelos externos.
- Cuando se usan límites de protección, el tamaño del lote de solicitud, que es un tamaño de lote de incrustaciones, un tamaño de lote de finalizaciones o el parámetro
n
de las solicitudes de chat, no puede superar 16.