Partage via


Mosaic AI Gateway

Important

Cette fonctionnalité est disponible en préversion publique.

Cet article décrit Mosaic AI Gateway, la solution Databricks permettant de régir et de surveiller l’accès aux modèles d’IA générative pris en charge et à leurs points de terminaison de service de modèle associés.

Qu’est-ce que Mosaic AI Gateway ?

Mosaic AI Gateway est conçu pour simplifier l’utilisation et la gestion des modèles d’IA générative au sein d’une organisation. Il s’agit d’un service centralisé qui assure la gouvernance, la surveillance et la préparation de la production pour les points de terminaison de service de modèles. Il vous permet également d’exécuter, de sécuriser et de régir le trafic d’IA pour démocratiser et accélérer l’adoption de l’IA pour votre organisation.

Toutes les données sont consignées dans des tables Delta dans Unity Catalog.

Pour commencer à visualiser des insights à partir de vos données AI Gateway, téléchargez l’exemple de tableau de bord de passerelle AI à partir de GitHub. Ce tableau de bord tire parti des données des tables d’inférence de suivi de l’utilisation et de la charge utile.

Une fois le fichier JSON téléchargé, importez le tableau de bord dans votre espace de travail. Pour obtenir des instructions sur l’importation de tableaux de bord, consultez Importer un fichier de tableau de bord.

AI Gateway prend en charge les fonctionnalités suivantes :

  • Autorisation et limitation de débit pour contrôler qui a accès et le volume d’accès.
  • Journalisation de charge utile pour surveiller et auditer les données envoyées aux API de modèle à l’aide de tables d’inférence.
  • Suivi de l’utilisation pour surveiller l’utilisation opérationnelle sur les points de terminaison et les coûts associés à l’aide de tables système.
  • AI Guardrails pour empêcher les données indésirables et les données non sécurisées dans les requêtes et les réponses.
  • Routage du trafic pour réduire les pannes de production pendant et après le déploiement.

Mosaic AI Gateway entraîne des frais basés sur les fonctionnalités activées. Pendant la préversion, ces fonctionnalités payantes incluent les garde-fous d’IA, la journalisation des charges utiles et le suivi de l’utilisation. Les fonctionnalités telles que les autorisations de requêtes, la limitation de débit et le routage du trafic sont gratuites. Toutes les nouvelles fonctionnalités sont facturées.

Le tableau suivant reflète le taux de jetons d’unités Databricks (DBU) par million de jetons (M) pour les fonctionnalités IA Gateway payantes. Les frais sont répertoriés sous la référence SKU Serverless Real-time Inference.

Fonctionnalité Taux de DBU
Garde-fous d’IA 21 429 DBU par million de jetons
Journalisation des charges utiles 2 857 DBU par million de jetons
Suivi de l’utilisation 0,571 DBU par million de jetons

Garde-fous d’IA

Les garde-fous IA permettent aux utilisateurs de configurer et d’appliquer la conformité des données au niveau du point de terminaison de service du modèle et de réduire le contenu dangereux sur toutes les requêtes envoyées au modèle sous-jacent. Les demandes et réponses incorrectes sont bloquées et un message par défaut est envoyé à l’utilisateur. Consultez Comment configurer des garde-fous sur un point de terminaison de service de modèle.

Important

Les garde-fous d’IA sont disponibles uniquement dans les régions qui prennent en charge les API Foundation Model avec paiement par jeton.

Le tableau suivant récapitule les garde-fous configurables.

Garde-fou Définition
Filtrage de sécurité Le filtrage de sécurité empêche votre modèle d’interagir avec le contenu non sécurisé et dangereux comme le crime violent, l’automutilation et les discours de haine.

Le filtre de sécurité AI Gateway est créé avec Meta Llama 3. Databricks utilise Llama Guard 2-8b comme filtre de sécurité. Pour en savoir plus sur le filtre de sécurité Llama Guard et les rubriques qui s’appliquent au filtre de sécurité, consultez la carte de modèle Meta Llama Guard 2 8B.

Meta Llama 3 est concédé sous licence de la communauté LLAMA 3, Copyright © Meta Platforms, Inc. Tous droits réservés. Les clients sont tenus de d’assurer de leur conformité vis-à-vis des licences de modèle applicables.
Détection d’informations identifiables personnellement (PII) Les clients peuvent détecter toutes les informations sensibles telles que les noms, les adresses, les numéros de carte de crédit pour les utilisateurs.

Pour cette fonctionnalité, AI Gateway utilise Presidio pour détecter les catégories d’informations personnelles suivantes : numéros de carte de crédit, adresses e-mail, numéros de téléphone, numéros de compte bancaire et numéros de sécurité sociale suivants.

Le classifieur de PII peut aider à identifier les informations sensibles ou PII dans des données structurées et non structurées. Toutefois, étant donné qu’il utilise des mécanismes de détection automatisés, il n’y a aucune garantie que le service trouvera toutes les informations sensibles. Par conséquent, des systèmes et des protections supplémentaires doivent être utilisés.

Ces méthodes de classification sont principalement étendues aux catégories de PII des États-Unis telles que les numéros de téléphone et les numéros de sécurité sociale des États-Unis.
Modération des sujets Possibilité de répertorier un ensemble de sujets autorisés. Lors d’une demande de conversation, ce garde-fou signale la demande si son sujet ne figure pas parmi les sujets autorisés.
Filtrage de mots clés Les clients peuvent spécifier différents ensembles de mots clés non valides pour l’entrée et la sortie. Un cas d’utilisation potentiel pour le filtrage de mots clés consiste à faire en sorte que le modèle n’évoque pas les concurrents.

Ce garde-fou utilise la correspondance de mots clés ou de chaînes pour déterminer si le mot clé existe dans le contenu de la demande ou de la réponse.

Utiliser IA Gateway

Vous pouvez configurer des fonctionnalités de AI Gateway sur vos points de terminaison de service de modèle à l’aide de l’interface utilisateur de service. Consultez Configurer AI Gateway sur les points de terminaison de service de modèle.

Limites

Les limitations suivantes s’appliquent pendant la préversion :

  • AI Gateway est uniquement pris en charge pour les points de terminaison de service de modèle qui servent des modèles externes.
  • Lorsque des garde-fous sont utilisés, la taille du lot de demandes, c’est-à-dire une taille de lot incorporée, la taille du lot d’achèvements ou le paramètre n des demandes de conversation, ne peut pas dépasser 16.