Notes
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cet article décrit le Mosaic AI Gateway, la solution Databricks permettant de gérer et de surveiller l'accès aux modèles d'IA génératifs pris en charge et à leurs points de terminaison de service du modèle associés.
Qu’est-ce que Mosaic AI Gateway ?
Mosaïque AI Gateway est conçu pour simplifier l’utilisation et la gestion des modèles et agents d’INTELLIGENCE artificielle générative au sein d’une organisation. Ce service centralisé permet d’assurer la gouvernance, la surveillance et la préparation à la production des points de terminaison de service de modèle. Il vous permet également d’exécuter, sécuriser et régir le trafic IA afin de démocratiser et d’accélérer l’adoption de l’IA au sein de votre organisation.
Toutes les données sont consignées dans des tables Delta dans Unity Catalog.
Pour commencer à visualiser les aperçus de vos données AI Gateway, téléchargez l’exemple de tableau de bord AI Gateway sur GitHub. Ce tableau de bord exploite les données des tables d’inférence de suivi de l’utilisation et de journalisation des charges utiles.
Après avoir téléchargé le fichier JSON, importez le tableau de bord dans votre espace de travail. Pour obtenir des instructions sur l’importation de tableaux de bord, consultez Importer un fichier de tableau de bord.
Fonctionnalités prises en charge
Le tableau suivant définit les fonctionnalités disponibles de la passerelle d'IA et les types de points de terminaison de service de modèle qui les prennent en charge.
Fonctionnalité | Définition | point de terminaison de modèle externe | Point de terminaison de débit provisionné des API Foundation Model | Point de terminaison de paiement par jeton des API du modèle de fondation | Agents Mosaic AI | Point de terminaison de modèle personnalisé |
---|---|---|---|---|---|---|
Limitation des autorisations et des débits | Contrôler qui a accès et combien d’accès. | Soutenu | Soutenu | Soutenu | Non prise en charge | Soutenu |
Journalisation des charges utiles | Surveillez et auditez les données envoyées aux API de modèle à l’aide de tables d’inférence . | Soutenu | Soutenu | Soutenu | Soutenu | Soutenu |
Suivi de l’utilisation | Surveillez l'utilisation opérationnelle et les coûts associés sur les points d'accès en utilisant les tables système . | Soutenu | Soutenu | Soutenu | Non prise en charge | Soutenu |
Garde-fous IA | Empêchez les données indésirables et dangereuses dans les requêtes et les réponses. Consultez Garde-fous IA. | Soutenu | Soutenu | Soutenu | Non prise en charge | Non prise en charge |
Options de Repli | Réduisez les pannes de production pendant et après le déploiement. | Soutenu | Non prise en charge | Non prise en charge | Non prise en charge | Non prise en charge |
Fractionnement du trafic | Équilibrez le trafic de charge entre les modèles. | Soutenu | Soutenu | Non prise en charge | Non prise en charge | Soutenu |
Mosaic AI Gateway est facturé sur la base des fonctionnalités activées. Les fonctionnalités payantes incluent la journalisation des charges utiles et le suivi de l’utilisation. Les fonctionnalités telles que les autorisations de requête, la limitation de débit, les secours et le fractionnement du trafic sont gratuites. Toutes les nouvelles fonctionnalités sont soumises à facturation.
Garde-fous IA
Important
Cette fonctionnalité est disponible en préversion publique.
Les Garde-fous IA permettent aux utilisateurs de configurer et d’appliquer la conformité des données au niveau du point de terminaison de service de modèle et de réduire les contenus nuisibles sur toutes les requêtes envoyées au modèle sous-jacent. Les demandes et les réponses incorrectes sont bloquées et un message par défaut est renvoyé à l’utilisateur. Consultez Comment configurer les garde-fous sur un point de terminaison de service de modèle.
Important
Le service de modération AI Guardrails a une dépendance envers les API de modèles de base fonctionnant sur des modèles de paiement par jeton. Cette dépendance limite la disponibilité du service de modération AI Guardrails aux régions qui prennent en charge les API Foundation Model (pay-per-token).
Le tableau suivant résume les garde-fous configurables. Consultez Limitations.
Remarque
Après le 30 mai 2025, la modération des rubriques et le filtrage de mots clés par les garde-fous d'IA ne sont plus pris en charge. Si ces fonctionnalités sont nécessaires pour vos flux de travail, contactez votre équipe de compte Databricks pour participer à la préversion privée des garde-fous personnalisés.
Garde-fou | Définition |
---|---|
Filtrage de sécurité | Le filtrage de sécurité empêche votre modèle d’interagir avec des contenus dangereux et nuisibles, comme la criminalité violente, l’automutilation et les discours haineux. Le filtre de sécurité AI Gateway est conçu avec Llama 3 de Meta. Databricks utilise Llama Guard 2-8b comme filtre de sécurité. Pour en savoir plus sur le filtre de sécurité Llama Guard et les thèmes qui s’appliquent au filtre de sécurité, consultez la carte de modèle Meta Llama Guard 2 8B. Meta Llama 3 est concédé sous la licence de la communauté LLAMA 3, Copyright © Meta Platforms, Inc. Tous droits réservés. Il incombe aux clients de veiller au respect des licences des modèles applicables. |
Détection d’informations d’identification personnelle | Les clients peuvent détecter toutes les informations sensibles comme les noms, adresses et numéros de carte de crédit des utilisateurs. Pour cette fonctionnalité, AI Gateway utilise Presidio pour détecter les catégories américaines de PII suivantes : numéros de carte de crédit, adresses électroniques, numéros de téléphone, numéros de compte bancaire et numéros de sécurité sociale. Le classifieur de PII peut aider à identifier les informations sensibles ou PII dans les données structurées et non structurées. Toutefois, comme le service utilise des mécanismes de détection automatisés, nous ne pouvons pas garantir qu’il trouvera toutes les informations sensibles. Des systèmes et protections supplémentaires doivent donc être mis en place. Ces méthodes de classification sont principalement adaptées aux catégories de PII américaines, telles que les numéros de téléphone et les numéros de sécurité sociale américains. |
Utiliser la passerelle AI Gateway
Vous pouvez configurer les fonctionnalités AI Gateway sur vos points de terminaison de service de modèle à l’aide de l’interface utilisateur de service. Consultez Configurer AI Gateway sur des points de terminaison de service de modèle.
Limitations de
Voici les limitations pour les points de terminaison compatibles avec la passerelle AI :
- Lorsque des garde-fous d'IA sont utilisés, la taille du lot de requête, c'est-à-dire une taille de lot d'intégrations, une taille de lot de complétions, ou le paramètre
n
des demandes de conversation, ne peut pas dépasser 16. - Pour les charges de travail de débit provisionnées, seules la limitation de débit et la journalisation des charges utiles à l’aide de tables d’inférence compatibles AI Gateway sont prises en charge.
- Si vous utilisez fonction appelant et spécifiez des garde-fous IA, ces garde-fous ne sont pas appliqués aux requêtes et aux réponses intermédiaires de la fonction. Toutefois, les garde-fous sont appliqués à la réponse de sortie finale.
- Les charges de travail de texte à image ne sont pas prises en charge.
- Seul le suivi de l'utilisation est pris en charge pour les charges de travail d'inférence par lots sur les points de terminaison fonctionnant avec un paiement par jeton et utilisant les fonctionnalités de la passerelle AI. Dans la
endpoint_usage
table système, seules les lignes correspondant à la demande d’inférence par lot sont visibles. - Les garde-fous et les solutions de secours de l'IA ne sont pas pris en charge sur les points de terminaison de service de modèles personnalisés.
- Pour les points de terminaison de service de modèle personnalisé, seules les charges de travail qui ne sont pas optimisées pour le routage prennent en charge la limitation du débit et le suivi de l'utilisation.
- Les tables d’inférence pour les points de terminaison de service de modèle avec optimisation pour le routage sont en Préversion publique.