Types de déploiement Azure OpenAI

Article
05/24/2024

Azure OpenAI permet aux clients de choisir la structure d’hébergement qui correspond à leurs modèles d’entreprise et d’utilisation. Le service propose deux principaux types de déploiement : standard et approvisionné. Standard est proposé avec une option de déploiement mondial qui permet d’acheminer le trafic à l’échelle mondiale pour fournir un débit plus élevé. Tous les déploiements peuvent effectuer exactement les mêmes opérations d’inférence, mais la facturation, la mise à l’échelle et les performances sont sensiblement différentes. Dans le cadre de votre conception de solution, vous devez prendre deux décisions clés :

Besoins de résidence des données : ressources mondiales versus régionales
Volume d’appel : standard versus approvisionné

Types de déploiement mondial versus régional

Pour les déploiements standard, vous avez le choix entre deux types de configuration dans votre ressource – mondial ou régional. Mondial Standard est le point de départ recommandé pour le développement et l’expérimentation. Les déploiements mondiaux tirent parti de l’infrastructure mondiale d’Azure et acheminent dynamiquement le trafic client vers le centre de données avec la meilleure disponibilité pour les demandes d’inférence du client. Avec les déploiements mondiaux, les limites de débit initiales sont plus élevées, même si votre latence peut varier à des niveaux d’utilisation élevés. Pour les clients qui nécessitent une variation de latence moindre lors de l’utilisation de charges de travail importantes, nous vous recommandons d’acheter un débit approvisionné.

Nos déploiements mondiaux conviennent parfaitement à tous les nouveaux modèles et toutes les nouvelles fonctionnalités. Les clients avec de très grandes exigences de débit ont tout intérêt à envisager notre offre de déploiement approvisionné.

Types de déploiement

Azure OpenAI offre trois types de déploiements. Ceux-ci fournissent un niveau varié de fonctionnalités qui offrent des compromis sur le débit, les contrats SLA et le prix. Vous trouverez ci-dessous un résumé des options, suivi d’une description plus détaillée de chacune d’elles.

Offre	Mondial-Standard¹	Standard	approvisionné
Idéale pour	Applications qui n’ont pas besoin de résidence des données. Point de départ recommandé pour les clients.	Pour les clients avec des besoins de résidence des données. Optimisé pour un volume bas à moyen.	Scoring en temps réel pour un grand volume constant. Comprend les engagements et limites les plus élevés.
Fonctionnement	Le trafic peut être acheminé n’importe où dans le monde
Bien démarrer	Déploiement de modèle	Déploiement de modèle	Intégration approvisionnée
Cost	Ligne de base	Tarification régionale	Peut permettre de faire des économies sur une utilisation constante
Ce que vous obtenez	Accès facile à tous les nouveaux modèles avec les limites de paiement par appel par défaut les plus élevées. Les clients qui utilisent un volume élevé peuvent noter une plus grande variabilité de la latence	Accès facile avec un contrat SLA sur la disponibilité. Optimisé pour les charges de travail à volume bas ou moyen avec une rafale élevée. Les clients avec un volume élevé constant peuvent rencontrer une plus grande variabilité de la latence.	Accès régional avec un débit très élevé et prévisible. Déterminer le débit par PTU à l’aide de la calculatrice de capacité fournie
Ce que vous n’avez pas	❌Garanties de résidence des données	❌Volume élevé avec une latence faible constante	❌Flexibilité du paiement par appel
Latence par appel	Optimisé pour les appels en temps réel et l’utilisation de volume bas à moyen. Les clients qui utilisent un volume élevé peuvent noter une plus grande variabilité de la latence. Seuil défini par modèle	Optimisé pour les appels en temps réel et l’utilisation de volume bas à moyen. Les clients qui utilisent un volume élevé peuvent noter une plus grande variabilité de la latence. Seuil défini par modèle	Optimisé pour le temps réel.
Nom de référence SKU dans le code	`GlobalStandard`	`Standard`	`ProvisionedManaged`
Modèle de facturation	Paiement par jeton	Paiement par jeton	Engagements mensuels

¹ Le type de déploiement mondial-standard est actuellement en préversion.

approvisionné

Les déploiements approvisionnés vous permettent de spécifier la quantité de débit dont vous avez besoin dans un déploiement. Le service alloue ensuite la capacité de traitement du modèle nécessaire et garantit qu’elle est prête pour votre utilisation. Le débit est défini en termes d’unités de débit approvisionnées (PTU), ce qui est une façon normalisée de représenter le débit pour votre déploiement. Chaque paire modèle-version nécessite des quantités différentes de PTU afin de déployer et de fournir des quantités différentes de débit par PTU. Pour en savoir plus, consultez notre article sur les concepts du débit approvisionné.

Standard

Les déploiements standard fournissent un modèle de facturation de paiement par appel sur le modèle choisi. Fournit le moyen le plus rapide de commencer, car vous payez uniquement ce que vous consommez. Les modèles disponibles dans chaque région ainsi que le débit peuvent être limités.

Les déploiements standard sont optimisés pour les charges de travail à volume bas ou moyen avec une rafale élevée. Les clients avec un volume élevé constant peuvent rencontrer une plus grande variabilité de la latence.

Mondial Standard (préversion)

Les déploiements mondiaux sont disponibles dans les mêmes ressources Azure OpenAI que les offres non mondiales, mais vous permettent de tirer parti de l’infrastructure mondiale d’Azure pour acheminer dynamiquement le trafic vers le centre de données avec la meilleure disponibilité pour chaque requête. L’option Mondial Standard fournit le quota par défaut le plus élevé pour les nouveaux modèles et élimine la nécessité d’équilibrer la charge entre plusieurs ressources.

Le type de déploiement est optimisé pour les charges de travail à volume bas ou moyen avec une rafale élevée. Les clients avec un volume élevé constant peuvent rencontrer une plus grande variabilité de la latence. Le seuil est défini par modèle. Consultez la page des quotas pour en savoir plus.

Pour les clients qui nécessitent une variation de latence moindre lors de l’utilisation de charges de travail importantes, nous vous recommandons d’acheter un débit approvisionné.

Comment désactiver l’accès aux déploiements mondiaux dans votre abonnement

Azure Policy aide à appliquer les normes organisationnelles et à évaluer la conformité à l’échelle. Avec son tableau de bord de conformité, il fournit une vue agrégée permettant d’évaluer l’état général de l’environnement, avec la possibilité d’explorer au niveau de chaque ressource et stratégie. Il vous aide également à mettre vos ressources en conformité par le biais de la correction en bloc pour les ressources existantes et de la correction automatique pour les nouvelles ressources. En savoir plus sur Azure Policy et les contrôles intégrés spécifiques pour les services d’IA.

Vous pouvez utiliser la stratégie suivante pour désactiver l’accès aux déploiements mondiaux standard Azure OpenAI.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

Déployer des modèles

Pour découvrir la création de ressources et le déploiement de modèles, reportez-vous au guide de création de ressources.

Partage via