Types de déploiement Azure OpenAI

Article
09/24/2024

Azure OpenAI permet aux clients de choisir la structure d’hébergement qui correspond à leurs modèles d’entreprise et d’utilisation. Le service propose deux principaux types de déploiement : standard et approvisionné. Standard est proposé avec une option de déploiement mondial qui permet d’acheminer le trafic à l’échelle mondiale pour fournir un débit plus élevé. Le niveau Approvisionné est également offert avec une option de déploiement global, ce qui permet aux utilisateurs d’acheter et de déployer des unités de débit approvisionnées sur l’ensemble de l’infrastructure globale Azure. Tous les déploiements peuvent effectuer exactement les mêmes opérations d’inférence, mais la facturation, la mise à l’échelle et les performances sont sensiblement différentes. Dans le cadre de votre conception de solution, vous devez prendre deux décisions clés :

Besoins de résidence des données : ressources mondiales versus régionales
Volume d’appel : standard versus approvisionné

Types de déploiement mondial versus régional

Pour les déploiements standard et approvisionné, vous avez le choix entre deux types de configuration dans votre ressource : mondial ou régional. Global-Standard est le point de départ recommandé.

Les déploiements mondiaux tirent parti de l’infrastructure mondiale d’Azure et acheminent dynamiquement le trafic client vers le centre de données avec la meilleure disponibilité pour les demandes d’inférence du client. Cela signifie que vous obtenez les limites de débit initiales les plus élevées et la meilleure disponibilité de modèle avec Global, tout en permettant de fournir notre contrat SLA de durée de bon fonctionnement et notre faible latence. Pour les charges de travail à volumes élevés au-dessus du niveau d’utilisation spécifié sur la norme standard et globale, vous pouvez rencontrer des variations de latence accrues. Pour les clients qui nécessitent une variation de latence moindre lors de l’utilisation de charges de travail importantes, nous vous recommandons d’acheter un débit approvisionné.

Nos déploiements mondiaux conviennent parfaitement à tous les nouveaux modèles et toutes les nouvelles fonctionnalités. Les clients avec de très grandes exigences de débit ont tout intérêt à envisager notre offre de déploiement approvisionné.

Types de déploiement

Azure OpenAI offre trois types de déploiements. Ceux-ci fournissent un niveau varié de fonctionnalités qui offrent des compromis sur le débit, les contrats SLA et le prix. Vous trouverez ci-dessous un résumé des options, suivi d’une description plus détaillée de chacune d’elles.

Offre	Traitement par lots global	Global-Standard	Global–Approvisionné	Standard	approvisionné
Idéale pour	Scoring hors connexion Charges de travail qui ne tiennent pas compte de la latence et qui peuvent être terminées en quelques heures. Pour les cas d’usage qui n’ont pas de conditions de résidence liées au traitement de données.	Point de départ recommandé pour les clients. Standard global a le quota par défaut plus élevé et un plus grand nombre de modèles disponibles que Standard.	Scoring en temps réel pour un grand volume constant. Comprend les engagements et limites les plus élevés. Pour les cas d’utilisation qui n’ont pas d’exigences de résidence liées aux données.	Pour les clients avec des besoins de résidence des données. Optimisé pour un volume bas à moyen.	Scoring en temps réel pour un grand volume constant. Comprend les engagements et limites les plus élevés. Pour les cas d’utilisation avec des exigences liées aux données
Fonctionnement	Traitement hors connexion via des fichiers	Le trafic peut être acheminé n’importe où dans le monde	Le trafic peut être acheminé n’importe où dans le monde
Bien démarrer	Traitement par lots global	Déploiement de modèle	Intégration approvisionnée	Déploiement de modèle	Intégration approvisionnée
Cost	Option la moins chère 50 % de réduction par rapport aux prix Standard global. Accès à tous les nouveaux modèles avec des allocations de quota plus importantes.	Tarification globale du déploiement	Peut permettre de faire des économies sur une utilisation constante	Tarification régionale	Peut permettre de faire des économies sur une utilisation constante
Ce que vous obtenez	Remise importante par rapport à Standard global	Accès facile à tous les nouveaux modèles avec les limites de paiement par appel par défaut les plus élevées. Les clients qui utilisent un volume élevé peuvent noter une plus grande variabilité de la latence	Accédez à un débit élevé et prévisible dans toute l’infrastructure globale Azure. Déterminer le débit par unité de débit approvisionnée (PTU) en utilisant la calculatrice de capacité fournie.	Accès facile avec un contrat SLA sur la disponibilité. Optimisé pour les charges de travail à volume bas ou moyen avec une rafale élevée. Les clients avec un volume élevé constant peuvent rencontrer une plus grande variabilité de la latence.	Accès régional avec un débit très élevé et prévisible. Déterminer le débit par PTU à l’aide de la calculatrice de capacité fournie
Ce que vous n’avez pas	❌Performances d’appel en temps réel ❌Garantie de traitement de données Les données stockées au repos restent dans la géographie Azure désignée, mais le traitement des données pour inférence est possible dans n’importe quel emplacement Azure OpenAI. En savoir plus sur la résidence des données	❌Garantie de traitement de données Les données stockées au repos restent dans la géographie Azure désignée, mais le traitement des données pour inférence est possible dans n’importe quel emplacement Azure OpenAI. En savoir plus sur la résidence des données	❌Flexibilité du paiement par appel ❌Garantie de traitement de données Les données stockées au repos restent dans la géographie Azure désignée, mais le traitement des données pour inférence est possible dans n’importe quel emplacement Azure OpenAI. En savoir plus sur la résidence des données	❌Volume élevé avec une latence faible constante	❌Flexibilité du paiement par appel
Latence par appel	Non applicable (processus asynchrone basé sur des fichiers)	Optimisé pour les appels en temps réel et l’utilisation de volume bas à moyen. Les clients qui utilisent un volume élevé peuvent noter une plus grande variabilité de la latence. Seuil défini par modèle	Optimisé pour les appels en temps réel et l’utilisation d’un volume élevé.	Optimisé pour les appels en temps réel et l’utilisation de volume bas à moyen. Les clients qui utilisent un volume élevé peuvent noter une plus grande variabilité de la latence. Seuil défini par modèle	Optimisé pour les appels en temps réel et l’utilisation d’un volume élevé.
Nom de référence SKU dans le code	`GlobalBatch`	`GlobalStandard`	`GlobalProvisionedManaged`	`Standard`	`ProvisionedManaged`
Modèle de facturation	Paiement par jeton	Paiement par jeton	Facturation horaire avec achat facultatif de réservations mensuelles ou annuelles	Paiement par jeton	Facturation horaire avec achat facultatif de réservations mensuelles ou annuelles

approvisionné

Les déploiements approvisionnés vous permettent de spécifier la quantité de débit dont vous avez besoin dans un déploiement. Le service alloue ensuite la capacité de traitement du modèle nécessaire et garantit qu’elle est prête pour votre utilisation. Le débit est défini en termes d’unités de débit approvisionnées (PTU), ce qui est une façon normalisée de représenter le débit pour votre déploiement. Chaque paire modèle-version nécessite des quantités différentes de PTU afin de déployer et de fournir des quantités différentes de débit par PTU. Pour en savoir plus, consultez notre article sur les concepts du débit approvisionné.

Standard

Les déploiements standard fournissent un modèle de facturation de paiement par appel sur le modèle choisi. Fournit le moyen le plus rapide de commencer, car vous payez uniquement ce que vous consommez. Les modèles disponibles dans chaque région ainsi que le débit peuvent être limités.

Les déploiements standard sont optimisés pour les charges de travail à volume bas ou moyen avec une rafale élevée. Les clients avec un volume élevé constant peuvent rencontrer une plus grande variabilité de la latence.

Standard global

Important

Les données stockées au repos restent dans la géographie Azure désignée, mais le traitement des données pour inférence est possible dans n’importe quel emplacement Azure OpenAI. En savoir plus sur la résidence des données.

Les déploiements mondiaux sont disponibles dans les mêmes ressources Azure OpenAI que les types de déploiements non mondiaux, mais ils vous permettent de tirer parti de l’infrastructure mondiale d’Azure pour router dynamiquement le trafic vers le centre de données avec la meilleure disponibilité pour chaque requête. L’option Mondial Standard fournit le quota par défaut le plus élevé et élimine la nécessité d’équilibrer la charge entre plusieurs ressources.

Les clients avec un volume élevé constant peuvent rencontrer une plus grande variabilité de la latence. Le seuil est défini par modèle. Consultez la page des quotas pour en savoir plus. Pour les applications qui nécessitent une variation de latence moindre lors de l’utilisation de charges de travail importantes, nous vous recommandons d’acheter un débit approvisionné.

Approvisionné global

Important

Les déploiements mondiaux sont disponibles dans les mêmes ressources Azure OpenAI que les types de déploiements non mondiaux, mais ils vous permettent de tirer parti de l’infrastructure mondiale d’Azure pour router dynamiquement le trafic vers le centre de données avec la meilleure disponibilité pour chaque requête. Les déploiements approvisionnés globaux fournissent une capacité de traitement de modèle réservée pour le débit élevé et prévisible en utilisant une infrastructure globale Azure.

Traitement par lots global

Important

Le traitement par lots global est conçu pour gérer efficacement les tâches de traitement à grande échelle et à volume élevé. Traitez les groupes asynchrones de requêtes avec un quota distinct, avec un délai d’exécution cible de 24 heures, à un coût 50 % inférieur au type Standard global. Avec le traitement par lots, plutôt que d’envoyer une seule requête à la fois, vous envoyez un grand nombre de requêtes dans un seul fichier. Les requêtes de traitement par lots global ont un quota de jetons empilés distinct qui évite toute interruption de vos charges de travail en ligne.

Les principaux cas d’utilisation sont les suivants :

Traitement de données à grande échelle : analysez rapidement des jeux de données étendus en parallèle.
Génération de contenu : créez des volumes de texte importants, notamment des descriptions de produits ou des articles.
Révision et résumé de documents : automatisez la révision et le résumé de documents longs.
Automatisation du service clientèle : gérez simultanément de nombreuses requêtes pour obtenir des réponses plus rapides.
Extraction et analyse des données : extrayez et analysez des informations provenant de vastes quantités de données non structurées.
Tâches de traitement du langage naturel (NLP) : effectuez par exemple des tâches d’analyse des sentiments ou de traduction sur de grands jeux de données.
Marketing et personnalisation : générez du contenu et des suggestions personnalisés à grande échelle.

Comment désactiver l’accès aux déploiements mondiaux dans votre abonnement

Azure Policy aide à appliquer les normes organisationnelles et à évaluer la conformité à l’échelle. Avec son tableau de bord de conformité, il fournit une vue agrégée permettant d’évaluer l’état général de l’environnement, avec la possibilité d’explorer au niveau de chaque ressource et stratégie. Il vous aide également à mettre vos ressources en conformité par le biais de la correction en bloc pour les ressources existantes et de la correction automatique pour les nouvelles ressources. En savoir plus sur Azure Policy et les contrôles intégrés spécifiques pour les services d’IA.

Vous pouvez utiliser la stratégie suivante pour désactiver l’accès aux déploiements mondiaux standard Azure OpenAI. Pour désactiver l’accès aux déploiements par lots globaux ou approvisionnés globaux Azure, remplacez GlobalStandard par GlobalProvisionedManaged ou GlobalBatch pour le nom de référence SKU prévue.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

Déployer des modèles

Pour découvrir la création de ressources et le déploiement de modèles, reportez-vous au guide de création de ressources.

Partager via

Types de déploiement Azure OpenAI

Types de déploiement mondial versus régional

Types de déploiement

approvisionné

Standard

Standard global

Approvisionné global

Traitement par lots global

Comment désactiver l’accès aux déploiements mondiaux dans votre abonnement

Déployer des modèles

Voir aussi

Commentaires

Ressources supplémentaires