Considérations relatives à la continuité d’activité et reprise d’activité (BCDR) pour Azure OpenAI Service

Azure OpenAI est disponible dans plusieurs régions. Lorsque vous créez une ressource Azure OpenAI, vous spécifiez une région. Ensuite, votre ressource et toutes ses opérations restent associées à cette région de serveur Azure.

Il est rare, mais pas impossible, de rencontrer un problème réseau qui touche une région entière. Si votre service doit toujours être disponible, vous devez le concevoir pour qu’il bascule vers une autre région ou qu’il répartisse la charge de travail entre deux régions ou plus. Les deux approches nécessitent au moins deux ressources Azure OpenAI dans différentes régions. Cet article fournit des recommandations générales sur l’implémentation de la continuité d’activité et de la récupération d’urgence (BCDR) pour vos applications Azure OpenAI.

La continuité d'activité et reprise d'activité requiert du code personnalisé

Aujourd’hui, les clients appellent le point de terminaison fourni lors du déploiement pour l’inférence. Les opérations d'inférence sont sans état, de sorte qu'aucune donnée n'est perdue si une région devient indisponible.

Si une région n’est pas opérationnelle, les clients doivent prendre des mesures pour garantir la continuité des services.

BCDR pour le modèle personnalisé et le modèle de base

Si vous utilisez les modèles de base, vous devez configurer votre code client pour surveiller les erreurs et, si celles-ci persistent, être prêt à rediriger vers une autre région de votre choix où vous disposez d'un abonnement Azure OpenAI.

Pour configurer votre client afin de surveiller les erreurs, procédez comme suit :

  1. Utilisez la page modèles pour choisir les centres de données et les régions qui vous conviennent.

  2. Sélectionnez un serveur principal et une (ou plusieurs) régions secondaires/de sauvegarde dans la liste.

  3. Créez des ressources Azure OpenAI pour chaque région(s) sélectionnée(s).

  4. Pour la région principale et toutes les régions de secours, votre code devra connaître :

    • URI de base de la ressource
    • Clé d’accès régionale ou accès Microsoft Entra ID
  5. Configurez votre code pour surveiller les erreurs de connectivité (en général, les délais d’expiration des connexions et les erreurs d’indisponibilité du service).

    • Étant donné que les réseaux rencontrent des erreurs temporaires, pour les occurrences de problème de connectivité uniques, la suggestion est de réessayer.
    • En cas de problèmes de connectivité persistants, redirigez le trafic vers la ressource de secours dans la ou les régions que vous avez créées.

Si vous avez affiné un modèle dans votre région primaire, vous devez réentraîner le modèle de base dans la ou les régions secondaires à l’aide des mêmes données d’entraînement. Puis suivez les étapes ci-dessus.