API Temps réel GPT-4o pour les messages et l’audio (préversion)
L’API Temps réel GPT-4o d’Azure OpenAI pour les messages et l’audio fait partie de la famille de modèles GPT-4o qui prend en charge les interactions conversationnelles à latence faible « entrée vocale, sortie vocale ». L’API Audio realtime
GPT-4o est conçue pour gérer les interactions conversationnelles en temps réel et à latence faible, ce qui en fait un excellent choix pour les cas d’usage impliquant des interactions directes entre un utilisateur et un modèle, comme des agents d’un service clientèle, des assistants vocaux et des traducteurs en temps réel.
La plupart des utilisateurs de l’API Temps réel doivent fournir et recevoir de l’audio d’un utilisateur final en temps réel, y compris des applications qui utilisent WebRTC ou un système de téléphonie. L’API Temps réel n’est pas conçue pour se connecter directement aux appareils des utilisateurs finaux et s’appuie sur des intégrations de clients pour mettre fin aux flux audio des utilisateurs finaux.
Modèles pris en charge
Actuellement, seul gpt-4o-realtime-preview
version 2024-10-01-preview
prend en charge l’audio en temps réel.
Le modèle gpt-4o-realtime-preview
est disponible pour les déploiements globaux dans les régions USA Est 2 et Suède Centre.
Important
Le système stocke vos prompts et vos complétions comme décrit dans la section « Utilisation et accès aux données pour la surveillance des abus » des conditions du produit spécifiques au service pour Azure OpenAI Service, sauf que l’exception limitée ne s’applique pas. La surveillance des abus sera activée pour l’utilisation de l’API gpt-4o-realtime-preview
même pour les clients qui sont par ailleurs approuvés pour la surveillance modifiée des abus.
Prise en charge des API
La prise en charge de l’API Temps réel a été ajoutée pour la première fois dans la version 2024-10-01-preview
de l’API.
Remarque
Pour plus d’informations sur l’API et l’architecture, consultez le dépôt Audio en temps réel GPT-4o d’Azure OpenAI sur GitHub.
Prérequis
- Un abonnement Azure : créez-en un gratuitement.
- Une ressource Azure OpenAI créée dans une région prise en charge. Pour plus d’informations, consultez l’article Créer une ressource et déployer un modèle à l’aide d’Azure OpenAI.
Déployer un modèle pour l’audio en temps réel
Avant de pouvoir utiliser l’audio en temps réel GPT-4o, vous avez besoin d’un déploiement du modèle gpt-4o-realtime-preview
dans une région prise en charge, comme décrit dans la section Modèles pris en charge.
Vous pouvez déployer le modèle depuis le catalogue de modèles Azure AI Studio ou depuis votre projet dans AI Studio. Procédez comme suit pour déployer un modèle gpt-4o-realtime-preview
depuis le catalogue de modèles :
- Connectez-vous à AI Studio et accédez à la page Accueil .
- Sélectionnez catalogue de modèles dans la barre latérale gauche.
- Recherchez et sélectionnez le modèle
gpt-4o-realtime-preview
dans la collection Azure OpenAI. - Sélectionnez Déployer pour ouvrir la fenêtre de déploiement.
- Entrez un nom de déploiement et sélectionnez une ressource Azure OpenAI.
- Sélectionnez
2024-10-01
dans la liste déroulante Version du modèle. - Modifiez d’autres paramètres par défaut en fonction de vos besoins.
- Sélectionnez Déployer. Vous arrivez dans la page des détails du déploiement.
Maintenant que vous disposez d’un déploiement du modèle gpt-4o-realtime-preview
, vous pouvez utiliser le terrain de jeu audio en temps réel d’AI Studio ou l’API en temps réel pour interagir avec lui en temps réel.
Utiliser l’audio en temps réel GPT-4o
Conseil
Pour l’instant, le moyen le plus rapide de commencer le développement avec l’API Temps réel GPT-4o est de télécharger l’exemple de code depuis le dépôt Audio en temps réel GPT-4o d’Azure OpenAI sur GitHub.
Pour discuter avec votre modèle gpt-4o-realtime-preview
déployé dans le terrain de jeu audio en temps réel d’Azure AI Studio, procédez comme suit :
Accédez à votre projet dans Azure AI Studio.
Sélectionnez Terrains de jeu>Audio en temps réel dans le volet gauche.
Sélectionnez votre modèle
gpt-4o-realtime-preview
déployé dans la liste déroulante Déploiement.Sélectionnez Activer le microphone pour autoriser le navigateur à accéder à votre microphone. Si vous avez déjà accordé l’autorisation, vous pouvez ignorer cette étape.
Si vous le souhaitez, vous pouvez modifier le contenu dans la zone de texte Donner des instructions et du contexte au modèle. Fournissez au modèle des instructions sur son comportement et sur tout contexte qu’il doit référencer en générant une réponse. Vous pouvez décrire la personnalité de l’assistant, lui dire ce qu’il doit et ne doit pas répondre, et lui indiquer comment formater les réponses.
Si vous le souhaitez, modifiez les paramètres tels que le seuil, le remplissage de préfixes et la durée du silence.
Sélectionnez Démarrer l’écoute pour démarrer la session. Vous pouvez parler dans le microphone pour démarrer une conversation.
Vous pouvez interrompre la conversation à tout moment en parlant. Vous pouvez mettre fin à la conversation en sélectionnant le bouton Arrêter l’écoute.
L’exemple web JavaScript montre comment utiliser l’API Temps réel GPT-4o pour interagir avec le modèle en temps réel. L’exemple de code inclut une interface web simple qui capture l’audio à partir du microphone de l’utilisateur et l’envoie au modèle pour traitement. Le modèle répond avec du texte et de l’audio, que l’exemple de code affiche dans l’interface web.
Vous pouvez exécuter l’exemple de code localement sur votre ordinateur en suivant ces étapes. Reportez-vous au dépôt sur GitHub pour obtenir les instructions les plus à jour.
Si vous n’avez pas installé Node.js, téléchargez et installez la version LTS de Node.js.
Clonez le dépôt sur votre machine locale :
git clone https://github.com/Azure-Samples/aoai-realtime-audio-sdk.git
Accédez au dossier
javascript/samples/web
dans votre éditeur de code préféré.cd ./javascript/samples
Exécutez
download-pkg.ps1
oudownload-pkg.sh
pour télécharger les packages requis.Accédez au dossier
web
du dossier./javascript/samples
.cd ./web
Exécutez
npm install
pour installer les dépendances du package.Exécutez
npm run dev
pour démarrer le serveur web, en accédant à toutes les invites des autorisations du pare-feu selon vos besoins.Accédez à une des URI fournies dans la sortie de la console (par exemple
http://localhost:5173/
) dans un navigateur.Entrez les informations suivantes dans l’interface web :
- Point de terminaison : le point de terminaison de ressource d’une ressource Azure OpenAI. Vous n’avez pas besoin d’ajouter le chemin d’accès
/realtime
. Un exemple de structure seraithttps://my-azure-openai-resource-from-portal.openai.azure.com
. - Clé API : une clé API correspondante pour la ressource Azure OpenAI.
- Déploiement : le nom du modèle
gpt-4o-realtime-preview
que vous avez déployé dans la section précédente. - Message système : si vous le souhaitez, vous pouvez fournir un message système tel que « Vous parlez toujours comme un pirate amical. ».
- Température : si vous le souhaitez, vous pouvez fournir une température personnalisée.
- Voix : si vous le souhaitez, vous pouvez sélectionner une voix.
- Point de terminaison : le point de terminaison de ressource d’une ressource Azure OpenAI. Vous n’avez pas besoin d’ajouter le chemin d’accès
Sélectionnez le bouton Enregistrer pour démarrer la session. Si vous y êtes invité, acceptez les autorisations d’utilisation de votre microphone.
Vous devez voir un message
<< Session Started >>
dans la sortie principale. Vous pouvez ensuite parler dans le microphone pour démarrer une conversation.Vous pouvez interrompre la conversation à tout moment en parlant. Vous pouvez mettre fin à la conversation en sélectionnant le bouton Arrêter.
Contenu connexe
- En savoir plus sur les types de déploiement Azure OpenAI
- En savoir plus sur les quotas et limites Azure OpenAI