Notes
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Remarque
Cette fonctionnalité est actuellement disponible en préversion publique. Cette préversion est fournie sans contrat de niveau de service et n’est pas recommandée pour les charges de travail de production. Certaines fonctionnalités peuvent être limitées ou non prises en charge. Pour plus d’informations, consultez Conditions d’utilisation supplémentaires pour les préversions de Microsoft Azure.
Qu’est-ce que l’API Voice Live ?
L’API Voice Live est une solution qui permet une faible latence et une haute qualité des interactions vocales pour les agents vocaux. L’API est conçue pour les développeurs recherchant des expériences vocales évolutives et efficaces, car elle élimine la nécessité d’orchestrer manuellement plusieurs composants. En intégrant la reconnaissance vocale, l’IA générative et les fonctionnalités vocales dans une interface unifiée unique, elle fournit une solution de bout en bout pour créer des expériences transparentes.
Présentation des expériences vocales
La technologie speech-to-speech révolutionne la façon dont les humains interagissent avec les systèmes, offrant des solutions vocales intuitives. Les implémentations traditionnelles impliquent la combinaison de modules disparates tels que la reconnaissance vocale, la reconnaissance des intentions, la gestion des dialogues, la synthèse vocale, etc. Ce chaînage peut entraîner une complexité d’ingénierie accrue et une latence perçue par l’utilisateur final.
Avec des avancées dans les modèles de langage volumineux (LLMs) et l’IA modale, l’API Voice Live consolide ces fonctionnalités, ce qui simplifie les flux de travail pour les développeurs. Cette approche améliore les interactions en temps réel et garantit une communication naturelle de haute qualité, ce qui le rend adapté aux secteurs nécessitant des solutions instantanées et vocales.
Scénarios clés pour l’API Voice Live
L’API Azure AI Voice Live est idéale pour les scénarios où les interactions vocales améliorent l’expérience utilisateur. Voici quelques exemples :
- Centres de contacts : développez des bots vocaux interactifs pour le support client, la navigation dans le catalogue de produits et les solutions en libre-service.
- Assistants automobiles : activez les assistants vocaux mains libres, en voiture pour l’exécution des commandes, la navigation et les demandes générales.
- Éducation : Créez des compagnons d’apprentissage compatibles avec la voix et des tuteurs virtuels pour la formation interactive et l’éducation.
- Services publics : Créez des agents vocaux pour aider les citoyens à répondre aux requêtes administratives et aux informations sur les services publics.
- Ressources humaines : améliorez les processus rh avec des outils vocaux pour le support des employés, le développement de carrière et la formation.
Fonctionnalités de l’API Voice Live
L’API Voice Live inclut un ensemble complet de fonctionnalités pour prendre en charge divers cas d’usage et garantir des interactions vocales supérieures :
- Couverture générale des paramètres régionaux : prend en charge plus de 15 paramètres régionaux pour la reconnaissance vocale et offre plus de 600 voix standard sur 140 paramètres régionaux pour la synthèse vocale, ce qui garantit l’accessibilité globale.
- Entrée et sortie personnalisables : utilisez la liste d'expressions pour une personnalisation légère en temps réel sur l'entrée audio. Utilisez des voix personnalisées pour créer des voix uniques et cohérentes avec votre marque pour les sorties audio.
- Options de modèle IA générative flexible : choisissez parmi plusieurs modèles, notamment GPT-4o, GPT-4o-mini et Phi, adaptés aux exigences conversationnelles.
- Fonctionnalités conversationnelles avancées :
- Suppression du bruit : réduit le bruit environnemental pour une communication plus claire.
- Annulation de l’écho : empêche l’agent de récupérer ses propres réponses.
- Détection robuste des interruptions : garantit une reconnaissance précise des interruptions pendant les conversations.
- Détection avancée de fin de tour : permet des pauses naturelles sans conclure prématurément les interactions.
- Intégration d’avatar : fournit des avatars standard ou personnalisables synchronisés avec la sortie audio, offrant une identité visuelle pour les agents vocaux.
- Appel de fonction : active les actions externes, l’utilisation d’outils et les réponses ancrées à l’aide du modèle VoiceRAG.
Fonctionnement
L’API Voice Live est entièrement gérée, ce qui élimine la nécessité pour les clients de gérer l’orchestration back-end ou l’intégration des composants. Les développeurs fournissent des entrées audio et reçoivent des sorties audio, des visuels avatar et des déclencheurs d’action, tous avec une latence minimale. Vous n’avez pas besoin de déployer ou de gérer des modèles d’INTELLIGENCE artificielle générative, car l’API gère toute l’infrastructure sous-jacente.
Conception et compatibilité des API
L’API Azure AI Voice Live est conçue pour la compatibilité avec l’API Azure OpenAI Realtime. Les événements en temps réel pris en charge sont principalement en parité avec les événements d’API En temps réel Azure OpenAI, avec certaines exceptions. Pour plus d’informations, consultez le guide pratique de l’API Voice Live.
Les fonctionnalités propres à l’API Voice Live sont conçues pour être facultatives et additifs. Vous pouvez ajouter des fonctionnalités Azure AI Speech telles que la suppression du bruit, l’annulation de l’écho et la détection avancée de bout en tour à vos applications existantes sans avoir à modifier votre architecture existante.
L’API est prise en charge par le biais d’événements WebSocket, ce qui permet une intégration facile de serveur à serveur. Votre service principal ou intermédiaire se connecte à l’API Voice Live via WebSockets. Vous pouvez utiliser les messages WebSocket directement pour interagir avec l’API.
Modèles et régions pris en charge
Pour alimenter l’intelligence de votre agent vocal, vous avez la flexibilité et le choix dans le modèle d’IA générative entre GPT-4o, GPT-4o-mini et Phi. Différents modèles d’IA générative fournissent différents types de fonctionnalités, de niveaux d’intelligence, de vitesse/latence d’inférence et de coût. Selon ce qui compte le plus pour votre entreprise et votre cas d’usage, vous pouvez choisir le modèle qui convient le mieux à vos besoins.
Tous les modèles pris en charge en mode natif ( GPT-4o, GPT-4o-mini et Phi) sont entièrement gérés, ce qui signifie que vous n’avez pas besoin de déployer des modèles, de vous soucier de la planification de la capacité ou du provisionnement des débits. Vous pouvez simplement utiliser le modèle dont vous avez besoin, et l’API Voice Live s’occupe du reste.
L’API Voice Live prend en charge les modèles et régions suivants :
Modèle | Descriptif | Régions prises en charge |
---|---|---|
gpt-4o-realtime-preview |
GPT-4o realtime + option d’utilisation des voix de synthèse vocale Azure, y compris la voix personnalisée pour l’audio. | eastus2 swedencentral |
gpt-4o-mini-realtime-preview |
GPT-4o mini realtime + option d’utilisation des voix de synthèse vocale Azure, y compris la voix personnalisée pour l’audio. | eastus2 swedencentral |
gpt-4o |
GPT-4o + entrée audio grâce à Azure Speech to Text + sortie audio grâce à Azure Text to Speech, y compris des voix personnalisées. | eastus2 swedencentral |
gpt-4o-mini |
GPT-4o mini + entrée audio par le biais de la reconnaissance vocale Azure + sortie audio via les voix de synthèse vocale Azure, y compris la voix personnalisée. | eastus2 swedencentral |
phi4-mm-realtime |
Phi4-mm + sortie audio via les voix de synthèse vocale Azure, y compris la voix personnalisée. | eastus2 swedencentral |
phi4-mini |
Phi4-mm + entrée audio par le biais de la reconnaissance vocale Azure + sortie audio via les voix de synthèse vocale Azure, y compris la voix personnalisée. | eastus2 swedencentral |
Comparaison de l’API Voice Live avec d’autres solutions vocales
L’API Voice Live est une alternative à l’orchestration de plusieurs composants tels que la reconnaissance vocale, l’IA générative et la synthèse vocale. Cette orchestration peut être complexe et fastidieuse, nécessitant des efforts d’ingénierie importants pour intégrer et maintenir. L’API Voice Live simplifie ce processus en fournissant une interface unique pour tous ces composants, ce qui permet aux développeurs de se concentrer sur la création de leurs applications plutôt que sur la gestion de l’infrastructure sous-jacente.
Pour répondre à vos besoins, vous pouvez créer votre propre solution ou utiliser l’API Voice Live. Le tableau ci-dessous compare les deux approches :
Spécification de l’application | À vous de jouer | API Voice Live |
---|---|---|
Couverture de paramètres régionaux larges avec une précision élevée (entrée audio) | ✅ | ✅ |
Maintenir la personnalité de la marque et du caractère (sortie audio) | ✅ | ✅ |
Améliorations de conversation | ❌ | ✅ |
Choix de modèles IA génératifs | ✅ | ✅ |
Sortie visuelle avec avatar de synthèse vocale | ✅ | ✅ |
Coût d’ingénierie faible | ❌ | ✅ |
Latence faible perçue par l’utilisateur final | ❌ | ✅ |
Contenu connexe
- En savoir plus sur l’utilisation de l’API Voice Live
- Tester le démarrage rapide de l’API Voice Live
- Consultez la référence de l’API Realtime Azure OpenAI