Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Was ist die VoIP-Live-API?
Die Voice-Live-API ist eine Lösung, die Sprachinteraktionen mit geringer Latenz und hoher Qualität für Sprachagenten ermöglicht. Die API wurde für Entwickler entwickelt, die skalierbare und effiziente sprachgesteuerte Erfahrungen suchen, da dadurch die Notwendigkeit beseitigt wird, mehrere Komponenten manuell zu koordinieren. Durch die Integration von Spracherkennung, generativer KI-Funktionen und Text in Sprachfunktionen in eine einheitliche Schnittstelle bietet es eine End-to-End-Lösung für nahtlose Erlebnisse.
Grundlegendes zu Spracherkennungsfunktionen
Sprach-zu-Sprache-Technologie revolutioniert die Interaktion des Menschen mit Systemen und bietet intuitive sprachbasierte Lösungen. Bei herkömmlichen Implementierungen wurden verschiedene Module wie Sprache zu Text, Dialogverwaltung, Text-zu-Sprache und vieles mehr kombiniert. Eine solche Verkettung kann zu einer erhöhten technischen Komplexität und einer vom Endbenutzer wahrgenommenen Latenz führen.
Mit Fortschritten in den LLMs (Large Language Models) und der multimodalen KI konsolidiert die VoIP-Live-API diese Funktionen und vereinfacht Workflows für Entwickler. Dieser Ansatz verbessert Echtzeitinteraktionen und sorgt für qualitativ hochwertige, natürliche Kommunikation, wodurch sie für Branchen geeignet ist, die sofortige, sprachfähige Lösungen erfordern.
Wichtige Szenarien für die VoIP-Live-API
Die Azure AI Voice-Live-API eignet sich ideal für Szenarien, in denen sprachgesteuerte Interaktionen die Benutzererfahrung verbessern. Beispiele sind:
- Contact Center: Entwickeln interaktiver Sprachbots für Kundensupport, Produktkatalognavigation und Self-Service-Lösungen.
- Autoassistenten: Ermöglichen Sie freihändige Sprachassistenten im Auto für die Ausführung von Befehlen, die Navigation und allgemeine Anfragen.
- Bildungswesen: Erstellen Sie sprachgesteuerte Lernbegleiter und virtuelle Tutoren für interaktives Lernen und Bildung.
- Öffentliche Dienste: Erstellen Sie VoIP-Agents, um Bürger bei Administrativen Abfragen und Informationen zu öffentlichen Diensten zu unterstützen.
- Personalwesen: Verbessern Sie HR-Prozesse mit sprachfähigen Tools für Mitarbeiterunterstützung, Karriereentwicklung und Schulung.
Features der VoIP-Live-API
Die VoIP-Live-API umfasst eine umfassende Reihe von Features zur Unterstützung verschiedener Anwendungsfälle und sicherstellung überlegener Sprachinteraktionen:
- Breite Lokalisierungsabdeckung: Unterstützt über 140 Lokalisierungen für Sprache-zu-Text und bietet über 600 Standardstimmen in mehr als 150 Lokalisierungen für Text-zu-Sprache, was weltweite Zugänglichkeit sicherstellt.
- Anpassbare Eingabe und Ausgabe: Verwenden Sie die Begriffsliste für einfache Just-in-Time-Anpassungen bei Audioeingaben oder benutzerdefinierten Sprachmodellen für erweiterte Spracherkennungsoptimierung. Verwenden Sie benutzerdefinierte Stimme, um eindeutige, markenorientierte Stimmen für die Audioausgabe zu erstellen. Erfahren Sie , wie Sie Die Sprach-Live-Eingabe und -Ausgabe anpassen , um mehr zu erfahren.
- Flexible generative KI-Modelloptionen: Wählen Sie aus mehreren Modellen, darunter GPT-5, GPT-4.1, GPT-4o, Phi und weitere, die an Konversationsanforderungen angepasst sind.
-
Erweiterte Konversationsfunktionen:
- Lärmunterdrückung: Reduziert Umweltgeräusche für eine klarere Kommunikation.
- Echounterdrückung: verhindert, dass der Agent seine eigenen Antworten erfasst
- Robuste Unterbrechungserkennung: Stellt eine genaue Erkennung von Unterbrechungen während Unterhaltungen sicher.
- Erweiterte End-of-Turn-Erkennung: Ermöglicht natürliche Pausen, ohne dass Interaktionen vorzeitig beendet werden.
- Avatarintegration: Bietet standardmäßige oder anpassbare Avatare, die mit der Audioausgabe synchronisiert werden, und bietet eine visuelle Identität für Sprach-Agents.
- Funktionsaufrufe: ermöglicht externe Aktionen, die Verwendung von Tools und fundierte Antworten mithilfe des VoiceRAG-Musters
Funktionsweise
Die Voice-Live-API wird vollständig verwaltet, sodass Kunden die Back-End-Orchestrierung oder Komponentenintegration nicht selbst verwalten müssen. Entwickler stellen Audioeingaben bereit und erhalten Audioausgabe, Avatar-Visualisierungen und Aktionsauslöser – alles mit minimaler Latenz. Sie müssen keine generativen KI-Modelle bereitstellen oder verwalten, da die API die zugrunde liegende Infrastruktur behandelt.
API-Entwurf und -Kompatibilität
Die VoIP-Live-API ist für die Kompatibilität mit der Azure OpenAI Realtime-API konzipiert. Die unterstützten Echtzeitereignisse entsprechen größtenteils den Azure OpenAI Realtime-API-Ereignissen, mit einigen Ausnahmen, wie im Voice Live-API How-to-Leitfaden beschrieben.
Features, die für die VoIP-Live-API einzigartig sind, sind optional und additiv. Sie können Azure AI Speech-Funktionen wie Rauschunterdrückung, Echounterdrückung und erweiterte End-of-Turn-Erkennung zu Ihren vorhandenen Anwendungen hinzufügen, ohne Ihre vorhandene Architektur ändern zu müssen.
Die API wird über WebSocket-Ereignisse unterstützt, was eine einfache Server-zu-Server-Integration ermöglicht. Ihr Back-End- oder Middle-Tier-Dienst stellt über WebSockets eine Verbindung mit der VoIP-Live-API bereit. Sie können die WebSocket-Nachrichten direkt für die Interaktion mit der API verwenden.
Unterstützte Modelle und Regionen
Um die Intelligenz Ihres Sprachassistenten zu verbessern, haben Sie die Flexibilität und Auswahl bei der Auswahl des KI-Modells zwischen GPT-Realtime, GPT-5, GPT-4.1, Phi und weiteren Optionen. Verschiedene generative KI-Modelle bieten verschiedene Arten von Funktionen, Ebenen der Intelligenz, Geschwindigkeit/Latenz von Ableitungen und Kosten. Je nachdem, was für Ihr Unternehmen und Ihren Anwendungsfall am wichtigsten ist, können Sie das Modell auswählen, das Ihren Anforderungen am besten entspricht.
Alle nativ unterstützten Modelle werden vollständig verwaltet, d. h., Sie müssen keine Modelle bereitstellen, sich gedanken über die Kapazitätsplanung oder den Bereitstellungsdurchsatz machen. Sie können das benötigte Modell verwenden, und die VoIP-Live-API kümmert sich um den Rest.
Die VoIP-Live-API unterstützt die folgenden Modelle. Unterstützte Regionen finden Sie in den Azure AI Speech-Dienstregionen.
| Modell | BESCHREIBUNG |
|---|---|
gpt-realtime |
GPT in Echtzeit und die Option zum Einsatz von Azure-Text-zu-Sprache-Stimmen, einschließlich benutzerdefinierter Stimme für Audio. |
gpt-realtime-mini |
GPT mini in Echtzeit, mit der Option zur Nutzung von Azure-Text-zu-Sprache-Stimmen, einschließlich benutzerdefinierter Stimmen für Audio. |
gpt-4o |
GPT-4o + Audioeingabe über Azure-Spracherkennung + Audioausgabe über Azure-Text-zu-Sprache-Stimmen einschließlich benutzerdefinierter Stimmen. |
gpt-4o-mini |
GPT-4o mini und die Audioeingabe über die Azure-Spracherkennung sowie die Audioausgabe über Azure-Stimmen für die Sprachsynthese, einschließlich einer benutzerdefinierten Stimme |
gpt-4.1 |
GPT-4.1 und die Audioeingabe über die Azure-Spracherkennung sowie die Audioausgabe über Azure-Stimmen für die Sprachsynthese, einschließlich einer benutzerdefinierten Stimme |
gpt-4.1-mini |
GPT-4.1 mini + Audioeingabe über Azure Speech-to-Text + Audioausgabe über Azure Text-to-Speech, einschließlich benutzerdefinierter Stimme. |
gpt-5 |
GPT-5 und die Audioeingabe über die Azure-Spracherkennung sowie die Audioausgabe über Azure-Stimmen für die Sprachsynthese, einschließlich einer benutzerdefinierten Stimme. |
gpt-5-mini |
GPT-5 mini + Audioeingabe über Azure Speech to Text + Audioausgabe über Azure Text to Speech, einschließlich benutzerdefinierter Stimmen. |
gpt-5-nano |
GPT-5 nano + Audioeingabe über Azure-Sprache-zu-Text + Audioausgabe über Azure-Text-zu-Sprache-Stimmen, einschließlich benutzerdefinierter Stimme. |
gpt-5-chat |
GPT-5 Chat und die Audioeingabe über die Azure-Spracherkennung sowie die Audioausgabe über Azure-Stimmen für die Sprachsynthese, einschließlich einer benutzerdefinierten Stimme. |
phi4-mm-realtime |
Phi4-mm und die Audioausgabe über Azure-Stimmen zur Sprachsynthese, einschließlich einer benutzerdefinierten Stimme |
phi4-mini |
Phi4-mm + Audioeingabe über Azure-Spracherkennung + Audioausgabe über Azure-Text-to-Speech-Stimmen, einschließlich benutzerdefinierter Stimmen. |
Vergleich der VoIP-Live-API mit anderen Spracherkennungslösungen
Die VoIP-Live-API ist eine Alternative zum Orchestrieren mehrerer Komponenten wie Spracherkennung, generative KI und Text zu Sprache. Diese Orchestrierung kann komplex und zeitaufwändig sein und erfordert erhebliche Technische Anstrengungen zur Integration und Wartung. Die VoIP-Live-API vereinfacht diesen Prozess, indem eine einzige Schnittstelle für alle diese Komponenten bereitgestellt wird, sodass Entwickler sich auf die Erstellung ihrer Anwendungen konzentrieren können, anstatt die zugrunde liegende Infrastruktur zu verwalten.
Um Ihre Anforderungen zu erfüllen, können Sie entweder Ihre eigene Lösung erstellen oder die Voice Live-API verwenden. In dieser Tabelle werden die Ansätze verglichen:
| Anwendungsanforderung | Aufzeichnung in Eigenregie | VoIP-Live-API |
|---|---|---|
| Umfassende Abdeckung verschiedener Regionen mit hoher Genauigkeit bei Audioeingaben. | ✅ | ✅ |
| Marken- und Charakterpersönlichkeit beibehalten (Audioausgabe) | ✅ | ✅ |
| Konversationsverbesserungen | ❌ | ✅ |
| Wahl von generativen KI-Modellen | ✅ | ✅ |
| Visuelle Ausgabe mit Text-zu-Sprache-Avatar | ✅ | ✅ |
| Niedrige Engineering-Kosten | ❌ | ✅ |
| Geringe Latenz, die von Endbenutzern wahrgenommen wird | ❌ | ✅ |
Preisgestaltung
Die Preise für die VoIP Live-API werden ab dem 1. Juli 2025 wirksam.
Die Preise für die VoIP-Live-API werden basierend auf dem verwendeten generativen KI-Modell gestuft (Pro, Basic und Lite).
Sie wählen keine Ebene aus. Sie wählen ein generatives KI-Modell und die entsprechenden Preise gelten.
| Preiskategorie | Modelle |
|---|---|
| Voice Live Pro |
gpt-realtime, , gpt-4ogpt-4.1, , gpt-5gpt-5-chat |
| Voice Live Basic |
gpt-realtime-mini
gpt-4o-mini
gpt-4.1-mini
gpt-5-mini
|
| Voice live lite |
gpt-5-nano,phi4-mm-realtime, phi4-mini |
Wenn Sie benutzerdefinierte Spracherkennung, benutzerdefinierte Stimme oder benutzerdefinierten Avatar für Ihre Spracheingabe und/oder -ausgabe verwenden möchten, werden Sie separat für die Modellschulung und das Hosting berechnet. Details finden Sie in den Speech Services-Preisen .
Von Bedeutung
Der benutzerdefinierte Sprachzugriff ist auf der Grundlage von Berechtigungs- und Nutzungskriterien eingeschränkt . Fordern Sie den Zugriff über das Aufnahmeformular an.
Von Bedeutung
Der Zugriff auf den benutzerdefinierten Text-zu-Sprache-Avatar ist auf der Grundlage von Berechtigungs- und Nutzungskriterien eingeschränkt. Fordern Sie den Zugriff über das Aufnahmeformular an.
Beispiel für Preisszenarien
Hier sind einige Beispiel-Preisszenarien, die Ihnen helfen, zu verstehen, wie die Voice Live-API belastet wird:
Szenario 1
Ein Kundendienst-Agent, der mit standardmäßiger Azure AI Speech-Eingabe, GPT-4.1, benutzerdefinierter Azure AI Speech-Ausgabe und einem benutzerdefinierten Avatar erstellt wurde.
Sie werden mit dem Voice Live Pro-Tarif belastet für:
- Text
- Audio mit Azure AI Speech – Standard
- Audio mit Azure AI Speech – Benutzerdefiniert
Sie werden für die Schulungen und das Modellhosting separat in Rechnung gestellt:
- Benutzerdefinierte Stimme – professionell
- Benutzerdefinierter Avatar
Szenario 2
Ein Learning-Agent, der mit gpt-realtime-nativer Audioeingabe und standardmäßiger Azure KI Speech-Ausgabe erstellt wurde.
Sie werden mit dem Voice Live Pro-Tarif belastet für:
- Text
- Natives Audio mit
gpt-realtime - Audio mit Azure AI Speech – Standard
Szenario 3
Ein Talent-Interview-Agent, der mit nativer Audioeingabe, Standard-Azure-AI-Speech-Ausgabe und einem Standard-Avatar erstellt wurde.
Sie werden zum Voice Live-Basispreis berechnet für:
- Text
- Natives Audio mit
gpt-realtime-mini - Audio mit Azure AI Speech – Standard
Sie werden separat in Rechnung gestellt für:
- Text-zu-Sprache-Avatar (Standard)
Szenario 4
Ein Assistent im Auto, der mit phi4-mm-realtime und einer benutzerdefinierten Azure-Stimme erstellt wurde.
Sie werden zum Voice Live Lite Tarif berechnet für:
- Text
- Natives Audio mit
phi4-mm-realtime
Sie werden mit dem Voice Live Pro-Tarif belastet für:
- Audio mit Azure AI Speech – Benutzerdefiniert
Sie werden für die Schulungen und das Modellhosting separat in Rechnung gestellt:
- Benutzerdefinierte Stimme – professionell
Tokennutzung und Kostenschätzung
Token sind die Einheiten, die generative KI-Modelle verwenden, um Eingaben zu verarbeiten und Ausgabe zu generieren.
Sie können die Tokennutzung für verschiedene Modellfamilien mit der VoIP-Live-API basierend auf der Audiolänge abschätzen. Die folgenden Tokenberechnungen gelten für jede Modellfamilie:
| Modellfamilie | Eingabeaudio (Token pro Sekunde) | Ausgabe-Audio (Token pro Sekunde) |
|---|---|---|
| Azure OpenAI-Modelle | ~10 Token | ~20 Token |
| Phi-Modelle | ~12,5 Token | ~20 Token |
Sie werden auch für zwischengespeicherte Audio- und Texteingaben berechnet, einschließlich der Eingabeaufforderung und des Kontexts der Unterhaltungen.
Verwandte Inhalte
- Weitere Informationen zur Verwendung der VoIP-Live-API
- Testen der Voice Live-API – Schnellstart
- Siehe die Referenz zur VoIP-Live-API