Freigeben über


VoIP-Live-API für Echtzeit-VoIP-Agents

Was ist die VoIP-Live-API?

Die Voice-Live-API ist eine Lösung, die Sprachinteraktionen mit geringer Latenz und hoher Qualität für Sprachagenten ermöglicht. Die API wurde für Entwickler entwickelt, die skalierbare und effiziente sprachgesteuerte Erfahrungen suchen, da dadurch die Notwendigkeit beseitigt wird, mehrere Komponenten manuell zu koordinieren. Durch die Integration von Spracherkennung, generativer KI-Funktionen und Text in Sprachfunktionen in eine einheitliche Schnittstelle bietet es eine End-to-End-Lösung für nahtlose Erlebnisse.

Grundlegendes zu Spracherkennungsfunktionen

Sprach-zu-Sprache-Technologie revolutioniert die Interaktion des Menschen mit Systemen und bietet intuitive sprachbasierte Lösungen. Bei herkömmlichen Implementierungen wurden verschiedene Module wie Sprache zu Text, Dialogverwaltung, Text-zu-Sprache und vieles mehr kombiniert. Eine solche Verkettung kann zu einer erhöhten technischen Komplexität und einer vom Endbenutzer wahrgenommenen Latenz führen.

Mit Fortschritten in den LLMs (Large Language Models) und der multimodalen KI konsolidiert die VoIP-Live-API diese Funktionen und vereinfacht Workflows für Entwickler. Dieser Ansatz verbessert Echtzeitinteraktionen und sorgt für qualitativ hochwertige, natürliche Kommunikation, wodurch sie für Branchen geeignet ist, die sofortige, sprachfähige Lösungen erfordern.

Wichtige Szenarien für die VoIP-Live-API

Die Azure AI Voice-Live-API eignet sich ideal für Szenarien, in denen sprachgesteuerte Interaktionen die Benutzererfahrung verbessern. Beispiele sind:

  • Contact Center: Entwickeln interaktiver Sprachbots für Kundensupport, Produktkatalognavigation und Self-Service-Lösungen.
  • Autoassistenten: Ermöglichen Sie freihändige Sprachassistenten im Auto für die Ausführung von Befehlen, die Navigation und allgemeine Anfragen.
  • Bildungswesen: Erstellen Sie sprachgesteuerte Lernbegleiter und virtuelle Tutoren für interaktives Lernen und Bildung.
  • Öffentliche Dienste: Erstellen Sie VoIP-Agents, um Bürger bei Administrativen Abfragen und Informationen zu öffentlichen Diensten zu unterstützen.
  • Personalwesen: Verbessern Sie HR-Prozesse mit sprachfähigen Tools für Mitarbeiterunterstützung, Karriereentwicklung und Schulung.

Features der VoIP-Live-API

Die VoIP-Live-API umfasst eine umfassende Reihe von Features zur Unterstützung verschiedener Anwendungsfälle und sicherstellung überlegener Sprachinteraktionen:

  • Breite Lokalisierungsabdeckung: Unterstützt über 140 Lokalisierungen für Sprache-zu-Text und bietet über 600 Standardstimmen in mehr als 150 Lokalisierungen für Text-zu-Sprache, was weltweite Zugänglichkeit sicherstellt.
  • Anpassbare Eingabe und Ausgabe: Verwenden Sie die Begriffsliste für einfache Just-in-Time-Anpassungen bei Audioeingaben oder benutzerdefinierten Sprachmodellen für erweiterte Spracherkennungsoptimierung. Verwenden Sie benutzerdefinierte Stimme, um eindeutige, markenorientierte Stimmen für die Audioausgabe zu erstellen. Erfahren Sie , wie Sie Die Sprach-Live-Eingabe und -Ausgabe anpassen , um mehr zu erfahren.
  • Flexible generative KI-Modelloptionen: Wählen Sie aus mehreren Modellen, darunter GPT-5, GPT-4.1, GPT-4o, Phi und weitere, die an Konversationsanforderungen angepasst sind.
  • Erweiterte Konversationsfunktionen:
    • Lärmunterdrückung: Reduziert Umweltgeräusche für eine klarere Kommunikation.
    • Echounterdrückung: verhindert, dass der Agent seine eigenen Antworten erfasst
    • Robuste Unterbrechungserkennung: Stellt eine genaue Erkennung von Unterbrechungen während Unterhaltungen sicher.
    • Erweiterte End-of-Turn-Erkennung: Ermöglicht natürliche Pausen, ohne dass Interaktionen vorzeitig beendet werden.
  • Avatarintegration: Bietet standardmäßige oder anpassbare Avatare, die mit der Audioausgabe synchronisiert werden, und bietet eine visuelle Identität für Sprach-Agents.
  • Funktionsaufrufe: ermöglicht externe Aktionen, die Verwendung von Tools und fundierte Antworten mithilfe des VoiceRAG-Musters

Funktionsweise

Die Voice-Live-API wird vollständig verwaltet, sodass Kunden die Back-End-Orchestrierung oder Komponentenintegration nicht selbst verwalten müssen. Entwickler stellen Audioeingaben bereit und erhalten Audioausgabe, Avatar-Visualisierungen und Aktionsauslöser – alles mit minimaler Latenz. Sie müssen keine generativen KI-Modelle bereitstellen oder verwalten, da die API die zugrunde liegende Infrastruktur behandelt.

API-Entwurf und -Kompatibilität

Die VoIP-Live-API ist für die Kompatibilität mit der Azure OpenAI Realtime-API konzipiert. Die unterstützten Echtzeitereignisse entsprechen größtenteils den Azure OpenAI Realtime-API-Ereignissen, mit einigen Ausnahmen, wie im Voice Live-API How-to-Leitfaden beschrieben.

Features, die für die VoIP-Live-API einzigartig sind, sind optional und additiv. Sie können Azure AI Speech-Funktionen wie Rauschunterdrückung, Echounterdrückung und erweiterte End-of-Turn-Erkennung zu Ihren vorhandenen Anwendungen hinzufügen, ohne Ihre vorhandene Architektur ändern zu müssen.

Die API wird über WebSocket-Ereignisse unterstützt, was eine einfache Server-zu-Server-Integration ermöglicht. Ihr Back-End- oder Middle-Tier-Dienst stellt über WebSockets eine Verbindung mit der VoIP-Live-API bereit. Sie können die WebSocket-Nachrichten direkt für die Interaktion mit der API verwenden.

Unterstützte Modelle und Regionen

Um die Intelligenz Ihres Sprachassistenten zu verbessern, haben Sie die Flexibilität und Auswahl bei der Auswahl des KI-Modells zwischen GPT-Realtime, GPT-5, GPT-4.1, Phi und weiteren Optionen. Verschiedene generative KI-Modelle bieten verschiedene Arten von Funktionen, Ebenen der Intelligenz, Geschwindigkeit/Latenz von Ableitungen und Kosten. Je nachdem, was für Ihr Unternehmen und Ihren Anwendungsfall am wichtigsten ist, können Sie das Modell auswählen, das Ihren Anforderungen am besten entspricht.

Alle nativ unterstützten Modelle werden vollständig verwaltet, d. h., Sie müssen keine Modelle bereitstellen, sich gedanken über die Kapazitätsplanung oder den Bereitstellungsdurchsatz machen. Sie können das benötigte Modell verwenden, und die VoIP-Live-API kümmert sich um den Rest.

Die VoIP-Live-API unterstützt die folgenden Modelle. Unterstützte Regionen finden Sie in den Azure AI Speech-Dienstregionen.

Modell BESCHREIBUNG
gpt-realtime GPT in Echtzeit und die Option zum Einsatz von Azure-Text-zu-Sprache-Stimmen, einschließlich benutzerdefinierter Stimme für Audio.
gpt-realtime-mini GPT mini in Echtzeit, mit der Option zur Nutzung von Azure-Text-zu-Sprache-Stimmen, einschließlich benutzerdefinierter Stimmen für Audio.
gpt-4o GPT-4o + Audioeingabe über Azure-Spracherkennung + Audioausgabe über Azure-Text-zu-Sprache-Stimmen einschließlich benutzerdefinierter Stimmen.
gpt-4o-mini GPT-4o mini und die Audioeingabe über die Azure-Spracherkennung sowie die Audioausgabe über Azure-Stimmen für die Sprachsynthese, einschließlich einer benutzerdefinierten Stimme
gpt-4.1 GPT-4.1 und die Audioeingabe über die Azure-Spracherkennung sowie die Audioausgabe über Azure-Stimmen für die Sprachsynthese, einschließlich einer benutzerdefinierten Stimme
gpt-4.1-mini GPT-4.1 mini + Audioeingabe über Azure Speech-to-Text + Audioausgabe über Azure Text-to-Speech, einschließlich benutzerdefinierter Stimme.
gpt-5 GPT-5 und die Audioeingabe über die Azure-Spracherkennung sowie die Audioausgabe über Azure-Stimmen für die Sprachsynthese, einschließlich einer benutzerdefinierten Stimme.
gpt-5-mini GPT-5 mini + Audioeingabe über Azure Speech to Text + Audioausgabe über Azure Text to Speech, einschließlich benutzerdefinierter Stimmen.
gpt-5-nano GPT-5 nano + Audioeingabe über Azure-Sprache-zu-Text + Audioausgabe über Azure-Text-zu-Sprache-Stimmen, einschließlich benutzerdefinierter Stimme.
gpt-5-chat GPT-5 Chat und die Audioeingabe über die Azure-Spracherkennung sowie die Audioausgabe über Azure-Stimmen für die Sprachsynthese, einschließlich einer benutzerdefinierten Stimme.
phi4-mm-realtime Phi4-mm und die Audioausgabe über Azure-Stimmen zur Sprachsynthese, einschließlich einer benutzerdefinierten Stimme
phi4-mini Phi4-mm + Audioeingabe über Azure-Spracherkennung + Audioausgabe über Azure-Text-to-Speech-Stimmen, einschließlich benutzerdefinierter Stimmen.

Vergleich der VoIP-Live-API mit anderen Spracherkennungslösungen

Die VoIP-Live-API ist eine Alternative zum Orchestrieren mehrerer Komponenten wie Spracherkennung, generative KI und Text zu Sprache. Diese Orchestrierung kann komplex und zeitaufwändig sein und erfordert erhebliche Technische Anstrengungen zur Integration und Wartung. Die VoIP-Live-API vereinfacht diesen Prozess, indem eine einzige Schnittstelle für alle diese Komponenten bereitgestellt wird, sodass Entwickler sich auf die Erstellung ihrer Anwendungen konzentrieren können, anstatt die zugrunde liegende Infrastruktur zu verwalten.

Um Ihre Anforderungen zu erfüllen, können Sie entweder Ihre eigene Lösung erstellen oder die Voice Live-API verwenden. In dieser Tabelle werden die Ansätze verglichen:

Anwendungsanforderung Aufzeichnung in Eigenregie VoIP-Live-API
Umfassende Abdeckung verschiedener Regionen mit hoher Genauigkeit bei Audioeingaben.
Marken- und Charakterpersönlichkeit beibehalten (Audioausgabe)
Konversationsverbesserungen
Wahl von generativen KI-Modellen
Visuelle Ausgabe mit Text-zu-Sprache-Avatar
Niedrige Engineering-Kosten
Geringe Latenz, die von Endbenutzern wahrgenommen wird

Preisgestaltung

Die Preise für die VoIP Live-API werden ab dem 1. Juli 2025 wirksam.

Die Preise für die VoIP-Live-API werden basierend auf dem verwendeten generativen KI-Modell gestuft (Pro, Basic und Lite).

Sie wählen keine Ebene aus. Sie wählen ein generatives KI-Modell und die entsprechenden Preise gelten.

Preiskategorie Modelle
Voice Live Pro gpt-realtime, , gpt-4ogpt-4.1, , gpt-5gpt-5-chat
Voice Live Basic gpt-realtime-mini gpt-4o-mini gpt-4.1-mini gpt-5-mini
Voice live lite gpt-5-nano,phi4-mm-realtime, phi4-mini

Wenn Sie benutzerdefinierte Spracherkennung, benutzerdefinierte Stimme oder benutzerdefinierten Avatar für Ihre Spracheingabe und/oder -ausgabe verwenden möchten, werden Sie separat für die Modellschulung und das Hosting berechnet. Details finden Sie in den Speech Services-Preisen .

Von Bedeutung

Der benutzerdefinierte Sprachzugriff ist auf der Grundlage von Berechtigungs- und Nutzungskriterien eingeschränkt . Fordern Sie den Zugriff über das Aufnahmeformular an.

Von Bedeutung

Der Zugriff auf den benutzerdefinierten Text-zu-Sprache-Avatar ist auf der Grundlage von Berechtigungs- und Nutzungskriterien eingeschränkt. Fordern Sie den Zugriff über das Aufnahmeformular an.

Beispiel für Preisszenarien

Hier sind einige Beispiel-Preisszenarien, die Ihnen helfen, zu verstehen, wie die Voice Live-API belastet wird:

Szenario 1

Ein Kundendienst-Agent, der mit standardmäßiger Azure AI Speech-Eingabe, GPT-4.1, benutzerdefinierter Azure AI Speech-Ausgabe und einem benutzerdefinierten Avatar erstellt wurde.

Sie werden mit dem Voice Live Pro-Tarif belastet für:

  • Text
  • Audio mit Azure AI Speech – Standard
  • Audio mit Azure AI Speech – Benutzerdefiniert

Sie werden für die Schulungen und das Modellhosting separat in Rechnung gestellt:

  • Benutzerdefinierte Stimme – professionell
  • Benutzerdefinierter Avatar

Szenario 2

Ein Learning-Agent, der mit gpt-realtime-nativer Audioeingabe und standardmäßiger Azure KI Speech-Ausgabe erstellt wurde.

Sie werden mit dem Voice Live Pro-Tarif belastet für:

  • Text
  • Natives Audio mit gpt-realtime
  • Audio mit Azure AI Speech – Standard

Szenario 3

Ein Talent-Interview-Agent, der mit nativer Audioeingabe, Standard-Azure-AI-Speech-Ausgabe und einem Standard-Avatar erstellt wurde.

Sie werden zum Voice Live-Basispreis berechnet für:

  • Text
  • Natives Audio mit gpt-realtime-mini
  • Audio mit Azure AI Speech – Standard

Sie werden separat in Rechnung gestellt für:

  • Text-zu-Sprache-Avatar (Standard)

Szenario 4

Ein Assistent im Auto, der mit phi4-mm-realtime und einer benutzerdefinierten Azure-Stimme erstellt wurde.

Sie werden zum Voice Live Lite Tarif berechnet für:

  • Text
  • Natives Audio mit phi4-mm-realtime

Sie werden mit dem Voice Live Pro-Tarif belastet für:

  • Audio mit Azure AI Speech – Benutzerdefiniert

Sie werden für die Schulungen und das Modellhosting separat in Rechnung gestellt:

  • Benutzerdefinierte Stimme – professionell

Tokennutzung und Kostenschätzung

Token sind die Einheiten, die generative KI-Modelle verwenden, um Eingaben zu verarbeiten und Ausgabe zu generieren. 

Sie können die Tokennutzung für verschiedene Modellfamilien mit der VoIP-Live-API basierend auf der Audiolänge abschätzen. Die folgenden Tokenberechnungen gelten für jede Modellfamilie:

Modellfamilie Eingabeaudio (Token pro Sekunde) Ausgabe-Audio (Token pro Sekunde)
Azure OpenAI-Modelle ~10 Token ~20 Token
Phi-Modelle ~12,5 Token ~20 Token

Sie werden auch für zwischengespeicherte Audio- und Texteingaben berechnet, einschließlich der Eingabeaufforderung und des Kontexts der Unterhaltungen.