Freigeben über


GPT-4o Echtzeit-API für Sprache und Audio (Vorschau)

Die Azure OpenAI GPT-4o Echtzeit-API für Sprache und Audio ist Teil der GPT-4o-Modellfamilie, die latenzarme Unterhaltungsinteraktionen mit Sprachein- und ausgabe unterstützt. Die GPT-4o audio-realtime-API wurde entwickelt, um Unterhaltungsinteraktionen latenzarm in Echtzeit zu verarbeiten, wodurch sie sich hervorragend für Anwendungsfälle eignet, die Liveinteraktionen zwischen einem Benutzer und einem Modell umfassen, z. B. Kundendienstmitarbeiter, Sprachassistenten und Echtzeitübersetzer.

Die meisten Benutzer der Echtzeit-API müssen Ton von einem Endbenutzer in Echtzeit bereitstellen und empfangen, einschließlich Anwendungen, die WebRTC oder ein Telefoniesystem verwenden. Die Echtzeit-API ist nicht für die direkte Verbindung mit Endbenutzergeräten konzipiert und basiert auf Clientintegrationen zum Beenden von Endbenutzer-Audiodatenströmen.

Unterstützte Modelle

Derzeit unterstützt nur die Version gpt-4o-realtime-preview: 2024-10-01-preview unterstützt Echtzeitaudio.

Das gpt-4o-realtime-preview-Modell ist für globale Bereitstellungen in den Regionen USA, Osten 2 und Schweden, Mitte verfügbar.

Wichtig

Das System speichert Ihre Prompts und Vervollständigungen, wie im Abschnitt „Datennutzung und Zugriff auf Missbrauchsüberwachung der dienstspezifischen Produktbedingungen für Azure OpenAI Service beschrieben wird, es sei denn, die eingeschränkte Ausnahme gilt nicht. Die Missbrauchsüberwachung wird für die Verwendung der gpt-4o-realtime-preview-API auch für Kunden aktiviert, die ansonsten zur modifizierten Missbrauchsüberwachung zugelassen sind.

API-Unterstützung

Die Unterstützung für die Echtzeit-API wurde erstmals in der API-Version 2024-10-01-preview hinzugefügt.

Hinweis

Weitere Informationen zur API und Architektur finden Sie im „Azure OpenAI GPT-4o real-time audio“-Repository auf GitHub.

Voraussetzungen

Bereitstellen eines Modells für Echtzeitaudio

Bevor Sie GPT-4o real-time audio verwenden können, benötigen Sie eine Bereitstellung des gpt-4o-realtime-preview-Modells in einer unterstützten Region, wie im Abschnitt Unterstützten Modelle beschrieben wird.

Sie können ein Modell aus dem Azure KI Studio-Modellkatalog oder aus Ihrem Projekt in KI Studio bereitstellen. Führen Sie die folgenden Schritte aus, um ein gpt-4o-realtime-preview-Modell aus dem Modellkatalog bereitzustellen:

  1. Melden Sie sich bei KI Studio an, und wechseln Sie zur Homepage.
  2. Wählen Sie Modellkatalog auf der linken Randleiste aus.
  3. Suchen Sie ein gpt-4o-realtime-preview-Modell aus der Azure OpenAI-Sammlung und wählen Sie es aus.
  4. Wählen Sie Bereitstellen aus, um das Bereitstellungsfenster zu starten.
  5. Geben Sie einen Bereitstellungsnamen ein, und wählen Sie eine Azure OpenAI-Ressource aus.
  6. Wählen Sie 2024-10-01 aus der Dropdownliste Modellversion aus.
  7. Ändern Sie weitere Standardeinstellungen je nach Ihren Anforderungen.
  8. Klicken Sie auf Bereitstellen. Sie gelangen zur Seite mit den Bereitstellungsdetails.

Nachdem Sie nun über eine Bereitstellung des gpt-4o-realtime-preview -Modells verfügen, können Sie die Echtzeit-API verwenden, um mit dem Modell in Echtzeit zu interagieren.

Verwenden der GPT-4o Echtzeit-API

Tipp

Ein Playground für GPT-4o real-time audio wird in Kürze in Azure KI Studio verfügbar sein. Sie können die API bereits direkt in Ihrer Anwendung verwenden.

Derzeit besteht die schnellste Möglichkeit, mit der GPT-4o Echtzeit-API loszulegen, darin, den Beispielcode aus dem „Azure OpenAI GPT-4o real-time audio“-Repository auf GitHub herunterzuladen.

Das JavaScript-Webbeispiel veranschaulicht die Verwendung der GPT-4o Echtzeit-API für Interaktionen mit dem Modell in Echtzeit. Der Beispielcode enthält eine einfache Weboberfläche, die Audiodaten aus dem Mikrofon des Benutzers erfasst und zur Verarbeitung an das Modell sendet. Das Modell antwortet mit Text und Audio, der vom Beispielcode in der Weboberfläche gerendert wird.

Sie können den Beispielcode lokal auf Ihrem Computer ausführen, indem Sie die folgenden Schritte ausführen. Die aktuellsten Anweisungen finden Sie im Repository auf GitHub.

  1. Wenn Sie Node.js noch nicht installiert haben, laden Sie die neueste LTS-Version von Node.js herunter, und installieren Sie sie.

  2. Klonen Sie das Repository auf Ihren lokalen Computer:

    git clone https://github.com/Azure-Samples/aoai-realtime-audio-sdk.git
    
  3. Öffnen Sie den Ordner javascript/samples/web in Ihrem bevorzugten Code-Editor.

    cd ./javascript/samples
    
  4. Führen Sie download-pkg.ps1 oder download-pkg.sh aus, um die erforderlichen Pakete herunterzuladen.

  5. Wechseln Sie zum Ordner web aus dem Ordner ./javascript/samples.

    cd ./web
    
  6. Führen Sie npm install aus, um alle Paketabhängigkeiten zu installieren.

  7. Führen Sie npm run dev aus, um den Webserver zu starten. Navigieren Sie bei Bedarf zu allen Firewallberechtigungsaufforderungen.

  8. Wechseln Sie in einem Browser zu einer der bereitgestellten URIs aus der Konsolenausgabe (z. B. http://localhost:5173/).

  9. Geben Sie in der Weboberfläche die folgenden Informationen ein:

    • Endpoint: Der Ressourcenendpunkt einer Azure OpenAI-Ressource. Sie müssen den /realtime-Pfad nicht anfügen. Eine Beispielstruktur kann https://my-azure-openai-resource-from-portal.openai.azure.com sein.
    • API-Schlüssel: Ein entsprechender API-Schlüssel für die Azure OpenAI-Ressource.
    • Bereitstellung: Der Name des gpt-4o-realtime-preview-Modells, das Sie im vorherigen Abschnitt bereitgestellt haben.
    • Systemnachricht: Optional können Sie eine Systemnachricht wie „Sie sprechen immer wie ein freundlicher Pirat“ bereitstellen.
    • Temperatur: Wenn Sie möchten, können Sie eine benutzerdefinierte Temperatur bereitstellen.
    • Stimme: Wenn Sie möchten, können Sie eine Stimme auswählen.
  10. Wählen Sie die Schaltfläche Aufzeichnen aus, um die Sitzung zu starten. Akzeptieren Sie die Berechtigungen zum Verwenden Ihres Mikrofons, wenn Sie dazu aufgefordert werden.

  11. In der Hauptausgabe sollte eine << Session Started >>-Nachricht angezeigt werden. Dann können Sie in das Mikrofon sprechen, um einen Chat zu starten.

  12. Sie können den Chat jederzeit unterbrechen, indem Sie sprechen. Sie können den Chat beenden, indem Sie die Schaltfläche Beenden auswählen.