Freigeben über


GPT-4o Echtzeit-API für Sprache und Audio (Vorschau)

Die Azure OpenAI GPT-4o Echtzeit-API für Sprache und Audio ist Teil der GPT-4o-Modellfamilie, die latenzarme Unterhaltungsinteraktionen mit Sprachein- und ausgabe unterstützt. Die GPT-4o audio-realtime-API wurde entwickelt, um Unterhaltungsinteraktionen latenzarm in Echtzeit zu verarbeiten, wodurch sie sich hervorragend für Anwendungsfälle eignet, die Liveinteraktionen zwischen einem Benutzer und einem Modell umfassen, z. B. Kundendienstmitarbeiter, Sprachassistenten und Echtzeitübersetzer.

Die meisten Benutzer der Echtzeit-API müssen Ton von einem Endbenutzer in Echtzeit bereitstellen und empfangen, einschließlich Anwendungen, die WebRTC oder ein Telefoniesystem verwenden. Die Echtzeit-API ist nicht für die direkte Verbindung mit Endbenutzergeräten konzipiert und basiert auf Clientintegrationen zum Beenden von Endbenutzer-Audiodatenströmen.

Unterstützte Modelle

Derzeit unterstützt nur die Version gpt-4o-realtime-preview: 2024-10-01-preview unterstützt Echtzeitaudio.

Das gpt-4o-realtime-preview-Modell ist für globale Bereitstellungen in den Regionen USA, Osten 2 und Schweden, Mitte verfügbar.

Wichtig

Das System speichert Ihre Prompts und Vervollständigungen, wie im Abschnitt „Datennutzung und Zugriff auf Missbrauchsüberwachung der dienstspezifischen Produktbedingungen für Azure OpenAI Service beschrieben wird, es sei denn, die eingeschränkte Ausnahme gilt nicht. Die Missbrauchsüberwachung wird für die Verwendung der gpt-4o-realtime-preview-API auch für Kunden aktiviert, die ansonsten zur modifizierten Missbrauchsüberwachung zugelassen sind.

API-Unterstützung

Die Unterstützung für die Echtzeit-API wurde erstmals in der API-Version 2024-10-01-preview hinzugefügt.

Hinweis

Weitere Informationen zur API und Architektur finden Sie im „Azure OpenAI GPT-4o real-time audio“-Repository auf GitHub.

Voraussetzungen

Bereitstellen eines Modells für Echtzeitaudio

Bevor Sie GPT-4o real-time audio verwenden können, benötigen Sie eine Bereitstellung des gpt-4o-realtime-preview-Modells in einer unterstützten Region, wie im Abschnitt Unterstützten Modelle beschrieben wird.

Sie können ein Modell aus dem Azure KI Studio-Modellkatalog oder aus Ihrem Projekt in KI Studio bereitstellen. Führen Sie die folgenden Schritte aus, um ein gpt-4o-realtime-preview-Modell aus dem Modellkatalog bereitzustellen:

  1. Melden Sie sich bei KI Studio an, und wechseln Sie zur Homepage.
  2. Wählen Sie Modellkatalog auf der linken Randleiste aus.
  3. Suchen Sie ein gpt-4o-realtime-preview-Modell aus der Azure OpenAI-Sammlung und wählen Sie es aus.
  4. Wählen Sie Bereitstellen aus, um das Bereitstellungsfenster zu starten.
  5. Geben Sie einen Bereitstellungsnamen ein, und wählen Sie eine Azure OpenAI-Ressource aus.
  6. Wählen Sie 2024-10-01 aus der Dropdownliste Modellversion aus.
  7. Ändern Sie weitere Standardeinstellungen je nach Ihren Anforderungen.
  8. Klicken Sie auf Bereitstellen. Sie gelangen zur Seite mit den Bereitstellungsdetails.

Nachdem Sie nun über eine Bereitstellung des gpt-4o-realtime-preview-Modells verfügen, können Sie den Playground Echtzeitaudio oder die Echtzeit-API in KI Studio verwenden, um mit dem Modell in Echtzeit zu interagieren.

Verwenden von GPT-4o-Echtzeitaudio

Tipp

Derzeit besteht die schnellste Möglichkeit, mit der Entwicklung mit der GPT-4o-Echtzeit-API zu beginnen, darin, den Beispielcode aus dem GitHub-Repository Azure OpenAI GPT-4o real-time audio herunterzuladen.

Führen Sie die folgenden Schritte aus, um mit Ihrem bereitgestellten gpt-4o-realtime-preview-Modell im Playground Echtzeitaudio in Azure KI Studio zu chatten:

  1. Navigieren Sie zu Ihrem Projekt in Azure KI Studio.

  2. Wählen Sie Playgrounds>Echtzeitaudio im linken Bereich aus.

  3. Wählen Sie ihr bereitgestelltes gpt-4o-realtime-preview-Modell aus der Dropdownliste Bereitstellung aus.

  4. Wählen Sie Mikrofon aktivieren aus, damit der Browser auf Ihr Mikrofon zugreifen kann. Wenn Sie bereits die Berechtigung erteilt haben, können Sie diesen Schritt überspringen.

    Screenshot des Echtzeitaudio-Playgrounds, auf dem das bereitgestellte Modell ausgewählt ist

  5. Optional können Sie Inhalte im Textfeld Anweisungen und Kontext für das Modell geben bearbeiten. Gibt dem Modell Anweisungen dazu, wie es sich verhalten soll und auf welchen Kontext es beim Generieren einer Antwort verweisen soll. Sie können die Persönlichkeit des Assistenten beschreiben, ihm sagen, was er beantworten soll und was nicht, und ihm sagen, wie Antworten formatiert werden sollen.

  6. Ändern Sie optional Einstellungen wie Schwellenwert, Präfixauffüllung und Stilledauer.

  7. Wählen Sie Zuhören starten aus, um die Sitzung zu starten. Sie können in das Mikrofon sprechen, um einen Chat zu starten.

    Screenshot des Echtzeitaudio-Playgrounds mit aktivierter Schaltfläche „Zuhören starten“ und Mikrofonzugriff

  8. Sie können den Chat jederzeit unterbrechen, indem Sie sprechen. Sie können den Chat beenden, indem Sie die Schaltfläche Zuhören beenden auswählen.

Das JavaScript-Webbeispiel veranschaulicht die Verwendung der GPT-4o Echtzeit-API für Interaktionen mit dem Modell in Echtzeit. Der Beispielcode enthält eine einfache Weboberfläche, die Audiodaten aus dem Mikrofon des Benutzers erfasst und zur Verarbeitung an das Modell sendet. Das Modell antwortet mit Text und Audio, der vom Beispielcode in der Weboberfläche gerendert wird.

Sie können den Beispielcode lokal auf Ihrem Computer ausführen, indem Sie die folgenden Schritte ausführen. Die aktuellsten Anweisungen finden Sie im Repository auf GitHub.

  1. Wenn Sie Node.js noch nicht installiert haben, laden Sie die neueste LTS-Version von Node.js herunter, und installieren Sie sie.

  2. Klonen Sie das Repository auf Ihren lokalen Computer:

    git clone https://github.com/Azure-Samples/aoai-realtime-audio-sdk.git
    
  3. Öffnen Sie den Ordner javascript/samples/web in Ihrem bevorzugten Code-Editor.

    cd ./javascript/samples
    
  4. Führen Sie download-pkg.ps1 oder download-pkg.sh aus, um die erforderlichen Pakete herunterzuladen.

  5. Wechseln Sie zum Ordner web aus dem Ordner ./javascript/samples.

    cd ./web
    
  6. Führen Sie npm install aus, um alle Paketabhängigkeiten zu installieren.

  7. Führen Sie npm run dev aus, um den Webserver zu starten. Navigieren Sie bei Bedarf zu allen Firewallberechtigungsaufforderungen.

  8. Wechseln Sie in einem Browser zu einer der bereitgestellten URIs aus der Konsolenausgabe (z. B. http://localhost:5173/).

  9. Geben Sie in der Weboberfläche die folgenden Informationen ein:

    • Endpoint: Der Ressourcenendpunkt einer Azure OpenAI-Ressource. Sie müssen den /realtime-Pfad nicht anfügen. Eine Beispielstruktur kann https://my-azure-openai-resource-from-portal.openai.azure.com sein.
    • API-Schlüssel: Ein entsprechender API-Schlüssel für die Azure OpenAI-Ressource.
    • Bereitstellung: Der Name des gpt-4o-realtime-preview-Modells, das Sie im vorherigen Abschnitt bereitgestellt haben.
    • Systemnachricht: Optional können Sie eine Systemnachricht wie „Sie sprechen immer wie ein freundlicher Pirat“ bereitstellen.
    • Temperatur: Wenn Sie möchten, können Sie eine benutzerdefinierte Temperatur bereitstellen.
    • Stimme: Wenn Sie möchten, können Sie eine Stimme auswählen.
  10. Wählen Sie die Schaltfläche Aufzeichnen aus, um die Sitzung zu starten. Akzeptieren Sie die Berechtigungen zum Verwenden Ihres Mikrofons, wenn Sie dazu aufgefordert werden.

  11. In der Hauptausgabe sollte eine << Session Started >>-Nachricht angezeigt werden. Dann können Sie in das Mikrofon sprechen, um einen Chat zu starten.

  12. Sie können den Chat jederzeit unterbrechen, indem Sie sprechen. Sie können den Chat beenden, indem Sie die Schaltfläche Beenden auswählen.