Sdílet prostřednictvím


ROZHRANÍ GPT-4o API v reálném čase pro řeč a zvuk (Preview)

Rozhraní API Azure OpenAI GPT-4o v reálném čase pro řeč a zvuk je součástí řady modelů GPT-4o, která podporuje konverzace s nízkou latencí, "řeč v řeči" a mluvenou konverzací. Rozhraní GPT-4o Audio realtime API je navržené tak, aby zpracovával konverzační interakce v reálném čase, což je skvělé pro případy použití zahrnující živé interakce mezi uživatelem a modelem, jako jsou agenti zákaznické podpory, hlasoví asistenti a překladatelé v reálném čase.

Většina uživatelů rozhraní API v reálném čase potřebuje doručovat a přijímat zvuk od koncového uživatele v reálném čase, včetně aplikací, které používají WebRTC nebo telefonní systém. Rozhraní API v reálném čase není navržené tak, aby se připojilo přímo k zařízením koncových uživatelů a spoléhá na integraci klientů, aby ukončila zvukové streamy koncových uživatelů.

Podporované modely

Aktuálně pouze gpt-4o-realtime-preview verze: 2024-10-01-preview podporuje zvuk v reálném čase.

Model gpt-4o-realtime-preview je k dispozici pro globální nasazení v oblastech USA – východ 2 a Švédsko – střed.

Důležité

Systém ukládá výzvy a dokončení, jak je popsáno v části Použití dat a přístup k monitorování zneužití v podmínkách produktu specifické pro službu Azure OpenAI, s tím rozdílem, že se nevztahuje omezená výjimka. Monitorování zneužití bude zapnuté pro použití rozhraní API i pro zákazníky, kteří jsou jinak schváleni pro monitorování upravených gpt-4o-realtime-preview zneužití.

Podpora rozhraní API

Podpora rozhraní API v reálném čase byla poprvé přidána ve verzi 2024-10-01-previewrozhraní API .

Poznámka:

Další informace o rozhraní API a architektuře najdete v úložišti zvuků Azure OpenAI GPT-4o v reálném čase na GitHubu.

Požadavky

Nasazení modelu pro zvuk v reálném čase

Než budete moct použít zvuk GPT-4o v reálném čase, potřebujete nasazení gpt-4o-realtime-preview modelu v podporované oblasti, jak je popsáno v části Podporované modely .

Model můžete nasadit z katalogu modelů Azure AI Studio nebo z projektu v AI Studiu. Pokud chcete nasadit gpt-4o-realtime-preview model z katalogu modelů, postupujte takto:

  1. Přihlaste se k AI Studiu a přejděte na domovskou stránku.
  2. Na levém bočním panelu vyberte Katalog modelů.
  3. Vyhledejte a vyberte gpt-4o-realtime-preview model z kolekce Azure OpenAI.
  4. Výběrem možnosti Nasadit otevřete okno nasazení.
  5. Zadejte název nasazení a vyberte prostředek Azure OpenAI.
  6. V rozevíracím seznamu Verze modelu vyberte2024-10-01.
  7. Upravte další výchozí nastavení v závislosti na vašich požadavcích.
  8. Vyberte Nasadit. Dostanete se na stránku s podrobnostmi o nasazení.

Teď, když máte nasazení gpt-4o-realtime-preview modelu, můžete použít zvukové hřiště AI Studio v reálném čase nebo rozhraní API v reálném čase k interakci s ním v reálném čase.

Použití zvuku GPT-4o v reálném čase

Tip

Nejrychlejším způsobem, jak začít s vývojem pomocí rozhraní GPT-4o Realtime API, je stáhnout vzorový kód z úložiště zvuku Azure OpenAI GPT-4o v reálném čase na GitHubu.

Pokud chcete chatovat s nasazeným gpt-4o-realtime-preview modelem na zvukovém hřišti Azure AI Studio v reálném čase, postupujte takto:

  1. Přejděte ke svému projektu v Azure AI Studiu.

  2. V levém podokně vyberte Zvuk z dětského hřiště>v reálném čase.

  3. V rozevíracím seznamu Nasazení vyberte nasazený gpt-4o-realtime-preview model.

  4. Pokud chcete prohlížeči povolit přístup k mikrofonu, vyberte Povolit mikrofon . Pokud jste už udělili oprávnění, můžete tento krok přeskočit.

    Snímek obrazovky zvukového hřiště v reálném čase s vybraným nasazeným modelem

  5. Volitelně můžete upravit obsah v poli Zadat pokyny k modelu a kontextové textové pole. Poskytněte modelu pokyny, jak by se měl chovat, a jakýkoli kontext, na který by měl odkazovat při generování odpovědi. Můžete popsat osobnost asistenta, sdělit, co by měl a neměl odpovídat, a sdělit, jak formátovat odpovědi.

  6. Volitelně můžete změnit nastavení, jako je prahová hodnota, odsazení předpony a doba trvání ticha.

  7. Vyberte Spustit naslouchání a spusťte relaci. Můžete mluvit do mikrofonu a zahájit chat.

    Snímek obrazovky zvukového hřiště v reálném čase s povoleným tlačítkem Spustit poslech a povoleným přístupem k mikrofonu

  8. Chat můžete kdykoli přerušit tím, že promluvíte. Chat můžete ukončit tak , že vyberete tlačítko Ukončit naslouchání .

Webová ukázka JavaScriptu ukazuje použití rozhraní GPT-4o RealTime API k interakci s modelem v reálném čase v reálném čase. Ukázkový kód obsahuje jednoduché webové rozhraní, které zachycuje zvuk z mikrofonu uživatele a odesílá ho do modelu ke zpracování. Model reaguje textem a zvukem, který vzorový kód vykresluje ve webovém rozhraní.

Ukázkový kód můžete spustit místně na svém počítači pomocí následujícího postupu. Nejnovější pokyny najdete v úložišti na GitHubu .

  1. Pokud nemáte nainstalované Node.js, stáhněte a nainstalujte verzi ltS Node.js.

  2. Naklonujte úložiště do místního počítače:

    git clone https://github.com/Azure-Samples/aoai-realtime-audio-sdk.git
    
  3. Přejděte do javascript/samples/web složky v preferovaném editoru kódu.

    cd ./javascript/samples
    
  4. Spusťte download-pkg.ps1 nebo download-pkg.sh stáhněte požadované balíčky.

  5. Přejděte do web složky ze ./javascript/samples složky.

    cd ./web
    
  6. Spusťte npm install instalaci závislostí balíčku.

  7. Spuštěním spusťte npm run dev webový server a podle potřeby přejděte na všechny výzvy k oprávněním brány firewall.

  8. V prohlížeči přejděte na některé z poskytnutých identifikátorů URI z výstupu konzoly (například http://localhost:5173/).

  9. Do webového rozhraní zadejte následující informace:

    • Koncový bod: Koncový bod prostředku prostředku Azure OpenAI. Cestu nemusíte přidávat /realtime . Příkladem může být https://my-azure-openai-resource-from-portal.openai.azure.comstruktura .
    • Klíč rozhraní API: Odpovídající klíč rozhraní API pro prostředek Azure OpenAI.
    • Nasazení: Název gpt-4o-realtime-preview modelu, který jste nasadili v předchozí části.
    • Systémová zpráva: Volitelně můžete zadat systémovou zprávu, například "Vždy mluvíte jako přátelský pirát.".
    • Teplota: Volitelně můžete zadat vlastní teplotu.
    • Hlas: Volitelně můžete vybrat hlas.
  10. Výběrem tlačítka Záznam spusťte relaci. Pokud se zobrazí výzva, přijměte oprávnění k používání mikrofonu.

  11. V hlavním výstupu by se měla zobrazit << Session Started >> zpráva. Pak můžete mluvit do mikrofonu a zahájit chat.

  12. Chat můžete kdykoli přerušit tím, že promluvíte. Chat můžete ukončit výběrem tlačítka Zastavit .

  • Další informace o typech nasazení Azure OpenAI
  • Další informace o kvótách a limitech Azure OpenAI