ROZHRANÍ GPT-4o API v reálném čase pro řeč a zvuk (Preview)

Článek
10/31/2024

Rozhraní API Azure OpenAI GPT-4o v reálném čase pro řeč a zvuk je součástí řady modelů GPT-4o, která podporuje konverzace s nízkou latencí, "řeč v řeči" a mluvenou konverzací. Rozhraní GPT-4o Audio realtime API je navržené tak, aby zpracovával konverzační interakce v reálném čase, což je skvělé pro případy použití zahrnující živé interakce mezi uživatelem a modelem, jako jsou agenti zákaznické podpory, hlasoví asistenti a překladatelé v reálném čase.

Většina uživatelů rozhraní API v reálném čase potřebuje doručovat a přijímat zvuk od koncového uživatele v reálném čase, včetně aplikací, které používají WebRTC nebo telefonní systém. Rozhraní API v reálném čase není navržené tak, aby se připojilo přímo k zařízením koncových uživatelů a spoléhá na integraci klientů, aby ukončila zvukové streamy koncových uživatelů.

Podporované modely

Aktuálně pouze gpt-4o-realtime-preview verze: 2024-10-01-preview podporuje zvuk v reálném čase.

Model gpt-4o-realtime-preview je k dispozici pro globální nasazení v oblastech USA – východ 2 a Švédsko – střed.

Důležité

Systém ukládá výzvy a dokončení, jak je popsáno v části Použití dat a přístup k monitorování zneužití v podmínkách produktu specifické pro službu Azure OpenAI, s tím rozdílem, že se nevztahuje omezená výjimka. Monitorování zneužití bude zapnuté pro použití rozhraní API i pro zákazníky, kteří jsou jinak schváleni pro monitorování upravených gpt-4o-realtime-preview zneužití.

Podpora rozhraní API

Podpora rozhraní API v reálném čase byla poprvé přidána ve verzi 2024-10-01-previewrozhraní API .

Poznámka:

Další informace o rozhraní API a architektuře najdete v úložišti zvuků Azure OpenAI GPT-4o v reálném čase na GitHubu.

Požadavky

Předplatné Azure – Vytvořte si ho zdarma.
Prostředek Azure OpenAI vytvořený v podporované oblasti Další informace najdete v tématu Vytvoření prostředku a nasazení modelu pomocí Azure OpenAI.

Nasazení modelu pro zvuk v reálném čase

Než budete moct použít zvuk GPT-4o v reálném čase, potřebujete nasazení gpt-4o-realtime-preview modelu v podporované oblasti, jak je popsáno v části Podporované modely .

Model můžete nasadit z katalogu modelů Azure AI Studio nebo z projektu v AI Studiu. Pokud chcete nasadit gpt-4o-realtime-preview model z katalogu modelů, postupujte takto:

Přihlaste se k AI Studiu a přejděte na domovskou stránku.
Na levém bočním panelu vyberte Katalog modelů.
Vyhledejte a vyberte gpt-4o-realtime-preview model z kolekce Azure OpenAI.
Výběrem možnosti Nasadit otevřete okno nasazení.
Zadejte název nasazení a vyberte prostředek Azure OpenAI.
V rozevíracím seznamu Verze modelu vyberte2024-10-01.
Upravte další výchozí nastavení v závislosti na vašich požadavcích.
Vyberte Nasadit. Dostanete se na stránku s podrobnostmi o nasazení.

Teď, když máte nasazení gpt-4o-realtime-preview modelu, můžete použít zvukové hřiště AI Studio v reálném čase nebo rozhraní API v reálném čase k interakci s ním v reálném čase.

Použití zvuku GPT-4o v reálném čase

Tip

Nejrychlejším způsobem, jak začít s vývojem pomocí rozhraní GPT-4o Realtime API, je stáhnout vzorový kód z úložiště zvuku Azure OpenAI GPT-4o v reálném čase na GitHubu.

Pokud chcete chatovat s nasazeným gpt-4o-realtime-preview modelem na zvukovém hřišti Azure AI Studio v reálném čase, postupujte takto:

Přejděte ke svému projektu v Azure AI Studiu.
V levém podokně vyberte Zvuk z dětského hřiště>v reálném čase.
V rozevíracím seznamu Nasazení vyberte nasazený gpt-4o-realtime-preview model.
Pokud chcete prohlížeči povolit přístup k mikrofonu, vyberte Povolit mikrofon . Pokud jste už udělili oprávnění, můžete tento krok přeskočit.
Volitelně můžete upravit obsah v poli Zadat pokyny k modelu a kontextové textové pole. Poskytněte modelu pokyny, jak by se měl chovat, a jakýkoli kontext, na který by měl odkazovat při generování odpovědi. Můžete popsat osobnost asistenta, sdělit, co by měl a neměl odpovídat, a sdělit, jak formátovat odpovědi.
Volitelně můžete změnit nastavení, jako je prahová hodnota, odsazení předpony a doba trvání ticha.
Vyberte Spustit naslouchání a spusťte relaci. Můžete mluvit do mikrofonu a zahájit chat.
Chat můžete kdykoli přerušit tím, že promluvíte. Chat můžete ukončit tak , že vyberete tlačítko Ukončit naslouchání .

Webová ukázka JavaScriptu ukazuje použití rozhraní GPT-4o RealTime API k interakci s modelem v reálném čase v reálném čase. Ukázkový kód obsahuje jednoduché webové rozhraní, které zachycuje zvuk z mikrofonu uživatele a odesílá ho do modelu ke zpracování. Model reaguje textem a zvukem, který vzorový kód vykresluje ve webovém rozhraní.

Ukázkový kód můžete spustit místně na svém počítači pomocí následujícího postupu. Nejnovější pokyny najdete v úložišti na GitHubu .

Pokud nemáte nainstalované Node.js, stáhněte a nainstalujte verzi ltS Node.js.

Naklonujte úložiště do místního počítače:

git clone https://github.com/Azure-Samples/aoai-realtime-audio-sdk.git

Přejděte do javascript/samples/web složky v preferovaném editoru kódu.
```
cd ./javascript/samples
```
Spusťte download-pkg.ps1 nebo download-pkg.sh stáhněte požadované balíčky.
Přejděte do web složky ze ./javascript/samples složky.
```
cd ./web
```
Spusťte npm install instalaci závislostí balíčku.
Spuštěním spusťte npm run dev webový server a podle potřeby přejděte na všechny výzvy k oprávněním brány firewall.
V prohlížeči přejděte na některé z poskytnutých identifikátorů URI z výstupu konzoly (například http://localhost:5173/).
Do webového rozhraní zadejte následující informace:
- Koncový bod: Koncový bod prostředku prostředku Azure OpenAI. Cestu nemusíte přidávat /realtime . Příkladem může být https://my-azure-openai-resource-from-portal.openai.azure.comstruktura .
- Klíč rozhraní API: Odpovídající klíč rozhraní API pro prostředek Azure OpenAI.
- Nasazení: Název gpt-4o-realtime-preview modelu, který jste nasadili v předchozí části.
- Systémová zpráva: Volitelně můžete zadat systémovou zprávu, například "Vždy mluvíte jako přátelský pirát.".
- Teplota: Volitelně můžete zadat vlastní teplotu.
- Hlas: Volitelně můžete vybrat hlas.
Výběrem tlačítka Záznam spusťte relaci. Pokud se zobrazí výzva, přijměte oprávnění k používání mikrofonu.
V hlavním výstupu by se měla zobrazit << Session Started >> zpráva. Pak můžete mluvit do mikrofonu a zahájit chat.
Chat můžete kdykoli přerušit tím, že promluvíte. Chat můžete ukončit výběrem tlačítka Zastavit .

Další informace o typech nasazení Azure OpenAI
Další informace o kvótách a limitech Azure OpenAI

Sdílet prostřednictvím

ROZHRANÍ GPT-4o API v reálném čase pro řeč a zvuk (Preview)

Podporované modely

Podpora rozhraní API

Požadavky

Nasazení modelu pro zvuk v reálném čase

Použití zvuku GPT-4o v reálném čase

Váš názor

Další materiály

Sdílet prostřednictvím

ROZHRANÍ GPT-4o API v reálném čase pro řeč a zvuk (Preview)

Podporované modely

Podpora rozhraní API

Požadavky

Nasazení modelu pro zvuk v reálném čase

Použití zvuku GPT-4o v reálném čase

Související obsah

Váš názor

Další materiály