ROZHRANÍ GPT-4o API v reálném čase pro řeč a zvuk (Preview)
Rozhraní API Azure OpenAI GPT-4o v reálném čase pro řeč a zvuk je součástí řady modelů GPT-4o, která podporuje konverzace s nízkou latencí, "řeč v řeči" a mluvenou konverzací. Rozhraní GPT-4o Audio realtime
API je navržené tak, aby zpracovával konverzační interakce v reálném čase, což je skvělé pro případy použití zahrnující živé interakce mezi uživatelem a modelem, jako jsou agenti zákaznické podpory, hlasoví asistenti a překladatelé v reálném čase.
Většina uživatelů rozhraní API v reálném čase potřebuje doručovat a přijímat zvuk od koncového uživatele v reálném čase, včetně aplikací, které používají WebRTC nebo telefonní systém. Rozhraní API v reálném čase není navržené tak, aby se připojilo přímo k zařízením koncových uživatelů a spoléhá na integraci klientů, aby ukončila zvukové streamy koncových uživatelů.
Podporované modely
Aktuálně pouze gpt-4o-realtime-preview
verze: 2024-10-01-preview
podporuje zvuk v reálném čase.
Model gpt-4o-realtime-preview
je k dispozici pro globální nasazení v oblastech USA – východ 2 a Švédsko – střed.
Důležité
Systém ukládá výzvy a dokončení, jak je popsáno v části Použití dat a přístup k monitorování zneužití v podmínkách produktu specifické pro službu Azure OpenAI, s tím rozdílem, že se nevztahuje omezená výjimka. Monitorování zneužití bude zapnuté pro použití rozhraní API i pro zákazníky, kteří jsou jinak schváleni pro monitorování upravených gpt-4o-realtime-preview
zneužití.
Podpora rozhraní API
Podpora rozhraní API v reálném čase byla poprvé přidána ve verzi 2024-10-01-preview
rozhraní API .
Poznámka:
Další informace o rozhraní API a architektuře najdete v úložišti zvuků Azure OpenAI GPT-4o v reálném čase na GitHubu.
Požadavky
- Předplatné Azure – Vytvořte si ho zdarma.
- Prostředek Azure OpenAI vytvořený v podporované oblasti Další informace najdete v tématu Vytvoření prostředku a nasazení modelu pomocí Azure OpenAI.
Nasazení modelu pro zvuk v reálném čase
Než budete moct použít zvuk GPT-4o v reálném čase, potřebujete nasazení gpt-4o-realtime-preview
modelu v podporované oblasti, jak je popsáno v části Podporované modely .
Model můžete nasadit z katalogu modelů Azure AI Studio nebo z projektu v AI Studiu. Pokud chcete nasadit gpt-4o-realtime-preview
model z katalogu modelů, postupujte takto:
- Přihlaste se k AI Studiu a přejděte na domovskou stránku.
- Na levém bočním panelu vyberte Katalog modelů.
- Vyhledejte a vyberte
gpt-4o-realtime-preview
model z kolekce Azure OpenAI. - Výběrem možnosti Nasadit otevřete okno nasazení.
- Zadejte název nasazení a vyberte prostředek Azure OpenAI.
- V rozevíracím seznamu Verze modelu vyberte
2024-10-01
. - Upravte další výchozí nastavení v závislosti na vašich požadavcích.
- Vyberte Nasadit. Dostanete se na stránku s podrobnostmi o nasazení.
Teď, když máte nasazení gpt-4o-realtime-preview
modelu, můžete použít zvukové hřiště AI Studio v reálném čase nebo rozhraní API v reálném čase k interakci s ním v reálném čase.
Použití zvuku GPT-4o v reálném čase
Tip
Nejrychlejším způsobem, jak začít s vývojem pomocí rozhraní GPT-4o Realtime API, je stáhnout vzorový kód z úložiště zvuku Azure OpenAI GPT-4o v reálném čase na GitHubu.
Pokud chcete chatovat s nasazeným gpt-4o-realtime-preview
modelem na zvukovém hřišti Azure AI Studio v reálném čase, postupujte takto:
Přejděte ke svému projektu v Azure AI Studiu.
V levém podokně vyberte Zvuk z dětského hřiště>v reálném čase.
V rozevíracím seznamu Nasazení vyberte nasazený
gpt-4o-realtime-preview
model.Pokud chcete prohlížeči povolit přístup k mikrofonu, vyberte Povolit mikrofon . Pokud jste už udělili oprávnění, můžete tento krok přeskočit.
Volitelně můžete upravit obsah v poli Zadat pokyny k modelu a kontextové textové pole. Poskytněte modelu pokyny, jak by se měl chovat, a jakýkoli kontext, na který by měl odkazovat při generování odpovědi. Můžete popsat osobnost asistenta, sdělit, co by měl a neměl odpovídat, a sdělit, jak formátovat odpovědi.
Volitelně můžete změnit nastavení, jako je prahová hodnota, odsazení předpony a doba trvání ticha.
Vyberte Spustit naslouchání a spusťte relaci. Můžete mluvit do mikrofonu a zahájit chat.
Chat můžete kdykoli přerušit tím, že promluvíte. Chat můžete ukončit tak , že vyberete tlačítko Ukončit naslouchání .
Webová ukázka JavaScriptu ukazuje použití rozhraní GPT-4o RealTime API k interakci s modelem v reálném čase v reálném čase. Ukázkový kód obsahuje jednoduché webové rozhraní, které zachycuje zvuk z mikrofonu uživatele a odesílá ho do modelu ke zpracování. Model reaguje textem a zvukem, který vzorový kód vykresluje ve webovém rozhraní.
Ukázkový kód můžete spustit místně na svém počítači pomocí následujícího postupu. Nejnovější pokyny najdete v úložišti na GitHubu .
Pokud nemáte nainstalované Node.js, stáhněte a nainstalujte verzi ltS Node.js.
Naklonujte úložiště do místního počítače:
git clone https://github.com/Azure-Samples/aoai-realtime-audio-sdk.git
Přejděte do
javascript/samples/web
složky v preferovaném editoru kódu.cd ./javascript/samples
Spusťte
download-pkg.ps1
nebodownload-pkg.sh
stáhněte požadované balíčky.Přejděte do
web
složky ze./javascript/samples
složky.cd ./web
Spusťte
npm install
instalaci závislostí balíčku.Spuštěním spusťte
npm run dev
webový server a podle potřeby přejděte na všechny výzvy k oprávněním brány firewall.V prohlížeči přejděte na některé z poskytnutých identifikátorů URI z výstupu konzoly (například
http://localhost:5173/
).Do webového rozhraní zadejte následující informace:
- Koncový bod: Koncový bod prostředku prostředku Azure OpenAI. Cestu nemusíte přidávat
/realtime
. Příkladem může býthttps://my-azure-openai-resource-from-portal.openai.azure.com
struktura . - Klíč rozhraní API: Odpovídající klíč rozhraní API pro prostředek Azure OpenAI.
- Nasazení: Název
gpt-4o-realtime-preview
modelu, který jste nasadili v předchozí části. - Systémová zpráva: Volitelně můžete zadat systémovou zprávu, například "Vždy mluvíte jako přátelský pirát.".
- Teplota: Volitelně můžete zadat vlastní teplotu.
- Hlas: Volitelně můžete vybrat hlas.
- Koncový bod: Koncový bod prostředku prostředku Azure OpenAI. Cestu nemusíte přidávat
Výběrem tlačítka Záznam spusťte relaci. Pokud se zobrazí výzva, přijměte oprávnění k používání mikrofonu.
V hlavním výstupu by se měla zobrazit
<< Session Started >>
zpráva. Pak můžete mluvit do mikrofonu a zahájit chat.Chat můžete kdykoli přerušit tím, že promluvíte. Chat můžete ukončit výběrem tlačítka Zastavit .