Megosztás a következőn keresztül:


Hangképességek az Azure OpenAI-ban az Azure AI Foundry-modellekben

Fontos

A tartalomszűrési rendszer nem vonatkozik az olyan hangmodellek által feldolgozott kérésekre és kiegészítésekre, mint a Whisper az Azure OpenAI-ban.

Az Azure OpenAI szolgáltatásban a hangmodellek a realtime, completions, és audio API-ken keresztül érhetők el. A hangmodellek különféle feladatok kezelésére szolgálnak, beleértve a beszédfelismerést, a fordítást és a szövegfelolvasást.

Az Azure OpenAI-ban régiónként elérhető hangmodellekkel kapcsolatos információkért tekintse meg a hangmodelleket, a végpontok szerinti standard modelleket és a globális standard modellek rendelkezésre állási dokumentációját .

GPT-4o hangalapú valós idejű API

A GPT-4o valós idejű hangrendszerét úgy alakították ki, hogy kezelje a valós idejű, alacsony késleltetésű beszélgetési interakciókat, így ideális választás támogató ügynökök, asszisztensek, fordítók és más olyan esetek számára, ahol a felhasználóval folytatott gyors és hatékony kommunikációra van szükség. A GPT-4o valós idejű hang használatával kapcsolatos további információkért tekintse meg a GPT-4o valós idejű hang gyorsútmutatót és a GPT-4o hang használatát.

GPT-4o hangkiegészítések

A GPT-4o hangkiegészítés úgy lett kialakítva, hogy hang- vagy szövegfeliratokból hanganyagot generáljon, így kiválóan alkalmas hangkönyvek, hangtartalmak és egyéb hanggenerálást igénylő használati esetek létrehozásához. A GPT-4o hangkiegészítési modell bevezeti a hangmoalitást a meglévő /chat/completions API-ba. A GPT-4o hangkiegészítések használatáról további információt a hanggenerálási rövid útmutatóban talál.

Audio API

A /audio API-n keresztül használható hangmodellek beszéd szöveggé alakítására, fordításra és szöveg beszéddé alakítására használhatók. A hang API használatának megkezdéséhez tekintse meg a Szövegfelolvasás gyorsútmutatót .

Megjegyzés:

Az Azure AI Speech vagy az Azure OpenAI használatának eldöntéséhez tekintse meg az Azure AI Speech kötegelt átírás, a Mi a Whisper modell? és az OpenAI szövegből beszéddé hangok útmutatóit.