Kód migrálása a Long Audio API-ból a Batch-szintézis API-ba
A Batch szintézis API a hosszú formátumú szövegek aszinkron szintézisét biztosítja a beszédhez. Ez a cikk ismerteti a Long Audio API-ról Batch-szintézis API-ra való frissítés előnyeit, valamint ennek részleteit.
Fontos
A Batch synthesis API általánosan elérhető. A Long Audio API 2027. április 1-jén megszűnik.
Alap elérési út és verzió
Frissítse a végpontot a következőről https://YourSpeechRegion.customvoice.api.speech.microsoft.com
a másikra https://YourSpeechRegion.api.cognitive.microsoft.com
, vagy használhat helyette egyéni tartományt: https://{customDomainName}.cognitiveservices.azure.com/
.
Frissítse a kód alap elérési útját a következőre /texttospeech/v3.0/longaudiosynthesis
/texttospeech/batchsyntheses
: .
Frissítse a verziót az alap elérési útról a lekérdezési sztringre /texttospeech/v3.0/longaudiosynthesis
?api-version=2024-04-01
.
Ha például a speech-erőforrás szintézisfeladatait szeretné listázni a eastus
régióban, használja https://eastus.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01
ahelyett https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/v3.0/longaudiosynthesis
, hogy a .
Régiók és végpontok
A Batch synthesis API több Speech-régióban is elérhető.
A Long Audio API a következő régiókra korlátozódik:
Régió | Végpont |
---|---|
Kelet-Ausztrália | https://australiaeast.customvoice.api.speech.microsoft.com |
USA keleti régiója | https://eastus.customvoice.api.speech.microsoft.com |
Közép-India | https://centralindia.customvoice.api.speech.microsoft.com |
USA déli középső régiója | https://southcentralus.customvoice.api.speech.microsoft.com |
Délkelet-Ázsia | https://southeastasia.customvoice.api.speech.microsoft.com |
Az Egyesült Királyság déli régiója | https://uksouth.customvoice.api.speech.microsoft.com |
Nyugat-Európa | https://westeurope.customvoice.api.speech.microsoft.com |
Hangok listája
A Batch synthesis API támogatja az összes szöveg-beszédhangot és stílust.
A Long Audio API a GET kérés által visszaadott hangkészletre korlátozódik https://<endpoint>/api/texttospeech/v3.0/longaudiosynthesis/voices
.
Szövegbevitelek
A kötegszintézis szövegbemenetei legfeljebb 2 megabájtos JSON-hasznos adatban lesznek elküldve.
A Long Audio API szöveges bemenetei olyan fájlból kerülnek feltöltésre, amely megfelel az alábbi követelményeknek:
- Egy egyszerű szöveges (.txt) vagy SSML-szövegfájl (.txt) UTF-8 formátumban, byte Order Mark (BOM) kóddal. Ne használjon tömörített fájlokat, például ZIP-fájlokat. Ha egynél több bemeneti fájllal rendelkezik, több kérést is be kell küldenie.
- Több mint 400 karaktert tartalmaz egyszerű szöveghez, az SSML-szöveghez pedig 400 számlázható karaktert , és kevesebb mint 10 000 bekezdést. Egyszerű szöveg esetén minden bekezdést egy új sor választ el egymástól. Az SSML-szövegek esetében minden SSML-darab bekezdésnek minősül. Különítse el az SSML-darabokat különböző bekezdések szerint.
A Batch szintézis API-val a támogatott SSML-elemek bármelyikét használhatja, beleértve a , mstts:backgroundaudio
és lexicon
az audio
elemeket is. A hosszú hang API nem támogatja az , mstts:backgroundaudio
és lexicon
az audio
elemeket.
Hangkimeneti formátumok
A Batch szintézis API támogatja az összes szöveg-beszéd hangkimeneti formátumot.
A Long Audio API a következő hangkimeneti formátumok készletére korlátozódik. A hosszú hanghangok mintasebessége 24kHz, nem pedig 48kHz. Más mintaarányok a szintetizáláskor a fel- vagy lebélyegzéssel is beszerezhetők.
- riff-8khz-16bit-mono-pcm
- riff-16khz-16bit-mono-pcm
- riff-24khz-16bit-mono-pcm
- riff-48khz-16bit-mono-pcm
- audio-16khz-32kbitrate-mono-mp3
- audio-16khz-64kbitrate-mono-mp3
- audio-16khz-128kbitrate-mono-mp3
- audio-24khz-48kbitrate-mono-mp3
- audio-24khz-96kbitrate-mono-mp3
- audio-24khz-160kbitrate-mono-mp3
Eredmények lekérése
A batch synthesis API-val használja a outputs.result
HTTP GET kötegszintézis-válasz tulajdonságának URL-címét. Az eredmények egy ZIP-fájlban találhatók, amely tartalmazza a hang (például 0001.wav
), összegzés és hibakeresés részleteit.
A hosszú Audio API-szöveges bemenetek és eredmények két külön tartalom URL-címen keresztül jelennek meg, ahogyan az alábbi példában is látható. Az egyik a "kind": "LongAudioSynthesisScript"
bemeneti szkript elküldve. A másik a "kind": "LongAudioSynthesisResult"
kérés eredménye. Mindkét ZIP-fájl letölthető a tulajdonságában links.contentUrl
lévő URL-címről.
Erőforrások eltávolítása
A Batch synthesis API legfeljebb 300 olyan kötegszintézisi feladatot támogat, amelyek állapota nem "Sikeres" vagy "Sikertelen". A Speech szolgáltatás az egyes szintéziselőzményeket legfeljebb 31 napig, vagy a kérelem timeToLiveInHours
tulajdonság időtartamát őrzi meg, attól függően, hogy melyik hamarabb érkezik. Az automatikus törlés dátuma és időpontja ("Sikeres" vagy "Sikertelen" állapotú szintézisfeladatok esetén) megegyezik a lastActionDateTime
+ timeToLiveInHours
tulajdonságokkal.
A Long Audio API legfeljebb 20 000 kérést igényel minden Azure-előfizetési fiókhoz. A Speech szolgáltatás nem távolítja el automatikusan a feladatelőzményeket. Az előző feladatfuttatási előzményeket el kell távolítania, mielőtt olyan új kéréseket indítana, amelyek egyébként túllépnék a korlátot.