Kód migrálása a Long Audio API-ból a Batch-szintézis API-ba

A Batch szintézis API a hosszú formátumú szövegek aszinkron szintézisét biztosítja a beszédhez. Ez a cikk ismerteti a Long Audio API-ról Batch-szintézis API-ra való frissítés előnyeit, valamint ennek részleteit.

Fontos

A Batch synthesis API általánosan elérhető. A Long Audio API 2027. április 1-jén megszűnik.

Alap elérési út és verzió

Frissítse a végpontot a következőről https://YourSpeechRegion.customvoice.api.speech.microsoft.com a másikra https://YourSpeechRegion.api.cognitive.microsoft.com , vagy használhat helyette egyéni tartományt: https://{customDomainName}.cognitiveservices.azure.com/.

Frissítse a kód alap elérési útját a következőre /texttospeech/v3.0/longaudiosynthesis/texttospeech/batchsyntheses: .

Frissítse a verziót az alap elérési útról a lekérdezési sztringre /texttospeech/v3.0/longaudiosynthesis?api-version=2024-04-01.

Ha például a speech-erőforrás szintézisfeladatait szeretné listázni a eastus régióban, használja https://eastus.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01 ahelyett https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/v3.0/longaudiosynthesis, hogy a .

Régiók és végpontok

A Batch synthesis API több Speech-régióban is elérhető.

A Long Audio API a következő régiókra korlátozódik:

Régió Végpont
Kelet-Ausztrália https://australiaeast.customvoice.api.speech.microsoft.com
USA keleti régiója https://eastus.customvoice.api.speech.microsoft.com
Közép-India https://centralindia.customvoice.api.speech.microsoft.com
USA déli középső régiója https://southcentralus.customvoice.api.speech.microsoft.com
Délkelet-Ázsia https://southeastasia.customvoice.api.speech.microsoft.com
Az Egyesült Királyság déli régiója https://uksouth.customvoice.api.speech.microsoft.com
Nyugat-Európa https://westeurope.customvoice.api.speech.microsoft.com

Hangok listája

A Batch synthesis API támogatja az összes szöveg-beszédhangot és stílust.

A Long Audio API a GET kérés által visszaadott hangkészletre korlátozódik https://<endpoint>/api/texttospeech/v3.0/longaudiosynthesis/voices.

Szövegbevitelek

A kötegszintézis szövegbemenetei legfeljebb 2 megabájtos JSON-hasznos adatban lesznek elküldve.

A Long Audio API szöveges bemenetei olyan fájlból kerülnek feltöltésre, amely megfelel az alábbi követelményeknek:

  • Egy egyszerű szöveges (.txt) vagy SSML-szövegfájl (.txt) UTF-8 formátumban, byte Order Mark (BOM) kóddal. Ne használjon tömörített fájlokat, például ZIP-fájlokat. Ha egynél több bemeneti fájllal rendelkezik, több kérést is be kell küldenie.
  • Több mint 400 karaktert tartalmaz egyszerű szöveghez, az SSML-szöveghez pedig 400 számlázható karaktert , és kevesebb mint 10 000 bekezdést. Egyszerű szöveg esetén minden bekezdést egy új sor választ el egymástól. Az SSML-szövegek esetében minden SSML-darab bekezdésnek minősül. Különítse el az SSML-darabokat különböző bekezdések szerint.

A Batch szintézis API-val a támogatott SSML-elemek bármelyikét használhatja, beleértve a , mstts:backgroundaudioés lexicon az audioelemeket is. A hosszú hang API nem támogatja az , mstts:backgroundaudioés lexicon az audioelemeket.

Hangkimeneti formátumok

A Batch szintézis API támogatja az összes szöveg-beszéd hangkimeneti formátumot.

A Long Audio API a következő hangkimeneti formátumok készletére korlátozódik. A hosszú hanghangok mintasebessége 24kHz, nem pedig 48kHz. Más mintaarányok a szintetizáláskor a fel- vagy lebélyegzéssel is beszerezhetők.

  • riff-8khz-16bit-mono-pcm
  • riff-16khz-16bit-mono-pcm
  • riff-24khz-16bit-mono-pcm
  • riff-48khz-16bit-mono-pcm
  • audio-16khz-32kbitrate-mono-mp3
  • audio-16khz-64kbitrate-mono-mp3
  • audio-16khz-128kbitrate-mono-mp3
  • audio-24khz-48kbitrate-mono-mp3
  • audio-24khz-96kbitrate-mono-mp3
  • audio-24khz-160kbitrate-mono-mp3

Eredmények lekérése

A batch synthesis API-val használja a outputs.result HTTP GET kötegszintézis-válasz tulajdonságának URL-címét. Az eredmények egy ZIP-fájlban találhatók, amely tartalmazza a hang (például 0001.wav), összegzés és hibakeresés részleteit.

A hosszú Audio API-szöveges bemenetek és eredmények két külön tartalom URL-címen keresztül jelennek meg, ahogyan az alábbi példában is látható. Az egyik a "kind": "LongAudioSynthesisScript" bemeneti szkript elküldve. A másik a "kind": "LongAudioSynthesisResult" kérés eredménye. Mindkét ZIP-fájl letölthető a tulajdonságában links.contentUrl lévő URL-címről.

Erőforrások eltávolítása

A Batch synthesis API legfeljebb 300 olyan kötegszintézisi feladatot támogat, amelyek állapota nem "Sikeres" vagy "Sikertelen". A Speech szolgáltatás az egyes szintéziselőzményeket legfeljebb 31 napig, vagy a kérelem timeToLiveInHours tulajdonság időtartamát őrzi meg, attól függően, hogy melyik hamarabb érkezik. Az automatikus törlés dátuma és időpontja ("Sikeres" vagy "Sikertelen" állapotú szintézisfeladatok esetén) megegyezik a lastActionDateTime + timeToLiveInHours tulajdonságokkal.

A Long Audio API legfeljebb 20 000 kérést igényel minden Azure-előfizetési fiókhoz. A Speech szolgáltatás nem távolítja el automatikusan a feladatelőzményeket. Az előző feladatfuttatási előzményeket el kell távolítania, mielőtt olyan új kéréseket indítana, amelyek egyébként túllépnék a korlátot.

Következő lépések