Mi a beszélgetés átírása többcsatornás diarization? (előzetes verzió)
Feljegyzés
Ez a funkció jelenleg nyilvános előzetes verzióban érhető el. Ez az előzetes verzió szolgáltatásszintű szerződés nélkül érhető el, és éles számítási feladatokhoz nem ajánlott. Előfordulhat, hogy néhány funkció nem támogatott, vagy korlátozott képességekkel rendelkezik. További információ: Kiegészítő használati feltételek a Microsoft Azure előzetes verziójú termékeihez.
A beszélgetés átírása többcsatornás diarization egy szöveggé alakítási megoldás, amely valós idejű vagy aszinkron átiratot biztosít az értekezletek számára. Ez a funkció egyesíti a beszédfelismerést, a beszélő-azonosítást és a mondatok hozzárendelését annak meghatározásához, hogy ki és mit mondott egy értekezleten.
Fontos
A többcsatornás diarizálás (előzetes verzió) 2025. március 28-án visszavonul. A beszéd más beszédfunkciókba való migrálásával kapcsolatos további információkért lásd : Migrálás távol a beszélgetés átírásától többcsatornás diarizálástól.
Migrálás a beszélgetés átírásából többcsatornás diarizálásból
A többcsatornás diarizálás (előzetes verzió) 2025. március 28-án visszavonul.
Ha továbbra is használni szeretné a beszédet a szöveghez diarizálással, használja inkább a következő funkciókat:
Ezek a szövegfelolvasási funkciók csak az egycsatornás hang diarizálását támogatják. A többcsatornás többcsatornás diarizálással használt többcsatornás hang nem támogatott.
Legfontosabb funkciók
A beszélgetés átírásának alábbi funkciói hasznosak lehetnek:
- Időbélyegek: Minden beszélő kimondottszövege rendelkezik időbélyegzővel, így könnyen megtalálhatja, amikor egy kifejezést mondtak.
- Olvasható átiratok: Az átiratok formázása és írásjelezése automatikusan hozzáadva biztosítja, hogy a szöveg pontosan egyezzen az elhangzott szövegekkel.
- Felhasználói profilok: A felhasználói profilok a felhasználói hangminták gyűjtésével és aláírás-létrehozásra való küldésével jönnek létre.
- Beszélőazonosítás: A beszélők azonosítása felhasználói profilok használatával történik, és mindegyikhez hozzá van rendelve egy beszélőazonosító .
- Több hangszórós diarizálás: Határozza meg, hogy ki mit mondott a hangstream minden egyes beszélőazonosítóval való szintetizálásával.
- Valós idejű átírás: Élő átiratokat ad arról, hogy ki és mit mond, és mikor, miközben az értekezlet zajlik.
- Aszinkron átirat: Többcsatornás hangstream használatával nagyobb pontosságú átiratokat biztosít.
Feljegyzés
Bár a beszélgetés átírása nem korlátozza a szobában lévő hangszórók számát, munkamenetenként 2-10 hangszóróra van optimalizálva.
Használati esetek
Ahhoz, hogy az értekezletek mindenki számára befogadóak legyenek, például a siket és a nagyothalló résztvevők számára, fontos, hogy valós időben legyen átirat. A beszélgetés átírása valós idejű módban az értekezlet hanganyagát veszi fel, és meghatározza, hogy ki mit mond, így az összes résztvevő késedelem nélkül követheti az átiratot, és részt vehet az értekezleten.
Az értekezlet résztvevői az értekezletre összpontosíthatnak, és a jegyzetkészítést a beszélgetés átírására hagyhatják. A résztvevők aktívan részt vehetnek az értekezleten, és gyorsan nyomon követhetik a következő lépéseket, az átirat használatával ahelyett, hogy jegyzeteket készítenének, és esetleg hiányoznak valamit az értekezlet során.
Hogyan működik?
Az alábbi ábra a funkció működésének magas szintű áttekintését mutatja be.
Várt bemenetek
A beszélgetés átírása kétféle bemenetet használ:
- Többcsatornás hangstream: A specifikációval és a kialakítással kapcsolatos részletekért tekintse meg a Mikrofontömb javaslatait.
- Felhasználói hangminták: A beszélgetés átírásához a beszélgetés előtt felhasználói profilokra van szükség a beszélőazonosításhoz. Gyűjtse össze a hangrögzítéseket az egyes felhasználóktól, majd küldje el a felvételeket az aláírás-létrehozó szolgáltatásnak a hang ellenőrzéséhez és a felhasználói profilok létrehozásához.
A beszélőazonosításhoz felhasználói hangminták szükségesek a hangaláírásokhoz. Azok a beszélők, akik nem rendelkeznek hangmintákkal, azonosítatlanként lesznek felismerve. Az azonosítatlan hangszórók továbbra is megkülönböztethetők, ha engedélyezve van a DifferentiateGuestSpeakers
tulajdonság (lásd az alábbi példát). Az átirat kimenete ezután a beszélőket például Guest_0 és Guest_1 jeleníti meg ahelyett, hogy előre regisztrált beszélőnevekként ismerne fel őket.
config.SetProperty("DifferentiateGuestSpeakers", "true");
Valós idejű vagy aszinkron
Az alábbi szakaszok részletesebben ismertetik a választható átírási módokat.
Valós idejű
A hangadatok feldolgozása élőben történik a beszélő azonosítójának és átiratának visszaadásához. Válassza ezt a módot, ha az átírási megoldás követelménye, hogy élő átiratos nézetet biztosítson az értekezlet résztvevőinek a folyamatban lévő értekezletről. Például egy alkalmazás létrehozása, amely akadálymentesebbé teszi az értekezleteket a hallássérült vagy siket résztvevők számára, ideális használati eset a valós idejű átíráshoz.
Aszinkron
A hangadatok kötegelt feldolgozása a beszélő azonosítójának és átiratának visszaadásához történik. Válassza ezt a módot, ha az átírási megoldásra vonatkozó követelmény a nagyobb pontosság biztosítása az élő átirat nézet nélkül. Ha például olyan alkalmazást szeretne létrehozni, amely lehetővé teszi, hogy az értekezlet résztvevői könnyen felzárkózhassanak a kihagyott értekezletekhez, akkor az aszinkron átírási módot használva nagy pontosságú átírási eredményeket érhet el.
Valós idejű és aszinkron
A hangadatok feldolgozása élőben történik a beszélő azonosítójának és átiratának visszaadásához, továbbá nagy pontosságú átiratot kér aszinkron feldolgozással. Válassza ezt a módot, ha az alkalmazásnak valós idejű átírásra van szüksége, és az értekezlet után nagyobb pontosságú átiratot is igényel.
Nyelvi és régiós támogatás
A beszélgetés átírása jelenleg a következő régiókban támogatja az összes beszédnyelvet: centralus
, eastasia
, , eastus
westeurope
.