Wat is gesprektranscriptie met meerdere kanalen? (preview)

Artikel
02/07/2025

Notitie

Deze functie is momenteel beschikbaar als openbare preview-versie. Deze preview wordt aangeboden zonder service level agreement en wordt niet aanbevolen voor productieworkloads. Misschien worden bepaalde functies niet ondersteund of zijn de mogelijkheden ervan beperkt. Zie Aanvullende gebruiksvoorwaarden voor Microsoft Azure-previews voor meer informatie.

Gesprektranscriptie met meerdere kanalen is een spraak-naar-tekstoplossing die realtime of asynchrone transcriptie van een vergadering biedt. Deze functie combineert spraakherkenning, sprekeridentificatie en zinsvermelding om te bepalen wie wat heeft gezegd en wanneer in een vergadering.

Belangrijk

Gesprektranscriptie van meerdere kanalen (preview) wordt op 28 maart 2025 buiten gebruik gesteld. Zie Migreren van gesprektranscriptie met meerdere kanalen voor meer informatie over migreren naar andere spraak-naar-tekstfuncties.

Migreren van gesprektranscriptie met meerdere kanalen

Gesprektranscriptie van meerdere kanalen (preview) wordt op 28 maart 2025 buiten gebruik gesteld.

Als u spraak-naar-tekst wilt blijven gebruiken met diarisatie, gebruikt u in plaats daarvan de volgende functies:

Deze spraak-naar-tekstfuncties bieden alleen ondersteuning voor diarisatie voor audio met één kanaal. Audio met meerdere kanalen die u hebt gebruikt met gesprektranscriptie voor meerdere kanalen, wordt niet ondersteund.

Belangrijkste functies

Mogelijk vindt u de volgende functies van gesprektranscriptie nuttig:

Tijdstempels: elke sprekeruiting heeft een tijdstempel, zodat u gemakkelijk kunt vinden wanneer een woordgroep werd gezegd.
Leesbare transcripties: transcripties hebben automatisch opmaak en leestekens toegevoegd om ervoor te zorgen dat de tekst nauw overeenkomt met wat er werd gezegd.
Gebruikersprofielen: gebruikersprofielen worden gegenereerd door het verzamelen van spraakvoorbeelden van gebruikers en het verzenden naar het genereren van handtekeningen.
Sprekeridentificatie: Sprekers worden geïdentificeerd met behulp van gebruikersprofielen en er wordt een spreker-id toegewezen aan elk.
Multi-speaker diarization: bepaal wie wat zei door de audiostroom te synthetiseren met elke spreker-id.
Realtime transcriptie: geef live transcripties op van wie wat zegt en wanneer, terwijl de vergadering plaatsvindt.
Asynchrone transcriptie: bied transcripties met een hogere nauwkeurigheid met behulp van een audiostroom met meerdere kanalen.

Notitie

Hoewel gesprektranscriptie geen limiet heeft voor het aantal sprekers in de ruimte, is deze geoptimaliseerd voor 2-10 sprekers per sessie.

Gebruiksgevallen

Om vergaderingen inclusief te maken voor iedereen, zoals deelnemers die doof en slechthorend zijn, is het belangrijk om transcriptie in realtime te hebben. Gesprektranscriptie in realtime neemt audio van vergaderingen en bepaalt wie wat zegt, zodat alle deelnemers aan de vergadering de transcriptie kunnen volgen en zonder vertraging kunnen deelnemen aan de vergadering.

Deelnemers aan de vergadering kunnen zich richten op de vergadering en het noteren van notities achterlaten bij transcriptie van gesprekken. Deelnemers kunnen actief deelnemen aan de vergadering en snel vervolgen op volgende stappen, met behulp van het transcript in plaats van notities te maken en mogelijk iets te missen tijdens de vergadering.

Hoe het werkt

In het volgende diagram ziet u een algemeen overzicht van de werking van de functie.

Diagram met de relaties tussen verschillende onderdelen van de gesprektranscriptieoplossing.

Verwachte invoer

Gesprektranscriptie maakt gebruik van twee typen invoer:

Audiostream voor meerdere kanalen: zie De aanbevelingen voor microfoonmatrix voor specificatie en ontwerp.
Voorbeelden van spraak van gebruikers: gesprektranscriptie heeft gebruikersprofielen nodig voordat het gesprek wordt geïdentificeerd voor sprekeridentificatie. Verzamel audio-opnamen van elke gebruiker en verzend de opnamen vervolgens naar de service voor het genereren van handtekeningen om de audio te valideren en gebruikersprofielen te genereren.

Spraakvoorbeelden voor gebruikers voor spraakhandtekeningen zijn vereist voor sprekeridentificatie. Sprekers die geen spraakvoorbeelden hebben, worden herkend als niet-geïdentificeerd. Niet-geïdentificeerde luidsprekers kunnen nog steeds worden onderscheiden wanneer de DifferentiateGuestSpeakers eigenschap is ingeschakeld (zie het volgende voorbeeld). De transcriptie-uitvoer toont vervolgens sprekers als bijvoorbeeld Guest_0 en Guest_1, in plaats van ze te herkennen als vooraf ingeschreven specifieke sprekernamen.

config.SetProperty("DifferentiateGuestSpeakers", "true");

Realtime of asynchroon

In de volgende secties vindt u meer informatie over transcriptiemodi die u kunt kiezen.

Real-time

Audiogegevens worden live verwerkt om de spreker-id en transcriptie te retourneren. Selecteer deze modus als de vereiste van uw transcriptieoplossing is om deelnemers aan de vergadering een livetranscriptieweergave van hun lopende vergadering te bieden. Het bouwen van een toepassing om vergaderingen toegankelijker te maken voor deelnemers met gehoorverlies of doofheid is bijvoorbeeld een ideale use-case voor realtime transcriptie.

Asynchroon

Audiogegevens worden in batch verwerkt om de spreker-id en transcriptie te retourneren. Selecteer deze modus als de vereiste van uw transcriptieoplossing is om een hogere nauwkeurigheid te bieden, zonder de livetranscriptieweergave. Als u bijvoorbeeld een toepassing wilt bouwen zodat deelnemers aan vergaderingen gemakkelijk kunnen inhalen bij gemiste vergaderingen, gebruikt u de asynchrone transcriptiemodus om transcriptieresultaten met hoge nauwkeurigheid te verkrijgen.

Realtime plus asynchroon

Audiogegevens worden live verwerkt om de spreker-id en transcriptie te retourneren en vraagt bovendien een transcriptie met hoge nauwkeurigheid aan via asynchrone verwerking. Selecteer deze modus als uw toepassing realtimetranscriptie nodig heeft en ook een transcriptie met een hogere nauwkeurigheid vereist voor gebruik nadat de vergadering heeft plaatsgevonden.

Ondersteuning voor taal en regio

Op dit moment ondersteunt gesprektranscriptie alle spraak-naar-teksttalen in de volgende regio's: centralus, eastasia, eastus, westeurope.

Delen via

Wat is gesprektranscriptie met meerdere kanalen? (preview)

Migreren van gesprektranscriptie met meerdere kanalen

Belangrijkste functies

Gebruiksgevallen

Hoe het werkt

Verwachte invoer

Realtime of asynchroon

Real-time

Asynchroon

Realtime plus asynchroon

Ondersteuning voor taal en regio

Feedback

Aanvullende resources

Delen via

Wat is gesprektranscriptie met meerdere kanalen? (preview)

Migreren van gesprektranscriptie met meerdere kanalen

Belangrijkste functies

Gebruiksgevallen

Hoe het werkt

Verwachte invoer

Realtime of asynchroon

Real-time

Asynchroon

Realtime plus asynchroon

Ondersteuning voor taal en regio

Gerelateerde inhoud

Feedback

Aanvullende resources