Uitspraakbeoordeling in de Azure AI Foundry-portal
Belangrijk
Items die in dit artikel zijn gemarkeerd (preview) zijn momenteel beschikbaar als openbare preview. Deze preview wordt aangeboden zonder een service level agreement en we raden deze niet aan voor productieworkloads. Misschien worden bepaalde functies niet ondersteund of zijn de mogelijkheden ervan beperkt. Zie Aanvullende gebruiksvoorwaarden voor Microsoft Azure-previews voor meer informatie.
Uitspraakbeoordeling maakt gebruik van de spraak-naar-tekstfunctie om subjectieve en objectieve feedback te geven voor taalleerders. Uitspraak oefenen en tijdige feedback krijgen zijn essentieel voor het verbeteren van taalvaardigheden. Evaluaties op basis van ervaren docenten kunnen veel tijd en moeite kosten en maakt een hoogwaardige evaluatie duur voor cursisten. Uitspraakbeoordeling kan helpen de taalevaluatie aantrekkelijker en toegankelijker te maken voor cursisten van alle achtergronden.
Notitie
Zie ondersteunde talen en beschikbare regio's voor informatie over de beschikbaarheid van de uitspraakbeoordeling.
In dit artikel wordt beschreven hoe u het beoordelingsprogramma voor uitspraak gebruikt zonder code te schrijven via AI Foundry. Zie Uitspraakbeoordeling gebruiken in uw spraaktoepassingen voor meer informatie over het integreren van uitspraakbeoordeling.
Scenario's voor lezen en spreken
Voor uitspraakbeoordeling zijn er twee scenario's: Lezen en Spreken.
- Lezen: Dit scenario is ontworpen voor een scriptevaluatie. De cursist moet een bepaalde tekst lezen. De verwijzingstekst wordt van tevoren verstrekt.
- Spreek: Dit scenario is ontworpen voor een niet-beschrijvende evaluatie. Het vereist dat de cursist over een bepaald onderwerp spreekt. De verwijzingstekst is niet van tevoren opgegeven.
Een scriptevaluatie uitvoeren
Volg deze stappen om uw uitspraak van de verwijzingstekst te beoordelen:
Ga naar de beoordeling van de uitspraak in de AI Foundry.
Kies op het tabblad Lezen een ondersteunde taal die u wilt beoordelen.
U kunt ingerichte tekstvoorbeelden gebruiken of uw eigen script invoeren.
Wanneer u de tekst leest, moet u dicht bij de microfoon staan om ervoor te zorgen dat de opgenomen stem niet te laag is.
Anders kunt u opgenomen audio uploaden voor uitspraakbeoordeling. Nadat het is geüpload, wordt de audio automatisch geëvalueerd door het systeem, zoals wordt weergegeven in de volgende schermopname.
Een niet-beschrijvende evaluatie uitvoeren
Als u een niet-beschrijvende evaluatie wilt uitvoeren, selecteert u het tabblad Uitspreken. Met deze functie kunt u ongescripte evaluatie uitvoeren zonder dat u vooraf referentietekst hoeft op te geven. Ga als volgt te werk:
Ga naar de beoordeling van de uitspraak in de AI Foundry.
Kies op het tabblad Uitspreken een ondersteunde taal die u wilt evalueren.
Vervolgens kunt u kiezen uit voorbeeldonderwerpen die worden gegeven of uw eigen onderwerp invoeren. Met deze keuze kunt u beoordelen of u in staat bent om te spreken over een bepaald onderwerp zonder vooraf gedefinieerd script.
Wanneer u uw spraak opneemt voor uitspraakbeoordeling, is het belangrijk om ervoor te zorgen dat de opnametijd binnen het aanbevolen bereik van 15 seconden (gelijk aan meer dan 50 woorden) tot 10 minuten valt. Dit tijdsbereik is optimaal voor het nauwkeurig evalueren van de inhoud van uw spraak. Als u een onderwerpscore wilt ontvangen, moet uw gesproken audio ten minste drie zinnen bevatten.
U kunt ook opgenomen audio uploaden voor uitspraakbeoordeling. Zodra het is geüpload, wordt de audio automatisch geëvalueerd door het systeem.
Beoordelingsresultaten van uitspraak
Nadat u uw spraak hebt opgenomen of de opgenomen audio hebt geüpload, wordt het resultaat van de evaluatie uitgevoerd. Het resultaat bevat uw gesproken audio en de feedback over uw spraakevaluatie. U kunt naar uw gesproken audio luisteren en deze indien nodig downloaden.
U kunt ook het resultaat van de uitspraakbeoordeling controleren in JSON. De nauwkeurigheidsscores op woordniveau, lettergrepen en fonetische niveaus zijn opgenomen in het JSON-bestand.
Het woord is gemarkeerd volgens het fouttype. De fouttypen in de uitspraakbeoordeling worden weergegeven met verschillende kleuren. Dit visuele onderscheid maakt het gemakkelijker om specifieke fouten te identificeren en te analyseren. Het biedt een duidelijk overzicht van de fouttypen en frequenties in de gesproken audio, zodat u zich kunt richten op gebieden die moeten worden verbeterd. U kunt elk fouttype in-/uitschakelen om u te richten op specifieke typen fouten of bepaalde typen van de weergave uit te sluiten. Deze functie biedt flexibiliteit bij het controleren en analyseren van de fouten in uw gesproken audio. Terwijl u de muisaanwijzer op elk woord plaatst, kunt u nauwkeurigheidsscores voor het hele woord of specifieke telefoontjes zien.
Onderaan het evaluatieresultaat worden scoreresultaten weergegeven. Voor de beoordeling van de uitspraak met script wordt alleen de uitspraakscore (inclusief nauwkeurigheidsscore, fluency score, volledigheidsscore en prosodyscore) opgegeven. Voor een niet-beschrijvende uitspraakbeoordeling worden zowel de uitspraakscore (inclusief nauwkeurigheidsscore, fluencyscore en prosodyscore) als de inhoudsscore (inclusief woordenschatscore, grammaticascore en onderwerpscore) weergegeven.
Granulariteit van uitspraakbeoordeling
Uitspraakbeoordeling biedt verschillende beoordelingsresultaten in verschillende granulariteiten, van afzonderlijke fonemes tot de volledige tekstinvoer.
- Op volledig tekstniveau biedt de uitspraakbeoordeling extra fluency, volledigheid en prosody scores: fluency geeft aan hoe nauw de spraak overeenkomt met het gebruik van stille pauzes tussen woorden; Volledigheid geeft aan hoeveel woorden in de spraak naar de verwijzingstekstinvoer worden uitgesproken; Prosody geeft aan hoe goed een spreker elementen van natuurlijkheid, expressiviteit en algehele prosody in hun spraak overbrengt. Een algemene score die is geaggregeerd uit Nauwkeurigheid, Vloeiendheid, Volledigheid en Prosody, wordt vervolgens gegeven om de algehele uitspraakkwaliteit van de gegeven spraak aan te geven. Uitspraakbeoordeling biedt ook inhoudsscore (Woordenlijst, Grammatica en Onderwerp) op volledig tekstniveau.
- Op woordniveau kan de uitspraakbeoordeling automatisch miscues detecteren en tegelijkertijd nauwkeurigheidsscore bieden, wat gedetailleerdere informatie biedt over weglating, herhaling, invoegingen en mispronunciatie in de gegeven spraak.
- Nauwkeurigheidsscores op lettergrepenniveau zijn momenteel beschikbaar via het JSON-bestand of de Speech SDK.
- Op het niveau van het foneme biedt de uitspraakbeoordeling nauwkeurigheidsscores van elk foneme, zodat cursisten de uitspraakdetails van hun spraak beter kunnen begrijpen.
Naast de basislijnscores van nauwkeurigheid, vloeiendheid en volledigheid bevat de uitspraakbeoordelingsfunctie in AI Foundry uitgebreidere scores om gedetailleerde feedback te geven over verschillende aspecten van spraakprestaties en begrip. De verbeterde scores zijn als volgt: Prosody score, Vocabulaire score, Grammaticascore en Onderwerpscore. Deze scores bieden waardevolle inzichten in spraak prosody, vocabulaire gebruik, grammatica correctheid en begrip van onderwerpen.
Onder aan het evaluatieresultaat worden twee algemene scores weergegeven: Uitspraakscore en Inhoudsscore. Op het tabblad Lezen wordt de uitspraakscore weergegeven. Op het tabblad Uitspreken worden zowel de uitspraakscore als de inhoudsscore weergegeven.
Uitspraakscore: Deze score vertegenwoordigt een geaggregeerde beoordeling van de uitspraakkwaliteit en bevat vier subaspecten. Deze scores zijn beschikbaar op zowel de lees- als spreektabbladen voor zowel script- als niet-geschreven evaluaties.
- Nauwkeurigheidsscore: evalueert de juistheid van de uitspraak.
- Fluency score: Meet het niveau van gladheid en naturaliteit in spraak.
- Volledigheidsscore: Geeft het aantal woorden weer dat correct is uitgesproken.
- Prosody score: Beoordeelt het gebruik van geschikte intonatie, ritme en stress. Er worden nog verschillende fouttypen geïntroduceerd die betrekking hebben op de prosody-evaluatie, zoals Onverwacht einde, Ontbrekende onderbreking en Monotone. Deze fouttypen bieden meer gedetailleerde informatie over uitspraakfouten vergeleken met de vorige engine.
Inhoudsscore: Deze score biedt een geaggregeerde evaluatie van de inhoud van de spraak en bevat drie subaspecten. Deze score is alleen beschikbaar op het tabblad Spreken voor een niet-beschrijvende evaluatie.
- Woordenlijstscore: evalueert het effectieve gebruik van woorden en hun geschiktheid binnen de opgegeven context om ideeën nauwkeurig uit te drukken en het niveau van lexicale complexiteit.
- Grammaticascore: evalueert de juistheid van grammaticagebruik en verschillende zinspatronen. Het beschouwt lexicale nauwkeurigheid, grammaticale nauwkeurigheid en diversiteit van zinsstructuren en biedt een uitgebreidere evaluatie van taalvaardigheid.
- Onderwerpscore: Evalueert het begripsniveau en de betrokkenheid van het onderwerp dat in de spraak wordt besproken. Het evalueert het vermogen van de spreker om effectief gedachten en ideeën uit te drukken die betrekking hebben op het opgegeven onderwerp.
Deze algemene scores bieden een uitgebreide beoordeling van zowel uitspraak als inhoud, waardoor cursisten waardevolle feedback krijgen over verschillende aspecten van hun spraakprestaties en begrip. Met deze verbeterde functies kunnen taalleerders dieper inzicht krijgen in hun voordelen en gebieden voor verbetering in zowel uitspraak als inhoudsexpressie.
Notitie
Inhouds- en prosody-evaluaties zijn alleen beschikbaar in de landinstelling en-US .
Evaluatiescores in streamingmodus
Uitspraakbeoordeling ondersteunt ononderbroken streamingmodus. Met de AI Foundry-demo kunt u maximaal 60 minuten opnemen in de streamingmodus voor evaluatie. Zolang u niet op de knop Stoppen met opnemen drukt, wordt het evaluatieproces niet voltooid en kunt u de evaluatie gemakkelijk onderbreken en hervatten.
Uitspraakbeoordeling evalueert verschillende aspecten van uitspraak. Onderaan het beoordelingsresultaat ziet u de uitspraakscore als geaggregeerde algemene score, waaronder 4 subaspecten: Nauwkeurigheidsscore, Beoordelingsscore, Volledigheidsscore en Prosody-score. In de streamingmodus, omdat de nauwkeurigheidsscore, de fluency-score en de Prosody-score in de loop van de tijd in het opnameproces variëren, demonstreren we een benadering in AI Foundry om een geschatte algehele score incrementeel weer te geven vóór het einde van de evaluatie, die alleen wordt gewogen met nauwkeurigheidsscore, fluency-score en Prosody-score. De volledigheidsscore wordt alleen berekend aan het einde van de evaluatie nadat u op de stopknop drukt, zodat de eindscore van de algehele uitspraak wordt geaggregeerd op basis van nauwkeurigheidsscore, fluency score, volledigheidsscore en Prosody-score met gewicht.
Raadpleeg de onderstaande demovoorbeelden voor het hele proces voor het evalueren van de uitspraak in de streamingmodus.
Opname starten
Wanneer u begint met opnemen, beginnen de scores onderaan te veranderen van 0.
Tijdens de opname
Tijdens het opnemen van een lange alinea kunt u de opname op elk gewenst moment onderbreken. U kunt uw opname blijven evalueren zolang u niet op de stopknop drukt.
Opname voltooien
Nadat u op de stopknop hebt drukken, kunt u de uitspraakscore, nauwkeurigheidsscore, fluency score, volledigheidsscore en prosody score onderaan zien.
Prijzen
Als basislijn kost het gebruik van de uitspraakbeoordeling hetzelfde als spraak-naar-tekst voor prijzen voor betalen per gebruik of prijscategorie voor toezeggingen. Als u een toezeggingslaag koopt voor spraak-naar-tekst, gaat de uitgaven voor uitspraakbeoordeling naar het voldoen aan de toezegging.
De beoordelingsfunctie voor uitspraak biedt ook andere scores die niet zijn opgenomen in de basislijnspraak voor tekstprijs: prosody, grammatica, onderwerp en vocabulaire. Deze scores zijn beschikbaar als extra kosten boven de prijs van de basislijn voor tekst. Zie spraak-naar-tekstprijzen voor informatie over prijzen.
Hier volgt een tabel met beschikbare beoordelingsscores voor uitspraak, of deze nu beschikbaar is in de script- of niet-beschrijvende evaluaties en of deze is opgenomen in de basislijnspraak voor tekstprijs of de invoegtoepassingsprijs.
Score | Script of niet-gescript | Opgenomen in de prijs van spraak naar tekst volgens basislijn? |
---|---|---|
Nauwkeurigheid | Script en niet-gescript | Ja |
Vlotheid | Script en niet-gescript | Ja |
Volledigheid | Gescript | Ja |
Miscue | Script en niet-gescript | Ja |
Prosodie | Script en niet-gescript | Nee |
Grammatica | Alleen niet-gescript | Nee |
Onderwerp | Alleen niet-gescript | Nee |
Woordenschat | Alleen niet-gescript | Nee |
Verantwoorde AI
Een AI-systeem bevat niet alleen de technologie, maar ook de mensen die het gebruiken, de mensen die worden beïnvloed door het systeem en de omgeving waarin het wordt geïmplementeerd. Lees de transparantienotities voor meer informatie over verantwoord AI-gebruik en -implementatie in uw systemen.
Volgende stappen
- Uitspraakbeoordeling gebruiken met de Speech SDK
- Lees het blog over use cases