Delen via


Uitspraakbeoordeling in de Azure AI Foundry-portal

Belangrijk

Items die in dit artikel zijn gemarkeerd (preview) zijn momenteel beschikbaar als openbare preview. Deze preview wordt aangeboden zonder een service level agreement en we raden deze niet aan voor productieworkloads. Misschien worden bepaalde functies niet ondersteund of zijn de mogelijkheden ervan beperkt. Zie Aanvullende gebruiksvoorwaarden voor Microsoft Azure-previews voor meer informatie.

Uitspraakbeoordeling maakt gebruik van de spraak-naar-tekstfunctie om subjectieve en objectieve feedback te geven voor taalleerders. Uitspraak oefenen en tijdige feedback krijgen zijn essentieel voor het verbeteren van taalvaardigheden. Evaluaties op basis van ervaren docenten kunnen veel tijd en moeite kosten en maakt een hoogwaardige evaluatie duur voor cursisten. Uitspraakbeoordeling kan helpen de taalevaluatie aantrekkelijker en toegankelijker te maken voor cursisten van alle achtergronden.

Notitie

Zie ondersteunde talen en beschikbare regio's voor informatie over de beschikbaarheid van de uitspraakbeoordeling.

In dit artikel wordt beschreven hoe u het beoordelingsprogramma voor uitspraak gebruikt zonder code te schrijven via AI Foundry. Zie Uitspraakbeoordeling gebruiken in uw spraaktoepassingen voor meer informatie over het integreren van uitspraakbeoordeling.

Scenario's voor lezen en spreken

Voor uitspraakbeoordeling zijn er twee scenario's: Lezen en Spreken.

  • Lezen: Dit scenario is ontworpen voor een scriptevaluatie. De cursist moet een bepaalde tekst lezen. De verwijzingstekst wordt van tevoren verstrekt.
  • Spreek: Dit scenario is ontworpen voor een niet-beschrijvende evaluatie. Het vereist dat de cursist over een bepaald onderwerp spreekt. De verwijzingstekst is niet van tevoren opgegeven.

Een scriptevaluatie uitvoeren

Volg deze stappen om uw uitspraak van de verwijzingstekst te beoordelen:

  1. Ga naar de beoordeling van de uitspraak in de AI Foundry.

    Schermopname van hoe u naar uitspraakbeoordeling gaat in AI Foundry.

  2. Kies op het tabblad Lezen een ondersteunde taal die u wilt beoordelen.

    Schermopname van het kiezen van een ondersteunde taal op het leestabblad dat u de uitspraak wilt evalueren.

  3. U kunt ingerichte tekstvoorbeelden gebruiken of uw eigen script invoeren.

    Wanneer u de tekst leest, moet u dicht bij de microfoon staan om ervoor te zorgen dat de opgenomen stem niet te laag is.

    Schermopname van waar u audio kunt opnemen met een microfoon op het leestabblad.

    Anders kunt u opgenomen audio uploaden voor uitspraakbeoordeling. Nadat het is geüpload, wordt de audio automatisch geëvalueerd door het systeem, zoals wordt weergegeven in de volgende schermopname.

    Schermopname van het uploaden van opgenomen audio die moet worden beoordeeld.

Een niet-beschrijvende evaluatie uitvoeren

Als u een niet-beschrijvende evaluatie wilt uitvoeren, selecteert u het tabblad Uitspreken. Met deze functie kunt u ongescripte evaluatie uitvoeren zonder dat u vooraf referentietekst hoeft op te geven. Ga als volgt te werk:

  1. Ga naar de beoordeling van de uitspraak in de AI Foundry.

  2. Kies op het tabblad Uitspreken een ondersteunde taal die u wilt evalueren.

    Schermopname van het kiezen van een ondersteunde taal op het tabblad Spreken dat u de uitspraak wilt evalueren.

  3. Vervolgens kunt u kiezen uit voorbeeldonderwerpen die worden gegeven of uw eigen onderwerp invoeren. Met deze keuze kunt u beoordelen of u in staat bent om te spreken over een bepaald onderwerp zonder vooraf gedefinieerd script.

    Schermopname van het invoeren van een onderwerp op het tabblad Spreken om te beoordelen of u kunt spreken over een bepaald onderwerp zonder vooraf gedefinieerd script.

    Wanneer u uw spraak opneemt voor uitspraakbeoordeling, is het belangrijk om ervoor te zorgen dat de opnametijd binnen het aanbevolen bereik van 15 seconden (gelijk aan meer dan 50 woorden) tot 10 minuten valt. Dit tijdsbereik is optimaal voor het nauwkeurig evalueren van de inhoud van uw spraak. Als u een onderwerpscore wilt ontvangen, moet uw gesproken audio ten minste drie zinnen bevatten.

    U kunt ook opgenomen audio uploaden voor uitspraakbeoordeling. Zodra het is geüpload, wordt de audio automatisch geëvalueerd door het systeem.

Beoordelingsresultaten van uitspraak

Nadat u uw spraak hebt opgenomen of de opgenomen audio hebt geüpload, wordt het resultaat van de evaluatie uitgevoerd. Het resultaat bevat uw gesproken audio en de feedback over uw spraakevaluatie. U kunt naar uw gesproken audio luisteren en deze indien nodig downloaden.

U kunt ook het resultaat van de uitspraakbeoordeling controleren in JSON. De nauwkeurigheidsscores op woordniveau, lettergrepen en fonetische niveaus zijn opgenomen in het JSON-bestand.

Schermopname van het evaluatieresultaat in het weergavevenster, inclusief transcriptie en feedback over uw spraak.

Het woord is gemarkeerd volgens het fouttype. De fouttypen in de uitspraakbeoordeling worden weergegeven met verschillende kleuren. Dit visuele onderscheid maakt het gemakkelijker om specifieke fouten te identificeren en te analyseren. Het biedt een duidelijk overzicht van de fouttypen en frequenties in de gesproken audio, zodat u zich kunt richten op gebieden die moeten worden verbeterd. U kunt elk fouttype in-/uitschakelen om u te richten op specifieke typen fouten of bepaalde typen van de weergave uit te sluiten. Deze functie biedt flexibiliteit bij het controleren en analyseren van de fouten in uw gesproken audio. Terwijl u de muisaanwijzer op elk woord plaatst, kunt u nauwkeurigheidsscores voor het hele woord of specifieke telefoontjes zien.

Onderaan het evaluatieresultaat worden scoreresultaten weergegeven. Voor de beoordeling van de uitspraak met script wordt alleen de uitspraakscore (inclusief nauwkeurigheidsscore, fluency score, volledigheidsscore en prosodyscore) opgegeven. Voor een niet-beschrijvende uitspraakbeoordeling worden zowel de uitspraakscore (inclusief nauwkeurigheidsscore, fluencyscore en prosodyscore) als de inhoudsscore (inclusief woordenschatscore, grammaticascore en onderwerpscore) weergegeven.

Granulariteit van uitspraakbeoordeling

Uitspraakbeoordeling biedt verschillende beoordelingsresultaten in verschillende granulariteiten, van afzonderlijke fonemes tot de volledige tekstinvoer.

  • Op volledig tekstniveau biedt de uitspraakbeoordeling extra fluency, volledigheid en prosody scores: fluency geeft aan hoe nauw de spraak overeenkomt met het gebruik van stille pauzes tussen woorden; Volledigheid geeft aan hoeveel woorden in de spraak naar de verwijzingstekstinvoer worden uitgesproken; Prosody geeft aan hoe goed een spreker elementen van natuurlijkheid, expressiviteit en algehele prosody in hun spraak overbrengt. Een algemene score die is geaggregeerd uit Nauwkeurigheid, Vloeiendheid, Volledigheid en Prosody, wordt vervolgens gegeven om de algehele uitspraakkwaliteit van de gegeven spraak aan te geven. Uitspraakbeoordeling biedt ook inhoudsscore (Woordenlijst, Grammatica en Onderwerp) op volledig tekstniveau.
  • Op woordniveau kan de uitspraakbeoordeling automatisch miscues detecteren en tegelijkertijd nauwkeurigheidsscore bieden, wat gedetailleerdere informatie biedt over weglating, herhaling, invoegingen en mispronunciatie in de gegeven spraak.
  • Nauwkeurigheidsscores op lettergrepenniveau zijn momenteel beschikbaar via het JSON-bestand of de Speech SDK.
  • Op het niveau van het foneme biedt de uitspraakbeoordeling nauwkeurigheidsscores van elk foneme, zodat cursisten de uitspraakdetails van hun spraak beter kunnen begrijpen.

Naast de basislijnscores van nauwkeurigheid, vloeiendheid en volledigheid bevat de uitspraakbeoordelingsfunctie in AI Foundry uitgebreidere scores om gedetailleerde feedback te geven over verschillende aspecten van spraakprestaties en begrip. De verbeterde scores zijn als volgt: Prosody score, Vocabulaire score, Grammaticascore en Onderwerpscore. Deze scores bieden waardevolle inzichten in spraak prosody, vocabulaire gebruik, grammatica correctheid en begrip van onderwerpen.

Schermopname van de algehele uitspraakscore en de algehele inhoudsscore in AI Foundry.

Onder aan het evaluatieresultaat worden twee algemene scores weergegeven: Uitspraakscore en Inhoudsscore. Op het tabblad Lezen wordt de uitspraakscore weergegeven. Op het tabblad Uitspreken worden zowel de uitspraakscore als de inhoudsscore weergegeven.

Uitspraakscore: Deze score vertegenwoordigt een geaggregeerde beoordeling van de uitspraakkwaliteit en bevat vier subaspecten. Deze scores zijn beschikbaar op zowel de lees- als spreektabbladen voor zowel script- als niet-geschreven evaluaties.

  • Nauwkeurigheidsscore: evalueert de juistheid van de uitspraak.
  • Fluency score: Meet het niveau van gladheid en naturaliteit in spraak.
  • Volledigheidsscore: Geeft het aantal woorden weer dat correct is uitgesproken.
  • Prosody score: Beoordeelt het gebruik van geschikte intonatie, ritme en stress. Er worden nog verschillende fouttypen geïntroduceerd die betrekking hebben op de prosody-evaluatie, zoals Onverwacht einde, Ontbrekende onderbreking en Monotone. Deze fouttypen bieden meer gedetailleerde informatie over uitspraakfouten vergeleken met de vorige engine.

Inhoudsscore: Deze score biedt een geaggregeerde evaluatie van de inhoud van de spraak en bevat drie subaspecten. Deze score is alleen beschikbaar op het tabblad Spreken voor een niet-beschrijvende evaluatie.

  • Woordenlijstscore: evalueert het effectieve gebruik van woorden en hun geschiktheid binnen de opgegeven context om ideeën nauwkeurig uit te drukken en het niveau van lexicale complexiteit.
  • Grammaticascore: evalueert de juistheid van grammaticagebruik en verschillende zinspatronen. Het beschouwt lexicale nauwkeurigheid, grammaticale nauwkeurigheid en diversiteit van zinsstructuren en biedt een uitgebreidere evaluatie van taalvaardigheid.
  • Onderwerpscore: Evalueert het begripsniveau en de betrokkenheid van het onderwerp dat in de spraak wordt besproken. Het evalueert het vermogen van de spreker om effectief gedachten en ideeën uit te drukken die betrekking hebben op het opgegeven onderwerp.

Deze algemene scores bieden een uitgebreide beoordeling van zowel uitspraak als inhoud, waardoor cursisten waardevolle feedback krijgen over verschillende aspecten van hun spraakprestaties en begrip. Met deze verbeterde functies kunnen taalleerders dieper inzicht krijgen in hun voordelen en gebieden voor verbetering in zowel uitspraak als inhoudsexpressie.

Notitie

Inhouds- en prosody-evaluaties zijn alleen beschikbaar in de landinstelling en-US .

Evaluatiescores in streamingmodus

Uitspraakbeoordeling ondersteunt ononderbroken streamingmodus. Met de AI Foundry-demo kunt u maximaal 60 minuten opnemen in de streamingmodus voor evaluatie. Zolang u niet op de knop Stoppen met opnemen drukt, wordt het evaluatieproces niet voltooid en kunt u de evaluatie gemakkelijk onderbreken en hervatten.

Uitspraakbeoordeling evalueert verschillende aspecten van uitspraak. Onderaan het beoordelingsresultaat ziet u de uitspraakscore als geaggregeerde algemene score, waaronder 4 subaspecten: Nauwkeurigheidsscore, Beoordelingsscore, Volledigheidsscore en Prosody-score. In de streamingmodus, omdat de nauwkeurigheidsscore, de fluency-score en de Prosody-score in de loop van de tijd in het opnameproces variëren, demonstreren we een benadering in AI Foundry om een geschatte algehele score incrementeel weer te geven vóór het einde van de evaluatie, die alleen wordt gewogen met nauwkeurigheidsscore, fluency-score en Prosody-score. De volledigheidsscore wordt alleen berekend aan het einde van de evaluatie nadat u op de stopknop drukt, zodat de eindscore van de algehele uitspraak wordt geaggregeerd op basis van nauwkeurigheidsscore, fluency score, volledigheidsscore en Prosody-score met gewicht.

Raadpleeg de onderstaande demovoorbeelden voor het hele proces voor het evalueren van de uitspraak in de streamingmodus.

Opname starten

Wanneer u begint met opnemen, beginnen de scores onderaan te veranderen van 0.

Schermopname van algemene evaluatiescores bij het beginnen met opnemen.

Tijdens de opname

Tijdens het opnemen van een lange alinea kunt u de opname op elk gewenst moment onderbreken. U kunt uw opname blijven evalueren zolang u niet op de stopknop drukt.

Schermopname van algemene beoordelingsscores bij het opnemen.

Opname voltooien

Nadat u op de stopknop hebt drukken, kunt u de uitspraakscore, nauwkeurigheidsscore, fluency score, volledigheidsscore en prosody score onderaan zien.

Schermopname van algemene beoordelingsscores na opname.

Prijzen

Als basislijn kost het gebruik van de uitspraakbeoordeling hetzelfde als spraak-naar-tekst voor prijzen voor betalen per gebruik of prijscategorie voor toezeggingen. Als u een toezeggingslaag koopt voor spraak-naar-tekst, gaat de uitgaven voor uitspraakbeoordeling naar het voldoen aan de toezegging.

De beoordelingsfunctie voor uitspraak biedt ook andere scores die niet zijn opgenomen in de basislijnspraak voor tekstprijs: prosody, grammatica, onderwerp en vocabulaire. Deze scores zijn beschikbaar als extra kosten boven de prijs van de basislijn voor tekst. Zie spraak-naar-tekstprijzen voor informatie over prijzen.

Hier volgt een tabel met beschikbare beoordelingsscores voor uitspraak, of deze nu beschikbaar is in de script- of niet-beschrijvende evaluaties en of deze is opgenomen in de basislijnspraak voor tekstprijs of de invoegtoepassingsprijs.

Score Script of niet-gescript Opgenomen in de prijs van spraak naar tekst volgens basislijn?
Nauwkeurigheid Script en niet-gescript Ja
Vlotheid Script en niet-gescript Ja
Volledigheid Gescript Ja
Miscue Script en niet-gescript Ja
Prosodie Script en niet-gescript Nee
Grammatica Alleen niet-gescript Nee
Onderwerp Alleen niet-gescript Nee
Woordenschat Alleen niet-gescript Nee

Verantwoorde AI

Een AI-systeem bevat niet alleen de technologie, maar ook de mensen die het gebruiken, de mensen die worden beïnvloed door het systeem en de omgeving waarin het wordt geïmplementeerd. Lees de transparantienotities voor meer informatie over verantwoord AI-gebruik en -implementatie in uw systemen.

Volgende stappen