Gegevenssets trainen en testen

Artikel
01/19/2024

In een aangepast spraakproject kunt u gegevenssets uploaden voor training, kwalitatieve inspectie en kwantitatieve meting. In dit artikel worden de typen trainings- en testgegevens besproken die u voor aangepaste spraak kunt gebruiken.

Tekst en audio die u gebruikt om een aangepast model te testen en te trainen, moeten voorbeelden bevatten van een diverse set luidsprekers en scenario's die u door uw model wilt herkennen. Houd rekening met deze factoren wanneer u gegevens verzamelt voor het testen en trainen van aangepaste modellen:

Voeg tekst- en audiogegevens toe om de soorten mondelinge instructies te behandelen die uw gebruikers maken wanneer ze met uw model werken. Een model dat bijvoorbeeld de training voor temperatuur verhoogt en verlaagt over instructies die mensen kunnen aanbrengen om dergelijke wijzigingen aan te vragen.
Neem alle spraakvariantie op die u wilt herkennen aan uw model. Veel factoren kunnen spraak variëren, waaronder accenten, dialecten, taalmenging, leeftijd, geslacht, stemhoogte, stressniveau en tijdstip van de dag.
Neem voorbeelden op uit verschillende omgevingen, bijvoorbeeld binnen, buiten en weggeluid, waar uw model wordt gebruikt.
Neem audio op met hardwareapparaten die door het productiesysteem worden gebruikt. Als uw model spraak moet identificeren die is opgenomen op apparaten van verschillende kwaliteit, moeten de audiogegevens die u opgeeft om uw model te trainen ook deze diverse scenario's vertegenwoordigen.
Houd de gegevensset divers en representatief voor uw projectvereisten. U kunt later meer gegevens aan uw model toevoegen.
Neem alleen gegevens op die uw model nodig heeft om te transcriberen. Het opnemen van gegevens die niet binnen de herkenningsvereisten van uw aangepaste model vallen, kan de kwaliteit van de herkenning in het algemeen schaden.

Data types

De volgende tabel bevat geaccepteerde gegevenstypen, wanneer elk gegevenstype moet worden gebruikt en de aanbevolen hoeveelheid. Niet elk gegevenstype is vereist om een model te maken. De gegevensvereisten variëren, afhankelijk van of u een test maakt of een model traint.

Gegevenstype	Wordt gebruikt voor testen	Aanbevolen voor testen	Wordt gebruikt voor training	Aanbevolen voor training
Alleen audio	Ja (visuele inspectie)	5+ audiobestanden	Ja (preview voor `en-US`)	1-20 uur audio
Audio + door mensen gelabelde transcripties	Ja (evaluatie van nauwkeurigheid)	0,5-5 uur audio	Ja	1-20 uur audio
Tekst zonder opmaak	Nee	Niet van toepassing	Ja	1-200 MB gerelateerde tekst
Gestructureerde tekst	Nee	Niet van toepassing	Ja	Maximaal 10 klassen met maximaal 4.000 items en maximaal 50.000 trainingszinnen
Uitspraak	Nee	Niet van toepassing	Ja	1 kB tot 1 MB uitspraaktekst
Weergave-indeling	Nee	Niet van toepassing	Ja	Maximaal 200 regels voor ITN, 1.000 regels voor herschrijven, 1000 regels voor grof taalfilter

Training met tekst zonder opmaak of gestructureerde tekst wordt meestal binnen een paar minuten voltooid.

Tip

Begin met gegevens zonder opmaak of gestructureerde tekst. Met deze gegevens wordt de herkenning van speciale termen en woordgroepen verbeterd. Training met tekst is veel sneller dan training met audio (minuten versus dagen).

Begin met kleine sets voorbeeldgegevens die overeenkomen met de taal, akoestiek en hardware waar uw model wordt gebruikt. Kleine gegevenssets met representatieve gegevens kunnen problemen blootstellen voordat u investeert in het verzamelen van grotere gegevenssets voor training. Zie deze GitHub-opslagplaats voor voorbeelden van aangepaste spraakgegevens.

Als u een aangepast model traint met audiogegevens, kiest u een spraakresourceregio met toegewezen hardware voor het trainen van audiogegevens. Zie voetnoten in de tabel Regio's voor meer informatie. In regio's met speciale hardware voor aangepaste spraaktraining gebruikt de Speech-service maximaal 20 uur aan audiotrainingsgegevens en kan deze ongeveer 10 uur aan gegevens per dag verwerken. In andere regio's gebruikt de Speech-service maximaal 8 uur audiogegevens en kan deze ongeveer 1 uur aan gegevens per dag verwerken. Nadat het model is getraind, kunt u het model naar een andere regio kopiëren met de Models_CopyTo REST API.

Gegevenssets per scenario overwegen

Een model dat is getraind op een subset van scenario's, kan alleen in die scenario's goed presteren. Kies zorgvuldig gegevens die het volledige bereik van scenario's vertegenwoordigen die u nodig hebt om uw aangepaste model te herkennen. In de volgende tabel ziet u gegevenssets die u kunt overwegen voor sommige scenario's voor spraakherkenning:

Scenario	Tekst zonder opmaak en gestructureerde tekstgegevens	Audio + door mensen gelabelde transcripties	Nieuwe woorden met uitspraak
Callcenter	Marketingdocumenten, website, productbeoordelingen met betrekking tot callcenteractiviteit	Callcenter-aanroepen getranscribeerd door mensen	Termen met dubbelzinnige uitspraak (zie het Xbox-voorbeeld in de voorgaande sectie)
Spraakassistent	Lijsten met zinnen die verschillende combinaties van opdrachten en entiteiten gebruiken	Opgenomen stemmen die opdrachten spreken in het apparaat, getranscribeerd in tekst	Namen (films, nummers, producten) die unieke uitspraken hebben
Dicteren	Geschreven invoer, zoals chatberichten of e-mailberichten	Vergelijkbaar met voorgaande voorbeelden	Vergelijkbaar met voorgaande voorbeelden
Video gesloten onderschrift ing	Scripts voor tv-programma's, films, marketinginhoud, videooverzichten	Exacte transcripties van video's	Vergelijkbaar met voorgaande voorbeelden

Raadpleeg de volgende tabel om te bepalen welke gegevensset moet worden gebruikt om uw problemen op te lossen:

Gebruiksscenario	Gegevenstype
Verbeter de nauwkeurigheid van herkenning op branchespecifieke woordenlijst en grammatica, zoals medische terminologie of IT-jargon.	Tekst zonder opmaak of gestructureerde tekstgegevens
Definieer de fonetische en weergegeven vorm van een woord of term met een niet-standaard uitspraak, zoals productnamen of acroniemen.	Uitspraak van gegevens of fonetische uitspraak in gestructureerde tekst
Verbeter de nauwkeurigheid van herkenning bij spreekstijlen, accenten of specifieke achtergrondgeluiden.	Audio + door mensen gelabelde transcripties

Audio + door mensen gelabelde transcriptiegegevens voor training of testen

U kunt audio + door mensen gelabelde transcriptgegevens gebruiken voor zowel trainings- als testdoeleinden. U moet transcripties (woord per woord) opgeven voor vergelijking:

Om de akoestische aspecten te verbeteren, zoals lichte accenten, spreekstijlen en achtergrondgeluiden.
Als u de nauwkeurigheid van de spraak naar tekst van Microsoft wilt meten wanneer, worden uw audiobestanden verwerkt.

Zie Taalondersteuning voor een lijst met basismodellen die ondersteuning bieden voor training met audiogegevens. Zelfs als een basismodel training met audiogegevens ondersteunt, kan de service slechts een deel van de audio gebruiken. En het maakt nog steeds gebruik van alle transcripties.

Belangrijk

Als een basismodel geen ondersteuning biedt voor aanpassing met audiogegevens, wordt alleen de transcriptietekst gebruikt voor training. Als u overschakelt naar een basismodel dat aanpassing met audiogegevens ondersteunt, kan de trainingstijd van enkele uren tot enkele dagen toenemen. De wijziging in de trainingstijd zou het meest merkbaar zijn wanneer u overschakelt naar een basismodel in een regio zonder speciale hardware voor training. Als de audiogegevens niet vereist zijn, moet u deze verwijderen om de trainingstijd te verkorten.

Audio met door mensen gelabelde transcripties biedt de grootste nauwkeurigheidsverbeteringen als de audio afkomstig is van de doelgebruikscase. Voorbeelden moeten het volledige spraakbereik omvatten. Zo krijgt een callcenter voor een winkel de meeste gesprekken over zwemkleding en zonnebrillen tijdens de zomermaanden. Zorg ervoor dat uw voorbeeld het volledige spraakbereik bevat dat u wilt detecteren.

Houd rekening met de volgende details:

Training met audio biedt de meeste voordelen als de audio ook moeilijk te begrijpen is voor mensen. In de meeste gevallen moet u beginnen met trainen met behulp van alleen gerelateerde tekst.
Als u een van de meest gebruikte talen gebruikt, zoals Amerikaans Engels, is het onwaarschijnlijk dat u moet trainen met audiogegevens. Voor dergelijke talen bieden de basismodellen al goede herkenningsresultaten in de meeste scenario's, dus het is waarschijnlijk genoeg om te trainen met gerelateerde tekst.
Aangepaste spraak kan word-context alleen vastleggen om vervangingsfouten te verminderen, geen invoeg- of verwijderingsfouten.
Vermijd voorbeelden die transcriptiefouten bevatten, maar bevatten wel een diversiteit aan audiokwaliteit.
Vermijd zinnen die niet zijn gerelateerd aan uw probleemdomein. Niet-gerelateerde zinnen kunnen schadelijk zijn voor uw model.
Wanneer de transcriptiekwaliteit varieert, kunt u uitzonderlijk goede zinnen dupliceren, zoals uitstekende transcripties met sleuteltermen, om hun gewicht te verhogen.
De Speech-service gebruikt automatisch de transcripties om de herkenning van domeinspecifieke woorden en woordgroepen te verbeteren, alsof ze als gerelateerde tekst zijn toegevoegd.
Het kan enkele dagen duren voordat een trainingsbewerking is voltooid. Als u de snelheid van de training wilt verbeteren, moet u uw Speech-serviceabonnement maken in een regio met speciale hardware voor training.

Er is een grote trainingsgegevensset vereist om de herkenning te verbeteren. Over het algemeen raden we u aan om woord-op-woordtranscripties op te geven voor 1 tot 20 uur audio. Zelfs zo weinig als 30 minuten kan echter helpen bij het verbeteren van de herkenningsresultaten. Hoewel het maken van transcriptie met een menselijk label tijd kan duren, zijn verbeteringen in de herkenning alleen zo goed als de gegevens die u opgeeft. Upload alleen transcripten van hoge kwaliteit.

Audiobestanden kunnen aan het begin en einde van de opname stilte hebben. Neem indien mogelijk minstens een halve seconde stilte op voor en na spraak in elk voorbeeldbestand. Hoewel audio met een laag opnamevolume of storende achtergrondruis niet nuttig is, mag het uw aangepaste model niet beperken of verminderen. Overweeg altijd uw microfoons en signaalverwerkingshardware te upgraden voordat u audiovoorbeelden verzamelt.

Belangrijk

Zie Voor meer informatie over de aanbevolen procedures voor het voorbereiden van transcripties met menselijk label, transcripties met audio.

Voor aangepaste spraakprojecten zijn audiobestanden met deze eigenschappen vereist:

Belangrijk

Dit zijn vereisten voor Audio + human-labeled transcripttraining en -tests. Ze verschillen van die voor alleen audiotraining en -testen. Als u alleen audiotraining en -testen wilt gebruiken, raadpleegt u deze sectie.

Eigenschappen	Weergegeven als
File format	RIFF (WAV)
Samplefrequentie	8000 Hz of 16.000 Hz
Kanalen	1 (mono)
Maximale lengte per audio	Twee uur (testen) / 60 s (training) Training met audio heeft een maximale audiolengte van 60 seconden per bestand. Voor audiobestanden die langer zijn dan 60 seconden, worden alleen de bijbehorende transcriptiebestanden gebruikt voor training. Als alle audiobestanden langer zijn dan 60 seconden, mislukt de training.
Sample-indeling	PCM, 16-bits
Archiefindeling	.zip
Maximale zipgrootte	2 GB of 10.000 bestanden

Gegevens zonder opmaak voor training

U kunt tekstzinnen zonder opmaak van gerelateerde tekst toevoegen om de herkenning van domeinspecifieke woorden en woordgroepen te verbeteren. Gerelateerde tekstzinnen kunnen vervangingsfouten met betrekking tot onjuiste cognitieve woorden en domeinspecifieke woorden verminderen door ze in context weer te geven. Domeinspecifieke woorden kunnen ongebruikelijke of samengestelde woorden zijn, maar hun uitspraak moet eenvoudig worden herkend.

Geef domeingerelateerde zinnen op in één tekstbestand. Gebruik tekstgegevens die dicht bij de verwachte gesproken utterances liggen. Uitingen hoeven niet volledig of grammaticaal correct te zijn, maar ze moeten de gesproken invoer weerspiegelen die u verwacht dat het model moet herkennen. Probeer, indien mogelijk, één zin of trefwoord te laten beheren op een afzonderlijke regel. Als u het gewicht van een term zoals productnamen wilt verhogen, voegt u verschillende zinnen toe die de term bevatten. Maar kopieer niet te veel. Dit kan van invloed zijn op de algehele herkenningsfrequentie.

Notitie

Vermijd verwante tekstzinnen die ruis bevatten, zoals onherkenbare tekens of woorden.

Gebruik deze tabel om ervoor te zorgen dat het gegevenssetbestand met tekst zonder opmaak correct is opgemaakt:

Eigenschappen	Waarde
Tekstcodering	UTF-8 BOM
Aantal utterances per regel	1
Maximale bestandsgrootte	200 MB

U moet zich ook houden aan de volgende beperkingen:

Vermijd tekens, woorden of groepen woorden meer dan drie keer te herhalen. Gebruik bijvoorbeeld geen 'aaaa', 'ja ja ja ja' of 'dat is het dat het is.' De Speech-service kan regels met te veel herhalingen verwijderen.
Gebruik geen speciale tekens of UTF-8-tekens boven U+00A1.
URI's worden geweigerd.
Voor sommige talen, zoals Japans of Koreaans, kan het importeren van grote hoeveelheden tekstgegevens lang duren of kan er een time-out optreedt. Overweeg om de gegevensset te verdelen in meerdere tekstbestanden met maximaal 20.000 regels in elk bestand.

Gestructureerde tekstgegevens voor training

Notitie

Gestructureerde tekstgegevens voor training zijn beschikbaar als openbare preview.

Gebruik gestructureerde tekstgegevens wanneer uw gegevens een bepaald patroon volgen in bepaalde uitingen die alleen verschillen per woord of woordgroep in een lijst. Om het maken van trainingsgegevens te vereenvoudigen en betere modellering in het aangepaste taalmodel mogelijk te maken, kunt u een gestructureerde tekst in Markdown-indeling gebruiken om lijsten met items en fonetische uitspraak van woorden te definiëren. U kunt vervolgens verwijzen naar deze lijsten in uw trainingsuitingen.

Verwachte uitingen volgen vaak een bepaald patroon. Een veelvoorkomend patroon is dat utterances alleen verschillen per woord of woordgroep uit een lijst. Voorbeelden van dit patroon kunnen zijn:

"Ik heb een vraag over product," waar product is een lijst met mogelijke producten.
"Make that objectcolor," where object is a list of geometrisch shapes and color is a list of colors.

Zie Taalondersteuning voor een lijst met ondersteunde basismodellen en landinstellingen voor training met gestructureerde tekst. U moet het meest recente basismodel voor deze landinstellingen gebruiken. Voor landinstellingen die geen ondersteuning bieden voor training met gestructureerde tekst, neemt de service trainingszinnen die niet verwijzen naar klassen als onderdeel van training met gegevens zonder opmaak.

Het bestand structured-text moet de extensie .md hebben. De maximale bestandsgrootte is 200 MB en de tekstcodering moet UTF-8 BOM zijn. De syntaxis van markdown is hetzelfde als die van de Language Understanding-modellen, met name lijstentiteiten en voorbeelduitingen. Zie de Language Understanding Markdown voor meer informatie over de volledige Markdown-syntaxis van Markdown.

Hier vindt u belangrijke informatie over de ondersteunde Markdown-indeling:

Eigenschappen	Beschrijving	Limieten
`@list`	Een lijst met items waarnaar kan worden verwezen in een voorbeeldzin.	Maximaal 20 lijsten. Maximaal 35.000 items per lijst.
`speech:phoneticlexicon`	Een lijst met fonetische uitspraken volgens de Universal Telefoon Set. Uitspraak wordt aangepast voor elk exemplaar waarin het woord wordt weergegeven in een lijst of trainingszin. Als u bijvoorbeeld een woord hebt dat klinkt als 'kat' en u de uitspraak wilt aanpassen aan 'k ae t', voegt u dit toe `- cat/k ae t` aan de `speech:phoneticlexicon` lijst.	Maximaal 15.000 vermeldingen. Maximaal twee uitspraken per woord.
`#ExampleSentences`	Met een hekje (`#`) wordt een sectie met voorbeeldzinnen gescheiden. De sectiekop mag alleen letters, cijfers en onderstrepingstekens bevatten. Voorbeeldzinnen moeten overeenkomen met het spraakbereik dat uw model zou moeten verwachten. Een trainingszin kan verwijzen naar items onder een `@list` door middel van omringende accolades links en rechts (`{@list name}`). U kunt verwijzen naar meerdere lijsten in dezelfde trainingszin of helemaal geen lijsten.	Maximale bestandsgrootte van 200 MB.
`//`	Opmerkingen volgen een dubbele slash (`//`).	Niet van toepassing

Hier volgt een voorbeeld van een gestructureerd tekstbestand:

// This is a comment because it follows a double slash (`//`).

// Here are three separate lists of items that can be referenced in an example sentence. You can have up to 10 of these.
@ list food =
- pizza
- burger
- ice cream
- soda

@ list pet =
- cat
- dog
- fish

@ list sports =
- soccer
- tennis
- cricket
- basketball
- baseball
- football

// List of phonetic pronunciations
@ speech:phoneticlexicon
- cat/k ae t
- fish/f ih sh

// Here are two sections of training sentences. 
#TrainingSentences_Section1
- you can include sentences without a class reference
- what {@pet} do you have
- I like eating {@food} and playing {@sports}
- my {@pet} likes {@food}

#TrainingSentences_Section2
- you can include more sentences without a class reference
- or more sentences that have a class reference like {@pet}

Uitspraakgegevens voor training

Gespecialiseerde of samengestelde woorden kunnen unieke uitspraken hebben. Deze woorden kunnen worden herkend als ze kunnen worden onderverdeeld in kleinere woorden om ze uit te spreken. Als u bijvoorbeeld 'Xbox' wilt herkennen, wordt deze uitgesproken als 'X box'. Deze benadering verhoogt niet de algehele nauwkeurigheid, maar kan de herkenning van deze en andere trefwoorden verbeteren.

U kunt een aangepast uitspraakbestand opgeven om de herkenning te verbeteren. Gebruik geen aangepaste uitspraakbestanden om de uitspraak van algemene woorden te wijzigen. Zie taalondersteuning voor een lijst met talen die ondersteuning bieden voor aangepaste uitspraak.

Notitie

U kunt een uitspraakbestand naast elke andere trainingsgegevensset gebruiken, behalve gestructureerde trainingsgegevens voor tekst. Als u uitspraakgegevens met gestructureerde tekst wilt gebruiken, moet deze zich in een gestructureerd tekstbestand bevindt.

Het gesproken formulier is de fonetische volgorde die is gespeld. Het kan bestaan uit letters, woorden, lettergrepen of een combinatie van alle drie. Deze tabel bevat enkele voorbeelden:

Herkend weergegeven formulier	Gesproken formulier
3CPO	drie c p o
CNTK	c n t k
IEEE	i triple e

U geeft uitspraken in één tekstbestand. Neem de gesproken utterance en een aangepaste uitspraak voor elk op. Elke rij in het bestand moet beginnen met het herkende formulier, vervolgens een tabteken en vervolgens de door spaties gescheiden fonetische reeks.

3CPO    three c p o
CNTK    c n t k
IEEE    i triple e

Raadpleeg de volgende tabel om ervoor te zorgen dat uw uitspraakgegevenssetbestanden geldig en correct zijn opgemaakt.

Eigenschappen	Waarde
Tekstcodering	UTF-8 BOM (ANSI wordt ook ondersteund voor Engels)
Aantal uitspraken per regel	1
Maximale bestandsgrootte	1 MB (1 kB voor gratis laag)

Audiogegevens voor training of testen

Audiogegevens zijn optimaal voor het testen van de nauwkeurigheid van de basislijn spraak naar tekst of een aangepast model van Microsoft. Houd er rekening mee dat audiogegevens worden gebruikt om de nauwkeurigheid van spraak te controleren met betrekking tot de prestaties van een specifiek model. Als u de nauwkeurigheid van een model wilt kwantificeren, gebruikt u audio + door mensen gelabelde transcripties.

Notitie

Alleen audiogegevens voor training zijn beschikbaar in preview voor de en-US landinstelling. Voor andere landinstellingen, om te trainen met audiogegevens, moet u ook transcripties met een menselijk label opgeven.

Voor aangepaste spraakprojecten zijn audiobestanden met deze eigenschappen vereist:

Belangrijk

Dit zijn vereisten voor alleen audiotraining en -testen. Ze verschillen van die voor Audio + human-labeled transcript training en testen. Als u Audio + human-labeled transcript training en testen wilt gebruiken, raadpleegt u deze sectie.

Eigenschappen	Weergegeven als
File format	RIFF (WAV)
Samplefrequentie	8000 Hz of 16.000 Hz
Kanalen	1 (mono)
Maximale lengte per audio	Twee uur
Sample-indeling	PCM, 16-bits
Archiefindeling	.zip
Maximale archiefgrootte	2 GB of 10.000 bestanden

Notitie

Wanneer u trainings- en testgegevens uploadt, mag de .zip bestandsgrootte niet groter zijn dan 2 GB. Als u meer gegevens nodig hebt voor training, verdeelt u deze in verschillende .zip bestanden en uploadt u ze afzonderlijk. Later kunt u ervoor kiezen om te trainen vanuit meerdere gegevenssets. U kunt echter slechts één gegevensset testen.

Gebruik SoX om audio-eigenschappen te controleren of bestaande audio te converteren naar de juiste indelingen. Hier volgen enkele voorbeelden van SoX-opdrachten:

Activiteit	SoX-opdracht
Controleert de indeling van het audiobestand.	`sox --i <filename>`
Converteert het audiobestand naar één kanaal, 16-bits, 16 kHz.	`sox <input> -b 16 -e signed-integer -c 1 -r 16k -t wav <output>.wav`

Aangepaste weergavetekstopmaakgegevens voor training

Meer informatie over het voorbereiden van weergavetekstopmaakgegevens en het weergeven van tekstopmaak met spraak-naar-tekst.

De weergave-indeling van de automatische spraakherkenningsuitvoer is essentieel voor downstreamtaken en is niet allemaal geschikt voor één grootte. Door regels voor aangepaste weergave-indeling toe te voegen, kunnen gebruikers hun eigen lexical-to-display-notatieregels definiëren om de kwaliteit van de spraakherkenningsservice te verbeteren op basis van de aangepaste spraakservice van Microsoft Azure.

Hiermee kunt u de weergave-uitvoer volledig aanpassen, zoals regels voor herschrijven toevoegen om bepaalde woorden te hoofdletters toe te voegen en opnieuw te formatuleren, scheldwoorden en maskeren uit uitvoer toe te voegen, geavanceerde ITN-regels definiëren voor bepaalde patronen, zoals getallen, datums, e-mailadressen; of bewaar bepaalde zinnen en bewaar ze van alle weergaveprocessen.

Voorbeeld:

Aangepaste opmaak	Weergavetekst
Geen	Mijn financiële nummer van contoso is 8BEV3
'Contoso' in hoofdletters gebruiken (via `#rewrite` regel) Financieel getal opmaken (via `#itn` regel)	Mijn financiële nummer van Contoso is 8B-EV-3

Zie Taalondersteuning voor een lijst met ondersteunde basismodellen en landinstellingen voor training met gestructureerde tekst. Het bestand Display Format moet de extensie .md hebben. De maximale bestandsgrootte is 10 MB en de tekstcodering moet UTF-8 BOM zijn. Zie Aanbevolen procedure voor weergaveopmaak voor meer informatie over het aanpassen van regels voor weergaveopmaak.

Eigenschappen	Beschrijving	Limieten
#ITN	Een lijst met regels voor omkertekstnormalisatie om bepaalde weergavepatronen zoals getallen, adressen en datums te definiëren.	Maximaal 200 regels
#rewrite	Een lijst met herschrijfparen om bepaalde woorden te vervangen om redenen zoals hoofdlettergebruik en spellingcorrectie.	Maximaal 1000 regels
#profanity	Een lijst met ongewenste woorden die worden gemaskeerd vanuit `******` de weergave- en gemaskeerde uitvoer, boven op ingebouwde lijsten met scheldwoorden van Microsoft.	Maximaal 1000 regels
#test	Een lijst met testcases voor eenheden om te controleren of de weergaveregels werken zoals verwacht, inclusief de invoer van de lexicale indeling en de verwachte uitvoer van de weergave-indeling.	Maximale bestandsgrootte van 10 MB

Hier volgt een voorbeeld van een weergave-indelingsbestand:

// this is a comment line
// each section must start with a '#' character
#itn
// list of ITN pattern rules, one rule for each line
\d-\d-\d
\d-\l-\l-\d
#rewrite
// list of rewrite rules, each rule has two phrases, separated by a tab character
old phrase	new phrase
# profanity
// list of profanity phrases to be tagged/removed/masked, one line one phrase
fakeprofanity
#test
// list of test cases, each test case has two sentences, input lexical and expected display output
// the two sentences are separated by a tab character
// the expected sentence is the display output of DPP+CDPP models
Mask the fakeprofanity word	Mask the ************* word

Gegevenssets trainen en testen

Data types

Gegevenssets per scenario overwegen

Audio + door mensen gelabelde transcriptiegegevens voor training of testen

Gegevens zonder opmaak voor training

Gestructureerde tekstgegevens voor training

Uitspraakgegevens voor training

Audiogegevens voor training of testen

Aangepaste weergavetekstopmaakgegevens voor training

Volgende stappen

Aanvullende resources