Delen via


Wat zijn training en modellering?

Een model is het systeem, dat vertaalt voor een specifiek taalpaar. Het resultaat van een geslaagde training is een model. Voor het trainen van een model zijn drie documenttypen die elkaar wederzijds uitsluiten vereist: training, afstemming en testen. Het documenttype woordenlijst kan ook worden opgegeven. Zie Zinuitlijning voor meer informatie.

Als alleen trainingsgegevens worden opgegeven bij het in de wachtrij plaatsen van een training, worden met Custom Translator automatisch afstemmings- en testgegevens verzameld. Er wordt een willekeurige subset van zinnen uit uw trainingsdocumenten gebruikt en deze zinnen worden uitgesloten van de trainingsgegevens zelf.

Trainingsdocumenttype voor Custom Translator

Documenten die zijn opgenomen in de trainingsset, worden door Custom Translator gebruikt als basis voor het bouwen van uw model. Tijdens het uitvoeren van de training worden zinnen die aanwezig zijn in deze documenten uitgelijnd (of gekoppeld). U kunt rekening houden met vrijheden bij het opstellen van uw set trainingsdocumenten. U kunt documenten die volgens u tangens relevant zijn in één model opnemen. Sluit ze opnieuw uit in een andere om de impact in bleu (tweetalige evaluatie understudy) score te zien. Zolang u de afstemmingsset en testset constant houdt, kunt u gerust experimenteren met de samenstelling van de trainingsset. Deze aanpak is een effectieve manier om de kwaliteit van uw vertaalsysteem te wijzigen.

U kunt meerdere trainingen binnen een project uitvoeren en de BLEU-scores vergelijken over alle trainingen. Wanneer u meerdere trainingen voor vergelijking uitvoert, moet u ervoor zorgen dat elke keer dezelfde afstemmings-/testgegevens worden opgegeven. Zorg er ook voor dat u de resultaten handmatig controleert op het tabblad Testen .

Documenttype afstemmen voor Custom Translator

Parallelle documenten die in deze set zijn opgenomen, worden door Custom Translator gebruikt om het vertaalsysteem af te stemmen voor optimale resultaten.

De afstemmingsgegevens worden tijdens de training gebruikt om alle parameters en gewichten van het vertaalsysteem aan te passen aan de optimale waarden. Kies uw afstemmingsgegevens zorgvuldig: de afstemmingsgegevens moeten representatief zijn voor de inhoud van de documenten die u in de toekomst wilt vertalen. De afstemmingsgegevens hebben een grote invloed op de kwaliteit van de geproduceerde vertalingen. Door af te stemmen kan het vertaalsysteem vertalingen leveren die het dichtst bij de voorbeelden liggen die u in de afstemmingsgegevens opgeeft. U hebt niet meer dan 2500 zinnen nodig in uw afstemmingsgegevens. Voor een optimale vertaalkwaliteit is het raadzaam om de afstemmingsset handmatig te selecteren door de meest representatieve selectie van zinnen te kiezen.

Wanneer u uw afstemmingsset maakt, kiest u zinnen die een zinvolle en representatieve lengte hebben van de toekomstige zinnen die u verwacht te vertalen. Kies zinnen met woorden en woordgroepen die u wilt vertalen in de geschatte verdeling die u in toekomstige vertalingen verwacht. In de praktijk levert een zinslengte van 7 tot 10 woorden het beste resultaat op. Deze zinnen bevatten voldoende context om buiging weer te geven en bieden een zinslengte die significant is, zonder dat het te complex is.

Een goede beschrijving van het type zinnen dat in de afstemmingsset moet worden gebruikt, is proza: werkelijke vloeiende zinnen. Geen tabelcellen, geen gedichten, geen lijsten met dingen, niet alleen interpunctie of getallen in een zin - gewone taal.

Als u uw afstemmingsgegevens handmatig selecteert, moeten deze niet dezelfde zinnen bevatten als uw training- en testgegevens. De afstemmingsgegevens hebben een aanzienlijke invloed op de kwaliteit van de vertalingen. Kies de zinnen zorgvuldig.

Als u niet zeker weet wat u moet kiezen voor uw afstemmingsgegevens, selecteert u de trainingsgegevens en laat u Custom Translator de afstemmingsgegevens voor u selecteren. Wanneer u custom translator de afstemmingsgegevens automatisch laat kiezen, wordt een willekeurige subset van zinnen uit uw tweetalige trainingsdocumenten gebruikt en worden deze zinnen uitgesloten van het trainingsmateriaal zelf.

Gegevensset testen voor Custom Translator

Parallelle documenten in de testset worden gebruikt om de BLEU-score (Tweetalige Evaluatie Understudy) te berekenen. Deze score geeft de kwaliteit van uw vertaalsysteem aan. Deze score geeft aan in hoeverre de vertalingen die door het vertaalsysteem zijn uitgevoerd als gevolg van deze training, overeenkomen met de referentiezinnen in de testgegevensset.

De BLEU-score is een meting van de delta tussen de automatische vertaling en de referentievertaling. De waarde varieert van 0 tot 100. Een score van 0 geeft aan dat er geen enkel woord van de verwijzing in de vertaling wordt weergegeven. Een score van 100 geeft aan dat de automatische vertaling exact overeenkomt met de verwijzing: hetzelfde woord bevindt zich in exact dezelfde positie. De score die u ontvangt, is het BLEU-score-gemiddelde voor alle zinnen van de testgegevens.

De testgegevens moeten parallelle documenten bevatten waarbij de doeltaalzinnen de meest gewenste vertalingen zijn van de bijbehorende brontaalzinnen in het bron-doelpaar. Mogelijk wilt u dezelfde criteria gebruiken die u hebt gebruikt om de afstemmingsgegevens op te stellen. De testgegevens hebben echter geen invloed op de kwaliteit van het vertaalsysteem. Het wordt uitsluitend gebruikt om de BLEU-score voor u te genereren.

U hebt niet meer dan 2500 zinnen nodig als testgegevens. Wanneer u het systeem de testset automatisch laat kiezen, wordt een willekeurige subset van zinnen uit uw tweetalige trainingsdocumenten gebruikt en worden deze zinnen uitgesloten van het trainingsmateriaal zelf.

U kunt de aangepaste vertalingen van de testset bekijken en vergelijken met de vertalingen in uw testset door naar het tabblad Testen binnen een model te navigeren.

Volgende stappen