Wat zijn training en modellering?
Een model is het systeem dat vertaalt voor een specifiek taalpaar. Het resultaat van een geslaagde training is een model. Voor het trainen van een model zijn drie wederzijds exclusieve documenttypen vereist: training, afstemming en testen. Het documenttype Woordenlijst kan ook worden opgegeven. Zie Uitlijning van zinnen voor meer informatie.
Als er alleen trainingsgegevens worden opgegeven bij het in de wachtrij plaatsen van een training, worden in Custom Translator automatisch afstemmings- en testgegevens verzameld. Er wordt een willekeurige subset van zinnen uit uw trainingsdocumenten gebruikt en deze zinnen worden uitgesloten van de trainingsgegevens zelf.
Trainingsdocumenttype voor Custom Translator
Documenten die zijn opgenomen in de trainingsset, worden door Custom Translator gebruikt als basis voor het bouwen van uw model. Tijdens het uitvoeren van de training worden zinnen die aanwezig zijn in deze documenten uitgelijnd (of gekoppeld). U kunt vrijheden nemen bij het opstellen van uw set trainingsdocumenten. U kunt documenten opnemen waarvan u denkt dat ze van tangense relevantie zijn in één model. Sluit ze opnieuw uit in een andere om te zien wat de impact is in de score van DE TWEETALIGe evaluatieondersteling. Zolang u de afstemmingsset en testset constant houdt, kunt u experimenteren met de samenstelling van de trainingsset. Deze aanpak is een effectieve manier om de kwaliteit van uw vertaalsysteem te wijzigen.
U kunt meerdere trainingen binnen een project uitvoeren en de SCORES van DE BLEU vergelijken voor alle trainingsuitvoeringen. Wanneer u meerdere trainingen voor vergelijking uitvoert, moet u ervoor zorgen dat telkens dezelfde afstemmings-/testgegevens worden opgegeven. Zorg er ook voor dat u de resultaten handmatig controleert op het tabblad Testen .
Documenttype afstemmen voor Custom Translator
Parallelle documenten die in deze set zijn opgenomen, worden door custom translator gebruikt om het vertaalsysteem af te stemmen op optimale resultaten.
De afstemmingsgegevens worden tijdens de training gebruikt om alle parameters en gewichten van het vertaalsysteem aan te passen aan de optimale waarden. Kies uw afstemmingsgegevens zorgvuldig: de afstemmingsgegevens moeten representatief zijn voor de inhoud van de documenten die u in de toekomst wilt vertalen. De afstemmingsgegevens hebben een grote invloed op de kwaliteit van de geproduceerde vertalingen. Door af te stemmen kan het vertaalsysteem vertalingen leveren die zich het dichtst bij de voorbeelden bevinden die u in de afstemmingsgegevens opgeeft. U hebt niet meer dan 2500 zinnen nodig in uw afstemmingsgegevens. Voor een optimale vertaalkwaliteit raden we u aan de afstemmingsset handmatig te selecteren door de meest representatieve selectie van zinnen te kiezen.
Wanneer u uw afstemmingsset maakt, kiest u zinnen die een zinvolle en representatieve lengte zijn van de toekomstige zinnen die u verwacht te vertalen. Kies zinnen met woorden en woordgroepen die u wilt vertalen in de geschatte verdeling die u verwacht in uw toekomstige vertalingen. In de praktijk levert een zinlengte van 7 tot 10 woorden de beste resultaten op. Deze zinnen bevatten voldoende context om inflection weer te geven en een woordgroeplengte te bieden die significant is, zonder te complex te zijn.
Een goede beschrijving van het type zinnen dat in de afstemmingsset moet worden gebruikt, is proza: echte vloeiende zinnen. Geen tabelcellen, geen gedichten, geen lijsten met dingen, niet alleen interpunctie of getallen in een zin - gewone taal.
Als u handmatig uw afstemmingsgegevens selecteert, mogen deze niet dezelfde zinnen hebben als uw trainings- en testgegevens. De afstemmingsgegevens hebben een aanzienlijke invloed op de kwaliteit van de vertalingen. Kies de zinnen zorgvuldig.
Als u niet zeker weet wat u moet kiezen voor uw afstemmingsgegevens, selecteert u de trainingsgegevens en laat Custom Translator de afstemmingsgegevens voor u selecteren. Wanneer u custom translator de afstemmingsgegevens automatisch laat kiezen, wordt een willekeurige subset van zinnen uit uw tweetalige trainingsdocumenten gebruikt en worden deze zinnen uitgesloten van het trainingsmateriaal zelf.
Gegevensset testen voor Custom Translator
Parallelle documenten die in de testset zijn opgenomen, worden gebruikt voor het berekenen van de SCORE VAN DE BLEU (Tweetalige Evaluatie understudy). Deze score geeft de kwaliteit van uw vertaalsysteem aan. Deze score geeft in feite aan hoe dicht de vertalingen die door het vertaalsysteem worden uitgevoerd als gevolg van deze training, overeenkomen met de verwijzingszinnen in de testgegevensset.
De KPI-score is een meting van de delta tussen de automatische vertaling en de referentieomzetting. De waarde varieert van 0 tot 100. Een score van 0 geeft aan dat er geen enkel woord van de verwijzing in de vertaling wordt weergegeven. Een score van 100 geeft aan dat de automatische vertaling exact overeenkomt met de verwijzing: hetzelfde woord bevindt zich op exact dezelfde positie. De score die u ontvangt, is het SCORE-gemiddelde voor alle zinnen van de testgegevens.
De testgegevens moeten parallelle documenten bevatten waarbij de doeltaalzinnen de meest wenselijke vertalingen zijn van de bijbehorende brontaalzinnen in het brondoelpaar. Mogelijk wilt u dezelfde criteria gebruiken die u hebt gebruikt om de afstemmingsgegevens samen te stellen. De testgegevens hebben echter geen invloed op de kwaliteit van het vertaalsysteem en worden uitsluitend gebruikt om de BLEU-score voor u te genereren.
U hebt niet meer dan 2500 zinnen nodig als testgegevens. Wanneer u het systeem de testset automatisch laat kiezen, wordt een willekeurige subset van zinnen uit uw tweetalige trainingsdocumenten gebruikt en worden deze zinnen uitgesloten van het trainingsmateriaal zelf.
U kunt de aangepaste vertalingen van de testset bekijken en deze vergelijken met de vertalingen in uw testset door naar het testtabblad in een model te navigeren.