Wat zijn parallelle documenten precies?
De parallelle documenten zijn paren documenten waarbij de ene de vertaling van de andere is. Eén document in het paar bevat zinnen in de brontaal en het andere document bevat diezelfde zinnen maar in de doeltaal vertaald. Het maakt niet uit welke taal is gemarkeerd als 'bron' en welke taal is gemarkeerd als 'doel': u kunt parallel document gebruiken om een vertaalsysteem in beide richtingen te trainen.
Vereisten
U hebt minimaal 10.000 unieke parallelle zinnen nodig om een systeem te trainen. Deze beperking is een veiligheidsnet om ervoor te zorgen dat uw parallelle zinnen voldoende unieke woordenlijst bevatten om een vertaalmodel te trainen. Als best practice voegt u continu meer parallelle inhoud toe en kunt u deze opnieuw trainen om de kwaliteit van uw vertaalsysteem te verbeteren. Zie Uitlijning van zinnen voor meer informatie.
Microsoft vereist dat documenten die zijn geüpload naar Custom Translator, geen inbreuk maken op auteursrecht of intellectuele eigenschappen van derden. Zie de gebruiksvoorwaarden voor meer informatie. Als u een document uploadt via de portal, wordt het eigendom van het intellectuele eigendom in het document zelf niet gewijzigd.
Gebruik van parallelle documenten
Parallelle documenten worden door het systeem gebruikt:
Als u wilt weten hoe woorden, woordgroepen en zinnen vaak worden toegewezen tussen de twee talen.
Voor meer informatie over het verwerken van de juiste context, afhankelijk van de omringende zinnen. Een woord vertaalt zich mogelijk niet altijd naar hetzelfde woord in de andere taal.
Als best practice moet u ervoor zorgen dat er een correspondentie van 1:1 zin bestaat tussen de bron- en doeltaalversies van de documenten.
Als uw project domein (categorie) specifiek is, moeten uw documenten consistent zijn in terminologie binnen die categorie. De kwaliteit van het resulterende vertaalsysteem is afhankelijk van het aantal zinnen in uw documentenset en de kwaliteit van de zinnen. Hoe meer voorbeelden uw documenten bevatten met diverse gebruikstaken voor een woord dat specifiek is voor uw categorie, hoe beter het systeem kan doen tijdens de vertaling.
Geüploade documenten zijn privé voor elke werkruimte en kunnen worden gebruikt in zoveel projecten of trainingen als u wilt. Zinnen die uit uw documenten zijn geëxtraheerd, worden afzonderlijk opgeslagen in uw opslagplaats als Unicode-tekstbestanden zonder opmaak en kunnen worden verwijderd. Gebruik de Custom Translator niet als een documentopslagplaats. U kunt de documenten niet downloaden in dezelfde indeling die is geüpload.