Sleuteltermen voor Custom Translator
In de volgende tabel ziet u een lijst met belangrijke termen die u kunt vinden terwijl u met Custom Translator werkt.
Woord of woordgroep | Definitie |
---|---|
Brontaal | De brontaal is de begintaal die u wilt converteren naar een andere taal (het doel). |
Doeltaal | De doeltaal is de taal die u wilt opgeven voor de automatische vertaling nadat deze de brontaal heeft ontvangen. |
Monoulatl-bestand | Een monocontroll-bestand heeft één taal die niet is gekoppeld aan een ander bestand van een andere taal. |
Parallelle bestanden | Een parallel bestand is een combinatie van twee bestanden met bijbehorende tekst. Eén bestand heeft de brontaal. De andere heeft de doeltaal. |
Uitlijning van zin | Parallelle gegevensset moet zinnen hebben uitgelijnd op zinnen die dezelfde tekst in beide talen vertegenwoordigen. In een bronparallel bestand moet de eerste zin in theorie bijvoorbeeld worden toegewezen aan de eerste zin in het doelparallel bestand. |
Uitgelijnde tekst | Een van de belangrijkste stappen van bestandsvalidatie is het uitlijnen van de zinnen in de parallelle documenten. Dingen worden anders uitgedrukt in verschillende talen. Ook verschillende talen hebben verschillende woordvolgordes. Met deze stap wordt de taak uitgevoerd om de zinnen uit te lijnen met dezelfde inhoud, zodat ze kunnen worden gebruikt voor training. Een uitlijning met een lage zin geeft aan dat er iets mis is met een of beide bestanden. |
Woord breken/verbreken | Woordbreking is de functie van het markeren van de grenzen tussen woorden. Veel schrijfsystemen gebruiken een spatie om de grens tussen woorden aan te geven. Woord dat wordt losgebroken, verwijst naar het verwijderen van een zichtbare markering die mogelijk is ingevoegd tussen woorden in een vorige stap. |
Scheidingstekens | Scheidingstekens zijn de manieren waarop een zin wordt verdeeld in segmenten of de marge tussen zinnen scheiden. In engelse spaties worden bijvoorbeeld woorden, dubbele punten en puntkomma's scheidingstekens en puntkomma's gescheiden door zinnen en puntscheidingstekens. |
Trainingsbestanden | Een trainingsbestand wordt gebruikt om het systeem voor machinevertaling te leren hoe u kunt toewijzen van één taal (de bron) aan een doeltaal (het doel). Hoe meer gegevens u opgeeft, hoe beter het systeem presteert. |
Bestanden afstemmen | Deze bestanden worden vaak willekeurig afgeleid van de trainingsset (als u geen afstemmingsset selecteert). De zinnen worden automatisch geselecteerd en gebruikt om het systeem af te stemmen en ervoor te zorgen dat het goed werkt. Als u een vertaalmodel voor algemeen gebruik wilt maken en uw eigen afstemmingsbestanden wilt maken, moet u ervoor zorgen dat ze een willekeurige set zinnen tussen domeinen zijn |
Bestanden testen | Deze bestanden zijn vaak afgeleide bestanden, willekeurig geselecteerd in de trainingsset (als u geen testset selecteert). Het doel van deze zinnen is om de nauwkeurigheid van het vertaalmodel te evalueren. Om ervoor te zorgen dat het systeem deze zinnen nauwkeurig vertaalt, kunt u een testset maken en deze uploaden naar de vertaler. Dit zorgt ervoor dat de zinnen worden gebruikt in de evaluatie van het systeem (de generatie van een BLEU-score). |
Combinatiebestand | Een type bestand waarin de bron- en vertaalde zinnen zich in hetzelfde bestand bevinden. Ondersteunde bestandsindelingen (TMX, XLIFF, XLF, ICI en XLSX). |
Archiefbestand | Een bestand dat andere bestanden bevat. Ondersteunde bestandsindelingen (zip, gz, tgz). |
BLEU-score | BLEU is de industriestandaardmethode voor het evalueren van de "precisie" of nauwkeurigheid van het vertaalmodel. Hoewel er andere evaluatiemethoden bestaan, is Microsoft Translator afhankelijk van de METHODE BLEU om de nauwkeurigheid van projecteigenaren te rapporteren. |