Share via


De zinnen koppelen en uitlijnen in parallelle documenten

Nadat de documenten zijn geüpload, worden zinnen in parallelle documenten gekoppeld of uitgelijnd. Custom Translator rapporteert het aantal zinnen dat het kon koppelen als de uitgelijnde zinnen in elke gegevensset.

Proces voor koppelen en uitlijnen

Aangepaste Vertalen leert vertalingen van zinnen één zin tegelijk. Er wordt een zin uit de brontekst gelezen en vervolgens de vertaling van deze zin uit de doeltekst. Vervolgens worden woorden en woordgroepen in deze twee zinnen met elkaar uitgelijnd. Met dit proces kunt u een kaart maken van de woorden en woordgroepen in één zin met de equivalente woorden en woordgroepen in de vertaling van de zin. Uitlijning probeert ervoor te zorgen dat het systeem traint op zinnen die vertalingen van elkaar zijn.

Vooraf uitgelijnde documenten

Als u weet dat u parallelle documenten hebt, kunt u de uitlijning van de zin overschrijven door vooraf uitgelijnde tekstbestanden op te leveren. U kunt alle zinnen uit beide documenten extraheren in een tekstbestand, één zin per regel ordenen en uploaden met een .align extensie. De .align extensie geeft aangepaste Vertalen dat de uitlijning van zinnen moet worden overgeslagen.

Voor de beste resultaten moet u ervoor zorgen dat u één zin per regel in uw bestanden hebt. Geen nieuwe regeltekens in een zin hebben. Dit zorgt voor slechte uitlijning.

Voorgesteld minimumaantal zinnen

Voor een geslaagde training wordt in de volgende tabel het minimum aantal zinnen weergegeven dat in elk documenttype is vereist. Deze beperking is een veiligheidsnet om ervoor te zorgen dat uw parallelle zinnen voldoende unieke woordenlijst bevatten om een vertaalmodel te trainen. De algemene richtlijn heeft meer parallelle zinnen van menselijke vertalingskwaliteit in het domein, moeten modellen van hogere kwaliteit produceren.

Documenttype Voorgestelde minimum aantal zinnen Maximum aantal zinnen
Training 10,000 Geen bovengrens
Afstemmen 500 2500
Testen 500 2500
Woordenlijst 0 250.000

Notitie

  • Training wordt niet gestart en mislukt als niet aan het minimumaantal 10.000 zinnen voor Training wordt voldaan.
  • Afstemming en testen zijn optioneel. Als u ze niet opgeeft, verwijdert het systeem een geschikt percentage uit Training om te gebruiken voor validatie en testen.
  • U kunt een model trainen met behulp van alleen woordenlijstgegevens. Raadpleeg wat is woordenlijst.
  • Als uw woordenlijst meer dan 250.000 zinnen bevat, is de functie Documentvertaling een betere keuze. Raadpleeg documentomzetting.
  • Gratis (F0) abonnementstraining heeft een maximale limiet van 2.000.000 tekens.

Volgende stappen