Dela via


Parkoppling och justering av meningar i parallella dokument

När dokument har laddats upp parkopplas eller justeras meningar som finns i parallella dokument. Custom Translator rapporterar hur många meningar som kunde parkopplas som justerade meningar i var och en av datauppsättningarna.

Parkopplings- och justeringsprocess

Custom Translator lär sig översättningar av meningar en mening i taget. Den läser en mening från källtexten och sedan översättningen av den här meningen från måltexten. Sedan justeras ord och fraser i dessa två meningar mot varandra. Den här processen gör det möjligt att skapa en karta över ord och fraser i en mening till motsvarande ord och fraser i översättningen av meningen. Justeringen försöker se till att systemet tränar på meningar som är översättningar av varandra.

Förjusterade dokument

Om du vet att du har parallella dokument kan du åsidosätta meningsjusteringen genom att ange förjusterade textfiler. Du kan extrahera alla meningar från båda dokumenten i textfilen, ordna en mening per rad och ladda upp med ett .align tillägg. Tillägget .align signalerar Custom Translator att det bör hoppa över meningsjustering.

För bästa resultat kan du försöka se till att du har en mening per rad i dina filer. Det finns inga nya tecken i en mening – det orsakar dåliga justeringstecken.

Föreslaget minsta antal meningar

För att en träning ska lyckas visar följande tabell det minsta antal meningar som krävs i varje dokumenttyp. Den här begränsningen är ett säkerhetsnät för att säkerställa att dina parallella meningar innehåller tillräckligt med unikt ordförråd för att kunna träna en översättningsmodell. Den allmänna riktlinjen är att fler parallella meningar i domänen av mänsklig översättningskvalitet ska ge modeller av högre kvalitet.

Dokumenttyp Föreslaget minsta meningsantal Maximalt antal meningar
Utbildning 10,000 Ingen övre gräns
Finjustering 500 2 500
Testning 500 2 500
Ordlista 0 250 000

Kommentar

  • Träningen startar inte och misslyckas om det minsta antalet meningar på 10 000 för Utbildning inte uppfylls.
  • Justering och testning är valfria. Om du inte anger dem tar systemet bort en lämplig procentandel från Träning som ska användas för validering och testning.
  • Du kan träna en modell med endast ordlistedata. Se Vad är ordlista.
  • Om din ordlista innehåller mer än 250 000 meningar är vår funktion för dokumentöversättning ett bättre val. Se Dokumentöversättning.
  • Kostnadsfri (F0) prenumerationsträning har en maxgräns på 2 000 000 tecken.

Nästa steg