Vad är träning och modellering?

Artikel
07/20/2023

En modell är systemet, som tillhandahåller översättning för ett specifikt språkpar. Resultatet av en lyckad träning är en modell. För att träna en modell krävs tre ömsesidigt uteslutande dokumenttyper: träning, justering och testning. Du kan också ange dokumenttypen Ordlista. Mer information finns i Meningsjustering.

Om endast träningsdata tillhandahålls när du köar en träning monterar Custom Translator automatiskt justerings- och testdata. Den använder en slumpmässig delmängd meningar från dina träningsdokument och undantar dessa meningar från själva träningsdata.

Utbildningsdokumenttyp för Custom Translator

Dokument som ingår i träningsuppsättningen används av Custom Translator som grund för att skapa din modell. Under träningskörningen justeras meningar som finns i dessa dokument (eller paras ihop). Du kan ta dig friheten att skriva dina utbildningsdokument. Du kan inkludera dokument som du tror är av tangentiell relevans i en modell. Uteslut dem igen i en annan för att se effekten i BLEU-poäng (tvåspråkig utvärderingsunderstudy). Så länge du håller justeringsuppsättningen och testuppsättningen konstant kan du experimentera med träningsuppsättningens sammansättning. Den här metoden är ett effektivt sätt att ändra kvaliteten på översättningssystemet.

Du kan köra flera utbildningar i ett projekt och jämföra BLEU-poängen mellan alla träningskörningar. När du kör flera träningar för jämförelse kontrollerar du att samma justerings-/testdata anges varje gång. Se också till att även granska resultaten manuellt på fliken "Testning" .

Justera dokumenttyp för Custom Translator

Parallella dokument som ingår i den här uppsättningen används av Custom Translator för att finjustera översättningssystemet för optimala resultat.

Justeringsdata används under träningen för att justera översättningssystemets alla parametrar och vikter till optimala värden. Välj dina justeringsdata noggrant: justeringsdata bör vara representativa för innehållet i de dokument som du tänker översätta i framtiden. Justeringsdata har en stor inverkan på kvaliteten på de översättningar som produceras. Justering gör det möjligt för översättningssystemet att tillhandahålla översättningar som är närmast de exempel som du anger i justeringsdata. Du behöver inte fler än 2 500 meningar i dina justeringsdata. För optimal översättningskvalitet rekommenderar vi att du väljer justeringsuppsättningen manuellt genom att välja det mest representativa valet av meningar.

När du skapar din justeringsuppsättning väljer du meningar som är en meningsfull och representativ längd på de framtida meningar som du förväntar dig att översätta. Välj meningar som innehåller ord och fraser som du tänker översätta i den ungefärliga distribution som du förväntar dig i dina framtida översättningar. I praktiken ger en meningslängd på 7 till 10 ord det bästa resultatet. Dessa meningar innehåller tillräckligt med kontext för att visa böjning och ge en fraslängd som är betydande, utan att vara alltför komplex.

En bra beskrivning av vilken typ av meningar som ska användas i justeringsuppsättningen är prosa: faktiska flytande meningar. Inte tabellceller, inte dikter, inte listor över saker, inte bara skiljetecken eller siffror i en mening - vanligt språk.

Om du väljer dina justeringsdata manuellt bör de inte ha någon av samma meningar som dina tränings- och testdata. Justeringsdata har en betydande inverkan på kvaliteten på översättningarna – välj meningarna noggrant.

Om du inte är säker på vad du ska välja för dina justeringsdata väljer du bara träningsdata och låter Custom Translator välja justeringsdata åt dig. När du låter Custom Translator välja justeringsdata automatiskt kommer den att använda en slumpmässig delmängd meningar från dina tvåspråkiga träningsdokument och undanta dessa meningar från själva träningsmaterialet.

Testa datauppsättningen för Custom Translator

Parallella dokument som ingår i testuppsättningen används för att beräkna BLEU-poängen (tvåspråkig utvärderingsunderstudy). Den här poängen anger kvaliteten på översättningssystemet. Den här poängen visar faktiskt hur nära översättningarna som utförs av översättningssystemet som är resultatet av den här träningen matchar referens meningarna i testdatauppsättningen.

BLEU-poängen är ett mått på deltat mellan den automatiska översättningen och referensöversättningen. Dess värde varierar från 0 till 100. Poängen 0 anger att inte ett enda ord av referensen visas i översättningen. Poängen 100 anger att den automatiska översättningen exakt matchar referensen: samma ord är i exakt samma position. Poängen du får är BLEU-poänggenomsnittet för alla meningar av testdata.

Testdata bör innehålla parallella dokument där målspråkets meningar är de mest önskvärda översättningarna av motsvarande källspråks meningar i källmålparet. Du kanske vill använda samma villkor som du använde för att skriva justeringsdata. Testdata har dock inget inflytande över översättningssystemets kvalitet. Den används uteslutande för att generera BLEU-poängen åt dig.

Du behöver inte fler än 2 500 meningar som testdata. När du låter systemet välja testuppsättningen automatiskt använder det en slumpmässig delmängd meningar från dina tvåspråkiga träningsdokument och undantar dessa meningar från själva träningsmaterialet.

Du kan visa anpassade översättningar av testuppsättningen och jämföra dem med översättningarna i testuppsättningen genom att gå till testfliken i en modell.

Nästa steg

Testa och utvärdera din modell

Dela via