Nyckeltermer för Custom Translator
I följande tabell visas en lista med viktiga termer som du kan hitta när du arbetar med Custom Translator.
Ord eller fras | Definition |
---|---|
Källspråk | Källspråket är det startspråk som du vill konvertera till ett annat språk ("målet"). |
Målspråk | Målspråket är det språk som du vill att maskinöversättningen ska ange när det har fått källspråket. |
Enspråkig fil | En enspråkig fil har ett enda språk som inte är kopplat till en annan fil med ett annat språk. |
Parallella filer | En parallell fil är en kombination av två filer med motsvarande text. En fil har källspråket. Den andra har målspråket. |
Meningsjustering | Parallell datauppsättning måste ha justerade meningar till meningar som representerar samma text på båda språken. I en källparallell fil bör till exempel den första meningen i teorin mappas till den första meningen i målparallellfilen. |
Justerad text | Ett av de viktigaste stegen i filvalidering är att justera meningarna i de parallella dokumenten. Saker och ting uttrycks på olika språk. Olika språk har också olika ordordningar. Det här steget gör jobbet med att justera meningarna med samma innehåll så att de kan användas för träning. En låg meningsjustering indikerar att det kan vara något fel med en eller båda filerna. |
Ordbrytning/ Avbrytning | Ordbrytning är funktionen för att markera gränserna mellan ord. Många skrivsystem använder ett blanksteg för att ange gränsen mellan ord. Ordavbrott avser borttagning av synliga markörer som kan ha infogats mellan ord i ett föregående steg. |
Avgränsare | Avgränsare är hur en mening delas upp i segment eller avgränsar marginalen mellan meningar. I engelska avgränsar till exempel blanksteg ord, kolon och semikolon avgränsade satser och punkter avgränsade meningar. |
Träningsfiler | En träningsfil används för att lära maskinöversättningssystemet hur man mappar från ett språk (källan) till ett målspråk (målet). Ju mer data du anger, desto bättre presterar systemet. |
Justera filer | Dessa filer härleds ofta slumpmässigt från träningsuppsättningen (om du inte väljer en justeringsuppsättning). Meningarna markeras automatiskt och används för att justera systemet och se till att det fungerar korrekt. Om du vill skapa en översättningsmodell för generell användning och skapa egna justeringsfiler kontrollerar du att de är en slumpmässig uppsättning meningar mellan domäner |
Testa filer | Dessa filer är ofta härledda filer, slumpmässigt valda från träningsuppsättningen (om du inte väljer någon testuppsättning). Syftet med dessa meningar är att utvärdera översättningsmodellens noggrannhet. För att säkerställa att systemet översätter dessa meningar korrekt kan du skapa en testuppsättning och ladda upp den till översättaren. Detta säkerställer att meningarna används i systemets utvärdering (genereringen av en BLEU-poäng). |
Kombinationsfil | En typ av fil där källan och översatta meningar finns i samma fil. Filformat som stöds (TMX, XLIFF, XLF, ICI och XLSX). |
Arkivfil | En fil som innehåller andra filer. Filformat som stöds (zip, gz, tgz). |
BLEU-poäng | BLEU är branschstandardmetoden för att utvärdera översättningsmodellens "precision" eller noggrannhet. Även om det finns andra utvärderingsmetoder förlitar sig Microsoft prevodilac på BLEU-metoden för att rapportera noggrannhet till projektägare. |