Klíčové termíny služby Custom Translator
Následující tabulka obsahuje seznam klíčových termínů, které můžete najít při práci se službou Custom Translator.
Word nebo fráze | Definice |
---|---|
Zdrojový jazyk | Zdrojový jazyk je počáteční jazyk, který chcete převést do jiného jazyka ("cíl"). |
Cílový jazyk | Cílový jazyk je jazyk, který má strojový překlad poskytovat po přijetí zdrojového jazyka. |
Monolingvální soubor | Monolingvální soubor má jeden jazyk, který není spárovaný s jiným souborem jiného jazyka. |
Paralelní soubory | Paralelní soubor je kombinací dvou souborů s odpovídajícím textem. Jeden soubor má zdrojový jazyk. Druhá má cílový jazyk. |
Zarovnání vět | Paralelní datová sada musí mít zarovnané věty s větami, které představují stejný text v obou jazycích. Například ve zdrojovém paralelním souboru by se první věta teoreticky měla mapovat na první větu v cílovém paralelním souboru. |
Zarovnaný text | Jedním z nejdůležitějších kroků ověření souboru je zarovnání vět v paralelních dokumentech. Věci se vyjadřují různě v různých jazycích. Různé jazyky mají také různé pořadí slov. Tento krok zarovná věty se stejným obsahem, aby je bylo možné použít pro trénování. Zarovnání nízké věty značí, že u jednoho nebo obou souborů může být něco v nepořádku. |
Word lámání/ rozbití | Word dělení je funkce označování hranic mezi slovy. Mnoho systémů psaní používá mezeru k označení hranice mezi slovy. Word zrušení odkazuje na odebrání jakékoli viditelné značky, která byla vložena mezi slova v předchozím kroku. |
Oddělovače | Oddělovače jsou způsoby, kterými je věta rozdělena na segmenty nebo oddělovat okraj mezi větami. Například v anglických mezerách oddělují slova, dvojtečky a středníky oddělovací klauzule a tečky oddělují věty. |
Trénovací soubory | Trénovací soubor se používá k tomu, aby se systém strojového překladu naučil mapovat z jednoho jazyka (zdrojového) na cílový (cílový). Čím více dat poskytnete, tím lépe bude systém fungovat. |
Ladění souborů | Tyto soubory jsou často náhodně odvozené od trénovací sady (pokud nevyberete sadu ladění). Věty se automaticky vyvolí a použijí se k vyladění systému a zajištění správného fungování. Pokud chcete vytvořit model překladu pro obecné účely a vytvořit vlastní soubory ladění, ujistěte se, že se v nich nachází náhodná sada vět napříč doménami. |
Testovací soubory | Tyto soubory jsou často odvozené soubory, náhodně vybrané z trénovací sady (pokud nevyberete žádnou testovací sadu). Účelem těchto vět je vyhodnotit přesnost modelu překladu. Abyste měli jistotu, že systém správně překládá tyto věty, můžete vytvořit testovací sadu a nahrát ji do překladače. Tím zajistíte, že se věty použijí při vyhodnocování systému (generování skóre BLEU). |
Soubor se seznamem | Typ souboru, ve kterém jsou zdrojové a přeložené věty obsaženy ve stejném souboru. Podporované formáty souborů (TMX, XLIFF, XLF, ICI a XLSX) |
Archivovat soubor | Soubor, který obsahuje jiné soubory. Podporované formáty souborů (zip, gz, tgz). |
Skóre BLEU | BLEU je oborová standardní metoda pro vyhodnocení "přesnosti" nebo přesnosti modelu překladu. I když existují i jiné metody vyhodnocení, Microsoft Translator spoléhá na metodu BLEU, která vlastníkům projektů hlásí přesnost. |