Klíčové termíny služby Custom Translator

Následující tabulka obsahuje seznam klíčových termínů, které můžete najít při práci se službou Custom Translator.

Word nebo fráze Definice
Zdrojový jazyk Zdrojový jazyk je počáteční jazyk, který chcete převést do jiného jazyka ("cíl").
Cílový jazyk Cílový jazyk je jazyk, který má strojový překlad poskytovat po přijetí zdrojového jazyka.
Monolingvální soubor Monolingvální soubor má jeden jazyk, který není spárovaný s jiným souborem jiného jazyka.
Paralelní soubory Paralelní soubor je kombinací dvou souborů s odpovídajícím textem. Jeden soubor má zdrojový jazyk. Druhá má cílový jazyk.
Zarovnání vět Paralelní datová sada musí mít zarovnané věty s větami, které představují stejný text v obou jazycích. Například ve zdrojovém paralelním souboru by se první věta teoreticky měla mapovat na první větu v cílovém paralelním souboru.
Zarovnaný text Jedním z nejdůležitějších kroků ověření souboru je zarovnání vět v paralelních dokumentech. Věci se vyjadřují různě v různých jazycích. Různé jazyky mají také různé pořadí slov. Tento krok zarovná věty se stejným obsahem, aby je bylo možné použít pro trénování. Zarovnání nízké věty značí, že u jednoho nebo obou souborů může být něco v nepořádku.
Word lámání/ rozbití Word dělení je funkce označování hranic mezi slovy. Mnoho systémů psaní používá mezeru k označení hranice mezi slovy. Word zrušení odkazuje na odebrání jakékoli viditelné značky, která byla vložena mezi slova v předchozím kroku.
Oddělovače Oddělovače jsou způsoby, kterými je věta rozdělena na segmenty nebo oddělovat okraj mezi větami. Například v anglických mezerách oddělují slova, dvojtečky a středníky oddělovací klauzule a tečky oddělují věty.
Trénovací soubory Trénovací soubor se používá k tomu, aby se systém strojového překladu naučil mapovat z jednoho jazyka (zdrojového) na cílový (cílový). Čím více dat poskytnete, tím lépe bude systém fungovat.
Ladění souborů Tyto soubory jsou často náhodně odvozené od trénovací sady (pokud nevyberete sadu ladění). Věty se automaticky vyvolí a použijí se k vyladění systému a zajištění správného fungování. Pokud chcete vytvořit model překladu pro obecné účely a vytvořit vlastní soubory ladění, ujistěte se, že se v nich nachází náhodná sada vět napříč doménami.
Testovací soubory Tyto soubory jsou často odvozené soubory, náhodně vybrané z trénovací sady (pokud nevyberete žádnou testovací sadu). Účelem těchto vět je vyhodnotit přesnost modelu překladu. Abyste měli jistotu, že systém správně překládá tyto věty, můžete vytvořit testovací sadu a nahrát ji do překladače. Tím zajistíte, že se věty použijí při vyhodnocování systému (generování skóre BLEU).
Soubor se seznamem Typ souboru, ve kterém jsou zdrojové a přeložené věty obsaženy ve stejném souboru. Podporované formáty souborů (TMX, XLIFF, XLF, ICI a XLSX)
Archivovat soubor Soubor, který obsahuje jiné soubory. Podporované formáty souborů (zip, gz, tgz).
Skóre BLEU BLEU je oborová standardní metoda pro vyhodnocení "přesnosti" nebo přesnosti modelu překladu. I když existují i jiné metody vyhodnocení, Microsoft Translator spoléhá na metodu BLEU, která vlastníkům projektů hlásí přesnost.