Sdílet prostřednictvím


Co jsou paralelní dokumenty?

Paralelní dokumenty jsou dvojice dokumentů, z nichž jeden je překladem druhého. Jeden dokument ve dvojici obsahuje věty ve zdrojovém jazyce a druhý dokument obsahuje tyto věty přeložené do cílového jazyka. Nezáleží na tom, který jazyk je označený jako zdrojový a který jako cílový – paralelní dokument lze použít k trénování překladového systému v obou směrech.

Požadavky

K trénování systému budete potřebovat minimálně 10 000 jedinečných zarovnaných paralelních vět. Toto omezení je bezpečnostní síť, která zajistí, aby paralelní věty obsahovaly dostatek jedinečných slov pro úspěšné trénování modelu překladu. Osvědčeným postupem je průběžné přidávání dalšího paralelního obsahu a opětovné trénování, aby se zlepšila kvalita systému překladu. Další informace naleznete v tématu Zarovnání věty.

Microsoft vyžaduje, aby dokumenty nahrané do služby Custom Translator neporušovaly autorská práva nebo duševní vlastnosti třetí strany. Další informace najdete v podmínkách použití. Nahrání dokumentu pomocí portálu nemění vlastnictví duševního vlastnictví v samotném dokumentu.

Použití paralelních dokumentů

Paralelní dokumenty používají systém:

  1. Pokud chcete zjistit, jak se slova, fráze a věty běžně mapují mezi těmito dvěma jazyky.

  2. Pokud chcete zjistit, jak zpracovat příslušný kontext v závislosti na okolních frázích. Slovo se nemusí vždy překládat na úplně stejné slovo v jiném jazyce.

Osvědčeným postupem je zajistit, aby mezi zdrojovými a cílovými jazykovými verzemi dokumentů byla korespondence ve větě 1:1.

Pokud je váš projekt specifický pro doménu (kategorii), měly by být vaše dokumenty v terminologii v rámci této kategorie konzistentní. Kvalita výsledného systému překladu závisí na počtu vět v sadě dokumentů a kvalitě vět. Čím více příkladů dokumenty obsahují různá použití slova specifického pro vaši kategorii, tím lépe může systém během překladu provádět.

Nahrané dokumenty jsou pro každý pracovní prostor soukromé a dají se použít v libovolném počtu projektů nebo školení. Věty extrahované z vašich dokumentů se ukládají samostatně v úložišti jako textové soubory ve formátu prostého kódu Unicode a můžete je odstranit. Nepoužívejte vlastní překladač jako úložiště dokumentů, nebudete si moct stáhnout dokumenty nahrané ve formátu, který jste nahráli.

Další kroky