Sdílet prostřednictvím


Sesouladění a párování vět v paralelních dokumentech

Po nahrání dokumentů se věty, které jsou přítomné v paralelních dokumentech, spárují nebo sesouladí. Custom Translator nahlásí počet vět, které se podařilo spárovat, jako sesouladěné věty v každé z datových sad.

Proces párování a zarovnání

Custom Translator se učí překlady vět po jedné větě. Přečte větu ze zdrojového textu a potom překlad této věty z cílového textu. Potom zarovná slova a fráze v těchto dvou větách k sobě navzájem. Tento proces umožňuje vytvořit mapu slov a frází v jedné větě na ekvivalentní slova a fráze v překladu věty. Zarovnání se snaží zajistit, aby systém trénuje na větách, které jsou navzájem překlady.

Předem zarovnané dokumenty

Pokud víte, že máte paralelní dokumenty, můžete zarovnání vět přepsat zadáním předem zarovnaných textových souborů. Všechny věty z obou dokumentů můžete extrahovat do textového souboru, uspořádat jednu větu na řádek a nahrát s příponou .align . Rozšíření .align signalizuje Custom Translator, že by měl přeskočit zarovnání vět.

Abyste dosáhli nejlepších výsledků, zkuste se ujistit, že máte v souborech jednu větu na jeden řádek. Ve větě nemáte znaky nového řádku – způsobuje špatné zarovnání.

Navrhovaný minimální počet vět

Aby bylo trénování úspěšné, uvádí následující tabulka minimální počet vět požadovaných v každém typu dokumentu. Toto omezení je bezpečnostní síť, která zajistí, aby paralelní věty obsahovaly dostatek jedinečných slov pro úspěšné trénování modelu překladu. Obecné pokyny mají větší paralelnější věty kvality překladu člověka, které by měly vytvářet modely vyšší kvality.

Typ dokumentu Navrhovaný minimální počet vět Maximální počet vět
Školení 10,000 Bez horního limitu
Optimalizace 500 2 500
Testování 500 2 500
Slovník 0 250,000

Poznámka:

  • Trénování se nespustí a selže, pokud není splněn minimální počet vět 10 000 pro trénování.
  • Ladění a testování jsou volitelné. Pokud je nezadáte, systém odebere příslušné procento z trénování, které se použije k ověřování a testování.
  • Model můžete vytrénovat pouze pomocí dat slovníku. Další informace najdete v tématu Co je slovník.
  • Pokud váš slovník obsahuje více než 250 000 vět, je lepší volbou naše funkce Překlad dokumentů. Projděte si překlad dokumentu.
  • Bezplatné trénování předplatného (F0) má maximální limit 2 000 000 znaků.

Další kroky