Vytváření a správa trénovacích dokumentů

Custom Translator umožňuje vytvářet modely překladu, které odpovídají terminologii a stylu vaší firmy, odvětví a domény. Trénování a nasazení vlastního modelu je snadné a nevyžaduje žádné programovací dovednosti. Custom Translator umožňuje nahrávat paralelní soubory, soubory paměti překladu nebo soubory ZIP.

Paralelní dokumenty jsou dvojice dokumentů, kde jeden (cíl) je překlad druhého (zdroj). Jeden dokument ve dvojici obsahuje věty ve zdrojovém jazyce a druhý dokument obsahuje věty přeložené do cílového jazyka.

Před nahráním dokumentů si projděte pokyny týkající se formátů dokumentů a zásad vytváření názvů a ujistěte se, že custom Translator podporuje váš formát souborů.

Jak vytvořit sady dokumentů

Hledání dat kvality v doméně je často náročný úkol, který se liší v závislosti na klasifikaci uživatelů. Tady je několik otázek, které si můžete položit, když budete vyhodnocovat, jaká data můžete mít k dispozici:

  • Podniky často mají velké množství dat o překladu, která se nashromáždila během mnoha let používání překladu člověkem. Má vaše společnost k dispozici předchozí data o překladu, která můžete použít?

  • Máte obrovské množství jednojazyčných dat? Monolingvální data jsou data pouze v jednom jazyce. Pokud ano, můžete pro tato data získat překlady?

  • Můžete procházet online portály a shromažďovat zdrojové věty a syntetizovat cílové věty?

Školicí materiály pro jednotlivé typy dokumentů

Zdroj Co dělá Pravidla, která se mají dodržovat
Dokumenty ke dvojjazyčné školení Naučí systém vaší terminologii a stylu. Buďte liberaličtí. Jakýkoli překlad člověkem v doméně je lepší než strojový překlad. Průběžné přidávání a odebírání dokumentů a pokuste se zlepšit skóre BLEU.
Ladění dokumentů Trénuje parametry neurálního strojového překladu. Buďte přísní. Vytvořte je tak, aby optimálně reprezentovaly to, co budete v budoucnu překládat.
Testování dokumentů Vypočítejte skóre BLEU. Buďte přísní. Vytvořte testovací dokumenty, které budou optimálně reprezentovat to, co plánujete přeložit v budoucnu.
Slovník frází Vynutí daný překlad 100 % času. Buďte omezující. Slovník frází rozlišuje velká a malá písmena a všechna uvedená slova nebo fráze se překládají způsobem, který určíte. V mnoha případech je lepší slovník frází nepoužívat a nechat systém učit se.
Slovník vět Vynutí daný překlad 100 % času. Buďte přísní. Slovník vět nerozlišuje malá a velká písmena a je vhodný pro běžné krátké věty domény. Aby došlo ke shodě slovníku vět, musí celá odeslaná věta odpovídat položce zdrojového slovníku. Pokud se shoduje jenom část věty, položka se neshoduje.

Jak nahrát dokumenty

Typy dokumentů jsou přidruženy k jazykové dvojici vybrané při vytváření projektu.

  1. Přihlaste se k portálu Custom Translator . Načte se výchozí pracovní prostor a zobrazí se seznam dříve vytvořených projektů.

  2. Vyberte název požadovaného projektu. Ve výchozím nastavení je vybrané okno Spravovat dokumenty a zobrazí se seznam dříve nahraných dokumentů.

  3. Vyberte Přidat sadu dokumentů a zvolte typ dokumentu:

    • Trénovací sada
    • Testovací sada
    • Sada ladění
    • Sada slovníku:
      • Slovník frází
      • Slovník vět
  4. Vyberte Další.

    Snímek obrazovky znázorňující odkaz na nahrání dokumentu

    Poznámka

    Výběrem možnosti Sada slovníků se otevře dialogové okno Zvolit typ slovníku . Zvolte jednu z nich a vyberte Další.

  5. Pomocí přepínačů vyberte formát dokumentů.

    Snímek obrazovky znázorňující stránku nahrání dokumentu

    • V části Paralelní dokumenty vyplňte Document set name a vyberte Procházet soubory a vyberte zdrojový a cílový dokument.
    • V případě souboru TM (Translation Memory) nebo Upload multiple sets with ZIP (Upload multiple sets with ZIP) vyberte Browse files (Procházet soubory ) a vyberte soubor.
  6. Vyberte Nahrát.

V tomto okamžiku Custom Translator zpracovává vaše dokumenty a pokouší se extrahovat věty, jak je uvedeno v oznámení o nahrání. Po dokončení zpracování se zobrazí oznámení o úspěšném nahrání.

Snímek obrazovky znázorňující dialogové okno pro zpracování dokumentu pro nahrání

Zobrazení historie nahrávání

Na stránce pracovního prostoru můžete zobrazit historii všech podrobností o nahrání dokumentu, jako je typ dokumentu, jazykový pár, stav nahrávání atd.

  1. Na stránce pracovního prostoru portálu Custom Translator klikněte na kartu Nahrát historii a zobrazte historii.

    Snímek obrazovky s kartou Historie nahrávání

  2. Tato stránka zobrazuje stav všech vašich minulých nahrání. Zobrazuje nahrání od nejnovějšího po nejméně nejnovější. U každého nahrání se zobrazí název dokumentu, stav odeslání, datum nahrání, počet nahraných souborů, typ nahraného souboru, jazyková dvojice souboru a autor. Pomocí filtru můžete rychle najít dokumenty podle názvu, stavu, jazyka a rozsahu dat.

    Snímek obrazovky se stránkou historie nahrávání

  3. Vyberte libovolný záznam historie nahrávání. Na stránce s podrobnostmi historie nahrávání můžete zobrazit soubory nahrané jako součást nahrávání, stav nahrání souboru, jazyk souboru a chybovou zprávu (pokud při nahrávání dojde k chybě).

Další kroky