Custom Translator pro začátečníky

Článek
09/01/2024

Custom Translator umožňuje vytvořit systém překladu, který odráží terminologii a styl specifický pro vaši firmu, odvětví a doménu. Trénování a nasazování vlastního systému je snadné a nevyžaduje žádné programovací dovednosti. Přizpůsobený systém překladu se bezproblémově integruje do stávajících aplikací, pracovních postupů a webů a je k dispozici v Azure prostřednictvím stejné cloudové služby Microsoft Text Translation API , která každý den využívá miliardy překladů.

Platforma umožňuje uživatelům vytvářet a publikovat vlastní systémy překladu do a z angličtiny. Custom Translator podporuje více než 60 jazyků, které se mapuje přímo na jazyky dostupné pro neuronový strojový překlad (NMT). Úplný seznam najdete v tématu Podpora jazyka Translator.

Je vlastní model překladu pro mě správnou volbou?

Dobře vytrénovaný vlastní překlad poskytuje přesnější překlady specifické pro doménu, protože spoléhá na dříve přeložené dokumenty v doméně a učí se upřednostňované překlady. Translator používá tyto termíny a fráze v kontextu k vytváření plynulých překladů v cílovém jazyce při zachování gramatiky závislé na kontextu.

Trénování úplného vlastního modelu překladu vyžaduje značné množství dat. Pokud nemáte alespoň 10 000 vět dříve natrénovaných dokumentů, nemůžete trénovat model překladu v celém jazyce. Můžete ale buď vytrénovat model jen pro slovník, nebo použít vysoce kvalitní překlady, které jsou k dispozici v rozhraní API pro překlad textu.

Snímek obrazovky znázorňující rozdíl mezi vlastními a obecnými modely

Co zahrnuje trénování vlastního modelu překladu?

Vytvoření vlastního modelu překladu vyžaduje:

Vysvětlení případu použití
Získání přeložených dat v doméně (nejlépe přeložené člověkem)
Posouzení kvality překladu nebo překladu cílového jazyka

Návody vyhodnotit můj případ použití?

Když budete mít přehled o vašem případu použití a o tom, jak vypadá úspěch, je prvním krokem při získávání zkušených trénovacích dat. Tady je několik aspektů:

Je zadaný požadovaný výsledek a jak se měří?
Identifikuje se vaše obchodní doména?
Máte v doménových větách podobnou terminologii a styl?
Zahrnuje váš případ použití více domén? Pokud ano, měli byste vytvořit jeden systém překladu nebo více systémů?
Máte požadavky, které mají vliv na rezidenci místních dat v klidovém stavu a při přenosu?
Jsou cíloví uživatelé v jedné nebo více oblastech?

Jak mám zdroj dat?

Hledání dat kvality v doméně je často náročný úkol, který se liší podle klasifikace uživatelů. Tady je několik otázek, které se můžete zeptat sami sebe, když vyhodnotíte, jaká data vám můžou být k dispozici:

Má vaše společnost k dispozici předchozí data překladu, která můžete použít? Podniky často mají velké množství dat překladu, které se hromadí v průběhu mnoha let používání lidského překladu.
Máte obrovské množství monolinguálních dat? Monolinguální data jsou data pouze v jednom jazyce. Pokud ano, můžete získat překlady těchto dat?
Můžete procházet online portály a shromažďovat zdrojové věty a syntetizovat cílové věty?

Co mám použít k trénovacímu materiálu?

Zdroj	Jak funguje	Pravidla, která se mají dodržovat
Dvojjazyčné školicí dokumenty	Naučí systém terminologii a styl.	Buďte svobodní. Jakýkoli překlad člověka v doméně je lepší než strojový překlad. Při přidávání a odebírání dokumentů a pokuste se zlepšit skóre BLEU.
Ladění dokumentů	Trénuje parametry neurálního strojového překladu.	Buďte striktní. Napište je tak, aby optimálně reprezentovaly to, co budete v budoucnu překládat.
Testování dokumentů	Výpočet skóre BLEU	Buďte striktní. Vytvořte testovací dokumenty, které budou optimálně reprezentovat to, co plánujete v budoucnu přeložit.
Slovník frází	Vynutí daný překlad 100 % času.	Buďte omezující. Slovník frází se rozlišují malá a velká písmena a každé slovo nebo fráze uvedené se přeloží tak, jak zadáte. V mnoha případech je lepší nepoužívat slovník frází a nechat systém učit se.
Slovník vět	Vynutí daný překlad 100 % času.	Buďte striktní. Slovník vět je nerozlišující velká a malá písmena a je vhodný pro běžné v krátkých větách domény. Aby došlo ke shodě slovníku vět, musí celá odeslaná věta odpovídat položce zdrojového slovníku. Pokud se shoduje jenom část věty, položka se neshoduje.

Co je skóre BLEU?

BLEU (Bilingual Evaluation Understudy) je algoritmus pro vyhodnocení přesnosti nebo přesnosti textu, který je strojově přeložen z jednoho jazyka do druhého. Custom Translator používá metriku BLEU jako jeden ze způsobů vyjádření přesnosti překladu.

Skóre BLEU je číslo mezi nulou a 100. Skóre nuly označuje nekvalitní překlad, ve kterém se žádný překlad neshodoval s odkazem. Skóre 100 označuje perfektní překlad, který je identický s odkazem. Není nutné dosáhnout skóre 100 - skóre BLEU mezi 40 a 60 označuje vysoce kvalitní překlad.

Další informace

Co se stane, když neodesílám ladicí nebo testovací data?

Optimalizace a testování vět jsou optimálně reprezentativní pro to, co plánujete v budoucnu přeložit. Pokud neodesíláte žádná ladění nebo testování dat, Služba Custom Translator automaticky vyloučí věty z trénovacích dokumentů, které se použijí jako ladění a testování dat.

Generováno systémem	Ruční výběr
Pohodlný.	Umožňuje jemně doladit vaše budoucí potřeby.
Dobře, pokud víte, že trénovací data představují zástupce toho, co plánujete přeložit.	Poskytuje větší volnost při vytváření trénovacích dat.
Snadné opakování při zvětšování nebo zmenšení domény.	Umožňuje více dat a lepší pokrytí domény.
Změní každé trénovací spuštění.	Zůstává statický nad opakovanými trénovacími běhy.

Jak je trénovací materiál zpracován službou Custom Translator?

Při přípravě na trénování projdou dokumenty řadou kroků zpracování a filtrování. Znalost procesu filtrování může pomoct pochopit počet zobrazených vět a také kroky, které můžete provést při přípravě trénovacích dokumentů pro trénování pomocí služby Custom Translator. Postup filtrování je následující:

Přidružení vět

Pokud dokument není v XLIFFaplikaci , , XLSXnebo TMXALIGN ve formátu, custom Translator zarovná věty zdrojového a cílového dokumentu k sobě navzájem, větami po větách. Translator neprovádí zarovnání dokumentu – řídí se vašimi konvencemi vytváření názvů, aby dokumenty našli odpovídající dokument v jiném jazyce. Ve zdrojovém textu se Custom Translator pokusí najít odpovídající větu v cílovém jazyce. K usnadnění zarovnání používá značky dokumentu, jako jsou vložené značky HTML.

Pokud se zobrazí velký rozdíl mezi počtem vět ve zdrojovém a cílovém dokumentu, nemusí být zdrojový dokument paralelní nebo se nedá zarovnat. Dokument se páruje s velkým rozdílem (>10 %) vět na každé straně zaručuje druhý pohled, aby se ujistil, že jsou skutečně paralelní.
Ladění a testování extrakce dat

Ladění a testování dat je volitelné. Pokud ho nezadáte, systém odebere z trénovacích dokumentů odpovídající procento, které se použije k ladění a testování. Odebrání probíhá dynamicky jako součást procesu trénování. Vzhledem k tomu, že k tomuto kroku dochází v rámci trénování, nebudou nahrané dokumenty ovlivněny. Po úspěšném trénování uvidíte konečný počet použitých vět pro každou kategorii dat – trénování, ladění, testování a slovník – na stránce Podrobnosti modelu.
Filtr délky
- Odebere věty jenom s jedním slovem na obou stranách.
- Odebere věty s více než 100 slovy na obou stranách. Čínština, japonština, korejština jsou vyloučená.
- Odebere věty s méně než třemi znaky. Čínština, japonština, korejština jsou vyloučená.
- Odebere věty s více než 2 000 znaky pro čínštinu, japonštinu a korejštinu.
- Odebere věty s méně než 1% alfanumerickými znaky.
- Odebere položky slovníku obsahující více než 50 slov.
Prázdné znaky
- Nahradí libovolnou posloupnost prázdných znaků včetně tabulátorů a sekvencí CR/LF jedním znakem mezery.
- Odebere úvodní nebo koncovou mezeru ve větě.
Interpunkce konce věty
- Nahradí více interpunkčních znaků na konci věty jedinou instancí. Normalizace japonských znaků.
- Převede písmena a číslice s plnou šířkou na znaky s poloviční šířkou.
Unescaped XML tags

Transformuje neuskutečené značky na řídicí značky:

Značka Stane se

< & lt;

> & Gt;

& & zesilovač;
Neplatné znaky

Custom Translator odebere věty, které obsahují znak Unicode U+FFFD. Znakem U+FFFD se označuje neúspěšný převod kódování.

Značka	Stane se
<	& lt;
>	& Gt;
&	& zesilovač;

Jaké kroky mám provést před nahráním dat?

Odeberte věty s neplatným kódováním.
Odeberte znaky ovládacího prvku Unicode.
Zarovnejte věty (zdroj-cíl), pokud je to možné.
Odeberte zdrojové a cílové věty, které neodpovídají zdrojovému a cílovému jazyku.
Pokud mají zdrojové a cílové věty smíšené jazyky, zajistěte, aby nepřekládaná slova byla úmyslná, například názvy organizací a produktů.
Vyhněte se chybám v modelu tím, že se přesvědčíte, že gramatika a typografie jsou správné.
Namapovat jednu zdrojovou větu na jednu cílovou větu. I když náš trénovací proces zpracovává zdrojové a cílové řádky obsahující více vět, je osvědčeným postupem mapování 1:1.

Návody vyhodnotit výsledky?

Po úspěšném vytrénování modelu můžete na stránce podrobností modelu zobrazit skóre BLEU modelu a skóre BLEU základního modelu. Stejnou sadu testovacích dat používáme k vygenerování skóre BLEU modelu i skóre BLEU podle směrného plánu. Tato data vám pomůžou informovaně rozhodnout, který model bude pro váš případ použití vhodnější.

Další kroky

Vyzkoušejte náš rychlý start

Sdílet prostřednictvím

Custom Translator pro začátečníky

Je vlastní model překladu pro mě správnou volbou?

Co zahrnuje trénování vlastního modelu překladu?

Návody vyhodnotit můj případ použití?

Jak mám zdroj dat?

Co mám použít k trénovacímu materiálu?

Co je skóre BLEU?

Co se stane, když neodesílám ladicí nebo testovací data?

Jak je trénovací materiál zpracován službou Custom Translator?

Přidružení vět

Ladění a testování extrakce dat

Filtr délky

Prázdné znaky

Interpunkce konce věty

Unescaped XML tags

Neplatné znaky

Jaké kroky mám provést před nahráním dat?

Návody vyhodnotit výsledky?

Další kroky

Váš názor

Další materiály