Custom Translator pro začátečníky
Custom Translator umožňuje vytvořit systém překladu, který odráží terminologii a styl specifický pro vaši firmu, odvětví a doménu. Trénování a nasazování vlastního systému je snadné a nevyžaduje žádné programovací dovednosti. Přizpůsobený systém překladu se bezproblémově integruje do stávajících aplikací, pracovních postupů a webů a je k dispozici v Azure prostřednictvím stejné cloudové služby Microsoft Text Translation API , která každý den využívá miliardy překladů.
Platforma umožňuje uživatelům vytvářet a publikovat vlastní systémy překladu do a z angličtiny. Custom Translator podporuje více než 60 jazyků, které se mapuje přímo na jazyky dostupné pro neuronový strojový překlad (NMT). Úplný seznam najdete v tématu Podpora jazyka Translator.
Je vlastní model překladu pro mě správnou volbou?
Dobře vytrénovaný vlastní překlad poskytuje přesnější překlady specifické pro doménu, protože spoléhá na dříve přeložené dokumenty v doméně a učí se upřednostňované překlady. Translator používá tyto termíny a fráze v kontextu k vytváření plynulých překladů v cílovém jazyce při zachování gramatiky závislé na kontextu.
Trénování úplného vlastního modelu překladu vyžaduje značné množství dat. Pokud nemáte alespoň 10 000 vět dříve natrénovaných dokumentů, nemůžete trénovat model překladu v celém jazyce. Můžete ale buď vytrénovat model jen pro slovník, nebo použít vysoce kvalitní překlady, které jsou k dispozici v rozhraní API pro překlad textu.
Co zahrnuje trénování vlastního modelu překladu?
Vytvoření vlastního modelu překladu vyžaduje:
Vysvětlení případu použití
Získání přeložených dat v doméně (nejlépe přeložené člověkem)
Posouzení kvality překladu nebo překladu cílového jazyka
Návody vyhodnotit můj případ použití?
Když budete mít přehled o vašem případu použití a o tom, jak vypadá úspěch, je prvním krokem při získávání zkušených trénovacích dat. Tady je několik aspektů:
Je zadaný požadovaný výsledek a jak se měří?
Identifikuje se vaše obchodní doména?
Máte v doménových větách podobnou terminologii a styl?
Zahrnuje váš případ použití více domén? Pokud ano, měli byste vytvořit jeden systém překladu nebo více systémů?
Máte požadavky, které mají vliv na rezidenci místních dat v klidovém stavu a při přenosu?
Jsou cíloví uživatelé v jedné nebo více oblastech?
Jak mám zdroj dat?
Hledání dat kvality v doméně je často náročný úkol, který se liší podle klasifikace uživatelů. Tady je několik otázek, které se můžete zeptat sami sebe, když vyhodnotíte, jaká data vám můžou být k dispozici:
Má vaše společnost k dispozici předchozí data překladu, která můžete použít? Podniky často mají velké množství dat překladu, které se hromadí v průběhu mnoha let používání lidského překladu.
Máte obrovské množství monolinguálních dat? Monolinguální data jsou data pouze v jednom jazyce. Pokud ano, můžete získat překlady těchto dat?
Můžete procházet online portály a shromažďovat zdrojové věty a syntetizovat cílové věty?
Co mám použít k trénovacímu materiálu?
Zdroj | Jak funguje | Pravidla, která se mají dodržovat |
---|---|---|
Dvojjazyčné školicí dokumenty | Naučí systém terminologii a styl. | Buďte svobodní. Jakýkoli překlad člověka v doméně je lepší než strojový překlad. Při přidávání a odebírání dokumentů a pokuste se zlepšit skóre BLEU. |
Ladění dokumentů | Trénuje parametry neurálního strojového překladu. | Buďte striktní. Napište je tak, aby optimálně reprezentovaly to, co budete v budoucnu překládat. |
Testování dokumentů | Výpočet skóre BLEU | Buďte striktní. Vytvořte testovací dokumenty, které budou optimálně reprezentovat to, co plánujete v budoucnu přeložit. |
Slovník frází | Vynutí daný překlad 100 % času. | Buďte omezující. Slovník frází se rozlišují malá a velká písmena a každé slovo nebo fráze uvedené se přeloží tak, jak zadáte. V mnoha případech je lepší nepoužívat slovník frází a nechat systém učit se. |
Slovník vět | Vynutí daný překlad 100 % času. | Buďte striktní. Slovník vět je nerozlišující velká a malá písmena a je vhodný pro běžné v krátkých větách domény. Aby došlo ke shodě slovníku vět, musí celá odeslaná věta odpovídat položce zdrojového slovníku. Pokud se shoduje jenom část věty, položka se neshoduje. |
Co je skóre BLEU?
BLEU (Bilingual Evaluation Understudy) je algoritmus pro vyhodnocení přesnosti nebo přesnosti textu, který je strojově přeložen z jednoho jazyka do druhého. Custom Translator používá metriku BLEU jako jeden ze způsobů vyjádření přesnosti překladu.
Skóre BLEU je číslo mezi nulou a 100. Skóre nuly označuje nekvalitní překlad, ve kterém se žádný překlad neshodoval s odkazem. Skóre 100 označuje perfektní překlad, který je identický s odkazem. Není nutné dosáhnout skóre 100 - skóre BLEU mezi 40 a 60 označuje vysoce kvalitní překlad.
Co se stane, když neodesílám ladicí nebo testovací data?
Optimalizace a testování vět jsou optimálně reprezentativní pro to, co plánujete v budoucnu přeložit. Pokud neodesíláte žádná ladění nebo testování dat, Služba Custom Translator automaticky vyloučí věty z trénovacích dokumentů, které se použijí jako ladění a testování dat.
Generováno systémem | Ruční výběr |
---|---|
Pohodlný. | Umožňuje jemně doladit vaše budoucí potřeby. |
Dobře, pokud víte, že trénovací data představují zástupce toho, co plánujete přeložit. | Poskytuje větší volnost při vytváření trénovacích dat. |
Snadné opakování při zvětšování nebo zmenšení domény. | Umožňuje více dat a lepší pokrytí domény. |
Změní každé trénovací spuštění. | Zůstává statický nad opakovanými trénovacími běhy. |
Jak je trénovací materiál zpracován službou Custom Translator?
Při přípravě na trénování projdou dokumenty řadou kroků zpracování a filtrování. Znalost procesu filtrování může pomoct pochopit počet zobrazených vět a také kroky, které můžete provést při přípravě trénovacích dokumentů pro trénování pomocí služby Custom Translator. Postup filtrování je následující:
Přidružení vět
Pokud dokument není v
XLIFF
aplikaci , ,XLSX
neboTMX
ALIGN
ve formátu, custom Translator zarovná věty zdrojového a cílového dokumentu k sobě navzájem, větami po větách. Translator neprovádí zarovnání dokumentu – řídí se vašimi konvencemi vytváření názvů, aby dokumenty našli odpovídající dokument v jiném jazyce. Ve zdrojovém textu se Custom Translator pokusí najít odpovídající větu v cílovém jazyce. K usnadnění zarovnání používá značky dokumentu, jako jsou vložené značky HTML.Pokud se zobrazí velký rozdíl mezi počtem vět ve zdrojovém a cílovém dokumentu, nemusí být zdrojový dokument paralelní nebo se nedá zarovnat. Dokument se páruje s velkým rozdílem (>10 %) vět na každé straně zaručuje druhý pohled, aby se ujistil, že jsou skutečně paralelní.
Ladění a testování extrakce dat
Ladění a testování dat je volitelné. Pokud ho nezadáte, systém odebere z trénovacích dokumentů odpovídající procento, které se použije k ladění a testování. Odebrání probíhá dynamicky jako součást procesu trénování. Vzhledem k tomu, že k tomuto kroku dochází v rámci trénování, nebudou nahrané dokumenty ovlivněny. Po úspěšném trénování uvidíte konečný počet použitých vět pro každou kategorii dat – trénování, ladění, testování a slovník – na stránce Podrobnosti modelu.
Filtr délky
- Odebere věty jenom s jedním slovem na obou stranách.
- Odebere věty s více než 100 slovy na obou stranách. Čínština, japonština, korejština jsou vyloučená.
- Odebere věty s méně než třemi znaky. Čínština, japonština, korejština jsou vyloučená.
- Odebere věty s více než 2 000 znaky pro čínštinu, japonštinu a korejštinu.
- Odebere věty s méně než 1% alfanumerickými znaky.
- Odebere položky slovníku obsahující více než 50 slov.
Prázdné znaky
- Nahradí libovolnou posloupnost prázdných znaků včetně tabulátorů a sekvencí CR/LF jedním znakem mezery.
- Odebere úvodní nebo koncovou mezeru ve větě.
Interpunkce konce věty
Nahradí více interpunkčních znaků na konci věty jedinou instancí. Normalizace japonských znaků.
Převede písmena a číslice s plnou šířkou na znaky s poloviční šířkou.
Unescaped XML tags
Transformuje neuskutečené značky na řídicí značky:
Značka Stane se < & lt; > & Gt; & & zesilovač; Neplatné znaky
Custom Translator odebere věty, které obsahují znak Unicode U+FFFD. Znakem U+FFFD se označuje neúspěšný převod kódování.
Jaké kroky mám provést před nahráním dat?
- Odeberte věty s neplatným kódováním.
- Odeberte znaky ovládacího prvku Unicode.
- Zarovnejte věty (zdroj-cíl), pokud je to možné.
- Odeberte zdrojové a cílové věty, které neodpovídají zdrojovému a cílovému jazyku.
- Pokud mají zdrojové a cílové věty smíšené jazyky, zajistěte, aby nepřekládaná slova byla úmyslná, například názvy organizací a produktů.
- Vyhněte se chybám v modelu tím, že se přesvědčíte, že gramatika a typografie jsou správné.
- Namapovat jednu zdrojovou větu na jednu cílovou větu. I když náš trénovací proces zpracovává zdrojové a cílové řádky obsahující více vět, je osvědčeným postupem mapování 1:1.
Návody vyhodnotit výsledky?
Po úspěšném vytrénování modelu můžete na stránce podrobností modelu zobrazit skóre BLEU modelu a skóre BLEU základního modelu. Stejnou sadu testovacích dat používáme k vygenerování skóre BLEU modelu i skóre BLEU podle směrného plánu. Tato data vám pomůžou informovaně rozhodnout, který model bude pro váš případ použití vhodnější.