Terminy klucza niestandardowego usługi Translator

W poniższej tabeli przedstawiono listę kluczowych terminów, które można znaleźć podczas pracy z usługą Custom Translator.

Word lub fraza Definicja
Język źródłowy Język źródłowy to język początkowy, który chcesz przekonwertować na inny język (element docelowy).
Język docelowy Język docelowy to język, który ma zostać określony przez tłumaczenie maszynowe po odebraniu języka źródłowego.
Monolingual File Jednojęzyczny plik ma jeden język, który nie jest sparowany z innym plikiem innego języka.
Pliki równoległe Plik równoległy jest kombinacją dwóch plików z odpowiednim tekstem. Jeden plik ma język źródłowy. Drugi ma język docelowy.
Wyrównanie zdań Równoległy zestaw danych musi mieć wyrównane zdania do zdań, które reprezentują ten sam tekst w obu językach. Na przykład w źródłowym pliku równoległym pierwsze zdanie powinno w teorii mapować na pierwsze zdanie w docelowym pliku równoległym.
Wyrównany tekst Jednym z najważniejszych kroków weryfikacji pliku jest wyrównanie zdań w dokumentach równoległych. Elementy są wyrażane inaczej w różnych językach. Ponadto różne języki mają różne kolejność wyrazów. Ten krok wykonuje zadanie wyrównywania zdań z tą samą zawartością, aby można było ich używać do trenowania. Wyrównanie niskich zdań wskazuje, że może wystąpić problem z jednym lub obydwoma plikami.
Word breaking/ Unbreaking Word łamanie to funkcja oznaczania granic między wyrazami. Wiele systemów pisania używa przestrzeni, aby określić granicę między wyrazami. Word odwołuje się do usunięcia dowolnego widocznego znacznika, który mógł zostać wstawiony między wyrazami w poprzednim kroku.
Ograniczniki Ograniczniki to sposoby dzielenia zdania na segmenty lub rozdzielanie marginesu między zdania. Na przykład w angielskich spacjach rozdzielaj wyrazy, dwukropki i średniki ograniczników oraz zdania ograniczników kropek.
Pliki szkoleniowe Plik szkoleniowy służy do uczenia systemu tłumaczenia maszynowego, jak mapować z jednego języka (źródła) na język docelowy (docelowy). Tym więcej danych zapewniasz, tym lepiej będzie działać system.
Dostrajanie plików Te pliki są często losowo uzyskiwane z zestawu treningowego (jeśli nie wybierzesz zestawu dostrajania). Zdania są wybierane automatycznie i używane do dostrajania systemu i zapewniają prawidłowe działanie. Jeśli chcesz utworzyć model tłumaczenia ogólnego przeznaczenia i utworzyć własne pliki dostrajania, upewnij się, że są to losowy zestaw zdań między domenami
Testowanie plików Te pliki są często plikami pochodnymi, losowo wybierane z zestawu treningowego (jeśli nie wybierzesz żadnego zestawu testów). Celem tych zdań jest ocena dokładności modelu tłumaczenia. Aby upewnić się, że system dokładnie tłumaczy te zdania, możesz utworzyć zestaw testowy i przekazać go do tłumacza. Dzięki temu zdania będą używane w ocenie systemu (generowanie wyniku BLEU).
Plik kombi Typ pliku, w którym źródłowe i przetłumaczone zdania znajdują się w tym samym pliku. Obsługiwane formaty plików (TMX, XLIFF, XLF, ICI i XLSX).
Plik archiwum Plik zawierający inne pliki. Obsługiwane formaty plików (zip, gz, tgz).
Wynik BLEU BLEU jest standardową metodą oceny "precyzji" lub dokładności modelu tłumaczenia. Chociaż istnieją inne metody oceny, usługa Microsoft Translator opiera się na metodzie BLEU w celu zgłaszania dokładności właścicielom projektów.