Uwaga
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
W poniższej tabeli przedstawiono listę kluczowych terminów, które można znaleźć podczas pracy z tłumaczeniem niestandardowym w narzędziu Azure AI Foundry.
Wyraz lub fraza | Definicja |
---|---|
Język źródłowy | Język źródłowy to język początkowy, który ma zostać przekonwertowany na inny język (element docelowy). |
Język docelowy | Język docelowy to język, który ma być zapewniany przez tłumaczenie maszynowe po odebraniu języka źródłowego. |
Monolingual file (Monolingual file) | Jednojęzyczny plik ma jeden język, który nie jest sparowany z innym plikiem innego języka. |
Pliki równoległe | Plik równoległy jest kombinacją dwóch plików z odpowiednim tekstem. Jeden plik ma język źródłowy. Drugi ma język docelowy. |
Wyrównanie zdań | Zestaw danych równoległych musi wyrównywać zdania do zdań reprezentujących ten sam tekst w obu językach. Na przykład w źródłowym pliku równoległym pierwsze zdanie powinno, teoretycznie, zamapować na pierwsze zdanie w docelowym pliku równoległym. |
Wyrównany tekst | Jednym z najważniejszych kroków weryfikacji pliku jest wyrównanie zdań w dokumentach równoległych. Elementy są wyrażane inaczej w różnych językach. Ponadto różne języki mają różne kolejność wyrazów. Ten krok wykonuje zadanie wyrównywania zdań z tą samą zawartością, aby można było ich używać do trenowania. Wyrównanie małego zdania wskazuje, że może wystąpić problem z jednym lub obydwoma plikami. |
Niezgodność wyrazów/ Rozłączanie | Podział wyrazów to funkcja oznaczania granic między wyrazami. Wiele systemów pisania używa przestrzeni, aby określić granicę między wyrazami. Usuwanie wyrazów oznacza usunięcie dowolnego widocznego znacznika, który może zostać wstawiony między wyrazami w poprzednim kroku. |
Ograniczniki | Ograniczniki to sposoby dzielenia zdania na segmenty lub ograniczniki marginesu między zdaniami. Na przykład w angielskich spacjach ograniczniki wyrazów, dwukropków i średników ograniczników oraz ograniczników kropek. |
Pliki szkoleniowe | Plik szkoleniowy służy do uczenia systemu tłumaczenia maszynowego, jak mapować z jednego języka (źródła) na język docelowy (docelowy). Tym więcej danych zapewniasz, tym lepiej działa system. |
Dostrajanie plików | Te pliki są często losowo pochodzące z zestawu treningowego (jeśli nie wybierzesz zestawu dostrajania). Zdania są wybierane automatycznie i używane do dostrajania systemu i zapewniają prawidłowe działanie. Jeśli chcesz utworzyć model tłumaczenia ogólnego przeznaczenia i utworzyć własne pliki dostrajania, upewnij się, że są to losowy zestaw zdań między domenami |
Testowanie plików | Te pliki są często plikami pochodnymi, losowo wybieranymi z zestawu treningowego (jeśli nie wybierzesz żadnego zestawu testów). Celem tych zdań jest ocena dokładności modelu tłumaczenia. Aby upewnić się, że system dokładnie tłumaczy te zdania, możesz utworzyć zestaw testowy i przekazać go do tłumacza. Dzięki temu zdania są używane w ocenie systemu (generowanie BLEU wyniku). |
Plik kombi | Typ pliku, w którym źródłowe i przetłumaczone zdania znajdują się w tym samym pliku. Obsługiwane formaty plików (TMX , XLIFF , , XLF ICI i XLSX ). |
Plik archiwum | Plik zawierający inne pliki. Obsługiwane formaty plików (zip, gz, tgz). |
BLEU Wynik |
BLEU jest standardową metodą oceny "precyzji" lub dokładności modelu tłumaczenia. Chociaż istnieją inne metody oceny, usługa Microsoft Translator opiera się BLEU na metodzie raportowania dokładności do właścicieli projektów. |