Terminy klucza niestandardowego tłumaczenia w usłudze Azure AI Foundry

2025-05-20

W poniższej tabeli przedstawiono listę kluczowych terminów, które można znaleźć podczas pracy z tłumaczeniem niestandardowym w narzędziu Azure AI Foundry.

Wyraz lub fraza	Definicja
Język źródłowy	Język źródłowy to język początkowy, który ma zostać przekonwertowany na inny język (element docelowy).
Język docelowy	Język docelowy to język, który ma być zapewniany przez tłumaczenie maszynowe po odebraniu języka źródłowego.
Monolingual file (Monolingual file)	Jednojęzyczny plik ma jeden język, który nie jest sparowany z innym plikiem innego języka.
Pliki równoległe	Plik równoległy jest kombinacją dwóch plików z odpowiednim tekstem. Jeden plik ma język źródłowy. Drugi ma język docelowy.
Wyrównanie zdań	Zestaw danych równoległych musi wyrównywać zdania do zdań reprezentujących ten sam tekst w obu językach. Na przykład w źródłowym pliku równoległym pierwsze zdanie powinno, teoretycznie, zamapować na pierwsze zdanie w docelowym pliku równoległym.
Wyrównany tekst	Jednym z najważniejszych kroków weryfikacji pliku jest wyrównanie zdań w dokumentach równoległych. Elementy są wyrażane inaczej w różnych językach. Ponadto różne języki mają różne kolejność wyrazów. Ten krok wykonuje zadanie wyrównywania zdań z tą samą zawartością, aby można było ich używać do trenowania. Wyrównanie małego zdania wskazuje, że może wystąpić problem z jednym lub obydwoma plikami.
Niezgodność wyrazów/ Rozłączanie	Podział wyrazów to funkcja oznaczania granic między wyrazami. Wiele systemów pisania używa przestrzeni, aby określić granicę między wyrazami. Usuwanie wyrazów oznacza usunięcie dowolnego widocznego znacznika, który może zostać wstawiony między wyrazami w poprzednim kroku.
Ograniczniki	Ograniczniki to sposoby dzielenia zdania na segmenty lub ograniczniki marginesu między zdaniami. Na przykład w angielskich spacjach ograniczniki wyrazów, dwukropków i średników ograniczników oraz ograniczników kropek.
Pliki szkoleniowe	Plik szkoleniowy służy do uczenia systemu tłumaczenia maszynowego, jak mapować z jednego języka (źródła) na język docelowy (docelowy). Tym więcej danych zapewniasz, tym lepiej działa system.
Dostrajanie plików	Te pliki są często losowo pochodzące z zestawu treningowego (jeśli nie wybierzesz zestawu dostrajania). Zdania są wybierane automatycznie i używane do dostrajania systemu i zapewniają prawidłowe działanie. Jeśli chcesz utworzyć model tłumaczenia ogólnego przeznaczenia i utworzyć własne pliki dostrajania, upewnij się, że są to losowy zestaw zdań między domenami
Testowanie plików	Te pliki są często plikami pochodnymi, losowo wybieranymi z zestawu treningowego (jeśli nie wybierzesz żadnego zestawu testów). Celem tych zdań jest ocena dokładności modelu tłumaczenia. Aby upewnić się, że system dokładnie tłumaczy te zdania, możesz utworzyć zestaw testowy i przekazać go do tłumacza. Dzięki temu zdania są używane w ocenie systemu (generowanie `BLEU` wyniku).
Plik kombi	Typ pliku, w którym źródłowe i przetłumaczone zdania znajdują się w tym samym pliku. Obsługiwane formaty plików (`TMX`, `XLIFF`, , `XLFICI`i `XLSX`).
Plik archiwum	Plik zawierający inne pliki. Obsługiwane formaty plików (zip, gz, tgz).
`BLEU` Wynik	`BLEU` jest standardową metodą oceny "precyzji" lub dokładności modelu tłumaczenia. Chociaż istnieją inne metody oceny, usługa Microsoft Translator opiera się `BLEU` na metodzie raportowania dokładności do właścicieli projektów.