Co to są szkolenia i modelowanie?

Artykuł
09/01/2024

Model to system, który zapewnia tłumaczenie dla określonej pary językowej. Wynikiem pomyślnego trenowania jest model. Aby wytrenować model, wymagane są trzy wzajemnie wykluczające się typy dokumentów: trenowanie, dostrajanie i testowanie. Można również podać typ dokumentu słownika. Aby uzyskać więcej informacji, zobacz Wyrównanie zdań.

Jeśli podczas kolejkowania szkolenia są udostępniane tylko dane szkoleniowe, usługa Custom Translator automatycznie tworzy dostrajanie i testowanie danych. Używa losowego podzestawu zdań z dokumentów szkoleniowych i wyklucza te zdania z samych danych treningowych.

Typ dokumentu szkoleniowego dla usługi Custom Translator

Dokumenty zawarte w zestawie szkoleniowym są używane przez usługę Custom Translator jako podstawę tworzenia modelu. Podczas wykonywania trenowania zdania, które znajdują się w tych dokumentach, są wyrównane (lub sparowane). Możesz wziąć udział w wolnościach w komponowaniu zestawu dokumentów szkoleniowych. Możesz uwzględnić dokumenty, które uważasz za istotność tangensalną w jednym modelu. Ponownie wyklucz je w innym, aby zobaczyć wpływ na wynik BLEU (dwujęzyczna ocena understudy). Tak długo, jak zachowasz stały zestaw dostrajania i zestaw testów, możesz eksperymentować z kompozycją zestawu treningowego. Takie podejście jest skutecznym sposobem modyfikowania jakości systemu tłumaczenia.

Możesz uruchomić wiele szkoleń w projekcie i porównać wyniki BLEU we wszystkich przebiegach trenowania. Podczas uruchamiania wielu szkoleń na potrzeby porównania upewnij się, że te same dane dostrajania/testowania są określane za każdym razem. Upewnij się również, że wyniki są sprawdzane ręcznie na karcie "Testowanie".

Dostrajanie typu dokumentu dla usługi Custom Translator

Dokumenty równoległe zawarte w tym zestawie są używane przez usługę Custom Translator w celu dostosowania systemu tłumaczenia w celu uzyskania optymalnych wyników.

Dane dostrajania są używane podczas trenowania, aby dostosować wszystkie parametry i wagi systemu tłumaczenia do optymalnych wartości. Starannie wybierz dane dostrajania: dane dostrajania powinny być reprezentatywne dla zawartości dokumentów, które zamierzasz przetłumaczyć w przyszłości. Dane dostrajania mają duży wpływ na jakość tworzonych tłumaczeń. Dostrajanie umożliwia systemowi tłumaczenia, które znajdują się najbliżej przykładów w danych dostrajania. W danych dostrajania nie potrzebujesz więcej niż 2500 zdań. Aby uzyskać optymalną jakość tłumaczenia, zalecamy ręczne wybranie zestawu dostrajania, wybierając najbardziej reprezentatywny wybór zdań.

Podczas tworzenia zestawu dostrajania wybierz zdania, które są zrozumiałą i reprezentatywną długością przyszłych zdań, które mają być tłumaczone. Wybierz zdania, które mają wyrazy i frazy, które mają być tłumaczone w przybliżonej dystrybucji oczekiwanej w przyszłych tłumaczeniach. W praktyce długość zdania od 7 do 10 wyrazów daje najlepsze wyniki. Zdania te zawierają wystarczającą ilość kontekstu, aby pokazać przegięcia i podać długość frazy, która jest znacząca, bez nadmiernej złożoności.

Dobrym opisem typu zdań do użycia w zestawie dostrajania jest prozy: rzeczywiste zdania płynne. Nie komórki tabeli, a nie wiersze, a nie listy rzeczy, nie tylko znaki interpunkcyjne, ani liczby w zdaniu — zwykły język.

Jeśli ręcznie wybierzesz dane dostrajania, nie powinny mieć żadnych z tych samych zdań co dane szkoleniowe i testowe. Dane dostrajania mają znaczący wpływ na jakość tłumaczeń — starannie wybieraj zdania.

Jeśli nie masz pewności, co wybrać dla danych dostrajania, po prostu wybierz dane szkoleniowe i pozwól usłudze Custom Translator wybrać dane dostrajania. Gdy zezwolisz usłudze Custom Translator na automatyczne wybranie danych dostrajania, używa losowego podzestawu zdań z dokumentów szkoleniowych dwujęzycznych i wyklucza te zdania z samego materiału szkoleniowego.

Testowanie zestawu danych dla usługi Custom Translator

Dokumenty równoległe zawarte w zestawie testów są używane do obliczania oceny BLEU (dwujęzycznej oceny understudy). Ten wynik wskazuje jakość systemu tłumaczenia. Ten wynik informuje o tym, jak ściśle tłumaczenia wykonywane przez system tłumaczenia wynikający z tego trenowania są zgodne z zdaniami referencyjnymi w zestawie danych testowych.

Wynik BLEU jest miarą różnicy między automatycznym tłumaczeniem a tłumaczeniem referencyjnym. Jego wartość waha się od 0 do 100. Wynik 0 wskazuje, że w tłumaczeniu nie pojawia się pojedyncze słowo odwołania. Wynik 100 wskazuje, że automatyczne tłumaczenie dokładnie odpowiada odwołaniu: to samo słowo znajduje się dokładnie w tej samej pozycji. Otrzymany wynik to średnia wyniku BLEU dla wszystkich zdań danych testowych.

Dane testowe powinny zawierać dokumenty równoległe, w których zdania języka docelowego są najbardziej pożądanymi tłumaczeniami odpowiednich zdań języka źródłowego w parze źródłowej docelowej. Możesz użyć tych samych kryteriów, które były używane do tworzenia danych dostrajania. Jednak dane testowe nie mają wpływu na jakość systemu tłumaczenia i są używane wyłącznie do generowania wyniku BLEU dla Ciebie.

Nie potrzebujesz więcej niż 2500 zdań jako danych testowych. Gdy system automatycznie wybierze zestaw testów, używa losowego podzestawu zdań z dokumentów szkoleniowych dwujęzycznych i wyklucza te zdania z samego materiału szkoleniowego.

Możesz wyświetlić niestandardowe tłumaczenia zestawu testów i porównać je z tłumaczeniami podanymi w zestawie testów, przechodząc do karty testowej w modelu.

Następne kroki

Testowanie i ocenianie modelu

Udostępnij za pośrednictwem

Co to są szkolenia i modelowanie?

Typ dokumentu szkoleniowego dla usługi Custom Translator

Dostrajanie typu dokumentu dla usługi Custom Translator

Testowanie zestawu danych dla usługi Custom Translator

Następne kroki

Opinia

Dodatkowe zasoby