Udostępnij za pośrednictwem


Co to są dokumenty równoległe?

Dokumenty równoległe to pary dokumentów, w których jeden jest tłumaczeniem drugiego. Jeden dokument w parze zawiera zdania w języku źródłowym, a drugi dokument zawiera te zdania przetłumaczone na język docelowy. Nie ma znaczenia, który język jest oznaczony jako „źródłowy”, a który język jest oznaczony jako „docelowy” — dokument równoległy może służyć do trenowania systemu tłumaczeniowego w obu kierunkach.

Wymagania

Do trenowania systemu potrzebne będzie co najmniej 10 000 unikatowych wyrównujących równoległych zdań. To ograniczenie jest siecią bezpieczeństwa, aby zapewnić, że zdania równoległe zawierają wystarczająco dużo unikatowego słownictwa, aby pomyślnie wytrenować model tłumaczenia. Najlepszym rozwiązaniem jest ciągłe dodawanie bardziej równoległej zawartości i ponowne trenowanie w celu poprawy jakości systemu tłumaczenia. Aby uzyskać więcej informacji, zobaczWyrównanie zdań.

Firma Microsoft wymaga, aby dokumenty przekazane do usługi Custom Translator nie naruszały praw autorskich ani własności intelektualnej innych firm. Aby uzyskać więcej informacji, zobacz Warunki użytkowania. Przekazywanie dokumentu przy użyciu portalu nie zmienia własności własności intelektualnej w samym dokumencie.

Korzystanie z dokumentów równoległych

Dokumenty równoległe są używane przez system:

  1. Aby dowiedzieć się, jak wyrazy, frazy i zdania są często mapowane między dwoma językami.

  2. Aby dowiedzieć się, jak przetwarzać odpowiedni kontekst w zależności od otaczających fraz. Słowo może nie zawsze tłumaczyć się na dokładnie to samo słowo w innym języku.

Najlepszym rozwiązaniem jest upewnienie się, że istnieje korespondencja 1:1 zdań między wersjami źródłowymi i docelowymi dokumentów.

Jeśli projekt jest specyficzny dla domeny (kategorii), dokumenty powinny być spójne w terminologii w tej kategorii. Jakość wynikowego systemu tłumaczenia zależy od liczby zdań w zestawie dokumentów i jakości zdań. Więcej przykładów, które dokumenty zawierają o różnych zastosowaniach dla wyrazu specyficznego dla danej kategorii, tym lepsze zadanie, jakie system może wykonać podczas tłumaczenia.

Przekazane dokumenty są prywatne do każdego obszaru roboczego i mogą być używane w dowolnie wielu projektach lub szkoleniach. Zdania wyodrębnione z dokumentów są przechowywane oddzielnie w repozytorium jako zwykłe pliki tekstowe Unicode i są dostępne do usunięcia. Nie używaj usługi Custom Translator jako repozytorium dokumentów. Nie będzie można pobrać przekazanych dokumentów w formacie, który został przekazany.

Następne kroki