Satzpaarbildung und -zuordnung in parallelen Dokumenten
Nach dem Hochladen der Dokumente werden aus den Sätzen in parallelen Dokumenten Paare gebildet, bzw. die Sätze werden einander zugeordnet. Custom Translator zeigt die Anzahl von Sätzen, für die ein Paar gebildet werden konnte, als „zugeordnete Sätze“ in jedem der Datasets an.
Paarbildungs- und Zuordnungsprozess
Custom Translator lernt Übersetzungen von Sätzen Satz für Satz. Er liest einen Satz aus dem Quelltext und anschließend die Übersetzung dieses Satzes aus dem Zieltext. Danach werden Wörter und Ausdrücke in diesen beiden Sätzen einander zugeordnet. Dieser Prozess ermöglicht die Erstellung einer Zuordnung zwischen den Wörtern und Ausdrücken in einem Satz und den entsprechenden Wörtern und Ausdrücken in der Übersetzung des Satzes. Durch die Zuordnung soll sichergestellt werden, dass das System mit Sätzen trainiert wird, bei denen es sich um gegenseitige Übersetzungen handelt.
Vorab ausgerichtete Dokumente
Wenn Sie wissen, dass Sie über parallele Dokumente verfügen, können Sie die Satzausrichtung außer Kraft setzen, indem Sie vorab ausgerichtete Textdateien bereitstellen. Sie können alle Sätze aus beiden Dokumenten in eine Textdatei mit einem Satz pro Zeile extrahieren und die Datei mit der Erweiterung .align
hochladen. Die Erweiterung .align
signalisiert Custom Translator, dass die Satzzuordnung übersprungen werden soll.
Um optimale Ergebnisse zu erzielen, sollten Sie darauf achten, dass Ihre Dateien einen Satz pro Zeile enthalten. Verwenden Sie kein Zeilenvorschubzeichen in einem Satz, da dies zu Ausrichtungsfehlern führen kann.
Empfohlene Mindestanzahl von Sätzen
Die folgende Tabelle enthält die für ein erfolgreiches Training erforderliche Mindestanzahl von Sätzen, die im jeweiligen Dokumenttyp enthalten sein müssen. Durch diese Einschränkung wird sichergestellt, dass Ihre parallelen Sätze genügend eindeutiges Vokabular zum erfolgreichen Trainieren eines Übersetzungsmodells enthalten. Faustregel: Eine höhere Anzahl bereichsspezifischer paralleler Sätze von menschlichen Übersetzern führt in der Regel zu einer höheren Modellqualität.
Dokumenttyp | Empfohlene Mindestanzahl von Sätzen | Maximale Anzahl von Sätzen |
---|---|---|
Training | 10.000 | Keine Obergrenze |
Optimierung | 500 | 2\.500 |
Testen | 500 | 2\.500 |
Wörterbuch | 0 | 250.000 |
Hinweis
- Das Training wird nicht gestartet und ist nicht erfolgreich, wenn die Mindestanzahl von 10.000 Sätzen für das Training unterschritten wird.
- „Optimierung“ und „Testen“ sind optional. Ohne diese Optionen entfernt das System einen gewissen Prozentsatz aus dem Training, um ihn für die Überprüfung und zu Testzwecken zu verwenden.
- Sie können ein Modell nur mit Wörterbuchdaten trainieren. Weitere Informationen finden Sie unter Definition: Wörterbuch.
- Wenn Ihr Wörterbuch mehr als 250.000 Sätze enthält, ist unsere Dokumentübersetzung eine bessere Wahl. Weitere Informationen finden Sie unter Dokumentübersetzung.
- Das kostenlose Abonnementtraining (F0) ist auf maximal 2.000.000 Zeichen begrenzt.