Freigeben über


{ End Bracket }

Der Vormarsch der maschinellen Übersetzung

Vikram Dendi

Historiker und Futurologen sind von der Idee fasziniert, dass Menschen ohne Sprachbarrieren miteinander kommunizieren können. Science-Fiction-Koryphäen haben ihre Gedanken umgesetzt und beispielsweise den Babelfisch oder den Universalübersetzer geschaffen, während wir aus der Geschichte den legendären Rosettastein kennen, auf dem ein Text in drei Sprachen übersetzt war. In einer zunehmend flachen Welt ist es wichtiger denn je, Informationen unabhängig von der Sprache zu vermitteln.

Zur Lösung dieses Problems gab es in den letzten Jahrzehnten viele Ansätze. Die maschinelle Übersetzung (machine translation, MT) gibt es seit Jahrzehnten, aber selbst nachdem mehrere Jahre lang in die Forschung investiert wurde, hat sie sich noch nicht durchgesetzt. In den 1960er Jahren wurde ein Akronym für das geprägt, was die Forscher mit einer Übersetzung erzielen wollten: FAHQT – Fully Automatic High-Quality Translation of General Text (vollständig automatisierte, qualitativ hochwertige Übersetzung allgemeiner Texte). Dieser idealistische Ansatz erwies sich für die maschinelle Übersetzung als unrealistisch, und im Laufe der Zeit wurde ein möglicherweise treffenderes Akronym geprägt: FAUT – Fully Automatic Useful Translation (vollständig automatisierte brauchbare Übersetzung). Das Ziel war, nicht mit einem menschlichen Übersetzer zu konkurrieren, sondern ein System zu erstellen, das hinreichend genau ist, um Echtzeitübersetzungen zu bieten, die für den durchschnittlichen Benutzer von Nutzen sind.

Bei Microsoft arbeiten Forscher seit mehr als zehn Jahren auf dieses Ziel hin. Der Ansatz, den die Forscher hier anwenden, verbindet regelbasierte Logik mit statistischen Methoden, wobei ein hybrides, statistisches Syntaxsystem erstellt wird. Für Sprachpaare (Original und übersetzter Text), bei denen wir beträchtliche linguistische Informationen nutzen können, verwenden wir Grammatik- und Syntaxkenntnisse bei der Vor- und Nachverarbeitung um ein statistisches Kernmodul herum. Wo nicht so viele Informationen zur Verfügung stehen, greifen wir auf ein rein statistisches Modell zurück, das sich gut auf eine große Anzahl von Sprachpaaren skalieren lässt.

Die von uns entwickelte maschinelle Übersetzungstechnologie hat sich bei Microsoft bereits als sehr wertvoll erwiesen und wurde seit 2003 zum Übersetzen von fast 140.000 Knowledge Base-Artikel in neun wichtige Sprachen verwendet. Viele andere Teams innerhalb des Unternehmens haben die Technologie verwendet, um Kosten zu senken und den Anwendungsbereich für ihre Lokalisierungsbemühungen zu verbessern. Im Jahr 2005 wurde das MT-Team gebeten, seinen Arbeitsbereich auszudehnen, und seitdem haben wir uns darauf konzentriert, die Verwendung dieser Technologie außerhalb des Unternehmens zu erweitern. Unser Übersetzungswebdienst für allgemeine Themen wurde durch die Suchfunktion (er bietet Übersetzungsfunktionalität für Suchergebnisse), Microsoft Office (es werden Übersetzungen von Ausschnitten und Dokumenten bereitgestellt), Windows Live Messenger (als Übersetzungsbot) und andere verfügbar gemacht (siehe microsofttranslator.com).

Die Bemühungen, Übersetzungsdienste für allgemeine Themen für das Web bereitzustellen, nehmen immer mehr zu. Der wahre Wert der maschinellen Übersetzung liegt nicht nur in der vom Übersetzungsmodul gelieferten Qualität, sondern auch darin, wie diese Übersetzungen innerhalb von Szenarios bereitgestellt werden, und in den Mitteln, mit denen Qualitätsprobleme behandelt werden. Im Unterschied zur Suche, zu Nachrichten, zu Unterhaltung oder zu Spielen wird der wahrgenommene Wert der Übersetzung aufgrund historischer Inkonsistenz bei der Übersetzungsqualität eingeschränkt. Produkthersteller müssen verstehen, wie das Potenzial der maschinellen Übersetzung maximiert werden kann.

Im Unterschied zu heute, wo die meisten Übersetzungsangebote Portale und Übersetzungswebsites sind, besteht der größte Wert der maschinellen Übersetzung darin, ein grundlegender und wesentlicher Bestandteil für Szenarios zu sein, die auf eine linguistisch heterogene Zielgruppe abzielen. Wir glauben, dass es wichtig ist, Entwicklern, Communitys und Inhaltserstellern die Mittel bereitzustellen, mit denen sie die Übersetzung in ihre Workflows integrieren und als Mittel verwenden können, um die Leistungskraft der Community zu nutzen.

Das MSDN Translation Wiki ist ein gutes Beispiel dafür, wie diese Grundsätze in der Praxis aussehen. Es wird der Community ermöglicht, die Qualität der Übersetzung zu verbessern und zudem neuen Inhalt hinzuzufügen. Es ist also eine Kombination aus Kerntechnologie und Leistungskraft der Community.

Die maschinelle Übersetzung ist eine „unvollständige“ Technologie und macht es, ähnlich wie das Bewerten von Suchergebnissen, zur Sache des Benutzers, die Angemessenheit der erstellten Ergebnisse zu beurteilen. Genau wie bei einer Suche besteht die Möglichkeit, dass sie bisweilen erstaunlicherweise genau ist und durch neue Daten fortwährend verbessert werden kann. Microsoft nimmt beträchtliche Investitionen vor, um die Qualität von Übersetzungen zu erhöhen.

Ich sage voraus, dass dieses Jahr für die maschinelle Übersetzung bedeutsam sein wird. In Verbindung mit der enormen Leistungsstärke, die im zunehmend gemeinschaftlichen Web genutzt werden kann, erfüllt die maschinelle Übersetzung mehr und mehr ihr Potenzial. In den nächsten Monaten sollten Sie auf neue und interessante Ansätze bei der maschinellen Übersetzung warten, die Sprachlücken weltweit überbrücken werden.

Vikram Dendi ist leitender Produktmanager im Microsoft Translator-Team. Er ist verantwortlich für Geschäftsstrategie und Produktplanung und arbeitet daran, die Leistungsfähigkeit von Entwicklern zu erhöhen, damit sie ein Web ohne Mauern schaffen können. Er führt einen Blog unter viks.org und blogs.msdn.com/translation.