Schnellstart: Erstellen, Veröffentlichen und Übersetzen mit benutzerdefinierten Modellen

Artikel
07/24/2023

Der Übersetzer ist ein cloudbasierter Dienst für neuronale maschinelle Übersetzung, der zur Azure KI Services-Familie der REST-APIs gehört, die mit jedem Betriebssystem verwendet werden können. Der Übersetzer unterstützt viele Microsoft-Produkte und -Dienste, die von Tausenden von Unternehmen weltweit verwendet werden, um Sprachübersetzungen und andere sprachbezogene Vorgänge durchzuführen. In diesem Schnellstart erfahren Sie, wie Sie benutzerdefinierte Lösungen für Ihre Anwendungen in allen unterstützten Sprachen erstellen.

Voraussetzungen

Zum Verwenden des Portals Benutzerdefinierter Translator benötigen Sie die folgenden Ressourcen:

Ein Microsoft-Konto
Azure-Abonnement – Erstellen eines kostenlosen Kontos
Sobald Sie über ein Azure-Abonnement verfügen, erstellen Sie eine Textübersetzungsressource im Azure-Portal, um Ihren Schlüssel und Endpunkt zu erhalten. Wählen Sie nach Abschluss der Bereitstellung Zu Ressource wechseln aus.
- Sie benötigen den Schlüssel und den Endpunkt der Ressource, um Ihre Anwendung mit dem Übersetzerdienst zu verbinden. Fügen Sie den Schlüssel und den Endpunkt später im Schnellstart in den Code ein. Diese Werte sind im Azure-Portal auf der Seite Schlüssel und Endpunkt aufgeführt:

Weitere Informationen finden Sie unterErstellen einer Übersetzerressource.

Portal für den benutzerdefinierten Translator

Nachdem Sie die oben genannten Voraussetzungen erfüllt haben, melden Sie sich beim Benutzerdefinierter Translator-Portal an, um Arbeitsbereiche und Projekte zu erstellen, Dateien hochzuladen, Modelle zu trainieren und Ihre benutzerdefinierte Lösung zu veröffentlichen.

Sie können eine Übersicht über die Übersetzung und die benutzerdefinierte Übersetzung lesen, Tipps erhalten und sich im technischen Blog zu Azure KI ein Video zu den ersten Schritten ansehen.

Prozessübersicht

Erstellen Sie einen Arbeitsbereich. Ein Arbeitsbereich ist ein Bereich zum Erstellen und Entwickeln Ihres benutzerdefinierten Übersetzungssystems. Er kann mehrere Projekte, Modelle und Dokumente enthalten. Alle Aktivitäten, die Sie in „Benutzerdefinierter Translator“ ausführen, werden in einem bestimmten Arbeitsbereich durchgeführt.
Erstellen Sie ein Projekt. Ein Projekt ist ein Wrapper für Modelle, Dokumente und Tests. Jedes Projekt enthält alle Dokumente, die mit dem korrekten Sprachenpaar in den Arbeitsbereich hochgeladen werden. Wenn Sie beispielsweise sowohl ein Projekt für die Sprachrichtung Englisch–Spanisch als auch ein Projekt für die Sprachrichtung Spanisch–Englisch haben, sind die gleichen Dokumente in beiden Projekten enthalten.
Laden Sie parallele Dokumente hoch. Parallele Dokumente sind Dokumentpaare, bei denen ein Dokument (Ziel) die Übersetzung des anderen (Quelle) enthält. Ein Dokument des Paars enthält Sätze in der Ausgangssprache, und das andere enthält Sätze, die in die Zielsprache übersetzt wurden. Es spielt keine Rolle, welche Sprache als „Quelle“ und welche als „Ziel“ markiert ist. Mit einem parallelen Dokument kann ein Übersetzungssystem in beide Richtungen trainiert werden.
Trainieren Sie Ihr Modell. Ein Modell ist das System, das Übersetzungen für ein bestimmtes Sprachenpaar bereitstellt. Das Ergebnis eines erfolgreichen Trainings ist ein Modell. Beim Trainieren eines Modells sind drei sich gegenseitig ausschließende Dokumenttypen erforderlich: Training, Optimierung und Testen. Wenn beim Queuing eines Trainings nur ein Trainingsdataset angegeben wird, erstellt Benutzerdefinierter Translator automatisch Optimierungs- und Testdaten. Er verwendet eine zufällige Teilmenge von Sätzen aus den Trainingsdokumenten und schließt diese Sätze aus den eigentlichen Trainingsdaten aus. Sie müssen mindestens über 10.000 parallele Sätze verfügen, um ein Modell zu trainieren.
Testen Sie Ihr Modell (Auswertung durch Menschen). Der Testsatz wird verwendet, um die BLEU-Bewertung zu berechnen. Dieser Wert gibt die Qualität Ihres Übersetzungssystems an.
Veröffentlichen Sie Ihr trainiertes Modell (stellen Sie es bereit). Ihr benutzerdefiniertes Modell wird für Runtime-Übersetzungsanfragen verfügbar gemacht.
Übersetzen Sie Text. Verwenden Sie die cloudbasierte, sichere, leistungsstarke und hochgradig skalierbare Microsoft-Textübersetzung-API (V3), um Übersetzungsanfragen zu stellen.

Erstellen eines Arbeitsbereichs

Nach der Anmeldung bei „Benutzerdefinierter Translator“ werden Sie um Ihre Zustimmung zum Lesen Ihres Profils aus Microsoft Identity Platform gebeten, damit Ihr Benutzerzugriffstoken und Aktualisierungstoken angefordert werden können. Beide Token werden zur Authentifizierung benötigt. Außerdem gewährleisten sie, dass Sie während Ihrer Echtzeitsitzung oder während des Trainings Ihrer Modelle nicht abgemeldet werden.
Wählen Sie Ja aus.
Wählen Sie Meine Arbeitsbereiche aus.
Klicken Sie auf Create a new workspace (Neuen Arbeitsbereich erstellen).
Geben Sie Contoso MT models (Contoso-MT-Modelle) als Arbeitsbereichsname ein, und wählen Sie Weiter aus.
Wählen Sie für Select resource region (Ressourcenregion auswählen) „Global“ aus der Dropdownliste aus.
Kopieren Sie den Schlüssel des Übersetzer-Diensts, und fügen Sie ihn ein.
Wählen Sie Weiter aus.
Wählen Sie Fertigaus.

Hinweis

Die Region muss mit der Region übereinstimmen, die während der Ressourcenerstellung ausgewählt wurde. Sie können SCHLÜSSEL 1 oder SCHLÜSSEL 2 verwenden.

Erstellen eines Projekts

Nachdem der Arbeitsbereich erfolgreich erstellt wurde, wird die Seite Projekte angezeigt.

Sie erstellen ein Projekt mit der Sprachrichtung Englisch-Deutsch, um ein benutzerdefiniertes Modell nur mit dem Dokumenttyp Training zu trainieren.

Wählen Sie Projekt erstellen aus.
Geben Sie English-to-German (Englisch-Deutsch) unter Projektname ein.
Wählen Sie English (en) (Englisch [EN]) in der Dropdownliste als Ausgangssprache aus.
Wählen Sie German (de) (Deutsch [DE]) in der Dropdownliste als Zielsprache aus.
Wählen Sie Allgemein in der Dropdownliste für Domäne aus.
Wählen Sie Projekt erstellen aus.

Hochladen von Dokumenten

Um ein benutzerdefiniertes Modell zu erstellen, müssen Sie eine Kombination aus Trainings-, Optimierungs-, Test- und Wörterbuch-Dokumentarten hochladen.

In diesem Schnellstart laden Sie Trainingsdokumente zur Anpassung hoch.

Hinweis

Für diesen Schnellstart können Sie unser Beispiel-Dataset für Trainings-, Ausdrucks- und Satzwörterbücher (Kundenbeispieldatensätze mit der Sprachrichtung Englisch-Deutsch) verwenden. Für die Produktion ist es jedoch besser, Ihr eigenes Trainings-Dataset hochzuladen.

Wählen Sie den Projektnamen English-to-German aus.
Wählen Sie im linken Navigationsmenü die Option Dokumente verwalten aus.
Wählen Sie Add document set (Dokumentsatz hinzufügen) aus.
Aktivieren Sie das Kontrollkästchen Training set (Trainingssatz), und wählen Sie Weiter aus.
Lassen Sie Parallel documents (Parallele Dokumente) aktiviert, und geben Sie sample-English-German (Beispiel Englisch-Deutsch) ein.
Wählen Sie unter Source (English - EN) file (Quelldatei [Englisch – EN]) Dateien durchsuchen aus, und wählen Sie sample-English-German-Training-en.txt aus.
Wählen Sie unter Target (German - EN) file (Zieldatei [Deutsch – DE]) Dateien durchsuchen aus, und wählen Sie sample-English-German-Training-de.txt aus.
Wählen Sie Hochladen aus.

Hinweis

Sie können das Dataset mit Beispielausdrücken und Satzwörterbüchern hochladen. Diesen Schritt müssen Sie noch ausführen.

Trainieren Ihres Modells

Nun können Sie das Modell mit der Sprachrichtung Englisch-Deutsch trainieren.

Wählen Sie im linken Navigationsmenü Modell trainieren aus.
Geben Sie en-de with sample data (EN-DE mit Beispieldaten) für Modellname ein.
Lassen Sie Full training (Vollständiges Training) aktiviert.
Aktivieren Sie unter Dokumente auswählensample-English-German, und überprüfen Sie die Kosten des Trainings für die ausgewählte Anzahl an Sätzen.
Wählen Sie Jetzt trainieren aus.
Wählen Sie Trainieren aus, um dies zu bestätigen.

Hinweis

Benachrichtigungen zeigen die Ausführung des Modelltrainings an, z. B. den Status Daten werden übermittelt. Das Trainieren des Modells dauert einige Stunden, abhängig von der Anzahl der ausgewählten Sätze.
Wählen Sie nach erfolgreichem Modelltraining im linken Navigationsmenü die Option Modelldetails aus.
Wählen Sie den Modellnamen en-de mit Beispieldaten aus. Überprüfen Sie Datum und Uhrzeit des Trainings, die Gesamttrainingszeit und die Anzahl der Sätze, die für Training, Optimierung, Tests und Wörterbuch verwendet wurden. Überprüfen Sie, ob das System die Test- und Optimierungssätze generiert hat. Sie verwenden die Kategorie-ID (Category ID), um Übersetzungsanforderungen zu stellen.
Bestimmen Sie die BLEU-Bewertung des Modells. Der Testsatz ist die BLEU-Bewertung die Bewertung des benutzerdefinierten Modells und die Baseline-BLEU das vorab trainierte Baselinemodell, das für die Anpassung verwendet wurde. Eine höhere BLEU-Bewertung bedeutet eine höhere Übersetzungsqualität bei Verwendung des benutzerdefinierten Modells.

Hinweis

Wenn Sie mit unseren freigegebenen Beispieldatasets für Kund*innen trainieren, unterscheidet sich die BLEU-Bewertung von dem Bild.

Testen des Modells

Nachdem das Training erfolgreich abgeschlossen wurde, überprüfen Sie die übersetzten Sätze aus dem Testsatz.

Wählen Sie im linken Navigationsmenü Modell testen aus.
Wählen Sie „en-de with sample data“ aus.
Unterziehen Sie die Übersetzung aus Neues Modell (dem benutzerdefinierten Modell) und Baselinemodell (unserer vorab trainierten Baseline für die Anpassung) einer Überprüfung durch Menschen, wobei mit Referenz (der Zielübersetzung aus dem Testsatz) verglichen wird.

Veröffentlichen Ihres Modells

Wenn Sie Ihr Modell veröffentlichen, steht es für die Verwendung mit der Übersetzer-API zur Verfügung. Ein Projekt kann über ein oder mehrere erfolgreich trainierte Modelle verfügen. Sie können nur ein Modell pro Projekt veröffentlichen, ein Modell jedoch je nach Ihren Anforderungen in einer oder mehreren Regionen veröffentlichen. Weitere Informationen finden Sie unter Übersetzer – Preise.

Wählen Sie im linken Navigationsmenü Modell veröffentlichen aus.
Wählen Sie en-de with sample data und dann Veröffentlichen aus.
Überprüfen Sie die gewünschte(n) Regione(n).
Wählen Sie Veröffentlichen. Der Status sollte von Bereitstellen in Bereitgestellt übergehen.

Text übersetzen

Entwickler sollten die Kategorie-ID (Category ID) verwenden, wenn sie Übersetzungsanfragen mit der Textübersetzungs-API V3 von Microsoft Translator stellen. Weitere Informationen zur Textübersetzungs-API finden Sie auf der Webseite mit der API-Referenz.
Geschäftskund*innen können unsere kostenlose DocumentTranslator-App für Windows herunterladen und installieren.

Nächste Schritte

Hier erfahren Sie, wie Sie Arbeitsbereiche verwalten können