Sprachunterstützung für die benutzerdefinierte Textklassifizierung

In diesem Artikel erfahren Sie mehr zu den Sprachen, die derzeit vom Feature „benutzerdefinierte Textklassifizierung“ unterstützt werden.

Option für mehrere Sprachen

Mit der benutzerdefinierten Textklassifizierung können Sie ein Modell in einer Sprache trainieren und Dokumente in einer anderen Sprache klassifizieren. Dieses Feature ist nützlich, da Sie damit Zeit und Aufwand sparen. Anstelle separate Projekte für jede Sprache erstellen zu müssen, können Sie ein mehrsprachiges Dataset in einem Projekt verwenden. Ihr Dataset muss nicht vollständig in einer Sprache sein, Sie sollten jedoch während der Erstellung die Option für mehrere Sprachen für Ihr Projekt aktivieren oder dies später in den Projekteinstellungen nachholen. Wenn Sie während des Auswertungsprozesses feststellen, dass Ihr Modell in bestimmten Sprachen eine schlechte Leistung aufweist, sollten Sie Ihrem Trainingssatz weitere Daten in den betreffenden Sprachen hinzufügen.

Sie können Ihr Projekt vollständig mit englischen Dokumenten trainieren und es dann in folgenden Sprachen abfragen: Französisch, Deutsch, Mandarin, Japanisch, Koreanisch und weiteren. Mithilfe der benutzerdefinierten Textklassifizierung können Sie Ihre Projekte auf einfache Weise auf mehrere Sprachen skalieren, indem Sie Mehrsprachentechnologie zum Trainieren Ihrer Modelle verwenden.

Wenn Sie feststellen, dass eine bestimmte Sprache nicht so gut funktioniert wie andere Sprachen, können Sie Ihrem Projekt weitere Dokumente für diese Sprache hinzufügen. Auf der Seite Datenbeschriftung in Language Studio können Sie die Sprache des Dokuments auswählen, das Sie hinzufügen. Wenn Sie weitere Dokumente für die betreffende Sprache in das Modell einführen, wird dem Modell die Syntax dieser Sprache besser verständlich, und es lernt, sie besser vorherzusagen.

Sie müssen nicht für jede Sprache dieselbe Anzahl an Dokumenten hinzufügen. Sie sollten den Großteil Ihres Projekts in einer Sprache erstellen und nur wenige Dokumente in Sprachen hinzufügen, für die Sie eine nicht zufrieden stellende Leistung beobachten. Wenn Sie ein Projekt erstellen, das hauptsächlich englisch ist, und damit beginnen, es in Französisch, Deutsch und Spanisch zu testen, stellen Sie möglicherweise fest, dass Deutsch nicht so gut funktioniert wie die anderen beiden Sprachen. Ziehen Sie in diesem Fall in Betracht, 5 % Ihrer ursprünglichen englischen Dokumente auf Deutsch hinzuzufügen, ein neues Modell zu trainieren und es erneut auf Deutsch zu testen. Für deutsche Abfragen sollten dann bessere Ergebnisse erzielt werden. Je mehr beschriftete Dokumente Sie hinzufügen, desto größer ist die Wahrscheinlichkeit, dass die Ergebnisse besser werden.

Wenn Sie Daten in einer weiteren Sprache hinzufügen, brauchen Sie in der Regel nicht mit negativen Auswirkungen auf die anderen Sprachen zu rechnen.

Von der benutzerdefinierten Textklassifizierung unterstützte Sprachen

Die benutzerdefinierte Textklassifizierung unterstützt .txt-Dateien in den folgenden Sprachen:

Sprache Sprachcode
Afrikaans af
Amharisch am
Arabisch ar
Assamesisch as
Aserbaidschanisch az
Belarussisch be
Bulgarisch bg
Bengali bn
Bretonisch br
Bosnisch bs
Katalanisch ca
Tschechisch cs
Walisisch cy
Dänisch da
Deutsch de
Griechisch el
Englisch (USA) en-us
Esperanto eo
Spanisch es
Estnisch et
Baskisch eu
Persisch fa
Finnisch fi
Französisch fr
Westfriesisch fy
Irisch ga
Schottisch-Gälisch gd
Galizisch gl
Gujarati gu
Haussa ha
Hebräisch he
Hindi hi
Kroatisch hr
Ungarisch hu
Armenisch hy
Indonesisch id
Italienisch it
Japanisch ja
Javanisch jv
Georgisch ka
Kasachisch kk
Khmer km
Kannada kn
Koreanisch ko
Kurdisch (Kurmanji) ku
Kirgisisch ky
Lateinisch la
Laotisch lo
Litauisch lt
Lettisch lv
Madagassisch mg
Mazedonisch mk
Malayalam ml
Mongolisch mn
Marathi mr
Malaiisch ms
Birmanisch my
Nepalesisch ne
Niederländisch nl
Norwegisch (Bokmål) nb
Odia or
Pandschabi pa
Polnisch pl
Paschtu ps
Portugiesisch (Brasilien) pt-br
Portugiesisch (Portugal) pt-pt
Rumänisch ro
Russisch ru
Sanskrit sa
Sindhi sd
Singhalesisch si
Slowakisch sk
Slowenisch sl
Somali so
Albanisch sq
Serbisch sr
Sundanesisch su
Schwedisch sv
Suaheli sw
Tamilisch ta
Telugu te
Thailändisch th
Filipino tl
Türkisch tr
Uigurisch ug
Ukrainisch uk
Urdu ur
Usbekisch uz
Vietnamesisch vi
Xhosa xh
Jiddisch yi
Chinesisch (vereinfacht) zh-hans
Zulu zu

Nächste Schritte