Sprachunterstützung für die benutzerdefinierte benannte Entitätserkennung
In diesem Artikel erfahren Sie mehr über die Sprachen, die derzeit von der benutzerdefinierten benannten Entitätserkennung unterstützt werden.
Option für mehrere Sprachen
Mit der benutzerdefinierten NER können Sie ein Modell in einer Sprache trainieren und zur Extraktion von Entitäten aus Dokumenten in einer anderen Sprache verwenden. Dieses Feature ist äußerst nützlich, da es Zeit und Aufwand spart. Anstelle separate Projekte für jede Sprache erstellen zu müssen, können Sie ein mehrsprachiges Dataset in einem Projekte verwenden. Ihr Dataset muss nicht vollständig in einer Sprache sein, Sie sollten jedoch während der Erstellung die Option für mehrere Sprachen für Ihr Projekt aktivieren oder dies später in den Projekteinstellungen nachholen. Wenn Sie während des Auswertungsprozesses feststellen, dass Ihr Modell in bestimmten Sprachen eine schlechte Leistung aufweist, sollten Sie Ihrem Trainingssatz weitere Daten in den betreffenden Sprachen hinzufügen.
Sie können Ihr Projekt vollständig mit englischen Dokumenten trainieren und es dann in folgenden Sprachen abfragen: Französisch, Deutsch, Mandarin, Japanisch, Koreanisch und weiteren. Mithilfe der benutzerdefinierten benannten Entitätserkennung können Sie Ihre Projekte auf einfache Weise auf mehrere Sprachen skalieren, indem Sie Mehrsprachentechnologie zum Trainieren Ihrer Modelle verwenden.
Wenn Sie feststellen, dass eine bestimmte Sprache nicht so gut wie andere Sprachen funktioniert, können Sie Ihrem Projekt weitere Dokumente für diese Sprache hinzufügen. Auf der Seite Datenbeschriftung in Language Studio können Sie die Sprache des Dokuments auswählen, das Sie hinzufügen. Wenn Sie weitere Dokumente für die betreffende Sprache in das Modell einführen, wird dem Modell die Syntax dieser Sprache besser verständlich, und es lernt, sie besser vorherzusagen.
Sie müssen nicht für jede Sprache dieselbe Anzahl an Dokumenten hinzufügen. Sie sollten den Großteil Ihres Projekts in einer Sprache erstellen und nur wenige Dokumente in Sprachen hinzufügen, für die Sie eine nicht zufrieden stellende Leistung beobachten. Wenn Sie ein Projekt erstellen, das hauptsächlich englisch ist, und damit beginnen, es in Französisch, Deutsch und Spanisch zu testen, stellen Sie möglicherweise fest, dass Deutsch nicht so gut funktioniert wie die anderen beiden Sprachen. Ziehen Sie in diesem Fall in Betracht, 5 % Ihrer ursprünglichen englischen Dokumente auf Deutsch hinzuzufügen, ein neues Modell zu trainieren und es erneut auf Deutsch zu testen. Für deutsche Abfragen sollten dann bessere Ergebnisse erzielt werden. Je mehr beschriftete Dokumente Sie hinzufügen, desto größer ist die Wahrscheinlichkeit, dass die Ergebnisse besser werden.
Wenn Sie Daten in einer weiteren Sprache hinzufügen, brauchen Sie in der Regel nicht mit negativen Auswirkungen auf die anderen Sprachen zu rechnen.
Sprachunterstützung
Die benutzerdefinierte Erkennung benannter Entitäten unterstützt .txt
-Dateien in den folgenden Sprachen:
Sprache | Sprachcode |
---|---|
Afrikaans | af |
Amharisch | am |
Arabisch | ar |
Assamesisch | as |
Aserbaidschanisch | az |
Belarussisch | be |
Bulgarisch | bg |
Bengali | bn |
Bretonisch | br |
Bosnisch | bs |
Katalanisch | ca |
Tschechisch | cs |
Walisisch | cy |
Dänisch | da |
Deutsch | de |
Griechisch | el |
Englisch (USA) | en-us |
Esperanto | eo |
Spanisch | es |
Estnisch | et |
Baskisch | eu |
Persisch | fa |
Finnisch | fi |
Französisch | fr |
Westfriesisch | fy |
Irisch | ga |
Schottisch-Gälisch | gd |
Galizisch | gl |
Gujarati | gu |
Haussa | ha |
Hebräisch | he |
Hindi | hi |
Kroatisch | hr |
Ungarisch | hu |
Armenisch | hy |
Indonesisch | id |
Italienisch | it |
Japanisch | ja |
Javanisch | jv |
Georgisch | ka |
Kasachisch | kk |
Khmer | km |
Kannada | kn |
Koreanisch | ko |
Kurdisch (Kurmanji) | ku |
Kirgisisch | ky |
Lateinisch | la |
Laotisch | lo |
Litauisch | lt |
Lettisch | lv |
Madagassisch | mg |
Mazedonisch | mk |
Malayalam | ml |
Mongolisch | mn |
Marathi | mr |
Malaiisch | ms |
Birmanisch | my |
Nepalesisch | ne |
Niederländisch | nl |
Norwegisch (Bokmål) | nb |
Odia | or |
Pandschabi | pa |
Polnisch | pl |
Paschtu | ps |
Portugiesisch (Brasilien) | pt-br |
Portugiesisch (Portugal) | pt-pt |
Rumänisch | ro |
Russisch | ru |
Sanskrit | sa |
Sindhi | sd |
Singhalesisch | si |
Slowakisch | sk |
Slowenisch | sl |
Somali | so |
Albanisch | sq |
Serbisch | sr |
Sundanesisch | su |
Schwedisch | sv |
Suaheli | sw |
Tamilisch | ta |
Telugu | te |
Thailändisch | th |
Filipino | tl |
Türkisch | tr |
Uigurisch | ug |
Ukrainisch | uk |
Urdu | ur |
Usbekisch | uz |
Vietnamesisch | vi |
Xhosa | xh |
Jiddisch | yi |
Chinesisch (vereinfacht) | zh-hans |
Zulu | zu |