カスタム固有表現認識の言語のサポート
この記事では、カスタム固有表現認識で現在サポートされている言語について説明します。
多言語オプション
カスタム NER を使用すると、1 つの言語でモデルをトレーニングし、別の言語でドキュメントからエンティティを抽出することができます。 この機能は、時間と労力の節約に役立つので強力です。 すべての言語に対して個別のプロジェクトを構築する代わりに、1 つのプロジェクトで多言語データセットを処理することができます。 データセットが完全に同じ言語である必要はありませんが、作成時に、または後でプロジェクトの設定で、プロジェクトの多言語オプションを有効にする必要があります。 評価プロセス中に特定の言語でモデルのパフォーマンスが低い場合は、それらの言語のデータをトレーニング セットに追加してください。
英語のドキュメントを使用してプロジェクト全体をトレーニングし、フランス語、ドイツ語、標準中国語、日本語、韓国語などでクエリを実行できます。 カスタム固有表現認識により、多言語テクノロジを使用してモデルをトレーニングすることで、プロジェクトを複数の言語に簡単に拡張できます。
特定の言語が他の言語と同じように実行されていないことを確認するたびに、その言語のより多くのドキュメントをプロジェクトに追加できます。 Language Studio のデータのラベル付けページで、追加するドキュメントの言語を選択できます。 その言語のより多くのドキュメントをモデルに導入すると、その言語のより多くの構文を学び、より良い予測をするようになります。
すべての言語で同じ数のドキュメントを追加することは求められていません。 プロジェクトの大部分は 1 つの言語でビルドする必要があります。また、あまりうまく実行されていないと考える言語では、いくつかのドキュメントのみを追加するようにします。 主に英語であるプロジェクトを作成し、フランス語、ドイツ語、およびスペイン語でのテストを開始した場合、ドイツ語が他の 2 つの言語と同様に実行されないことがわかります。 その場合は、元の英語のドキュメントの 5% をドイツ語で追加し、新しいモデルをトレーニングし、ドイツ語でもう一度テストを行うことを検討してください。 ドイツ語のクエリで、より良い結果が得られます。 追加するラベル付けされたドキュメントが多いほど、結果が改善される可能性が高くなります。
別の言語でデータを追加することで他の言語に悪影響を及ぼすことはないはずです。
言語のサポート
カスタム NER では、次の言語の .txt
ファイルがサポートされます。
Language | 言語コード |
---|---|
アフリカーンス語 | af |
アムハラ語 | am |
アラビア語 | ar |
アッサム語 | as |
アゼルバイジャン語 | az |
ベラルーシ語 | be |
ブルガリア語 | bg |
ベンガル語 | bn |
ブルトン語 | br |
ボスニア語 | bs |
カタロニア語 | ca |
チェコ語 | cs |
ウェールズ語 | cy |
デンマーク語 | da |
ドイツ語 | de |
ギリシャ語 | el |
英語 (米国) | en-us |
エスペラント語 | eo |
スペイン語 | es |
エストニア語 | et |
バスク語 | eu |
ペルシャ語 | fa |
フィンランド語 | fi |
フランス語 | fr |
西フリジア語 | fy |
アイルランド語 | ga |
スコットランド ゲール語 | gd |
ガリシア語 | gl |
グジャラート語 | gu |
ハウサ語 | ha |
ヘブライ語 | he |
ヒンディー語 | hi |
クロアチア語 | hr |
ハンガリー語 | hu |
アルメニア語 | hy |
インドネシア語 | id |
イタリア語 | it |
日本語 | ja |
ジャワ文字 | jv |
ジョージア語 | ka |
カザフ語 | kk |
クメール語 | km |
カンナダ語 | kn |
韓国語 | ko |
クルド語 (クルマンジー) | ku |
キルギス語 | ky |
ラテン語 | la |
ラオス語 | lo |
リトアニア語 | lt |
ラトビア語 | lv |
マダガスカル語 | mg |
マケドニア語 | mk |
マラヤーラム語 | ml |
モンゴル語 | mn |
マラーティー語 | mr |
マレー語 | ms |
ミャンマー語 | my |
ネパール語 | ne |
オランダ語 | nl |
ノルウェー語 (ブークモール) | nb |
オディア語 | or |
パンジャーブ語 | pa |
ポーランド語 | pl |
パシュトウ語 | ps |
ポルトガル語 (ブラジル) | pt-br |
ポルトガル語 (ポルトガル) | pt-pt |
ルーマニア語 | ro |
ロシア語 | ru |
サンスクリット語 | sa |
シンド語 | sd |
シンハラ語 | si |
スロバキア語 | sk |
スロベニア語 | sl |
ソマリ語 | so |
アルバニア語 | sq |
セルビア語 | sr |
スンダ文字 | su |
スウェーデン語 | sv |
スワヒリ語 | sw |
タミル語 | ta |
テルグ語 | te |
タイ語 | th |
フィリピン語 | tl |
トルコ語 | tr |
ウイグル語 | ug |
ウクライナ語 | uk |
ウルドゥ語 | ur |
ウズベク語 | uz |
ベトナム語 | vi |
コサ語 | xh |
イディッシュ語 | yi |
簡体中国語 | zh-hans |
ズールー語 | zu |