カスタム固有表現認識とは

[アーティクル]
12/19/2023

カスタム NER は、Azure AI Language で提供されているカスタム機能の 1 つです。これは、機械学習インテリジェンスを適用してカスタム固有表現認識タスク用のカスタムモデルを構築できるようにする、クラウドベースの API サービスです。

カスタム NER を使用すると、ユーザーはカスタム AI モデルを作成して、コントラクトや財務ドキュメントなどの非構造化テキストからドメイン固有のエンティティを抽出できます。開発者は、カスタムの NER プロジェクトを作成することによって、データのラベル付けを繰り返し行うことができ、モデルパフォーマンスをトレーニング、評価、および改善してから、利用できるようにすることができます。ラベル付けされたデータの品質は、モデルのパフォーマンスに大きく影響します。モデルの構築とカスタマイズを簡単にするために、サービスには、Language Studio からアクセスできるカスタム Web ポータルが用意されています。このクイックスタートの手順に従って、サービスを簡単に開始できます。

このドキュメントには、次の種類の記事が含まれています。

クイックスタートは、サービスへの要求の実行方法を説明する概要手順です。
概念では、サービスの機能と特徴について説明します。
攻略ガイドには、より具体的またはカスタマイズした方法でサービスを使用するための手順が記載されています。

使用シナリオの例

カスタム固有表現認識は、さまざまな業界の複数のシナリオで使用できます。

情報の抽出

金融機関や法務部門の多くは、1 日に何千もの複雑な非構造化テキストソースからデータを抽出して正規化します。このようなソースには、銀行明細書、法的契約書、銀行のフォームが含まれます。たとえば、住宅ローンの申し込みデータの抽出を人間のレビュー担当者が手作業で行うと、抽出に数日かかる場合があります。カスタム NER モデルを構築してこれらの手順を自動化すると、プロセスが簡素化され、コスト、時間、労力が節約されます。

セマンティック検索を強化するためのナレッジマイニング

検索は、ユーザーにテキストコンテンツを表示するすべてのアプリの基本となるものです。一般的なシナリオとしては、カタログやドキュメントの検索、小売製品の検索、データサイエンスのナレッジマイニングなどがあります。 さまざまな業界にわたる多くの企業が、構造化および非構造化ドキュメントの両方を含む、プライベートで異種なコンテンツに対して高度な検索エクスペリエンスを構築しようと検討しています。パイプラインの一部として、開発者は、業界に関連するテキストからエンティティを抽出するために、カスタム NER を使用できます。これらのエンティティを使用してファイルのインデックス作成をエンリッチすることで、よりカスタマイズされた検索エクスペリエンスを実現できます。

監査とコンプライアンス

金融や法律関連企業の IT 部門は、ポリシーを監査して適用するために、非常に長いテキストファイルを手動で確認するのではなく、カスタム NER を使用して、自動化されたソリューションを構築できます。これらのソリューションは、コンプライアンスポリシーを適用し、構造化および非構造化コンテンツを処理するナレッジマイニングパイプラインに基づいて必要なビジネスルールを設定するのに役立ちます。

プロジェクト開発ライフサイクル

通常、カスタム NER を使用するには、いくつかの異なる手順が必要です。

スキーマを定義する: データを認識し、抽出するエンティティを識別します。あいまいさを回避します。
データにラベルを付ける: データのラベル付けはモデルのパフォーマンスを判断する際の重要な要素です。正確かつ、一貫性があるように、完全にラベル付けします。
1. 正確なラベル付け: 各エンティティを適切な型に常にラベル付けします。ラベルには、抽出するデータのみを含め、不要なデータを入れないでください。
2. 一貫したラベル付け: すべてのファイルで、同じエンティティに同じラベルが付いているようにします。
3. 完全なラベル付け: すべてのファイルに含まれるエンティティのすべてのインスタンスにラベルを付けます。
モデルをトレーニングする: モデルは、ラベル付けされたデータから学習を開始します。
モデルのパフォーマンスを表示する: トレーニングが完了したら、モデルの評価の詳細、そのパフォーマンス、その改善方法のガイダンスを表示します。
モデルをデプロイする: モデルをデプロイすると、Analyze API を介して使用できるようになります。
エンティティの抽出: エンティティ抽出タスクにカスタムモデルを使用します。

リファレンスドキュメントとコードサンプル

カスタム NER を使用する場合は、次の Azure AI Language のリファレンスドキュメントとサンプルをご覧ください。

開発オプション/言語	リファレンスドキュメント	サンプル
REST API (オーサリング)	REST API のドキュメント
REST API (ランタイム)	REST API のドキュメント
C# (ランタイム)	C# 関連のドキュメント	C# のサンプル
Java (ランタイム)	Java のドキュメント	Java のサンプル
JavaScript (ランタイム)	JavaScript のドキュメント	JavaScript のサンプル
Python (ランタイム)	Python のドキュメント	Python のサンプル

責任ある AI

AI システムには、テクノロジだけでなく、それを使う人、それによって影響を受ける人、それがデプロイされる環境も含まれます。システムでの責任ある AI の使用とデプロイについては、カスタム NER の透明性に関する注意の記事を参照してください。詳細については、次の記事も参照してください。

次のステップ

クイックスタートの記事を使用して、カスタム固有表現認識の使用を開始します。
プロジェクト開発ライフサイクルを進める過程で、この機能のドキュメント全体で使用される用語の詳細については、「用語集」を参照してください。
リージョンの可用性などの情報については、「サービスの制限」を必ずご覧ください。

次の方法で共有

カスタム固有表現認識とは

使用シナリオの例

情報の抽出

セマンティック検索を強化するためのナレッジマイニング

監査とコンプライアンス

プロジェクト開発ライフサイクル

リファレンスドキュメントとコードサンプル

責任ある AI

次のステップ

フィードバック

フィードバック

その他のリソース

次の方法で共有

カスタム固有表現認識とは

使用シナリオの例

情報の抽出

セマンティック検索を強化するためのナレッジ マイニング

監査とコンプライアンス

プロジェクト開発ライフサイクル

リファレンス ドキュメントとコード サンプル

責任ある AI

次のステップ

フィードバック

フィードバック

その他のリソース

セマンティック検索を強化するためのナレッジマイニング

リファレンスドキュメントとコードサンプル