カスタム感情分析用にデータを準備する方法

[アーティクル]
12/19/2023

カスタム感情分析モデルを作成するには、それをトレーニングするための高品質なデータが必要です。この記事では、スキーマの定義と共に、データの選択と準備を行う方法について説明します。スキーマの定義は、プロジェクト開発ライフサイクルの最初の手順であり、実行時、モデルにテキストを分類させるクラスを定義します。

データの選択

モデルをトレーニングするデータの品質は、モデルのパフォーマンスに大きく影響します。

ドメインの問題空間を反映した実際のデータを使用して、モデルを効果的にトレーニングします。合成データを使用すると、最初のモデルトレーニングプロセスを加速できますが、実際のデータとは異なる可能性が高く、使用したときにモデルから得られる効果が少なくなることがあります。
実際の分布から大きく離れることなく、可能な限りデータ分散のバランスを取ります。
モデルのオーバーフィットを回避するために、可能な限り多様なデータを使用します。トレーニングデータの多様性が低いと、実際のデータに存在しない場合がある偽の相関関係をモデルが学習する可能性があります。
データ内のドキュメントが重複しないようにします。重複するデータは、トレーニングプロセス、モデルメトリック、モデルのパフォーマンスに悪影響を及ぼす可能性があります。
データの取得場所を検討します。 1 人の人物、1 つの部署、またはシナリオの一部からデータを収集する場合は、モデルが学ぶべき重要な多様性が欠落している可能性があります。

Note

ドキュメントで複数の言語が使われている場合は、プロジェクトの作成で [複数言語] オプションを選択し、[言語] オプションをドキュメントの主要な言語に設定します。

データの準備

カスタム感情分析プロジェクトを作成するための前提条件として、トレーニングデータをストレージアカウントの BLOB コンテナーにアップロードする必要があります。トレーニングドキュメントの作成とアップロードは、Azure から直接行うことも、Azure Storage Explorer ツールを使って行うこともできます。 Azure Storage Explorer を使用すると、より多くのデータをすばやくアップロードできます。

カスタムテキスト分類に使用できるのは、.txt カスタムテキストのドキュメント。データが他の形式の場合は、CLUtils 解析コマンドを使用してファイル形式を変更できます。

テストセット

テストセットを定義するときは、トレーニングセットに存在しないドキュメントの例を必ず含めてください。テストセットの定義は、モデルのパフォーマンスを計算するための重要な手順です。また、テストセットに、プロジェクトで使用されるすべてのクラスを表すドキュメントが含まれていることを確認します。

次のステップ

まだ作成していない場合は、カスタム感情分析プロジェクトを作成します。カスタム感情分析を初めて使用する場合は、クイックスタートに従ってサンプルプロジェクトを作成することを検討してください。また、プロジェクトの作成に必要なことの詳細については、プロジェクトの要件に関する記事を参照してください。

次の方法で共有

カスタム感情分析用にデータを準備する方法

データの選択

データの準備

テストセット

次のステップ

その他のリソース

次の方法で共有

カスタム感情分析用にデータを準備する方法

データの選択

データの準備

テスト セット

次のステップ

その他のリソース

テストセット