次の方法で共有


TextFeaturizingEstimator クラス

定義

テキスト ドキュメントのコレクションを数値特徴ベクトルに変換する推定器。 特徴ベクトルは、指定されたオプションに基づいて、単語または文字 n グラムの正規化されたカウントです。

public sealed class TextFeaturizingEstimator : Microsoft.ML.IEstimator<Microsoft.ML.ITransformer>
type TextFeaturizingEstimator = class
    interface IEstimator<ITransformer>
Public NotInheritable Class TextFeaturizingEstimator
Implements IEstimator(Of ITransformer)
継承
TextFeaturizingEstimator
実装

注釈

推定器の特性

この推定器は、パラメーターをトレーニングするためにデータを確認する必要がありますか? はい。
入力列のデータ型 text
出力列のデータ型 Single のベクター
ONNX にエクスポート可能 いいえ

この推定機能により、ユーザーは次のことを行うためのワンストップ ソリューションが提供されます。

既定では、特徴は (単語/文字) n-gram/skip-gram で構成され、特徴の数はデータを分析することによって見つかったボキャブラリ サイズと等しくなります。 生成されたトークンを含む追加の列を出力するには、 OutputTokensColumnName を使用します。 特徴量の数は、 に TextFeaturizingEstimator.Options保持する n グラムの最大数を選択して指定することもできます。ここで、推定器をさらに調整できます。

使用例へのリンクについては、「関連項目」セクションを参照してください。

メソッド

Fit(IDataView)

をトレーニングして返します ITransformer

GetOutputSchema(SchemaShape)

SchemaShapeトランスフォーマーによって生成されるスキーマの を返します。 パイプラインでのスキーマの伝達と検証に使用されます。

拡張メソッド

AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment)

推定チェーンに "キャッシュ チェックポイント" を追加します。 これにより、ダウンストリーム推定器がキャッシュされたデータに対してトレーニングされるようになります。 複数のデータ パスを受け取るトレーナーの前にキャッシュ チェックポイントを用意しておくと便利です。

WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>)

推定器を指定すると、デリゲートが呼び出されると Fit(IDataView) 呼び出されるラップ オブジェクトを返します。 推定器は、多くの場合、適合した内容に関する情報を返すことが重要です。そのため Fit(IDataView) 、メソッドは一般的 ITransformerな ではなく、具体的に型指定されたオブジェクトを返します。 ただし、同時に、 IEstimator<TTransformer> 多くのオブジェクトを含むパイプラインに形成されることが多いため、トランスフォーマーを取得する推定器がこのチェーンのどこかに埋もれている場所を介して EstimatorChain<TLastTransformer> 、推定器のチェーンを構築する必要がある場合があります。 そのシナリオでは、このメソッドを使用して、fit が呼び出されると呼び出されるデリゲートをアタッチできます。

適用対象

こちらもご覧ください