次の方法で共有


WordTokenizingEstimator クラス

定義

指定した区切り記号を使用して入力テキストをトークン化します。

public sealed class WordTokenizingEstimator : Microsoft.ML.Data.TrivialEstimator<Microsoft.ML.Transforms.Text.WordTokenizingTransformer>
type WordTokenizingEstimator = class
    inherit TrivialEstimator<WordTokenizingTransformer>
Public NotInheritable Class WordTokenizingEstimator
Inherits TrivialEstimator(Of WordTokenizingTransformer)
継承

注釈

エスティメーターの特性

この推定器は、パラメーターをトレーニングするためにデータを確認する必要がありますか? いいえ
入力列のデータ型 テキストのスカラーまたはベクター
出力列のデータ型 テキストの可変サイズ ベクター
ONNX にエクスポート可能 はい

結果として WordTokenizingTransformer 、出力列名パラメーターで指定された名前の新しい列が作成されます。各入力文字列は、ユーザー定義の区切り記号に従って入力文字列を分割して取得した部分文字列のベクターにマップされます。 スペース文字は既定の区切り記号です。

空の文字列とスペースのみを含む文字列は削除されます。

使用例へのリンクについては、「関連項目」セクションを参照してください。

メソッド

Fit(IDataView)

指定した区切り記号を使用して入力テキストをトークン化します。

(継承元 TrivialEstimator<TTransformer>)
GetOutputSchema(SchemaShape)

SchemaShapeトランスフォーマーによって生成されるスキーマの値を返します。 パイプラインでのスキーマの伝達と検証に使用されます。

拡張メソッド

AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment)

推定チェーンに "キャッシュ チェックポイント" を追加します。 これにより、ダウンストリーム推定器がキャッシュされたデータに対してトレーニングされるようになります。 複数のデータを受け取るトレーナーの前にキャッシュ チェックポイントを設定すると便利です。

WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>)

エスティメーターを指定すると、デリゲートが呼 Fit(IDataView) び出されると呼び出されるラップ オブジェクトを返します。 多くの場合、エスティメーターが適合した内容に関する情報を返すことが重要です。そのため Fit(IDataView) 、メソッドは一般的 ITransformerなオブジェクトではなく、具体的に型指定されたオブジェクトを返します。 ただし、同時に、 IEstimator<TTransformer> 多くのオブジェクトを含むパイプラインに形成されることが多いため、トランスフォーマーを取得する推定器がこのチェーンのどこかに埋もれている場所を介して EstimatorChain<TLastTransformer> 、推定器のチェーンを構築する必要がある場合があります。 このシナリオでは、このメソッドを使用して、fit が呼び出されると呼び出されるデリゲートをアタッチできます。

適用対象

こちらもご覧ください