TextFeaturizingEstimator Класс

Определение

Оценщик, который преобразует коллекцию текстовых документов в числовые векторы признаков. Векторы признаков — это нормализованное количество n-граммов слов и (или) символов (на основе предоставленных параметров).

public sealed class TextFeaturizingEstimator : Microsoft.ML.IEstimator<Microsoft.ML.ITransformer>
type TextFeaturizingEstimator = class
    interface IEstimator<ITransformer>
Public NotInheritable Class TextFeaturizingEstimator
Implements IEstimator(Of ITransformer)
Наследование
TextFeaturizingEstimator
Реализации

Комментарии

Характеристики оценщика

Требуется ли этому оценщику просмотреть данные для обучения параметров? Да.
Тип данных входного столбца text
Тип данных выходного столбца Вектор Single
Возможность экспорта в ONNX Нет

Этот оценщик предоставляет пользователю однократное решение для выполнения следующих действий:

По умолчанию признаки состоят из n-граммов(слов или символов), а количество признаков равно размеру словаря, найденного при анализе данных. Чтобы вывести дополнительный столбец с созданными токенами, используйте OutputTokensColumnName. Количество признаков также можно указать, выбрав максимальное число n-граммов, которые нужно сохранить в TextFeaturizingEstimator.Options, где можно дополнительно настроить оценщик.

Ссылки на примеры использования см. в разделе См. также.

Методы

Fit(IDataView)

Обучает и возвращает .ITransformer

GetOutputSchema(SchemaShape)

SchemaShape Возвращает объект схемы, которая будет создана преобразователем. Используется для распространения и проверки схемы в конвейере.

Методы расширения

AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment)

Добавьте контрольную точку кэширования в цепочку оценщика. Это гарантирует, что подчиненные оценщики будут обучены на основе кэшированных данных. Полезно иметь контрольную точку кэширования перед средствами обучения, которые принимают несколько проходов данных.

WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>)

При использовании оценщика возвращается объект-оболочка, который вызывает делегат один раз Fit(IDataView) . Часто важно, чтобы оценщик возвращал сведения о том, что подходит, поэтому Fit(IDataView) метод возвращает конкретно типизированный объект, а не просто общий ITransformer. Однако в то же время IEstimator<TTransformer> они часто формируются в конвейеры с большим количеством объектов, поэтому нам может потребоваться построить цепочку оценщиков, где EstimatorChain<TLastTransformer> оценщик, для которого мы хотим получить преобразователь, похоронен где-то в этой цепочке. Для этого сценария мы можем с помощью этого метода присоединить делегат, который будет вызываться после вызова подходящего метода.

Применяется к

См. также раздел