TextFeaturizingEstimator Класс
Определение
Важно!
Некоторые сведения относятся к предварительной версии продукта, в которую до выпуска могут быть внесены существенные изменения. Майкрософт не предоставляет никаких гарантий, явных или подразумеваемых, относительно приведенных здесь сведений.
Оценщик, который преобразует коллекцию текстовых документов в числовые векторы признаков. Векторы признаков — это нормализованное количество n-граммов слов и (или) символов (на основе предоставленных параметров).
public sealed class TextFeaturizingEstimator : Microsoft.ML.IEstimator<Microsoft.ML.ITransformer>
type TextFeaturizingEstimator = class
interface IEstimator<ITransformer>
Public NotInheritable Class TextFeaturizingEstimator
Implements IEstimator(Of ITransformer)
- Наследование
-
TextFeaturizingEstimator
- Реализации
Комментарии
Характеристики оценщика
Требуется ли этому оценщику просмотреть данные для обучения параметров? | Да. |
Тип данных входного столбца | text |
Тип данных выходного столбца | Вектор Single |
Возможность экспорта в ONNX | Нет |
Этот оценщик предоставляет пользователю однократное решение для выполнения следующих действий:
- Распознавание языка
- Выделение лексем
- Нормализация текста
- Удаление предопределенных и пользовательских стоп-слов
- [извлечение Ngram на основе Word или символов и извлечение skipGram (с помощью дополнительных параметров)](https://en.wikipedia.org/wiki/N-gram)
- TF, IDF или TF-IDF
- [Нормализация вектора L-p] (xref: Microsoft.ML.Transforms.LpNormNormalizingTransformer)
По умолчанию признаки состоят из n-граммов(слов или символов), а количество признаков равно размеру словаря, найденного при анализе данных. Чтобы вывести дополнительный столбец с созданными токенами, используйте OutputTokensColumnName. Количество признаков также можно указать, выбрав максимальное число n-граммов, которые нужно сохранить в TextFeaturizingEstimator.Options, где можно дополнительно настроить оценщик.
Ссылки на примеры использования см. в разделе См. также.
Методы
Fit(IDataView) |
Обучает и возвращает .ITransformer |
GetOutputSchema(SchemaShape) |
SchemaShape Возвращает объект схемы, которая будет создана преобразователем. Используется для распространения и проверки схемы в конвейере. |
Методы расширения
AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment) |
Добавьте контрольную точку кэширования в цепочку оценщика. Это гарантирует, что подчиненные оценщики будут обучены на основе кэшированных данных. Полезно иметь контрольную точку кэширования перед средствами обучения, которые принимают несколько проходов данных. |
WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>) |
При использовании оценщика возвращается объект-оболочка, который вызывает делегат один раз Fit(IDataView) . Часто важно, чтобы оценщик возвращал сведения о том, что подходит, поэтому Fit(IDataView) метод возвращает конкретно типизированный объект, а не просто общий ITransformer. Однако в то же время IEstimator<TTransformer> они часто формируются в конвейеры с большим количеством объектов, поэтому нам может потребоваться построить цепочку оценщиков, где EstimatorChain<TLastTransformer> оценщик, для которого мы хотим получить преобразователь, похоронен где-то в этой цепочке. Для этого сценария мы можем с помощью этого метода присоединить делегат, который будет вызываться после вызова подходящего метода. |