TextFeaturizingEstimator Classe
Definição
Importante
Algumas informações se referem a produtos de pré-lançamento que podem ser substancialmente modificados antes do lançamento. A Microsoft não oferece garantias, expressas ou implícitas, das informações aqui fornecidas.
Um avaliador que transforma uma coleção de documentos de texto em vetores de recursos numéricos. Os vetores de recurso são contagens normalizadas de n-gramas de palavra e/ou caractere (com base nas opções fornecidas).
public sealed class TextFeaturizingEstimator : Microsoft.ML.IEstimator<Microsoft.ML.ITransformer>
type TextFeaturizingEstimator = class
interface IEstimator<ITransformer>
Public NotInheritable Class TextFeaturizingEstimator
Implements IEstimator(Of ITransformer)
- Herança
-
TextFeaturizingEstimator
- Implementações
Comentários
Características do avaliador
Esse avaliador precisa examinar os dados para treinar seus parâmetros? | Sim. |
Tipo de dados de coluna de entrada | text |
Tipo de dados de coluna de saída | Vetor de Single |
Exportável para ONNX | Não |
Esse avaliador fornece ao usuário uma solução única para fazer:
- Detecção de Idioma
- Geração de tokens
- Normalização de texto
- Remoção de palavras irrelevantes predefinidas e personalizadas
- [extração de Ngram baseada em Word ou caracteres e extração de SkipGram (por meio das opções avançadas)](https://en.wikipedia.org/wiki/N-gram)
- TF, IDF ou TF-IDF
- [Normalização de vetor L-p] (xref: Microsoft.ML.Transforms.LpNormNormalizingTransformer)
Por padrão, os recursos são feitos de n-grams/skip-grams (palavra/caractere) e o número de recursos é igual ao tamanho do vocabulário encontrado analisando os dados. Para gerar uma coluna adicional com os tokens gerados, use OutputTokensColumnName. O número de recursos também pode ser especificado selecionando o número máximo de n-gram para manter no , em TextFeaturizingEstimator.Optionsque o avaliador pode ser ajustado ainda mais.
Verifique a seção Consulte também para obter links para exemplos de uso.
Métodos
Fit(IDataView) |
Treina e retorna um ITransformer. |
GetOutputSchema(SchemaShape) |
Retorna o SchemaShape do esquema que será produzido pelo transformador. Usado para propagação e verificação de esquema em um pipeline. |
Métodos de Extensão
AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment) |
Acrescente um 'ponto de verificação de cache' à cadeia do avaliador. Isso garantirá que os avaliadores downstream sejam treinados em relação aos dados armazenados em cache. É útil ter um ponto de verificação de cache antes de treinadores que recebem várias passagens de dados. |
WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>) |
Dado um avaliador, retorne um objeto de encapsulamento que chamará um delegado quando Fit(IDataView) for chamado. Geralmente, é importante que um avaliador retorne informações sobre o que era adequado, e é por isso que o Fit(IDataView) método retorna um objeto especificamente tipado, em vez de apenas um geral ITransformer. No entanto, ao mesmo tempo, IEstimator<TTransformer> geralmente são formados em pipelines com muitos objetos, portanto, talvez seja necessário criar uma cadeia de avaliadores por meio EstimatorChain<TLastTransformer> de onde o avaliador para o qual queremos obter o transformador está enterrado em algum lugar nessa cadeia. Para esse cenário, podemos por meio desse método anexar um delegado que será chamado assim que fit for chamado. |