TextFeaturizingEstimator Classe
Definizione
Importante
Alcune informazioni sono relative alla release non definitiva del prodotto, che potrebbe subire modifiche significative prima della release definitiva. Microsoft non riconosce alcuna garanzia, espressa o implicita, in merito alle informazioni qui fornite.
Strumento di stima che trasforma una raccolta di documenti di testo in vettori di funzionalità numerici. I vettori di funzionalità sono conteggi normalizzati di parole e/o caratteri n-grammi (in base alle opzioni fornite).
public sealed class TextFeaturizingEstimator : Microsoft.ML.IEstimator<Microsoft.ML.ITransformer>
type TextFeaturizingEstimator = class
interface IEstimator<ITransformer>
Public NotInheritable Class TextFeaturizingEstimator
Implements IEstimator(Of ITransformer)
- Ereditarietà
-
TextFeaturizingEstimator
- Implementazioni
Commenti
Caratteristiche dello strumento di stima
Questo strumento di stima deve esaminare i dati per eseguire il training dei relativi parametri? | Sì. |
Tipo di dati della colonna di input | text |
Tipo di dati della colonna di output | Vettore di Single |
Esportabile in ONNX | No |
Questo strumento di stima offre all'utente una soluzione unica per eseguire le operazioni seguenti:
- Rilevamento lingua
- Tokenizzazione
- Normalizzazione del testo
- Rimozione di parole non significative predefinite e personalizzate
- [estrazione di Ngram basati su caratteri o basata su caratteri Word e estrazione skipGram (tramite le opzioni avanzate)](https://en.wikipedia.org/wiki/N-gram)
- TF, IDF o TF-IDF
- [Normalizzazione vettoriale L-p] (xref: Microsoft.ML.Transforms.LpNormNormalizingTransformer)
Per impostazione predefinita, le caratteristiche sono costituite da (parola/carattere) n-grammi/skip-grammi e il numero di caratteristiche sono uguali alle dimensioni del vocabolario trovate analizzando i dati. Per restituire una colonna aggiuntiva con i token generati, usare OutputTokensColumnName. È anche possibile specificare il numero di caratteristiche selezionando il numero massimo di n grammi da mantenere in TextFeaturizingEstimator.Options, in cui lo strumento di stima può essere ulteriormente ottimizzato.
Vedere la sezione Vedere anche i collegamenti agli esempi di utilizzo.
Metodi
Fit(IDataView) |
Esegue il training e restituisce un oggetto ITransformer. |
GetOutputSchema(SchemaShape) |
Restituisce l'oggetto SchemaShape dello schema che verrà prodotto dal trasformatore. Usato per la propagazione e la verifica dello schema in una pipeline. |
Metodi di estensione
AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment) |
Aggiungere un "checkpoint di memorizzazione nella cache" alla catena di stima. Ciò garantisce che gli estimatori downstream vengano sottoposti a training in base ai dati memorizzati nella cache. È utile avere un checkpoint di memorizzazione nella cache prima che i formatori eseseguono più passaggi di dati. |
WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>) |
Dato un estimator, restituire un oggetto wrapping che chiamerà un delegato una volta Fit(IDataView) chiamato. È spesso importante che uno strumento di stima restituisca informazioni sull'adattamento, motivo per cui il Fit(IDataView) metodo restituisce un oggetto tipizzato in modo specifico, anziché solo un oggetto generale ITransformer. Tuttavia, allo stesso tempo, IEstimator<TTransformer> vengono spesso formati in pipeline con molti oggetti, quindi potrebbe essere necessario creare una catena di estimatori tramite EstimatorChain<TLastTransformer> dove lo strumento di stima per il quale si vuole ottenere il trasformatore è sepolto in una posizione in questa catena. Per questo scenario, è possibile collegare un delegato che verrà chiamato una volta chiamato fit. |