LatentDirichletAllocationEstimator Classe

Definizione

La trasformazione LDA implementa LightLDA, un'implementazione all'avanguardia di Latent Dirichlet Allocation.

public sealed class LatentDirichletAllocationEstimator : Microsoft.ML.IEstimator<Microsoft.ML.Transforms.Text.LatentDirichletAllocationTransformer>
type LatentDirichletAllocationEstimator = class
    interface IEstimator<LatentDirichletAllocationTransformer>
Public NotInheritable Class LatentDirichletAllocationEstimator
Implements IEstimator(Of LatentDirichletAllocationTransformer)
Ereditarietà
LatentDirichletAllocationEstimator
Implementazioni

Commenti

Caratteristiche dello strumento di stima

Questo strumento di stima deve esaminare i dati per eseguire il training dei relativi parametri?
Tipo di dati della colonna di input Vettore di Single
Tipo di dati della colonna di output Vettore di Single
Esportabile in ONNX No

L'allocazione latente dirichlet è un algoritmo di modellazione di argomenti noto che deduce la struttura semantica dai dati di testo e infine consente di rispondere alla domanda su "che cos'è questo documento?". Può essere usata per definire le caratteristiche di qualsiasi campo di testo come vettori di argomento a bassa dimensione. LightLDA è un'implementazione estremamente efficiente di LDA che incorpora una serie di tecniche di ottimizzazione. Con la trasformazione LDA, ML.NET gli utenti possono eseguire il training di un modello di argomento per produrre 1 milione di argomenti con un vocabolario di 1 milione di parole in un set di documenti di 1 miliardo di token, un singolo computer in poche ore(in genere, LDA su questa scala richiede giorni e richiede cluster di grandi dimensioni). L'innovazione più significativa è un $O(1)$super efficiente. L'algoritmo di campionamento Metropolis-Hastings, il cui costo di esecuzione è indipendente dalle dimensioni del modello, consentendo di convergere quasi un ordine di grandezza più veloce rispetto ad altri campioni Gibbs.

In una pipeline ML.NET, questo strumento di stima richiede l'output di alcuni pre-elaborazione, come input. Una pipeline tipica che opera sul testo richiederebbe la normalizzazione del testo, la tokenizzazione e la produzione di n-grammi per fornire allo strumento di stima LDA. Per suggerimenti sull'utilizzo, vedere l'esempio di utilizzo nella sezione Vedere anche .

Se sono disponibili i tre esempi di testo seguenti, come punti dati e si usa la trasformazione LDA con il numero di argomenti impostati su 3, si otterrebbero i risultati visualizzati nella tabella seguente. Documenti di esempio:

  • Mi piace mangiare banane.
  • Mangio le banane ogni giorno.
  • La prima celebrazione nel 1970, la Giornata della Terra include ora eventi in più di 193 paesi, ora coordinati a livello globale dalla Rete della Giornata della Terra.

Si noti la somiglianza nei valori della prima e della seconda riga, rispetto alla terza e si noterà come tali valori sono indicativi di analogie tra i due corpi di testo (piccoli).

Argomento1 Argomento2 Argomento 3
0.5714 0,0000 0.4286
0.5714 0,0000 0.4286
0.2400 0.3200 0.4400

Per maggiori dettagli tecnici, consultare i documenti seguenti.

Vedere la sezione Vedere anche i collegamenti agli esempi di utilizzo.

Metodi

Fit(IDataView)

Esegue il training e restituisce un oggetto LatentDirichletAllocationTransformer.

GetOutputSchema(SchemaShape)

Restituisce l'oggetto SchemaShape dello schema che verrà prodotto dal trasformatore. Usato per la propagazione e la verifica dello schema in una pipeline.

Metodi di estensione

AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment)

Aggiungere un "checkpoint di memorizzazione nella cache" alla catena di stima. Ciò garantisce che gli estimatori downstream vengano sottoposti a training in base ai dati memorizzati nella cache. È utile avere un checkpoint di memorizzazione nella cache prima che i formatori eseseguono più passaggi di dati.

WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>)

Dato un estimator, restituire un oggetto wrapping che chiamerà un delegato una volta Fit(IDataView) chiamato. È spesso importante che uno strumento di stima restituisca informazioni sull'adattamento, motivo per cui il Fit(IDataView) metodo restituisce un oggetto tipizzato in modo specifico, anziché solo un oggetto generale ITransformer. Tuttavia, allo stesso tempo, IEstimator<TTransformer> vengono spesso formati in pipeline con molti oggetti, quindi potrebbe essere necessario creare una catena di estimatori tramite EstimatorChain<TLastTransformer> dove lo strumento di stima per il quale si vuole ottenere il trasformatore è sepolto in una posizione in questa catena. Per questo scenario, è possibile collegare un delegato che verrà chiamato una volta chiamato fit.

Si applica a

Vedi anche