Condividi tramite


Termini e definizioni usate nella classificazione personalizzata del testo

Questo articolo contiene informazioni su alcune definizioni e termini che possono essere rilevati quando si usa la classificazione personalizzata del testo.

Classe

Una classe è una categoria definita dall'utente che indica la classificazione complessiva del testo. Gli sviluppatori etichettano i dati con le loro classi prima di passarli al modello per il training.

Punteggio F1

Il punteggio F1 è una funzione di Precisione e Richiamo. È necessario quando l’obiettivo è bilanciare precisione e richiamo.

Modello

Un modello è un oggetto sottoposto a training per l’esecuzione di una determinata attività, in questo caso attività di classificazione del testo. I modelli vengono sottoposti a training fornendo dati etichettati da cui apprendere in modo che possano essere usati in un secondo momento per attività di classificazione.

  • Il training del modello è il processo con cui si insegna al modello come classificare i documenti in base ai dati etichettati.
  • La valutazione del modello è il processo che avviene subito dopo il training per valutare le prestazioni del modello.
  • La distribuzione è il processo che consiste nell’assegnare un modello a una distribuzione per renderlo disponibile all'uso tramite l'API di stima.

Precisione

Misura la precisione o l'accuratezza del modello. È il rapporto tra i positivi identificati correttamente (veri positivi) e tutti i positivi identificati. La metrica Precision rivela quante delle classi stimate sono etichettate correttamente.

Project

Un progetto è un'area di lavoro per la creazione di modelli di Machine Learning personalizzati in base ai dati. Al progetto può accedere solo l'utente e altri utenti che hanno accesso alla risorsa di Azure in uso. Come prerequisito per la creazione di un progetto di classificazione personalizzata del testo, è necessario connettere la propria risorsa a un account di archiviazione con un proprio set di dati quando si crea un nuovo progetto. Il progetto include automaticamente tutti i file .txt disponibili nel contenitore.

All’interno del progetto è possibile effettuare le operazioni seguenti:

  • Etichettare i dati: è il processo di etichettatura dei dati in modo che, quando si esegue il training, il modello apprende cosa estrarre.
  • Creare ed eseguire il training del modello: è il passaggio principale del progetto in cui il modello inizia ad apprendere dai dati etichettati.
  • Visualizzare i dettagli di valutazione del modello: esaminare le prestazioni del modello per decidere se esistono aree di miglioramento o se i risultati sono soddisfacenti.
  • Distribuzione: dopo aver esaminato le prestazioni del modello e aver deciso che è adatto all’uso nel proprio ambiente, è necessario assegnarlo a una distribuzione per l’esecuzione di query. L’assegnazione di un modello a una distribuzione consente di renderlo disponibile all'uso tramite l'API di stima.
  • Testare il modello: dopo la distribuzione del modello, è possibile usare questa operazione in Language Studio per provare la distribuzione e scoprire come funzionerebbe nell'ambiente di produzione.

Tipi di progetto

La classificazione personalizzata del testo supporta due tipi di progetti

  • Classificazione con etichetta singola: è possibile assegnare una singola classe per ogni documento nel set di dati. Ad esempio, la trama di un film può essere classificata solo come "Romanticismo" o "Commedia".
  • Classificazione multietichetta: è possibile assegnare più classi per ogni documento nel set di dati. Ad esempio, la trama di un film può essere classificata come “Commedia” o "Storia d’amore" e "Commedia".

Richiamo

Misura la capacità del modello di stimare le classi positive effettive. È il rapporto tra i veri positivi stimati e ciò che è stato effettivamente contrassegnato. La metrica di richiamo indica il numero di classi stimate che sono corrette.

Passaggi successivi