Definizioni e termini di riconoscimento delle entità denominati personalizzati

Articolo
12/19/2023

Usare questo articolo per informazioni su alcune definizioni e termini che è possibile riscontrare quando si usa NER personalizzato.

Entità

Un'entità è un intervallo di testo che indica un determinato tipo di informazioni. L'intervallo di testo può essere costituito da una o più parole. Nell'ambito del NER personalizzato, le entità rappresentano le informazioni che l'utente vuole estrarre dal testo. Gli sviluppatori tagano entità all'interno dei dati con le entità necessarie prima di passarla al modello per il training. Ad esempio, "Numero di fattura", "Data di inizio", "Numero di spedizione", "Luogo di nascita", "Città origine", "Nome fornitore" o "Indirizzo client".

Ad esempio, nella frase "John ha preso in prestito 25.000 USD da Fred." le entità potrebbero essere:

Nome entità/tipo	Entità
Nome del prestito	John
Nome del nder	Fred
Importo prestito	25.000 USD

Punteggio F1

Il punteggio F1 è una funzione di precisione e richiamo. È necessario quando si cerca un equilibrio tra precisione e richiamo.

Modellare

Un modello è un oggetto sottoposto a training per eseguire un'attività specifica, in questo caso il riconoscimento di entità personalizzato. I modelli vengono sottoposti a training fornendo dati etichettati da cui apprendere in modo che possano essere usati in un secondo momento per le attività di riconoscimento.

Il training dei modelli è il processo di insegnamento del modello da estrarre in base ai dati etichettati.
La valutazione del modello è il processo che si verifica subito dopo il training per sapere come eseguire correttamente il modello.
La distribuzione è il processo di assegnazione del modello a una distribuzione per renderlo disponibile per l'uso tramite l'API di stima.

Precisione

Misura la precisione/precisione del modello. È il rapporto tra i positivi identificati correttamente (veri positivi) e tutti i positivi identificati. La metrica di precisione rivela il numero di classi stimate etichettate correttamente.

Project

Un progetto è un'area di lavoro per la creazione di modelli di Machine Learning personalizzati in base ai dati. Il progetto può essere accessibile solo dall'utente e da altri utenti che hanno accesso alla risorsa di Azure usata. Come prerequisito per la creazione di un progetto di estrazione di entità personalizzato, è necessario connettere la risorsa a un account di archiviazione con il set di dati quando si crea un nuovo progetto. Il progetto include automaticamente tutti i .txt file disponibili nel contenitore.

All'interno del progetto è possibile eseguire le azioni seguenti:

Etichettare i dati: processo di etichettatura dei dati in modo che quando si esegue il training del modello si apprenderà ciò che si vuole estrarre.
Compilare e eseguire il training del modello: il passaggio principale del progetto, in cui il modello inizia a imparare dai dati etichettati.
Visualizzare i dettagli della valutazione del modello: esaminare le prestazioni del modello per decidere se è disponibile un miglioramento o si è soddisfatti dei risultati.
Distribuzione: dopo aver esaminato le prestazioni del modello e deciso che può essere usato nell'ambiente, è necessario assegnarlo a una distribuzione per usarlo. L'assegnazione del modello a una distribuzione lo rende disponibile per l'uso tramite l'API di stima.
Modello di test: dopo aver distribuito il modello, testare la distribuzione in Language Studio per vedere come eseguire nell'ambiente di produzione.

Richiamo

Misura la capacità del modello di stimare le classi positive effettive. È il rapporto tra i veri positivi stimati e ciò che è stato effettivamente contrassegnato. La metrica di richiamo rivela il numero di classi stimate corrette.