Share via


Etichettare i dati di testo per il training del modello

Prima di eseguire il training del modello, è necessario etichettare i documenti con le classi in cui categorizzare il modello. L'etichettatura dei dati è un passaggio fondamentale del ciclo di vita dello sviluppo; in questo passaggio è possibile creare le classi in cui classificare i dati ed etichettare i documenti con queste classi. Questi dati verranno usati nel passaggio successivo durante il training del modello in modo che il modello possa apprendere dai dati etichettati. Se i dati sono già etichettati, è possibile importarli direttamente nel progetto, ma è necessario assicurarsi che i dati seguano il formato dati accettato.

Prima di creare un modello di classificazione del testo personalizzato, è necessario avere prima i dati etichettati. Se i dati non sono già etichettati, è possibile etichettarlo in Language Studio. I dati etichettati comunicano al modello come interpretare il testo e vengono usati per il training e la valutazione.

Prerequisiti

Prima di poter etichettare i dati, è necessario:

Per altre informazioni, vedere il ciclo di vita dello sviluppo del progetto .

Linee guida per l'etichettatura dei dati

Dopo aver preparato i dati, progettare lo schema e creare il progetto, sarà necessario etichettare i dati. L'etichettatura dei dati è importante in modo che il modello sappia quali documenti saranno associati alle classi necessarie. Quando si etichettano i dati in Language Studio (o si importano dati etichettati), queste etichette verranno archiviate nel file JSON nel contenitore di archiviazione connesso a questo progetto.

Quando si etichettano i dati, tenere presente quanto segue:

  • In generale, più dati etichettati generano risultati migliori, a condizione che i dati siano etichettati in modo accurato.

  • Non esiste un numero fisso di etichette che possono garantire che il modello esegua le prestazioni migliori. Modellare le prestazioni in base alle possibili ambiguità nello schema e alla qualità dei dati etichettati. Tuttavia, è consigliabile 50 documenti etichettati per classe.

Assegnare etichette ai dati

Per etichettare i dati, seguire questa procedura:

  1. Passare alla pagina del progetto in Language Studio.

  2. Nel menu a sinistra selezionare Etichettatura dati. È possibile trovare un elenco di tutti i documenti nel contenitore di archiviazione. Vedere l'immagine seguente.

    Suggerimento

    È possibile usare i filtri nel menu in alto per visualizzare i file senza etichetta in modo che sia possibile iniziare a etichettarli. È anche possibile usare i filtri per visualizzare i documenti etichettati con una classe specifica.

  3. Passare a una singola visualizzazione file dal lato sinistro nel menu in alto o selezionare un file specifico per avviare l'etichettatura. È possibile trovare un elenco di tutti i .txt file disponibili nei progetti a sinistra. È possibile usare il pulsante Indietro e Avanti nella parte inferiore della pagina per spostarsi tra i documenti.

    Nota

    Se sono state abilitate più lingue per il progetto, sarà disponibile un elenco a discesa Lingua nel menu in alto, che consente di selezionare la lingua di ogni documento.

  4. Nel riquadro laterale destro aggiungere una classe al progetto in modo da iniziare a etichettare i dati con essi.

  5. Iniziare a etichettare i file.

    Classificazione con più etichette: il file può essere etichettato con più classi, è possibile farlo selezionando tutte le caselle di controllo applicabili accanto alle classi con cui si vuole etichettare il documento.

    Screenshot che mostra la pagina del tag di classificazione con più etichette.

    È anche possibile usare la funzionalità di etichettatura automatica per garantire l'etichettatura completa.

  6. Nel riquadro laterale destro sotto il pivot Etichette è possibile trovare tutte le classi nel progetto e il numero di istanze etichettate per ogni classe.

  7. Nella sezione inferiore del riquadro a destra è possibile aggiungere il file corrente visualizzato al set di training o al set di test. Per impostazione predefinita, tutti i documenti vengono aggiunti al set di training. Altre informazioni sui set di training e test e su come vengono usati per il training e la valutazione del modello.

    Suggerimento

    Se si prevede di usare la suddivisione automatica dei dati, usare l'opzione predefinita per assegnare tutti i documenti al set di training.

  8. Nel pivot Distribuzione è possibile visualizzare la distribuzione tra set di training e test. Sono disponibili due opzioni per la visualizzazione:

    • Totale istanze in cui è possibile visualizzare il numero di tutte le istanze etichettate di una classe specifica.
    • documenti con almeno un'etichetta in cui ogni documento viene conteggiato se contiene almeno un'istanza etichettata di questa classe.
  9. Durante l'assegnazione di etichette, le modifiche verranno sincronizzate periodicamente, se non sono ancora state salvate, verrà visualizzato un avviso nella parte superiore della pagina. Per salvare manualmente, selezionare il pulsante Salva etichette nella parte inferiore della pagina.

Rimuovere etichette

Se si vuole rimuovere un'etichetta, deselezionare il pulsante accanto alla classe .

Eliminare o classi

Per eliminare una classe, selezionare l'icona elimina accanto alla classe da rimuovere. L'eliminazione di una classe rimuoverà tutte le istanze etichettate dal set di dati.

Passaggi successivi

Dopo aver etichettato i dati, è possibile iniziare a eseguire il training di un modello che apprenderà in base ai dati.