Eseguire il training del modello di riconoscimento delle entità denominato personalizzato

Il training è il processo in cui il modello apprende dai dati etichettati. Al termine del training, sarà possibile visualizzare le prestazioni del modello per determinare se è necessario migliorare il modello.

Per eseguire il training di un modello, avviare un processo di training e creare un modello solo i processi completati correttamente. I processi di training scadono dopo sette giorni, il che significa che non sarà possibile recuperare i dettagli del processo dopo questa volta. Se il processo di training è stato completato correttamente e un modello è stato creato, il modello non sarà interessato. È possibile avere un solo processo di training in esecuzione alla volta e non è possibile avviare altri processi nello stesso progetto.

I tempi di training possono essere ovunque da pochi minuti quando si gestiscono pochi documenti, fino a diverse ore a seconda delle dimensioni del set di dati e della complessità dello schema.

Prerequisiti

  • Progetto creato correttamente con un account di archiviazione BLOB di Azure configurato
  • Dati di testo caricati nell'account di archiviazione.
  • Dati etichettati

Per altre informazioni, vedere il ciclo di vita dello sviluppo del progetto .

Separazione dei dati

Prima di avviare il processo di training, i documenti etichettati nel progetto sono suddivisi in un set di training e in un set di test. Ognuno di essi serve una funzione diversa. Il set di training viene usato nel training del modello, questo è il set da cui il modello apprende le entità etichettate e gli intervalli di testo da estrarre come entità. Il set di test è un set cieco che non viene introdotto nel modello durante il training, ma solo durante la valutazione. Al termine del training del modello, il modello viene usato per eseguire stime dai documenti nei test e in base a queste metriche di valutazione delle stime vengono calcolate. È consigliabile assicurarsi che tutte le entità siano adeguatamente rappresentate sia nel set di training che nel set di test.

Il NER personalizzato supporta due metodi per la suddivisione dei dati:

  • Suddividere automaticamente il set di test dai dati di training: il sistema suddividerà i dati etichettati tra i set di training e test, in base alle percentuali scelte. La divisione percentuale consigliata è il 80% per il training e il 20% per i test.

Nota

Se si sceglie l'opzione Divisione automatica del set di test dai dati di training , solo i dati assegnati al set di training verranno suddivisi in base alle percentuali fornite.

  • Usare una suddivisione manuale dei dati di training e test: questo metodo consente agli utenti di definire quali documenti etichettati devono appartenere a quale set. Questo passaggio è abilitato solo se sono stati aggiunti documenti al set di test durante l'etichettatura dei dati.

Eseguire il training del modello

Per avviare il training del modello da Language Studio:

  1. Selezionare Processi di training dal menu a sinistra.

  2. Selezionare Avvia un processo di training dal menu superiore.

  3. Selezionare Esegui il training di un nuovo modello e digita il nome del modello nella casella di testo. È anche possibile sovrascrivere un modello esistente selezionando questa opzione e scegliendo il modello da sovrascrivere dal menu a discesa. Sovrascrivere un modello sottoposto a training è irreversibile, ma non influisce sui modelli distribuiti finché non si distribuisce il nuovo modello.

    Creare un nuovo processo di formazione

  4. Selezionare il metodo di divisione dei dati. È possibile scegliere Suddivisione automatica del set di test dai dati di training in cui il sistema suddividerà i dati etichettati tra i set di training e test, in base alle percentuali specificate. In alternativa, è possibile usare una suddivisione manuale dei dati di training e test, questa opzione è abilitata solo se sono stati aggiunti documenti al set di test durante l'etichettatura dei dati. Vedere Come eseguire il training di un modello per informazioni sulla suddivisione dei dati.

  5. Selezionare il pulsante Esegui training .

  6. Se si seleziona l'ID processo di training dall'elenco, verrà visualizzato un riquadro laterale in cui è possibile controllare lo stato del training, lo stato del processo e altri dettagli per questo processo.

    Nota

    • Solo i processi di training completati genereranno modelli.
    • Il training può richiedere tempo tra un paio di minuti e diverse ore in base alle dimensioni dei dati etichettati.
    • È possibile eseguire un solo processo di training alla volta. Non è possibile avviare altri processi di training nello stesso progetto fino al completamento del processo in esecuzione.

Annullare il processo di training

Per annullare un processo di training da Language Studio, passare alla pagina Processi di training . Selezionare il processo di training da annullare e selezionare Annulla dal menu in alto.

Passaggi successivi

Al termine del training, sarà possibile visualizzare le prestazioni del modello per migliorare facoltativamente il modello se necessario. Dopo aver soddisfatto il modello, è possibile distribuirlo, rendendolo disponibile per l'estrazione di entità dal testo.