Domande frequenti sul riconoscimento di entità denominate personalizzate

Questo articolo offre risposte alle domande frequenti sui concetti e gli scenari correlati al Riconoscimento entità denominata in Lingua di Azure in Foundry Tools.

Come si inizia a usare il servizio?

Per altre informazioni, vedere la guida introduttiva o come creare progetti.

Quali sono i limiti del servizio?

Per altre informazioni, vederelimiti del servizio.

Quanti file con tag sono necessari?

In genere, dati con tag diversi e rappresentativi generano risultati migliori poiché l'assegnazione di tag viene eseguita in modo preciso, coerente e completo. Non esiste un numero fisso di istanze con tag affinché un modello garantisca buone prestazioni. Le prestazioni dipendono in larga misura dallo schema e dall'ambiguità dello schema. I tipi di entità ambigui necessitano di più tag. Le prestazioni dipendono anche dalla qualità di assegnazione dei tag. Il numero consigliato di istanze con tag per entità è 50.

Quanto tempo deve essere necessario per eseguire il training di un modello?

Il processo di training potrebbe richiedere molto tempo. Come stima approssimativa, il tempo di training previsto per i file con una lunghezza combinata di 12.800.000 caratteri è di 6 ore.

Come si crea un modello personalizzato a livello di codice?

Nota

Attualmente è possibile creare un modello solo usando l'API REST o Language Studio.

È possibile usare le API REST per creare modelli personalizzati. Seguire questa guida introduttiva per iniziare a creare un progetto e un modello tramite le API, per esempi su come chiamare l'API di creazione.

Quando si è pronti per iniziare a usare il modello per eseguire stime, è possibile usare l'API REST o la libreria client.

Qual è il processo CI/CD consigliato?

Ecco un elenco di azioni eseguite all'interno di Microsoft Foundry:

Eseguire il training di più modelli nello stesso set di dati all'interno di un singolo progetto.
Visualizzare le prestazioni del modello.
Distribuire e testare il modello e aggiungere o rimuovere etichette dai dati.
Scegliere la modalità di suddivisione del set di dati in set di training e test.

I dati possono essere suddivisi in modo casuale in set di training e test, ma ciò significa che la valutazione del modello potrebbe non essere basata sullo stesso set di test, rendendo i risultati non incomparabili. È consigliabile sviluppare un set di test personalizzato e usarlo per valutare entrambi i modelli per misurare con precisione i miglioramenti.

Assicurarsi di esaminare i limiti del servizio per comprendere il numero massimo di modelli sottoposti a training consentiti per ogni progetto.

Un punteggio basso o alto del modello garantisce prestazioni negative o buone nell'ambiente di produzione?

La valutazione del modello potrebbe non essere sempre completa. L'ambito dipende dai fattori seguenti:

Dimensioni del set di test. Se il set di test è troppo piccolo, i punteggi buoni/negativi non sono rappresentativi delle prestazioni effettive del modello. Inoltre, se un tipo di entità specifico è mancante o sottorappresentato nel set di test, influisce sulle prestazioni del modello.
La diversità dei dati. Se i dati includono solo un numero limitato di scenari o esempi del testo previsto nell'ambiente di produzione, il modello potrebbe non riscontrare tutte le possibili situazioni. Di conseguenza, il modello potrebbe comportare prestazioni scarse in caso di scenari sconosciuti.
Rappresentazione nei tuoi dati Se il set di dati usato per eseguire il training del modello non è rappresentativo dei dati che verrebbero introdotti nel modello in produzione, le prestazioni del modello sono influenzate notevolmente.

Per altre informazioni, vedereSelezione dei dati e progettazione dello schema.

Come si migliorano le prestazioni del modello?

Visualizzare il modello matrice di confusione. Se si nota che un determinato tipo di entità non viene spesso stimato correttamente, è consigliabile aggiungere altre istanze con tag per questa classe.

Quando due tipi di entità diversi vengono spesso previste l'una come l'altra, significa che lo schema manca di chiarezza. Per migliorare le prestazioni, è consigliabile combinare questi due tipi di entità in un unico tipo unificato. Se due tipi di entità vengono erroneamente scambiati tra loro durante la stima, questo risultato suggerisce ambiguità nello schema. L'unione in un unico tipo di entità consente di migliorare l'accuratezza complessiva del modello.

Esaminare le stime dei set di test. Se uno dei tipi di entità ha molte più istanze con tag rispetto alle altre, il modello potrebbe essere distorto verso questo tipo. Aggiungere altri dati agli altri tipi di entità o rimuovere esempi dal tipo dominante.
Altre informazioni sulla selezione dei dati e sulla progettazione dello schema.
Esaminare il set di test. Esaminare le entità stimate insieme alle entità contrassegnate e ottenere una comprensione più chiara dell'accuratezza del modello. Questo confronto consente di determinare se sono necessarie modifiche allo schema o al set di tag.

Perché si ottengono risultati diversi quando si ripete il training del modello?

Quando si esegue il training del modello, è possibile determinare se si vuole suddividere i dati in modo casuale in set di training e test. Se si sceglie di procedere, non è garantito che la valutazione del modello venga eseguita nello stesso set di test, il che significa che i risultati potrebbero non essere direttamente confrontabili. In questo modo, si rischia di valutare il modello in un set di test diverso, rendendo impossibile confrontare in modo affidabile i risultati.
Se si esegue nuovamente il training dello stesso modello, il set di test è lo stesso, ma è possibile notare una leggera modifica nelle stime effettuate dal modello. Il problema si verifica perché il modello sottoposto a training non dispone di affidabilità sufficiente. Questo risultato dipende dalla qualità dei dati che rappresentano scenari diversi, dal modo in cui i punti dati sono distinti e dalla qualità complessiva dell'assegnazione di tag ai dati. Diversi fattori influenzano le prestazioni del modello. L'affidabilità del modello, l'distintività e la diversità del set di dati e la precisione e l'uniformità dei tag assegnati ai dati svolgono tutti ruoli importanti. Per ottenere risultati ottimali, è necessario assicurarsi che il set di dati non solo rappresenti accuratamente il dominio di destinazione, ma offre anche esempi univoci e che tutti i tag vengano applicati sia con coerenza che con precisione in tutti i dati.

Come si ottengono stime in lingue diverse?

Prima di tutto, è necessario abilitare l'opzione multilingue durante la creazione del progetto oppure abilitarla in un secondo momento dalla pagina delle impostazioni del progetto. Dopo aver eseguito il training e la distribuzione del modello, è possibile iniziare a eseguire query in più lingue. È possibile ottenere risultati diversi per lingue diverse. Per migliorare la precisione di qualsiasi lingua, aggiungere altre istanze con tag al progetto in quella lingua per far conoscere al modello addestrato una quantità maggiore di sintassi di quella lingua.

Ho eseguito il training del modello, ma non riesco a testarlo

È necessario distribuire il modello prima di poterlo testare.

Come posso usare il mio modello addestrato per le previsioni?

Dopo aver distribuito il modello, chiamare l’API di stima usando l’API REST o le librerie client.

Privacy e sicurezza dei dati

I dati vengono archiviati solo nell'account di Archiviazione di Microsoft Azure. Il Riconoscimento entità denominata personalizzato ha accesso solo in lettura durante il training. Gli utenti NER personalizzati hanno il controllo completo per visualizzare, esportare o eliminare qualsiasi contenuto utente tramite Foundry o a livello di codice usando le API REST. Per altre informazioni, vedereDati, privacy e sicurezza per la lingua

Come si clona il progetto?

Per clonare il progetto, è necessario usare l'API di esportazione per esportare gli asset di progetto e quindi importarli in un nuovo progetto. Vedere le informazioni di riferimento sulle API REST per entrambe le operazioni.

Passaggi successivi

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2025-11-18