Condividi tramite


Personalizzare un modello linguistico con Video Indexer di Intelligenza artificiale di Azure

Avviso

Nell'ultimo anno, Azure AI Video Indexer (VI) ha annunciato la rimozione della dipendenza da Servizi multimediali di Azure (AMS) a causa del ritiro. Sono state annunciate modifiche e modifiche alle funzionalità e è stata fornita una guida alla migrazione.

La scadenza per completare la migrazione è stata il 30 giugno 2024. VI ha esteso la scadenza dell'aggiornamento/migrazione in modo da poter aggiornare l'account VI e acconsentire esplicitamente alla migrazione degli asset AMS VI fino al 31 agosto 2024.

Tuttavia, dopo il 30 giugno, se non è stato aggiornato l'account VI, non sarà possibile indicizzare nuovi video né sarà possibile riprodurre i video di cui non è stata eseguita la migrazione. Se si aggiorna l'account dopo il 30 giugno, è possibile riprendere immediatamente l'indicizzazione, ma non sarà possibile riprodurre video indicizzati prima dell'aggiornamento dell'account fino a quando non viene eseguita la migrazione tramite la migrazione di AMS VI.

Video Indexer di Azure per intelligenza artificiale supporta il riconoscimento vocale automatico tramite l'integrazione con il servizio Di riconoscimento vocale personalizzato Microsoft. È possibile personalizzare il modello linguistico caricando il testo di adattamento. Questo testo proviene dal dominio il cui vocabolario si desidera che il motore usi per adattarsi. Dopo aver eseguito il training del modello, vengono riconosciute nuove parole che appaiono nel testo dell'adattamento, presupponendo la pronuncia predefinita e il modello linguistico apprende nuove sequenze probabili di parole. Vedere l'elenco dei linguaggi supportati da Azure AI Video Indexer in langues supportati.

Ad esempio, "Kubernetes" (nel contesto del servizio Azure Kubernetes), è una parola altamente specifica. Poiché la parola è una novità di Azure AI Video Indexer, viene riconosciuta come "community". È necessario eseguire il training del modello per riconoscerlo come "Kubernetes". In altri casi, le parole esistono, ma il modello linguistico non si aspetta che vengano visualizzate in un determinato contesto. Ad esempio, "servizio contenitore" non è una sequenza di 2 parole che un modello linguistico non specifico riconosce come un set specifico di parole.

Esistono due modi per personalizzare un modello linguistico:

  • Opzione 1: Modificare la trascrizione generata da Azure AI Video Indexer. Modificando e correggendo la trascrizione, si sta eseguendo il training di un modello linguistico per offrire risultati migliorati in futuro.
  • Opzione 2: Caricare file di testo per eseguire il training del modello linguistico. Il file di caricamento può contenere un elenco di parole come si desidera che vengano visualizzate nella trascrizione di Video Indexer o le parole pertinenti incluse naturalmente in frasi e paragrafi. Poiché si ottengono risultati migliori con quest'ultimo approccio, è consigliabile che il file di caricamento contenga frasi o paragrafi completi correlati al contenuto.

Importante

Non includere nel file di caricamento le parole o le frasi come attualmente trascritto in modo non corretto (ad esempio, "community" perché ciò nega l'impatto previsto. Includere solo le parole desiderate per visualizzarle, ad esempio "Kubernetes".

Procedure consigliate per modelli linguistici personalizzati

Video Indexer di Azure per intelligenza artificiale apprende in base alle probabilità delle combinazioni di parole, per imparare meglio:

  • Indicare un numero sufficiente di esempi concreti di frasi come verrebbero pronunciate.
  • Inserire solo una frase per ogni riga, non un numero maggiore. In caso contrario, il sistema apprenderà in base alle probabilità tra le frasi.
  • Va bene mettere una parola come frase per aumentare la parola contro gli altri, ma il sistema impara meglio dalle frasi complete.
  • Quando si introducono nuove parole oppure acronimi, è opportuno assegnare molti esempi di uso in una frase completa per dare il maggior contesto possibile al sistema.
  • Provare a inserire diverse opzioni di adattamento per scoprirne il funzionamento.
  • Evitare la ripetizione della stessa frase esatta più volte perché potrebbe causare distorsione rispetto al resto dell'input.
  • Evitare di includere simboli non comuni (~, # @ % &) man mano che verranno eliminati. come le frasi in cui sono presenti.
  • Evitare di inserire input di dimensioni eccessive, ad esempio centinaia di migliaia di frasi, perché verrebbe ridotto l'effetto dell'aumento.