Condividi tramite


Ottenere informazioni dettagliate sull'inferenza degli argomenti

Inferenza degli argomenti

L'inferenza degli argomenti crea informazioni dettagliate derivate dall'audio trascritto, dal contenuto OCR nel testo visivo e dalle celebrità riconosciute nel video usando il modello di riconoscimento facciale di Video Indexer.

Nel portale Web gli argomenti e le categorie estratti (se disponibili) sono elencati nella scheda Informazioni dettagliate. Per passare all'argomento nel file multimediale, selezionare un argomento -> Riproduci precedente o Riproduci successivo.

Casi d'uso dell'inferenza degli argomenti

  • Personalizzazione utilizzando argomenti inferenza per soddisfare gli interessi dei clienti, ad esempio siti Web su Inghilterra pubblicare promozioni su film o festival inglesi.
  • Ricerca approfondita degli archivi per informazioni dettagliate su argomenti specifici per creare storie di funzionalità su aziende, persone o tecnologie, ad esempio da un'agenzia di notizie.
  • Monetizzazione, aumentando la pena di ottenere informazioni dettagliate estratte. Ad esempio, settori come le notizie o i social media che si basano sui ricavi degli annunci possono fornire annunci pertinenti usando le informazioni dettagliate estratte come segnali aggiuntivi al server annunci.

Visualizzare il codice JSON di informazioni dettagliate con il portale Web

Dopo aver caricato e indicizzato un video, le informazioni dettagliate sono disponibili in formato JSON per il download tramite il portale Web.

  1. Selezionare la scheda Libreria .
  2. Selezionare i supporti con cui si vuole lavorare.
  3. Selezionare Download (Download) e Insights (JSON).Select Download and the Insights (JSON). Il file JSON viene aperto in una nuova scheda del browser.
  4. Cercare la coppia di chiavi descritta nella risposta di esempio.

Usare l'API

  1. Usare la richiesta Recupera indice video . È consigliabile &includeSummarizedInsights=falsepassare .
  2. Cercare le coppie chiave descritte nella risposta di esempio.

Esempio di risposta

    "topics": [
      {
        "id": 1,
        "name": "Pens",
        "referenceId": "Category:Pens",
        "referenceUrl": "https://en.wikipedia.org/wiki/Category:Pens",
        "referenceType": "Wikipedia",
        "confidence": 0.6833,
        "iabName": null,
        "language": "en-US",
        "instances": [
          {
            "adjustedStart": "0:00:30",
            "adjustedEnd": "0:01:17.5",
            "start": "0:00:30",
            "end": "0:01:17.5"
          }
        ]
      },
      {
        "id": 2,
        "name": "Musical groups",
        "referenceId": "Category:Musical_groups",
        "referenceUrl": "https://en.wikipedia.org/wiki/Category:Musical_groups",
        "referenceType": "Wikipedia",
        "confidence": 0.6812,
        "iabName": null,
        "language": "en-US",
        "instances": [
          {
            "adjustedStart": "0:01:10",
            "adjustedEnd": "0:01:17.5",
            "start": "0:01:10",
            "end": "0:01:17.5"
          }
        ]
      },

Importante

È importante leggere la panoramica delle note sulla trasparenza per tutte le funzionalità vi. Ogni informazione ha anche note sulla trasparenza proprie:

Note di inferenza degli argomenti

  • Quando si carica un file, usare sempre contenuti video di alta qualità. La dimensione massima consigliata dei fotogrammi è HD e la frequenza dei fotogrammi è di 30 FPS. Un frame non deve contenere più di 10 persone. Quando si generano fotogrammi da video a modelli di intelligenza artificiale, inviare solo circa due o tre fotogrammi al secondo. L'elaborazione di 10 e più fotogrammi potrebbero ritardare il risultato dell'intelligenza artificiale.
  • Quando si carica un file, usare sempre contenuti audio e video di alta qualità. Per eseguire l'analisi è necessario almeno 1 minuto di parlato colloquiale spontaneo. Gli effetti audio vengono rilevati solo in segmenti non speciali. La durata minima di una sezione non speciale è di 2 secondi. I comandi vocali e il canto non sono supportati.
  • In genere, piccole persone o oggetti sotto i 200 pixel e le persone che sono seduti potrebbero non essere rilevate. Le persone che indossano vestiti o uniformi simili potrebbero essere rilevati come la stessa persona e hanno lo stesso numero ID. Le persone o gli oggetti che vengono ostruiti potrebbero non essere rilevati. Le tracce delle persone con pose front-and-back potrebbero essere suddivise in istanze diverse.

Componenti di inferenza degli argomenti

Componente Definizione
Lingua di origine L'utente carica il file di origine per l'indicizzazione.
Pre-elaborazione Le interfacce di trascrizione, OCR e riconoscimento facciale estraggono informazioni dettagliate dal file multimediale.
Elaborazione di informazioni dettagliate L'intelligenza artificiale degli argomenti analizza le informazioni dettagliate di trascrizione, OCR e riconoscimento facciale estratte durante la pre-elaborazione:
- Testo trascritto, ogni riga di informazioni dettagliate testuali trascritte viene esaminata usando tecnologie di intelligenza artificiale basate sull'ontologia.
- Le informazioni dettagliate sul riconoscimento facciale e OCR vengono esaminate insieme usando tecnologie di IA basate sull'ontologia.
Post-elaborazione - Testo trascritto, informazioni dettagliate vengono estratte e collegate a una categoria Topic insieme al numero di riga del testo trascritto. Ad esempio, la politica nella riga 7.
- Riconoscimento facciale e OCR, ogni informazione è associata a una categoria Argomento insieme all'ora dell'istanza dell'argomento nel file multimediale. Ad esempio, Freddie Mercury nelle categorie People and Music alle 20.00.
Valore di attendibilità Il livello di attendibilità stimato di ogni argomento viene calcolato come intervallo compreso tra 0 e 1. Il punteggio di attendibilità rappresenta la certezza nell'accuratezza del risultato. Ad esempio, una certezza dell'82% è rappresentata come punteggio di 0,82.

Codice di esempio

Vedere tutti gli esempi per VI