Konfigurationsguiden för indexering

Det är viktigt att förstå konfigurationsalternativen för att indexera effektivt samtidigt som du uppfyller indexeringsmålen. När du indexerar videor kan användarna använda standardinställningarna eller justera många av inställningarna. Med Azure AI Video Indexer kan du välja mellan olika språk, indexering, anpassade modeller och strömningsinställningar som påverkar de insikter som genereras, kostnader och prestanda.

Den här artikeln förklarar vart och ett av alternativen och effekten av varje alternativ för att aktivera välgrundade beslut vid indexering. I artikeln beskrivs webbplatsen för Azure AI Video Indexer, men samma alternativ gäller när jobb skickas via API:et (se API-guiden). När du indexerar stora volymer följer du guiden i stor skala.

Den första uppladdningsskärmen visar alternativ för att definiera videonamn, källspråk och sekretessinställningar.

Skärmbild som visar alternativ för att definiera videonamn, källspråk och sekretessinställningar.

Alla andra inställningsalternativ visas om du väljer Avancerade alternativ.

Skärmbild som visar avancerade alternativ för att definiera videonamn, källspråk och sekretessinställningar.

Standardinställningar

Som standard är Azure AI Video Indexer konfigurerat till ett videokällspråk för engelska, sekretess för privat, standardinställning för ljud och video och direktuppspelningskvalitet för enkel bithastighet.

Dricks

I det här avsnittet beskrivs varje indexeringsalternativ i detalj.

Nedan följer några exempel på när du använder standardinställningen kanske inte passar bra:

  • Om du behöver insikter observerade personer eller matchade personer som endast är tillgängliga via Avancerad video.
  • Om du bara använder Azure AI Video Indexer för transkription och översättning krävs inte indexering av både ljud och video, basic för ljud räcker.
  • Om du använder Azure AI Video Indexer-insikter men inte behöver generera en ny mediefil behövs inte direktuppspelning och Ingen direktuppspelning bör väljas för att undvika kodningsjobbet och dess tillhörande kostnad.
  • Om en video främst är på ett språk som inte är engelska.

Videokällans språk

Om du känner till språket som talas i videon väljer du språket i listan över videokällor. Om du är osäker på språket i videon väljer du Identifiera ett enskilt språk automatiskt. När du laddar upp och indexerar videon använder Azure AI Video Indexer språkidentifiering (LID) för att identifiera videospråket och generera transkription och insikter med det identifierade språket.

Om videon kan innehålla flera språk och du inte är säker på vilka, väljer du Identifiera flera språk automatiskt. I det här fallet tillämpas mlid-identifiering (multi-language) vid uppladdning och indexering av videon.

Även om automatisk identifiering är ett bra alternativ när språket i dina videor varierar, finns det två saker att tänka på när du använder LID eller MLID:

  • LID/MLID stöder inte alla språk som stöds av Azure AI Video Indexer.
  • Transkriptionen är av högre kvalitet när du i förväg väljer videons lämpliga språk.

Läs mer om språkstöd och språk som stöds.

Sekretess

Med det här alternativet kan du avgöra om insikterna endast ska vara tillgängliga för användare i ditt Azure AI Video Indexer-konto eller för någon med en länk.

Indexeringsalternativ

När du indexerar en video med standardinställningarna kan var och en av alternativen för ljud- och videoindexering prissättas på olika sätt. Mer information finns i Priser för Azure AI Video Indexer.

Nedan visas alternativen för indexeringstyp med information om deras insikter. Om du vill ändra indexeringstypen väljer du Avancerade inställningar.

Endast ljud Endast video Ljud och video
Grundläggande Grundläggande Basic
Standard Standard Standard
Avancerad Avancerad Avancerad

Avancerade inställningar

Endast ljud

  • Grundläggande: Indexerar och extraherar insikter med endast ljud (ignorerar video) och ger följande insikter: transkription, översättning, formatering av utdata bildtext och undertexter (stängda bildtext).
  • Standard: Indexerar och extraherar insikter med endast ljud (ignorerar video) och ger följande insikter: transkription, översättning, formatering av utdata bildtext och undertexter (stängda bildtext), automatisk språkidentifiering, känslor, nyckelord, namngivna entiteter (varumärken, platser, personer), sentiment, talare, ämnesextrahering och textbaserad con tältläge ration.
  • Avancerat: Indexerar och extraherar insikter med endast ljud (ignorerar video) och ger följande insikter: transkription, översättning, formatering av utdata bildtext och undertexter (stängda bildtext), automatisk språkidentifiering, identifiering av ljudhändelser, känslor, nyckelord, namngivna entiteter (varumärken, platser, personer), sentiment, talare, ämnesextrahering och textkon tältläge ration.

Endast video

  • Grundläggande: Indexerar och extraherar insikter med endast video (ignorerar ljud) och ger följande insikter: etiketter, objektidentifiering, OCR, scener (nyckelrutor och bilder) och identifiering av svarta ramar.
  • Standard: Indexerar och extraherar insikter med endast video (ignorerar ljud) och ger följande insikter: etiketter (OCR), namngivna entiteter (OCR – varumärken, platser, personer), OCR, personer, scener (nyckelrutor och bilder), svarta ramar, visual con tältläge ration och ämnesextrahering (OCR).
  • Avancerat: Indexerar och extraherar insikter med endast video (ignorerar ljud) och ger följande insikter: etiketter (OCR), matchad person (förhandsversion), namngivna entiteter (OCR – varumärken, platser, personer), OCR, observerade personer (förhandsversion), personer, scener (nyckelramar och bilder), identifiering av klappbord, identifiering av digitala mönster, insikter om aktuella kläder, textlös skifferidentifiering, identifiering av textlogotyp, svarta ramar, visual con tältlägeration och ämnesextrahering (OCR).

Ljud och video

  • Grundläggande: Indexerar och extraherar insikter med hjälp av ljud och video och ger följande insikter: transkription, översättning, formatering av utdata bildtext och undertexter (stängda bildtext), objektidentifiering, OCR, scener (nyckelrutor och bilder) och svarta ramar.
  • Standard: Indexerar och extraherar insikter med hjälp av ljud och video och ger följande insikter: transkription, översättning, formatering av utdata bildtext och undertexter (stängda bildtext), automatisk språkidentifiering, känslor, nyckelord, namngivna entiteter (varumärken, platser, personer), OCR, scener (nyckelrutor och bilder), svarta bildrutor, visuella con tältlägeration, people, sentiments, speakers, topic extraction och textual con tältläge ration.
  • Avancerat: Indexerar och extraherar insikter med hjälp av ljud och video och ger följande insikter: transkription, översättning, formatering av utdata bildtext och undertexter (stängda bildtext), automatisk språkidentifiering, textkon tältläge ration, identifiering av ljudhändelser, känslor, nyckelord, matchad person, namngivna entiteter (varumärken, platser, personer), OCR, observerade personer (förhandsversion), personer, clapperboard detection, digital pattern detection, featured clothing insight, textless slate detection, sentiments, speakers, scenes (keyframes and shots), text logo detection, black frames, visual con tältläge ration, and topic extraction.

Alternativ för direktuppspelningskvalitet

Det finns två alternativ för strömmande indexerade videor:

  • Enkel bithastighet: Om videohöjden är större än eller lika med 720p HD kodar Azure AI Video Indexer den med en upplösning på 1 280 x 720. Annars kodas den som 640 x 468.
  • Ingen direktuppspelning: Insikter genereras men ingen strömningsåtgärd utförs och videon är inte tillgänglig på Webbplatsen för Azure AI Video Indexer. När Ingen direktuppspelning har valts debiteras du inte för kodning.

Anpassa innehållsmodeller

Med Azure AI Video Indexer kan du anpassa vissa av dess modeller så att de anpassas efter ditt specifika användningsfall. Dessa modeller omfattar varumärken, språk och person. Om du har anpassade modeller kan du i det här avsnittet konfigurera om någon av de skapade modellerna ska användas för indexeringen.