Dela via


Textvideosammanfattning med Azure OpenAI

Viktigt!

Tidsgränsen för migrering av Azure Video Indexer-innehåll på grund av Azure Media Services-tillbakadragningen har passerat. Mer information finns i pensionsguiden .

Den här artikeln är en översikt över textsammanfattningen i Azure OpenAI med Azure AI Video Indexer.

Vad är textvideosammanfattning med Azure AI Video Indexer?

Azure AI Video Indexer ger en kort sammanfattning av vad en video handlar om utan att behöva titta på hela videon. Den är utformad för att spara tid genom att sammanfatta långa videor och ge dig gist i ett mycket kortare format. Det är som att ha en vän som tittar på alla avsnitt av en show och sedan fångar dig på handlingen på bara några minuter.

Systemet är avsett att vara ett stödjande verktyg som förbättrar produktiviteten och inlärningen genom att destillera långa videor till koncisa, sammanfattande sammanfattningar.

Den använder sammanfattningsalgoritmer för att identifiera de mest relevanta insikterna för videon. Det handlar om att bedöma insikter baserat på deras betydelse och relevans för det övergripande temat. Med ett användarvänligt gränssnitt kan du mata in videor och anpassa vilken typ av sammanfattning du behöver.

Systemet tillhandahåller alternativ för feedback, vilket gör att det kan lära sig och förbättras över tid baserat på användarinteraktioner.

Viktigt!

Systemet är inte avsett att ersätta fullständig visning, särskilt inte för innehåll där information och nyanser är viktiga för att fatta ansvarsfulla beslut. Dessutom är den inte utformad för att sammanfatta mycket känsliga eller konfidentiella videor där kontext och sekretess är av största vikt.

Användningsfall

Syftet med det AI-baserade videosammanfattningssystemet är att ge användarna ett snabbt och effektivt sätt att förstå innehållet i längre videor utan att behöva titta på dem i sin helhet. Här följer några specifika avsedda användningsområden:

  • Utbildning. Studenter och lärare kan använda systemet för att sammanfatta föreläsningar, seminarier eller utbildningsinnehåll, vilket gör studiematerial mer tillgängligt och enklare att granska och fokusera på viktiga utbildningspunkter eller definitioner.
  • Företag. Experter kan generera sammanfattningar av möten, presentationer eller utbildningssessioner som belyser beslut, åtgärdsobjekt eller viktiga punkter från möten. Den ger snabba sammanfattningar och säkerställer att viktig information inte missas.
  • Media. Journalister och allmänheten kan använda systemet för att få kärnan i nyhetsrapporter, dokumentärer eller intervjuer, vilket sparar tid medan de håller sig informerade. Det kondenserar nyheter eller dokumentärer i bitstora bitar utan att förlora berättelsen.
  • Utdataformat Du kan ange sammanfattningar så att de använder olika språkformat: neutrala, avslappnade eller formella. Du kan också ange längden på en sammanfattning till kort eller lång.

Begränsningar

  • Modeller. Finjusterade modeller stöds inte. En finjusterad modell i Azure OpenAI (AOAI) är en förtränad AI-modell som har optimerats ytterligare för en specifik uppgift genom att träna den på en anpassad datauppsättning, vilket förbättrar dess prestanda och noggrannhet för det specifika programmet.
  • Språk som inte är engelska. Textsammanfattningen är optimerad för det engelska språket. Det är dock kompatibelt med alla språk som stöds av den specifika GenAI-modell som används, dvs. GPT3.5 Turbo eller GPT4.0. När de tillämpas på icke-engelska språk kan sammanfattningarnas noggrannhet och kvalitet variera. För att minimera den här begränsningen måste du vara extra försiktig och verifiera de genererade sammanfattningarna för noggrannhet och fullständighet.
  • Videor med flera språk. Om en video innehåller tal på flera språk kan textsammanfattningen få svårt att känna igen alla språk som visas i videon korrekt. Tänk på den här potentiella begränsningen när du använder funktionen Sammanfattning av textvideo för flerspråkiga videor.
  • Högspecialiserade eller tekniska videor. AI-modeller för videosammanfattning tränas vanligtvis på en mängd olika videor, inklusive nyheter, filmer och annat allmänt innehåll. Om videon är mycket specialiserad eller teknisk kanske modellen inte kan extrahera sammanfattningen av videon korrekt.
  • Videor med dålig ljudkvalitet eller optisk teckenigenkänning (OCR). AI-modeller för textsammanfattning förlitar sig också på ljud (bland andra insikter) för att extrahera sammanfattningen från videon eller ocr för att extrahera texten som visas på skärmen. Om ljudkvaliteten är dålig och det inte finns någon OCR identifierad kanske modellen inte kan extrahera sammanfattningen från videon korrekt.
  • Videor med låg belysning eller snabb rörelse. Videor som spelas in i låg belysning eller har snabb rörelse kan vara svåra för modellen att bearbeta, vilket resulterar i dåliga prestanda.
  • Videor med ovanliga accenter eller dialekter. AI-modeller tränas vanligtvis på en mängd olika tal, inklusive olika accenter och dialekter. Men om videon innehåller tal med en accent eller dialekt som inte är väl representerad i träningsdata, kan modellen kämpa för att korrekt extrahera avskriften från videon.
  • Videor som innehåller skadligt innehåll. Videor som innehåller skadligt eller känsligt innehåll kan resultera i en partiell sammanfattning eftersom delar som innehåller känsligt eller skadligt innehåll kan undantas.

Textsammanfattning på VI aktiverat av Arc

Om du använder VI-tillägget VI enbabled by Arc kan du generera en sammanfattning från videosidan i webbportalen och använda samma funktioner som anpassningar, men det finns inget alternativ för att ändra modelldistributionen. I stället innehåller varje nytt tillägg som skapas en lokal Phi-3-mini-4k-instruct-modell som har utvecklats av Microsoft. Det kostar inget för begäranden till modellen.

Specifikationer

  • Maskinvara som stöds: stöder för närvarande endast Intel CPU och Nvidia GPU.
  • Genomsnittlig körning varierar mellan 46–57 % av videolängden på CPU eller 15–17 % på GPU:n.

Kända begränsningar och kända problem

  • För närvarande kan körning av VI på AMD-processorer leda till betydligt längre körningar och stöds inte just nu.
  • Sammanfattningsfunktionen skapas av en AI-språkmodell och ger en allmän översikt. Även om vi strävar efter noggrannhet och tillförlitlighet, kanske innehållet inte helt kapslar in kärnan i det ursprungliga materialet. Vi rekommenderar att en människa granskar och redigerar sammanfattningen före användning. Det bör inte ses som professionell eller personlig rådgivning.
  • Sammanfattningsresultaten är vanligtvis konsekventa inom varje sammanfattningsinställning. Att redigera avskriften eller omindexera videon kan dock leda till olika utdataresultat.
  • När du använder sammanfattningsinställningar kan det neutrala formatet ibland likna det formella formatet. Stilen Casual kan innehålla innehållsrelaterade hashtaggar. I vissa fall kan dessutom en sammanfattning av längden "Medel" vara kortare än en "kort" sammanfattning.
  • Videor som har lite innehåll (till exempel mycket korta videor) sammanfattas vanligtvis inte för att minimera potentiella modellfel som kan inträffa när du hanterar korta indata.
  • Sammanfattningen kan ibland innehålla eller referera till interna instruktioner som tillhandahålls till den (kallas "meta-prompt"). Detta skulle kunna omfatta direktiv för att undanta skadligt innehåll.
  • Sammanfattningens längd kan påverka detaljnivån som extraheras från videosammanfattningen. Längre sammanfattningar kan leda till att mindre specifik information inkluderas.
  • Den genererade sammanfattningen kan innehålla felaktigheter, till exempel felaktig identifiering av kön, ålder och andra personliga egenskaper.
  • Om den ursprungliga videon innehåller olämpligt innehåll kan utdataextraktet för videosammanfattning påverkas på följande sätt: det kan vara ofullständigt, innehålla ansvarsfriskrivningar om olämpligt innehåll, och i vissa fall kan det innehålla de faktiska olämpliga citattecken som kan presenteras med eller utan ansvarsfriskrivning.

Information om transparens

Mer information om hur textsammanfattning används finns i Transparensanteckningar för textsammanfattning.

Prova textvideosammanfattning

Prova att använda textvideosammanfattning.