Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Video Indexer de Azure AI se integra con modelos de lenguaje grande (LLM). Las LLM son modelos de IA de lenguaje natural que puede usar para formular preguntas sobre el contenido de vídeo y mucho más. Extraiga la información de Video Indexer de Azure AI en un formato listo para solicitudes que se pueda usar fácilmente con LLM. No es necesario volver a indexar vídeos para crear el formato listo para solicitudes de los vídeos.
Puede usar mensajes de LLM con Video Indexer de Azure AI en la nube o en el centro de datos mediante Video Indexer de Azure AI habilitado por Arc.
Casos de uso
Generar un resumen de vídeo: puede pedir al modelo LLM que genere resúmenes de vídeos completos o segmentos de vídeo. Esos segmentos se pueden combinar para crear varios tipos de resúmenes, como un resumen informativo, un teaser u otro resumen en función de sus necesidades.
Capacidad de búsqueda: al convertir el contenido de vídeo en un formato basado en texto y listo para mensajes, puede realizar búsquedas detalladas en lenguaje natural dentro del contenido del vídeo. Puede mejorar significativamente la detectabilidad dentro de bibliotecas de vídeo grandes en función de consultas específicas.
Creación de contenido: Puedes consultar tu biblioteca de videos para buscar momentos específicos en tus vídeos asociados con ciertas emociones o eventos. Por ejemplo, puede recuperar momentos divertidos o tristes de una serie de vídeos y usarlos para crear una promoción o resaltar. De forma similar, puede recuperar momentos relacionados con eventos específicos de interés como "terremotos pasados durante la última década".
Propósitos educativos: cree resúmenes a partir de vídeos de conferencias para facilitar a los alumnos revisar y comprender el material. Los alumnos también pueden formular preguntas específicas relacionadas con el material de conferencia. Puede consultar la parte exacta del vídeo donde se describe el artículo para que la experiencia de aprendizaje sea más eficaz.
Experiencias interactivas: puede crear experiencias interactivas, como bots de chat basados en vídeo o asistentes virtuales, que pueden responder a consultas de usuario basadas en el contenido del vídeo.
Funcionamiento
Para que la salida esté lista para las solicitudes, el vídeo se divide en secciones coherentes que se ajustan tanto a la esencia del vídeo como al tamaño de la solicitud. Las secciones se dividen en función de la segmentación de escenas del Indexador de Video de Azure AI y otras informaciones. Los resultados del contenido de la solicitud se consolidan y generan por segmento por separado. Por ejemplo:
Información detallada
La siguiente tabla contiene la información utilizada para la generación de solicitudes.
VI Insight | Etiqueta y formato |
---|---|
Título del vídeo | [Título del vídeo] <título del vídeo> |
Detección de objetos | [Objetos detectados] <objeto 1>, <objeto 2>, ... |
Etiquetas | [Etiquetas visuales] <etiqueta 1>, <etiqueta 2>, ... |
Reconocimiento Óptico de Caracteres (OCR) | [OCR] <ocr cluster1><ocr cluster2> ... |
Transcripción y oradores | [Transcripción] <nombre del hablante>: <líneas de transcripción>\n<nombre del hablante>: <líneas de transcripción>\n ... |
Caras | [Personas conocidas] <cara 1>, <cara 2>, ... |
Efectos de audio (AED) | [Efectos de audio] < efecto 1>, <efecto 2>, ... |
Posición del segmento dentro del vídeo | [Etiquetas] [Comienzo, Medio, Fin, Créditos graduales] |
Crear contenido de presentación para un vídeo
Utilice la API de contenido de solicitudes en su vídeo indexado para obtener el formato listo para solicitudes para cada segmento.
Nota:
La información sobre el contenido de las solicitudes está sujeta al preajuste específico que se usa para indexar el vídeo.
- Para generar la API de Prompt Content, utilice una solicitud de API POST Create Prompt Content.
- Para ver el contenido del mensaje, use una solicitud Get PromptContent API.
Solicitud de ejemplo
Utilice el identificador de cuenta de AVI y el identificador de vídeo.
POST https://api.videoindexer.ai/trial/Accounts/{accountId}/Videos/{videoId}/PromptContent
Respuesta de ejemplo
index
{
"algoVersion": "2.0.0",
"schemaVersion": "0.0.1",
"partition": null,
"name": "10_best_dressed_grammy",
"sections": [
{
"id": 0,
"start": "0:00:00",
"end": "0:00:40.915875",
"content": "[Video title] 10_best_dressed_grammy\n[Detected objects] necktie\n[Visual labels] human face, clothing, person, woman, suit, wedding dress, dress, indoor, wall, carpet, rug, fashion, lady, long hair, fashion accessory, fashion design\n[OCR] TROPHy, LIFE, SPECIAL, EDITION, news FEED, BY
CLEVVER, CLEVVER, @NazPerez, BEST DRESSED CELEBS AT 2018 GRAMMYS\n[Transcript] Check out the 10 best dressed celebs from the 2018 Grammy Awards and don't forget to subscribe to our channel to get all the latest celebrity updates.\nFrom white roses to white hot looks, this year's Grammy Awards was a feast of fashion thanks to so many celebs bringing their A game to the show.\nSo let's kick off this list of the best dress from the red carpet, starting with Lady Gaga.\nGaga looked like a gothic Princess in her dramatic all black ball gown.\nThe Armani Preve dress featured A Lacy bodysuit and billowing black skirt with a huge train.\nAga's black heeled boots were also some of the highest we've ever seen, like ever, but we wouldn't expect anything less from Mama Monster.\nAnother look we love from the carpet was Anna Kendrick's sexy suit by Belmont."
},
{
"id": 1,
"start": "0:00:40.915875",
"end": "0:01:17.202125",
"content": "[Video title] 10_best_dressed_grammy\n[Detected objects] remote\n[Visual labels] human face, clothing, person, dress, carpet, rug, fashion, lady, furniture, female person, fashion model, model, haute couture, smile\n[OCR] TROPHy, LIFE, news FEED, BEST DRESSED CELEBS AT 2018 GRAMMYS, D CELEBS AT 2018 GRAMMYS, BEST DRESSED\n[Transcript] Anna gave the structured look a sexy feminine touch by wearing a Lacy strapless top underneath and some pale pink stilettos.\nHer suit may have said business, but her relaxed WAVY hairstyle said I came to get down.\nNext on our list is the literally red hot Camila Cabello.\nCamila was all glitzing glam in her strapless Vivian Westwood gown.\nThat humped her curves perfectly.\nCamila opted to wear her hair up and accessorized with some serious bling, but it's that plunging neckline that has this unable to look away.\nAnother look we loved came courtesy of Miley Cyrus, who absolutely slayed in this black velvet bodysuit.\nMiley looked beyond chic, from her classic Hollywood hairstyle to her glitter heels."
},
}
Comprobar el estado del trabajo
El trabajo de solicitud tarda unos minutos en completarse. Si desea comprobar el estado del trabajo, puede usar una solicitud get job status API.
Uso de fotogramas clave para solicitar visualmente un LLM
La solicitud Prompt Content admite modelos de lenguaje que pueden usar la entrada visual en los mensajes. Al seleccionar el modelo GPT-4V, puede incluir fotogramas clave como parte de la solicitud proporcionada al modelo. Los fotogramas devueltos en la respuesta de contenido rápido representan los fotogramas clave del vídeo. Esta característica se recomienda para vídeos con una transcripción limitada o sin transcripción en el vídeo o cuando quiera proporcionar más contexto al modelo de lenguaje para mejorar los resultados.
Crear y enviar una solicitud de contenido
Como se ha descrito anteriormente, el contenido textual de la solicitud se encuentra en la respuesta JSON. Cada cadena en la sección "frames" de la respuesta JSON es el identificador del fotograma clave. Use Obtener miniatura de vídeo El ThumbnailId
es el FrameId
del contenido del mensaje. Una vez que tenga tanto el contenido textual como los artefactos de fotograma clave, puede combinarlos como solicitudes de un modelo de IA de su elección.
Limitaciones
La característica de solicitud está optimizada para vídeos que contienen tanta información como sea posible.