Azure AI Video Indexer - visão geral

2025-06-03

O Azure AI Video Indexer é uma aplicação na nuvem, parte dos serviços Azure AI, construído sobre os serviços Azure AI (como o Face, Translator, Azure AI Vision e Speech). Permite-lhe extrair informações dos seus vídeos utilizando os modelos de vídeo e áudio do Azure AI Video Indexer.

Azure AI Video Indexer analisa o conteúdo de vídeo e áudio utilizando mais de 30 modelos de IA, gerando insights valiosos. Aqui está uma ilustração da análise de áudio e vídeo realizada pelo Azure AI Video Indexer em segundo plano:

Para começar a extrair informações com o Azure AI Video Indexer, consulte a seção Como posso começar .

O que posso fazer com o Azure AI Video Indexer?

Os insights do Azure AI Video Indexer podem ser aplicados em muitos cenários.

Pesquisa profunda: para melhorar a experiência de pesquisa em uma biblioteca de vídeos, use as informações extraídas do vídeo. Por exemplo, indexar palavras faladas e rostos pode permitir a experiência de pesquisa de encontrar momentos em um vídeo onde uma pessoa falou certas palavras ou quando duas pessoas foram vistas juntas. A pesquisa baseada em tais insights de vídeos é aplicável a agências de notícias, instituições educacionais, emissoras, proprietários de conteúdo de entretenimento, aplicativos empresariais LOB e, em geral, a qualquer indústria que tenha uma biblioteca de vídeos que os usuários precisem consultar.
Criação de conteúdo: Crie trailers, vídeos de destaques, conteúdo para redes sociais ou clipes de notícias com base nas informações que o Azure AI Video Indexer extrai do seu conteúdo. Os fotogramas-chave, marcadores de cenas e carimbos de tempo das aparições de pessoas e rótulos tornam o processo de criação mais suave e fácil, permitindo-lhe aceder facilmente às partes do vídeo de que precisa ao criar conteúdo.
Acessibilidade: Quer pretenda disponibilizar o seu conteúdo para pessoas com deficiência ou distribuir o seu conteúdo por diferentes regiões em diversos idiomas, pode utilizar o serviço de transcrição e tradução fornecido pelo Azure AI Video Indexer em vários idiomas.
Monetização: O Azure AI Video Indexer pode ajudar a aumentar o valor dos vídeos. Por exemplo, indústrias que dependem de receitas de publicidade (mídia de notícias, redes sociais, e assim por diante) podem fornecer anúncios relevantes utilizando os insights extraídos como sinais adicionais para o servidor de anúncios.
Moderação de conteúdos: Utilize modelos de moderação de conteúdos textuais e visuais para manter os seus utilizadores seguros de conteúdo inadequado e garantir que o conteúdo que publica está em conformidade com os valores da sua organização. Pode bloquear automaticamente certos vídeos ou alertar os seus utilizadores sobre o conteúdo.
Recomendações: As informações de vídeo podem ser usadas para melhorar o envolvimento dos utilizadores ao destacar os momentos relevantes do vídeo para os utilizadores. Ao marcar cada vídeo com mais metadados, você pode recomendar aos usuários os vídeos mais relevantes e destacar as partes do vídeo que correspondem às suas necessidades.

Funcionalidades de IA para vídeo/áudio

A lista seguinte mostra os insights que pode extrair dos seus ficheiros de vídeo/áudio usando as funcionalidades de IA de vídeo e áudio do Azure AI Video Indexer (modelos).

Nota

Dados os requisitos de privacidade e regulamentares, alguns desses recursos são restritos para uso e/ou exigem autorização para utilização total.

A menos que especificado de outra forma, um modelo está geralmente disponível.

Modelos de vídeo

Deteção de rosto: deteta e agrupa rostos que aparecem no vídeo.
Identificação de celebridades: identifica mais de 1 milhão de celebridades, como líderes mundiais, atores, artistas, atletas, pesquisadores, líderes empresariais e de tecnologia em todo o mundo. Os dados sobre estas celebridades também podem ser encontrados em vários sites (IMDB, Wikipedia, e assim por diante).
Identificação facial baseada em conta: treina um modelo para uma conta específica. Em seguida, reconhece rostos no vídeo com base no modelo treinado. Para obter mais informações, consulte Personalizar um modelo de Pessoa no site do Azure AI Video Indexer e Personalizar um modelo de Pessoa com a API do Azure AI Video Indexer.
Extração de miniaturas para rostos: identifica o rosto melhor capturado em cada grupo de rostos (com base na qualidade, tamanho e posição frontal) e extrai-o como um ativo de imagem.
Reconhecimento ótico de caracteres (OCR): extrai texto de imagens como imagens, sinais de rua e produtos em arquivos de mídia para criar insights.
Moderação de conteúdo visual: deteta visuais adultos e/ou picantes.
Identificação de etiquetas: Identifica objetos visuais e ações exibidas.
Segmentação de cena: determina quando uma cena muda no vídeo com base em pistas visuais. Uma cena retrata um único evento e é composta por uma série de planos consecutivos, que são semanticamente relacionados.
Deteção de cenas: determina quando uma cena é alterada no vídeo com base em pistas visuais. Uma cena é uma série de quadros captados pela mesma câmara de cinema. Para obter mais informações, consulte Cenas, capturas e quadros-chave.
Deteção de quadros pretos: identifica quadros pretos apresentados no vídeo.
Extração de quadros-chave: detecta quadros-chave estáveis num vídeo.
Créditos rolantes: Identifica o início e o fim dos créditos rolantes no final de programas de TV e filmes.
Deteção de tipo de enquadramento editorial: Marca os enquadramentos com base no seu tipo (como plano geral, plano médio, plano fechado, plano fechadíssimo, plano com duas pessoas, plano com várias pessoas, exteriores e interiores, e assim por diante). Para obter mais informações, consulte Deteção de tipo de imagem editorial.
Deteção de pessoas observadas: deteta pessoas observadas em vídeos e fornece informações como a localização da pessoa no quadro de vídeo (usando caixas delimitadoras), o carimbo de data/hora exato (início, fim) e o nível de confiança quando uma pessoa aparece. Para obter mais informações, consulte Rastrear pessoas observadas num vídeo.
- Pessoa correspondente: corresponde às pessoas que foram observadas no vídeo com os rostos correspondentes detetados. A correspondência entre as pessoas observadas e os rostos contém um nível de confiança.
- Roupas detetadas: deteta os tipos de roupas de pessoas que aparecem no vídeo e fornece informações como mangas longas ou curtas, calças longas ou curtas e saia ou vestido. As roupas detectadas estão associadas às pessoas que as vestem, e é fornecida a marcação temporal exata (início, fim), juntamente com um nível de confiança para a deteção.
- Roupas em destaque: captura imagens de roupas em destaque que aparecem em um vídeo. Pode melhorar os seus anúncios direcionados utilizando a análise de vestuário em destaque. Para obter informações sobre como as imagens de roupas em destaque são classificadas e como obter os insights, consulte Roupas em destaque.
Deteção de objetos Deteta objetos exclusivos que também são rastreados para que, se retornarem ao quadro, sejam reconhecidos. Consulte Deteção de objetos do Azure AI Video Indexer
Deteção de claquete: Identifica as seguintes informações de pós-produção de filmes ao indexar um vídeo, usando a opção de indexação avançada:
- Detecção de clapper com extração de metadados.
- Deteção de padrões digitais, incluindo barras de cores.
- Deteção de pranchas sem texto, incluindo correspondência de cenas.
Para mais informações, veja Deteção de Slate.
Deteção de logotipo textual: corresponde a um texto predefinido específico usando o OCR do Azure AI Video Indexer. Por exemplo, se um usuário criou um logotipo textual: Microsoft, diferentes aparências da palavra Microsoft são detetadas como o Microsoft logotipo. Para obter mais informações, consulte Detetar logotipo de texto.

Modelos de áudio

Transcrição de áudio: Converte fala em texto em mais de 50 idiomas e permite extensões. Para obter mais informações, consulte Suporte à linguagem do Azure AI Video Indexer.
Deteção automática de idioma: identifica a língua falada dominante. Para obter mais informações, consulte Suporte à linguagem do Azure AI Video Indexer. Se a língua não puder ser identificada com confiança, o Azure AI Video Indexer assume que a língua falada é o inglês.
Identificação e transcrição de fala multilíngüe: Identifica a linguagem falada em diferentes segmentos do áudio. Envia cada segmento do ficheiro de media para ser transcrito e depois combina a transcrição de volta numa transcrição unificada. Para obter mais informações sobre transcrição, consulte Transcrição
Closed captioning: Cria legendas ocultas em três formatos: VTT, TTML, SRT.
Processamento de dois canais: Deteta automaticamente transcrições separadas e mescla em uma única linha do tempo.
Redução de ruído: Limpa o áudio de telefonia ou gravações barulhentas (com base em filtros do Skype).
Personalização de transcrição (CRIS): treina modelos personalizados de reconhecimento de fala para criar transcrições específicas do setor. Para obter mais informações, consulte Personalizar um modelo de idioma.
Enumeração de oradores: mapeia e compreende que orador falou que palavras e quando. Dezasseis locutores podem ser detetados num único ficheiro de áudio.
Estatísticas dos oradores: fornece estatísticas para os rácios de fala dos oradores.
Moderação de conteúdo textual: deteta texto explícito na transcrição de áudio.
Deteção de emoções baseadas em texto: Emoções como alegria, tristeza, raiva e medo que foram detetadas através da análise de transcrição.
Tradução: Cria traduções da transcrição de áudio em muitos idiomas diferentes. Para obter mais informações, consulte Suporte à linguagem do Azure AI Video Indexer.
Deteção de efeitos de áudio: deteta os seguintes efeitos de áudio nos segmentos sem fala do conteúdo: alarme ou sirene, latidos de cães, reações da multidão (aplausos, palmas e vaias), tiro ou explosão, risos, quebra de vidro e silêncio.

Os eventos acústicos detectados estão no ficheiro de legendas. O ficheiro pode ser descarregado do website do Azure AI Video Indexer. Para obter mais informações, consulte Deteção de efeitos de áudio.

Nota

O conjunto completo de eventos está disponível somente quando você escolhe Análise Avançada de Áudio ao carregar um arquivo, na predefinição de upload. Por padrão, apenas o silêncio é detectado.

Modelos de áudio e vídeo (multicanais)

Quando você indexa por um canal, os resultados parciais para esses modelos ficam disponíveis.

Extração de palavras-chave: extrai palavras-chave de fala e texto visual.
Extração de entidades nomeadas: extrai marcas, locais e pessoas da fala e do texto visual por meio do processamento de linguagem natural (PNL).
Inferência de tópicos: Extrai tópicos com base em várias palavras-chave (ou seja, palavras-chave 'Bolsa de Valores', 'Wall Street' produz o tópico 'Economia'). O modelo usa três ontologias diferentes (IPTC,Wikipedia e a ontologia hierárquica de tópicos do Video Indexer). O modelo utiliza transcrição (palavras faladas), conteúdo de OCR (texto visual) e celebridades reconhecidas no vídeo através do modelo de reconhecimento facial do Video Indexer.
Artefatos: extrai um rico conjunto de artefatos de "próximo nível de detalhes" para cada um dos modelos.
Análise de sentimento: Identifica sentimentos positivos, negativos e neutros a partir da fala e do texto visual.

Como posso começar a usar o Azure AI Video Indexer?

Aprenda como começar com o Azure AI Video Indexer.

Depois de configurar, comece a usar as análises, e confira outros guias de Como Fazer.

Conformidade, privacidade e segurança

Nota

Em 11 de junho de 2020, a Microsoft anunciou que não venderá tecnologia de reconhecimento facial para departamentos de polícia nos Estados Unidos até que uma forte regulamentação, baseada em direitos humanos, seja promulgada. Como tal, os clientes não podem utilizar funcionalidades de reconhecimento facial ou funcionalidades incluídas nos serviços de IA do Azure, como o Indexador de Rosto ou de Vídeo, se um cliente estiver ou estiver a permitir a utilização de tais serviços por ou para um departamento de polícia nos Estados Unidos.

Nota

O acesso a recursos de identificação facial, personalização e reconhecimento de celebridades é limitado com base em critérios de elegibilidade e uso, a fim de apoiar nossos princípios de IA responsável. Os recursos de identificação facial, personalização e reconhecimento de celebridades estão disponíveis apenas para clientes e parceiros gerenciados pela Microsoft. Use o formulário de admissão de Reconhecimento Facial para solicitar acesso.

Tem de cumprir todas as leis aplicáveis na sua utilização do Azure AI Video Indexer e não pode utilizar o Azure AI Video Indexer ou qualquer serviço do Azure de uma forma que viole os direitos de terceiros ou que possa ser prejudicial para outros.

Antes de carregar qualquer vídeo/imagem para o Azure AI Video Indexer, deve possuir todos os direitos apropriados e legais para utilizar o vídeo/imagem, incluindo, quando exigido por lei, todos os consentimentos necessários das pessoas (se houver) presentes no vídeo/imagem, para o uso, processamento e armazenamento dos seus dados no Azure AI Video Indexer e Azure. Algumas jurisdições podem impor requisitos legais especiais para a recolha, o tratamento em linha e o armazenamento de determinadas categorias de dados, tais como dados biométricos. Antes de usar o Azure AI Video Indexer e o Azure para o processamento e armazenamento de quaisquer dados sujeitos a requisitos legais especiais, você deve garantir que seu uso esteja em conformidade com todos os requisitos legais que possam se aplicar a Você e ao uso pretendido.

Para saber mais sobre conformidade, privacidade e segurança no Azure AI Video Indexer, visite a Central de Confiabilidade da Microsoft. Para conhecer as obrigações de privacidade, o tratamento de dados e as práticas de retenção da Microsoft, incluindo como eliminar os seus dados, consulte a Declaração de Privacidade da Microsoft, os Termos dos Serviços Online ("OST") e a Adenda de Processamento de Dados ("DPA"). Ao usar o Azure AI Video Indexer, você concorda em estar vinculado ao OST, DPA e à Declaração de Privacidade.

Partilhar via

Azure AI Video Indexer - visão geral

O que posso fazer com o Azure AI Video Indexer?

Funcionalidades de IA para vídeo/áudio

Modelos de vídeo

Modelos de áudio

Modelos de áudio e vídeo (multicanais)

Como posso começar a usar o Azure AI Video Indexer?

Conformidade, privacidade e segurança

Comentários

Recursos adicionais