Visão geral do Azure AI Video Indexer

Importante

Devido ao anúncio de desativação dos Serviços de Mídia do Azure, o Azure AI Video Indexer anuncia ajustes nos recursos do Azure AI Video Indexer. Consulte Alterações relacionadas à aposentadoria do Azure Media Service (AMS) para entender o que isso significa para sua conta do Azure AI Video Indexer. Consulte o guia Preparando para a aposentadoria do AMS: VI atualização e migração.

O Azure AI Video Indexer é uma aplicação na nuvem, parte dos serviços de IA do Azure, criada nos serviços de IA do Azure (como o Face, o Translator, o Azure AI Vision e o Speech). Ele permite que você extraia as informações de seus vídeos usando modelos de vídeo e áudio do Azure AI Video Indexer.

O Azure AI Video Indexer analisa o conteúdo de vídeo e áudio executando 30+ modelos de IA, gerando insights avançados. Aqui está uma ilustração da análise de áudio e vídeo realizada pelo Azure AI Video Indexer em segundo plano:

Diagrama do fluxo do Azure AI Video Indexer.

Para começar a extrair informações com o Azure AI Video Indexer, consulte a seção Como posso começar .

O que posso fazer com o Azure AI Video Indexer?

As informações do Azure AI Video Indexer podem ser aplicadas a vários cenários:

  • Pesquisa profunda: use as informações extraídas do vídeo para aprimorar a experiência de pesquisa em uma biblioteca de vídeos. Por exemplo, a indexação de palavras faladas e rostos pode permitir a experiência de pesquisa de encontrar momentos em um vídeo onde uma pessoa falou certas palavras ou quando duas pessoas foram vistas juntas. A pesquisa com base nessas informações de vídeos é aplicável a agências de notícias, institutos educacionais, emissoras, proprietários de conteúdo de entretenimento, aplicativos LOB corporativos e, em geral, a qualquer setor que tenha uma biblioteca de vídeos que os usuários precisem pesquisar.
  • Criação de conteúdo: crie trailers, bobinas de destaque, conteúdo de mídia social ou clipes de notícias com base nas informações extraídas do Azure AI Video Indexer do seu conteúdo. Quadros-chave, marcadores de cenas e carimbos de data/hora das pessoas e aparências de rótulos tornam o processo de criação mais suave e fácil, permitindo que você acesse facilmente as partes do vídeo de que precisa ao criar conteúdo.
  • Acessibilidade: quer pretenda disponibilizar o seu conteúdo para pessoas com deficiências ou se pretende que o seu conteúdo seja distribuído para diferentes regiões utilizando idiomas diferentes, pode utilizar a transcrição e tradução fornecidas pelo Azure AI Video Indexer em vários idiomas.
  • Monetização: o Azure AI Video Indexer pode ajudar a aumentar o valor dos vídeos. Por exemplo, os setores que dependem da receita de anúncios (mídia de notícias, mídia social e assim por diante) podem exibir anúncios relevantes usando as informações extraídas como sinais adicionais para o servidor de anúncios.
  • Moderação de conteúdo: use modelos de moderação de conteúdo textual e visual para manter seus usuários protegidos contra conteúdo inadequado e validar se o conteúdo publicado corresponde aos valores da sua organização. Você pode bloquear automaticamente determinados vídeos ou alertar seus usuários sobre o conteúdo.
  • Recomendações: as informações em vídeo podem ser usadas para melhorar o envolvimento do usuário, destacando os momentos de vídeo relevantes para os usuários. Ao marcar cada vídeo com metadados adicionais, você pode recomendar aos usuários os vídeos mais relevantes e destacar as partes do vídeo que correspondem às suas necessidades.

Recursos de IA de vídeo/áudio

A lista a seguir mostra as informações que você pode recuperar de seus arquivos de vídeo/áudio usando os recursos (modelos) de IA de áudio e vídeo do Azure AI Video Indexer.

A menos que especificado de outra forma, um modelo está geralmente disponível.

Modelos de vídeo

  • Face detection (Deteção facial): deteta e agrupa os rostos que aparecem no vídeo.

  • Identificação de celebridades: identifica mais de 1 milhão de celebridades, como líderes mundiais, atores, artistas, atletas, pesquisadores, líderes empresariais e de tecnologia em todo o mundo. Os dados sobre essas celebridades também podem ser encontrados em vários sites (IMDB, Wikipedia e assim por diante).

  • Identificação facial baseada em conta: treina um modelo para uma conta específica. Em seguida, reconhece rostos no vídeo com base no modelo treinado. Para obter mais informações, consulte Personalizar um modelo de Pessoa no site do Azure AI Video Indexer e Personalizar um modelo de Pessoa com a API do Azure AI Video Indexer.

  • Extração de miniaturas para rostos: identifica o rosto melhor capturado em cada grupo de rostos (com base na qualidade, tamanho e posição frontal) e extrai-o como um ativo de imagem.

  • Reconhecimento ótico de caracteres (OCR): extrai texto de imagens como imagens, sinais de rua e produtos em arquivos de mídia para criar insights.

  • Visual content moderation (Moderação de conteúdo visual): deteta elementos visuais para adultos.

  • Labels identification (Identificação através de etiquetas): identifica as ações e os objetos visuais apresentados.

  • Segmentação de cena: determina quando uma cena muda no vídeo com base em pistas visuais. Uma cena retrata um único evento e é composta por uma série de planos consecutivos, que são semanticamente relacionados.

  • Deteção de disparos: determina quando uma captura é alterada no vídeo com base em pistas visuais. Uma foto é uma série de quadros tirados da mesma câmera de cinema. Para obter mais informações, consulte Cenas, capturas e quadros-chave.

  • Black frame detection (Deteção de fotogramas pretos): identifica os fotogramas pretos apresentados no vídeo.

  • Keyframe extraction (Extração de keyframes): deteta keyframes estáveis num vídeo.

  • Créditos rolantes: Identifica o início e o fim dos créditos rolantes no final de programas de TV e filmes.

  • Deteção de tipo de tiro editorial: Marca fotos com base em seu tipo (como tiro largo, tiro médio, close up, close up extremo, dois tiros, várias pessoas, ao ar livre e dentro de casa, e assim por diante). Para obter mais informações, consulte Deteção de tipo de captura editorial.

  • Rastreamento de pessoas observadas (visualização): deteta pessoas observadas em vídeos e fornece informações como a localização da pessoa no quadro de vídeo (usando caixas delimitadoras) e o carimbo de data/hora exato (início, fim) e confiança quando uma pessoa aparece. Para obter mais informações, consulte Rastrear pessoas observadas em um vídeo.

    • Roupas detetadas pelas pessoas (visualização): deteta os tipos de roupas de pessoas que aparecem no vídeo e fornece informações como mangas longas ou curtas, calças longas ou curtas e saia ou vestido. A roupa detetada está associada às pessoas que a usam e o carimbo de data/hora exato (início, fim), juntamente com um nível de confiança para a deteção, são fornecidos. Para obter mais informações, consulte Roupas detetadas.
    • Roupas em destaque (visualização): captura imagens de roupas em destaque que aparecem em um vídeo. Você pode melhorar seus anúncios segmentados usando a visão de roupas em destaque. Para obter informações sobre como as imagens de roupas em destaque são classificadas e como obter os insights, consulte Roupas em destaque.
  • Pessoa correspondente (visualização): Corresponde às pessoas que foram observadas no vídeo com os rostos correspondentes detetados. A correspondência entre as pessoas observadas e os rostos contém um nível de confiança.

  • Deteção de objetos Deteta objetos exclusivos que também são rastreados para que, se retornarem ao quadro, sejam reconhecidos. Consulte Deteção de objetos do Azure AI Video Indexer

  • Deteção de ardósia (visualização): identifica as seguintes informações de pós-produção de filmes ao indexar um vídeo usando a opção de indexação avançada:

    • Deteção de clapperboard com extração de metadados.
    • Deteção de padrões digitais, incluindo barras de cores.
    • Deteção de ardósia sem texto, incluindo correspondência de cena.

    Para obter detalhes, consulte Deteção de ardósia.

  • Deteção de logotipo textual (visualização): corresponde a um texto predefinido específico usando o OCR do Azure AI Video Indexer. Por exemplo, se um usuário criou um logotipo textual: "Microsoft", diferentes aparências da palavra Microsoft serão detetadas como o logotipo "Microsoft". Para obter mais informações, consulte Detetar logotipo textual.

Modelos de áudio

  • Transcrição de áudio: Converte fala em texto em mais de 50 idiomas e permite extensões. Para obter mais informações, consulte Suporte à linguagem do Azure AI Video Indexer.

  • Deteção automática de idioma: identifica a língua falada dominante. Para obter mais informações, consulte Suporte à linguagem do Azure AI Video Indexer. Se o idioma não puder ser identificado com confiança, o Azure AI Video Indexer assumirá que o idioma falado é o inglês. Para obter mais informações, veja Modelo de identificação de idioma.

  • Identificação e transcrição de fala multilíngüe: Identifica a linguagem falada em diferentes segmentos do áudio. Envia cada segmento do ficheiro multimédia para ser transcrito e, em seguida, combina a transcrição de volta numa transcrição unificada. Para obter mais informações, veja Identificar e transcrever automaticamente conteúdo de vários idiomas.

  • Closed captioning (Legendas): cria legendas em três formatos: VTT, TTML e SRT.

  • Processamento de dois canais: Deteta automaticamente transcrições separadas e mescla em uma única linha do tempo.

  • Noise reduction (Redução de ruído): torna as conversas telefónicas e as gravações ruidosas mais claras (com base em filtros do Skype).

  • Personalização de transcrição (CRIS): treina fala personalizada para modelos de texto para criar transcrições específicas do setor. Para obter mais informações, consulte Personalizar um modelo de linguagem do site do Azure AI Video Indexer e Personalizar um modelo de idioma com as APIs do Azure AI Video Indexer.

  • Speaker enumeration (Enumeração de oradores): mapeia e identifica o orador que proferiu determinadas palavras e o momento em que o fez. Dezesseis alto-falantes podem ser detetados em um único arquivo de áudio.

  • Estatísticas dos oradores: fornece estatísticas para os rácios de fala dos oradores.

  • Textual content moderation (Moderação de conteúdo textual): deteta texto explícito na transcrição de áudio.

  • Deteção de emoções baseadas em texto: Emoções como alegria, tristeza, raiva e medo que foram detetadas através da análise de transcrição.

  • Tradução: Cria traduções da transcrição de áudio para muitos idiomas diferentes. Para obter mais informações, consulte Suporte à linguagem do Azure AI Video Indexer.

  • Deteção de efeitos de áudio (visualização): Deteta os seguintes efeitos de áudio nos segmentos que não são de fala do conteúdo: alarme ou sirene, latidos de cães, reações da multidão (aplausos, palmas e vaias), tiro ou explosão, risos, quebra de vidro e silêncio.

    Os eventos acústicos detetados estão no arquivo de legendas ocultas. O arquivo pode ser baixado do site do Azure AI Video Indexer. Para obter mais informações, consulte Deteção de efeitos de áudio.

    Nota

    O conjunto completo de eventos está disponível somente quando você escolhe Análise Avançada de Áudio ao carregar um arquivo, na predefinição de upload. Por padrão, apenas o silêncio é detetado.

Modelos de áudio e vídeo (multicanais)

Ao indexar por um canal, os resultados parciais para esses modelos estão disponíveis.

  • Keywords extraction (Extração de palavras-chave): extrai palavras-chave a partir do discurso e de texto visual.
  • Extração de entidades nomeadas: extrai marcas, locais e pessoas da fala e do texto visual por meio do processamento de linguagem natural (PNL).
  • Inferência de tópicos: Extrai tópicos com base em várias palavras-chave (ou seja, palavras-chave 'Bolsa de Valores', 'Wall Street' produz o tópico 'Economia'). O modelo utiliza três ontologias diferentes (IPTC, Wikipedia e a ontologia hierárquica de tópicos do Video Indexer). O modelo usa transcrição (palavras faladas), conteúdo OCR (texto visual) e celebridades reconhecidas no vídeo usando o modelo de reconhecimento facial Video Indexer.
  • Artifacts (Artefactos): extrai um conjunto avançado de artefactos mais detalhados para cada um dos modelos.
  • Sentiment analysis (Análise de sentimentos): identifica sentimentos positivos, negativos e neutros a partir do discurso e de texto visual.

Como posso começar a usar o Azure AI Video Indexer?

Saiba como começar a usar o Azure AI Video Indexer.

Depois de configurar, comece a usar insights e confira outros guias de Como fazer.

Conformidade, privacidade e segurança

Nota

A 11 de junho de 2020, a Microsoft anunciou que não irá vender tecnologia de reconhecimento facial a esquadras da polícia nos Estados Unidos até à implementação de uma regulamentação rígida assente nos direitos humanos. Como tal, os clientes não podem utilizar funcionalidades de reconhecimento facial ou funcionalidades incluídas nos serviços de IA do Azure, como o Indexador de Rosto ou de Vídeo, se um cliente estiver ou estiver a permitir a utilização de tais serviços por ou para um departamento de polícia nos Estados Unidos.

Nota

O acesso a recursos de identificação facial, personalização e reconhecimento de celebridades é limitado com base em critérios de elegibilidade e uso, a fim de apoiar nossos princípios de IA responsável. Os recursos de identificação facial, personalização e reconhecimento de celebridades estão disponíveis apenas para clientes e parceiros gerenciados pela Microsoft. Use o formulário de admissão de Reconhecimento Facial para solicitar acesso.

Como um lembrete importante, você deve cumprir todas as leis aplicáveis ao seu uso do Azure AI Video Indexer e não pode usar o Azure AI Video Indexer ou qualquer serviço do Azure de uma maneira que viole os direitos de outras pessoas ou que possa ser prejudicial a outras pessoas.

Antes de carregar qualquer vídeo/imagem para o Azure AI Video Indexer, você deve ter todos os direitos adequados para usar o vídeo/imagem, incluindo, quando exigido por lei, todos os consentimentos necessários de indivíduos (se houver) no vídeo/imagem, para o uso, processamento e armazenamento de seus dados no Azure AI Video Indexer e no Azure. Algumas jurisdições podem impor requisitos legais especiais para a recolha, o tratamento em linha e o armazenamento de determinadas categorias de dados, tais como dados biométricos. Antes de usar o Azure AI Video Indexer e o Azure para o processamento e armazenamento de quaisquer dados sujeitos a requisitos legais especiais, Você deve garantir a conformidade com quaisquer requisitos legais que possam se aplicar a Você.

Para saber mais sobre conformidade, privacidade e segurança no Azure AI Video Indexer, visite a Central de Confiabilidade da Microsoft. Para conhecer as obrigações de privacidade, o tratamento de dados e as práticas de retenção da Microsoft, incluindo como eliminar os seus dados, consulte a Declaração de Privacidade da Microsoft, os Termos dos Serviços Online ("OST") e a Adenda de Processamento de Dados ("DPA"). Ao usar o Azure AI Video Indexer, você concorda em estar vinculado ao OST, DPA e à Declaração de Privacidade.