Escolha uma tecnologia de geração e processamento de imagem e vídeo de IA do Azure

A Foundry Tools ajuda programadores e organizações a criar aplicações avançadas, baseadas em IA, prontas para produção, alinhadas com práticas responsáveis de IA, utilizando APIs e modelos prontos a usar, pré-construídos e personalizáveis.

Este artigo descreve as capacidades de processamento de vídeo e imagem em Ferramentas, como análise visual e geração de imagens, deteção de objetos, classificação de imagens e reconhecimento facial. A suíte inclui os seguintes serviços:

O Azure OpenAI em Foundry Models fornece acesso aos seguintes modelos de linguagem OpenAI:
- A geração mais recente de modelos GPT que têm capacidades de visão e áudio
- DALL-E para geração de imagens
- Modelos de áudio para conversas de voz em tempo real, geração de áudio, transcrição de voz para texto (STT), tradução e texto para fala (TTS)
Usa o Azure OpenAI para geração de imagens a partir de linguagem natural, análise de imagens ampla e não específica, ou cenários áudio que não exijam um serviço de voz dedicado.
O Azure Vision no Foundry Tools fornece algoritmos avançados que processam imagens e devolvem informação com base em características visuais. Inclui reconhecimento ótico de caracteres (OCR), análise de imagem e capacidades de deteção facial.
O Microsoft Azure AI Custom Vision é um serviço de reconhecimento de imagem que pode usar para construir, implementar e melhorar os seus modelos de identificadores de imagem para requisitos específicos que outros serviços não conseguem satisfazer.
O Azure Content Understanding na Foundry Tools utiliza IA generativa para extrair campos estruturados de imagens e vídeo. Use o Azure Content Understanding quando precisar de extração definida por esquema, segmentação de cenas ou saída de vídeo pronta para geração aumentada de recuperação (RAG).
O Microsoft Azure AI Video Indexer é uma solução de IA que as organizações podem usar para extrair insights profundos de conteúdos de vídeo e áudio. Suporta tanto fontes em tempo real como carregadas, utilizando modelos avançados de aprendizagem automática e IA generativa.

Azure OpenAI

O Azure OpenAI oferece acesso aos poderosos modelos de linguagem do OpenAI, incluindo a mais recente geração de modelos GPT que têm capacidades de imagem, vídeo e áudio. Também estão disponíveis modelos de geração de imagensDALL-E e GPT, bem como modelos de áudio para conversas de voz em tempo real, geração e transcrição de áudio, STT, tradução de voz e TTS.

Use o Azure OpenAI para estas tarefas	Não uses o Azure OpenAI para estas tarefas
Gerar imagens a partir de descrições em linguagem natural utilizando modelos de imagem DALL-E ou GPT.	Faça tarefas específicas de processamento de imagem, como extração de formulários ou deteção especializada em domínio. Use o Azure Document Intelligence para estas tarefas.
Faça uma análise ampla e não específica de imagens usando modelos com capacidades de visão, como o GPT-4o.	Extrai campos estruturados das imagens usando um esquema que defines. Para extração orientada por esquema, use o Azure Content Understanding.
Transcreva STT ou traduza áudio falado utilizando modelos de transcrição Whisper ou GPT-4o.	Detetar, reconhecer ou analisar rostos humanos. Para tarefas relacionadas com o rosto, use o Azure Vision.
Permita conversas de voz em tempo real com baixa latência usando modelos de áudio GPT-4o.	Faça transcrição de fala em alto volume que exija personalização avançada, diarização de falantes ou vocabulário personalizado. Para esses cenários, usa Azure Speech no Foundry Tools.
Gerar descrições de acessibilidade para as imagens.	Use modelos de geração de imagens open-source. Para modelos open-source, utilize o Azure Machine Learning.

Modelos de áudio

O Azure OpenAI fornece modelos de áudio através das seguintes APIs:

A API Realtime para conversas de voz em tempo real e baixa latência
A API de Conclusões de Chat com áudio para geração e transcrição de áudio flexíveis numa única chamada ao modelo
A API de Áudio via o /audio endpoint para transcrição baseada em ficheiros de STT em modelos de transcrição Whisper e GPT-4o, tradução de fala e TTS

Azure Vision

O Azure Vision é um serviço nas Ferramentas. Fornece algoritmos avançados que processam imagens e devolvem informação com base nas características visuais que especifica. O Azure Vision inclui OCR, análise de imagem e capacidades de deteção de rostos.

Use o Azure Vision para estas tarefas	Não uses Azure Vision para estas tarefas
Extraia texto impresso e manuscrito de imagens e documentos usando OCR.	Faz análises avançadas de vídeo, como transcrição, tradução ou resumo de conteúdos. Para estas tarefas, use o Video Indexer.
Analise imagens para extrair características visuais como objetos, rostos e descrições geradas automaticamente.	Conteúdo moderado para segurança. Para moderação de conteúdo, utilize o Content Safety no Foundry Control Plane.
Detete, reconhece e analisa rostos humanos em imagens.	Faça uma análise que os grandes modelos de base multimodais, como o GPT-4o, já suportam.

Funcionalidades disponíveis do Azure Vision

A tabela seguinte apresenta uma lista das funcionalidades disponíveis no Azure Vision.

Feature	Descrição
OCR	Extrai texto de imagens. Você pode usar a API de leitura para extrair texto impresso e manuscrito de fotos e documentos. Utiliza modelos baseados em aprendizagem profunda e trabalha com texto em várias superfícies e fundos, incluindo documentos empresariais, faturas, recibos, cartazes, cartões de visita, cartas e quadros brancos.
Análise de Imagem	Extrai muitas características visuais de imagens, como objetos, rostos, conteúdo adulto e descrições de texto geradas automaticamente. Pode criar modelos personalizados de identificadores de imagem usando a Análise de Imagens 4.0 baseada no modelo de fundação Florence.
Deteção e análise facial	Identifica as regiões de uma imagem que contêm um rosto humano, tipicamente retornando coordenadas de caixa delimitadora que formam um retângulo à volta do rosto.
Encontrar rostos semelhantes	Corresponde uma face-alvo a um conjunto de faces candidatas e identifica um grupo mais pequeno de faces que se assemelham muito à face-alvo. Esta funcionalidade é útil para pesquisa facial por imagem.
Rostos do grupo	Divide um conjunto de faces desconhecidas em vários grupos mais pequenos com base na semelhança.
Identificação facial	Faz a correspondência um-para-muitos de um rosto numa imagem com um conjunto de rostos num repositório seguro. Os candidatos correspondentes são retornados com base na proximidade com que seus dados faciais correspondem à face da consulta.
Verificação facial	Faz comparação um-a-um para confirmar que o utilizador é realmente quem diz ser.
Deteção de vivacidade	Uma funcionalidade anti-falsificação que verifica se o utilizador está fisicamente presente em frente à câmara. Previne ataques de falsificação que utilizam uma fotografia impressa, vídeo gravado ou uma máscara 3D do rosto do utilizador.

Casos de uso para Azure Vision

A tabela seguinte apresenta uma lista de possíveis casos de uso para o Azure Vision.

Caso de utilização	Descrição
Gerar texto alternativo de imagem (texto alternativo)	Use modelos de legendas de Análise de Imagem para gerar automaticamente descrições de texto alternativo para imagens. O texto alternativo melhora a acessibilidade para utilizadores cegos ou com baixa visão, ajuda a cumprir os requisitos legais e torna o seu site mais acessível através de um SEO melhorado. Produtos da Microsoft como PowerPoint, Word e Edge utilizam esta funcionalidade.
Verificação de identidade	Use o Azure Face para confirmar que os utilizadores são quem dizem ser. A verificação compara uma imagem de sonda com um modelo registado, como um ID emitido pelo governo, para cenários de controlo de acesso. Esta abordagem ajuda a melhorar a experiência do utilizador e a segurança em comparação com métodos baseados no conhecimento.
Desfoque de rostos	Redigir ou desfocar rostos detetados de pessoas gravadas em um vídeo para proteger sua privacidade.
Controlo de acesso sem contacto	Use a identificação facial opt-in para um controlo de acesso melhorado, ao mesmo tempo que reduz os riscos de manutenção e segurança decorrentes da partilha de suportes físicos, perda ou roubo. O reconhecimento facial auxilia o processo de check-in com um humano no circuito para check-ins em aeroportos, estádios, parques temáticos, edifícios, quiosques de receção em escritórios, hospitais, academias, clubes ou escolas.

Visão Personalizada

A Visão Personalizada é um serviço de reconhecimento de imagem que você pode usar para criar, implantar e melhorar seus modelos de identificador de imagem. Um identificador de imagem aplica rótulos às imagens com base nas suas características visuais. Cada rótulo representa uma classificação ou objeto. Use a Visão Personalizada para especificar seus próprios rótulos e treinar modelos personalizados para detetá-los.

Use a Visão Personalizada para estas tarefas	Não uses o Custom Vision para estas tarefas
Reconhecer objetos invulgares e defeitos de fabrico que a análise de imagem padrão não consegue detetar.	Realiza a deteção básica de objetos ou deteção de faces. Usa o Azure Vision em vez disso.
Forneça classificações personalizadas detalhadas para requisitos específicos do negócio.	Faz uma análise visual básica. Use modelos com capacidade de visão do Azure OpenAI ou modelos open-source em Machine Learning em vez disso.
Treine modelos com as suas próprias imagens rotuladas para cenários especializados.

A Visão Personalizada usa um algoritmo de aprendizado de máquina para analisar imagens em busca de recursos personalizados. Submetes conjuntos de imagens com e sem as características visuais que desejas. Depois, rotulas as imagens com as tuas próprias etiquetas, ou etiquetas, no momento da submissão. O algoritmo utiliza estes dados para treinar e calcula a sua própria precisão testando-se nas mesmas imagens. Depois de treinar seu modelo, você pode testar, treinar novamente e, eventualmente, usar o modelo em seu aplicativo de reconhecimento de imagem para classificar imagens ou detetar objetos. Você também pode exportar o modelo para uso offline.

Funcionalidades disponíveis do Custom Vision

A tabela seguinte apresenta uma lista das funcionalidades disponíveis no Custom Vision.

Feature	Descrição
Classificação das imagens	Preveja uma categoria, ou classe, com base em um conjunto de entradas, que são chamadas de recursos. Calcule uma pontuação de probabilidade para cada classe possível e retorne um rótulo que indique a classe à qual o objeto provavelmente pertence. Para usar esse modelo, você precisa de dados que consistem em recursos e seus rótulos.
Deteção de objetos	Obtenha as coordenadas de um objeto em uma imagem. Para usar esse modelo, você precisa de dados que consistem em recursos e seus rótulos.

Casos de uso para Custom Vision

A tabela a seguir fornece uma lista de possíveis casos de uso para a Visão Personalizada.

Caso de utilização	Descrição
Use o Custom Vision com um dispositivo de internet das coisas (IoT) para reportar estados visuais.	Use a Visão Personalizada para treinar um dispositivo que tenha uma câmera para detetar estados visuais. Você pode executar esse cenário de deteção em um dispositivo IoT usando um modelo ONNX exportado. Um estado visual descreve o conteúdo de uma imagem, como uma sala vazia, uma sala com pessoas, uma entrada vazia ou uma entrada com um camião.
Classifique imagens e objetos.	Treine um modelo personalizado para analisar fotos e procurar logotipos específicos.

Azure Compreensão de Conteúdo

O Azure Content Understanding é um serviço em Tools. Utiliza IA generativa para extrair campos estruturados de imagens e vídeos. Defines um esquema que especifica o que extrair, e o Azure Content Understanding aplica modelos generativos para produzir saída Markdown JSON estruturada ou pronta para RAG. Também fornece pontuações de confiança e fundamentos para cada valor extraído, o que suporta fluxos de trabalho automatizados com revisão humana direcionada.

Use o Azure Content Understanding para estas tarefas	Não use o Azure Content Understanding para estas tarefas
Extraia campos estruturados personalizados das imagens usando um esquema que define, como deteção de produto, marca ou defeito.	Faça análise padrão de imagem, como deteção de objetos ou OCR. Use o Azure Vision para estas tarefas.
Gerar saída pronta para RAG a partir de vídeo, incluindo descrições de cenas, transcrições e fotogramas-chave, para utilização em índices de pesquisa ou agentes de chat.	Extrair insights profundos em vídeo, como identificação de celebridades, enumeração de oradores ou análise de sentimento em conteúdos longos. Use o Video Indexer para estas tarefas.
Segmente o vídeo em cenas e extraia metadados personalizados para cada segmento, como a presença da marca ou a categoria de anúncios.
Gera descrições faciais em imagens ou vídeos, como expressões faciais ou identificação de celebridades. Estas funcionalidades têm acesso limitado.

Funcionalidades disponíveis de Compreensão de Conteúdo do Azure

A tabela seguinte apresenta uma lista das funcionalidades de imagem e vídeo disponíveis no Azure Content Understanding.

Feature	Descrição
Extração de campo de imagem	Extrai campos estruturados personalizados de imagens com base num esquema que tu defines. Pode extrair campos diretamente, classificá-los a partir de um conjunto de categorias ou gerá-los usando um modelo generativo. Esta funcionalidade é útil para análise de prateleiras de retalho, controlo de qualidade de fabrico e business intelligence (BI) baseada em gráficos.
Extração de fotogramas-chave	Extrai fotogramas-chave representativos de cada plano de um vídeo. Assegura que cada segmento tem contexto visual suficiente para extração de campo posterior.
Deteção de tiro	Identifica as fronteiras de planos num vídeo com base em indícios visuais. Produz uma lista de marcadores temporais para edição, reembalagem e segmentação precisas.
Segmentação de cenas	Divide um vídeo em cenas lógicas descritas em linguagem natural. Define-se a lógica de segmentação, como dividir uma transmissão de notícias por tema da história, e o modelo generativo cria segmentos correspondentes.
Captura de campo de vídeo	Gera campos estruturados personalizados para cada segmento de vídeo com base num esquema, como logótipos de marcas, categorias de anúncios ou sentimento de cena, utilizando um modelo generativo.
Descrição da face	Gera descrições textuais de rostos em imagens ou vídeos, incluindo barba, expressões e identificação de celebridades. A descrição facial é uma funcionalidade de acesso limitado que exige que desligues o desfoque facial na configuração do analisador.

Casos de uso para Azure Content Understanding

A tabela seguinte apresenta uma lista de possíveis casos de uso para o Azure Content Understanding aplicado a imagens e vídeo.

Caso de utilização	Descrição
RAG em vídeo	Gerar Markdown pronto para RAG a partir de ficheiros de vídeo, incluindo transcrições inline, miniaturas de fotogramas-chave e descrições de segmentos em linguagem natural. Coloque a saída diretamente em um armazenamento vetorial para facilitar workflows de agentes ou pesquisas sem necessidade de pós-processamento.
Gestão de ativos mediáticos	Marque os ativos de vídeo com metadados ao nível da cena, como categoria de conteúdo, presença de marca e momentos-chave. Esta abordagem ajuda editores, produtores e equipas de marketing a organizar e recuperar conteúdos de grandes bibliotecas de vídeo.
Controlo de qualidade de fabrico	Analisar imagens de produto em relação a um esquema personalizado para detetar defeitos, anomalias ou desalinhamentos nas linhas de produção.
Análise das prateleiras de retalho	Extrair dados estruturados de imagens de prateleiras para contar produtos, detetar deslocações e monitorizar os níveis de stock.
Análise de anúncios e marcas	Identifique logótipos de marcas e categorias de anúncios nos segmentos de vídeo promocional para avaliar a exposição da marca e o cumprimento das diretrizes de marca.

Video Indexer

O Video Indexer é uma solução de IA que as organizações podem usar para extrair insights profundos de conteúdos de vídeo e áudio em direto e carregados. Utiliza modelos avançados de aprendizagem automática e IA generativa e suporta uma vasta gama de capacidades, incluindo transcrição, tradução, deteção de objetos e sumarização em vídeo. O Video Indexer é flexível. Pode utilizá-lo na cloud ou implementá-lo em localizações de edge via Azure Arc.

Use o Video Indexer para estas tarefas	Não uses o Video Indexer para estas tarefas
Extrair insights dos vídeos carregados, incluindo transcrição, tradução e análise de conteúdos.	Faz tarefas básicas de análise de vídeo, como contar pessoas e deteção de movimento. O Azure Vision é uma ferramenta mais económica para estas tarefas.
Analise transmissões de vídeo ao vivo em tempo real para retalho, produção ou cenários de segurança.	Extrair texto de imagens estáticas. Para OCR em imagens, use o Azure Vision.
Execute análise de vídeo em dispositivos edge que tenham requisitos rigorosos de residência de dados ou baixa latência usando Azure Arc.

Opções de implantação

O Video Indexer fornece as seguintes opções de implementação.

Option	Descrição
Indexador de Vídeo Baseado na Nuvem	Uma aplicação cloud construída sobre Tools, incluindo Azure Face, Azure Translator no Foundry Tools, Azure Vision e Azure Speech. Analisa conteúdos de vídeo e áudio através da execução de mais de 30 modelos de IA para gerar insights detalhados.
Video Indexer ativado pelo Azure Arc	Uma extensão Azure Arc que executa análise de vídeo e áudio e IA generativa em dispositivos edge. Suporta tanto transmissões de vídeo carregadas como em direto, permitindo análise em tempo real diretamente na fonte de dados. Adequa-se a indústrias que têm requisitos rigorosos de residência de dados ou necessidades operacionais de baixa latência.

Modelos de vídeo

A tabela seguinte apresenta uma lista das funcionalidades de análise de vídeo disponíveis no Video Indexer.

Feature	Descrição
Deteção de rosto	Deteta e agrupa rostos que aparecem num vídeo.
Identificação facial baseada na conta	Treina um modelo para uma conta específica e reconhece rostos em vídeos com base no modelo treinado.
Deteção de pessoas observada	Detete pessoas observadas em vídeos e fornece informação de localização através de caixas delimitadoras, com carimbos temporais exatos e níveis de confiança. Inclui pessoas emparelhadas, roupa detetada e informações sobre roupas em destaque.
Deteção de objetos	Deteta e rastreia objetos únicos para que possa reconhecê-los caso regressem ao quadro.
OCR	Extrai texto de imagens como imagens, sinais de rua e produtos em arquivos de mídia para criar insights.
Identificação de etiquetas	Identifica objetos visuais e ações apresentadas.
Segmentação de cenas	Determina quando uma cena muda no vídeo com base em pistas visuais. Uma cena representa um único evento composto por uma série de planos consecutivos.
Deteção de tiro	Determina quando um plano muda no vídeo com base em pistas visuais. Um plano é uma série de fotogramas tirados pela mesma câmara de cinema.
Extração de fotogramas-chave	Deteta fotogramas-chave estáveis num vídeo.
Deteção de slate	Identifica perceções de pós-produção de filmes, incluindo deteção de claquete, deteção de padrões digitais e deteção de ardósia sem inscrições.

Modelos de áudio

A tabela seguinte apresenta uma lista das funcionalidades de análise áudio disponíveis no Video Indexer.

Feature	Descrição
Transcrição de áudio	Converte STT em mais de 50 linguagens e suporta extensões.
Deteção automática de linguagem	Identifica a língua falada dominante.
Identificação da fala em múltiplas línguas	Identifica a língua falada em diferentes segmentos de áudio, envia cada segmento para transcrição e combina-os numa única transcrição unificada.
Legendas ocultas	Cria legendas ocultas nos formatos Web Video Text Tracks (WebVTT), Timed Text Markup Language (TTML) e SubRip Subtitle (SRT).
Processamento de dois canais	Deteta automaticamente transcrições separadas e funde-as numa única linha temporal.
Redução de ruído	Limpa áudio telefónico ou gravações ruidosas com filtros do Skype.
Enumeração de oradores	Mapeia e compreende que orador falou quais palavras e quando. É capaz de detetar 16 oradores num único ficheiro de áudio.
Tradução	Cria traduções da transcrição áudio em várias línguas diferentes.
Deteção de efeitos de áudio	Deteta efeitos sonoros em segmentos sem fala, incluindo alarmes ou sirenes, um cão a ladrar, reações da multidão, sons de impacto, risos, vidro a partir-se e silêncio.

Modelos combinados de áudio e vídeo

As seguintes funcionalidades analisam conteúdos áudio e vídeo.

Feature	Descrição
Extração de palavras-chave	Extrai palavras-chave de texto de fala e vídeo
Extração de entidades nomeadas	Extrai marcas, locais e pessoas de texto falado e visual através do processamento de linguagem natural (PLN)
Inferência de tópicos	Extrai tópicos com base em várias palavras-chave utilizando o International Press Telecommunications Council (IPTC), a Wikipédia e a ontologia hierárquica do Video Indexer
Análise de sentimentos	Identifica sentimentos positivos, negativos e neutros a partir de texto de discurso e visual.

Para mais informações, consulte a visão geral do Video Indexer.

Casos de uso para o Video Indexer baseado na cloud

A tabela seguinte apresenta uma lista de possíveis casos de uso para o Video Indexer baseado na cloud.

Caso de utilização	Descrição
Pesquisa profunda	Melhore a experiência de pesquisa numa biblioteca de vídeos utilizando os insights extraídos pelo Video Indexer. Por exemplo, quando indexas palavras e rostos falados, os utilizadores podem encontrar momentos num vídeo em que uma pessoa pronuncia palavras específicas ou quando duas pessoas são vistas juntas. Estes casos de uso aplicam-se a qualquer indústria que tenha uma biblioteca de vídeos que os utilizadores precisem de pesquisar, incluindo agências de notícias, instituições educativas, emissoras, proprietários de conteúdos de entretenimento e aplicações empresariais de linha de negócio (LOB).
Criação de conteúdo	Crie trailers, compilações destacadas, conteúdos para redes sociais ou excertos de notícias com base nos insights extraídos pelo Video Indexer do seu conteúdo. Fotogramas-chave, marcadores de cena e carimbos temporais de pessoas e aparições de etiquetas simplificam o processo de criação.
Acessibilidade	Torne o seu conteúdo disponível para pessoas com deficiência ou distribua conteúdos para regiões que usem diferentes línguas, utilizando as capacidades de transcrição e tradução que o Video Indexer oferece.
Rentabilização	Aumenta o valor dos vídeos. Indústrias que dependem de receitas publicitárias, como os meios de comunicação social e as redes sociais, podem entregar anúncios relevantes usando os insights extraídos como sinais extra para o servidor de anúncios.
Moderação de conteúdo	Proteja os seus utilizadores de conteúdos inadequados e confirme que o conteúdo que publica corresponde aos valores da sua organização, utilizando modelos de moderação de conteúdos textuais e visuais.
Recomendações	Melhore o envolvimento dos utilizadores destacando os momentos de vídeo relevantes para eles. Ao marcar cada vídeo com metadados extra, pode recomendar os vídeos mais relevantes e destacar as partes que correspondem às necessidades dos utilizadores.

Casos de utilização para o Video Indexer ativado pelo Azure Arc

A tabela seguinte apresenta uma lista de possíveis casos de uso para o Video Indexer ativado pelo Azure Arc.

Caso de utilização	Descrição
Varejo	Otimize a disposição das lojas e melhore a experiência e segurança do cliente. Monitorize o número de clientes nas filas de caixa em tempo real para otimizar o pessoal e reduzir os tempos de espera.
Fabricação	Garantir o controlo de qualidade e a segurança dos trabalhadores através de análise por vídeo. Detetar trabalhadores que não estejam a usar equipamento de proteção com deteção em tempo real de eventos críticos.
Segurança moderna	Detete e identifique problemas de segurança antes que causem risco.
Governação de dados	Traz IA para o conteúdo. Use o Video Indexer ativado pelo Arc quando não puder transferir conteúdo indexado do local para a cloud devido a regulamentos, decisões de arquitetura ou grandes armazenamentos de dados.
Pré-indexação	Indexe o conteúdo antes de o carregar na cloud. Pre-coloque o seu arquivo de vídeo ou áudio local e depois só o carregue para indexação padrão ou avançada na cloud.

Comentários

Esta página foi útil?

Last updated on 2026-03-24

Escolha uma tecnologia de geração e processamento de imagem e vídeo de IA do Azure

Azure OpenAI

Modelos de áudio

Azure Vision

Funcionalidades disponíveis do Azure Vision

Casos de uso para Azure Vision

Visão Personalizada

Funcionalidades disponíveis do Custom Vision

Casos de uso para Custom Vision

Azure Compreensão de Conteúdo

Funcionalidades disponíveis de Compreensão de Conteúdo do Azure

Casos de uso para Azure Content Understanding

Video Indexer

Opções de implantação

Modelos de vídeo

Modelos de áudio

Modelos combinados de áudio e vídeo

Casos de uso para o Video Indexer baseado na cloud

Casos de utilização para o Video Indexer ativado pelo Azure Arc

Recursos relacionados

Comentários

Recursos adicionais