Partilhar via


Escolha uma tecnologia de geração e processamento de imagem e vídeo de IA do Azure

Os serviços de IA do Azure ajudam os programadores e as organizações a criar aplicações inteligentes, inovadoras, prontas para o mercado e responsáveis com APIs e modelos prontos a utilizar, pré-construídos e personalizáveis.

Este artigo aborda os serviços de IA que fornecem recursos de processamento de vídeo e imagem, como análise visual e geração de imagens, deteção de objetos, classificação de imagens e reconhecimento facial.

Serviços

Os seguintes serviços fornecem recursos de processamento de vídeo e imagem para serviços de IA:

  • Azure OpenAI Service

    • Utilização Azure OpenAI para geração de imagens a partir de linguagem natural usando modelos de imagem generativa pré-treinados. Por exemplo, você pode usar o Azure OpenAI para gerar arte personalizada sob demanda.

    • Utilização Azure OpenAI quando você precisa executar análises amplas e não específicas em imagens. Por exemplo, você pode usar o Azure OpenAI para gerar descrições de acessibilidade.

    • Não utilize Azure OpenAI se você quiser usar modelos de geração de imagem de código aberto que estão disponíveis no Azure Machine Learning.

    • Não utilize Azure OpenAI se você precisar executar tipos específicos de processamento de imagem, como extração de formulário, reconhecimento facial ou deteção de características de imagem especializadas em domínio. Para esses cenários, use ou crie soluções de IA projetadas especificamente para esses fins.

  • Visão de IA do Microsoft Azure

    • Utilização Visão quando você precisa de reconhecimento ótico de caracteres (OCR) básico, análise de imagem ou análise básica de vídeo para detetar movimento e outros eventos.

    • Não utilize Visão para análises que modelos de base grandes e multimodais já suportam.

    • Não utilize Visão para moderar conteúdo. Em vez disso, use a Segurança de Conteúdo de IA do Microsoft Azure.

  • Visão personalizada de IA do Microsoft Azure

    • Use Custom Vision para necessidades específicas que não são atendidas pela análise de imagem que o Vision fornece. Por exemplo, a Visão Personalizada pode reconhecer objetos incomuns e defeitos de fabricação. Ele também pode fornecer classificações personalizadas detalhadas.

    • Não utilize Visão personalizada se você precisar de deteção básica de objetos ou deteção de rosto. Em vez disso, use o Azure AI Face ou Vision.

    • Não utilize Visão personalizada para análise visual básica. Em vez disso, use modelos com capacidade de visão do Azure OpenAI ou modelos de código aberto no Machine Learning.

  • Azure AI Face

    • Use Azure AI Face quando precisar verificar se os rostos são vivos ou falsificados, identificar, agrupar ou encontrar rostos semelhantes.

    • Não utilize Azure AI Face para detetar emoções em rostos ou executar outro raciocínio de alto nível sobre rostos. Em vez disso, utilize modelos linguísticos multimodais para essas tarefas.

  • Indexador de vídeo AI do Microsoft Azure

    • Utilização Video Indexer para tarefas avançadas de análise de vídeo que não podem ser tratadas pela análise de vídeo básica no Vision.

    • Não utilize Video Indexer para tarefas básicas de análise de vídeo, como contagem de pessoas e deteção de movimento e eventos. A análise básica de vídeo no Vision é mais econômica para essas tarefas.

Azure OpenAI

O Azure OpenAI fornece acesso aos poderosos modelos de linguagem da OpenAI, incluindo a última geração de modelos GPT. Estes modelos suportam análise visual e gerações de imagens. O DALL-E também suporta a geração de imagens.

Visão

O Vision fornece algoritmos avançados que processam imagens e retornam informações com base nos recursos visuais especificados. Ele fornece quatro serviços: OCR, Azure AI Face, análise de imagem e análise espacial.

Capacidades

A tabela a seguir fornece uma lista de recursos disponíveis no Vision.

Capacidade Descrição
OCR OCR extrai texto de imagens. Você pode usar a API de leitura para extrair texto impresso e manuscrito de fotos e documentos. Utiliza modelos baseados em aprendizagem profunda para processar texto numa variedade de superfícies e fundos. Esses materiais incluem documentos comerciais, faturas, recibos, cartazes, cartões de visita, cartas e quadros brancos. As APIs OCR suportam a extração de texto impresso em vários idiomas.
Azure AI Vision Image Analysis A Análise de Imagem extrai muitos recursos visuais de imagens, como objetos, rostos e descrições de texto geradas automaticamente. Você pode criar modelos de identificador de imagem personalizados usando o Image Analysis 4.0 baseado no modelo de fundação de Florença.
Análise de Vídeo A Análise de Vídeo inclui recursos relacionados a vídeo, como Análise Espacial e Recuperação de Vídeo. A Análise Espacial analisa a presença e o movimento de pessoas em um feed de vídeo e produz eventos aos quais outros sistemas podem responder.

Visão Personalizada

A Visão Personalizada é um serviço de reconhecimento de imagem que você pode usar para criar, implantar e melhorar seus modelos de identificador de imagem. Um identificador de imagem aplica etiquetas às imagens de acordo com as suas características visuais. Cada rótulo representa uma classificação ou objeto. Use a Visão Personalizada para especificar seus próprios rótulos e treinar modelos personalizados para detetá-los.

A Visão Personalizada usa um algoritmo de aprendizado de máquina para analisar imagens em busca de recursos personalizados. Você envia conjuntos de imagens que têm e não têm as características visuais desejadas. Em seguida, você rotula as imagens com seus próprios rótulos, ou tags, no momento do envio. O algoritmo treina esses dados e calcula sua própria precisão, testando-se nas mesmas imagens. Depois de treinar seu modelo, você pode testar, treinar novamente e, eventualmente, usar o modelo em seu aplicativo de reconhecimento de imagem para classificar imagens ou detetar objetos. Você também pode exportar o modelo para uso offline.

Capacidades

A tabela a seguir fornece uma lista de recursos disponíveis na Visão Personalizada.

Capacidade Descrição
Classificação das imagens Preveja uma categoria, ou classe, com base em um conjunto de entradas, que são chamadas de recursos. Calcule uma pontuação de probabilidade para cada classe possível e retorne um rótulo que indique a classe à qual o objeto provavelmente pertence. Para usar esse modelo, você precisa de dados que consistem em recursos e seus rótulos.
Deteção de objetos Obtenha as coordenadas de um objeto em uma imagem. Para usar esse modelo, você precisa de dados que consistem em recursos e seus rótulos.

Casos de utilização

A tabela a seguir fornece uma lista de possíveis casos de uso para a Visão Personalizada.

Caso de utilização Descrição
Use a Visão Personalizada com um dispositivo IoT para relatar estados visuais. Use a Visão Personalizada para treinar um dispositivo que tenha uma câmera para detetar estados visuais. Você pode executar esse cenário de deteção em um dispositivo IoT usando um modelo ONNX exportado. Um estado visual descreve o conteúdo de uma imagem, como uma sala vazia ou uma sala com pessoas ou uma entrada vazia ou uma entrada com um caminhão.
Classifique imagens e objetos. Treine um modelo personalizado para analisar fotos e procurar logotipos específicos.

Azure AI Face - Reconhecimento Facial Azure AI

O Azure AI Face fornece algoritmos de IA que detetam, reconhecem e analisam rostos humanos em imagens. O software de reconhecimento facial é importante em vários cenários, como identificação, controle de acesso sem toque e desfoque facial automático para privacidade.

Capacidades

A tabela a seguir fornece uma lista de recursos disponíveis no Azure AI Face.

Capacidade Descrição
Deteção e análise facial Identifique as regiões de uma imagem que contêm um rosto humano, normalmente retornando as coordenadas da caixa delimitadora que formam um retângulo ao redor do rosto.
Encontrar rostos semelhantes A operação Encontrar Semelhante associa um rosto alvo a um conjunto de rostos candidatos. Ele identifica um grupo menor de rostos que se assemelham muito ao rosto alvo. Esta funcionalidade é útil para fazer uma pesquisa facial por imagem.
Rostos do grupo A operação do Grupo divide um conjunto de rostos desconhecidos em vários grupos menores com base na semelhança. Cada grupo é um subconjunto adequado e desassociado do conjunto original de rostos. Ele também retorna uma única messyGroup matriz que contém os IDs de rosto para os quais não foram encontradas semelhanças.
Identificação A identificação facial pode tratar da equivalência um-para-muitos de um rosto numa imagem com um conjunto de rostos num repositório seguro. Os candidatos correspondentes são retornados com base na proximidade com que seus dados faciais correspondem à face da consulta.
Operações de reconhecimento facial Empresas e aplicativos modernos podem usar as tecnologias de reconhecimento facial do Azure AI, incluindo verificação facial (ou correspondência um-para-um) e identificação facial (ou correspondência um-para-muitos) para confirmar que um usuário é quem afirma ser.
Deteção de vivacidade A deteção de vivacidade é um recurso anti-falsificação que verifica se um usuário está fisicamente presente na frente da câmera. Ele é usado para evitar ataques de falsificação que usam uma foto impressa, vídeo gravado ou uma máscara 3D do rosto do usuário.

Casos de utilização

A tabela a seguir fornece uma lista de possíveis casos de uso para o Azure AI Face.

Caso de utilização Descrição
Verificar a identidade do usuário Verifique uma pessoa em relação a uma imagem de rosto confiável. Essa verificação pode ser usada para conceder acesso a propriedades digitais ou físicas. Na maioria dos cenários, a imagem do rosto confiável vem de um documento de identificação emitido pelo governo, como um passaporte ou carteira de motorista, ou de uma foto de inscrição tirada pessoalmente. Durante a verificação, a deteção de vivacidade pode desempenhar um papel crucial na verificação de que a imagem vem de uma pessoa real e não de uma foto ou máscara impressa.
Redação de rostos Redigir ou desfocar rostos detetados de pessoas gravadas em um vídeo para proteger sua privacidade.
Controlo de acesso sem toque Em comparação com métodos como cartões ou bilhetes, a identificação facial opt-in permite uma experiência de controle de acesso aprimorada, reduzindo os riscos de higiene e segurança do compartilhamento de mídia física, perda ou roubo. O reconhecimento facial auxilia o processo de check-in com um humano no circuito para check-ins em aeroportos, estádios, parques temáticos, edifícios, quiosques de receção em escritórios, hospitais, academias, clubes ou escolas.

Indexador de vídeo

O Video Indexer é um aplicativo na nuvem que faz parte dos serviços de IA. Ele foi criado usando ferramentas de IA do Azure, como Face, Translator, Visão e Fala. Ele permite que você extraia as informações de seus vídeos usando modelos de vídeo e áudio do Video Indexer.

Capacidades

A tabela a seguir fornece uma lista de alguns dos recursos disponíveis no Video Indexer.

Capacidade Descrição
Identificação e transcrição de fala em múltiplos idiomas Identifica a linguagem falada em diferentes segmentos do áudio. Envia cada segmento do ficheiro multimédia para ser transcrito e, em seguida, combina a transcrição de volta numa transcrição unificada.
Deteção de rosto Deteta e agrupa rostos que aparecem no vídeo.
Identificação de celebridades Identifica mais de 1 milhão de celebridades, como líderes mundiais, atores, artistas, atletas, pesquisadores e líderes empresariais e tecnológicos em todo o mundo. Os dados sobre essas celebridades também podem ser encontrados em vários sites, como o IMDB e a Wikipedia.
Identificação facial baseada na conta Treina um modelo para uma conta determinada. Em seguida, reconhece rostos no vídeo com base no modelo treinado.
Rastreamento de pessoas em observação (pré-visualização) Deteta pessoas observadas em vídeos. O sistema fornece informações, como a localização da pessoa dentro do quadro de vídeo, utilizando caixas delimitadoras. Ele também inclui os carimbos de data/hora exatos de início e fim do momento em que uma pessoa surge, bem como um nível de confiança para a deteção.
Transcrição de áudio Converte fala em texto em mais de 50 idiomas e permite extensões.
Deteção de idioma Identifica a língua falada dominante.
Redução de ruído Limpa áudio de telefonia ou gravações barulhentas (com base em filtros do Skype).
Tradução Cria traduções da transcrição de áudio para vários idiomas.

Para obter mais informações, consulte a documentação do Video Indexer.

Casos de utilização

A tabela a seguir fornece uma lista de possíveis casos de uso do Video Indexer.

Caso de utilização Descrição
Pesquisa profunda Use as informações extraídas do vídeo para aprimorar a experiência de pesquisa em uma biblioteca de vídeos. Por exemplo, a indexação de palavras faladas e rostos pode permitir a experiência de pesquisa de encontrar momentos em um vídeo onde uma pessoa falou certas palavras ou quando duas pessoas foram vistas juntas. A pesquisa com base nessas informações de vídeos é aplicável a agências de notícias, institutos educacionais, emissoras, proprietários de conteúdo de entretenimento, aplicativos de linha de negócios empresariais e, geralmente, a qualquer setor que tenha uma biblioteca de vídeos que os usuários precisem pesquisar.
Criação de conteúdo Crie trailers, compilações de destaques, conteúdo para redes sociais ou clipes de notícias com base nas informações que o Video Indexer extrai do seu conteúdo. Quadros-chave, marcadores de cena e carimbos de data/hora para a aparição de pessoas e rótulos simplificam o processo de criação. Esses elementos ajudam você a localizar rapidamente as partes do vídeo de que você precisa ao criar conteúdo.
Acessibilidade Se você deseja disponibilizar seu conteúdo para pessoas com deficiência ou deseja que seu conteúdo seja distribuído para diferentes regiões que usam idiomas diferentes, você pode usar a transcrição e tradução que o Video Indexer fornece em vários idiomas.
Rentabilização O Video Indexer pode ajudar a aumentar o valor dos vídeos. Por exemplo, os setores que dependem da receita de anúncios, como mídia de notícias e mídias sociais, podem exibir anúncios relevantes usando as informações extraídas como sinais adicionais para o servidor de anúncios.
Moderação de conteúdo Use modelos de moderação de conteúdo textual e visual para manter seus usuários protegidos contra conteúdo inadequado e validar se o conteúdo que você publica corresponde aos valores da sua organização. Você pode bloquear automaticamente determinados vídeos ou alertar seus usuários sobre o conteúdo.
Recomendações As informações de vídeo podem ser usadas para melhorar o envolvimento do usuário, destacando os momentos de vídeo relevantes para os usuários. Ao marcar cada vídeo com metadados extras, você pode recomendar aos usuários os vídeos mais relevantes e destacar as partes do vídeo que correspondem às suas necessidades.

Próximos passos