Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Os serviços de IA do Azure ajudam os desenvolvedores e as organizações a criar aplicativos inteligentes, de ponta, prontos para o mercado e responsáveis com APIs e modelos prontos para uso, predefinidos e personalizáveis.
Este artigo aborda os serviços de IA que fornecem recursos de processamento de vídeo e imagem, como análise visual e geração de imagens, detecção de objetos, classificação de imagem e reconhecimento facial.
Serviços
Os serviços a seguir fornecem recursos de processamento de vídeo e imagem para serviços de IA:
-
Usar Azure OpenAI para geração de imagem a partir da linguagem natural usando modelos de geração de imagem pré-treinados. Por exemplo, você pode usar o Azure OpenAI para gerar arte personalizada sob demanda.
Usar Azure OpenAI quando você precisa executar uma análise abrangente e não específica em imagens. Por exemplo, você pode usar o Azure OpenAI para gerar descrições de acessibilidade.
Não use Azure OpenAI se você quiser usar modelos de geração de imagem de software livre disponíveis no Azure Machine Learning.
Não use Azure OpenAI se você precisar executar tipos específicos de processamento de imagem, como extração de formulário, reconhecimento facial ou detecção de características de imagem especializadas em domínio. Para esses cenários, use ou crie soluções de IA projetadas especificamente para essas finalidades.
Visão de IA do Microsoft Azure
Usar Visão quando você precisa de OCR (reconhecimento óptico de caracteres), análise de imagem ou análise de vídeo básica para detectar movimento e outros eventos.
Não use Visão para análise que modelos de base grandes e multimodal já dão suporte.
Não use Vision para moderar conteúdo. Em vez disso, use a Segurança de Conteúdo de IA do Microsoft Azure.
Visão Personalizada da IA do Microsoft Azure
Usar Visão personalizada para requisitos específicos que não podem ser atendidos pela análise de imagem fornecida pela Visão. Por exemplo, a Visão Personalizada pode reconhecer objetos incomuns e defeitos de fabricação. Ele também pode fornecer classificações personalizadas detalhadas.
Não use Visão Personalizada se você precisar de detecção básica de objetos ou detecção facial. Em vez disso, use o Azure AI Face ou o Azure AI Vision.
Não use Visão Personalizada para análise visual básica. Use modelos com capacidade de visão do Azure OpenAI ou modelos de software livre no Machine Learning.
Detecção facial de IA do Azure
Use o Face AI do Azure quando você precisar verificar se os rostos são reais ou falsificados ou para identificar, agrupar ou encontrar rostos semelhantes.
Não use o Azure AI Face para detectar emoções em faces ou executar outros raciocínios de alto nível sobre faces. Em vez disso, use modelos de linguagem multimodal para essas tarefas.
Microsoft Azure IA Indexador de Vídeo
Usar Video Indexer para tarefas avançadas de análise de vídeo que não podem ser tratadas pela análise básica de vídeo na Visão.
Não use Video Indexer para tarefas básicas de análise de vídeo, como contagem de pessoas, movimento e detecção de eventos. A análise básica de vídeo na Visão é mais econômica para essas tarefas.
OpenAI do Azure
O OpenAI do Azure fornece acesso aos poderosos modelos de linguagem da OpenAI, incluindo a última geração de modelos GPT. Esses modelos dão suporte à análise visual e gerações de imagens. O DALL-E também dá suporte à geração de imagem.
Visão
A Visão fornece algoritmos avançados que processam imagens e retornam informações com base nos recursos visuais que você especificar. Ele fornece quatro serviços: OCR, Detecção Facial de IA do Azure, análise de imagem e análise espacial.
Capacidades
A tabela a seguir fornece uma lista de recursos disponíveis na Visão.
Capacidade | Descrição |
---|---|
OCR | O OCR extrai texto de imagens. Você pode usar a API de Leitura para extrair texto impresso e manuscrito de fotos e documentos. Ele usa modelos baseados em aprendizado profundo para processar texto em uma variedade de superfícies e planos de fundo. Esses materiais incluem documentos comerciais, faturas, recibos, cartazes, cartões de visita, cartas e quadros de comunicações. As APIs do OCR dão suporte à extração de texto impresso em vários idiomas. |
Análise de Imagem da Visão de IA do Azure | A Análise de Imagem extrai muitos recursos visuais de imagens, como objetos, rostos e descrições de texto geradas automaticamente. Você pode criar modelos de identificador de imagem personalizados usando a Análise de Imagem 4.0 baseada no modelo de base de Florença. |
Análise de Vídeo | A Análise de Vídeo inclui recursos relacionados a vídeo, como Análise Espacial e Recuperação de Vídeo. A Análise Espacial analisa a presença e o movimento de pessoas em um feed de vídeo e produz eventos aos quais outros sistemas podem responder. |
Visão Personalizada
A Visão Personalizada é um serviço de reconhecimento de imagem que você pode usar para criar, implantar e melhorar seus modelos de identificador de imagem. Um identificador de imagem aplica rótulos às imagens de acordo com suas características visuais. Cada rótulo representa uma classificação ou um objeto. Use a Visão Personalizada para especificar seus próprios rótulos e treinar modelos personalizados para detectá-los.
A Visão Personalizada usa um algoritmo de aprendizado de máquina para analisar imagens para recursos personalizados. Você envia conjuntos de imagens que têm e não têm as características visuais desejadas. Em seguida, você rotula as imagens com seus próprios rótulos ou marcas no momento do envio. O algoritmo treina com esses dados e calcula a própria precisão se testando com as mesmas imagens. Depois de treinar seu modelo, você pode testar, treinar novamente e, eventualmente, usar o modelo em seu aplicativo de reconhecimento de imagem para classificar imagens ou detectar objetos. Você também pode exportar o modelo para uso offline.
Capacidades
A tabela a seguir fornece uma lista de recursos disponíveis na Visão Personalizada.
Capacidade | Descrição |
---|---|
Classificação de imagens | Prever uma categoria, ou classe, com base em um conjunto de entradas, que são chamadas de recursos. Calcular uma pontuação de probabilidade para cada classe possível e retornar um rótulo que indique a classe à qual o objeto provavelmente pertence. Para usar este modelo, você precisa de dados que consistem em características e seus rótulos. |
Detecção de objetos | Obter as coordenadas de um objeto em uma imagem. Para usar este modelo, você precisa de dados que consistem em características e seus rótulos. |
Casos de uso
A tabela a seguir fornece uma lista de possíveis casos de uso para a Visão Personalizada.
Caso de uso | Descrição |
---|---|
Use a Visão Personalizada com um dispositivo IoT para relatar estados visuais. | Use a Visão Personalizada para treinar um dispositivo que tenha uma câmera para detectar estados visuais. Você pode executar esse cenário de detecção em um dispositivo IoT usando um modelo ONNX exportado. Um estado visual descreve o conteúdo de uma imagem, como uma sala vazia ou uma sala com pessoas ou uma calçada vazia ou uma calçada com um caminhão. |
Classifique imagens e objetos. | Analise fotos e examine logotipos específicos treinando um modelo personalizado. |
Detecção Facial da IA do Azure
O Azure AI Face fornece algoritmos de IA que detectam, reconhecem e analisam rostos humanos em imagens. O software de reconhecimento facial é importante em vários cenários, como identificação, controle de acesso sem toque e desfoque automático de rosto para privacidade.
Capacidades
A tabela a seguir fornece uma lista de recursos disponíveis no Azure AI Face.
Capacidade | Descrição |
---|---|
Detecção facial e análise | Identificar regiões de uma imagem que contêm um rosto humano, normalmente retornando as coordenadas da caixa delimitadora que formam um retângulo em volta do rosto. |
Encontrar rostos semelhantes | A operação Localizar Semelhante compara um rosto alvo com um conjunto de rostos candidatos. Ele identifica um grupo menor de rostos que se assemelham muito ao rosto de destino. Essa funcionalidade é útil para fazer uma pesquisa facial por imagem. |
Agrupar rostos | A operação de divisão por grupos divide um conjunto de rostos desconhecidos em vários grupos menores com base na semelhança. Cada grupo é um devido subconjunto separado do conjunto original de rostos. Ele também retorna uma única messyGroup matriz que contém as IDs de rosto para as quais nenhuma semelhança foi encontrada. |
Identificação | A identificação facial pode abordar a correspondência um-para-muitos de um rosto em uma imagem para um conjunto de rostos em um repositório seguro. Os candidatos correspondentes são retornados com base em quão próximo os dados faciais deles correspondem ao rosto da consulta. |
Operações de reconhecimento facial | Empresas e aplicativos modernos podem usar as tecnologias de reconhecimento facial de IA do Azure, incluindo verificação facial (ou correspondência um-para-um) e identificação facial (ou correspondência um-para-muitos) para confirmar se um usuário é quem ele diz ser. |
Detecção de vivacidade | A detecção de vivacidade é um recurso antifalsificação que verifica se um usuário está fisicamente presente na frente da câmera. Ele é usado para evitar ataques de falsificação que usam uma foto impressa, um vídeo gravado ou uma máscara 3D do rosto do usuário. |
Casos de uso
A tabela a seguir fornece uma lista de possíveis casos de uso para o Azure AI Face.
Caso de uso | Descrição |
---|---|
Verificar a identidade do usuário | Verificar uma pessoa em relação a uma imagem de rosto confiável. Essa verificação pode ser usada para conceder acesso a propriedades digitais ou físicas. Na maioria dos cenários, a imagem de rosto confiável vem de uma ID emitida pelo governo, como um passaporte ou carteira de motorista, ou de uma foto de registro tirada pessoalmente. Durante a verificação, a detecção de vivacidade pode desempenhar um papel crucial na verificação de que a imagem vem de uma pessoa real e não de uma foto impressa ou máscara. |
Edição facial | Edite ou desfoque rostos de pessoas detectados e gravados em um vídeo para proteger a privacidade delas. |
Controle de acesso sem toque | Em comparação com os métodos, como cartões ou tíquetes, a identificação facial de aceitação habilita uma experiência de controle de acesso aprimorada, reduzindo os riscos à higiene e segurança decorrentes do compartilhamento, da perda ou do roubo de mídia física. O reconhecimento facial auxilia o processo de check-in com supervisão humana em aeroportos, estádios, parques temáticos, edifícios, quiosques de recepção em escritórios, hospitais, academias, clubes ou escolas. |
Indexador de Vídeo
O Video Indexer é um aplicativo de nuvem que faz parte dos serviços de IA. Ele é criado usando ferramentas de IA do Azure, como Detecção Facial, Tradutor, Visão e Fala. Ele permite que você extraia os insights de seus vídeos usando modelos de vídeo e áudio do Video Indexer.
Capacidades
A tabela a seguir fornece uma lista de alguns dos recursos disponíveis no Video Indexer.
Capacidade | Descrição |
---|---|
Identificação e transcrição de fala de vários idiomas | Identifica o idioma falado em diferentes segmentos de áudio. Ele envia cada segmento do arquivo de mídia a ser transcrito e, em seguida, combina a transcrição em uma transcrição unificada. |
Detecção facial | Detecta e agrupa rostos que aparecem no vídeo. |
Identificação de celebridade | Identifica mais de 1 milhão de celebridades, como líderes mundiais, atores, artistas, atletas, pesquisadores e líderes de negócios e tecnologia em todo o mundo. Os dados sobre essas celebridades também podem ser encontrados em vários sites, como IMDB e Wikipédia. |
Identificação de rosto baseada em conta | Treina um modelo para uma conta específica. Em seguida, ele reconhece os rostos no vídeo com base no modelo treinado. |
Acompanhamento de pessoas observadas (versão prévia) | Detecta pessoas observadas em vídeos. Ele fornece informações como a localização da pessoa dentro do quadro de vídeo usando caixas delimitadoras. Ele também inclui os carimbos de data/hora de início e término exatos para quando uma pessoa aparece e um nível de confiança para a detecção. |
Transcrição de áudio | Converte fala em texto em mais de 50 idiomas e permite extensões. |
Detecção de idioma | Identifica automaticamente o idioma dominante falado. |
Redução de ruído | Limpa áudio de telefonia ou gravações com ruídos (com base nos filtros do Skype). |
Tradução | Cria traduções da transcrição de áudio para vários idiomas. |
Para obter mais informações, consulte a documentação do Video Indexer.
Casos de uso
A tabela a seguir fornece uma lista de possíveis casos de uso para o Video Indexer.
Caso de uso | Descrição |
---|---|
Pesquisa avançada | Use os insights extraídos do vídeo para aprimorar a experiência de pesquisa em uma biblioteca de vídeos. Por exemplo, a indexação das palavras faladas e faces pode habilitar a experiência de pesquisa para localizar momentos em um vídeo em que pessoa falou certas palavras ou quando duas pessoas foram vistas junto. A pesquisa com base nesses insights de vídeos é aplicável a agências de notícias, institutos educacionais, emissoras, proprietários de conteúdo de entretenimento, aplicativos de linha de negócios empresariais e, geralmente, a qualquer setor que tenha uma biblioteca de vídeos que os usuários precisam pesquisar. |
Criação de conteúdo | Crie trailers, bobinas de destaque, conteúdo de mídia social ou clipes de notícias com base nos insights que o Video Indexer extrai do seu conteúdo. Quadros-chave, marcadores de cena e carimbos de data/hora relacionados a pessoas e aparição de rótulos simplificam o processo de criação. Esses elementos ajudam a localizar rapidamente as partes do vídeo de que você precisa ao criar conteúdo. |
Acessibilidade | Se você deseja disponibilizar seu conteúdo para pessoas com deficiências ou se deseja que seu conteúdo seja distribuído para diferentes regiões que usam idiomas diferentes, você pode usar a transcrição e a tradução que o Video Indexer fornece em vários idiomas. |
Monetização | O Video Indexer pode ajudar a aumentar o valor dos vídeos. Por exemplo, setores que dependem da receita de anúncios, como mídia de notícias e mídias sociais, podem fornecer anúncios relevantes usando os insights extraídos como sinais adicionais para o servidor de anúncios. |
Moderação de conteúdo | Use modelos de moderação de conteúdo textual e visual para manter seus usuários a salvo de conteúdo inadequado e validar que o conteúdo que você publica corresponde aos valores da sua organização. Você pode bloquear automaticamente determinados vídeos ou alertar os usuários sobre o conteúdo. |
Recomendações | Os insights do vídeo podem ser usados para melhorar a participação do usuário destacando os momentos do vídeo relevantes para os usuários. Marcando cada vídeo com metadados extras, você pode recomendar aos usuários os vídeos mais relevantes e realçar as partes do vídeo que correspondem às suas necessidades. |
Próximas etapas
- O que é Visão?
- Roteiro de aprendizagem: desenvolver soluções de processamento de linguagem natural com serviços de IA
- Roteiro de aprendizagem: Introdução aos serviços de IA
- Roteiro de aprendizagem: conceitos básicos da IA do Microsoft Azure: Pesquisa visual computacional
- Roteiro de aprendizagem: criar soluções de pesquisa visual computacional com a Visão
- Roteiro de aprendizagem: criar uma solução de reconhecimento de imagem com o Azure IoT Edge e os serviços de IA