Tipos de servicios de API de visión

Artículo
06/02/2023

Azure Cognitive Service para visión es una de las categorías más amplias de Cognitive Services. Puede utilizar las API para incorporar funciones de visión como el análisis de imágenes, la detección de rostros, el análisis espacial y el reconocimiento óptico de caracteres (OCR) en sus aplicaciones, incluso si tiene conocimientos limitados de aprendizaje automático.

Servicios

A continuación se indican algunas categorías generales de API de visión:

Computer Vision proporciona algoritmos avanzados que procesan imágenes y devuelven información basada en las características visuales que le interesan. Ofrece cuatro servicios: OCR, reconocimiento facial, análisis de imágenes y análisis espacial. Form Recognizer es una versión avanzada de OCR.
Custom Vision es un servicio de reconocimiento de imágenes que puede utilizar para crear, implementar y mejorar sus propios modelos de identificación de imágenes.
Reconocimiento facial proporciona algoritmos de IA que detectan, reconocen y analizan rostros humanos en imágenes.

Cómo se elige un servicio

El siguiente diagrama de flujo puede ayudarle a elegir un servicio de visión para su caso de uso específico:

Casos de uso comunes

Computer Vision
- Describir una imagen Analizar una imagen, evaluar los objetos detectados y generar una frase u oración legible por humanos que describa la imagen.
- Etiquetar características visuales. Aplicar etiquetas basadas en un conjunto de miles de objetos reconocibles.
- Categorizar una imagen. Categorizar imágenes en función de su contenido.
- Aplicar OCR. Detectar texto impreso y manuscrito en imágenes.
- Detectar tipos de imágenes. Por ejemplo, identificar imágenes prediseñadas o dibujos lineales.
- Detectar combinaciones de colores. Identifique el primer plano dominante, el fondo y los colores dominantes y de acento de una imagen.
- Generar miniaturas. Cree versiones reducidas de las imágenes.
- Moderación del contenido. Detecte imágenes con contenido para adultos o escenas sangrientas.
- Detectar contenido específico del dominio. Utiliza dos modelos de dominio especializados:
  - Famosos. Identifica miles de personajes famosos de los ámbitos del deporte, el entretenimiento y los negocios.
  - Lugares de interés. Identifica monumentos famosos, como el Taj Mahal y la Estatua de la Libertad.
- Detección de objetos. Identifica objetos comunes y devuelve las coordenadas de un cuadro delimitador.
- Detección de marcas. Identifica logotipos a partir de una base de datos de miles de logotipos de productos reconocidos en todo el mundo.
- Detección de rostros. Detecta y analiza rostros humanos en una imagen. Puede determinar la edad del sujeto y devolver un cuadro de límite que especifique las ubicaciones de las caras. Las capacidades de análisis facial del servicio Computer Vision son un subconjunto de las proporcionadas por el servicio Face dedicado.
Custom Vision
- Clasificación de imágenes. Predice una categoría, o clase, en función de un conjunto de entradas, que se denominan características. Calcula una puntuación de probabilidad para cada clase posible y devuelve una etiqueta que indica la clase a la que el objeto pertenece con mayor probabilidad. Para utilizar este modelo, se necesitan datos que consistan en características y sus etiquetas.
- Detección de objetos. Obtener las coordenadas de un objeto en una imagen. Para utilizar este modelo, se necesitan datos que consistan en características y sus etiquetas.
Reconocimiento facial
- Detección de rostros. Identifica las regiones de una imagen que contienen un rostro humano, normalmente mediante la devolución de coordenadas de cuadro de delimitación que forman un rectángulo alrededor del rostro.
- Analizar rostros. Devuelve información, como puntos de referencia faciales (nariz, ojos, cejas, labios, etc.). Se pueden utilizar estos puntos de referencia faciales como características para entrenar un modelo de aprendizaje automático que pueda inferir información sobre las personas, como su edad percibida o su estado emocional.
- Reconocimiento de caras. Entrena un modelo Machine Learning para identificar individuos conocidos a partir de sus rasgos faciales.

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Creadores de entidad de seguridad:

Ashish Chahuan | Arquitecto sénior de soluciones en la nube
Kruti Mehta | Ingeniero sénior de Fast-Track de Azure

Otros colaboradores:

Mick Alberts | Escritor técnico
Brandon Cowen | Arquitecto de soluciones en la nube sénior
Oscar Shimabukuro | Arquitecto de soluciones en la nube sénior
Manjit Singh | Ingeniero de software
Christina Skarpathiotaki | Arquitecto de soluciones en la nube sénior
Nathan Widdup | Ingeniero sénior de Fast-Track de Azure

Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.

Tipos de servicios de API de visión

Servicios

Cómo se elige un servicio

Casos de uso comunes

Colaboradores

Pasos siguientes

Comentarios

Comentarios

Recursos adicionales

Tipos de servicios de API de visión

Servicios

Cómo se elige un servicio

Casos de uso comunes

Colaboradores

Pasos siguientes

Recursos relacionados

Comentarios

Comentarios

Recursos adicionales