Tipos de servicios de API de visión

Azure Cognitive Service para visión es una de las categorías más amplias de Cognitive Services. Puede utilizar las API para incorporar funciones de visión como el análisis de imágenes, la detección de rostros, el análisis espacial y el reconocimiento óptico de caracteres (OCR) en sus aplicaciones, incluso si tiene conocimientos limitados de aprendizaje automático.

Servicios

A continuación se indican algunas categorías generales de API de visión:

  • Computer Vision proporciona algoritmos avanzados que procesan imágenes y devuelven información basada en las características visuales que le interesan. Ofrece cuatro servicios: OCR, reconocimiento facial, análisis de imágenes y análisis espacial. Form Recognizer es una versión avanzada de OCR.
  • Custom Vision es un servicio de reconocimiento de imágenes que puede utilizar para crear, implementar y mejorar sus propios modelos de identificación de imágenes.
  • Reconocimiento facial proporciona algoritmos de IA que detectan, reconocen y analizan rostros humanos en imágenes.

Cómo se elige un servicio

El siguiente diagrama de flujo puede ayudarle a elegir un servicio de visión para su caso de uso específico:

Diagram that shows how to choose a vision service.

Casos de uso comunes

  • Computer Vision

    • Describir una imagen Analizar una imagen, evaluar los objetos detectados y generar una frase u oración legible por humanos que describa la imagen.
    • Etiquetar características visuales. Aplicar etiquetas basadas en un conjunto de miles de objetos reconocibles.
    • Categorizar una imagen. Categorizar imágenes en función de su contenido.
    • Aplicar OCR. Detectar texto impreso y manuscrito en imágenes.
    • Detectar tipos de imágenes. Por ejemplo, identificar imágenes prediseñadas o dibujos lineales.
    • Detectar combinaciones de colores. Identifique el primer plano dominante, el fondo y los colores dominantes y de acento de una imagen.
    • Generar miniaturas. Cree versiones reducidas de las imágenes.
    • Moderación del contenido. Detecte imágenes con contenido para adultos o escenas sangrientas.
    • Detectar contenido específico del dominio. Utiliza dos modelos de dominio especializados:
      • Famosos. Identifica miles de personajes famosos de los ámbitos del deporte, el entretenimiento y los negocios.
      • Lugares de interés. Identifica monumentos famosos, como el Taj Mahal y la Estatua de la Libertad.
    • Detección de objetos. Identifica objetos comunes y devuelve las coordenadas de un cuadro delimitador.
    • Detección de marcas. Identifica logotipos a partir de una base de datos de miles de logotipos de productos reconocidos en todo el mundo.
    • Detección de rostros. Detecta y analiza rostros humanos en una imagen. Puede determinar la edad del sujeto y devolver un cuadro de límite que especifique las ubicaciones de las caras. Las capacidades de análisis facial del servicio Computer Vision son un subconjunto de las proporcionadas por el servicio Face dedicado.
  • Custom Vision

    • Clasificación de imágenes. Predice una categoría, o clase, en función de un conjunto de entradas, que se denominan características. Calcula una puntuación de probabilidad para cada clase posible y devuelve una etiqueta que indica la clase a la que el objeto pertenece con mayor probabilidad. Para utilizar este modelo, se necesitan datos que consistan en características y sus etiquetas.
    • Detección de objetos. Obtener las coordenadas de un objeto en una imagen. Para utilizar este modelo, se necesitan datos que consistan en características y sus etiquetas.
  • Reconocimiento facial

    • Detección de rostros. Identifica las regiones de una imagen que contienen un rostro humano, normalmente mediante la devolución de coordenadas de cuadro de delimitación que forman un rectángulo alrededor del rostro.
    • Analizar rostros. Devuelve información, como puntos de referencia faciales (nariz, ojos, cejas, labios, etc.). Se pueden utilizar estos puntos de referencia faciales como características para entrenar un modelo de aprendizaje automático que pueda inferir información sobre las personas, como su edad percibida o su estado emocional.
    • Reconocimiento de caras. Entrena un modelo Machine Learning para identificar individuos conocidos a partir de sus rasgos faciales.

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Creadores de entidad de seguridad:

Otros colaboradores:

Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.

Pasos siguientes