Tipos de servicios de API de visión
Azure Cognitive Service para visión es una de las categorías más amplias de Cognitive Services. Puede utilizar las API para incorporar funciones de visión como el análisis de imágenes, la detección de rostros, el análisis espacial y el reconocimiento óptico de caracteres (OCR) en sus aplicaciones, incluso si tiene conocimientos limitados de aprendizaje automático.
Servicios
A continuación se indican algunas categorías generales de API de visión:
- Computer Vision proporciona algoritmos avanzados que procesan imágenes y devuelven información basada en las características visuales que le interesan. Ofrece cuatro servicios: OCR, reconocimiento facial, análisis de imágenes y análisis espacial. Form Recognizer es una versión avanzada de OCR.
- Custom Vision es un servicio de reconocimiento de imágenes que puede utilizar para crear, implementar y mejorar sus propios modelos de identificación de imágenes.
- Reconocimiento facial proporciona algoritmos de IA que detectan, reconocen y analizan rostros humanos en imágenes.
Cómo se elige un servicio
El siguiente diagrama de flujo puede ayudarle a elegir un servicio de visión para su caso de uso específico:
Casos de uso comunes
Computer Vision
- Describir una imagen Analizar una imagen, evaluar los objetos detectados y generar una frase u oración legible por humanos que describa la imagen.
- Etiquetar características visuales. Aplicar etiquetas basadas en un conjunto de miles de objetos reconocibles.
- Categorizar una imagen. Categorizar imágenes en función de su contenido.
- Aplicar OCR. Detectar texto impreso y manuscrito en imágenes.
- Detectar tipos de imágenes. Por ejemplo, identificar imágenes prediseñadas o dibujos lineales.
- Detectar combinaciones de colores. Identifique el primer plano dominante, el fondo y los colores dominantes y de acento de una imagen.
- Generar miniaturas. Cree versiones reducidas de las imágenes.
- Moderación del contenido. Detecte imágenes con contenido para adultos o escenas sangrientas.
- Detectar contenido específico del dominio. Utiliza dos modelos de dominio especializados:
- Famosos. Identifica miles de personajes famosos de los ámbitos del deporte, el entretenimiento y los negocios.
- Lugares de interés. Identifica monumentos famosos, como el Taj Mahal y la Estatua de la Libertad.
- Detección de objetos. Identifica objetos comunes y devuelve las coordenadas de un cuadro delimitador.
- Detección de marcas. Identifica logotipos a partir de una base de datos de miles de logotipos de productos reconocidos en todo el mundo.
- Detección de rostros. Detecta y analiza rostros humanos en una imagen. Puede determinar la edad del sujeto y devolver un cuadro de límite que especifique las ubicaciones de las caras. Las capacidades de análisis facial del servicio Computer Vision son un subconjunto de las proporcionadas por el servicio Face dedicado.
Custom Vision
- Clasificación de imágenes. Predice una categoría, o clase, en función de un conjunto de entradas, que se denominan características. Calcula una puntuación de probabilidad para cada clase posible y devuelve una etiqueta que indica la clase a la que el objeto pertenece con mayor probabilidad. Para utilizar este modelo, se necesitan datos que consistan en características y sus etiquetas.
- Detección de objetos. Obtener las coordenadas de un objeto en una imagen. Para utilizar este modelo, se necesitan datos que consistan en características y sus etiquetas.
Reconocimiento facial
- Detección de rostros. Identifica las regiones de una imagen que contienen un rostro humano, normalmente mediante la devolución de coordenadas de cuadro de delimitación que forman un rectángulo alrededor del rostro.
- Analizar rostros. Devuelve información, como puntos de referencia faciales (nariz, ojos, cejas, labios, etc.). Se pueden utilizar estos puntos de referencia faciales como características para entrenar un modelo de aprendizaje automático que pueda inferir información sobre las personas, como su edad percibida o su estado emocional.
- Reconocimiento de caras. Entrena un modelo Machine Learning para identificar individuos conocidos a partir de sus rasgos faciales.
Colaboradores
Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.
Creadores de entidad de seguridad:
- Ashish Chahuan | Arquitecto sénior de soluciones en la nube
- Kruti Mehta | Ingeniero sénior de Fast-Track de Azure
Otros colaboradores:
- Mick Alberts | Escritor técnico
- Brandon Cowen | Arquitecto de soluciones en la nube sénior
- Oscar Shimabukuro | Arquitecto de soluciones en la nube sénior
- Manjit Singh | Ingeniero de software
- Christina Skarpathiotaki | Arquitecto de soluciones en la nube sénior
- Nathan Widdup | Ingeniero sénior de Fast-Track de Azure
Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.
Pasos siguientes
- ¿Qué es Computer Vision?
- Entrada de blog de API de Visión
- Ruta de aprendizaje: creación de una solución de Language Understanding con Azure Cognitive Services
- Ruta de aprendizaje: Aprovisionamiento y administración de Azure Cognitive Services
- Ruta de aprendizaje: Explorar la visión de proceso
- Ruta de aprendizaje: Crear soluciones de visión de proceso con Azure Cognitive Services
- Ruta de aprendizaje: Crear una solución de reconocimiento de imágenes con Azure IoT Edge y Azure Cognitive Services
Recursos relacionados
Comentarios
https://aka.ms/ContentUserFeedback.
Próximamente: A lo largo de 2024 iremos eliminando gradualmente las Cuestiones de GitHub como mecanismo de retroalimentación para el contenido y lo sustituiremos por un nuevo sistema de retroalimentación. Para más información, consulta:Enviar y ver comentarios de