Azure AI Vision

3분

Computer Vision을 위한 자체 기계 학습 모델을 학습할 수 있지만 Computer Vision 모델의 아키텍처는 복잡할 수 있습니다. 그리고 학습 프로세스를 수행하려면 상당한 양의 학습 이미지와 컴퓨팅 능력이 필요합니다.

Microsoft의 Azure AI 비전 서비스는 Florence 기반 모델을 기반으로 하며 다양하고 강력한 기능을 제공하는 미리 빌드되고 사용자 지정 가능한 Computer Vision 모델을 제공합니다. Azure AI 비전을 사용하면 정교한 Computer Vision 솔루션을 빠르고 쉽게 만들 수 있습니다. 많은 일반적인 Computer Vision 시나리오에 대해 "상용 제품" 기능을 활용하는 동시에 고유의 이미지를 사용하여 사용자 지정 모델을 만들 수 있는 기능을 보존합니다.

Azure AI 비전 서비스를 위한 Azure 리소스

Azure AI 비전을 사용하려면 Azure 구독에서 이에 대한 리소스를 만들어야 합니다. 다음 리소스 유형 중 하나를 사용할 수 있습니다.

Azure AI 비전: Azure AI 비전 서비스에 대한 특정 리소스입니다. 다른 Azure AI 서비스를 사용하지 않으려는 경우이거나 Azure AI 비전 리소스의 사용률과 비용을 별도로 추적하려는 경우 이 리소스 종류를 사용합니다.
Azure AI 서비스: 다른 많은 Azure AI 서비스와 함께 Azure AI 비전을 포함하는 일반 리소스입니다. Azure AI 언어, Azure AI Custom Vision, Azure AI 번역기 등이 있습니다. 여러 AI 서비스를 사용할 계획이고 관리 및 개발을 단순화하려는 경우 이 리소스 유형을 사용하세요.

Azure AI 비전 서비스를 사용하여 이미지 분석

구독에서 적합한 리소스를 만든 후에는 Azure AI 비전 서비스에 이미지를 제출하여 광범위한 분석 작업을 수행할 수 있습니다.

Azure AI 비전은 다음을 포함한 여러 이미지 분석 기능을 지원합니다.

OCR(광학 인식) - 이미지에서 텍스트를 추출합니다.
이미지의 캡션 및 설명을 생성합니다.
이미지에서 수천 개의 공통 개체를 검색합니다.
이미지의 시각적 기능에 태그 지정

이러한 작업 등은 Azure AI 비전 스튜디오에서 수행할 수 있습니다.

Screenshot of Vision Studio.

광학 문자 인식

Azure AI 비전 서비스는 OCR(광학 인식) 기능을 사용하여 이미지의 텍스트를 검색할 수 있습니다. 예를 들어, 식료품점에 있는 제품의 영양 레이블 이미지를 생각해 보세요.

Diagram of a nutrition label.

Azure AI 비전 서비스는 이 이미지를 분석하고 다음 텍스트를 추출할 수 있습니다.

Nutrition Facts Amount Per Serving
Serving size:1 bar (40g)
Serving Per Package: 4
Total Fat 13g
Saturated Fat 1.5g
Amount Per Serving
Trans Fat 0g
calories 190
Cholesterol 0mg
ories from Fat 110
Sodium 20mg
ntDaily Values are based on
Vitamin A 50
calorie diet

팁

Microsoft Learn의 Azure AI 비전으로 텍스트 읽기 모듈에서 Azure AI 비전의 OCR 기능을 자세히 살펴볼 수 있습니다.

캡션을 사용하여 이미지 설명

Azure AI 비전에는 이미지를 분석하고, 검색된 개체를 평가하고, 이미지에서 감지된 내용을 설명할 수 있는 사람이 읽을 수 있는 문구나 문장을 생성하는 기능이 있습니다. 예를 들어 다음과 같은 이미지를 생각해 보세요.

Diagram of a man on a skateboard.

Azure AI 비전은 이 이미지에 대해 다음 캡션을 반환합니다.

스케이트보드를 타고 점프하는 남자

이미지에서 공통 개체 검색

Azure AI 비전은 이미지에서 수천 개의 공통 개체를 식별할 수 있습니다. 예를 들어, 이전에 설명한 스케이트보더 이미지에서 개체를 검색하는 데 사용되는 경우 Azure AI 비전은 다음 예측을 반환합니다.

스케이트보드(90.40%)
사람(95.5%)

예측에는 모델이 예측된 개체에 대해 계산한 확률을 나타내는 신뢰도 점수가 포함됩니다.

검색된 개체 레이블 및 해당 확률 외에도 Azure AI 비전은 검색된 개체의 위쪽, 왼쪽, 너비 및 높이를 나타내는 경계 상자 좌표를 반환합니다. 다음과 같이 이러한 좌표를 사용하여 이미지에서 각 개체가 검색된 위치를 확인할 수 있습니다.

Diagram of a skateboarder with bounding boxes around detected objects.

시각적 특징 태그 지정

Azure AI 비전은 콘텐츠를 기반으로 이미지에 대한 태그를 제안할 수 있습니다. 이러한 태그는 이미지의 특성을 요약하는 메타데이터로 이미지와 연결될 수 있으며, 특정 특성이나 콘텐츠가 있는 이미지를 검색하는 데 사용할 수 있는 주요 용어 집합과 함께 이미지를 인덱스화하려는 경우 유용할 수 있습니다.

예를 들어, 스케이트보더 이미지에 대해 반환된 태그(관련 신뢰도 점수 포함)에는 다음이 포함됩니다.

스포츠(99.60%)
사람(99.56%)
신발(98.05%)
스케이팅(96.27%)
보드스포츠(95.58%)
스케이트보드 장비(94.43%)
의류(94.02%)
벽(93.81%)
스케이트보드(93.78%)
스케이트보더(93.25%)
개인 스포츠(92.80%)
거리 묘기(90.81%)
잔액(90.81%)
점프(89.87%)
스포츠 장비(88.61%)
익스트림 스포츠(88.35%)
킥플립(88.18%)
스턴트(87.27%)
스케이트보드(86.87%)
스턴트 연기자(85.83%)
무릎(85.30%)
스포츠(85.24%)
롱보드(84.61%)
롱보드(84.45%)
승차(73.37%)
스케이트(67.27%)
공기(64.83%)
젊은층(63.29%)
실외(61.39%)

사용자 지정 모델 학습

Azure AI 비전에서 제공하는 기본 제공 모델이 요구 사항을 충족하지 않는 경우 서비스를 사용하여 이미지 분류 또는 개체 감지를 위한 사용자 지정 모델을 학습할 수 있습니다. Azure AI 비전은 미리 학습된 기초 모델을 기반으로 사용자 지정 모델을 빌드합니다. 즉, 상대적으로 적은 수의 학습 이미지를 사용하여 정교한 모델을 학습할 수 있습니다.

이미지 분류

이미지 분류 모델은 이미지의 범주 또는 클래스를 예측하는 데 사용됩니다. 예를 들어, 다음과 같이 이미지에 어떤 형식의 과일이 표시되는지 결정하도록 모델을 학습할 수 있습니다.

사과	바나나	Orange

개체 감지

개체 감지 모델은 이미지의 개체를 검색하고 분류하여 경계 상자 좌표를 반환하여 각 개체를 찾습니다. Azure AI 비전의 기본 제공 개체 감지 기능 외에도 고유한 이미지를 사용하여 사용자 지정 개체 감지 모델을 학습할 수 있습니다. 예를 들어, 다음과 같이 과일 사진을 사용하여 이미지에서 여러 과일을 검색하는 모델을 학습할 수 있습니다.

Diagram of multiple detected fruits in an image.

참고 항목

Azure AI 비전을 사용하여 사용자 지정 모델을 학습하는 방법에 대한 자세한 내용은 이 모듈의 범위를 벗어납니다. Azure AI 비전 설명서에서 사용자 지정 모델 학습에 대한 정보를 찾을 수 있습니다.

계속