멀티모달 포함(버전 4.0)

아티클
02/23/2024

다중 모드 포함은 벡터 형식으로 해당 기능과 특성을 캡처하는 이미지의 숫자 표현을 생성하는 프로세스입니다. 이러한 벡터는 동일한 벡터 공간에 대한 텍스트 검색과 호환되는 방식으로 이미지의 콘텐츠와 컨텍스트를 인코딩합니다.

이미지 검색 시스템은 전통적으로 콘텐츠 레이블, 태그 및 이미지 설명자와 같은 이미지에서 추출된 기능을 사용하여 이미지를 비교하고 유사성에 따라 순위를 매겼습니다. 그러나 벡터 유사성 검색은 기존의 키워드 기반 검색에 비해 많은 이점으로 인해 인기를 얻고 있으며 자주 사용되는 콘텐츠 검색 서비스에서 중요한 구성 요소가 되고 있습니다.

벡터 검색과 키워드 기반 검색의 차이점은 무엇인가요?

키워드 검색은 가장 기본적이고 전통적인 정보 검색 방법입니다. 이러한 접근 방식에서 검색 엔진은 검색 쿼리에서 사용자가 입력한 키워드(keyword) 또는 구의 정확한 일치 항목을 찾아 이미지에 제공된 레이블 및 태그와 비교합니다. 그런 다음 검색 엔진은 콘텐츠 태그 및 이미지 레이블과 같은 정확한 키워드를 포함하는 이미지를 반환합니다. 키워드 검색은 관련 검색어 및 특정 검색어를 사용하는 사용자의 기능에 크게 의존합니다.

벡터 검색은 높은 차원 공간에서 큰 벡터 컬렉션을 검색하여 지정된 쿼리와 유사한 벡터를 찾습니다. 벡터 검색은 검색 쿼리의 컨텍스트와 의미를 캡처하여 의미 체계 유사성을 찾습니다. 이 방식은 검색 공간을 줄이고 결과의 정확도를 높일 수 있으므로 기존의 이미지 검색 기술보다 더 효율적인 경우가 많습니다.

비즈니스 애플리케이션

멀티모달 포함에는 다음을 비롯한 다양한 필드에 다양한 애플리케이션이 있습니다.

디지털 자산 관리: 멀티모달 포함은 박물관, 아카이브 또는 온라인 갤러리와 같은 대규모 디지털 이미지 컬렉션을 관리하는 데 사용할 수 있습니다. 사용자는 시각적 기능을 기반으로 이미지를 검색하고 조건에 맞는 이미지를 검색할 수 있습니다.
보안 및 감시: 보안 및 감시 시스템에서 벡터화를 사용하여 사람 및 개체 추적 또는 위협 탐지와 같은 특정 기능 또는 패턴을 기반으로 이미지를 검색할 수 있습니다.
법의학 이미지 검색: 벡터화는 법의학 조사에 사용하여 사이버 범죄의 경우와 같은 시각적 콘텐츠 또는 메타데이터를 기반으로 이미지를 검색할 수 있습니다.
전자상거래: 온라인 쇼핑 애플리케이션에서 벡터화를 사용하여 기능 또는 설명에 따라 유사한 제품을 검색하거나 이전 구매를 기반으로 권장 사항을 제공할 수 있습니다.
패션 및 디자인: 벡터화를 패션 및 디자인에서 사용하여 색상, 패턴 또는 질감과 같은 시각적 특징을 기반으로 이미지를 검색할 수 있습니다. 이는 디자이너나 소매점이 유사한 제품이나 추세를 식별하는 데 도움이 될 수 있습니다.

주의

멀티모달 포함은 진단 기능 또는 질병 패턴에 대한 의료 이미지를 분석하도록 설계되지 않았습니다. 의료 목적으로 멀티모달 포함을 사용하지 마세요.

벡터 포함이란?

벡터 포함은 콘텐츠(텍스트 또는 이미지)를 고차원 공간에서 실수 벡터로 나타내는 방법입니다. 벡터 포함은 종종 신경망과 같은 기계 학습 알고리즘을 사용하여 대량의 텍스트 및 시각적 데이터에서 학습됩니다.

벡터의 각 차원은 의미 체계 의미, 구문론적 역할 또는 일반적으로 나타나는 컨텍스트와 같은 콘텐츠의 다른 기능 또는 특성에 해당합니다. Azure AI Vision에서 이미지 및 텍스트 벡터 포함에는 1024차원이 있습니다.

Important

벡터 포함은 동일한 모델 형식의 경우에만 비교 및 일치시킬 수 있습니다. 한 모델로 벡터화된 이미지는 다른 모델을 통해 검색할 수 없습니다. 최신 이미지 분석 API는 여러 언어의 텍스트 검색을 지원하는 버전 2023-04-15 과 영어만 지원하는 레거시 2022-04-11 모델이라는 두 가지 모델을 제공합니다.

작동 방식

다음은 다중 모드 포함을 사용하는 이미지 검색 프로세스의 기본 단계입니다.

Diagram of image retrieval process.

벡터화 이미지 및 텍스트: 다중 모드 포함 API, VectorizeImage 및 VectorizeText는 각각 이미지 또는 텍스트에서 기능 벡터를 추출하는 데 사용할 수 있습니다. API는 전체 입력을 나타내는 단일 기능 벡터를 반환합니다.

참고 항목

멀티모달 포함은 사람의 얼굴을 바이오 메트릭 처리를 수행하지 않습니다. 얼굴 감지 및 식별은 Azure AI Face 서비스를 참조하세요.
유사성 측정: 벡터 검색 시스템은 일반적으로 코사인 거리 또는 유클리드 거리와 같은 거리 메트릭을 사용하여 벡터를 비교하고 유사성에 따라 순위를 매깁니다. Vision studio 데모는 코사인 거리를 사용하여 유사성을 측정합니다.
이미지 검색: 검색 쿼리와 유사한 상위 N 벡터를 사용하고 사진 보관함에서 해당 벡터에 해당하는 이미지를 검색하여 최종 결과로 제공합니다.

입력 요구 사항

이미지 입력

이미지의 파일 크기가 20MB보다 작아야 합니다.
이미지의 크기는 10 x 10 픽셀보다 크고 16,000 x 16,000 픽셀 미만이어야 합니다.

문자 입력

텍스트 문자열은 단어 1개와 단어 70개 사이여야 합니다.

다음 단계

검색 서비스에 멀티모달 포함을 사용하도록 설정하고 단계에 따라 텍스트 및 이미지에 대한 벡터 포함을 생성합니다.

Multimodal embeddings API 호출