빠른 시작: Azure Portal에서 검색 탐색기를 사용하여 이미지 검색

아티클
10/20/2024

이 빠른 시작에서는 Azure Portal에서 데이터 가져오기 및 벡터화 마법사를 사용하여 이미지 검색을 시작하는 방법을 보여 줍니다. 또한 검색 탐색기를 사용하여 이미지 기반 쿼리를 실행하는 방법을 보여 줍니다.

샘플 데이터는 azure-search-sample-data 리포지토리의 이미지 파일로 구성되지만 다른 이미지를 사용하여 연습을 계속 진행할 수도 있습니다.

필수 구성 요소

Azure 구독 체험 계정 만들기
이미지 벡터화 및 OCR(광학 인식)에 사용되는 Azure AI 서비스 다중 서비스 계정입니다. 이미지 벡터화에는 Azure AI Vision 멀티모달 포함이 필요합니다. 업데이트된 지역 목록은 설명서를 확인하세요.
인덱싱 및 쿼리를 위한 Azure AI 검색. 모든 계층에 있을 수 있지만 Azure AI 다중 서비스와 동일한 지역에 있어야 합니다.

서비스 계층에 따라 인덱싱할 수 있는 Blob 수가 결정됩니다. 여기에서는 이 연습을 만드는 데 무료 계층을 사용하였으며 콘텐츠를 10개의 JPG 파일로 제한했습니다.
이미지 파일을 Blob으로 저장하기 위한 Azure Storage. 계층 구조 네임스페이스가 있는 스토리지 계정인 Azure Blob Storage 또는 Azure Data Lake Storage Gen2, 즉 표준 성능(범용 v2) 계정을 사용합니다. 액세스 계층은 핫, 쿨 및 콜드일 수 있습니다.

포털 노드가 해당 리소스에 액세스할 수 있도록 이전의 모든 리소스에는 공용 액세스가 사용하도록 설정되어 있어야 합니다. 그렇지 않으면 마법사가 실패합니다. 마법사가 실행된 후 보안을 위해 통합 구성 요소에서 방화벽 및 프라이빗 엔드포인트를 사용하도록 설정할 수 있습니다. 자세한 정보는 가져오기 마법사의 보안 연결을 참조하세요.

프라이빗 엔드포인트가 이미 있고 이를 사용하지 않도록 설정할 수 없는 경우 대체 옵션은 가상 머신의 스크립트 또는 프로그램에서 해당 엔드투엔드 흐름을 실행하는 것입니다. 가상 머신은 프라이빗 엔드포인트와 동일한 가상 네트워크에 있어야 합니다. 통합된 벡터화를 위한 Python 코드 샘플은 다음과 같습니다. 동일한 GitHub 리포지토리에는 다른 프로그래밍 언어로 된 샘플이 있습니다.

무료 검색 서비스는 Azure AI 검색에 대한 연결에서 역할 기반 액세스 제어를 지원하지만 Azure Storage 또는 Azure AI 비전에 대한 아웃바운드 연결에서 관리 ID를 지원하지 않습니다. 이 수준의 지원은 무료 검색 서비스와 다른 Azure 서비스 간의 연결에 키 기반 인증을 사용해야 함을 의미합니다. 보다 안전한 연결의 경우:

기본 계층 이상을 사용합니다.
다른 Azure 서비스에서 Azure AI 검색의 요청을 허용하도록 관리 ID를 구성하고 역할 할당을 구성합니다.

공간 확인

무료 서비스를 시작하는 경우 인덱스 3개, 데이터 원본 3개, 기술 세트 3개, 인덱서 3개로 제한됩니다. 시작하기 전에 추가 항목에 대한 공간이 있는지 확인합니다. 이 빠른 시작에서는 각 개체를 하나씩 만듭니다.

샘플 데이터 준비

unsplash-signs 이미지 폴더를 로컬 폴더에 다운로드하거나 자체 이미지를 찾습니다. 무료 검색 서비스에서 보강 처리를 위한 무료 할당량을 초과하지 않도록 이미지 파일을 20개 미만으로 유지합니다.
Azure 계정으로 Azure Portal에 로그인하고 Azure Storage 계정으로 이동합니다.
왼쪽 창의 데이터 스토리지에서 컨테이너를 선택합니다.
새 컨테이너를 만든 다음 이미지를 업로드합니다.

마법사 시작

검색 서비스와 Azure AI 서비스가 동일한 지원 지역 및 테넌트에 있고 Azure Storage Blob 컨테이너가 기본 구성을 사용하고 있다면 마법사를 시작할 준비가 된 것입니다.

Azure 계정으로 Azure Portal에 로그인하고 Azure AI 검색 서비스로 이동합니다.
개요 페이지에서 데이터 가져오기 및 벡터화를 선택합니다.

데이터에 연결

다음 단계는 이미지를 제공하는 데이터 원본에 연결하는 것입니다.

데이터 연결 설정 페이지에서 Azure Blob Storage를 선택합니다.
Azure 구독을 지정합니다.
Azure Storage의 경우 데이터를 제공하는 계정 및 컨테이너를 선택합니다. 나머지 상자에는 기본값을 사용합니다.
다음을 선택합니다.

텍스트 벡터화

원시 콘텐츠에 텍스트가 포함되어 있거나 기술 세트가 텍스트를 생성하는 경우 마법사는 텍스트 포함 모델을 호출하여 해당 콘텐츠에 대한 벡터를 생성합니다. 이 연습에서는 다음 단계에서 추가하는 OCR 기술에서 텍스트가 생성됩니다.

Azure AI 비전은 텍스트 포함을 제공하므로 텍스트 벡터화에 해당 리소스를 사용합니다.

텍스트 벡터화 페이지에서 AI 비전 벡터화를 선택합니다. 사용할 수 없는 경우 Azure AI 검색과 Azure AI 다중 서비스 계정이 AI 비전 다중 모달 API를 지원하는 지역에 함께 있는지 확인합니다.
다음을 선택합니다.

이미지 벡터화 및 보강

Azure AI 비전을 사용하여 이미지 파일의 벡터 표현을 생성합니다.

이 단계에서는 AI를 적용하여 이미지에서 텍스트를 추출할 수도 있습니다. 마법사는 Azure AI 서비스의 OCR을 사용하여 이미지 파일의 텍스트를 인식합니다.

OCR이 워크플로에 추가되면 인덱스에 두 개의 출력이 더 표시됩니다.

chunk 필드는 이미지에 있는 텍스트의 OCR 생성 문자열로 채워집니다.
text_vector 필드는 chunk 문자열을 나타내는 포함으로 채워집니다.

chunk 필드에 일반 텍스트를 포함시키는 것은 의미 체계 순위 지정 및 점수 매기기 프로필과 같이 문자열에 대해 작동하는 관련성 기능을 사용하려는 경우 유용합니다.

이미지 벡터화 페이지에서 이미지 벡터화 확인란을 선택한 다음, AI 비전 벡터화를 선택합니다.
텍스트 벡터화에서 선택한 것과 동일한 AI 서비스 사용을 선택합니다.
보강 섹션에서 이미지에서 텍스트 추출 및 이미지 벡터화에 선택한 것과 동일한 AI 서비스 사용을 선택합니다.
다음을 선택합니다.

새 필드 매핑

고급 설정 페이지에서 필요에 따라 새 필드를 추가할 수 있습니다. 기본적으로 마법사는 이러한 특성을 사용하여 다음 필드를 생성합니다.

필드	적용 대상	설명
chunk_id	텍스트 및 이미지 벡터	생성된 문자열 필드입니다. 검색 가능, 검색 가능, 정렬 가능. 인덱스 문서 키입니다.
text_parent_id	이미지 벡터	생성된 문자열 필드입니다. 검색 가능하고 필터링할 수 있습니다. 청크가 시작되는 부모 문서를 식별합니다.
image_parent_id	이미지 벡터	생성된 문자열 필드입니다. 검색 가능하고 필터링할 수 있습니다. 이미지가 시작되는 부모 문서를 식별합니다.
chunk	텍스트 및 이미지 벡터	문자열 필드입니다. 사람이 읽을 수 있는 데이터 청크 버전입니다. 검색 가능하고 검색 가능하지만 필터링할 수 없거나 패싯 가능하거나 정렬할 수 없습니다.
title	텍스트 및 이미지 벡터	문자열 필드입니다. 사람이 읽을 수 있는 문서 제목 또는 페이지 제목 또는 페이지 번호입니다. 검색 가능하고 검색 가능하지만 필터링할 수 없거나 패싯 가능하거나 정렬할 수 없습니다.
image_vector	이미지 벡터	Collection(Edm.single). 이미지의 벡터 표현입니다. 검색 가능하고 검색 가능하지만 필터링할 수 없거나 패싯 가능하거나 정렬할 수 없습니다.

생성된 필드 또는 해당 특성을 수정할 수는 없지만 데이터 원본에서 제공하는 경우 새 필드를 추가할 수 있습니다. 예를 들어 Azure Blob Storage는 메타데이터 필드 컬렉션을 제공합니다.

새로 추가를 선택합니다.
사용 가능한 필드 목록에서 원본 필드를 선택하고, 인덱스의 필드 이름을 제공하고, 필요에 따라 기본 데이터 형식을 적용하거나 재정의합니다.

메타데이터 필드는 검색할 수 있지만 검색할 수 없거나, 필터링 가능하거나, 패싯 가능하거나, 정렬할 수 없습니다.
스키마를 원래 버전으로 복원하려면 다시 설정을 선택합니다.

인덱싱 예약

고급 설정 페이지의 인덱싱 일정에서 인덱서에 대한 실행 일정을 지정합니다. 이 연습에서는 한 번을 권장합니다. 기본 데이터가 일시적인 데이터 원본의 경우 인덱싱을 예약하여 변경 내용을 적용할 수 있습니다.
다음을 선택합니다.

마법사 마침

구성 검토 페이지에서 마법사가 만들 개체의 접두사를 지정합니다. 공통 접두사는 정리하는 데 도움이 됩니다.
만들기를 실행합니다.

마법사가 구성을 완료하면 다음 개체가 만들어집니다.

인덱싱 파이프라인을 구동하는 인덱서
Azure Blob Storage에 대한 데이터 원본 연결입니다.
벡터 필드, 텍스트 필드, 벡터라이저, 벡터 프로필 및 벡터 알고리즘이 포함된 인덱스. 마법사 워크플로 중에는 기본 인덱스를 수정할 수 없습니다. 인덱스는 2024-05-01-preview REST API를 준수하므로 미리 보기 기능을 사용할 수 있습니다.
다음 5가지 기술을 갖춘 기술 세트:
- OCR 기술은 이미지 파일에서 텍스트를 인식합니다.
- 텍스트 병합 기술은 OCR 처리의 다양한 출력을 통합합니다.
- 텍스트 분할 기술은 데이터 청크화를 추가합니다. 이 기술은 마법사 워크플로에서 기본 제공됩니다.
- Azure AI 비전 다중 모드 포함 기술은 OCR에서 생성된 텍스트를 벡터화하는 데 사용됩니다.
- 이미지를 벡터화하기 위해 Azure AI 비전 다중 모드 포함 기술이 다시 호출됩니다.

결과 확인

검색 탐색기는 쿼리 입력으로 텍스트, 벡터, 이미지를 허용합니다. 이미지를 검색 영역으로 끌거나 선택할 수 있습니다. 검색 탐색기는 이미지를 벡터화하고 검색 엔진에 쿼리 입력으로 벡터를 보냅니다. 이미지 벡터화에서는 인덱스에 데이터 가져오기 및 벡터화 기능이 포함 모델 입력을 기반으로 생성하는 벡터라이저 정의가 있다고 가정합니다.

Azure Portal에서 검색 관리>인덱스로 이동한 다음 만든 인덱스를 선택합니다. 검색 탐색기는 첫 번째 탭입니다.
보기 메뉴에서 이미지 보기를 선택합니다.
샘플 이미지 파일이 포함된 로컬 폴더에서 이미지를 끌어옵니다. 아니면 파일 브라우저를 열어 로컬 이미지 파일을 선택합니다.
쿼리를 실행하려면 쿼리를 선택합니다.

검색한 이미지가 가장 일치해야 합니다. 벡터 검색은 유사한 벡터와 일치하므로 검색 엔진은 쿼리 입력과 충분히 유사한 모든 문서(최대 k개 결과)를 반환합니다. JSON 보기로 전환하여 관련성 조정이 포함된 고급 쿼리를 볼 수 있습니다.
다른 쿼리 옵션을 사용하여 검색 결과를 비교해 보세요.
- 결과의 가독성을 높이기 위해 벡터를 숨깁니다(권장).
- 쿼리할 벡터 필드를 선택합니다. 기본값은 텍스트 벡터이지만 이미지 벡터를 지정하여 쿼리 실행에서 텍스트 벡터를 제외하도록 할 수 있습니다.

정리

이 데모에서는 청구 가능한 Azure 리소스를 사용합니다. 리소스가 더 이상 필요하지 않은 경우 요금이 부과되지 않도록 구독에서 삭제합니다.

다음 단계

이 빠른 시작에서는 이미지 검색에 필요한 모든 개체를 만드는 데이터 가져오기 및 벡터화 마법사를 소개했습니다. 각 단계를 자세히 살펴보려면 통합 벡터화 샘플을 사용해 보세요.

다음을 통해 공유