Azure AI 검색에 통합된 데이터 청크 및 포함

아티클
06/11/2024

Important

통합된 데이터 청크 및 벡터화는 추가 사용 약관에 따라 공개 미리 보기로 제공됩니다. 2023-10-01-Preview REST API 및 모든 최신 미리 보기 REST API는 이 기능을 제공합니다.

통합된 벡터화는 Azure AI Search에서 인덱싱 및 쿼리 파이프라인의 확장입니다. 다음과 같은 기능이 추가되었습니다.

인덱싱 중 데이터 청크
인덱싱 중 텍스트를 벡터로 변환
쿼리 중 텍스트를 벡터로 변환

데이터 청크는 어려운 요구 사항은 아니지만 원시 문서가 작지 않으면 임베딩 모델의 토큰 입력 요구 사항을 충족하기 위해 청크가 필요합니다.

주요 이점은 통합된 벡터화는 구성 및 관리할 외부 구성 요소가 적기 때문에 데이터 수집 및 쿼리 시간 동안 개발 속도를 향상시키고 유지 관리 작업을 최소화한다는 것입니다.

벡터 변환은 단방향(텍스트에서 벡터 방향)입니다. 쿼리 또는 결과에 대한 벡터-텍스트 변환은 없습니다. 예를 들어, 벡터 결과를 사용자가 읽을 수 있는 문자열로 변환할 수 없습니다.

인덱싱 중 통합된 벡터화 사용

데이터 청크 및 텍스트-벡터 변환의 경우 다음 구성 요소에 종속됩니다.

지원되는 데이터 원본에서 원시 데이터를 검색하고 파이프라인 엔진 역할을 하는 인덱서입니다.
다음을 위해 구성된 기술 세트:
- 데이터를 청크하는 데 사용되는 텍스트 분할 기술.
- Azure OpenAI의 text-embedding-ada-002에 연결된 AzureOpenAIEmbedding 기술.
- 또는 AzureOpenAIEmbdding 대신 Azure 또는 다른 쪽의 다른 임베딩 모델을 가리키는 사용자 지정 기술을 사용할 수 있습니다.
청크화되고 벡터화된 콘텐츠를 수신하기 위한 벡터 인덱스입니다.

쿼리에서 통합된 벡터화 사용

쿼리 중 텍스트-벡터 변환의 경우 다음 구성 요소에 종속됩니다.

인덱스 스키마에 정의되고 벡터 필드에 할당되며 쿼리 시 자동으로 사용되어 텍스트 쿼리를 벡터로 변환하는 벡터라이저입니다.
하나 이상의 벡터 필드를 지정하는 쿼리.
쿼리 시 벡터로 변환되는 텍스트 문자열.

구성 요소 다이어그램

다음 다이어그램은 통합 벡터화의 구성 요소를 보여 줍니다.

워크플로는 인덱서 파이프라인입니다. 인덱서는 지원되는 데이터 원본에서 데이터를 검색하고 텍스트-벡터 변환 또는 기타 처리를 위해 Azure OpenAI 또는 Azure AI 서비스 또는 사용자 지정 코드를 호출하여 데이터 보강(또는 적용된 AI)을 시작합니다.

다이어그램은 통합된 벡터화에 중점을 두지만 솔루션은 이 목록에 국한되지 않습니다. AI 보강을 위한 더 많은 기술을 추가하고, 지식 저장소를 만들고, 의미 체계 순위 지정을 추가하고, 관련성 튜닝 및 기타 쿼리 기능을 추가할 수 있습니다.

가용성 및 가격 책정

통합 벡터화는 모든 지역 및 계층에서 사용할 수 있습니다. 그러나 Azure OpenAI 및 AzureOpenAIEmbedding 기술을 사용하는 경우 해당 서비스의 지역별 가용성을 확인합니다.

사용자 지정 기술과 Azure 호스팅 메커니즘(예: Azure 함수 앱, Azure 웹앱, Azure Kubernetes)을 사용하는 경우 지역별 제품 페이지에서 기능 사용 가능 여부를 확인합니다.

데이터 청크(텍스트 분할 기술)는 무료이며 모든 지역의 모든 Azure AI 서비스에서 사용할 수 있습니다.

참고 항목

2019년 1월 1일 이전에 만들어진 일부 이전 검색 서비스는 벡터 워크로드를 지원하지 않는 인프라에 배포됩니다. 스키마에 벡터 필드를 추가하려고 할 때 오류가 발생하는 경우 이는 오래된 서비스로 인한 것입니다. 이 상황에서는 벡터 기능을 사용해 보려면 새 검색 서비스를 만들어야 합니다.

통합 벡터화는 어떤 시나리오를 지원할 수 있나요?

큰 문서를 여러 개의 청크로 세분화하여 벡터 시나리오 및 벡터가 아닌 시나리오에 유용합니다. 벡터의 경우 청크는 포함 모델의 입력 제약 조건을 충족하는 데 도움이 됩니다. 비벡터 시나리오의 경우 GPT가 인덱싱된 청크의 응답을 어셈블하는 채팅 스타일 검색 앱이 있을 수 있습니다. 채팅 스타일 검색을 위해 벡터화된 청크 또는 벡터화되지 않은 청크를 사용할 수 있습니다.
모든 필드가 벡터 필드이고 문서 ID(검색 인덱스에 필요함)가 유일한 문자열 필드인 벡터 저장소를 빌드합니다. 벡터 저장소를 쿼리하여 문서 ID를 쿼리한 다음 문서의 벡터 필드를 다른 모델로 보냅니다.
의미 체계 순위 지정이 있거나 없는 하이브리드 검색을 위해 벡터와 텍스트 필드를 결합합니다. 통합된 벡터화는 벡터 검색이 지원하는 시나리오를 모두 간소화합니다.

통합 벡터화를 사용해야 하는 경우

Azure AI Studio의 기본 제공 벡터화 지원을 사용하는 것이 좋습니다. 이 방식이 요구 사항을 충족하지 않는 경우 Azure AI 검색의 프로그래밍 인터페이스를 사용하여 통합 벡터화를 호출하는 인덱서 및 기술 세트를 만들 수 있습니다.

통합 벡터화를 사용하는 방법

쿼리 전용 벡터화의 경우:

인덱스에 벡터라이저를 추가합니다. 인덱스에서 벡터를 생성하는 데 사용된 것과 동일한 포함 모델이어야 합니다.
벡터 프로필에 벡터라이저를 할당한 다음 벡터 필드에 벡터 프로필을 할당합니다.
벡터화할 텍스트 문자열을 지정하는 벡터 쿼리를 수식화합니다.

보다 일반적인 시나리오 - 인덱싱 중 데이터 청크 및 벡터화:

인덱서 기반 인덱스를 만들기 위해 지원되는 데이터 원본에 대한 데이터 원본 연결을 만듭니다.
청크를 만들기 위한 텍스트 분할 기술과 청크를 벡터화하기 위한 AzureOpenAIEmbeddingModel 또는 사용자 지정 기술을 호출하는 기술 세트를 만듭니다.
쿼리 시간에 대한 벡터라이저를 할당하는 인덱스를 만들고 이를 벡터 필드에 할당합니다.
인덱서를 만들어 데이터 검색부터 기술 실행까지 모든 것을 인덱싱을 통해 구동합니다.

필요에 따라 청크 분할된 콘텐츠가 하나의 인덱스에 있고 청크 분할되지 않은 콘텐츠가 다른 인덱스에 있는 고급 시나리오를 위해 보조 인덱스를 만듭니다. 청크 분할 인덱스(또는 보조 인덱스)는 RAG 앱에 유용합니다.

팁

Azure Portal의 새로운 데이터 가져오기 및 벡터화 마법사를 사용하여 코드를 작성하기 전에 통합된 벡터화를 살펴봅니다.

벡터라이저 및 모델에 대한 보안 연결

아키텍처에 인터넷을 무시하는 프라이빗 연결이 필요한 경우, 쿼리 시 인덱싱 및 벡터화 과정에서 기술이 사용하는 포함 모델에 대한 공유 프라이빗 링크 연결을 만들 수 있습니다.

공유 프라이빗 링크는 Azure 간 연결에서만 작동합니다. OpenAI 또는 다른 외부 모델에 연결하는 경우 공용 인터넷을 통해 연결해야 합니다.

벡터화 시나리오의 경우 다음을 사용합니다.

Azure OpenAI 리소스에 호스트된 모델을 포함하는 경우 openai_account입니다.
sites는 사용자 지정 기술 또는 사용자 지정 벡터라이저로 액세스되는 모델을 포함하는 데 사용됩니다. sites 그룹 ID는 앱 서비스 및 Azure 함수용이며, Azure OpenAI 포함 모델 중 하나가 아닌 포함 모델을 호스팅하는 데 사용할 수 있습니다.

제한 사항

모델 포함에 대한 Azure OpenAI 할당량 및 한도를 알고 있어야 합니다. Azure AI 검색에는 다시 시도 정책이 있지만 할당량이 모두 사용되면 다시 시도가 실패합니다.

분당 Azure OpenAI 토큰 제한은 모델별, 구독별로 적용됩니다. 쿼리 및 인덱싱 워크로드 모두에 포함 모델을 사용하는 경우 이 점을 유념해야 합니다. 가능하다면 모범 사례를 따릅니다. 각 워크로드에 대한 포함 모델을 갖고 이를 다른 구독에 배포해 보세요.

Azure AI 검색에는 계층 및 워크로드별로 서비스 제한이 있다는 점을 기억해야 합니다.

마지막으로 다음 기능은 현재 지원되지 않습니다.

벡터화 구성에는 고객 관리 암호화 키가 지원되지 않습니다.
현재 통합 데이터 청크 및 벡터화에 대한 일괄 처리는 없습니다.

통합 벡터화의 이점

통합 벡터화의 주요 이점은 다음과 같습니다.

별도의 데이터 청크 및 벡터화 파이프라인이 없습니다. 코드를 작성하고 유지 관리하는 것이 더 간단합니다.
인덱싱을 처음부터 끝까지 자동화합니다. 원본(예: Azure Storage, Azure SQL 또는 Cosmos DB)에서 데이터가 변경되면 인덱서는 선택적인 AI 보강, 데이터 청크, 벡터화 및 인덱싱을 통해 검색부터 문서 크래킹까지 전체 파이프라인을 통해 해당 업데이트를 이동할 수 있습니다.
청크 분할 콘텐츠를 보조 인덱스에 투영합니다. 보조 인덱스는 검색 인덱스(필드 및 기타 구문이 포함된 스키마)와 마찬가지로 만들어지지만 인덱서에 의해 기본 인덱스와 함께 채워집니다. 각 원본 문서의 콘텐츠는 동일한 인덱싱 실행 중에 기본 및 보조 인덱스의 필드로 이동합니다.

보조 인덱스는 질문 및 답변 또는 채팅 스타일 앱을 위한 것입니다. 보조 인덱스에는 보다 구체적인 일치 항목에 대한 세부적인 정보가 포함되어 있지만 부모 인덱스에는 더 많은 정보가 있으며 더 완전한 답변을 생성할 수 있는 경우가 많습니다. 보조 인덱스에서 일치하는 항목이 발견되면 쿼리는 기본 인덱스에서 부모 문서를 반환합니다. 예를 들어, 큰 PDF를 원본 문서로 가정하면 기본 인덱스에는 기본 정보(제목, 날짜, 작성자, 설명)가 있을 수 있고 보조 인덱스에는 검색 가능한 콘텐츠 청크가 있을 수 있습니다.

다음을 통해 공유