빠른 시작: 데이터 가져오기 및 벡터화 마법사(미리 보기)

아티클
06/24/2024

Important

데이터 가져오기 및 벡터화 마법사는 추가 사용 약관에 따라 공개 미리 보기로 제공됩니다. 기본적으로 2024-05-01-Preview REST API를 대상으로 합니다.

Azure Portal에서 데이터 가져오기 및 벡터화 마법사를 사용하여 통합 벡터화(미리 보기)를 시작합니다. 이 마법사는 사용자 지정 포함 모델을 호출하여 인덱싱 및 쿼리 중에 콘텐츠를 벡터화합니다.

이 연습을 완료하려면 다음과 같은 세 개의 Azure 리소스와 일부 샘플 파일이 필요합니다.

데이터에 OneLake를 사용하는 Microsoft Fabric 또는 Azure Blob Storage
Azure 벡터화: Azure AI 서비스 다중 서비스 계정, Azure OpenAI 또는 Azure AI 스튜디오 모델 카탈로그 중 하나
인덱싱 및 쿼리를 위한 Azure AI 검색

미리 보기 제한 사항

원본 데이터는 기본 구문 분석 모드(Blob 또는 파일당 하나의 검색 문서)를 사용하는 Azure Blob Storage 또는 OneLake 파일 및 바로 가기입니다.
인덱스 스키마는 구성할 수 없습니다. 원본 필드에는 "content"(청크화 및 벡터화됨), 제목의 "metadata_storage_name", 문서 키의 "metadata_storage_path"가 포함되며 인덱스에서 parent_id로 표시됩니다.
청크는 구성할 수 없습니다. 효과적인 설정은 다음과 같습니다.
```
textSplitMode: "pages",
maximumPageLength: 2000,
pageOverlapLength: 500
```

더 적은 제한 사항이나 더 많은 데이터 원본 옵션을 원하는 경우 코드 기반 접근 방식을 사용해 보세요. 자세한 내용은 통합 벡터화 샘플을 참조하세요.

필수 구성 요소

Azure 구독 체험 계정 만들기
데이터에는 Azure Storage 계정 또는 OneLake 레이크하우스를 사용합니다. Azure Storage의 경우 표준 성능(범용 v2) 계정을 사용합니다. 액세스 계층은 핫, 쿨 및 콜드일 수 있습니다.
벡터화를 위해 Azure AI 서비스 다중 서비스 계정 또는 배포가 포함된 Azure OpenAI 엔드포인트가 있어야 합니다.

Azure AI 비전의 다중 모달을 위해 SwedenCentral, EastUS, NorthEurope, WestEurope, WestUS, SoutheastAsia, KoreaCentral, FranceCentral, AustraliaEast, WestUS2, SwitzerlandNorth, JapanEast에 Azure AI 서비스를 만듭니다. 업데이트된 목록은 설명서에서 확인하세요.

모델 배포와 함께 Azure AI 스튜디오 모델 카탈로그(및 허브와 프로젝트)를 사용할 수도 있습니다.
Azure AI 서비스와 동일한 지역에 있는 Azure AI 검색. 기본 계층 이상을 사용하는 것이 좋습니다.
포함 모델 및 데이터 원본에 연결하려면 역할 할당 또는 API 키가 필요합니다. 이 문서에서 역할 기반 액세스에 대한 지침을 확인할 수 있습니다.

위의 모든 리소스에는 포털 노드가 액세스할 수 있도록 공개 액세스가 활성화되어 있어야 합니다. 그렇지 않으면 마법사가 실패합니다. 마법사가 실행되면 보안을 위해 여러 통합 구성 요소에서 방화벽 및 프라이빗 엔드포인트를 사용하도록 설정할 수 있습니다.

프라이빗 엔드포인트가 이미 있고 사용하지 않도록 설정할 수 없는 경우 다른 옵션은 프라이빗 엔드포인트와 동일한 가상 네트워크 내의 가상 머신에서 스크립트 또는 프로그램을 통해 해당 엔드투엔드 흐름을 실행하는 것입니다. 다음은 통합된 벡터화를 위한 Python 코드 샘플입니다. 동일한 GitHub 리포지토리에 다른 프로그래밍 언어의 샘플도 들어 있습니다.

무료 검색 서비스는 Azure AI 검색에 대한 연결에서 역할 기반 액세스 제어를 지원하지만 Azure Storage 또는 Azure AI 비전에 대한 아웃바운드 연결에서 관리 ID를 지원하지 않습니다. 따라서 다른 Azure 서비스에 대한 무료 검색 서비스 연결에서 키 기반 인증을 사용해야 합니다. 보다 안전한 연결을 위해 기본 계층 이상을 사용하고 다른 Azure 서비스에서 Azure AI 검색의 요청을 허용하도록 역할 할당 및 관리 ID를 구성하세요.

공간 확인

무료 서비스를 시작하는 경우 인덱스 3개, 데이터 원본 3개, 기술 세트 3개, 인덱서 3개로 제한됩니다. 시작하기 전에 추가 항목에 대한 공간이 있는지 확인합니다. 이 빠른 시작에서는 각 개체를 하나씩 만듭니다.

서비스 ID 확인

다른 리소스에 검색 서비스를 연결하기 위한 역할 할당을 권장합니다.

Azure AI 검색에서 역할 기반 액세스를 사용합니다.
시스템 또는 사용자가 할당한 관리 ID를 사용하도록 검색 서비스를 구성합니다.

다음 섹션에서는 검색 서비스 관리 ID를 다른 서비스의 역할에 할당할 수 있습니다. 역할 할당의 단계는 해당하는 경우 제공됩니다.

의미 체계 순위 지정 확인

이 마법사는 의미 체계 순위 지정을 지원하지만 기본 계층 이상에서, 그리고 의미 체계 순위 지정이 이미 검색 서비스에서 활성화된 경우에만 해당합니다. 청구 가능 계층을 사용하는 경우 의미 체계 순위 지정이 사용하도록 설정되어 있는지 확인합니다.

샘플 데이터 준비

이 섹션에서는 이 빠른 시작에 적합한 데이터를 알려 줍니다.

Azure Storage
OneLake

Azure 계정으로 Azure Portal에 로그인하고 Azure Storage 계정으로 이동합니다.
탐색 창의 데이터 스토리지에서 컨테이너를 선택합니다.
새 컨테이너를 만든 다음 이 빠른 시작에 사용된 상태 계획 PDF 문서를 업로드합니다.
액세스 제어에서 컨테이너의 Storage Blob 데이터 읽기 권한자를 검색 서비스 ID에 할당합니다. 또는 액세스 키 페이지에서 스토리지 계정에 대한 연결 문자열을 가져옵니다.

Power BI에 로그인하고 작업 영역을 만듭니다.
Power BI의 왼쪽 메뉴에서 작업 영역을 선택하고 만든 작업 영역을 엽니다.
작업 영역 수준에서 사용 권한을 할당합니다.
1. 오른쪽 위 메뉴에서 액세스 관리를 선택합니다.
2. 사람 또는 그룹 추가를 선택합니다.
3. 검색 서비스의 이름을 입력합니다. 예를 들어 URL이 https://my-demo-service.search.windows.net이면 검색 서비스 이름은 my-demo-service입니다.
4. 역할 선택. 기본값은 뷰어이지만 데이터를 검색 인덱스로 끌어오려면 기여자가 필요합니다.
샘플 데이터를 로드합니다.
1. 왼쪽 아래에 있는 Power BI 전환기에서 데이터 엔지니어링을 선택합니다.
2. 데이터 엔지니어링 화면에서 Lakehouse를 선택하여 레이크하우스를 만듭니다.
3. 이름을 입력한 다음 만들기를 선택하여 새 레이크하우스를 만들고 엽니다.
4. 파일 업로드를 선택한 다음, 이 빠른 시작에 사용되는 상태 계획 PDF 문서를 업로드합니다.
레이크하우스를 나가기 전에 URL을 복사하거나 작업 영역 및 레이크하우스 ID를 가져와 마법사에서 레이크하우스를 지정할 수 있도록 합니다. URL은 https://msit.powerbi.com/groups/00000000-0000-0000-0000-000000000000/lakehouses/11111111-1111-1111-1111-111111111111?experience=data-engineering 형식입니다.

포함 모델 설정

통합된 벡터화와 데이터 가져오기 및 벡터화 마법사는 인덱싱 중에 배포된 포함 모델을 활용하여 텍스트와 이미지를 벡터로 변환합니다.

Azure OpenAI, 멀티모달 포함을 위한 Azure AI Vision 또는 Azure AI Studio의 모델 카탈로그에 배포된 포함 모델을 사용할 수 있습니다.

데이터 가져오기 및 벡터화 지원: text-embedding-ada-002, text-embedding-3-large, text-embedding-3-small. 내부적으로 마법사는 AzureOpenAIEmbedding 기술을 사용하여 Azure OpenAI에 연결합니다.

다음 지침을 사용하여 사용 권한을 할당하거나 Azure OpenAI에 대한 검색 서비스 연결을 위한 API 키를 가져옵니다. 마법사를 실행하기 전에 사용 권한을 설정하거나 연결 정보를 준비해야 합니다.

Azure 계정으로 Azure Portal에 로그인하고 Azure OpenAI 리소스로 이동합니다.
사용 권한 설정:
1. 왼쪽 메뉴에서 액세스 제어를 선택합니다.
2. 추가를 선택한 다음 역할 할당 추가를 선택합니다.
3. 작업 함수 역할에서 Cognitive Services OpenAI 사용자를 선택한 다음, 다음을 선택합니다.
4. 구성원 아래에서 관리 ID를 선택한 다음, 구성원을 선택합니다.
5. 구독 및 리소스 종류(Search Services)를 필터링한 다음 검색 서비스의 관리 ID를 선택합니다.
6. 검토 + 할당을 선택합니다.
개요 페이지에서 엔드포인트 또는 API 키를 복사해야 하는 경우 엔드포인트를 보려면 여기를 클릭 또는 키를 관리하려면 여기를 클릭을 선택하세요. 키 기반 인증과 함께 Azure OpenAI 리소스를 사용하는 경우 이러한 값을 마법사에 붙여넣을 수 있습니다.
리소스 관리 및 모델 배포 아래에서 배포 관리를 선택하여 Azure AI Studio를 엽니다.
text-embedding-ada-002 또는 지원되는 다른 포함 모델의 배포 이름을 복사합니다. 포함 모델이 없는 경우 지금 포함 모델을 배포합니다.

마법사 시작

Azure 계정으로 Azure Portal에 로그인하고 Azure AI 검색 서비스로 이동합니다.
개요 페이지에서 데이터 가져오기 및 벡터화를 선택합니다.

데이터에 연결

다음 단계는 검색 인덱스에 사용할 데이터 원본에 연결하는 것입니다.

데이터에 연결 탭의 데이터 가져오기 및 벡터화 마법사에서 데이터 원본 드롭다운 목록을 확장하고 Azure Blob Storage 또는 OneLake를 선택합니다.
Azure 구독을 지정합니다.
OneLake의 경우 레이크하우스 URL을 지정하거나 작업 영역 및 레이크하우스 ID를 제공합니다.
Azure Storage의 경우 데이터를 제공하는 계정 및 컨테이너를 선택합니다.
삭제 검색 여부를 지정합니다.
다음을 선택합니다.

텍스트 벡터화

이 단계에서는 청크 분할 데이터를 벡터화하는 데 사용되는 포함 모델을 지정합니다.

배포된 모델이 Azure OpenAI, Azure AI Studio 모델 카탈로그 또는 Azure AI 검색과 동일한 지역에 있는 기존 Azure AI Vision 멀티모달 리소스에 있는지 여부를 지정합니다.
Azure 구독을 지정합니다.
Azure OpenAI의 경우 서비스, 모델 배포 및 인증 유형을 선택합니다. 자세한 내용은 포함 모델 설정을 참조하세요.
AI Studio 카탈로그의 경우 프로젝트, 모델 배포 및 인증 유형을 선택합니다. 자세한 내용은 포함 모델 설정을 참조하세요.
AI Vision 벡터화의 경우 계정을 선택합니다. 자세한 내용은 포함 모델 설정을 참조하세요.
이러한 리소스 사용의 청구 영향을 인정하는 확인란을 선택합니다.
다음을 선택합니다.

이미지 벡터화 및 보강

콘텐츠에 이미지가 포함된 경우 다음 두 가지 방법으로 AI를 적용할 수 있습니다.

카탈로그에서 지원되는 이미지 포함 모델을 사용하거나 Azure AI Vision 멀티모달 포함 API를 선택하여 이미지를 벡터화합니다.
OCR을 사용하여 이미지의 텍스트를 인식합니다.

Azure AI 검색 및 Azure AI 리소스는 동일한 지역에 있어야 합니다.

마법사가 설정해야 하는 연결 종류를 지정합니다. 이미지 벡터화의 경우 Azure AI Studio 또는 Azure AI Vision의 포함 모델에 연결할 수 있습니다.
구독을 지정합니다.
Azure AI Studio 모델 카탈로그의 경우 프로젝트와 배포를 지정합니다. 자세한 내용은 포함 모델 설정을 참조하세요.
선택적으로 이진 파일 이미지(예: 검사한 문서 파일)를 해독하고 OCR을 사용하여 텍스트를 인식할 수 있습니다.
이러한 리소스 사용의 청구 영향을 인정하는 확인란을 선택합니다.
다음을 선택합니다.

고급 설정

선택적으로 의미 체계 순위 지정를 추가하여 쿼리 실행이 끝날 때 결과 순위 지정을 다시 지정하여 의미 체계상 가장 관련성이 높은 일치 항목을 맨 위로 올릴 수 있습니다.
필요에 따라 인덱서에 대한 런타임 일정을 지정합니다.
다음을 선택합니다.

마법사 실행

검토 및 만들기에서 마법사를 실행할 때 만든 개체에 대한 접두사를 지정합니다. 공통 접두사는 정리하는 데 도움이 됩니다.
만들기를 선택하여 마법사를 실행합니다. 이 단계에서는 다음 개체를 만듭니다.
- 데이터 원본을 연결합니다.
- 벡터 필드, 벡터라이저, 벡터 프로필, 벡터 알고리즘이 포함된 인덱스입니다. 마법사 워크플로 중에는 기본 인덱스를 설계하거나 수정하라는 메시지가 표시되지 않습니다. 인덱스는 2024-05-01-preview REST API를 준수합니다.
- 청킹을 위한 텍스트 분할 기술과 벡터화를 위한 포함 기술을 갖춘 기술 세트입니다. 포함 기술은 Azure OpenAI용 AzureOpenAIEmbeddingModel 기술 또는 Azure AI Studio 모델 카탈로그용 AML 기술입니다.
- 필드 매핑 및 출력 필드 매핑(해당되는 경우)이 있는 인덱서입니다.

Azure AI Vision 벡터라이저를 선택할 수 없는 경우 지원되는 지역에 Azure AI Vision 리소스가 있고 검색 서비스 관리 ID에 Cognitive Services OpenAI 사용자 사용 권한이 있는지 확인합니다.

다른 옵션을 사용할 수 없기 때문에(예: 데이터 원본 또는 포함 모델을 선택할 수 없음) 마법사를 진행할 수 없는 경우 역할 할당을 다시 방문합니다. 실제 문제는 검색 서비스에 액세스할 수 있는 권한이 없는 것일 때, 오류 메시지에는 모델 또는 배포가 존재하지 않는다고 표시됩니다.

결과 확인

검색 탐색기는 텍스트 문자열을 입력으로 받아들인 다음 벡터 쿼리 실행을 위해 텍스트를 벡터화합니다.

Azure Portal의 검색 관리 및 인덱스아래에서 만든 인덱스를 선택합니다.
필요에 따라 쿼리 옵션을 선택하고 검색 결과에서 벡터 값을 숨깁니다. 이 단계를 수행하면 검색 결과를 더 쉽게 읽을 수 있습니다.
text 벡터 쿼리 매개 변수에 벡터 쿼리에 대한 텍스트를 입력할 수 있도록 JSON 보기를 선택합니다.

이 마법사는 "벡터" 필드에 대한 벡터 쿼리를 실행하여 5개의 가장 인접한 항목을 반환하는 기본 쿼리를 제공합니다. 벡터 값을 숨기도록 선택한 경우 기본 쿼리에는 검색 결과에서 벡터 필드를 제외하는 "select" 문이 포함됩니다.
```
{
   "select": "chunk_id,parent_id,chunk,title",
   "vectorQueries": [
       {
          "kind": "text",
          "text": "*",
          "k": 5,
          "fields": "vector"
       }
    ]
}
```
"*" 텍스트를 "공제 금액이 가장 낮은 계획"과 같은 상태 보험 관련 질문으로 바꿉니다.
쿼리를 실행하려면 쿼리를 선택합니다.

각 문서가 원본 PDF의 일부인 5개의 일치 항목이 표시되어야 합니다. 제목 필드에는 해당 청크가 어느 PDF에서 왔는지 표시됩니다.

특정 문서의 모든 청크를 보려면 특정 PDF의 제목 필드에 필터를 추가합니다.

{
   "select": "chunk_id,parent_id,chunk,title",
   "filter": "title eq 'Benefit_Options.pdf'",
   "count": true,
   "vectorQueries": [
       {
          "kind": "text",
          "text": "*",
          "k": 5,
          "fields": "vector"
       }
    ]
}

정리

Azure AI 검색은 청구 가능한 리소스입니다. 더 이상 필요하지 않은 경우 요금이 부과되지 않도록 구독에서 삭제합니다.

다음 단계

이 빠른 시작에서는 통합 벡터화에 필요한 모든 개체를 만드는 데이터 가져오기 및 벡터화 마법사를 소개했습니다. 각 단계를 자세히 살펴보려면 통합 벡터화 샘플을 사용해 보세요.

다음을 통해 공유