다음을 통해 공유


Azure 포털의 데이터 가져오기 도우미들

중요합니다

Azure AI Search 마법사를 통합하고 있습니다. 주요 변경 내용은 다음과 같습니다.

  • 이제 데이터 가져오기 및 벡터화 마법사를 데이터 가져오기(새로 만들기)라고 합니다.
  • 이제 데이터 가져오기 워크플로를 데이터 가져오기(신규)에서 사용할 수 있습니다.

데이터 가져오기 마법사는 곧 더 이상 사용되지 않습니다. 지금은 이 마법사를 계속 사용할 수 있지만 최신 프레임워크를 사용하는 향상된 검색 환경을 위해 새 마법사를 사용하는 것이 좋습니다.

마법사에는 동일한 키워드 검색 워크플로가 없습니다. 특정 기술과 기능은 이전 마법사에서만 사용할 수 있습니다. 유사성 및 차이점에 대한 자세한 내용은 이 문서를 계속 읽어보세요.

Azure AI Search 다양한 검색 시나리오에 대한 인덱싱, 보강 및 개체 생성을 자동화하는 두 개의 마법사가 있습니다.

  • 데이터 가져오기 마법사는 키워드(비벡터) 검색을 지원합니다. 원시 문서에서 텍스트와 숫자를 추출할 수 있습니다. 또한 적용된 AI 및 기본 제공 기술을 구성하여 이미지 파일 및 구조화되지 않은 데이터에서 구조를 유추하고 검색 가능한 텍스트를 생성할 수 있습니다.

  • 데이터 가져오기(새) 마법사는 키워드 검색, RAG 및 다중 모달 RAG을 지원합니다. 키워드 검색의 경우 데이터 가져오기 워크플로를 현대화하지만 자동 메타데이터 필드 만들기와 같은 일부 기능이 부족합니다. RAG 및 멀티모달 RAG의 경우 임베딩 모델 배치에 연결하고, 요청을 보내고, 텍스트 또는 이미지에서 벡터를 생성합니다.

이러한 차이점에도 불구하고 마법사는 콘텐츠 수집 및 인덱싱에 대해 유사한 워크플로를 따릅니다. 다음 표에서는 해당 기능을 요약합니다.

Capability 데이터 가져오기 마법사 데이터 가져오기(새) 마법사
인덱스 만들기
인덱서 파이프라인 만들기
Azure Logic Apps 커넥터
기본 제공 샘플 데이터
기술 기반 보강
벡터 및 다중 모드 지원
시맨틱 랭킹 지원
지식 저장소 지원

호텔 샘플 인덱스에 대한 기본 제공 샘플 데이터는 더 이상 제공되지 않지만 Quickstart: Azure portal 전체 텍스트 검색을 수행하여 동일한 인덱을 만들 수 있습니다.

이 문서에서는 개념 증명 테스트를 돕기 위해 마법사가 작동하는 방식을 설명합니다. 단계별 지침은 마법사를 사용해 보세요.

지원되는 데이터 원본 및 시나리오

이 섹션에서는 각 마법사에서 사용 가능한 옵션에 대해 설명합니다.

데이터 원본

마법사는 다음 데이터 원본을 지원하며, 대부분 기본 제공 인덱서를 사용합니다. 테이블의 각주에 예외가 표시됩니다.

데이터 원본 데이터 가져오기 마법사 데이터 가져오기(새) 마법사
ADLS Gen2
Azure Blob Storage
Azure 파일 저장소 1, 2
Azure 큐 1
Azure Table Storage
Azure SQL 데이터베이스와 관리형 인스턴스
NoSQL용 Cosmos DB
MongoDB용 Cosmos DB
Apache Gremlin용 Cosmos DB
MySQL
원드라이브 1
비즈니스용 OneDrive 1
OneLake
서비스 버스 1
SharePoint 1, 2
가상 머신의 SQL Server

1 이 데이터 원본은 기본 제공 인덱서 대신 Azure Logic Apps 커넥터(미리 보기)를 사용합니다.

2 Logic Apps 커넥터를 사용하는 대신 Search Service REST API를 사용하여 Azure 파일 Storage 또는 SharePoint의 데이터를 프로그래밍 방식으로 인덱싱할 수 있습니다.

기술

각 마법사는 기술 세트를 생성하고 선택한 옵션에 따라 필드 매핑을 출력합니다. 기술 세트를 만든 후에는 JSON 정의를 수정하여 기술을 추가하거나 제거할 수 있습니다.

마법사에서 생성된 기술 세트에 다음 기술이 나타날 수 있습니다.

기술 데이터 가져오기 마법사 데이터 가져오기(새) 마법사
Azure Vision 멀티모달 1
Azure OpenAI 임베딩 1
Azure Machine Learning(Microsoft Foundry 모델 카탈로그) 1
문서 레이아웃 1
엔터티 인식
이미지 분석2
키 프레이즈 추출
언어 감지
텍스트 번역
OCR2
PII 검색
감정 분석
셰이퍼3
텍스트 분할4
텍스트 병합4

1 이 기술은 RAG 및 멀티모달 RAG 워크플로에만 사용할 수 있습니다. 키워드 검색은 지원되지 않습니다.

2 이 기술은 기본 구문 분석 모드를 가정하여 Azure Storage Blob 및 Microsoft OneLake 파일에 사용할 수 있습니다. 이미지는 이미지 콘텐츠 형식(예: PNG 또는 JPG) 또는 애플리케이션 파일(예: PDF)에 포함된 이미지일 수 있습니다.

3 이 기술은 지식 저장소를 구성할 때 추가됩니다.

4 이 기술은 임베딩 모델을 선택할 때 데이터 청킹을 위해 추가됩니다. 임베딩 비포함 기술의 경우, 원본 필드 세분성을 페이지 또는 문장으로 설정할 때 추가됩니다.

의미 순위매기기

의미 체계 순위를 구성하여 검색 결과의 관련성을 향상시킬 수 있습니다.

Capability 데이터 가져오기 마법사 데이터 가져오기(새) 마법사
의미 순위매기기

지식 저장소

보조 저장소로 사용할 보강된(스킬 생성) 콘텐츠를 위한 지식 저장소를 생성할 수 있습니다. 지식 저장소는 검색 엔진이 필요하지 않은 정보 검색 워크플로에 유용합니다.

Capability 데이터 가져오기 마법사 데이터 가져오기(새) 마법사
지식 저장소

마법사가 만드는 사항

다음 표에서는 마법사에서 만든 개체를 나열합니다. 개체를 만든 후 Azure portal JSON 정의를 검토하거나 코드에서 호출할 수 있습니다.

객체 설명
인덱서 데이터 원본, 대상 인덱스, 선택적 기술 세트, 선택적 일정 및 오류 처리 및 base-64 인코딩을 위한 선택적 구성 설정을 지정하는 구성 개체입니다.
데이터 원본 Azure의 지원되는 데이터 원본에 연결 정보를 저장합니다. 데이터 원본 개체는 인덱서에 독점적으로 사용됩니다.
Index 전체 텍스트 검색, 벡터 검색 및 기타 쿼리에 대한 실제 데이터 구조입니다.
기술 세트 (선택 사항) 이미지 파일에서 정보 분석 및 추출을 포함하여 콘텐츠를 조작, 변환 및 셰이핑하기 위한 전체 지침 집합입니다. 기술 세트는 통합 벡터화에도 사용됩니다. 작업량이 하루에 인덱서당 20개 트랜잭션을 초과하는 경우 기술 세트에는 보강을 제공하는 Foundry 리소스에 대한 참조가 포함되어야 합니다. 통합 벡터화를 위해 Azure Vision 또는 Foundry 모델 카탈로그의 임베딩 모델을 사용할 수 있습니다.
지식 저장소 (선택 사항) 검색 이외의 시나리오에서 독립적인 분석 또는 다운스트림 처리를 위해 테이블 및 Blob의 보강된 스킬셋 출력을 Azure Storage에 저장합니다. 데이터 가져오기 마법사에서만 사용할 수 있습니다.

마법사가 실행된 후 이러한 개체를 보려면 다음을 수행합니다.

  1. Azure portal에 로그인한 후 검색 서비스를 선택합니다.
  2. 왼쪽 창에서 검색 관리를 선택하여 인덱스, 인덱서, 데이터 원본 및 기술 세트에 대한 페이지를 찾습니다.

이점

코드를 작성하기 전에 프로토타이핑 및 개념 증명 테스트에 마법사를 사용할 수 있습니다. 마법사는 외부 데이터 원본에 연결하고, 데이터를 샘플링하여 초기 인덱스를 만든 다음, 필요에 따라 데이터를 JSON 문서로 가져와서 Azure AI Search 인덱스로 벡터화합니다.

기술 세트를 평가하는 경우 마법사는 출력 필드 매핑을 처리하고 도우미 함수를 추가하여 사용 가능한 개체를 만듭니다. 구문 분석 모드를 지정하면 텍스트 분할이 추가됩니다. 텍스트 병합 은 마법사가 이미지 콘텐츠와 텍스트 설명을 다시 연결할 수 있도록 이미지 분석을 선택할 때 추가됩니다. 지식 저장소 옵션을 선택할 때 유효한 프로젝션을 지원하기 위해 쉐이퍼가 추가됩니다. 이러한 모든 작업에는 학습 곡선이 함께 제공됩니다. 당신이 보강 프로세스에 익숙하지 않다면, 이 단계들이 함께 처리되어 많은 시간과 노력을 들이지 않고도 스킬의 가치를 측정할 수 있습니다.

샘플링은 인덱스 스키마가 유추되는 프로세스이며 몇 가지 제한 사항이 있습니다. 데이터 원본을 만들 때 마법사는 임의의 문서 샘플을 선택하여 데이터 원본의 일부인 열을 결정합니다. 모든 파일을 읽는 것은 아닙니다. 이렇게 하면 큰 데이터 원본에 몇 시간이 걸릴 수 있습니다. 문서를 선택할 경우 원본 메타데이터(예: 필드 이름 또는 형식)를 사용하여 인덱스 스키마에 필드 컬렉션을 만듭니다. 원본 데이터의 복잡성에 따라 정확도를 위해 초기 스키마를 편집하거나 완전성을 위해 확장해야 할 수 있습니다. 인덱스 정의 페이지에서 변경 내용을 인라인으로 만들 수 있습니다.

전반적으로 마법사의 장점은 분명합니다. 요구 사항이 충족되는 한 몇 분 내에 쿼리 가능한 인덱스를 만들 수 있습니다. 마법사는 데이터를 JSON 문서로 직렬화하는 등 인덱싱의 일부 복잡성을 처리합니다.

제한 사항

마법사에는 다음과 같은 제한 사항이 있습니다.

  • 마법사는 반복이나 다시 사용을 지원하지 않습니다. 마법사를 통과하는 각 패스는 인덱스, 기술 세트 및 인덱서 구성을 만듭니다. 데이터 가져오기 마법사에서만 데이터 원본을 다시 사용할 수 있습니다. 마법사를 완료한 후 다른 포털 도구, REST API 또는 Azure SDK를 사용하여 만든 개체를 편집할 수 있습니다.

  • 원본 콘텐츠는 지원되는 데이터 원본에 있어야 합니다.

  • 예비 인덱스 스키마를 유추하는 데 사용되는 샘플링은 원본 데이터의 하위 집합에 대해 발생합니다. 대형 데이터 원본의 경우 마법사에서 필드를 누락할 수 있습니다. 샘플링이 부족한 경우 인덱싱에 필드를 수동으로 추가하거나 유추된 데이터 형식을 수정해야 할 수 있습니다.

  • 마법사에 노출되는 AI 보강통합 벡터화는 기본 제공 기술의 하위 집합으로 제한됩니다.

  • 레거시 데이터 가져오기 마법사를 통해서만 사용할 수 있는 지식 저장소는 몇 가지 기본 프로젝션으로 제한되며 기본 명명 규칙을 사용합니다. 프로젝션 및 이름을 사용자 지정하려면 REST API 또는 Azure SDK를 통해 지식 저장소를 만들어야 합니다.

보안 연결

네트워크 보호는 포털-엔드포인트 연결 및 포털 작업 중 엔드포인트-외부 리소스 연결에도 영향을 줍니다.

검색 서비스에 대한 포털 연결

네트워크로 보호되는 엔드포인트에 대한 포털 연결은 클라이언트 IP 주소를 사용하여 이루어집니다.

팁 (조언)

포털에서 클라이언트 IP 주소를 검색하고 search service 방화벽에 추가하라는 메시지를 표시합니다.

외부 리소스에 대한 포털 연결

포털 마법사는 다음을 위해 외부 리소스에 연결합니다.

  • 인덱싱 중 데이터 검색
  • Foundry 리소스 또는 모델에서 수행하는 보강통합 벡터화를 위한 AI 처리

포털 마법사에서 네트워크로 보호되는 데이터 및 AI 처리에 대한 거의 모든 아웃바운드 요청은 다음을 제외하고 클라이언트의 IP 주소를 사용하여 수행됩니다.

  • 레거시 데이터 가져오기 마법사
  • Azure Cosmos DB 또는 Azure SQL에 연결하기

이 섹션에서는 아웃바운드 요청에 대한 연결 요구 사항 및 예외를 처리하는 방법을 설명합니다.

외부 리소스에 대한 포털 접근 구성

  • IP로 보호되는 리소스: 외부 리소스 allowList에 클라이언트 IP 주소를 추가합니다. 지원되는 경우 Microsoft.Search/searchServices을(를) 신뢰할 수 있는 서비스로 지정합니다. 예를 들어 Azure Storage Microsoft.Search/searchServices 신뢰할 수 있는 서비스로 나열할 수 있습니다.

  • 개인 연결: 마법사는 공유 개인 링크를 사용합니다. 귀하의 검색 서비스가 계층 및 지역 요구 사항을 충족하는지 확인하세요. 외부 데이터 원본이 공유 프라이빗 링크에 대해 지원되는지 확인합니다.

예외: Cosmos DB 및 Azure SQL 사용하는 레거시 마법사

레거시 마법사는 자체 IP 주소를 사용하여 포털 컨트롤러를 통해 연결합니다. 공용 엔드포인트(private link 지원 없음)를 사용하고 포털 컨트롤러 IP를 인바운드 규칙에 추가 사용해야 합니다.

데이터 가져오기(새) 마법사를 사용하여 이 제한을 방지할 수 있습니다.

마법사가 연결할 수 없는 경우 새 마법사에 "Access denied due to Virtual Network/Firewall rules"가 나타나거나, 레거시 마법사에서 기술 세트 생성이 조용히 실패합니다. 대안으로 스크립터 또는 프로그래밍 방식 접근 방식을 고려합니다.

워크플로

두 마법사 모두 비슷한 수준의 워크플로를 따릅니다.

  1. 지원되는 Azure 데이터 원본에 연결합니다.

  2. (선택 사항) 콘텐츠 및 구조를 추출하거나 생성하는 기술을 추가합니다.

  3. 원본 데이터 샘플링을 통해 유추된 인덱스 스키마를 만듭니다.

  4. 마법사를 실행하여 개체를 만들고, 필요에 따라 데이터를 벡터화하고, 인덱스로 데이터를 로드하고, 일정을 설정하고, 다른 옵션을 구성합니다.

워크플로는 단방향 파이프라인입니다. 마법사를 사용하여 만든 개체를 편집할 수는 없지만 인덱스 디자이너 또는 JSON 편집기 같은 다른 포털 도구를 사용하여 허용된 업데이트를 수행할 수 있습니다.

마법사 시작

마법사를 시작하려면 다음을 수행합니다.

  1. Azure portal에 로그인한 후 검색 서비스를 선택합니다.

  2. 개요 페이지에서 데이터 가져오기 또는데이터 가져오기(새로 만들기)를 선택합니다.

    가져오기 마법사 옵션의 스크린샷.

    마법사는 브라우저 창에서 완전히 확장되어 열리므로 작업 영역이 더 넓어집니다.

  3. 나머지 단계에 따라 인덱스, 인덱서 및 기타 적용 가능한 개체를 만듭니다.

Azure Cosmos DB, Azure SQL Database, SQL Managed Instance 및 Azure Blob Storage 포함하여 다른 Azure 서비스에서 Import 데이터를 시작할 수도 있습니다. 서비스 개요 페이지의 왼쪽 창에서 Azure AI Search를 찾습니다.

마법사의 데이터 원본 구성

마법사는 인덱서에서 제공하는 내부 논리를 사용하여 외부 지원되는 데이터 원본에 연결합니다. 이 논리는 원본을 샘플링하고, 메타데이터를 읽고, 문서를 해독하여 콘텐츠와 구조를 파악한 후, 콘텐츠를 JSON으로 직렬화하여 Azure AI Search에 가져오는 데 사용됩니다.

데이터 가져오기 마법사에서 지원되는 데이터 원본에 대한 연결을 다른 구독 또는 지역에 붙여넣을 수 있지만 기존 연결 선택기 선택은 활성 구독으로 범위가 지정됩니다.

데이터에 연결 탭의 스크린샷.

마법사에서 모든 미리 보기 데이터 원본을 사용할 수 있는 것은 아닙니다. 각 데이터 원본은 변경 내용을 다운스트림으로 도입할 가능성이 있으므로 미리 보기 데이터 원본은 기술 세트 정의 및 인덱스 스키마 유추와 같은 마법사의 모든 환경을 완전히 지원하는 경우에만 추가됩니다.

단일 테이블, 데이터베이스 뷰 또는 동등한 데이터 구조에서만 가져올 수 있습니다. 그러나 구조에는 계층 구조 또는 중첩된 하위 구조가 포함될 수 있습니다. 자세한 내용은 복합 형식 모델링 방법을 참조하세요.

마법사의 기술 세트 구성

데이터 원본 유형이 특정 기본 제공 기술의 가용성을 알려주기 때문에 기술 세트 구성은 데이터 원본 정의 후에 발생합니다. 예를 들어 Azure Blob Storage 파일을 인덱싱하는 경우 해당 파일에 대해 선택하는 구문 분석 모드는 감정 분석을 사용할 수 있는지 여부를 결정합니다.

마법사는 선택한 기술뿐만 아니라 성공적인 결과에 필요한 기술도 추가합니다. 예를 들어 데이터 가져오기 마법사에서 지식 저장소를 지정하는 경우 마법사는 프로젝션 또는 물리적 데이터 구조를 지원하는 쉐이퍼 기술을 추가합니다.

기술 세트는 선택 사항이며, AI 보강을 원하지 않는 경우 페이지 아래쪽에 건너뛰는 단추가 있습니다.

마법사의 인덱스 스키마 구성

마법사는 데이터 원본을 샘플링하여 필드 및 필드 형식을 검색합니다. 데이터 원본에 따라 메타데이터 인덱싱 필드를 제공할 수도 있습니다.

샘플링은 부정확한 연습이므로 인덱스를 검토하여 다음 사항을 고려합니다.

  1. 필드 목록이 정확한가요? 데이터 원본에 샘플링에서 선택되지 않은 필드가 포함된 경우 누락된 필드를 수동으로 추가할 수 있습니다. 검색 환경에 값을 추가하지 않거나 필터 식 또는 점수 매기기 프로필에 사용되지 않는 필드를 제거할 수도 있습니다.

  2. 데이터 형식이 들어오는 데이터에 적합한가요? Azure AI Search EDM(entity 데이터 모델) 데이터 형식 지원합니다. Azure SQL 데이터의 경우 동등한 값을 보여주는 매핑 차트가 있습니다. 자세한 내용은 필드 매핑 및 변환을 참조하세요.

  3. 로 사용할 수 있는 필드가 하나 있나요? 이 필드는 문서를 고유하게 식별하는 Edm.String이어야 합니다. 관계형 데이터의 경우 기본 키에 매핑 될 수 있습니다. Blob의 경우 metadata-storage-path일 수 있습니다. 필드 값에 공백 또는 대시가 포함된 경우 고급 옵션 아래의 인덱서 만들기 단계에서 Base-64 인코딩 키 옵션을 설정하여 이러한 문자에 대한 유효성 검사를 표시하지 않아야 합니다.

  4. 특성을 설정하여 인덱스에서 해당 필드가 사용되는 방법을 결정합니다.

    특성이 인덱스에 있는 필드의 실제 식을 결정하므로 이 단계를 신중하게 진행하세요. 나중에 프로그래밍 방식으로도 특성을 변경하려면 거의 항상 인덱스 삭제 및 다시 작성이 필요합니다. SearchableRetrievable 같은 핵심 특성은 저장소에 미미한 영향을 미칩니다. 필터를 사용하도록 설정하고 제안기를 사용하면 storage 요구 사항이 증가합니다.

    • 검색 가능을 선택하면 전체 텍스트를 검색할 수 있습니다. 자유 형식 쿼리 또는 쿼리 식에 사용되는 모든 필드에는 이 특성이 있어야 합니다. 검색 가능으로 표시한 각 필드에 대해 반전된 인덱스가 만들어집니다.

    • 검색 가능은 검색 결과에 필드를 반환합니다. 검색 결과에 콘텐츠를 제공하는 모든 필드에는 이 특성이 있어야 합니다. 이 필드를 설정해도 인덱스 크기에는 큰 영향을 미치지 않습니다.

    • 필터링 가능을 선택하면 필드를 필터 식에서 참조할 수 있습니다. $filter 식에 사용되는 모든 필드에는 이 특성이 있어야 합니다. 필터 식은 정확한 일치를 위한 것입니다. 텍스트 문자열은 그대로 유지되므로 축자 콘텐츠를 수용하려면 더 많은 저장 공간이 필요합니다.

    • 패싯 가능을 통해 필드를 패싯 탐색에 사용할 수 있습니다. 필터링 가능으로도 표시되는 필드만 패싯 가능으로 표시될 수 있습니다.

    • 정렬 가능을 선택하면 필드를 정렬에 사용할 수 있습니다. $Orderby 식에 사용되는 모든 필드는 이 특성이 있어야 합니다.

  5. 어휘 분석이 필요한가요? 검색 가능한 Edm.String 필드의 경우 언어 향상 인덱싱 및 쿼리를 원하는 경우 분석기를 설정할 수 있습니다.

    기본값은 표준 Lucene이지만, 불규칙한 명사 및 동사 양식 확인과 같은 고급 어휘 처리에 Microsoft의 분석기를 사용하려는 경우 Microsoft 영어를 선택할 수 있습니다. Azure portal 언어 분석기만 지정할 수 있습니다. 키워드 또는 패턴과 같은 사용자 지정 분석기 또는 비 언어 분석기를 사용하려면 프로그래밍 방식으로 만들어야 합니다. 자세한 내용은 언어 분석기 추가를 참조하세요.

  6. 자동 완성 또는 제안된 결과 형식의 자동 완성 기능이 필요한가요? 제안기 확인란을 선택하여 typeahead 쿼리 제안을 사용하도록 설정하고 선택한 필드에서 자동 완성합니다. 제안기는 인덱스의 토큰화된 용어 수를 증가시켜 더 많은 저장 공간을 사용합니다.

마법사의 인덱서 구성

마법사의 마지막 페이지는 인덱서 구성에 대한 사용자 입력을 수집합니다. 일정을 지정하고 데이터 원본 형식에 따라 다른 옵션을 설정할 수 있습니다.

내부적으로 마법사는 생성될 때까지 인덱서에 표시되지 않는 다음 정의를 설정합니다.

마법사 사용해보기

마법사의 이점과 제한 사항을 이해하는 가장 좋은 방법은 마법사를 단계별로 따라 해보는 것입니다. 다음 빠른 시작 가이드는 마법사를 기반으로 합니다.