다음을 통해 공유


Azure AI 검색의 가져오기 마법사

Azure AI 검색에는 인덱싱 및 개체 정의를 자동화하는 두 개의 가져오기 마법사가 있어 즉시 쿼리를 시작할 수 있습니다. Azure AI 검색을 처음 사용하는 경우 이러한 마법사는 사용할 수 있는 가장 강력한 기능 중 하나입니다. 최소한의 활동으로 Azure AI 검색의 기능 대부분을 실행하는 인덱싱 또는 보강 파이프라인을 만들 수 있습니다.

데이터 가져오기 마법사는 벡터가 아닌 워크플로를 지원합니다. 원시 문서에서 영숫자 텍스트를 추출할 수 있습니다. 또한, 이미지 파일과 구조화되지 않은 데이터에서 구조를 유추하고 텍스트로 검색 가능한 콘텐츠를 생성하는 적용 AI와 기본 제공 기술을 구성할 수 있습니다.

데이터 가져오기 및 벡터화 마법사는 벡터화를 지원합니다. 기존 포함 모델 배포를 지정해야 하지만 마법사가 연결을 만들고, 요청을 수식화하고, 응답을 처리합니다. 텍스트나 이미지 콘텐츠로부터 벡터 콘텐츠를 생성합니다.

개념 증명 테스트를 위해 마법사를 사용하는 경우 이 문서에서는 마법사를 보다 효과적으로 사용할 수 있도록 마법사의 내부 작업에 대해 설명합니다.

이 문서는 단계별 문서가 아닙니다. 기본 제공된 샘플 데이터를 사용하여 마법사를 사용하는 데 대한 도움말은 다음을 참조하세요.

마법사 시작

Azure Portal의 대시보드에서 검색 서비스 페이지를 열거나 서비스 목록에서 서비스를 찾습니다.

상단의 서비스 개요 페이지에서 데이터 가져오기 또는 데이터 가져오기 및 벡터화를 선택합니다.

작업 표시줄에 있는 가져오기 마법사 옵션의 스크린샷.

마법사가 브라우저 창에서 완전히 확장되어 열리므로 작업할 공간이 더 넓어집니다.

Azure Cosmos DB, Azure SQL Database, SQL Managed Instance 및 Azure Blob Storage를 비롯한 다른 Azure 서비스에서도 데이터 가져오기를 시작할 수 있습니다. 서비스 개요 페이지의 왼쪽 탐색 창에서 Azure AI 검색 추가를 찾아보세요.

마법사에서 만든 개체

마법사는 다음 표에 개체를 출력합니다. 개체를 만든 후 포털에서 JSON 정의를 검토하거나 코드에서 호출할 수 있습니다.

Object 설명
인덱서 오류 처리 및 64기반 인코딩을 위한 데이터 원본, 대상 인덱스, 선택적 기술 세트, 선택적 일정 및 선택적 구성 설정을 지정하는 구성 개체입니다.
데이터 원본 Azure에서 지원되는 데이터 원본에 대한 연결 정보를 유지합니다. 데이터 원본 개체는 인덱서에 독점적으로 사용됩니다.
Index 전체 텍스트 검색 및 기타 쿼리에 사용되는 실제 데이터 구조입니다.
기술 세트 선택 사항. 이미지 파일에서 정보를 분석하고 추출하는 것을 포함하여 콘텐츠를 조작, 변형 및 셰이핑하기 위한 전체 지침 집합입니다. 기술 세트는 통합 벡터화에도 사용됩니다. 작업량이 인덱서당 일일 20개 트랜잭션 제한에 속하지 않는 한 기술 세트에는 보강을 제공하는 Azure AI 다중 서비스 리소스에 대한 참조가 포함되어야 합니다. 통합 벡터화의 경우 Azure AI 비전이나 Azure AI 스튜디오 모델 카탈로그의 포함 모델을 사용할 수 있습니다.
지식 저장소 선택 사항. 검색이 아닌 시나리오에서 독립적인 분석이나 다운스트림 처리를 위해 Azure Storage에 테이블과 Blob의 출력을 저장합니다.

이점

코드를 작성하기 전에 마법사를 사용하여 프로토타입 생성 및 개념 증명 테스트를 수행할 수 있습니다. 마법사는 외부 데이터 원본에 연결하고, 데이터를 샘플링하여 초기 인덱스를 만든 다음, 해당 데이터를 JSON 문서로 가져와서 필요한 경우 벡터화하여 Azure AI 검색의 인덱스에 추가합니다.

기술 세트를 평가하는 경우 마법사는 출력 필드 매핑을 처리하고 사용 가능한 개체를 만들기 위한 도우미 함수를 추가합니다. 구문 분석 모드를 지정하면 텍스트 분할이 추가됩니다. 마법사가 이미지 콘텐츠와 텍스트 설명을 다시 연결할 수 있도록 이미지 분석을 선택한 경우 텍스트 병합이 추가됩니다. 지식 저장소 옵션을 선택한 경우 유효한 프로젝션을 지원하기 위해 쉐이퍼 기술이 추가되었습니다. 위의 모든 작업에는 학습 곡선이 함께 제공됩니다. 보강을 처음 사용하는 경우 이러한 단계를 처리할 수 있으므로 많은 시간과 노력을 투자하지 않고도 기술의 가치를 측정할 수 있습니다.

샘플링은 인덱스 스키마를 유추하는 프로세스이며 몇 가지 제한 사항이 있습니다. 데이터 원본이 만들어지면 마법사는 임의의 문서 샘플을 선택하여 데이터 원본의 일부인 열을 결정합니다. 초대형 데이터 원본의 경우 몇 시간이 걸릴 수 있으므로 모든 파일을 읽는 것은 아닙니다. 문서를 선택하면 필드 이름이나 형식과 같은 원본 메타데이터를 사용하여 인덱스 스키마에 필드 컬렉션을 만듭니다. 원본 데이터의 복잡성에 따라 정확도를 위해 초기 스키마를 편집하거나 완결성을 위해 확장해야 할 수 있습니다. 인덱스 정의 페이지에서 변경 내용을 인라인으로 만들 수 있습니다.

전반적으로 마법사를 사용하면 다음과 같은 이점이 있습니다: 요구 사항이 충족되면 몇 분 내에 쿼리 가능한 인덱스를 만들 수 있습니다. JSON 문서로 데이터를 직렬화하는 것과 같은 인덱싱의 일부 복잡성은 마법사에서 처리됩니다.

제한 사항

마법사에는 제한이 없습니다. 제약 조건은 다음과 같이 요약되어 있습니다.

  • 마법사는 반복 또는 재사용을 지원하지 않습니다. 마법사의 각 단계에서 새 인덱스, 기술 세트 및 인덱서 구성을 만듭니다. 데이터 원본만 유지되며 마법사에서 재사용할 수 있습니다. 다른 개체를 편집하거나 구체화하려면 개체를 삭제하고 다시 시작하거나 REST API 또는 .NET SDK를 사용하여 구조를 수정합니다.

  • 원본 콘텐츠는 지원되는 데이터 원본에 있어야 합니다.

  • 샘플링은 원본 데이터의 하위 집합에 대한 것입니다. 대형 데이터 원본의 경우 마법사에서 필드를 누락할 수 있습니다. 샘플링이 충분하지 않은 경우 스키마를 확장하거나 유추된 데이터 형식을 수정해야 할 수 있습니다.

  • 포털에 공개된 AI 보강은 기본 제공 기술의 하위 집합으로 제한됩니다.

  • 마법사에서 만들 수 있는 지식 저장소는 몇 가지 기본 프로젝션으로 제한되며 기본 명명 규칙을 사용합니다. 이름 또는 프로젝션을 사용자 지정하려면 REST API 또는 SDK를 통해 지식 저장소를 만들어야 합니다.

보안 연결

가져오기 마법사는 포털 컨트롤러와 공용 엔드포인트를 사용하여 아웃바운드 연결을 만듭니다. Azure 리소스에 프라이빗 연결이나 공유 프라이빗 링크를 통해 액세스하는 경우 마법사를 사용할 수 없습니다.

제한된 공용 연결에서는 마법사를 사용할 수 있지만, 모든 기능을 사용할 수 있는 것은 아닙니다.

  • 검색 서비스에서 기본 제공된 샘플 데이터를 가져오려면 공용 엔드포인트와 방화벽 규칙이 필요하지 않습니다.

    샘플 데이터는 Microsoft에서 특정 Azure 리소스에 호스트됩니다. 포털 컨트롤러는 공용 엔드포인트를 통해 해당 리소스에 연결합니다. 검색 서비스를 방화벽 뒤에 배치한 경우 내장 샘플 데이터를 검색하려고 하면 다음 오류가 발생합니다. Import configuration failed, error creating Data Source. 그 뒤에 "An error has occured."가 나옵니다.

  • 방화벽으로 보호되는 지원되는 Azure 데이터 원본에서 올바른 방화벽 규칙이 구현되어 있으면 데이터를 검색할 수 있습니다.

    Azure 리소스는 연결에 사용된 디바이스의 IP 주소에서 네트워크 요청을 허용해야 합니다. 리소스의 네트워크 구성에서 Azure AI 검색을 신뢰할 수 있는 서비스로 나열해야 합니다. 예를 들어, Azure Storage에서는 Microsoft.Search/searchServices를 신뢰할 수 있는 서비스로 나열할 수 있습니다.

  • 사용자가 제공하는 Azure AI 다중 서비스 계정에 연결하거나 Azure AI 스튜디오 또는 Azure OpenAI에 배포된 포함 모델에 연결하는 경우 공용 인터넷 액세스를 사용하도록 설정해야 합니다. 이러한 Azure 리소스는 데이터 가져오기 마법사의 기본 제공 기술이나 데이터 가져오기 및 벡터화 마법사의 통합 벡터화를 사용할 때 호출됩니다.

    • 데이터 가져오기 및 벡터화 마법사에서 오류는 "Access denied due to Virtual Network/Firewall rules."입니다.

    • 데이터 가져오기 마법사에서는 오류가 발생하지 않지만, 기술 세트가 만들어지지 않습니다.

방화벽 설정으로 인해 마법사 워크플로가 성공하지 못하는 경우, 대신 스크립트 방식이나 프로그래밍 방식을 고려합니다.

워크플로

마법사는 다음 네 가지 주요 단계로 구성됩니다.

  1. 지원되는 Azure 데이터 원본에 연결합니다.

  2. 원본 데이터 샘플링을 통해 유추된 인덱스 스키마를 만듭니다.

  3. 선택적으로, 적용된 AI를 추가하여 콘텐츠와 구조를 추출하거나 생성합니다. 지식 저장소를 만들기 위한 입력은 이 단계에서 수집됩니다.

  4. 마법사를 실행하여 개체를 만들고, 선택적으로 데이터를 벡터화하고, 인덱스에 데이터를 로드하고, 일정을 설정하고 기타 구성 옵션을 설정합니다.

워크플로는 파이프라인이므로 한 가지 방법입니다. 마법사를 사용하여 만든 개체를 편집할 수는 없지만 인덱스 또는 인덱서 디자이너 또는 JSON 편집기와 같은 다른 포털 도구를 사용하여 허용된 업데이트를 수행할 수 있습니다.

마법사의 데이터 원본 구성

데이터 가져오기 마법사는 Azure AI 검색 인덱서에서 제공하는 내부 논리를 사용하여 외부 지원되는 데이터 원본에 연결합니다. 해당 논리는 원본을 샘플링하고, 메타데이터를 읽고, 문서를 크랙하여 콘텐츠 및 구조를 읽으며, 콘텐츠를 Azure AI 검색으로 후속 가져오기 위한 JSON으로 직렬화합니다.

다른 구독 또는 지역의 지원되는 데이터 원본에 대한 연결을 붙여넣을 수 있지만 기존 연결 선택 선택기는 활성 구독으로 범위가 지정됩니다.

데이터에 연결 탭의 스크린샷.

마법사에서 모든 미리 보기 데이터 원본을 사용할 수 있는 것은 아닙니다. 각 데이터 원본은 다른 변경 내용을 다운스트림으로 도입할 가능성이 있으므로 미리 보기 데이터 원본은 기술 세트 정의 및 인덱스 스키마 유추와 같은 마법사의 모든 환경을 완전히 지원하는 경우에만 데이터 원본 목록에 추가됩니다.

단일 테이블, 데이터베이스 보기 또는 해당 데이터 구조에서만 가져올 수 있지만 구조에는 계층 구조 또는 중첩된 하위 구조가 포함될 수 있습니다. 자세한 내용은 복합 형식 모델링 방법을 참조하세요.

마법사의 기술 세트 구성

데이터 원본 유형이 특정 기본 제공 기술의 가용성을 알려주기 때문에 기술 세트 구성은 데이터 원본 정의 후에 발생합니다. 특히 Blob Storage에서 파일을 인덱싱하는 경우 해당 파일의 구문 분석 모드 선택에 따라 감정 분석을 사용할 수 있는지 여부가 결정됩니다.

마법사는 선택한 기술을 추가합니다. 또한 성공적인 결과를 얻는 데 필요한 다른 기술도 추가됩니다. 예를 들어 지식 저장소를 지정하는 경우 마법사는 프로젝션(또는 물리적 데이터 구조)을 지원하는 셰이퍼 기술을 추가합니다.

기술 세트는 선택 사항이며 AI 보강을 원하지 않는 경우 페이지 아래쪽에 건너뛸 단추가 있습니다.

마법사의 인덱스 스키마 구성

마법사는 데이터 원본을 샘플링하여 필드와 필드 형식을 검색합니다. 데이터 원본에 따라 메타데이터 인덱싱을 위한 필드를 제공할 수도 있습니다.

샘플링은 부정확한 연습이므로 인덱스를 검토하여 다음 사항을 고려합니다.

  1. 필드 목록이 정확한가요? 데이터 원본에 샘플링에서 선택되지 않은 필드가 포함된 경우 샘플링에서 누락된 새 필드를 수동으로 추가하고 검색 환경에 값을 추가하지 않거나 필터 식 또는 점수 매기기 프로필에 사용되지 않는 필드를 제거할 수 있습니다.

  2. 데이터 형식이 들어오는 데이터에 적합한가요? Azure AI 검색은 EDM(엔터티 데이터 모델) 데이터 형식을 지원합니다. Azure SQL 데이터의 경우 동등한 값을 레이아웃하는 매핑 차트가 있습니다. 자세한 배경은 필드 매핑 및 변환을 참조하세요.

  3. 로 사용할 수 있는 필드가 하나 있나요? 이 필드는 Edm.string이어야 하며 문서를 고유하게 식별해야 합니다. 관계형 데이터의 경우 기본 키에 매핑 될 수 있습니다. Blob의 경우 metadata-storage-path일 수 있습니다. 필드 값에 공백 또는 대시를 포함하는 경우 고급 옵션인덱서 만들기 단계에서 Base-64 인코딩 키 옵션을 설정하여 이러한 문자에 대한 유효성 검사를 비활성화해야 합니다.

  4. 특성을 설정하여 인덱스에서 해당 필드가 사용되는 방법을 결정합니다.

    특성이 인덱스에 있는 필드의 실제 식을 결정하므로 이 단계를 신중하게 진행하세요. 나중에 프로그래밍 방식으로라도 특성을 변경하려면 대부분의 경우 인덱스를 끊고 다시 빌드해야 합니다. 검색 가능(Searchable)검색 가능(Retrievable)과 같은 핵심 특성은 스토리지에 미치는 영향을 무시할 수 있습니다. 필터를 사용하도록 설정하거나 제안기를 사용하면 스토리지 요구 사항이 증가합니다.

    • 검색 가능을 선택하면 전체 텍스트를 검색할 수 있습니다. 자유 형식 쿼리 또는 쿼리 식에 사용되는 모든 필드에는 이 특성이 있어야 합니다. 검색 가능으로 표시한 각 필드에 대해 반전된 인덱스가 만들어집니다.

    • 검색 가능은 검색 결과에 필드를 반환합니다. 검색 결과에 콘텐츠를 제공하는 모든 필드에는 이 특성이 있어야 합니다. 이 필드를 설정해도 인덱스 크기에는 큰 영향을 미치지 않습니다.

    • 필터링 가능을 선택하면 필드를 필터 식에서 참조할 수 있습니다. $filter 식에 사용되는 모든 필드에는 이 특성이 있어야 합니다. 필터 식은 정확한 일치를 위한 것입니다. 텍스트 문자열은 그대로 유지되므로 축자 콘텐츠를 포함하기 위한 추가 스토리지가 필요합니다.

    • 패싯 가능을 통해 필드를 패싯 탐색에 사용할 수 있습니다. 필터링 가능으로도 표시되는 필드만 패싯 가능으로 표시될 수 있습니다.

    • 정렬 가능을 선택하면 필드를 정렬에 사용할 수 있습니다. $Orderby 식에 사용되는 모든 필드는 이 특성이 있어야 합니다.

  5. 어휘 분석이 필요한가요? 검색 가능한 Edm.string 필드의 경우 언어 향상 인덱싱 및 쿼리를 원하는 경우 분석기를 설정할 수 있습니다.

    기본값은 표준 Lucene이지만 불규칙한 명사 및 동사 형태를 확인하는 것과 같은 고급 어휘 처리에 Microsoft의 분석기를 사용하려는 경우 Microsoft 영어를 선택할 수도 있습니다. 언어 분석기만 포털에서 지정할 수 있습니다. 사용자 지정 분석기나 키워드, 패턴 등의 비언어 분석기를 사용하는 경우 이를 프로그래밍 방식으로 만들어야 합니다. 분석기에 대한 자세한 내용은 언어 분석기 추가를 참조하세요.

  6. 자동 완성 또는 제안된 결과 형식의 자동 완성 기능이 필요한가요? 선택한 필드에 자동 완성 쿼리 제안 및 자동 완성을 사용하도록 설정하려면 제안기의 확인란을 선택합니다. 제안기는 인덱스의 토큰화 된 용어 수에 추가되므로 더 많은 스토리지를 소비합니다.

마법사의 인덱서 구성

마법사의 마지막 페이지는 인덱서 구성에 대한 사용자 입력을 수집합니다. 일정을 지정하고 데이터 원본 형식에 따라 달라지는 다른 옵션을 설정할 수 있습니다.

내부적으로 마법사는 인덱서가 만들어질 때까지 인덱서에 표시되지 않는 다음 정의도 설정합니다.

다음 단계

마법사의 이점과 제한 사항을 이해하는 가장 좋은 방법은 단계별로 진행하는 것입니다. 각 단계를 설명하는 간단한 시작 내용은 다음과 같습니다.