검색 구성 요소 이해

완료됨

AI Search 솔루션은 여러 구성 요소로 구성되며, 각 구성 요소는 데이터를 추출, 보강, 인덱싱 및 검색하는 과정에서 중요한 역할을 합니다.

데이터 원본

A diagram showing a conceptual illustration of a data source.

대부분 검색 솔루션의 시작은 검색할 데이터를 포함하는 데이터 원본입니다. Azure AI Search는 다음을 비롯한 여러 유형의 데이터 원본을 지원합니다.

  • Azure Blob 스토리지 컨테이너의 비구조적 파일
  • Azure SQL Database의 테이블
  • Cosmos DB의 문서

Azure AI Search는 인덱싱을 위해 이러한 데이터 원본에서 데이터를 끌어올 수 있습니다.

또는 애플리케이션에서 JSON 데이터를 기존 데이터 원본에서 끌어오지 않고 인덱스에 직접 푸시할 수 있습니다.

기술 집합

A diagram a conceptual illustration of a skillset.

기본 검색 솔루션에서는 데이터 원본에서 추출된 데이터를 인덱싱할 수 있습니다. 추출할 수 있는 정보는 데이터 원본에 따라 달라집니다. 예를 들어 데이터베이스에서 데이터를 인덱싱할 때 데이터베이스 테이블의 필드를 추출할 수 있습니다. 아니면 문서 집합을 인덱싱할 때 파일 이름, 수정된 날짜, 크기 및 작성자와 같은 파일 메타데이터를 문서의 텍스트 내용과 함께 추출할 수 있습니다.

데이터 원본에서 직접 추출된 데이터 값을 인덱싱하는 기본 검색 솔루션도 유용할 수 있지만, 최신 애플리케이션 사용자의 기대로 인해 데이터에 대한 더 풍부한 인사이트가 필요해졌습니다. Azure AI Search에서 인덱싱 프로세스의 일부로 AI(인공 지능) 기술을 적용하여 인덱스 필드에 매핑할 수 있는 새 정보로 원본 데이터를 보강할 수 있습니다. 인덱서에서 사용하는 기술은 ‘기술 세트’에 캡슐화되며, 이 기술 세트는 특정 AI 기술로 획득한 인사이트를 통해 단계마다 원본 데이터를 강화하는 보강 파이프라인을 정의합니다. AI 기술로 추출할 수 있는 정보 종류의 예는 다음과 같습니다.

  • 문서 작성에 사용되는 언어
  • 문서에서 설명하는 주요 테마 또는 항목을 확인하는 데 도움이 될 수 있는 주요 문구
  • 문서를 양수 또는 음수로 수량화하는 감정 점수
  • 콘텐츠에 언급된 특정 위치, 사람, 조직 또는 주요 사건
  • AI에서 생성된 이미지의 설명 또는 광학 인식에서 추출한 이미지 텍스트
  • 특정 요구 사항을 충족하기 위해 개발하는 사용자 지정 기술

인덱서

A diagram showing a conceputal illustration of an indexer.

‘인덱서’는 전체 인덱싱 프로세스를 구동하는 엔진입니다. 인덱서는 기술 세트의 기술을 사용하여 추출된 출력을 원래 데이터 원본에서 추출된 데이터 및 메타데이터 값과 함께 가져와 인덱스의 필드에 매핑합니다.

인덱서는 만들어지면 자동으로 실행되며 인덱스에 문서를 추가하기 위해 정기적으로 실행되거나 요청 시 실행되도록 예약할 수 있습니다. 인덱스에 새 필드를 추가하거나 기술 세트에 새 기술을 추가하는 등과 같은 일부 경우에 인덱서를 다시 실행하기 전에 인덱스를 다시 설정해야 할 수 있습니다.

인덱스

A diagram showing a conceputal illustration of an index.

인덱스는 검색 가능한 인덱싱 프로세스의 결과입니다. 인덱스는 인덱싱 중 추출된 값을 포함하는 필드가 있는 JSON 문서 컬렉션으로 구성됩니다. 클라이언트 애플리케이션은 인덱스를 쿼리하여 정보를 검색, 필터링, 정렬할 수 있습니다.

각 인덱스 필드는 다음 특성으로 구성될 수 있습니다.

  • key: 인덱스 레코드에 대한 고유 키를 정의하는 필드.
  • searchable: 전체 텍스트 검색을 사용하여 쿼리할 수 있는 필드.
  • filterable: 지정된 제약 조건과 일치하는 문서만 반환하도록 필터 식에 포함할 수 있는 필드.
  • sortable: 결과를 정렬하는 데 사용할 수 있는 필드.
  • facetable: ‘패싯’(알려진 필드 값 목록을 기반으로 결과를 필터링하는 데 사용되는 사용자 인터페이스 요소)의 값을 결정하는 데 사용할 수 있는 필드.
  • retrievable: 검색 결과에 포함될 수 있는 필드(‘기본적으로 모든 필드는 이 특성을 명시적으로 제거하지 않는 한 검색 가능함’)