다음을 통해 공유


Azure AI Search에서 AI 보강을 위한 팁

이 문서에는 인덱싱 중에 사용되는 AI 보강 및 기술 세트를 시작하는 데 도움이 되는 팁이 포함되어 있습니다.

팁 1: 간단한 시작 및 작게 시작

Azure Portal의 데이터 가져오기 마법사 데이터 가져오기 및 벡터화 마법사는 모두 AI 보강을 지원합니다. 코드를 작성하지 않고도 인덱스, 인덱서, 데이터 원본 및 기술 세트와 같은 보강 파이프라인에 사용되는 모든 개체를 만들고 검사할 수 있습니다.

간단히 시작하는 또 다른 방법은 인덱싱할 문서를 나타내는 소수의 문서 또는 행만 있는 데이터 원본을 만드는 것입니다. 작은 데이터 집합은 문제를 찾고 해결하는 속도를 높이는 가장 좋은 방법입니다. 엔드 투 엔드 파이프라인을 통해 샘플을 실행하고 결과가 요구 사항을 충족하는지 검사. 결과에 만족하면 데이터 원본에 더 많은 파일을 추가할 수 있습니다.

팁 2: 몇 가지 오류가 있더라도 작동하는 항목 확인

경우에 따라 작은 오류로 인해 트랙에서 인덱서가 중지되는 경우가 있습니다. 차례로 문제를 해결하려는 경우 괜찮습니다. 그러나 특정 유형의 오류를 무시하여 실제로 작동하는 흐름을 볼 수 있도록 인덱서가 계속 진행되도록 할 수 있습니다.

개발 중에 오류를 무시하려면 인덱서 정의의 일부로 설정 및 maxFailedItemsPerBatch -1로 설정합니다maxFailedItems.

{
  // rest of your indexer definition
   "parameters":
   {
      "maxFailedItems":-1,
      "maxFailedItemsPerBatch":-1
   }
}

참고 항목

프로덕션 워크로드에 maxFailedItemsmaxFailedItemsPerBatch 대해 0으로 설정하는 것이 가장 좋습니다.

팁 3: 디버그 세션을 사용하여 문제 해결

디버그 세션은 기술 세트의 종속성 그래프, 입력 및 출력 및 정의를 보여 주는 시각적 편집기입니다. 현재 인덱서 및 기술 세트 구성을 사용하여 검색 인덱스에서 단일 문서를 로드하여 작동합니다. 그런 다음 단일 문서로 범위가 지정된 전체 기술 세트를 실행할 수 있습니다. 디버그 세션 내에서 오류를 식별 및 해결하고, 변경 내용의 유효성을 검사하고, 부모 기술 세트에 변경 내용을 커밋할 수 있습니다. 연습은 자습서: 디버그 세션을 참조 하세요.

팁 4: 예상 콘텐츠가 표시되지 않습니다.

콘텐츠가 누락된 경우 Azure Portal에서 삭제된 문서에 대한 검사. 검색 서비스 페이지에서 인덱서를 열고 Docs 성공 열을 확인합니다. 인덱서 실행 기록을 클릭하여 특정 오류를 검토합니다.

문제가 파일 크기와 관련된 경우 "Blob <file-name>"은 현재 서비스 계층에 대해 문서 추출을 위한 최대 크기를 초과하는 <file-size> 바이트 크기입니다."라는 오류가 표시될 수 있습니다. 인덱서 제한에 대한 자세한 내용은 서비스 제한을 참조하세요.

콘텐츠가 표시되지 않는 두 번째 이유는 관련 입력/출력 매핑 오류일 수 있습니다. 예를 들어 출력 대상 이름은 "사람"이지만 인덱스 필드 이름은 소문자 "people"입니다. 실제로 필드가 비어있을 때 인덱싱이 성공한 것으로 생각하도록 시스템이 전체 파이프라인에 대한 201 성공 메시지를 반환할 수 있습니다.

팁 5: 최대 실행 시간 이상으로 처리 확장

이미지 분석은 단순한 사례라도 계산 집약적이므로 이미지가 특히 크거나 복잡한 경우 처리 시간이 최대 허용 시간을 초과할 수 있습니다.

기술 세트가 있는 인덱서의 경우 대부분의 계층에 대해 기술 세트 실행이 2시간으로 제한됩니다. 해당 기간 내에 기술 세트 처리가 완료되지 않으면 인덱서가 중단된 곳에서 처리를 선택하도록 2시간 반복 일정에 인덱서가 배치할 수 있습니다.

마지막으로 알려진 양수 문서에서 예약된 인덱싱이 다시 시작됩니다. 되풀이 일정에 따라 인덱서는 처리되지 않은 모든 이미지가 처리될 때까지 일련의 시간 또는 며칠 동안 이미지 백로그를 통해 작동할 수 있습니다. 일정 구문에 대한 자세한 내용은 인덱서 예약을 참조 하세요.

참고 항목

인덱서가 특정 일정으로 설정되어 있지만 실행될 때마다 같은 문서를 반복적으로 실패하는 경우 인덱서는 성공적으로 다시 진행될 때까지 빈도가 낮은 간격(최대 24시간마다 한 번 이상)으로 실행을 시작합니다. = 인덱서가 특정 지점에서 중단되는 문제를 해결했다고 생각되면 인덱서의 주문형 실행을 수행할 수 있으며, 성공적으로 진행되면 인덱서가 설정된 일정 간격으로 다시 돌아갑니다.

팁 6: 인덱싱 처리량 늘리기

병렬 인덱싱의 경우 동일한 컨테이너 내의 여러 컨테이너 또는 여러 가상 폴더에 데이터를 배포합니다. 그런 다음 여러 데이터 원본 및 인덱서 쌍을 만듭니다. 모든 인덱서는 동일한 기술 세트를 사용하고 동일한 대상 검색 인덱스로 쓸 수 있으므로 검색 앱은 이 분할을 인식할 필요가 없습니다.

참고 항목