인덱싱 프로세스 이해

완료됨

인덱싱 프로세스는 인덱싱된 각 엔터티의 문서를 만드는 방식으로 작동합니다. 인덱싱 중 보강 파이프라인에서는 데이터 원본의 메타데이터를 인식 기술로 추출된 보강된 필드와 결합하는 문서를 반복적으로 빌드합니다. 각 인덱싱된 문서는 JSON 구조체로 생각할 수 있는데, 처음에는 다음과 같이 원본 데이터에서 바로 추출된 필드에 매핑한 인덱스 필드가 포함된 document로 이루어집니다.

  • document
    • metadata_storage_name
    • metadata_author
    • content

데이터 원본의 문서에 이미지가 포함될 경우 다음과 같이 normalized_images 컬렉션에서 이미지 데이터를 추출하고 각 이미지를 배치하도록 인덱서를 구성할 수 있습니다.

  • document
    • metadata_storage_name
    • metadata_author
    • content
    • normalized_images
      • image0
      • image1

해당 방식으로 이미지 데이터를 정규화하면 이미지 컬렉션을 이미지 데이터에서 정보를 추출하는 기술에 대한 입력으로 사용할 수 있습니다.

Each skill adds fields to the document, so for example a skill that detects the language in which a document is written might store its output in a language field, like this:

  • document
    • metadata_storage_name
    • metadata_author
    • content
    • normalized_images
      • image0
      • image1
    • 언어

문서는 계층적으로 구조화되고 기술은 계층 구조 내의 특정 ‘컨텍스트’에 적용되므로 문서의 특정 수준에 있는 각 항목에 대해 기술을 실행할 수 있습니다. 예를 들어 정규화된 이미지 컬렉션의 각 이미지에 대해 OCR(광학 문자 인식) 기술을 실행하여 포함된 모든 텍스트를 추출할 수 있습니다.

  • document
    • metadata_storage_name
    • metadata_author
    • content
    • normalized_images
      • image0
        • Text
      • image1
        • Text
    • 언어

각 기술의 출력 필드를 파이프라인에서 나중에 다른 기술의 입력으로 사용할 수 있습니다. 그러면 문서 구조체에 ‘해당’ 출력이 저장됩니다. 예를 들어 ‘병합’ 기술로 원래 텍스트 콘텐츠를 각 이미지에서 추출된 텍스트와 결합하여 이미지 텍스트를 비롯한 문서의 모든 텍스트를 포함하는 새 merged_content 필드를 만들 수 있습니다.

  • document
    • metadata_storage_name
    • metadata_author
    • content
    • normalized_images
      • image0
        • Text
      • image1
        • Text
    • 언어
    • merged_content

인덱서에서는 다음 두 가지 방법 중 하나로 파이프라인 끝에 있는 최종 문서 구조체의 필드를 인덱스 필드에 매핑합니다.

  1. 원본 데이터에서 직접 추출된 필드를 모두 인덱스 필드에 매핑합니다. 이러한 매핑은 ‘암시적’(필드가 인덱스에서 이름이 같은 필드에 자동으로 매핑)이거나 ‘명시적’(원본 필드를 인덱스 필드에 일치시키도록 매핑이 정의되며, 필드 이름을 보다 유용한 이름으로 바꾸거나 매핑될 때 데이터 값에 함수를 적용하는 경우가 많음)일 수 있습니다.
  2. 기술 세트에 있는 기술의 출력 필드는 출력의 계층적 위치에서 인덱스의 대상 필드로 명시적으로 매핑됩니다.