IndexingParametersConfiguration interface
인덱서 관련 구성 속성의 사전입니다. 각 이름은 특정 속성의 이름입니다. 각 값은 기본 형식이어야 합니다.
속성
allow |
true이면 Blob 데이터 원본에서 다운로드한 원래 파일 데이터를 나타내는 개체인 //document//file_data 경로를 만듭니다. 이렇게 하면 보강 파이프라인 내에서 처리하기 위한 사용자 지정 기술 또는 문서 추출 기술에 원래 파일 데이터를 전달할 수 있습니다. |
data |
Azure Blob Storage에서 추출할 데이터를 지정하고 "imageAction"이 "none" 이외의 값으로 설정된 경우 이미지 콘텐츠에서 추출할 데이터를 인덱서에 알립니다. 이는 .PDF 또는 다른 애플리케이션의 포함된 이미지 콘텐츠 또는 Azure Blob의 .jpg 및 .png 같은 이미지 파일에 적용됩니다. |
delimited |
CSV Blob의 경우 각 줄이 새 문서를 시작하는 CSV 파일의 줄 끝 단일 문자 구분 기호를 지정합니다(예: "|"). |
delimited |
CSV Blob의 경우 는 원본 필드를 인덱스의 대상 필드에 매핑하는 데 유용한 쉼표로 구분된 열 머리글 목록을 지정합니다. |
document |
JSON 배열의 경우 구조화된 문서 또는 반구조화된 문서가 제공되면 이 속성을 사용하여 배열의 경로를 지정할 수 있습니다. |
excluded |
Azure Blob Storage에서 처리할 때 무시할 쉼표로 구분된 파일 이름 확장명 목록입니다. 예를 들어 ".png, .mp4"을 제외하여 인덱싱하는 동안 해당 파일을 건너뛸 수 있습니다. |
execution |
인덱서가 실행되어야 하는 환경을 지정합니다. |
fail |
Azure Blob의 경우 문서 인덱싱에 실패할 경우 인덱싱을 계속하려면 false로 설정합니다. |
fail |
Azure Blob의 경우 지원되지 않는 콘텐츠 형식이 발견될 때 인덱싱을 계속하려는 경우 false로 설정하고 모든 콘텐츠 형식(파일 확장명)을 미리 알 수 없습니다. |
first |
CSV Blob의 경우 는 각 Blob의 첫 번째(비어 있지 않은) 줄에 헤더가 포함되어 있음을 나타냅니다. |
image |
Azure Blob Storage에서 포함된 이미지 및 이미지 파일을 처리하는 방법을 결정합니다. "imageAction" 구성을 "none" 이외의 값으로 설정하려면 기술 세트도 해당 인덱서에 연결해야 합니다. |
indexed |
Azure Blob Storage에서 처리할 때 선택할 쉼표로 구분된 파일 이름 확장명 목록입니다. 예를 들어, 특정 애플리케이션 파일 ".docx, .pptx, .msg"의 인덱싱에 집중하여 이러한 파일 형식을 특별히 포함할 수 있습니다. |
index |
Azure Blob의 경우 처리하기에 너무 큰 Blob 콘텐츠에 대한 스토리지 메타데이터를 인덱싱하려면 이 속성을 true로 설정합니다. 너무 큰 Blob은 기본적으로 오류로 처리됩니다. Blob 크기에 대한 제한은 를 참조하세요 https://docs.microsoft.com/azure/search/search-limits-quotas-capacity. |
parsing |
Azure Blob 데이터 원본에서 인덱싱하기 위한 구문 분석 모드를 나타냅니다. |
pdf |
Azure Blob Storage의 PDF 파일에서 텍스트 추출 알고리즘을 결정합니다. |
query |
"hh:mm:ss" 형식으로 지정된 Azure SQL 데이터베이스 데이터 원본에 대한 5분 기본값을 초과하여 시간 제한을 늘립니다. |
속성 세부 정보
allowSkillsetToReadFileData
true이면 Blob 데이터 원본에서 다운로드한 원래 파일 데이터를 나타내는 개체인 //document//file_data 경로를 만듭니다. 이렇게 하면 보강 파이프라인 내에서 처리하기 위한 사용자 지정 기술 또는 문서 추출 기술에 원래 파일 데이터를 전달할 수 있습니다.
allowSkillsetToReadFileData?: boolean
속성 값
boolean
dataToExtract
Azure Blob Storage에서 추출할 데이터를 지정하고 "imageAction"이 "none" 이외의 값으로 설정된 경우 이미지 콘텐츠에서 추출할 데이터를 인덱서에 알립니다. 이는 .PDF 또는 다른 애플리케이션의 포함된 이미지 콘텐츠 또는 Azure Blob의 .jpg 및 .png 같은 이미지 파일에 적용됩니다.
dataToExtract?: "storageMetadata" | "allMetadata" | "contentAndMetadata"
속성 값
"storageMetadata" | "allMetadata" | "contentAndMetadata"
delimitedTextDelimiter
CSV Blob의 경우 각 줄이 새 문서를 시작하는 CSV 파일의 줄 끝 단일 문자 구분 기호를 지정합니다(예: "|").
delimitedTextDelimiter?: string
속성 값
string
delimitedTextHeaders
CSV Blob의 경우 는 원본 필드를 인덱스의 대상 필드에 매핑하는 데 유용한 쉼표로 구분된 열 머리글 목록을 지정합니다.
delimitedTextHeaders?: string
속성 값
string
documentRoot
JSON 배열의 경우 구조화된 문서 또는 반구조화된 문서가 제공되면 이 속성을 사용하여 배열의 경로를 지정할 수 있습니다.
documentRoot?: string
속성 값
string
excludedFileNameExtensions
Azure Blob Storage에서 처리할 때 무시할 쉼표로 구분된 파일 이름 확장명 목록입니다. 예를 들어 ".png, .mp4"을 제외하여 인덱싱하는 동안 해당 파일을 건너뛸 수 있습니다.
excludedFileNameExtensions?: string
속성 값
string
executionEnvironment
인덱서가 실행되어야 하는 환경을 지정합니다.
executionEnvironment?: "standard" | "private"
속성 값
"standard" | "private"
failOnUnprocessableDocument
Azure Blob의 경우 문서 인덱싱에 실패할 경우 인덱싱을 계속하려면 false로 설정합니다.
failOnUnprocessableDocument?: boolean
속성 값
boolean
failOnUnsupportedContentType
Azure Blob의 경우 지원되지 않는 콘텐츠 형식이 발견될 때 인덱싱을 계속하려는 경우 false로 설정하고 모든 콘텐츠 형식(파일 확장명)을 미리 알 수 없습니다.
failOnUnsupportedContentType?: boolean
속성 값
boolean
firstLineContainsHeaders
CSV Blob의 경우 는 각 Blob의 첫 번째(비어 있지 않은) 줄에 헤더가 포함되어 있음을 나타냅니다.
firstLineContainsHeaders?: boolean
속성 값
boolean
imageAction
Azure Blob Storage에서 포함된 이미지 및 이미지 파일을 처리하는 방법을 결정합니다. "imageAction" 구성을 "none" 이외의 값으로 설정하려면 기술 세트도 해당 인덱서에 연결해야 합니다.
imageAction?: "none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"
속성 값
"none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"
indexedFileNameExtensions
Azure Blob Storage에서 처리할 때 선택할 쉼표로 구분된 파일 이름 확장명 목록입니다. 예를 들어, 특정 애플리케이션 파일 ".docx, .pptx, .msg"의 인덱싱에 집중하여 이러한 파일 형식을 특별히 포함할 수 있습니다.
indexedFileNameExtensions?: string
속성 값
string
indexStorageMetadataOnlyForOversizedDocuments
Azure Blob의 경우 처리하기에 너무 큰 Blob 콘텐츠에 대한 스토리지 메타데이터를 인덱싱하려면 이 속성을 true로 설정합니다. 너무 큰 Blob은 기본적으로 오류로 처리됩니다. Blob 크기에 대한 제한은 를 참조하세요 https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.
indexStorageMetadataOnlyForOversizedDocuments?: boolean
속성 값
boolean
parsingMode
Azure Blob 데이터 원본에서 인덱싱하기 위한 구문 분석 모드를 나타냅니다.
parsingMode?: "text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"
속성 값
"text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"
pdfTextRotationAlgorithm
Azure Blob Storage의 PDF 파일에서 텍스트 추출 알고리즘을 결정합니다.
pdfTextRotationAlgorithm?: "none" | "detectAngles"
속성 값
"none" | "detectAngles"
queryTimeout
"hh:mm:ss" 형식으로 지정된 Azure SQL 데이터베이스 데이터 원본에 대한 5분 기본값을 초과하여 시간 제한을 늘립니다.
queryTimeout?: string
속성 값
string