Bagikan melalui


IndexingParametersConfiguration interface

Kamus properti konfigurasi khusus pengindeks. Setiap nama adalah nama properti tertentu. Setiap nilai harus berjenis primitif.

Properti

allowSkillsetToReadFileData

Jika true, akan membuat jalur //document//file_data yang merupakan objek yang mewakili data file asli yang diunduh dari sumber data blob Anda. Ini memungkinkan Anda untuk meneruskan data file asli ke keterampilan kustom untuk diproses dalam alur pengayaan, atau ke keterampilan Ekstraksi Dokumen.

dataToExtract

Menentukan data yang akan diekstrak dari penyimpanan blob Azure dan memberi tahu pengindeks data mana yang akan diekstrak dari konten gambar saat "imageAction" diatur ke nilai selain "tidak ada". Ini berlaku untuk konten gambar yang disematkan dalam .PDF atau aplikasi lain, atau file gambar seperti .jpg dan .png, di blob Azure.

delimitedTextDelimiter

Untuk blob CSV, menentukan pembatas karakter tunggal akhir baris untuk file CSV di mana setiap baris memulai dokumen baru (misalnya, "|").

delimitedTextHeaders

Untuk blob CSV, menentukan daftar header kolom yang dibatasi koma, berguna untuk memetakan bidang sumber ke bidang tujuan dalam indeks.

documentRoot

Untuk array JSON, mengingat dokumen terstruktur atau semi terstruktur, Anda dapat menentukan jalur ke array menggunakan properti ini.

excludedFileNameExtensions

Daftar ekstensi nama file yang dibatasi koma untuk diabaikan saat memproses dari penyimpanan blob Azure. Misalnya, Anda dapat mengecualikan ".png, .mp4" untuk melewati file-file tersebut selama pengindeksan.

executionEnvironment

Menentukan lingkungan tempat pengindeks harus dijalankan.

failOnUnprocessableDocument

Untuk blob Azure, atur ke false jika Anda ingin melanjutkan pengindeksan jika dokumen gagal mengindeks.

failOnUnsupportedContentType

Untuk blob Azure, atur ke false jika Anda ingin melanjutkan pengindeksan saat tipe konten yang tidak didukung ditemui, dan Anda tidak tahu semua jenis konten (ekstensi file) terlebih dahulu.

firstLineContainsHeaders

Untuk blob CSV, menunjukkan bahwa baris pertama (tidak kosong) dari setiap blob berisi header.

imageAction

Menentukan cara memproses gambar dan file gambar yang disematkan di penyimpanan blob Azure. Mengatur konfigurasi "imageAction" ke nilai apa pun selain "tidak ada" mengharuskan set keterampilan juga dilampirkan ke pengindeks tersebut.

indexedFileNameExtensions

Daftar ekstensi nama file yang dibatasi koma untuk dipilih saat memproses dari penyimpanan blob Azure. Misalnya, Anda dapat memfokuskan pengindeksan pada file aplikasi tertentu ".docx, .pptx, .msg" untuk secara khusus menyertakan jenis file tersebut.

indexStorageMetadataOnlyForOversizedDocuments

Untuk blob Azure, atur properti ini ke true untuk masih mengindeks metadata penyimpanan untuk konten blob yang terlalu besar untuk diproses. Blob berukuran besar diperlakukan sebagai kesalahan secara default. Untuk batas ukuran blob, lihat https://learn.microsoft.com/azure/search/search-limits-quotas-capacity.

markdownHeaderDepth

Menentukan kedalaman header maks yang akan dipertimbangkan saat mengelompokkan konten markdown. Defaultnya adalah h6.

markdownParsingSubmode

Menentukan submode yang akan menentukan apakah file markdown akan diuraikan ke dalam satu dokumen pencarian atau beberapa dokumen pencarian. Defaultnya adalah oneToMany.

parsingMode

Mewakili mode penguraian untuk pengindeksan dari sumber data blob Azure.

pdfTextRotationAlgorithm

Menentukan algoritma untuk ekstraksi teks dari file PDF di penyimpanan blob Azure.

queryTimeout

Meningkatkan batas waktu di luar default 5 menit untuk sumber data database Azure SQL, yang ditentukan dalam format "hh:mm:ss".

Detail Properti

allowSkillsetToReadFileData

Jika true, akan membuat jalur //document//file_data yang merupakan objek yang mewakili data file asli yang diunduh dari sumber data blob Anda. Ini memungkinkan Anda untuk meneruskan data file asli ke keterampilan kustom untuk diproses dalam alur pengayaan, atau ke keterampilan Ekstraksi Dokumen.

allowSkillsetToReadFileData?: boolean

Nilai Properti

boolean

dataToExtract

Menentukan data yang akan diekstrak dari penyimpanan blob Azure dan memberi tahu pengindeks data mana yang akan diekstrak dari konten gambar saat "imageAction" diatur ke nilai selain "tidak ada". Ini berlaku untuk konten gambar yang disematkan dalam .PDF atau aplikasi lain, atau file gambar seperti .jpg dan .png, di blob Azure.

dataToExtract?: "storageMetadata" | "allMetadata" | "contentAndMetadata"

Nilai Properti

"storageMetadata" | "allMetadata" | "contentAndMetadata"

delimitedTextDelimiter

Untuk blob CSV, menentukan pembatas karakter tunggal akhir baris untuk file CSV di mana setiap baris memulai dokumen baru (misalnya, "|").

delimitedTextDelimiter?: string

Nilai Properti

string

delimitedTextHeaders

Untuk blob CSV, menentukan daftar header kolom yang dibatasi koma, berguna untuk memetakan bidang sumber ke bidang tujuan dalam indeks.

delimitedTextHeaders?: string

Nilai Properti

string

documentRoot

Untuk array JSON, mengingat dokumen terstruktur atau semi terstruktur, Anda dapat menentukan jalur ke array menggunakan properti ini.

documentRoot?: string

Nilai Properti

string

excludedFileNameExtensions

Daftar ekstensi nama file yang dibatasi koma untuk diabaikan saat memproses dari penyimpanan blob Azure. Misalnya, Anda dapat mengecualikan ".png, .mp4" untuk melewati file-file tersebut selama pengindeksan.

excludedFileNameExtensions?: string

Nilai Properti

string

executionEnvironment

Menentukan lingkungan tempat pengindeks harus dijalankan.

executionEnvironment?: "standard" | "private"

Nilai Properti

"standard" | "private"

failOnUnprocessableDocument

Untuk blob Azure, atur ke false jika Anda ingin melanjutkan pengindeksan jika dokumen gagal mengindeks.

failOnUnprocessableDocument?: boolean

Nilai Properti

boolean

failOnUnsupportedContentType

Untuk blob Azure, atur ke false jika Anda ingin melanjutkan pengindeksan saat tipe konten yang tidak didukung ditemui, dan Anda tidak tahu semua jenis konten (ekstensi file) terlebih dahulu.

failOnUnsupportedContentType?: boolean

Nilai Properti

boolean

firstLineContainsHeaders

Untuk blob CSV, menunjukkan bahwa baris pertama (tidak kosong) dari setiap blob berisi header.

firstLineContainsHeaders?: boolean

Nilai Properti

boolean

imageAction

Menentukan cara memproses gambar dan file gambar yang disematkan di penyimpanan blob Azure. Mengatur konfigurasi "imageAction" ke nilai apa pun selain "tidak ada" mengharuskan set keterampilan juga dilampirkan ke pengindeks tersebut.

imageAction?: "none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"

Nilai Properti

"none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"

indexedFileNameExtensions

Daftar ekstensi nama file yang dibatasi koma untuk dipilih saat memproses dari penyimpanan blob Azure. Misalnya, Anda dapat memfokuskan pengindeksan pada file aplikasi tertentu ".docx, .pptx, .msg" untuk secara khusus menyertakan jenis file tersebut.

indexedFileNameExtensions?: string

Nilai Properti

string

indexStorageMetadataOnlyForOversizedDocuments

Untuk blob Azure, atur properti ini ke true untuk masih mengindeks metadata penyimpanan untuk konten blob yang terlalu besar untuk diproses. Blob berukuran besar diperlakukan sebagai kesalahan secara default. Untuk batas ukuran blob, lihat https://learn.microsoft.com/azure/search/search-limits-quotas-capacity.

indexStorageMetadataOnlyForOversizedDocuments?: boolean

Nilai Properti

boolean

markdownHeaderDepth

Menentukan kedalaman header maks yang akan dipertimbangkan saat mengelompokkan konten markdown. Defaultnya adalah h6.

markdownHeaderDepth?: string

Nilai Properti

string

markdownParsingSubmode

Menentukan submode yang akan menentukan apakah file markdown akan diuraikan ke dalam satu dokumen pencarian atau beberapa dokumen pencarian. Defaultnya adalah oneToMany.

markdownParsingSubmode?: string

Nilai Properti

string

parsingMode

Mewakili mode penguraian untuk pengindeksan dari sumber data blob Azure.

parsingMode?: "text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines" | "markdown"

Nilai Properti

"text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines" | "markdown"

pdfTextRotationAlgorithm

Menentukan algoritma untuk ekstraksi teks dari file PDF di penyimpanan blob Azure.

pdfTextRotationAlgorithm?: "none" | "detectAngles"

Nilai Properti

"none" | "detectAngles"

queryTimeout

Meningkatkan batas waktu di luar default 5 menit untuk sumber data database Azure SQL, yang ditentukan dalam format "hh:mm:ss".

queryTimeout?: string

Nilai Properti

string