Bagikan melalui


SplitSkill interface

Keterampilan untuk membagi string menjadi potongan teks.

Memperluas

Properti

azureOpenAITokenizerParameters

Hanya berlaku jika unit diatur ke azureOpenAITokens. Jika ditentukan, splitSkill akan menggunakan parameter ini saat melakukan tokenisasi. Parameter adalah 'encoderModelName' yang valid dan properti 'allowedSpecialTokens' opsional.

defaultLanguageCode

Nilai yang menunjukkan kode bahasa mana yang akan digunakan. Defaultnya adalah en.

maximumPagesToTake

Hanya berlaku ketika textSplitMode diatur ke 'pages'. Jika ditentukan, SplitSkill akan menghentikan pemisahan setelah memproses halaman 'maximumPagesToTake' pertama, untuk meningkatkan performa ketika hanya beberapa halaman awal yang diperlukan dari setiap dokumen.

maxPageLength

Panjang halaman maksimum yang diinginkan. Defaultnya adalah 10000.

odatatype

Diskriminator polimorfik, yang menentukan berbagai jenis objek ini dapat

pageOverlapLength

Hanya berlaku ketika textSplitMode diatur ke 'pages'. Jika ditentukan, potongan n+1 akan dimulai dengan jumlah karakter/token ini dari akhir gugus ke-n.

textSplitMode

Nilai yang menunjukkan mode pemisahan mana yang akan dilakukan.

unit

Hanya berlaku jika textSplitMode diatur ke halaman. Ada dua kemungkinan nilai. Pilihan nilai akan memutuskan pengukuran panjang (maximumPageLength dan pageOverlapLength). Defaultnya adalah 'karakter', yang berarti panjangnya akan diukur berdasarkan karakter.

Properti yang Diwariskan

context

Mewakili tingkat di mana operasi berlangsung, seperti akar dokumen atau konten dokumen (misalnya, /document atau /document/content). Defaultnya adalah /document.

description

Deskripsi keterampilan yang menjelaskan input, output, dan penggunaan keterampilan.

inputs

Input keterampilan bisa menjadi kolom dalam himpunan data sumber, atau output keterampilan hulu.

name

Nama keterampilan yang secara unik mengidentifikasinya dalam set keterampilan. Keterampilan tanpa nama yang ditentukan akan diberi nama default indeks berbasis 1 dalam array keterampilan, diawali dengan karakter '#'.

outputs

Output keterampilan adalah bidang dalam indeks pencarian, atau nilai yang dapat dikonsumsi sebagai input oleh keterampilan lain.

Detail Properti

azureOpenAITokenizerParameters

Hanya berlaku jika unit diatur ke azureOpenAITokens. Jika ditentukan, splitSkill akan menggunakan parameter ini saat melakukan tokenisasi. Parameter adalah 'encoderModelName' yang valid dan properti 'allowedSpecialTokens' opsional.

azureOpenAITokenizerParameters?: AzureOpenAITokenizerParameters

Nilai Properti

defaultLanguageCode

Nilai yang menunjukkan kode bahasa mana yang akan digunakan. Defaultnya adalah en.

defaultLanguageCode?: "da" | "de" | "en" | "es" | "fi" | "fr" | "it" | "ko" | "pt" | "cs" | "nl" | "hu" | "ja" | "pl" | "ru" | "sv" | "tr" | "bs" | "et" | "he" | "hi" | "hr" | "id" | "lv" | "nb" | "sk" | "sl" | "zh" | "is" | "sr" | "ur" | "am" | "pt-br"

Nilai Properti

"da" | "de" | "en" | "es" | "fi" | "fr" | "it" | "ko" | "pt" | "cs" | "nl" | "hu" | "ja" | "pl" | "ru" | "sv" | "tr" | "bs" | "et" | "he" | "hi" | "hr" | "id" | "lv" | "nb" | "sk" | "sl" | "zh" | "is" | "sr" | "ur" | "am" | "pt-br"

maximumPagesToTake

Hanya berlaku ketika textSplitMode diatur ke 'pages'. Jika ditentukan, SplitSkill akan menghentikan pemisahan setelah memproses halaman 'maximumPagesToTake' pertama, untuk meningkatkan performa ketika hanya beberapa halaman awal yang diperlukan dari setiap dokumen.

maximumPagesToTake?: number

Nilai Properti

number

maxPageLength

Panjang halaman maksimum yang diinginkan. Defaultnya adalah 10000.

maxPageLength?: number

Nilai Properti

number

odatatype

Diskriminator polimorfik, yang menentukan berbagai jenis objek ini dapat

odatatype: "#Microsoft.Skills.Text.SplitSkill"

Nilai Properti

"#Microsoft.Skills.Text.SplitSkill"

pageOverlapLength

Hanya berlaku ketika textSplitMode diatur ke 'pages'. Jika ditentukan, potongan n+1 akan dimulai dengan jumlah karakter/token ini dari akhir gugus ke-n.

pageOverlapLength?: number

Nilai Properti

number

textSplitMode

Nilai yang menunjukkan mode pemisahan mana yang akan dilakukan.

textSplitMode?: "pages" | "sentences"

Nilai Properti

"pages" | "sentences"

unit

Hanya berlaku jika textSplitMode diatur ke halaman. Ada dua kemungkinan nilai. Pilihan nilai akan memutuskan pengukuran panjang (maximumPageLength dan pageOverlapLength). Defaultnya adalah 'karakter', yang berarti panjangnya akan diukur berdasarkan karakter.

unit?: string

Nilai Properti

string

Detail Properti yang Diwariskan

context

Mewakili tingkat di mana operasi berlangsung, seperti akar dokumen atau konten dokumen (misalnya, /document atau /document/content). Defaultnya adalah /document.

context?: string

Nilai Properti

string

Diwarisi dariSearchIndexerSkill.context

description

Deskripsi keterampilan yang menjelaskan input, output, dan penggunaan keterampilan.

description?: string

Nilai Properti

string

Diwarisi dariSearchIndexerSkill.description

inputs

Input keterampilan bisa menjadi kolom dalam himpunan data sumber, atau output keterampilan hulu.

inputs: InputFieldMappingEntry[]

Nilai Properti

Diwarisi dariSearchIndexerSkill.inputs

name

Nama keterampilan yang secara unik mengidentifikasinya dalam set keterampilan. Keterampilan tanpa nama yang ditentukan akan diberi nama default indeks berbasis 1 dalam array keterampilan, diawali dengan karakter '#'.

name?: string

Nilai Properti

string

Diwarisi dari SearchIndexerSkill.name

outputs

Output keterampilan adalah bidang dalam indeks pencarian, atau nilai yang dapat dikonsumsi sebagai input oleh keterampilan lain.

outputs: OutputFieldMappingEntry[]

Nilai Properti

Diwarisi dariSearchIndexerSkill.outputs