Dela via


SplitSkill interface

En färdighet att dela upp en sträng i textsegment.

Extends

Egenskaper

azureOpenAITokenizerParameters

Gäller endast om enheten är inställd på azureOpenAITokens. Om detta anges använder splitSkill dessa parametrar när tokeniseringen utförs. Parametrarna är en giltig "encoderModelName" och en valfri "allowedSpecialTokens"-egenskap.

defaultLanguageCode

Ett värde som anger vilken språkkod som ska användas. Standard är en.

maximumPagesToTake

Gäller endast när textSplitMode är inställt på "pages". Om det anges upphör SplitSkill att dela upp efter bearbetning av de första "maximumPagesToTake"-sidorna för att förbättra prestanda när endast några få första sidor behövs från varje dokument.

maxPageLength

Önskad maximal sidlängd. Standardvärdet är 10000.

odatatype

Polymorft diskriminerande, vilket anger de olika typer som det här objektet kan vara

pageOverlapLength

Gäller endast när textSplitMode är inställt på "pages". Om det anges börjar n+1:e segmentet med det här antalet tecken/token från slutet av det n:e segmentet.

textSplitMode

Ett värde som anger vilket delningsläge som ska utföras.

unit

Gäller endast om textSplitMode är inställt på sidor. Det finns två möjliga värden. Valet av värden avgör måttet längd (maximumPageLength och pageOverlapLength). Standardvärdet är "tecken", vilket innebär att längden mäts med tecken.

Ärvda egenskaper

context

Representerar den nivå där åtgärder utförs, till exempel dokumentroten eller dokumentinnehållet (till exempel /document eller /document/content). Standardvärdet är /document.

description

Beskrivningen av den färdighet som beskriver indata, utdata och användning av färdigheten.

inputs

Indata för färdigheterna kan vara en kolumn i källdatauppsättningen eller utdata från en överordnad färdighet.

name

Namnet på den färdighet som unikt identifierar den inom kompetensuppsättningen. En färdighet utan definierat namn får ett standardnamn för sitt 1-baserade index i kunskapsmatrisen, prefixet med tecknet '#'.

outputs

Utdata från en färdighet är antingen ett fält i ett sökindex eller ett värde som kan användas som indata av en annan färdighet.

Egenskapsinformation

azureOpenAITokenizerParameters

Gäller endast om enheten är inställd på azureOpenAITokens. Om detta anges använder splitSkill dessa parametrar när tokeniseringen utförs. Parametrarna är en giltig "encoderModelName" och en valfri "allowedSpecialTokens"-egenskap.

azureOpenAITokenizerParameters?: AzureOpenAITokenizerParameters

Egenskapsvärde

defaultLanguageCode

Ett värde som anger vilken språkkod som ska användas. Standard är en.

defaultLanguageCode?: "da" | "de" | "en" | "es" | "fi" | "fr" | "it" | "ko" | "pt" | "cs" | "nl" | "hu" | "ja" | "pl" | "ru" | "sv" | "tr" | "bs" | "et" | "he" | "hi" | "hr" | "id" | "lv" | "nb" | "sk" | "sl" | "zh" | "is" | "sr" | "ur" | "am" | "pt-br"

Egenskapsvärde

"da" | "de" | "en" | "es" | "fi" | "fr" | "it" | "ko" | "pt" | "cs" | "nl" | "hu" | "ja" | "pl" | "ru" | "sv" | "tr" | "bs" | "et" | "he" | "hi" | "hr" | "id" | "lv" | "nb" | "sk" | "sl" | "zh" | "is" | "sr" | "ur" | "am" | "pt-br"

maximumPagesToTake

Gäller endast när textSplitMode är inställt på "pages". Om det anges upphör SplitSkill att dela upp efter bearbetning av de första "maximumPagesToTake"-sidorna för att förbättra prestanda när endast några få första sidor behövs från varje dokument.

maximumPagesToTake?: number

Egenskapsvärde

number

maxPageLength

Önskad maximal sidlängd. Standardvärdet är 10000.

maxPageLength?: number

Egenskapsvärde

number

odatatype

Polymorft diskriminerande, vilket anger de olika typer som det här objektet kan vara

odatatype: "#Microsoft.Skills.Text.SplitSkill"

Egenskapsvärde

"#Microsoft.Skills.Text.SplitSkill"

pageOverlapLength

Gäller endast när textSplitMode är inställt på "pages". Om det anges börjar n+1:e segmentet med det här antalet tecken/token från slutet av det n:e segmentet.

pageOverlapLength?: number

Egenskapsvärde

number

textSplitMode

Ett värde som anger vilket delningsläge som ska utföras.

textSplitMode?: "pages" | "sentences"

Egenskapsvärde

"pages" | "sentences"

unit

Gäller endast om textSplitMode är inställt på sidor. Det finns två möjliga värden. Valet av värden avgör måttet längd (maximumPageLength och pageOverlapLength). Standardvärdet är "tecken", vilket innebär att längden mäts med tecken.

unit?: string

Egenskapsvärde

string

Information om ärvda egenskaper

context

Representerar den nivå där åtgärder utförs, till exempel dokumentroten eller dokumentinnehållet (till exempel /document eller /document/content). Standardvärdet är /document.

context?: string

Egenskapsvärde

string

Ärvd frånSearchIndexerSkill.context

description

Beskrivningen av den färdighet som beskriver indata, utdata och användning av färdigheten.

description?: string

Egenskapsvärde

string

Ärvd frånSearchIndexerSkill.description

inputs

Indata för färdigheterna kan vara en kolumn i källdatauppsättningen eller utdata från en överordnad färdighet.

inputs: InputFieldMappingEntry[]

Egenskapsvärde

Ärvd frånSearchIndexerSkill.inputs

name

Namnet på den färdighet som unikt identifierar den inom kompetensuppsättningen. En färdighet utan definierat namn får ett standardnamn för sitt 1-baserade index i kunskapsmatrisen, prefixet med tecknet '#'.

name?: string

Egenskapsvärde

string

Ärvd frånSearchIndexerSkill.name

outputs

Utdata från en färdighet är antingen ett fält i ett sökindex eller ett värde som kan användas som indata av en annan färdighet.

outputs: OutputFieldMappingEntry[]

Egenskapsvärde

Ärvd frånSearchIndexerSkill.outputs