Delen via


SplitSkill interface

Een vaardigheid om een tekenreeks te splitsen in stukken tekst.

Uitbreiding

Eigenschappen

azureOpenAITokenizerParameters

Alleen van toepassing als de eenheid is ingesteld op azureOpenAITokens. Indien opgegeven, gebruikt de splitSkill deze parameters bij het uitvoeren van de tokenisatie. De parameters zijn een geldige 'encoderModelName' en een optionele eigenschap allowedSpecialTokens.

defaultLanguageCode

Een waarde die aangeeft welke taalcode moet worden gebruikt. De standaardinstelling is en.

maximumPagesToTake

Alleen van toepassing wanneer textSplitMode is ingesteld op 'pages'. Indien opgegeven, wordt de SplitSkill niet meer gesplitst na het verwerken van de eerste 'maximumPagesToTake'-pagina's, om de prestaties te verbeteren wanneer er slechts enkele initiële pagina's nodig zijn voor elk document.

maxPageLength

De gewenste maximale paginalengte. De standaardwaarde is 10000.

odatatype

Polymorf discriminator, waarmee de verschillende typen dit object kunnen worden opgegeven

pageOverlapLength

Alleen van toepassing wanneer textSplitMode is ingesteld op 'pages'. Indien opgegeven, begint n+1e chunk met dit aantal tekens/tokens vanaf het einde van het nde segment.

textSplitMode

Een waarde die aangeeft welke splitsmodus moet worden uitgevoerd.

unit

Alleen van toepassing als textSplitMode is ingesteld op pagina's. Er zijn twee mogelijke waarden. De keuze van de waarden bepaalt de lengte (maximumPageLength en pageOverlapLength). De standaardwaarde is 'tekens', wat betekent dat de lengte wordt gemeten op teken.

Overgenomen eigenschappen

context

Vertegenwoordigt het niveau waarop bewerkingen plaatsvinden, zoals de hoofdmap van het document of de inhoud van het document (bijvoorbeeld /document of /document/inhoud). De standaardwaarde is /document.

description

De beschrijving van de vaardigheid die de invoer, uitvoer en het gebruik van de vaardigheid beschrijft.

inputs

Invoer van de vaardigheden kan een kolom zijn in de brongegevensset of de uitvoer van een upstream-vaardigheid.

name

De naam van de vaardigheid die deze uniek identificeert in de vaardighedenset. Een vaardigheid zonder gedefinieerde naam krijgt een standaardnaam van de op 1 gebaseerde index in de vaardighedenmatrix, voorafgegaan door het teken '#'.

outputs

De uitvoer van een vaardigheid is een veld in een zoekindex of een waarde die kan worden gebruikt als invoer door een andere vaardigheid.

Eigenschapdetails

azureOpenAITokenizerParameters

Alleen van toepassing als de eenheid is ingesteld op azureOpenAITokens. Indien opgegeven, gebruikt de splitSkill deze parameters bij het uitvoeren van de tokenisatie. De parameters zijn een geldige 'encoderModelName' en een optionele eigenschap allowedSpecialTokens.

azureOpenAITokenizerParameters?: AzureOpenAITokenizerParameters

Waarde van eigenschap

defaultLanguageCode

Een waarde die aangeeft welke taalcode moet worden gebruikt. De standaardinstelling is en.

defaultLanguageCode?: "da" | "de" | "en" | "es" | "fi" | "fr" | "it" | "ko" | "pt" | "cs" | "nl" | "hu" | "ja" | "pl" | "ru" | "sv" | "tr" | "bs" | "et" | "he" | "hi" | "hr" | "id" | "lv" | "nb" | "sk" | "sl" | "zh" | "is" | "sr" | "ur" | "am" | "pt-br"

Waarde van eigenschap

"da" | "de" | "en" | "es" | "fi" | "fr" | "it" | "ko" | "pt" | "cs" | "nl" | "hu" | "ja" | "pl" | "ru" | "sv" | "tr" | "bs" | "et" | "he" | "hi" | "hr" | "id" | "lv" | "nb" | "sk" | "sl" | "zh" | "is" | "sr" | "ur" | "am" | "pt-br"

maximumPagesToTake

Alleen van toepassing wanneer textSplitMode is ingesteld op 'pages'. Indien opgegeven, wordt de SplitSkill niet meer gesplitst na het verwerken van de eerste 'maximumPagesToTake'-pagina's, om de prestaties te verbeteren wanneer er slechts enkele initiële pagina's nodig zijn voor elk document.

maximumPagesToTake?: number

Waarde van eigenschap

number

maxPageLength

De gewenste maximale paginalengte. De standaardwaarde is 10000.

maxPageLength?: number

Waarde van eigenschap

number

odatatype

Polymorf discriminator, waarmee de verschillende typen dit object kunnen worden opgegeven

odatatype: "#Microsoft.Skills.Text.SplitSkill"

Waarde van eigenschap

"#Microsoft.Skills.Text.SplitSkill"

pageOverlapLength

Alleen van toepassing wanneer textSplitMode is ingesteld op 'pages'. Indien opgegeven, begint n+1e chunk met dit aantal tekens/tokens vanaf het einde van het nde segment.

pageOverlapLength?: number

Waarde van eigenschap

number

textSplitMode

Een waarde die aangeeft welke splitsmodus moet worden uitgevoerd.

textSplitMode?: "pages" | "sentences"

Waarde van eigenschap

"pages" | "sentences"

unit

Alleen van toepassing als textSplitMode is ingesteld op pagina's. Er zijn twee mogelijke waarden. De keuze van de waarden bepaalt de lengte (maximumPageLength en pageOverlapLength). De standaardwaarde is 'tekens', wat betekent dat de lengte wordt gemeten op teken.

unit?: string

Waarde van eigenschap

string

Details van overgenomen eigenschap

context

Vertegenwoordigt het niveau waarop bewerkingen plaatsvinden, zoals de hoofdmap van het document of de inhoud van het document (bijvoorbeeld /document of /document/inhoud). De standaardwaarde is /document.

context?: string

Waarde van eigenschap

string

Overgeërfd vanSearchIndexerSkill.context

description

De beschrijving van de vaardigheid die de invoer, uitvoer en het gebruik van de vaardigheid beschrijft.

description?: string

Waarde van eigenschap

string

Overgenomen vanSearchIndexerSkill.description

inputs

Invoer van de vaardigheden kan een kolom zijn in de brongegevensset of de uitvoer van een upstream-vaardigheid.

inputs: InputFieldMappingEntry[]

Waarde van eigenschap

Overgeërfd vanSearchIndexerSkill.inputs

name

De naam van de vaardigheid die deze uniek identificeert in de vaardighedenset. Een vaardigheid zonder gedefinieerde naam krijgt een standaardnaam van de op 1 gebaseerde index in de vaardighedenmatrix, voorafgegaan door het teken '#'.

name?: string

Waarde van eigenschap

string

Geërfd vanSearchIndexerSkill.name

outputs

De uitvoer van een vaardigheid is een veld in een zoekindex of een waarde die kan worden gebruikt als invoer door een andere vaardigheid.

outputs: OutputFieldMappingEntry[]

Waarde van eigenschap

Overgeërfd vanSearchIndexerSkill.outputs