SplitSkill interface
Een vaardigheid om een tekenreeks te splitsen in stukken tekst.
- Uitbreiding
Eigenschappen
| azure |
Alleen van toepassing als de eenheid is ingesteld op azureOpenAITokens. Indien opgegeven, gebruikt de splitSkill deze parameters bij het uitvoeren van de tokenisatie. De parameters zijn een geldige 'encoderModelName' en een optionele eigenschap allowedSpecialTokens. |
| default |
Een waarde die aangeeft welke taalcode moet worden gebruikt. De standaardinstelling is |
| maximum |
Alleen van toepassing wanneer textSplitMode is ingesteld op 'pages'. Indien opgegeven, wordt de SplitSkill niet meer gesplitst na het verwerken van de eerste 'maximumPagesToTake'-pagina's, om de prestaties te verbeteren wanneer er slechts enkele initiële pagina's nodig zijn voor elk document. |
| max |
De gewenste maximale paginalengte. De standaardwaarde is 10000. |
| odatatype | Polymorf discriminator, waarmee de verschillende typen dit object kunnen worden opgegeven |
| page |
Alleen van toepassing wanneer textSplitMode is ingesteld op 'pages'. Indien opgegeven, begint n+1e chunk met dit aantal tekens/tokens vanaf het einde van het nde segment. |
| text |
Een waarde die aangeeft welke splitsmodus moet worden uitgevoerd. |
| unit | Alleen van toepassing als textSplitMode is ingesteld op pagina's. Er zijn twee mogelijke waarden. De keuze van de waarden bepaalt de lengte (maximumPageLength en pageOverlapLength). De standaardwaarde is 'tekens', wat betekent dat de lengte wordt gemeten op teken. |
Overgenomen eigenschappen
| context | Vertegenwoordigt het niveau waarop bewerkingen plaatsvinden, zoals de hoofdmap van het document of de inhoud van het document (bijvoorbeeld /document of /document/inhoud). De standaardwaarde is /document. |
| description | De beschrijving van de vaardigheid die de invoer, uitvoer en het gebruik van de vaardigheid beschrijft. |
| inputs | Invoer van de vaardigheden kan een kolom zijn in de brongegevensset of de uitvoer van een upstream-vaardigheid. |
| name | De naam van de vaardigheid die deze uniek identificeert in de vaardighedenset. Een vaardigheid zonder gedefinieerde naam krijgt een standaardnaam van de op 1 gebaseerde index in de vaardighedenmatrix, voorafgegaan door het teken '#'. |
| outputs | De uitvoer van een vaardigheid is een veld in een zoekindex of een waarde die kan worden gebruikt als invoer door een andere vaardigheid. |
Eigenschapdetails
azureOpenAITokenizerParameters
Alleen van toepassing als de eenheid is ingesteld op azureOpenAITokens. Indien opgegeven, gebruikt de splitSkill deze parameters bij het uitvoeren van de tokenisatie. De parameters zijn een geldige 'encoderModelName' en een optionele eigenschap allowedSpecialTokens.
azureOpenAITokenizerParameters?: AzureOpenAITokenizerParameters
Waarde van eigenschap
defaultLanguageCode
Een waarde die aangeeft welke taalcode moet worden gebruikt. De standaardinstelling is en.
defaultLanguageCode?: "da" | "de" | "en" | "es" | "fi" | "fr" | "it" | "ko" | "pt" | "cs" | "nl" | "hu" | "ja" | "pl" | "ru" | "sv" | "tr" | "bs" | "et" | "he" | "hi" | "hr" | "id" | "lv" | "nb" | "sk" | "sl" | "zh" | "is" | "sr" | "ur" | "am" | "pt-br"
Waarde van eigenschap
"da" | "de" | "en" | "es" | "fi" | "fr" | "it" | "ko" | "pt" | "cs" | "nl" | "hu" | "ja" | "pl" | "ru" | "sv" | "tr" | "bs" | "et" | "he" | "hi" | "hr" | "id" | "lv" | "nb" | "sk" | "sl" | "zh" | "is" | "sr" | "ur" | "am" | "pt-br"
maximumPagesToTake
Alleen van toepassing wanneer textSplitMode is ingesteld op 'pages'. Indien opgegeven, wordt de SplitSkill niet meer gesplitst na het verwerken van de eerste 'maximumPagesToTake'-pagina's, om de prestaties te verbeteren wanneer er slechts enkele initiële pagina's nodig zijn voor elk document.
maximumPagesToTake?: number
Waarde van eigenschap
number
maxPageLength
De gewenste maximale paginalengte. De standaardwaarde is 10000.
maxPageLength?: number
Waarde van eigenschap
number
odatatype
Polymorf discriminator, waarmee de verschillende typen dit object kunnen worden opgegeven
odatatype: "#Microsoft.Skills.Text.SplitSkill"
Waarde van eigenschap
"#Microsoft.Skills.Text.SplitSkill"
pageOverlapLength
Alleen van toepassing wanneer textSplitMode is ingesteld op 'pages'. Indien opgegeven, begint n+1e chunk met dit aantal tekens/tokens vanaf het einde van het nde segment.
pageOverlapLength?: number
Waarde van eigenschap
number
textSplitMode
Een waarde die aangeeft welke splitsmodus moet worden uitgevoerd.
textSplitMode?: "pages" | "sentences"
Waarde van eigenschap
"pages" | "sentences"
unit
Alleen van toepassing als textSplitMode is ingesteld op pagina's. Er zijn twee mogelijke waarden. De keuze van de waarden bepaalt de lengte (maximumPageLength en pageOverlapLength). De standaardwaarde is 'tekens', wat betekent dat de lengte wordt gemeten op teken.
unit?: string
Waarde van eigenschap
string
Details van overgenomen eigenschap
context
Vertegenwoordigt het niveau waarop bewerkingen plaatsvinden, zoals de hoofdmap van het document of de inhoud van het document (bijvoorbeeld /document of /document/inhoud). De standaardwaarde is /document.
context?: string
Waarde van eigenschap
string
Overgeërfd vanSearchIndexerSkill.context
description
De beschrijving van de vaardigheid die de invoer, uitvoer en het gebruik van de vaardigheid beschrijft.
description?: string
Waarde van eigenschap
string
Overgenomen vanSearchIndexerSkill.description
inputs
Invoer van de vaardigheden kan een kolom zijn in de brongegevensset of de uitvoer van een upstream-vaardigheid.
inputs: InputFieldMappingEntry[]
Waarde van eigenschap
Overgeërfd vanSearchIndexerSkill.inputs
name
De naam van de vaardigheid die deze uniek identificeert in de vaardighedenset. Een vaardigheid zonder gedefinieerde naam krijgt een standaardnaam van de op 1 gebaseerde index in de vaardighedenmatrix, voorafgegaan door het teken '#'.
name?: string
Waarde van eigenschap
string
Geërfd vanSearchIndexerSkill.name
outputs
De uitvoer van een vaardigheid is een veld in een zoekindex of een waarde die kan worden gebruikt als invoer door een andere vaardigheid.
outputs: OutputFieldMappingEntry[]
Waarde van eigenschap
Overgeërfd vanSearchIndexerSkill.outputs