SplitSkill interface
Навык разделения строки на фрагменты текста.
- Extends
Свойства
| azure |
Применяется только в том случае, если для единицы задано значение azureOpenAITokens. При указании splitSkill будет использовать эти параметры при выполнении маркеризации. Параметры являются допустимым свойством encoderModelName и необязательным свойством "allowedSpecialTokens". |
| default |
Значение, указывающее, какой языковой код следует использовать. По умолчанию — |
| maximum |
Применимо только в том случае, если для textSplitMode задано значение pages. Если задано, SplitSkill прекратит разделение после обработки первых страниц "maximumPagesToTake", чтобы повысить производительность, если требуется только несколько начальных страниц из каждого документа. |
| max |
Требуемая максимальная длина страницы. Значение по умолчанию — 10000. |
| odatatype | Полиморфная дискриминация, указывающая различные типы этого объекта, может быть |
| page |
Применимо только в том случае, если для textSplitMode задано значение pages. Если задано, n+1-й блок начнется с этого числа символов или токенов из конца nth chunk. |
| text |
Значение, указывающее, какой режим разделения для выполнения. |
| unit | Применяется только в том случае, если для textSplitMode задано значение pages. Существует два возможных значения. Выбор значений определяет длину измерения (maximumPageLength и pageOverlapLength). Значение по умолчанию — "символы", что означает, что длина будет измеряться символами. |
Унаследованные свойства
| context | Представляет уровень, на котором выполняются операции, такие как корневой каталог документа или содержимое документа (например, /document или /document/content). Значение по умолчанию — /document. |
| description | Описание навыка, описывающего входные данные, выходные данные и использование навыка. |
| inputs | Входные данные навыков могут быть столбцом в исходном наборе данных или выходными данными вышестоящего навыка. |
| name | Имя навыка, который однозначно идентифицирует его в наборе навыков. Навык без определенного имени будет указан по умолчанию для его 1-го индекса в массиве навыков, префиксированного символом "#". |
| outputs | Выходные данные навыка — это поле в индексе поиска или значение, которое можно использовать в качестве входных данных другим навыком. |
Сведения о свойстве
azureOpenAITokenizerParameters
Применяется только в том случае, если для единицы задано значение azureOpenAITokens. При указании splitSkill будет использовать эти параметры при выполнении маркеризации. Параметры являются допустимым свойством encoderModelName и необязательным свойством "allowedSpecialTokens".
azureOpenAITokenizerParameters?: AzureOpenAITokenizerParameters
Значение свойства
defaultLanguageCode
Значение, указывающее, какой языковой код следует использовать. По умолчанию — en.
defaultLanguageCode?: "da" | "de" | "en" | "es" | "fi" | "fr" | "it" | "ko" | "pt" | "cs" | "nl" | "hu" | "ja" | "pl" | "ru" | "sv" | "tr" | "bs" | "et" | "he" | "hi" | "hr" | "id" | "lv" | "nb" | "sk" | "sl" | "zh" | "is" | "sr" | "ur" | "am" | "pt-br"
Значение свойства
"da" | "de" | "en" | "es" | "fi" | "fr" | "it" | "ko" | "pt" | "cs" | "nl" | "hu" | "ja" | "pl" | "ru" | "sv" | "tr" | "bs" | "et" | "he" | "hi" | "hr" | "id" | "lv" | "nb" | "sk" | "sl" | "zh" | "is" | "sr" | "ur" | "am" | "pt-br"
maximumPagesToTake
Применимо только в том случае, если для textSplitMode задано значение pages. Если задано, SplitSkill прекратит разделение после обработки первых страниц "maximumPagesToTake", чтобы повысить производительность, если требуется только несколько начальных страниц из каждого документа.
maximumPagesToTake?: number
Значение свойства
number
maxPageLength
Требуемая максимальная длина страницы. Значение по умолчанию — 10000.
maxPageLength?: number
Значение свойства
number
odatatype
Полиморфная дискриминация, указывающая различные типы этого объекта, может быть
odatatype: "#Microsoft.Skills.Text.SplitSkill"
Значение свойства
"#Microsoft.Skills.Text.SplitSkill"
pageOverlapLength
Применимо только в том случае, если для textSplitMode задано значение pages. Если задано, n+1-й блок начнется с этого числа символов или токенов из конца nth chunk.
pageOverlapLength?: number
Значение свойства
number
textSplitMode
Значение, указывающее, какой режим разделения для выполнения.
textSplitMode?: "pages" | "sentences"
Значение свойства
"pages" | "sentences"
unit
Применяется только в том случае, если для textSplitMode задано значение pages. Существует два возможных значения. Выбор значений определяет длину измерения (maximumPageLength и pageOverlapLength). Значение по умолчанию — "символы", что означает, что длина будет измеряться символами.
unit?: string
Значение свойства
string
Сведения об унаследованном свойстве
context
Представляет уровень, на котором выполняются операции, такие как корневой каталог документа или содержимое документа (например, /document или /document/content). Значение по умолчанию — /document.
context?: string
Значение свойства
string
Унаследовано отBaseSearchIndexerSkill.context
description
Описание навыка, описывающего входные данные, выходные данные и использование навыка.
description?: string
Значение свойства
string
наследуется отBaseSearchIndexerSkill.description
inputs
Входные данные навыков могут быть столбцом в исходном наборе данных или выходными данными вышестоящего навыка.
inputs: InputFieldMappingEntry[]
Значение свойства
наследуется отBaseSearchIndexerSkill.inputs
name
Имя навыка, который однозначно идентифицирует его в наборе навыков. Навык без определенного имени будет указан по умолчанию для его 1-го индекса в массиве навыков, префиксированного символом "#".
name?: string
Значение свойства
string
наследуется отBaseSearchIndexerSkill.name
outputs
Выходные данные навыка — это поле в индексе поиска или значение, которое можно использовать в качестве входных данных другим навыком.
outputs: OutputFieldMappingEntry[]
Значение свойства
унаследовано отBaseSearchIndexerSkill.outputs