Поделиться через


SplitSkill interface

Навык разделения строки на фрагменты текста.

Extends

Свойства

azureOpenAITokenizerParameters

Применяется только в том случае, если для единицы задано значение azureOpenAITokens. При указании splitSkill будет использовать эти параметры при выполнении маркеризации. Параметры являются допустимым свойством encoderModelName и необязательным свойством "allowedSpecialTokens".

defaultLanguageCode

Значение, указывающее, какой языковой код следует использовать. По умолчанию — en.

maximumPagesToTake

Применимо только в том случае, если для textSplitMode задано значение pages. Если задано, SplitSkill прекратит разделение после обработки первых страниц "maximumPagesToTake", чтобы повысить производительность, если требуется только несколько начальных страниц из каждого документа.

maxPageLength

Требуемая максимальная длина страницы. Значение по умолчанию — 10000.

odatatype

Полиморфная дискриминация, указывающая различные типы этого объекта, может быть

pageOverlapLength

Применимо только в том случае, если для textSplitMode задано значение pages. Если задано, n+1-й блок начнется с этого числа символов или токенов из конца nth chunk.

textSplitMode

Значение, указывающее, какой режим разделения для выполнения.

unit

Применяется только в том случае, если для textSplitMode задано значение pages. Существует два возможных значения. Выбор значений определяет длину измерения (maximumPageLength и pageOverlapLength). Значение по умолчанию — "символы", что означает, что длина будет измеряться символами.

Унаследованные свойства

context

Представляет уровень, на котором выполняются операции, такие как корневой каталог документа или содержимое документа (например, /document или /document/content). Значение по умолчанию — /document.

description

Описание навыка, описывающего входные данные, выходные данные и использование навыка.

inputs

Входные данные навыков могут быть столбцом в исходном наборе данных или выходными данными вышестоящего навыка.

name

Имя навыка, который однозначно идентифицирует его в наборе навыков. Навык без определенного имени будет указан по умолчанию для его 1-го индекса в массиве навыков, префиксированного символом "#".

outputs

Выходные данные навыка — это поле в индексе поиска или значение, которое можно использовать в качестве входных данных другим навыком.

Сведения о свойстве

azureOpenAITokenizerParameters

Применяется только в том случае, если для единицы задано значение azureOpenAITokens. При указании splitSkill будет использовать эти параметры при выполнении маркеризации. Параметры являются допустимым свойством encoderModelName и необязательным свойством "allowedSpecialTokens".

azureOpenAITokenizerParameters?: AzureOpenAITokenizerParameters

Значение свойства

defaultLanguageCode

Значение, указывающее, какой языковой код следует использовать. По умолчанию — en.

defaultLanguageCode?: "da" | "de" | "en" | "es" | "fi" | "fr" | "it" | "ko" | "pt" | "cs" | "nl" | "hu" | "ja" | "pl" | "ru" | "sv" | "tr" | "bs" | "et" | "he" | "hi" | "hr" | "id" | "lv" | "nb" | "sk" | "sl" | "zh" | "is" | "sr" | "ur" | "am" | "pt-br"

Значение свойства

"da" | "de" | "en" | "es" | "fi" | "fr" | "it" | "ko" | "pt" | "cs" | "nl" | "hu" | "ja" | "pl" | "ru" | "sv" | "tr" | "bs" | "et" | "he" | "hi" | "hr" | "id" | "lv" | "nb" | "sk" | "sl" | "zh" | "is" | "sr" | "ur" | "am" | "pt-br"

maximumPagesToTake

Применимо только в том случае, если для textSplitMode задано значение pages. Если задано, SplitSkill прекратит разделение после обработки первых страниц "maximumPagesToTake", чтобы повысить производительность, если требуется только несколько начальных страниц из каждого документа.

maximumPagesToTake?: number

Значение свойства

number

maxPageLength

Требуемая максимальная длина страницы. Значение по умолчанию — 10000.

maxPageLength?: number

Значение свойства

number

odatatype

Полиморфная дискриминация, указывающая различные типы этого объекта, может быть

odatatype: "#Microsoft.Skills.Text.SplitSkill"

Значение свойства

"#Microsoft.Skills.Text.SplitSkill"

pageOverlapLength

Применимо только в том случае, если для textSplitMode задано значение pages. Если задано, n+1-й блок начнется с этого числа символов или токенов из конца nth chunk.

pageOverlapLength?: number

Значение свойства

number

textSplitMode

Значение, указывающее, какой режим разделения для выполнения.

textSplitMode?: "pages" | "sentences"

Значение свойства

"pages" | "sentences"

unit

Применяется только в том случае, если для textSplitMode задано значение pages. Существует два возможных значения. Выбор значений определяет длину измерения (maximumPageLength и pageOverlapLength). Значение по умолчанию — "символы", что означает, что длина будет измеряться символами.

unit?: string

Значение свойства

string

Сведения об унаследованном свойстве

context

Представляет уровень, на котором выполняются операции, такие как корневой каталог документа или содержимое документа (например, /document или /document/content). Значение по умолчанию — /document.

context?: string

Значение свойства

string

Унаследовано отBaseSearchIndexerSkill.context

description

Описание навыка, описывающего входные данные, выходные данные и использование навыка.

description?: string

Значение свойства

string

наследуется отBaseSearchIndexerSkill.description

inputs

Входные данные навыков могут быть столбцом в исходном наборе данных или выходными данными вышестоящего навыка.

inputs: InputFieldMappingEntry[]

Значение свойства

наследуется отBaseSearchIndexerSkill.inputs

name

Имя навыка, который однозначно идентифицирует его в наборе навыков. Навык без определенного имени будет указан по умолчанию для его 1-го индекса в массиве навыков, префиксированного символом "#".

name?: string

Значение свойства

string

наследуется отBaseSearchIndexerSkill.name

outputs

Выходные данные навыка — это поле в индексе поиска или значение, которое можно использовать в качестве входных данных другим навыком.

outputs: OutputFieldMappingEntry[]

Значение свойства

унаследовано отBaseSearchIndexerSkill.outputs