SplitSkill interface
將字串分割成文字區塊的技能。
- Extends
屬性
| azure |
只有在單位設定為 azureOpenAITokens 時才適用。 如果指定,splitSkill 會在執行令牌化時使用這些參數。 參數是有效的 'encoderModelName' 和選擇性的 'allowedSpecialTokens' 屬性。 |
| default |
值,指出要使用的語言程序代碼。 預設值為 |
| maximum |
只有在 textSplitMode 設定為 'pages' 時才適用。 如果指定,SplitSkill 會在處理第一個 『maximumPagesToTake』 頁面之後停止分割,以便在每個檔只需要幾個初始頁面時改善效能。 |
| max |
所需的頁面長度上限。 預設值為 10000。 |
| odatatype | 多型歧視性,指定這個物件可以是的不同類型 |
| page |
只有在 textSplitMode 設定為 'pages' 時才適用。 如果指定,n+1 區塊會從第 n 個區塊結尾的這個字元/標記數目開始。 |
| text |
值,表示要執行的分割模式。 |
| unit | 只有在 textSplitMode 設定為頁面時才適用。 有兩個可能的值。 值的選擇將決定長度 (maximumPageLength 和 pageOverlapLength) 測量。 默認值為 'characters',這表示長度會以字元來測量。 |
繼承的屬性
| context | 代表作業發生的層級,例如檔根目錄或文件內容(例如 /document 或 /document/content)。 預設值為 /document。 |
| description | 描述技能的描述,描述技能的輸入、輸出和使用方式。 |
| inputs | 技能的輸入可以是源數據集中的數據行,或上游技能的輸出。 |
| name | 技能的名稱,可唯一識別技能集內的技能。 未定義名稱的技能將會在技能數位中指定其以 1 起始索引的預設名稱,前面加上字元 『#』。 |
| outputs | 技能的輸出是搜尋索引中的字段,或是另一個技能可作為輸入的值。 |
屬性詳細資料
azureOpenAITokenizerParameters
只有在單位設定為 azureOpenAITokens 時才適用。 如果指定,splitSkill 會在執行令牌化時使用這些參數。 參數是有效的 'encoderModelName' 和選擇性的 'allowedSpecialTokens' 屬性。
azureOpenAITokenizerParameters?: AzureOpenAITokenizerParameters
屬性值
defaultLanguageCode
值,指出要使用的語言程序代碼。 預設值為 en。
defaultLanguageCode?: "da" | "de" | "en" | "es" | "fi" | "fr" | "it" | "ko" | "pt" | "cs" | "nl" | "hu" | "ja" | "pl" | "ru" | "sv" | "tr" | "bs" | "et" | "he" | "hi" | "hr" | "id" | "lv" | "nb" | "sk" | "sl" | "zh" | "is" | "sr" | "ur" | "am" | "pt-br"
屬性值
"da" | "de" | "en" | "es" | "fi" | "fr" | "it" | "ko" | "pt" | "cs" | "nl" | "hu" | "ja" | "pl" | "ru" | "sv" | "tr" | "bs" | "et" | "he" | "hi" | "hr" | "id" | "lv" | "nb" | "sk" | "sl" | "zh" | "is" | "sr" | "ur" | "am" | "pt-br"
maximumPagesToTake
只有在 textSplitMode 設定為 'pages' 時才適用。 如果指定,SplitSkill 會在處理第一個 『maximumPagesToTake』 頁面之後停止分割,以便在每個檔只需要幾個初始頁面時改善效能。
maximumPagesToTake?: number
屬性值
number
maxPageLength
所需的頁面長度上限。 預設值為 10000。
maxPageLength?: number
屬性值
number
odatatype
多型歧視性,指定這個物件可以是的不同類型
odatatype: "#Microsoft.Skills.Text.SplitSkill"
屬性值
"#Microsoft.Skills.Text.SplitSkill"
pageOverlapLength
只有在 textSplitMode 設定為 'pages' 時才適用。 如果指定,n+1 區塊會從第 n 個區塊結尾的這個字元/標記數目開始。
pageOverlapLength?: number
屬性值
number
textSplitMode
值,表示要執行的分割模式。
textSplitMode?: "pages" | "sentences"
屬性值
"pages" | "sentences"
unit
只有在 textSplitMode 設定為頁面時才適用。 有兩個可能的值。 值的選擇將決定長度 (maximumPageLength 和 pageOverlapLength) 測量。 默認值為 'characters',這表示長度會以字元來測量。
unit?: string
屬性值
string
繼承的屬性詳細資料
context
代表作業發生的層級,例如檔根目錄或文件內容(例如 /document 或 /document/content)。 預設值為 /document。
context?: string
屬性值
string
description
inputs
技能的輸入可以是源數據集中的數據行,或上游技能的輸出。
inputs: InputFieldMappingEntry[]
屬性值
name
技能的名稱,可唯一識別技能集內的技能。 未定義名稱的技能將會在技能數位中指定其以 1 起始索引的預設名稱,前面加上字元 『#』。
name?: string
屬性值
string
outputs
技能的輸出是搜尋索引中的字段,或是另一個技能可作為輸入的值。
outputs: OutputFieldMappingEntry[]