텍스트 분할 인식 기술
분할 텍스트 기술은 텍스트를 텍스트의 청크로 나눕니다. 텍스트를 문장으로 나눌지 또는 특정 길이의 페이지로 나눌지 지정할 수 있습니다. 이 기술은 다른 기술 다운스트림에 최대 텍스트 길이 요구 사항이 있는 경우에 특히 유용합니다.
참고 항목
이 기술은 Azure AI 서비스에 바인딩되지 않습니다. 청구할 수 없으며 Azure AI 서비스 키 요구 사항이 없습니다.
@odata.type
Microsoft.Skills.Text.SplitSkill
기술 매개 변수
매개 변수는 대/소문자를 구분합니다.
매개 변수 이름 | 설명 |
---|---|
textSplitMode |
pages 또는 sentences 중 하나입니다. 페이지의 최대 길이는 구성 가능하지만, 실제 길이가 더 작을 수 있도록 기술에서 문장 잘림을 방지하려고 합니다. 문장은 언어에 문장 끝 문장 부호가 있다고 가정하여 마침표, 물음표 또는 느낌표와 같은 문장 끝 문장 부호에서 종료되는 문자열입니다. |
maximumPageLength |
로 설정된 pages 경우에만 textSplitMode 적용됩니다. 이 매개 변수는 측정값으로 문자의 최대 페이지 길이를 String.Length 나타냅니다. 최소값은 300, 최대값은 50000, 기본값은 5000입니다. 알고리즘은 문장 경계에서 텍스트를 분리하는 데 가장 적합하므로 각 청크의 크기가 .보다 maximumPageLength 약간 작을 수 있습니다. |
pageOverlapLength |
로 설정된 pages 경우에만 textSplitMode 적용됩니다. 각 페이지는 이전 페이지의 끝에서 이 문자 수로 시작합니다. 이 매개 변수를 0으로 설정하면 연속 페이지에 겹치는 텍스트가 없습니다. 이 매개 변수는 2024-07-01 및 최신 미리 보기 REST API 및 통합 벡터화를 지원하도록 업데이트된 Azure SDK 패키지에서 지원됩니다. 이 예제 에는 매개 변수가 포함됩니다. |
maximumPagesToTake |
로 설정된 pages 경우에만 textSplitMode 적용됩니다. 반환할 페이지 수입니다. 기본값은 0입니다. 즉, 모든 페이지를 반환합니다. 페이지의 하위 집합만 필요한 경우 이 값을 설정해야 합니다. 이 매개 변수는 2024-07-01 및 최신 미리 보기 REST API 및 통합 벡터화를 지원하도록 업데이트된 Azure SDK 패키지에서 지원됩니다. 이 예제 에는 매개 변수가 포함됩니다. |
defaultLanguageCode |
(선택 사항) 다음 언어 코드 중 하나입니다. am, bs, cs, da, de, en, es, et, fr, he, hi, hr, hu, fi, id, is, it, ja, ko, lv, no, nl, pl, pt-PT, pt-BR, ru, sk, sl, sr, sv, tr, ur, zh-Hans 기본값은 영어(en)입니다. 고려해야 할 몇 가지 사항은 다음과 같습니다.
|
기술 입력
매개 변수 이름 | 설명 |
---|---|
text |
부분 문자열로 분할할 텍스트입니다. |
languageCode |
(선택 사항) 문서에 대한 언어 코드입니다. 텍스트 입력의 언어를 모르는 경우(예: LanguageDetectionSkill을 사용하여 언어를 검색하는 경우) 이 매개 변수를 생략할 수 있습니다. 언어로 설정한 languageCode 경우 지원되는 목록에 defaultLanguageCode 없는 경우 경고가 내보내지고 텍스트가 분할되지 않습니다. |
기술 출력
매개 변수 이름 | 설명 |
---|---|
textItems |
출력은 추출된 부분 문자열의 배열입니다. textItems 는 출력의 기본 이름입니다. targetName 는 선택 사항이지만 텍스트 분할 기술이 여러 개 있는 경우 첫 번째 기술의 데이터를 두 번째 기술로 덮어쓰지 않도록 설정 targetName 해야 합니다. 설정된 경우 targetName 출력 필드 매핑 또는 기술 출력을 사용하는 다운스트림 기술에 사용합니다. |
샘플 정의
{
"@odata.type": "#Microsoft.Skills.Text.SplitSkill",
"textSplitMode" : "pages",
"maximumPageLength": 1000,
"defaultLanguageCode": "en",
"inputs": [
{
"name": "text",
"source": "/document/content"
},
{
"name": "languageCode",
"source": "/document/language"
}
],
"outputs": [
{
"name": "textItems",
"targetName": "mypages"
}
]
}
샘플 입력
{
"values": [
{
"recordId": "1",
"data": {
"text": "This is the loan application for Joe Romero, a Microsoft employee who was born in Chile and who then moved to Australia...",
"languageCode": "en"
}
},
{
"recordId": "2",
"data": {
"text": "This is the second document, which will be broken into several pages...",
"languageCode": "en"
}
}
]
}
샘플 출력
{
"values": [
{
"recordId": "1",
"data": {
"textItems": [
"This is the loan...",
"In the next section, we continue..."
]
}
},
{
"recordId": "2",
"data": {
"textItems": [
"This is the second document...",
"In the next section of the second doc..."
]
}
}
]
}
청크 및 벡터화 예제
이 예제는 통합 벡터화를 위한 것입니다.
pageOverlapLength
: 겹치는 텍스트는 동일한 문서에서 생성된 청크 간의 연속성을 유지하므로 데이터 청크 시나리오에서 유용합니다.maximumPagesToTake
: 페이지 유입 제한은 벡터화를 제공하는 포함 모델의 최대 입력 한도를 유지하는 데 도움이 되므로 벡터화 시나리오에서 유용합니다.
샘플 정의
이 정의는 100자 및 maximumPagesToTake
1자를 추가합니다pageOverlapLength
.
maximumPageLength
5,000자(기본값)라고 가정하면 "maximumPagesToTake": 1
각 원본 문서의 처음 5,000자를 처리합니다.
이 예제에서는 다음을 통해 myPages
targetName
설정합니다textItems
. targetName
설정 myPages
되므로 텍스트 분할 기술에서 출력을 선택하는 데 사용해야 하는 값입니다. 다운스트림 기술, 인덱서 출력 필드 매핑, 지식 저장소 프로젝션 및 인덱스 프로젝션에 사용합니다/document/mypages/*
.
{
"@odata.type": "#Microsoft.Skills.Text.SplitSkill",
"textSplitMode" : "pages",
"maximumPageLength": 1000,
"pageOverlapLength": 100,
"maximumPagesToTake": 1,
"defaultLanguageCode": "en",
"inputs": [
{
"name": "text",
"source": "/document/content"
},
{
"name": "languageCode",
"source": "/document/language"
}
],
"outputs": [
{
"name": "textItems",
"targetName": "mypages"
}
]
}
샘플 입력(이전 예제와 동일)
{
"values": [
{
"recordId": "1",
"data": {
"text": "This is the loan application for Joe Romero, a Microsoft employee who was born in Chile and who then moved to Australia...",
"languageCode": "en"
}
},
{
"recordId": "2",
"data": {
"text": "This is the second document, which will be broken into several sections...",
"languageCode": "en"
}
}
]
}
샘플 출력(겹침 확인)
각 "textItems" 배열 내에서 첫 번째 항목의 후행 텍스트가 두 번째 항목의 시작 부분에 복사됩니다.
{
"values": [
{
"recordId": "1",
"data": {
"textItems": [
"This is the loan...Here is the overlap part",
"Here is the overlap part...In the next section, we continue..."
]
}
},
{
"recordId": "2",
"data": {
"textItems": [
"This is the second document...Here is the overlap part...",
"Here is the overlap part...In the next section of the second doc..."
]
}
}
]
}
오류 사례
언어가 지원되지 않으면 경고가 생성됩니다.