Aptitud cognitiva División de texto

La aptitud División de texto divide el texto en fragmentos de texto. Puede especificar si desea dividir el texto en oraciones o en páginas de una longitud determinada. Esta aptitud es especialmente útil si hay requisitos de longitud de texto máxima en otras aptitudes de bajada.

Nota

Esta capacidad no está enlazada a Cognitive Services. No es facturable y no tiene ningún requisito de clave de Cognitive Services.

@odata.type

Microsoft.Skills.Text.SplitSkill

Parámetros de la aptitud

Los parámetros distinguen mayúsculas de minúsculas.

Nombre de parámetro Descripción
textSplitMode pages o sentences
maximumPageLength Solo se aplica si textSplitMode está establecido en pages. Esto hace referencia a la longitud máxima de página en caracteres medida mediante String.Length. El valor mínimo es 300, el máximo es 100 000 y el valor predeterminado es 10 000. El algoritmo hará todo lo posible para dividir el texto en los límites de oraciones, por lo que el tamaño de cada fragmento puede ser ligeramente menor que maximumPageLength.
defaultLanguageCode (Opcional) Uno de los siguientes códigos de idioma: am, bs, cs, da, de, en, es, et, fr, he, hi, hr, hu, fi, id, is, it, ja, ko, lv, no, nl, pl, pt-PT, pt-BR, ru, sk, sl, sr, sv, tr, ur, zh-Hans. El valor predeterminado es inglés (en). Aspectos que se deben tener en cuenta:
  • Proporcionar un código de idioma es útil para evitar cortar una palabra por la mitad para idiomas sin espacios como el chino, japonés y coreano.
  • Si no conoce el idioma (es decir, debe dividir el texto de la entrada en LanguageDetectionSkill), el valor predeterminado de inglés (en) debe ser suficiente.

Entradas de la aptitud

Nombre de parámetro Descripción
text Texto que se dividirá en subcadenas.
languageCode (Opcional) Código de idioma para el documento. Si no conoce el idioma (es decir, debe dividir el texto de la entrada en LanguageDetectionSkill), es seguro quitar esta entrada. Si el idioma no está en la lista admitida para el parámetro defaultLanguageCode anterior, se emitirá una advertencia y el texto no se dividirá.

Salidas de la aptitud

Nombre de parámetro Descripción
textItems Una matriz de subcadenas que se han extraído.

Definición de ejemplo

{
    "@odata.type": "#Microsoft.Skills.Text.SplitSkill",
    "textSplitMode" : "pages", 
    "maximumPageLength": 1000,
    "defaultLanguageCode": "en",
    "inputs": [
        {
            "name": "text",
            "source": "/document/content"
        },
        {
            "name": "languageCode",
            "source": "/document/language"
        }
    ],
    "outputs": [
        {
            "name": "textItems",
            "targetName": "mypages"
        }
    ]
}

Entrada de ejemplo

{
    "values": [
        {
            "recordId": "1",
            "data": {
                "text": "This is the loan application for Joe Romero, a Microsoft employee who was born in Chile and who then moved to Australia...",
                "languageCode": "en"
            }
        },
        {
            "recordId": "2",
            "data": {
                "text": "This is the second document, which will be broken into several pages...",
                "languageCode": "en"
            }
        }
    ]
}

Salida de ejemplo

{
    "values": [
        {
            "recordId": "1",
            "data": {
                "textItems": [
                    "This is the loan…",
                    "On the second page we…"
                ]
            }
        },
        {
            "recordId": "2",
            "data": {
                "textItems": [
                    "This is the second document...",
                    "On the second page of the second doc…"
                ]
            }
        }
    ]
}

Casos de error

Si no se admite un idioma, se genera una advertencia.

Consulte también