Compartir por


Formatos de datos que acepta el Reconocimiento del lenguaje conversacional.

Si va a cargar los datos en reconocimiento del lenguaje conversacional, deben seguir un formato específico. Use este artículo para obtener más información sobre los formatos de datos aceptados.

Importación del formato de archivo de proyecto

Si va a importar un proyecto en reconocimiento del lenguaje conversacional, el archivo cargado debe tener el formato siguiente:

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Clave Marcador de posición Valor Ejemplo
{API-VERSION} Versión de la API a la que se llama. 2023-04-01
confidenceThreshold {CONFIDENCE-THRESHOLD} Esta es la puntuación de umbral por debajo de la cual la intención se predice como intención None. Los valores van de 0 a 1. 0.7
projectName {PROJECT-NAME} Nombre del proyecto. Este valor distingue mayúsculas de minúsculas. EmailApp
multilingual true Valor booleano que permite tener expresiones en varios idiomas en el conjunto de datos. Cuando el modelo se implementa, se puede consultar en cualquier idioma admitido (no necesariamente incluido en los documentos de entrenamiento). Para obtener más información sobre los códigos de idioma admitidos, consulte Compatibilidad con idiomas. true
sublists [] Matriz que contiene sublistas. Cada sublista es una clave y sus valores asociados. []
compositionSetting {COMPOSITION-SETTING} Regla que define cómo administrar varios componentes en la entidad. Las opciones son combineComponents o separateComponents. combineComponents
synonyms [] Matriz que contiene todos los sinónimos. sinónimo
language {LANGUAGE-CODE} Cadena que especifica el código de idioma de las expresiones, sinónimos y expresiones regulares que se usan en el proyecto. Si el proyecto es un proyecto multilingüe, elija el código de idioma de la mayoría de las expresiones. en-us
intents [] Matriz que contiene todas las intenciones que tiene en el proyecto. Estas intenciones se clasifican de las expresiones. []
entities [] Matriz que contiene todas las entidades del proyecto. Estas entidades se extraen de las expresiones. Cada entidad puede tener otros componentes opcionales definidos: list, prebuilt o regex. []
dataset {DATASET} Conjunto de pruebas al que va esta expresión cuando se divida antes del entrenamiento. Para obtener más información sobre la división de datos, consulte Entrenar el modelo de reconocimiento del lenguaje conversacional. Los valores posibles que admite este campo son Train y Test. Train
category Tipo de entidad asociada al intervalo de texto especificado. Entity1
offset Posición del carácter inclusivo del inicio de la entidad. 5
length Longitud del carácter de la entidad. 5
listKey Valor normalizado para la lista de sinónimos a los que se va a asignar en la predicción. Microsoft
values {VALUES-FOR-LIST} Lista de cadenas separadas por comas que se buscan exactamente para la extracción y se asignan a la clave de la lista. "msft", "microsoft", "MS"
regexKey {REGEX-PATTERN} Valor normalizado de la expresión regular a la que se va a asignar en la predicción. ProductPattern1
regexPattern {REGEX-PATTERN} Expresión regular. ^pre
prebuilts {PREBUILT-COMPONENTS} Componentes creados previamente que pueden extraer tipos comunes. Para obtener la lista de compilaciones precompiladas que puede agregar, consulte Componentes de entidad precompilados admitidos. Quantity.Number
requiredComponents {REQUIRED-COMPONENTS} Valor que especifica un requisito de que un componente específico debe estar presente para devolver la entidad. Para obtener más información, consulte Componentes de entidad. Los valores posibles son: learned, regex, list o prebuilts. "learned", "prebuilt"

Formato de archivo de la expresión

El reconocimiento del lenguaje conversacional le ofrece la opción de cargar las expresiones directamente en el proyecto, en lugar de escribirlas una a una. Puede encontrar esta opción en la página de etiquetado de datos del proyecto.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Clave Marcador de posición Valor Ejemplo
text {Utterance-Text} Su texto de expresión. Prueba
language {LANGUAGE-CODE} Cadena que especifica el código de idioma de las expresiones que se usan en el proyecto. Si el proyecto es un proyecto multilingüe, elija el código de idioma de la mayoría de las expresiones. Para obtener más información sobre los códigos de idioma admitidos, consulte Compatibilidad con idiomas. en-us
dataset {DATASET} Conjunto de pruebas al que va esta expresión cuando se divida antes del entrenamiento. Para obtener más información sobre la división de datos, consulte Entrenar el modelo de reconocimiento del lenguaje conversacional. Los valores posibles que admite este campo son Train y Test. Train
intent {intent} La intención asignada. intent1
entity {entity} La entidad que se va a extraer. entity1
category Tipo de entidad asociada al intervalo de texto especificado. Entity1
offset Posición del carácter inclusivo del inicio del texto. 0
length Longitud del rectángulo delimitador en términos de caracteres UTF16. El entrenamiento solo tiene en cuenta los datos de esta región. 500