Compartir a través de


Formatos de datos que acepta el Reconocimiento del lenguaje conversacional.

Si va a cargar los datos en el CLU, debe seguir un formato específico; use este artículo para obtener más información sobre los formatos de datos aceptados.

Importación del formato de archivo de proyecto

Si va a importar un proyecto en CLU, el archivo cargado debe tener el formato siguiente.

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Clave Marcador de posición Valor Ejemplo
{API-VERSION} La versión de la API a la que llama. 2023-04-01
confidenceThreshold {CONFIDENCE-THRESHOLD} Esta es la puntuación de umbral por debajo de la cual la intención se predice como intención None. Los valores van de 0 a 1 0.7
projectName {PROJECT-NAME} Nombre del proyecto. Este valor distingue mayúsculas de minúsculas. EmailApp
multilingual true Valor booleano que le permite tener expresiones en varios idiomas en el conjunto de datos y, cuando se implementa el modelo, puede consultarlo en cualquier idioma admitido (no necesariamente incluido en los documentos de entrenamiento). Consulte Compatibilidad con idiomas para obtener más información sobre los códigos de idioma admitidos. true
sublists [] Matriz que contiene sublistas. Cada sublista es una clave y sus valores asociados. []
compositionSetting {COMPOSITION-SETTING} Regla que define cómo administrar varios componentes en la entidad. Las opciones son combineComponents o separateComponents. combineComponents
synonyms [] Matriz que contiene todos los sinónimos sinónimo
language {LANGUAGE-CODE} Cadena que especifica el código de idioma de las expresiones, sinónimos y expresiones regulares que se usan en el proyecto. Si el proyecto es un proyecto multilingüe, elija el código de idioma de la mayoría de las expresiones. en-us
intents [] Matriz que contiene todas las intenciones que tiene en el proyecto. Estas son las intenciones que se clasificarán de las expresiones. []
entities [] Matriz que contiene todas las entidades del proyecto. Estas son las entidades que se extraerán de las expresiones. Cada entidad puede tener componentes opcionales adicionales definidos con ellos: list, prebuilt o regex. []
dataset {DATASET} Conjunto de pruebas al que irá esta expresión cuando se divida antes del entrenamiento. Encuentre más información sobre la división de datos aquí. Los valores posibles que admite este campo son Train y Test. Train
category Tipo de entidad asociada al intervalo de texto especificado. Entity1
offset Posición del carácter inclusivo del inicio de la entidad. 5
length Longitud del carácter de la entidad. 5
listKey Valor normalizado para la lista de sinónimos a los que se va a asignar en la predicción. Microsoft
values {VALUES-FOR-LIST} Lista de cadenas separadas por comas que se buscarán exactamente para la extracción y se asignarán a la clave de la lista. "msft", "microsoft", "MS"
regexKey {REGEX-PATTERN} Valor normalizado de la expresión regular a la que se va a asignar en la predicción. ProductPattern1
regexPattern {REGEX-PATTERN} Expresión regular. ^pre
prebuilts {PREBUILT-COMPONENTS} Componentes creados previamente que pueden extraer tipos comunes. Puede encontrar la lista de componentes creados previamente que puede agregar aquí. Quantity.Number
requiredComponents {REQUIRED-COMPONENTS} Valor que especifica un requisito de que un componente específico esté presente para devolver la entidad. Puede obtener más información aquí. Los valores posibles son: learned, regex, list o prebuilts "learned", "prebuilt"

Formato de archivo de la expresión

CLU le ofrece la opción de cargar las expresiones directamente en el proyecto, en lugar de escribirlas una a una. Puede encontrar esta opción en la página de etiquetado de datos del proyecto.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Clave Marcador de posición Valor Ejemplo
text {Utterance-Text} Su texto de expresión Prueba
language {LANGUAGE-CODE} Cadena que especifica el código de idioma de las expresiones que se usan en el proyecto. Si el proyecto es un proyecto multilingüe, elija el código de idioma de la mayoría de las expresiones. Consulte Compatibilidad con idiomas para obtener más información sobre los códigos de idioma admitidos. en-us
dataset {DATASET} Conjunto de pruebas al que irá esta expresión cuando se divida antes del entrenamiento. Encuentre más información sobre la división de datos aquí. Los valores posibles que admite este campo son Train y Test. Train
intent {intent} Intención asignada intent1
entity {entity} Entidad que se va a extraer entity1
category Tipo de entidad asociada al intervalo de texto especificado. Entity1
offset Posición del carácter inclusivo del inicio del texto. 0
length Longitud del rectángulo delimitador en términos de caracteres UTF16. El entrenamiento solo tiene en cuenta los datos de esta región. 500

Pasos siguientes