Formatos de datos que acepta el Reconocimiento del lenguaje conversacional.
Si va a cargar los datos en el CLU, debe seguir un formato específico; use este artículo para obtener más información sobre los formatos de datos aceptados.
Importación del formato de archivo de proyecto
Si va a importar un proyecto en CLU, el archivo cargado debe tener el formato siguiente.
{
"projectFileVersion": "2022-10-01-preview",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "Conversation",
"projectName": "{PROJECT-NAME}",
"multilingual": true,
"description": "DESCRIPTION",
"language": "{LANGUAGE-CODE}",
"settings": {
"confidenceThreshold": 0
}
},
"assets": {
"projectKind": "Conversation",
"intents": [
{
"category": "intent1"
}
],
"entities": [
{
"category": "entity1",
"compositionSetting": "{COMPOSITION-SETTING}",
"list": {
"sublists": [
{
"listKey": "list1",
"synonyms": [
{
"language": "{LANGUAGE-CODE}",
"values": [
"{VALUES-FOR-LIST}"
]
}
]
}
]
},
"prebuilts": [
{
"category": "{PREBUILT-COMPONENTS}"
}
],
"regex": {
"expressions": [
{
"regexKey": "regex1",
"language": "{LANGUAGE-CODE}",
"regexPattern": "{REGEX-PATTERN}"
}
]
},
"requiredComponents": [
"{REQUIRED-COMPONENTS}"
]
}
],
"utterances": [
{
"text": "utterance1",
"intent": "intent1",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"category": "ENTITY1",
"offset": 6,
"length": 4
}
]
}
]
}
}
Clave | Marcador de posición | Valor | Ejemplo |
---|---|---|---|
{API-VERSION} |
La versión de la API a la que llama. | 2023-04-01 |
|
confidenceThreshold |
{CONFIDENCE-THRESHOLD} |
Esta es la puntuación de umbral por debajo de la cual la intención se predice como intención None. Los valores van de 0 a 1 |
0.7 |
projectName |
{PROJECT-NAME} |
Nombre del proyecto. Este valor distingue mayúsculas de minúsculas. | EmailApp |
multilingual |
true |
Valor booleano que le permite tener expresiones en varios idiomas en el conjunto de datos y, cuando se implementa el modelo, puede consultarlo en cualquier idioma admitido (no necesariamente incluido en los documentos de entrenamiento). Consulte Compatibilidad con idiomas para obtener más información sobre los códigos de idioma admitidos. | true |
sublists |
[] |
Matriz que contiene sublistas. Cada sublista es una clave y sus valores asociados. | [] |
compositionSetting |
{COMPOSITION-SETTING} |
Regla que define cómo administrar varios componentes en la entidad. Las opciones son combineComponents o separateComponents . |
combineComponents |
synonyms |
[] |
Matriz que contiene todos los sinónimos | sinónimo |
language |
{LANGUAGE-CODE} |
Cadena que especifica el código de idioma de las expresiones, sinónimos y expresiones regulares que se usan en el proyecto. Si el proyecto es un proyecto multilingüe, elija el código de idioma de la mayoría de las expresiones. | en-us |
intents |
[] |
Matriz que contiene todas las intenciones que tiene en el proyecto. Estas son las intenciones que se clasificarán de las expresiones. | [] |
entities |
[] |
Matriz que contiene todas las entidades del proyecto. Estas son las entidades que se extraerán de las expresiones. Cada entidad puede tener componentes opcionales adicionales definidos con ellos: list, prebuilt o regex. | [] |
dataset |
{DATASET} |
Conjunto de pruebas al que irá esta expresión cuando se divida antes del entrenamiento. Encuentre más información sobre la división de datos aquí. Los valores posibles que admite este campo son Train y Test . |
Train |
category |
|
Tipo de entidad asociada al intervalo de texto especificado. | Entity1 |
offset |
|
Posición del carácter inclusivo del inicio de la entidad. | 5 |
length |
|
Longitud del carácter de la entidad. | 5 |
listKey |
|
Valor normalizado para la lista de sinónimos a los que se va a asignar en la predicción. | Microsoft |
values |
{VALUES-FOR-LIST} |
Lista de cadenas separadas por comas que se buscarán exactamente para la extracción y se asignarán a la clave de la lista. | "msft", "microsoft", "MS" |
regexKey |
{REGEX-PATTERN} |
Valor normalizado de la expresión regular a la que se va a asignar en la predicción. | ProductPattern1 |
regexPattern |
{REGEX-PATTERN} |
Expresión regular. | ^pre |
prebuilts |
{PREBUILT-COMPONENTS} |
Componentes creados previamente que pueden extraer tipos comunes. Puede encontrar la lista de componentes creados previamente que puede agregar aquí. | Quantity.Number |
requiredComponents |
{REQUIRED-COMPONENTS} |
Valor que especifica un requisito de que un componente específico esté presente para devolver la entidad. Puede obtener más información aquí. Los valores posibles son: learned , regex , list o prebuilts |
"learned", "prebuilt" |
Formato de archivo de la expresión
CLU le ofrece la opción de cargar las expresiones directamente en el proyecto, en lugar de escribirlas una a una. Puede encontrar esta opción en la página de etiquetado de datos del proyecto.
[
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 19,
"length": 10
}
]
},
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 20,
"length": 10
},
{
"category": "{entity}",
"offset": 31,
"length": 5
}
]
}
]
Clave | Marcador de posición | Valor | Ejemplo |
---|---|---|---|
text |
{Utterance-Text} |
Su texto de expresión | Prueba |
language |
{LANGUAGE-CODE} |
Cadena que especifica el código de idioma de las expresiones que se usan en el proyecto. Si el proyecto es un proyecto multilingüe, elija el código de idioma de la mayoría de las expresiones. Consulte Compatibilidad con idiomas para obtener más información sobre los códigos de idioma admitidos. | en-us |
dataset |
{DATASET} |
Conjunto de pruebas al que irá esta expresión cuando se divida antes del entrenamiento. Encuentre más información sobre la división de datos aquí. Los valores posibles que admite este campo son Train y Test . |
Train |
intent |
{intent} |
Intención asignada | intent1 |
entity |
{entity} |
Entidad que se va a extraer | entity1 |
category |
|
Tipo de entidad asociada al intervalo de texto especificado. | Entity1 |
offset |
|
Posición del carácter inclusivo del inicio del texto. | 0 |
length |
|
Longitud del rectángulo delimitador en términos de caracteres UTF16. El entrenamiento solo tiene en cuenta los datos de esta región. | 500 |
Pasos siguientes
- Puede importar los datos etiquetados directamente en el proyecto. Consulte el proyecto de importación para obtener más información.
- Consulte el artículo de procedimientos para más información sobre el etiquetado de los datos. Cuando haya terminado de etiquetar los datos, puede entrenar el modelo.