Formatos de datos que acepta el Reconocimiento del lenguaje conversacional.
Si va a cargar los datos en reconocimiento del lenguaje conversacional, deben seguir un formato específico. Use este artículo para obtener más información sobre los formatos de datos aceptados.
Importación del formato de archivo de proyecto
Si va a importar un proyecto en reconocimiento del lenguaje conversacional, el archivo cargado debe tener el formato siguiente:
{
"projectFileVersion": "2022-10-01-preview",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "Conversation",
"projectName": "{PROJECT-NAME}",
"multilingual": true,
"description": "DESCRIPTION",
"language": "{LANGUAGE-CODE}",
"settings": {
"confidenceThreshold": 0
}
},
"assets": {
"projectKind": "Conversation",
"intents": [
{
"category": "intent1"
}
],
"entities": [
{
"category": "entity1",
"compositionSetting": "{COMPOSITION-SETTING}",
"list": {
"sublists": [
{
"listKey": "list1",
"synonyms": [
{
"language": "{LANGUAGE-CODE}",
"values": [
"{VALUES-FOR-LIST}"
]
}
]
}
]
},
"prebuilts": [
{
"category": "{PREBUILT-COMPONENTS}"
}
],
"regex": {
"expressions": [
{
"regexKey": "regex1",
"language": "{LANGUAGE-CODE}",
"regexPattern": "{REGEX-PATTERN}"
}
]
},
"requiredComponents": [
"{REQUIRED-COMPONENTS}"
]
}
],
"utterances": [
{
"text": "utterance1",
"intent": "intent1",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"category": "ENTITY1",
"offset": 6,
"length": 4
}
]
}
]
}
}
Clave | Marcador de posición | Valor | Ejemplo |
---|---|---|---|
{API-VERSION} |
Versión de la API a la que se llama. | 2023-04-01 |
|
confidenceThreshold |
{CONFIDENCE-THRESHOLD} |
Esta es la puntuación de umbral por debajo de la cual la intención se predice como intención None. Los valores van de 0 a 1 . |
0.7 |
projectName |
{PROJECT-NAME} |
Nombre del proyecto. Este valor distingue mayúsculas de minúsculas. | EmailApp |
multilingual |
true |
Valor booleano que permite tener expresiones en varios idiomas en el conjunto de datos. Cuando el modelo se implementa, se puede consultar en cualquier idioma admitido (no necesariamente incluido en los documentos de entrenamiento). Para obtener más información sobre los códigos de idioma admitidos, consulte Compatibilidad con idiomas. | true |
sublists |
[] |
Matriz que contiene sublistas. Cada sublista es una clave y sus valores asociados. | [] |
compositionSetting |
{COMPOSITION-SETTING} |
Regla que define cómo administrar varios componentes en la entidad. Las opciones son combineComponents o separateComponents . |
combineComponents |
synonyms |
[] |
Matriz que contiene todos los sinónimos. | sinónimo |
language |
{LANGUAGE-CODE} |
Cadena que especifica el código de idioma de las expresiones, sinónimos y expresiones regulares que se usan en el proyecto. Si el proyecto es un proyecto multilingüe, elija el código de idioma de la mayoría de las expresiones. | en-us |
intents |
[] |
Matriz que contiene todas las intenciones que tiene en el proyecto. Estas intenciones se clasifican de las expresiones. | [] |
entities |
[] |
Matriz que contiene todas las entidades del proyecto. Estas entidades se extraen de las expresiones. Cada entidad puede tener otros componentes opcionales definidos: list, prebuilt o regex. | [] |
dataset |
{DATASET} |
Conjunto de pruebas al que va esta expresión cuando se divida antes del entrenamiento. Para obtener más información sobre la división de datos, consulte Entrenar el modelo de reconocimiento del lenguaje conversacional. Los valores posibles que admite este campo son Train y Test . |
Train |
category |
|
Tipo de entidad asociada al intervalo de texto especificado. | Entity1 |
offset |
|
Posición del carácter inclusivo del inicio de la entidad. | 5 |
length |
|
Longitud del carácter de la entidad. | 5 |
listKey |
|
Valor normalizado para la lista de sinónimos a los que se va a asignar en la predicción. | Microsoft |
values |
{VALUES-FOR-LIST} |
Lista de cadenas separadas por comas que se buscan exactamente para la extracción y se asignan a la clave de la lista. | "msft", "microsoft", "MS" |
regexKey |
{REGEX-PATTERN} |
Valor normalizado de la expresión regular a la que se va a asignar en la predicción. | ProductPattern1 |
regexPattern |
{REGEX-PATTERN} |
Expresión regular. | ^pre |
prebuilts |
{PREBUILT-COMPONENTS} |
Componentes creados previamente que pueden extraer tipos comunes. Para obtener la lista de compilaciones precompiladas que puede agregar, consulte Componentes de entidad precompilados admitidos. | Quantity.Number |
requiredComponents |
{REQUIRED-COMPONENTS} |
Valor que especifica un requisito de que un componente específico debe estar presente para devolver la entidad. Para obtener más información, consulte Componentes de entidad. Los valores posibles son: learned , regex , list o prebuilts . |
"learned", "prebuilt" |
Formato de archivo de la expresión
El reconocimiento del lenguaje conversacional le ofrece la opción de cargar las expresiones directamente en el proyecto, en lugar de escribirlas una a una. Puede encontrar esta opción en la página de etiquetado de datos del proyecto.
[
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 19,
"length": 10
}
]
},
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 20,
"length": 10
},
{
"category": "{entity}",
"offset": 31,
"length": 5
}
]
}
]
Clave | Marcador de posición | Valor | Ejemplo |
---|---|---|---|
text |
{Utterance-Text} |
Su texto de expresión. | Prueba |
language |
{LANGUAGE-CODE} |
Cadena que especifica el código de idioma de las expresiones que se usan en el proyecto. Si el proyecto es un proyecto multilingüe, elija el código de idioma de la mayoría de las expresiones. Para obtener más información sobre los códigos de idioma admitidos, consulte Compatibilidad con idiomas. | en-us |
dataset |
{DATASET} |
Conjunto de pruebas al que va esta expresión cuando se divida antes del entrenamiento. Para obtener más información sobre la división de datos, consulte Entrenar el modelo de reconocimiento del lenguaje conversacional. Los valores posibles que admite este campo son Train y Test . |
Train |
intent |
{intent} |
La intención asignada. | intent1 |
entity |
{entity} |
La entidad que se va a extraer. | entity1 |
category |
|
Tipo de entidad asociada al intervalo de texto especificado. | Entity1 |
offset |
|
Posición del carácter inclusivo del inicio del texto. | 0 |
length |
|
Longitud del rectángulo delimitador en términos de caracteres UTF16. El entrenamiento solo tiene en cuenta los datos de esta región. | 500 |
Contenido relacionado
- Para obtener más información sobre cómo importar los datos etiquetados en el proyecto directamente, vea Importar proyecto.
- Para obtener más información sobre cómo etiquetar los datos, consulte Etiquetar las expresiones en Language Studio. Después de etiquetar los datos, puede entrenar el modelo.