Formatos de dados aceitos pela compreensão da linguagem coloquial
Se você estiver carregando seus dados na compreensão da linguagem coloquial, ele precisará seguir um formato específico. Use este artigo para saber mais sobre os formatos de dados aceitos.
Importar formato de arquivo de projeto
Se você estiver importando um projeto para a compreensão da linguagem coloquial, o arquivo carregado precisará estar no seguinte formato:
{
"projectFileVersion": "2022-10-01-preview",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "Conversation",
"projectName": "{PROJECT-NAME}",
"multilingual": true,
"description": "DESCRIPTION",
"language": "{LANGUAGE-CODE}",
"settings": {
"confidenceThreshold": 0
}
},
"assets": {
"projectKind": "Conversation",
"intents": [
{
"category": "intent1"
}
],
"entities": [
{
"category": "entity1",
"compositionSetting": "{COMPOSITION-SETTING}",
"list": {
"sublists": [
{
"listKey": "list1",
"synonyms": [
{
"language": "{LANGUAGE-CODE}",
"values": [
"{VALUES-FOR-LIST}"
]
}
]
}
]
},
"prebuilts": [
{
"category": "{PREBUILT-COMPONENTS}"
}
],
"regex": {
"expressions": [
{
"regexKey": "regex1",
"language": "{LANGUAGE-CODE}",
"regexPattern": "{REGEX-PATTERN}"
}
]
},
"requiredComponents": [
"{REQUIRED-COMPONENTS}"
]
}
],
"utterances": [
{
"text": "utterance1",
"intent": "intent1",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"category": "ENTITY1",
"offset": 6,
"length": 4
}
]
}
]
}
}
Chave | Espaço reservado | Valor | Exemplo |
---|---|---|---|
{API-VERSION} |
A versão da API que você está chamando. | 2023-04-01 |
|
confidenceThreshold |
{CONFIDENCE-THRESHOLD} |
Abaixo desta pontuação limite, a intenção é prevista como Nenhuma intenção. Os valores vão de 0 a 1 . |
0.7 |
projectName |
{PROJECT-NAME} |
O nome do seu projeto. Esse valor diferencia maiúsculas de minúsculas. | EmailApp |
multilingual |
true |
Um valor booliano que permite que você tenha enunciados em vários idiomas no seu conjunto de dados. Quando o modelo é implantado, você pode consultar o modelo em qualquer idioma com suporte (não necessariamente incluído em seus documentos de treinamento). Para obter mais informações sobre códigos de idioma com suporte, confira Suporte de idioma. | true |
sublists |
[] |
Matriz que contém sublistas. Cada sublista é uma chave e os valores associados. | [] |
compositionSetting |
{COMPOSITION-SETTING} |
Regra que define como gerenciar vários componentes na entidade. As opções são combineComponents ou separateComponents . |
combineComponents |
synonyms |
[] |
Matriz que contém todos os sinônimos. | sinônimo |
language |
{LANGUAGE-CODE} |
Uma cadeia de caracteres que especifica o código de idioma dos enunciados, das expressões regulares e dos sinônimos usados no projeto. Se o projeto for multilíngue, escolha o código de idioma da maioria dos enunciados. | en-us |
intents |
[] |
Matriz que contém todas as intenções que você tem no projeto. Essas intenções são classificadas com base nos seus enunciados. | [] |
entities |
[] |
Matriz que contém todas as entidades do seu projeto. Essas entidades são extraídas dos seus enunciados. Cada entidade pode ter outros componentes opcionais definidos: lista, predefinido ou regex. | [] |
dataset |
{DATASET} |
O conjunto de teste para o qual esse enunciado será exibido, quando ele é dividido antes do treinamento. Para saber mais sobre a divisão de dados, confira Treinar seu modelo da compreensão da linguagem coloquial. Os valores possíveis para esse campo são Train e Test . |
Train |
category |
|
O tipo de entidade associada ao intervalo de texto especificado. | Entity1 |
offset |
|
A posição inclusiva de caractere do início da entidade. | 5 |
length |
|
O comprimento de caracteres da entidade. | 5 |
listKey |
|
Um valor normalizado para a lista de sinônimos a serem mapeados novamente na previsão. | Microsoft |
values |
{VALUES-FOR-LIST} |
Uma lista de cadeias de caracteres separadas por vírgula que têm uma correspondência exata para extração e são mapeadas para a chave de lista. | "msft", "microsoft", "MS" |
regexKey |
{REGEX-PATTERN} |
Um valor normalizado para a expressão regular a ser mapeada para a previsão. | ProductPattern1 |
regexPattern |
{REGEX-PATTERN} |
uma expressão regular. | ^pre |
prebuilts |
{PREBUILT-COMPONENTS} |
Os componentes predefinidos que podem extrair tipos comuns. Para obter a lista de predefinições que você pode adicionar, confira Componentes de entidade predefinidos com suporte. | Quantity.Number |
requiredComponents |
{REQUIRED-COMPONENTS} |
Uma configuração que especifica um requisito de que um componente específico precise esteja presente para retornar a entidade. Para saber mais, confira Componentes da entidade. Os valores possíveis são learned , regex , list ou prebuilts . |
"learned", "prebuilt" |
Formato de arquivo do enunciado
A compreensão da linguagem coloquial oferece a opção de carregar seus enunciados diretamente no projeto, em vez de digitá-los um a um. Encontre essa opção na página Rotulagem de dados do projeto.
[
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 19,
"length": 10
}
]
},
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 20,
"length": 10
},
{
"category": "{entity}",
"offset": 31,
"length": 5
}
]
}
]
Chave | Espaço reservado | Valor | Exemplo |
---|---|---|---|
text |
{Utterance-Text} |
O texto do seu enunciado. | Testando |
language |
{LANGUAGE-CODE} |
Uma cadeia de caracteres que especifica o código de idioma dos enunciados usados no projeto. Se o projeto for multilíngue, escolha o código de idioma da maioria dos enunciados. Para obter mais informações sobre códigos de idioma com suporte, confira Suporte de idioma. | en-us |
dataset |
{DATASET} |
O conjunto de teste para o qual esse enunciado será exibido, quando ele é dividido antes do treinamento. Para saber mais sobre a divisão de dados, confira Treinar seu modelo da compreensão da linguagem coloquial. Os valores possíveis para esse campo são Train e Test . |
Train |
intent |
{intent} |
A intenção atribuída. | intent1 |
entity |
{entity} |
A entidade a ser extraída. | entity1 |
category |
|
O tipo de entidade associada ao intervalo de texto especificado. | Entity1 |
offset |
|
A posição inclusiva de caractere do início do texto. | 0 |
length |
|
O tamanho da caixa delimitadora em termos de caracteres UTF-16. O treinamento só considera os dados nessa região. | 500 |
Conteúdo relacionado
- Para obter mais informações sobre como importar seus dados rotulados diretamente para seu projeto, confira Importar projeto.
- Para obter mais informações sobre como rotular seus dados, confira Rotular seus enunciados no Language Studio. Depois de rotular seus dados, você pode treinar seu modelo.