Formatos de dados aceitos pela compreensão da linguagem coloquial
Se você estiver carregando seus dados no CLU, eles devem seguir um formato específico, use este artigo para saber mais sobre os formatos de dados aceitos.
Importar formato de arquivo de projeto
Se você estiver importando um projeto para a CLU, o arquivo carregado deve estar no seguinte formato.
{
"projectFileVersion": "2022-10-01-preview",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "Conversation",
"projectName": "{PROJECT-NAME}",
"multilingual": true,
"description": "DESCRIPTION",
"language": "{LANGUAGE-CODE}",
"settings": {
"confidenceThreshold": 0
}
},
"assets": {
"projectKind": "Conversation",
"intents": [
{
"category": "intent1"
}
],
"entities": [
{
"category": "entity1",
"compositionSetting": "{COMPOSITION-SETTING}",
"list": {
"sublists": [
{
"listKey": "list1",
"synonyms": [
{
"language": "{LANGUAGE-CODE}",
"values": [
"{VALUES-FOR-LIST}"
]
}
]
}
]
},
"prebuilts": [
{
"category": "{PREBUILT-COMPONENTS}"
}
],
"regex": {
"expressions": [
{
"regexKey": "regex1",
"language": "{LANGUAGE-CODE}",
"regexPattern": "{REGEX-PATTERN}"
}
]
},
"requiredComponents": [
"{REQUIRED-COMPONENTS}"
]
}
],
"utterances": [
{
"text": "utterance1",
"intent": "intent1",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"category": "ENTITY1",
"offset": 6,
"length": 4
}
]
}
]
}
}
Chave | Espaço reservado | Valor | Exemplo |
---|---|---|---|
{API-VERSION} |
A versão da API que você está chamando. | 2023-04-01 |
|
confidenceThreshold |
{CONFIDENCE-THRESHOLD} |
Abaixo desta pontuação de limite, a intenção será prevista como nenhuma intenção. Os valores são de 0 a 1 |
0.7 |
projectName |
{PROJECT-NAME} |
O nome do seu projeto. Esse valor diferencia maiúsculas de minúsculas. | EmailApp |
multilingual |
true |
Um valor booliano que permite ter enunciados em vários idiomas no conjunto de dados e, quando o modelo é implantado, é possível consultar o modelo em qualquer idioma com suporte, (não necessariamente incluído nos documentos de treinamento). Consulte o Suporte de idioma para obter mais informações sobre códigos de idioma com suporte. | true |
sublists |
[] |
Matriz que contém sublistas. Cada sublista é uma chave e os valores associados. | [] |
compositionSetting |
{COMPOSITION-SETTING} |
Regra que define como gerenciar vários componentes na entidade. As opções são combineComponents ou separateComponents . |
combineComponents |
synonyms |
[] |
Matriz contendo todos os sinônimos | sinônimo |
language |
{LANGUAGE-CODE} |
Uma cadeia de caracteres que especifica o código de idioma dos enunciados, das expressões regulares e dos sinônimos usados no projeto. Se o projeto for multilíngue, escolha o código de idioma da maioria dos enunciados. | en-us |
intents |
[] |
Matriz que contém todas as intenções presentes no projeto. Essas são as intenções que serão classificadas com base nos enunciados. | [] |
entities |
[] |
Matriz que contém todas as entidades em seu projeto. Essas são as entidades que serão extraídas de seus enunciados. Cada entidade pode ter componentes opcionais adicionais definidos com eles: lista, predefinida ou regex. | [] |
dataset |
{DATASET} |
O conjunto de teste para o qual esse arquivo será exibido, quando dividido antes do treinamento. Saiba mais sobre a divisão de dados aqui. Os valores possíveis para esse campo são Train e Test . |
Train |
category |
|
O tipo de entidade associada ao intervalo de texto especificado. | Entity1 |
offset |
|
A posição inclusiva de caractere do início da entidade. | 5 |
length |
|
O comprimento de caracteres da entidade. | 5 |
listKey |
|
Um valor normalizado para a lista de sinônimos a serem mapeados novamente na previsão. | Microsoft |
values |
{VALUES-FOR-LIST} |
Uma lista de cadeias de caracteres separadas por vírgulas que terão uma correspondência exata para extração e mapa para a chave de lista. | "msft", "microsoft", "MS" |
regexKey |
{REGEX-PATTERN} |
Um valor normalizado para a expressão regular a ser mapeada para a previsão. | ProductPattern1 |
regexPattern |
{REGEX-PATTERN} |
uma expressão regular. | ^pre |
prebuilts |
{PREBUILT-COMPONENTS} |
Os componentes predefinidos que podem extrair tipos comuns. Encontre a lista de predefinições que você pode adicionar aqui. | Quantity.Number |
requiredComponents |
{REQUIRED-COMPONENTS} |
Uma configuração que especifica um requisito de que um componente específico esteja presente para retornar a entidade. Você pode saber mais aqui. Os valores possíveis são learned , regex , list ou prebuilts |
"learned", "prebuilt" |
Formato de arquivo do enunciado
A CLU oferece a opção de carregar seu enunciado diretamente no projeto, em vez de digitá-los um por um. Você pode encontrar essa opção na página de rotulagem de dados do projeto.
[
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 19,
"length": 10
}
]
},
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 20,
"length": 10
},
{
"category": "{entity}",
"offset": 31,
"length": 5
}
]
}
]
Chave | Espaço reservado | Valor | Exemplo |
---|---|---|---|
text |
{Utterance-Text} |
O texto do seu enunciado | Teste |
language |
{LANGUAGE-CODE} |
Uma cadeia de caracteres que especifica o código de idioma dos enunciados usados no projeto. Se o projeto for multilíngue, escolha o código de idioma da maioria dos enunciados. Consulte o Suporte de idioma para obter mais informações sobre códigos de idioma com suporte. | en-us |
dataset |
{DATASET} |
O conjunto de teste para o qual esse arquivo será exibido, quando dividido antes do treinamento. Saiba mais sobre a divisão de dados aqui. Os valores possíveis para esse campo são Train e Test . |
Train |
intent |
{intent} |
A intenção atribuída | intent1 |
entity |
{entity} |
Entidade a ser extraída | entity1 |
category |
|
O tipo de entidade associada ao intervalo de texto especificado. | Entity1 |
offset |
|
A posição inclusiva de caractere do início do texto. | 0 |
length |
|
O tamanho da caixa delimitadora em termos de caracteres UTF-16. O treinamento só considera os dados nessa região. | 500 |
Próximas etapas
- Você pode importar os dados rotulados diretamente no seu projeto. Confira o projeto de importação para obter mais informações.
- Confira o artigo de instruções para obter mais informações sobre como rotular seus dados. Quando terminar de rotular seus dados, você poderá treinar seu modelo.