Formatos de dados aceites pela compreensão da linguagem de conversação
Se estiver a carregar os seus dados para a CLU, este tem de seguir um formato específico, utilize este artigo para saber mais sobre os formatos de dados aceites.
Importar formato de ficheiro de projeto
Se estiver a importar um projeto para a CLU, o ficheiro carregado tem de estar no seguinte formato.
{
"projectFileVersion": "2022-10-01-preview",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "Conversation",
"projectName": "{PROJECT-NAME}",
"multilingual": true,
"description": "DESCRIPTION",
"language": "{LANGUAGE-CODE}",
"settings": {
"confidenceThreshold": 0
}
},
"assets": {
"projectKind": "Conversation",
"intents": [
{
"category": "intent1"
}
],
"entities": [
{
"category": "entity1",
"compositionSetting": "{COMPOSITION-SETTING}",
"list": {
"sublists": [
{
"listKey": "list1",
"synonyms": [
{
"language": "{LANGUAGE-CODE}",
"values": [
"{VALUES-FOR-LIST}"
]
}
]
}
]
},
"prebuilts": [
{
"category": "{PREBUILT-COMPONENTS}"
}
],
"regex": {
"expressions": [
{
"regexKey": "regex1",
"language": "{LANGUAGE-CODE}",
"regexPattern": "{REGEX-PATTERN}"
}
]
},
"requiredComponents": [
"{REQUIRED-COMPONENTS}"
]
}
],
"utterances": [
{
"text": "utterance1",
"intent": "intent1",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"category": "ENTITY1",
"offset": 6,
"length": 4
}
]
}
]
}
}
Chave | Marcador de posição | Valor | Exemplo |
---|---|---|---|
{API-VERSION} |
A versão da API que está a chamar. | 2023-04-01 |
|
confidenceThreshold |
{CONFIDENCE-THRESHOLD} |
Esta é a classificação de limiar abaixo da qual a intenção será prevista como nenhuma intenção. Os valores são de 0 para 1 |
0.7 |
projectName |
{PROJECT-NAME} |
O nome do seu projeto. Este valor é sensível às maiúsculas e minúsculas. | EmailApp |
multilingual |
true |
Um valor booleano que lhe permite ter expressões em vários idiomas no seu conjunto de dados e quando o modelo é implementado pode consultar o modelo em qualquer idioma suportado (não necessariamente incluído nos seus documentos de preparação. Veja Suporte de idiomas para obter mais informações sobre os códigos de idioma suportados. | true |
sublists |
[] |
Matriz que contém sublists. Cada sublist é uma chave e os respetivos valores associados. | [] |
compositionSetting |
{COMPOSITION-SETTING} |
Regra que define como gerir múltiplos componentes na sua entidade. As opções são combineComponents ou separateComponents . |
combineComponents |
synonyms |
[] |
Matriz que contém todos os sinónimos | sinónimo |
language |
{LANGUAGE-CODE} |
Uma cadeia que especifica o código de idioma para as expressões, sinónimos e expressões regulares utilizadas no projeto. Se o seu projeto for um projeto multilingue, escolha o código de idioma da maioria das expressões. | en-us |
intents |
[] |
Matriz que contém todas as intenções que tem no projeto. Estas são as intenções que serão classificadas a partir das suas expressões. | [] |
entities |
[] |
Matriz que contém todas as entidades no seu projeto. Estas são as entidades que serão extraídas das suas expressões. Cada entidade pode ter componentes opcionais adicionais definidos com eles: lista, pré-criado ou regex. | [] |
dataset |
{DATASET} |
O conjunto de teste para o qual esta expressão será dividida antes da preparação. Saiba mais sobre a divisão de dados aqui . Os valores possíveis para este campo são Train e Test . |
Train |
category |
|
O tipo de entidade associada ao intervalo de texto especificado. | Entity1 |
offset |
|
A posição de caráter inclusivo do início da entidade. | 5 |
length |
|
O comprimento do caráter da entidade. | 5 |
listKey |
|
Um valor normalizado para a lista de sinónimos a mapear novamente na predição. | Microsoft |
values |
{VALUES-FOR-LIST} |
Uma lista de cadeias separadas por vírgulas que serão correspondidas exatamente para extração e mapear para a chave de lista. | "msft", "microsoft", "MS" |
regexKey |
{REGEX-PATTERN} |
Um valor normalizado para a expressão normal a mapear novamente na predição. | ProductPattern1 |
regexPattern |
{REGEX-PATTERN} |
Uma expressão normal. | ^pre |
prebuilts |
{PREBUILT-COMPONENTS} |
Os componentes pré-criados que podem extrair tipos comuns. Pode encontrar a lista de pré-criados que pode adicionar aqui. | Quantity.Number |
requiredComponents |
{REQUIRED-COMPONENTS} |
Uma definição que especifica um requisito para que um componente específico esteja presente para devolver a entidade. Pode saber mais aqui. Os valores possíveis são learned , regex , list ou prebuilts |
"learned", "prebuilt" |
Formato de ficheiro de expressão
A CLU oferece a opção de carregar a sua expressão diretamente para o projeto em vez de as escrever uma a uma. Pode encontrar esta opção na página de etiquetagem de dados do seu projeto.
[
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 19,
"length": 10
}
]
},
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 20,
"length": 10
},
{
"category": "{entity}",
"offset": 31,
"length": 5
}
]
}
]
Chave | Marcador de posição | Valor | Exemplo |
---|---|---|---|
text |
{Utterance-Text} |
O seu texto de expressão | Testar |
language |
{LANGUAGE-CODE} |
Uma cadeia que especifica o código de idioma para as expressões utilizadas no projeto. Se o seu projeto for um projeto multilingue, escolha o código de idioma da maioria das expressões. Veja Suporte de idiomas para obter mais informações sobre os códigos de idioma suportados. | en-us |
dataset |
{DATASET} |
O conjunto de teste para o qual esta expressão será dividida antes da preparação. Saiba mais sobre a divisão de dados aqui . Os valores possíveis para este campo são Train e Test . |
Train |
intent |
{intent} |
A intenção atribuída | intent1 |
entity |
{entity} |
Entidade a extrair | entidade1 |
category |
|
O tipo de entidade associada ao intervalo de texto especificado. | Entity1 |
offset |
|
A posição de caráter inclusivo do início do texto. | 0 |
length |
|
O comprimento da caixa delimitadora em termos de carateres UTF16. A formação considera apenas os dados nesta região. | 500 |
Passos seguintes
- Pode importar os dados etiquetados diretamente para o seu projeto. Veja import project (Importar projeto ) para obter mais informações.
- Veja o artigo de procedimentos para obter mais informações sobre a etiquetagem dos seus dados. Quando terminar de etiquetar os seus dados, pode preparar o modelo.