Formatos de dados aceitos pela compreensão da linguagem coloquial

Se você estiver carregando seus dados no CLU, eles devem seguir um formato específico, use este artigo para saber mais sobre os formatos de dados aceitos.

Importar formato de arquivo de projeto

Se você estiver importando um projeto para a CLU, o arquivo carregado deve estar no seguinte formato.

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Chave Espaço reservado Valor Exemplo
{API-VERSION} A versão da API que você está chamando. 2023-04-01
confidenceThreshold {CONFIDENCE-THRESHOLD} Abaixo desta pontuação de limite, a intenção será prevista como nenhuma intenção. Os valores são de 0 a 1 0.7
projectName {PROJECT-NAME} O nome do seu projeto. Esse valor diferencia maiúsculas de minúsculas. EmailApp
multilingual true Um valor booliano que permite ter enunciados em vários idiomas no conjunto de dados e, quando o modelo é implantado, é possível consultar o modelo em qualquer idioma com suporte, (não necessariamente incluído nos documentos de treinamento). Consulte o Suporte de idioma para obter mais informações sobre códigos de idioma com suporte. true
sublists [] Matriz que contém sublistas. Cada sublista é uma chave e os valores associados. []
compositionSetting {COMPOSITION-SETTING} Regra que define como gerenciar vários componentes na entidade. As opções são combineComponents ou separateComponents. combineComponents
synonyms [] Matriz contendo todos os sinônimos sinônimo
language {LANGUAGE-CODE} Uma cadeia de caracteres que especifica o código de idioma dos enunciados, das expressões regulares e dos sinônimos usados no projeto. Se o projeto for multilíngue, escolha o código de idioma da maioria dos enunciados. en-us
intents [] Matriz que contém todas as intenções presentes no projeto. Essas são as intenções que serão classificadas com base nos enunciados. []
entities [] Matriz que contém todas as entidades em seu projeto. Essas são as entidades que serão extraídas de seus enunciados. Cada entidade pode ter componentes opcionais adicionais definidos com eles: lista, predefinida ou regex. []
dataset {DATASET} O conjunto de teste para o qual esse arquivo será exibido, quando dividido antes do treinamento. Saiba mais sobre a divisão de dados aqui. Os valores possíveis para esse campo são Train e Test. Train
category O tipo de entidade associada ao intervalo de texto especificado. Entity1
offset A posição inclusiva de caractere do início da entidade. 5
length O comprimento de caracteres da entidade. 5
listKey Um valor normalizado para a lista de sinônimos a serem mapeados novamente na previsão. Microsoft
values {VALUES-FOR-LIST} Uma lista de cadeias de caracteres separadas por vírgulas que terão uma correspondência exata para extração e mapa para a chave de lista. "msft", "microsoft", "MS"
regexKey {REGEX-PATTERN} Um valor normalizado para a expressão regular a ser mapeada para a previsão. ProductPattern1
regexPattern {REGEX-PATTERN} uma expressão regular. ^pre
prebuilts {PREBUILT-COMPONENTS} Os componentes predefinidos que podem extrair tipos comuns. Encontre a lista de predefinições que você pode adicionar aqui. Quantity.Number
requiredComponents {REQUIRED-COMPONENTS} Uma configuração que especifica um requisito de que um componente específico esteja presente para retornar a entidade. Você pode saber mais aqui. Os valores possíveis são learned, regex, list ou prebuilts "learned", "prebuilt"

Formato de arquivo do enunciado

A CLU oferece a opção de carregar seu enunciado diretamente no projeto, em vez de digitá-los um por um. Você pode encontrar essa opção na página de rotulagem de dados do projeto.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Chave Espaço reservado Valor Exemplo
text {Utterance-Text} O texto do seu enunciado Teste
language {LANGUAGE-CODE} Uma cadeia de caracteres que especifica o código de idioma dos enunciados usados no projeto. Se o projeto for multilíngue, escolha o código de idioma da maioria dos enunciados. Consulte o Suporte de idioma para obter mais informações sobre códigos de idioma com suporte. en-us
dataset {DATASET} O conjunto de teste para o qual esse arquivo será exibido, quando dividido antes do treinamento. Saiba mais sobre a divisão de dados aqui. Os valores possíveis para esse campo são Train e Test. Train
intent {intent} A intenção atribuída intent1
entity {entity} Entidade a ser extraída entity1
category O tipo de entidade associada ao intervalo de texto especificado. Entity1
offset A posição inclusiva de caractere do início do texto. 0
length O tamanho da caixa delimitadora em termos de caracteres UTF-16. O treinamento só considera os dados nessa região. 500

Próximas etapas