Formatos de dados aceites pela compreensão da linguagem de conversação

Se estiver a carregar os seus dados para a CLU, este tem de seguir um formato específico, utilize este artigo para saber mais sobre os formatos de dados aceites.

Importar formato de ficheiro de projeto

Se estiver a importar um projeto para a CLU, o ficheiro carregado tem de estar no seguinte formato.

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Chave Marcador de posição Valor Exemplo
{API-VERSION} A versão da API que está a chamar. 2023-04-01
confidenceThreshold {CONFIDENCE-THRESHOLD} Esta é a classificação de limiar abaixo da qual a intenção será prevista como nenhuma intenção. Os valores são de 0 para 1 0.7
projectName {PROJECT-NAME} O nome do seu projeto. Este valor é sensível às maiúsculas e minúsculas. EmailApp
multilingual true Um valor booleano que lhe permite ter expressões em vários idiomas no seu conjunto de dados e quando o modelo é implementado pode consultar o modelo em qualquer idioma suportado (não necessariamente incluído nos seus documentos de preparação. Veja Suporte de idiomas para obter mais informações sobre os códigos de idioma suportados. true
sublists [] Matriz que contém sublists. Cada sublist é uma chave e os respetivos valores associados. []
compositionSetting {COMPOSITION-SETTING} Regra que define como gerir múltiplos componentes na sua entidade. As opções são combineComponents ou separateComponents. combineComponents
synonyms [] Matriz que contém todos os sinónimos sinónimo
language {LANGUAGE-CODE} Uma cadeia que especifica o código de idioma para as expressões, sinónimos e expressões regulares utilizadas no projeto. Se o seu projeto for um projeto multilingue, escolha o código de idioma da maioria das expressões. en-us
intents [] Matriz que contém todas as intenções que tem no projeto. Estas são as intenções que serão classificadas a partir das suas expressões. []
entities [] Matriz que contém todas as entidades no seu projeto. Estas são as entidades que serão extraídas das suas expressões. Cada entidade pode ter componentes opcionais adicionais definidos com eles: lista, pré-criado ou regex. []
dataset {DATASET} O conjunto de teste para o qual esta expressão será dividida antes da preparação. Saiba mais sobre a divisão de dados aqui . Os valores possíveis para este campo são Train e Test. Train
category O tipo de entidade associada ao intervalo de texto especificado. Entity1
offset A posição de caráter inclusivo do início da entidade. 5
length O comprimento do caráter da entidade. 5
listKey Um valor normalizado para a lista de sinónimos a mapear novamente na predição. Microsoft
values {VALUES-FOR-LIST} Uma lista de cadeias separadas por vírgulas que serão correspondidas exatamente para extração e mapear para a chave de lista. "msft", "microsoft", "MS"
regexKey {REGEX-PATTERN} Um valor normalizado para a expressão normal a mapear novamente na predição. ProductPattern1
regexPattern {REGEX-PATTERN} Uma expressão normal. ^pre
prebuilts {PREBUILT-COMPONENTS} Os componentes pré-criados que podem extrair tipos comuns. Pode encontrar a lista de pré-criados que pode adicionar aqui. Quantity.Number
requiredComponents {REQUIRED-COMPONENTS} Uma definição que especifica um requisito para que um componente específico esteja presente para devolver a entidade. Pode saber mais aqui. Os valores possíveis são learned, regex, listou prebuilts "learned", "prebuilt"

Formato de ficheiro de expressão

A CLU oferece a opção de carregar a sua expressão diretamente para o projeto em vez de as escrever uma a uma. Pode encontrar esta opção na página de etiquetagem de dados do seu projeto.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Chave Marcador de posição Valor Exemplo
text {Utterance-Text} O seu texto de expressão Testar
language {LANGUAGE-CODE} Uma cadeia que especifica o código de idioma para as expressões utilizadas no projeto. Se o seu projeto for um projeto multilingue, escolha o código de idioma da maioria das expressões. Veja Suporte de idiomas para obter mais informações sobre os códigos de idioma suportados. en-us
dataset {DATASET} O conjunto de teste para o qual esta expressão será dividida antes da preparação. Saiba mais sobre a divisão de dados aqui . Os valores possíveis para este campo são Train e Test. Train
intent {intent} A intenção atribuída intent1
entity {entity} Entidade a extrair entidade1
category O tipo de entidade associada ao intervalo de texto especificado. Entity1
offset A posição de caráter inclusivo do início do texto. 0
length O comprimento da caixa delimitadora em termos de carateres UTF16. A formação considera apenas os dados nesta região. 500

Passos seguintes