Share via


Formati di dati accettati dalla comprensione del linguaggio di conversazione

Se si caricano i dati in CLU, è necessario seguire un formato specifico, usare questo articolo per altre informazioni sui formati di dati accettati.

Importare il formato di file di progetto

Se si importa un progetto in CLU, il file caricato deve essere nel formato seguente.

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Chiave Segnaposto Valore Esempio
{API-VERSION} Versione dell'API che si sta chiamando. 2023-04-01
confidenceThreshold {CONFIDENCE-THRESHOLD} Questo è il punteggio di soglia al di sotto del quale la finalità verrà stimata come nessuna finalità. I valori provengono da 0 a 1 0.7
projectName {PROJECT-NAME} Nome del progetto. Per questo valore viene applicata la distinzione tra maiuscole e minuscole. EmailApp
multilingual true Valore booleano che consente di avere espressioni in più lingue nel set di dati e quando il modello viene distribuito, è possibile eseguire query sul modello in qualsiasi linguaggio supportato (non necessariamente incluso nei documenti di training). Per altre informazioni sui codici linguistici supportati, vedere Supporto della lingua . true
sublists [] Matrice contenente sottoliste. Ogni sottolista è una chiave e i relativi valori associati. []
compositionSetting {COMPOSITION-SETTING} Regola che definisce come gestire più componenti nell'entità. Le opzioni sono combineComponents o separateComponents. combineComponents
synonyms [] Matrice contenente tutti i sinonimi sinonimo
language {LANGUAGE-CODE} Stringa che specifica il codice del linguaggio per le espressioni, i sinonimi e le espressioni regolari usate nel progetto. Se il progetto è un progetto multilingue, scegliere il codice linguistico della maggior parte delle espressioni. en-us
intents [] Matrice contenente tutte le finalità presenti nel progetto. Si tratta delle finalità che verranno classificate dalle espressioni. []
entities [] Matrice contenente tutte le entità nel progetto. Si tratta delle entità che verranno estratte dalle espressioni. Ogni entità può avere componenti facoltativi aggiuntivi definiti con essi: elenco, predefinito o regex. []
dataset {DATASET} Set di test a cui verrà eseguita la suddivisione dell'espressione prima del training. Altre informazioni sulla suddivisione dei dati sono disponibili qui . I valori possibili per questo campo sono Train e Test. Train
category Tipo di entità associata all'intervallo di testo specificato. Entity1
offset Posizione del carattere inclusivo dell'inizio dell'entità. 5
length Lunghezza del carattere dell'entità. 5
listKey Valore normalizzato per l'elenco di sinonimi a cui eseguire il mapping nella stima. Microsoft
values {VALUES-FOR-LIST} Elenco di stringhe separate da virgole corrispondenti esattamente per l'estrazione e il mapping alla chiave dell'elenco. "msft", "microsoft", "MS"
regexKey {REGEX-PATTERN} Valore normalizzato per l'espressione regolare a cui eseguire il mapping nella stima. ProductPattern1
regexPattern {REGEX-PATTERN} Espressione regolare. ^pre
prebuilts {PREBUILT-COMPONENTS} Componenti predefiniti che possono estrarre tipi comuni. È possibile trovare l'elenco dei precompilati che è possibile aggiungere qui. Quantity.Number
requiredComponents {REQUIRED-COMPONENTS} Impostazione che specifica un requisito che deve essere presente un componente specifico per restituire l'entità. Per altre informazioni, fare clic qui. I valori possibili sono learned, regex, listo prebuilts "learned", "prebuilt"

Formato di file di espressione

CLU offre la possibilità di caricare l'espressione direttamente nel progetto invece di digitarle una per una. È possibile trovare questa opzione nella pagina di etichettatura dei dati per il progetto.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Chiave Segnaposto Valore Esempio
text {Utterance-Text} Testo dell'espressione Test
language {LANGUAGE-CODE} Stringa che specifica il codice della lingua per le espressioni usate nel progetto. Se il progetto è un progetto multilingue, scegliere il codice linguistico della maggior parte delle espressioni. Per altre informazioni sui codici linguistici supportati, vedere Supporto della lingua . en-us
dataset {DATASET} Set di test a cui verrà eseguita la suddivisione dell'espressione prima del training. Altre informazioni sulla suddivisione dei dati sono disponibili qui . I valori possibili per questo campo sono Train e Test. Train
intent {intent} Finalità assegnata intent1
entity {entity} Entità da estrarre entity1
category Tipo di entità associata all'intervallo di testo specificato. Entity1
offset Posizione del carattere inclusivo dell'inizio del testo. 0
length Lunghezza del rettangolo di selezione in termini di caratteri UTF16. Il training considera solo i dati in questa area. 500

Passaggi successivi