Formati di dati accettati dalla comprensione del linguaggio di conversazione

Articolo
12/19/2023

Se si caricano i dati in CLU, è necessario seguire un formato specifico, usare questo articolo per altre informazioni sui formati di dati accettati.

Importare il formato di file di progetto

Se si importa un progetto in CLU, il file caricato deve essere nel formato seguente.

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Chiave	Segnaposto	Valore	Esempio
`{API-VERSION}`	Versione dell'API che si sta chiamando.	`2023-04-01`
`confidenceThreshold`	`{CONFIDENCE-THRESHOLD}`	Questo è il punteggio di soglia al di sotto del quale la finalità verrà stimata come nessuna finalità. I valori provengono da `0` a `1`	`0.7`
`projectName`	`{PROJECT-NAME}`	Nome del progetto. Per questo valore viene applicata la distinzione tra maiuscole e minuscole.	`EmailApp`
`multilingual`	`true`	Valore booleano che consente di avere espressioni in più lingue nel set di dati e quando il modello viene distribuito, è possibile eseguire query sul modello in qualsiasi linguaggio supportato (non necessariamente incluso nei documenti di training). Per altre informazioni sui codici linguistici supportati, vedere Supporto della lingua .	`true`
`sublists`	`[]`	Matrice contenente sottoliste. Ogni sottolista è una chiave e i relativi valori associati.	`[]`
`compositionSetting`	`{COMPOSITION-SETTING}`	Regola che definisce come gestire più componenti nell'entità. Le opzioni sono `combineComponents` o `separateComponents`.	`combineComponents`
`synonyms`	`[]`	Matrice contenente tutti i sinonimi	sinonimo
`language`	`{LANGUAGE-CODE}`	Stringa che specifica il codice del linguaggio per le espressioni, i sinonimi e le espressioni regolari usate nel progetto. Se il progetto è un progetto multilingue, scegliere il codice linguistico della maggior parte delle espressioni.	`en-us`
`intents`	`[]`	Matrice contenente tutte le finalità presenti nel progetto. Si tratta delle finalità che verranno classificate dalle espressioni.	`[]`
`entities`	`[]`	Matrice contenente tutte le entità nel progetto. Si tratta delle entità che verranno estratte dalle espressioni. Ogni entità può avere componenti facoltativi aggiuntivi definiti con essi: elenco, predefinito o regex.	`[]`
`dataset`	`{DATASET}`	Set di test a cui verrà eseguita la suddivisione dell'espressione prima del training. Altre informazioni sulla suddivisione dei dati sono disponibili qui . I valori possibili per questo campo sono `Train` e `Test`.	`Train`
`category`		Tipo di entità associata all'intervallo di testo specificato.	`Entity1`
`offset`		Posizione del carattere inclusivo dell'inizio dell'entità.	`5`
`length`		Lunghezza del carattere dell'entità.	`5`
`listKey`		Valore normalizzato per l'elenco di sinonimi a cui eseguire il mapping nella stima.	`Microsoft`
`values`	`{VALUES-FOR-LIST}`	Elenco di stringhe separate da virgole corrispondenti esattamente per l'estrazione e il mapping alla chiave dell'elenco.	`"msft", "microsoft", "MS"`
`regexKey`	`{REGEX-PATTERN}`	Valore normalizzato per l'espressione regolare a cui eseguire il mapping nella stima.	`ProductPattern1`
`regexPattern`	`{REGEX-PATTERN}`	Espressione regolare.	`^pre`
`prebuilts`	`{PREBUILT-COMPONENTS}`	Componenti predefiniti che possono estrarre tipi comuni. È possibile trovare l'elenco dei precompilati che è possibile aggiungere qui.	`Quantity.Number`
`requiredComponents`	`{REQUIRED-COMPONENTS}`	Impostazione che specifica un requisito che deve essere presente un componente specifico per restituire l'entità. Per altre informazioni, fare clic qui. I valori possibili sono `learned`, `regex`, `list`o `prebuilts`	`"learned", "prebuilt"`

Formato di file di espressione

CLU offre la possibilità di caricare l'espressione direttamente nel progetto invece di digitarle una per una. È possibile trovare questa opzione nella pagina di etichettatura dei dati per il progetto.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Chiave	Segnaposto	Valore	Esempio
`text`	`{Utterance-Text}`	Testo dell'espressione	Test
`language`	`{LANGUAGE-CODE}`	Stringa che specifica il codice della lingua per le espressioni usate nel progetto. Se il progetto è un progetto multilingue, scegliere il codice linguistico della maggior parte delle espressioni. Per altre informazioni sui codici linguistici supportati, vedere Supporto della lingua .	`en-us`
`dataset`	`{DATASET}`	Set di test a cui verrà eseguita la suddivisione dell'espressione prima del training. Altre informazioni sulla suddivisione dei dati sono disponibili qui . I valori possibili per questo campo sono `Train` e `Test`.	`Train`
`intent`	`{intent}`	Finalità assegnata	intent1
`entity`	`{entity}`	Entità da estrarre	entity1
`category`		Tipo di entità associata all'intervallo di testo specificato.	`Entity1`
`offset`		Posizione del carattere inclusivo dell'inizio del testo.	`0`
`length`		Lunghezza del rettangolo di selezione in termini di caratteri UTF16. Il training considera solo i dati in questa area.	`500`

Passaggi successivi

È possibile importare direttamente i dati etichettati nel progetto. Per altre informazioni , vedere Importare il progetto .
Per altre informazioni sull'etichettatura dei dati, vedere l'articolo sulle procedure . Al termine dell'etichettatura dei dati, è possibile eseguire il training del modello.

Share via

Formati di dati accettati dalla comprensione del linguaggio di conversazione

Importare il formato di file di progetto

Formato di file di espressione

Passaggi successivi

Risorse aggiuntive