Partage via


Formats de données acceptés par la compréhension du langage courant

Si vous chargez vos données dans la compréhension du langage courant, elles doivent respecter un format spécifique. Lisez cet article pour en savoir plus sur les formats de données acceptés.

Importer le format des fichiers projet

Si vous importez un projet dans la compréhension du langage courant, le fichier chargé doit être au format suivant :

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Clé Espace réservé Valeur Exemple
{API-VERSION} Version de l’API que vous appelez. 2023-04-01
confidenceThreshold {CONFIDENCE-THRESHOLD} Il s’agit du score seuil en dessous duquel l’intention est prédite en tant qu’intention None. Les valeurs sont comprises entre 0 et 1. 0.7
projectName {PROJECT-NAME} Nom de votre projet. Vous devez respecter la casse de cette valeur. EmailApp
multilingual true Valeur booléenne qui vous permet d’avoir des énoncés en plusieurs langues dans votre jeu de données. Lorsque votre modèle est déployé, vous pouvez interroger le modèle dans n’importe quelle langue prise en charge (pas nécessairement incluse dans vos documents d’apprentissage). Pour plus d’informations sur les codes de langue pris en charge, consultez Prise en charge des langues. true
sublists [] Tableau contenant des sous-listes. Chaque sous-liste est une clé avec ses valeurs associées. []
compositionSetting {COMPOSITION-SETTING} Règle qui définit comment gérer plusieurs composants dans votre entité. Les options sont combineComponents ou separateComponents. combineComponents
synonyms [] Tableau contenant tous les synonymes. synonyme
language {LANGUAGE-CODE} Chaîne spécifiant le code de langue des énoncés, des synonymes et des expressions régulières utilisés dans votre projet. Si votre projet est multilingue, choisissez le code de langue de la majorité des énoncés. en-us
intents [] Tableau contenant toutes les intentions que vous avez dans le projet. Ces intentions sont classées à partir de vos énoncés. []
entities [] Tableau contenant toutes les entités de votre projet. Ces entités sont extraites de vos énoncés. Chaque entité peut être accompagnée d’autres composants facultatifs : composants de liste, prédéfinis ou regex. []
dataset {DATASET} Jeu de test auquel cet énoncé est envoyé lors du fractionnement avant l’entraînement. Pour en savoir plus sur le fractionnement des données, consultez Entraîner votre modèle de compréhension du langage courant. Les valeurs possibles pour cette propriété sont Train et Test. Train
category Type d’entité associé à l’étendue de texte spécifiée. Entity1
offset La position du caractère inclusif du début de l'entité. 5
length Longueur du caractère de l’entité. 5
listKey Valeur normalisée pour la liste des synonymes à mapper dans la prédiction. Microsoft
values {VALUES-FOR-LIST} Liste de chaînes séparées par des virgules qui sont mises en correspondance de manière exacte pour l’extraction et qui sont mappées à la clé de liste. "msft", "microsoft", "MS"
regexKey {REGEX-PATTERN} Valeur normalisée pour l’expression régulière à mapper dans la prédiction. ProductPattern1
regexPattern {REGEX-PATTERN} Expression régulière. ^pre
prebuilts {PREBUILT-COMPONENTS} Composants prédéfinis qui peuvent extraire les types courants. Pour obtenir la liste des composants prédéfinis que vous pouvez ajouter, consultez Composants d’entité prédéfinis pris en charge. Quantity.Number
requiredComponents {REQUIRED-COMPONENTS} Paramètre spécifiant la présence obligatoire d’un composant spécifique pour retourner l’entité. Pour en savoir plus, consultez Composants d’entité. Les valeurs possibles sont learned, regex, list ou prebuilts. "learned", "prebuilt"

Format de fichier de l’énoncé

La compréhension du langage courant vous permet de charger vos énoncés directement dans le projet plutôt que de les taper un par un. Vous trouverez cette option dans la page Étiquetage des données de votre projet.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Clé Espace réservé Valeur Exemple
text {Utterance-Text} Texte de votre énoncé. Test
language {LANGUAGE-CODE} Chaîne spécifiant le code de langue des énoncés utilisés dans votre projet. Si votre projet est multilingue, choisissez le code de langue de la majorité des énoncés. Pour plus d’informations sur les codes de langue pris en charge, consultez Prise en charge des langues. en-us
dataset {DATASET} Jeu de test auquel cet énoncé est envoyé lors du fractionnement avant l’entraînement. Pour en savoir plus sur le fractionnement des données, consultez Entraîner votre modèle de compréhension du langage courant. Les valeurs possibles pour cette propriété sont Train et Test. Train
intent {intent} Intention affectée. intent1
entity {entity} Entité à extraire. entity1
category Type d’entité associé à l’étendue de texte spécifiée. Entity1
offset Position de caractère inclusive du début du texte. 0
length Longueur du rectangle englobant en caractères UTF-16. L’apprentissage prend uniquement en compte les données de cette région. 500