Форматы данных, принимаемые распознаванием устной речи

Статья
12/19/2023

Если вы отправляете данные в CLU, они должны соответствовать определенному формату. Из этой статьи вы узнаете больше о допустимых форматах данных.

Импорт формата файла проекта

Если вы импортируете проект в CLU, отправленный файл должен иметь следующий формат.

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Клавиши	Заполнитель	Значение	Пример
`{API-VERSION}`	Версия вызываемого API.	`2023-04-01`
`confidenceThreshold`	`{CONFIDENCE-THRESHOLD}`	Это пороговая оценка, ниже которой намерение будет прогнозироваться как намерение none. Значения : от `0` до `1`	`0.7`
`projectName`	`{PROJECT-NAME}`	Имя проекта. Это значение учитывает регистр.	`EmailApp`
`multilingual`	`true`	Логическое значение, позволяющее иметь речевые фрагменты на нескольких языках в наборе данных, и при развертывании модели вы можете запрашивать модель на любом поддерживаемом языке (не обязательно включенном в учебные документы. Дополнительные сведения о поддерживаемых кодах языков см. в разделе Поддержка языков.	`true`
`sublists`	`[]`	Массив, содержащий подлисты. Каждый подлист является ключом и связанными с ним значениями.	`[]`
`compositionSetting`	`{COMPOSITION-SETTING}`	Правило, определяющее, как управлять несколькими компонентами в сущности. Параметры: `combineComponents` или `separateComponents`.	`combineComponents`
`synonyms`	`[]`	Массив со всеми синонимами	синоним
`language`	`{LANGUAGE-CODE}`	Строка, указывающая код языка для речевых фрагментов, синонимов и регулярных выражений, используемых в проекте. Если проект является многоязычным, выберите код языка большинства речевых фрагментов.	`en-us`
`intents`	`[]`	Массив со всеми намерениями в проекте. Это намерения, которые будут классифицированы из ваших речевых фрагментов.	`[]`
`entities`	`[]`	Массив со всеми сущностями в проекте. Это типы сущностей, которые будут извлекаться из речевых фрагментов. Каждая сущность может иметь дополнительные необязательные компоненты, определенные с их помощью: список, предварительно созданные или регулярные выражения.	`[]`
`dataset`	`{DATASET}`	Тестовый набор, в который будет перемещен этот речевой фрагмент при разделении перед обучением. См. дополнительные сведения о разделении данных. Возможные значения для этого поля: `Train` и `Test`.	`Train`
`category`		Тип сущности, связанной с заданным фрагментом текста.	`Entity1`
`offset`		Позиция начального символа сущности (включая сам символ).	`5`
`length`		Длина символа сущности.	`5`
`listKey`		Нормализованное значение для списка синонимов, с которые необходимо сопоставить в прогнозе.	`Microsoft`
`values`	`{VALUES-FOR-LIST}`	Список строк, разделенных запятыми, которые будут точно сопоставлены для извлечения и сопоставления с ключом списка.	`"msft", "microsoft", "MS"`
`regexKey`	`{REGEX-PATTERN}`	Нормализованное значение регулярного выражения для сопоставления с прогнозом.	`ProductPattern1`
`regexPattern`	`{REGEX-PATTERN}`	Регулярное выражение.	`^pre`
`prebuilts`	`{PREBUILT-COMPONENTS}`	Предварительно созданные компоненты, которые могут извлекать общие типы. Список готовых компонентов, которые можно добавить, можно найти здесь.	`Quantity.Number`
`requiredComponents`	`{REQUIRED-COMPONENTS}`	Параметр , указывающий требование о наличии определенного компонента для возврата сущности. Дополнительные сведения см. здесь. Возможные значения: `learned`, `regex`, `list`или . `prebuilts`	`"learned", "prebuilt"`

Формат файла речевых фрагментов

CLU предоставляет возможность передать речевой фрагмент непосредственно в проект, а не вводить их по одному. Этот параметр можно найти на странице маркировки данных проекта.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Клавиши	Заполнитель	Значение	Пример
`text`	`{Utterance-Text}`	Текст речевого фрагмента	Тестирование
`language`	`{LANGUAGE-CODE}`	Строка, указывающая код языка для речевых фрагментов, используемых в проекте. Если проект является многоязычным, выберите код языка большинства речевых фрагментов. Дополнительные сведения о поддерживаемых кодах языков см. в разделе Поддержка языков.	`en-us`
`dataset`	`{DATASET}`	Тестовый набор, в который будет перемещен этот речевой фрагмент при разделении перед обучением. См. дополнительные сведения о разделении данных. Возможные значения для этого поля: `Train` и `Test`.	`Train`
`intent`	`{intent}`	Назначенное намерение	intent1
`entity`	`{entity}`	Извлекаемая сущность	entity1
`category`		Тип сущности, связанной с заданным фрагментом текста.	`Entity1`
`offset`		Позиция символа начала текста (включая сам символ).	`0`
`length`		Длина ограничивающего прямоугольника в символах UTF16. При обучении учитываются данные только в этом регионе.	`500`

Дальнейшие действия

Вы можете импортировать данные с метками непосредственно в свой проект. Дополнительные сведения см. в разделе Импорт проекта.
Дополнительные сведения о добавлении меток к данным приведены в этой статье. Завершив добавление меток к данным, можно приступить к обучению модели.

Поделиться через

Форматы данных, принимаемые распознаванием устной речи

Импорт формата файла проекта

Формат файла речевых фрагментов

Дальнейшие действия

Обратная связь

Обратная связь

Дополнительные ресурсы