Поделиться через


Форматы данных, принимаемые распознаванием устной речи

Если вы отправляете данные в CLU, они должны соответствовать определенному формату. Из этой статьи вы узнаете больше о допустимых форматах данных.

Импорт формата файла проекта

Если вы импортируете проект в CLU, отправленный файл должен иметь следующий формат.

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Клавиши Заполнитель Значение Пример
{API-VERSION} Версия вызываемого API. 2023-04-01
confidenceThreshold {CONFIDENCE-THRESHOLD} Это пороговая оценка, ниже которой намерение будет прогнозироваться как намерение none. Значения : от 0 до 1 0.7
projectName {PROJECT-NAME} Имя проекта. Это значение учитывает регистр. EmailApp
multilingual true Логическое значение, позволяющее иметь речевые фрагменты на нескольких языках в наборе данных, и при развертывании модели вы можете запрашивать модель на любом поддерживаемом языке (не обязательно включенном в учебные документы. Дополнительные сведения о поддерживаемых кодах языков см. в разделе Поддержка языков. true
sublists [] Массив, содержащий подлисты. Каждый подлист является ключом и связанными с ним значениями. []
compositionSetting {COMPOSITION-SETTING} Правило, определяющее, как управлять несколькими компонентами в сущности. Параметры: combineComponents или separateComponents. combineComponents
synonyms [] Массив со всеми синонимами синоним
language {LANGUAGE-CODE} Строка, указывающая код языка для речевых фрагментов, синонимов и регулярных выражений, используемых в проекте. Если проект является многоязычным, выберите код языка большинства речевых фрагментов. en-us
intents [] Массив со всеми намерениями в проекте. Это намерения, которые будут классифицированы из ваших речевых фрагментов. []
entities [] Массив со всеми сущностями в проекте. Это типы сущностей, которые будут извлекаться из речевых фрагментов. Каждая сущность может иметь дополнительные необязательные компоненты, определенные с их помощью: список, предварительно созданные или регулярные выражения. []
dataset {DATASET} Тестовый набор, в который будет перемещен этот речевой фрагмент при разделении перед обучением. См. дополнительные сведения о разделении данных. Возможные значения для этого поля: Train и Test. Train
category Тип сущности, связанной с заданным фрагментом текста. Entity1
offset Позиция начального символа сущности (включая сам символ). 5
length Длина символа сущности. 5
listKey Нормализованное значение для списка синонимов, с которые необходимо сопоставить в прогнозе. Microsoft
values {VALUES-FOR-LIST} Список строк, разделенных запятыми, которые будут точно сопоставлены для извлечения и сопоставления с ключом списка. "msft", "microsoft", "MS"
regexKey {REGEX-PATTERN} Нормализованное значение регулярного выражения для сопоставления с прогнозом. ProductPattern1
regexPattern {REGEX-PATTERN} Регулярное выражение. ^pre
prebuilts {PREBUILT-COMPONENTS} Предварительно созданные компоненты, которые могут извлекать общие типы. Список готовых компонентов, которые можно добавить, можно найти здесь. Quantity.Number
requiredComponents {REQUIRED-COMPONENTS} Параметр , указывающий требование о наличии определенного компонента для возврата сущности. Дополнительные сведения см. здесь. Возможные значения: learned, regex, listили . prebuilts "learned", "prebuilt"

Формат файла речевых фрагментов

CLU предоставляет возможность передать речевой фрагмент непосредственно в проект, а не вводить их по одному. Этот параметр можно найти на странице маркировки данных проекта.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Клавиши Заполнитель Значение Пример
text {Utterance-Text} Текст речевого фрагмента Тестирование
language {LANGUAGE-CODE} Строка, указывающая код языка для речевых фрагментов, используемых в проекте. Если проект является многоязычным, выберите код языка большинства речевых фрагментов. Дополнительные сведения о поддерживаемых кодах языков см. в разделе Поддержка языков. en-us
dataset {DATASET} Тестовый набор, в который будет перемещен этот речевой фрагмент при разделении перед обучением. См. дополнительные сведения о разделении данных. Возможные значения для этого поля: Train и Test. Train
intent {intent} Назначенное намерение intent1
entity {entity} Извлекаемая сущность entity1
category Тип сущности, связанной с заданным фрагментом текста. Entity1
offset Позиция символа начала текста (включая сам символ). 0
length Длина ограничивающего прямоугольника в символах UTF16. При обучении учитываются данные только в этом регионе. 500

Дальнейшие действия

  • Вы можете импортировать данные с метками непосредственно в свой проект. Дополнительные сведения см. в разделе Импорт проекта.
  • Дополнительные сведения о добавлении меток к данным приведены в этой статье. Завершив добавление меток к данным, можно приступить к обучению модели.