Поделиться через


AssemblyAI (предварительная версия)

Транскрибирование и извлечение данных из звука с помощью ИИ службы "Речь" AssemblyAI.

Этот соединитель доступен в следующих продуктах и регионах:

Услуга Class Регионы
Copilot Studio Премия Все регионы Power Automate , кроме следующих:
     - Правительство США (GCC)
     - Правительство США (GCC High)
     — Облако Китая, управляемое 21Vianet
     - Министерство обороны США (DoD)
Логические приложения Стандарт Все регионы Logic Apps , кроме следующих:
     — Регионы Azure для государственных организаций
     — Регионы Azure Для Китая
     - Министерство обороны США (DoD)
Power Apps Премия Все регионы Power Apps , кроме следующих:
     - Правительство США (GCC)
     - Правительство США (GCC High)
     — Облако Китая, управляемое 21Vianet
     - Министерство обороны США (DoD)
Power Automate Премия Все регионы Power Automate , кроме следующих:
     - Правительство США (GCC)
     - Правительство США (GCC High)
     — Облако Китая, управляемое 21Vianet
     - Министерство обороны США (DoD)
Контакт
Имя Support
URL https://www.assemblyai.com/docs/
Адрес электронной почты support@assemblyai.com
Метаданные соединителя
Publisher AssemblyAI
Веб-сайт https://www.assemblyai.com
Политика конфиденциальности https://www.assemblyai.com/legal/privacy-policy
Категории AI

С помощью соединителя AssemblyAI можно использовать модели AssemblyAI для обработки звуковых данных, транскрибируя их с помощью моделей распознавания речи, анализируя их с помощью моделей аудиоразведки, а также создавая создаваемые функции на основе этих функций с помощью LLM.

  • Речь в тексте , включая множество настраиваемых функций, таких как диаризация говорящего, настраиваемая орфография, пользовательский словарь и т. д.
  • Модели аналитики аудио — это дополнительные модели ИИ, доступные и настроенные с помощью конфигурации транскрибирования.
  • LeMUR позволяет применять различные модели LLM к расшифровкам без необходимости создавать собственную инфраструктуру RAG для очень больших расшифровок.

Предпосылки

Для продолжения вам потребуется следующее:

Получение учетных данных

Вы можете бесплатно получить ключ API AssemblyAI, зарегистрироваться для учетной записи и скопировать ключ API с панели мониторинга.

Начало работы с соединителем

Выполните следующие действия, чтобы транскрибировать звук с помощью соединителя AssemblyAI.

Отправка файла

Чтобы транскрибировать звуковой файл с помощью AssemblyAI, файл должен быть доступен для AssemblyAI. Если звуковой файл уже доступен по URL-адресу, можно использовать существующий URL-адрес.

В противном случае можно использовать Upload a File действие для отправки файла в AssemblyAI. Вы получите URL-адрес файла, который можно использовать только для транскрибирования с помощью ключа API. После транскрибирования файла файл будет удален с серверов AssemblyAI.

Транскрибирование звука

Чтобы транскрибировать звук, настройте Audio URL параметр с помощью URL-адреса звукового файла. Затем настройте дополнительные параметры, чтобы включить дополнительные функции распознавания речи и модели аудиоразведки .

Результатом действия Transcribe Audio является запись в очереди, которая начнет обрабатываться немедленно. Чтобы получить завершенную расшифровку, у вас есть два варианта:

  1. Обработка веб-перехватчика готовой расшифровки
  2. Опрос состояния расшифровки

Обработка веб-перехватчика готовой расшифровки

Если вы не хотите обрабатывать веб-перехватчик с помощью Logic Apps или Power Automate, настройте Webhook URL параметр в действии Transcribe Audio и реализуйте веб-перехватчик после документации по веб-перехватчику AssemblyAI.

Чтобы обрабатывать веб-перехватчик с помощью Logic Apps или Power Automate, выполните следующие действия:

  1. Создание отдельного приложения логики или потока Power Automate

  2. Настройте When an HTTP request is received в качестве триггера:

    • Установите Who Can Trigger The Flow? на Anyone
    • Установите значение Request Body JSON Schema :
      {
        "type": "object",
        "properties": {
          "transcript_id": {
            "type": "string"
          },
          "status": {
            "type": "string"
          }
        }
      }
      
    • Установите Method на POST
  3. Добавьте действие AssemblyAI Get Transcript , передавая transcript_id триггер в Transcript ID параметр.

  4. Прежде чем делать что-либо еще, необходимо проверить, является completed ли Status он или error. Condition Добавьте действие, которое проверяет, является errorли Status результат выходных Get Transcript данных:

    • True В ветви добавьте Terminate действие
      • Задайте для значения значение StatusFailed
      • Задайте для значения значение CodeTranscript Error
      • Передайте выходные ErrorGet Transcript данные Message в параметр.
    • Вы можете оставить ветвь пустой False .

    Теперь вы можете добавить любое действие после Condition того, как известно состояние completedрасшифровки, и вы можете получить любое из выходных свойств Get Transcript действия.

  5. Сохраните приложение логики или поток. Будет HTTP URL создано для триггера When an HTTP request is received . HTTP URL Скопируйте и вернитесь к исходному приложению логики или потоку.

  6. В исходном приложении логики или потоке Transcribe Audio обновите действие. HTTP URL Вставьте скопированные ранее данные в Webhook URL параметр и сохраните его.

Когда состояние расшифровки становится completed или errorсборкаAI отправляет HTTP-запрос POST в URL-адрес веб-перехватчика, который будет обрабатываться другим приложением логики или потоком.

В качестве альтернативы использованию веб-перехватчика можно провести опрос состояния расшифровки, как описано в следующем разделе.

Опрос состояния расшифровки

Вы можете пропросить состояние расшифровки, выполнив следующие действия.

  • Initialize variable Добавление действия

    • Установите Name на transcript_status
    • Установите Type на String
    • Status Сохранение выходных Transcribe Audio данных в параметре Value
  • Do until Добавление действия

    • Loop Until Настройте параметр со следующим кодом Fx:
      or(equals(variables('transcript_status'), 'completed'), equals(variables('transcript_status'), 'error'))
      
      Этот код проверяет, является completed ли transcript_status переменная или error.
    • Count Настройка параметра в86400
    • Timeout Настройка параметра вPT24H

    В действии Do until добавьте следующие действия:

    • Delay Добавление действия, ожидающего одну секунду
    • Get Transcript Добавьте действие и передайте ID выходные Transcribe Audio данные Transcript ID в параметр.
    • Set variable Добавление действия
      • Установите Name на transcript_status
      • Status Передача выходных Get Transcript данных параметру Value

    Цикл Do until будет продолжаться до завершения расшифровки или ошибки.

  • Добавьте другое Get Transcript действие, как и раньше, но добавьте его после Do until цикла, чтобы его выходные данные становятся доступными вне области Do until действия.

Прежде чем делать что-либо еще, необходимо проверить, является completed ли транскрибирование Status или error. Condition Добавьте действие, которое проверяет, имеет ли значение transcript_statuserror:

  • True В ветви добавьте Terminate действие
    • Установите Status на Failed
    • Установите Code на Transcript Error
    • Передайте выходные ErrorGet Transcript данные Message в параметр.
  • Вы можете оставить ветвь пустой False .

Теперь вы можете добавить любое действие после Condition того, как известно состояние completedрасшифровки, и вы можете получить любое из выходных свойств Get Transcript действия.

Добавление дополнительных действий

Теперь, когда у вас есть завершенная транскрибирование, вы можете использовать множество других действий, проходящих в ID расшифровке, например

  • Get Sentences of Transcript
  • Get Paragraphs of Transcript
  • Get Subtitles of Transcript
  • Get Redacted Audio
  • Search Transcript for Words
  • Run a Task using LeMUR

Известные проблемы и ограничения

Известные проблемы в настоящее время отсутствуют. Мы не поддерживаем потоковую речьTo-Text (в режиме реального времени), так как не удается использовать пользовательские соединители.

Распространенные ошибки и средства устранения неполадок

Дополнительные сведения об ошибках см. в документации по AssemblyAI.

Часто задаваемые вопросы

Часто задаваемые вопросы см. в нашей документации.

Создание подключения

Соединитель поддерживает следующие типы проверки подлинности:

По умолчанию Параметры для создания подключения. Все регионы Недоступен для совместного использования

По умолчанию

Применимо: все регионы

Параметры для создания подключения.

Это недоступно для общего доступа. Если приложение power предоставляется другому пользователю, пользователю будет предложено явно создать новое подключение.

Имя Тип Description Обязательно
Ключ API AssemblyAI securestring Ключ API AssemblyAI для проверки подлинности API AssemblyAI. True

Ограничения регулирования

Имя Вызовы Период обновления
Вызовы API для каждого подключения 100 60 секунд

Действия

Вывод списка расшифровок

Получите список созданных расшифровок. Расшифровки сортируются от самых новых до старых. Предыдущий URL-адрес всегда указывает на страницу со старыми расшифровками.

Выполнение задачи с помощью LeMUR

Используйте конечную точку задачи LeMUR для ввода собственного запроса LLM.

Отправка файла мультимедиа

Отправьте файл мультимедиа на серверы AssemblyAI.

Очистка данных запроса LeMUR

Удалите данные для ранее отправленного запроса LeMUR. Будут удалены данные ответа LLM, а также любой контекст, предоставленный в исходном запросе.

Поиск слов в транскрибировании

Выполните поиск по расшифровку ключевых слов. Вы можете искать отдельные слова, цифры или фразы, содержащие до пяти слов или чисел.

Получение абзацев в расшифровке

Получение расшифровки по абзацам. API попытается семантической сегментировать расшифровку в абзацы, чтобы создать более понятные для чтения транскрипции.

Получение ответа LeMUR

Получите ранее созданный ответ LeMUR.

Получение предложений в транскрибировании

Получение расшифровки по предложениям. API попытается семантической сегментировать расшифровку в предложения, чтобы создать более понятные для чтения транскрипции.

Получение расшифровки

Получите ресурс расшифровки. Расшифровка готова при завершении состояния.

Получение редактированного звука

Извлеките отредактированные звуковые объекты, содержащие состояние и URL-адрес для редактированного звука.

Получение субтитров для расшифровки

Экспортируйте расшифровку в формате SRT или VTT, чтобы использовать видеопроигрыватель для субтитров и закрытых субтитров.

Транскрибирование звука

Создайте расшифровку из файла мультимедиа, доступного по URL-адресу.

Удаление расшифровки

Удалите расшифровку. Удаление не удаляет сам ресурс, но удаляет данные из ресурса и помечает его как удаленные.

Вывод списка расшифровок

Получите список созданных расшифровок. Расшифровки сортируются от самых новых до старых. Предыдущий URL-адрес всегда указывает на страницу со старыми расшифровками.

Параметры

Имя Ключ Обязательно Тип Описание
Лимит
limit integer

Максимальное количество расшифровок для получения

Состояние
status string

Состояние расшифровки. Возможные значения: очереди, обработка, завершение или ошибка.

Создано
created_on date

Только получение расшифровок, созданных на этой дате

Перед идентификатором
before_id uuid

Получение расшифровок, созданных до этого идентификатора расшифровки

После идентификатора
after_id uuid

Получение расшифровок, созданных после этого идентификатора расшифровки

Регулирование только
throttled_only boolean

Только получение регулируемых расшифровок, переопределяет фильтр состояния

Возвращаемое значение

Список расшифровок. Расшифровки сортируются от самых новых до старых. Предыдущий URL-адрес всегда указывает на страницу со старыми расшифровками.

Тело
TranscriptList

Выполнение задачи с помощью LeMUR

Используйте конечную точку задачи LeMUR для ввода собственного запроса LLM.

Параметры

Имя Ключ Обязательно Тип Описание
Подсказка
prompt True string

Текст, который предложит модели создать нужные выходные данные, включая любой контекст, который требуется передать в модель.

Идентификаторы расшифровки
transcript_ids array of uuid

Список завершенных расшифровок с текстом. До максимума 100 файлов или 100 часов, в зависимости от того, что меньше. Используйте transcript_ids или input_text в качестве входных данных в LeMUR.

Входной текст
input_text string

Пользовательские отформатированные данные расшифровки. Максимальный размер — это ограничение контекста выбранной модели, которая по умолчанию составляет 100000. Используйте transcript_ids или input_text в качестве входных данных в LeMUR.

Контекст
context string

Контекст для предоставления модели. Это может быть строка или значение JSON в свободной форме.

Окончательная модель
final_model string

Модель, используемая для окончательного запроса после сжатия.

Максимальный размер выходных данных
max_output_size integer

Максимальный размер выходных данных в токенах до 4000

Температура
temperature float

Температура, используемая для модели. Более высокие значения приводят к тому, что ответы являются более творческими, более низкими значениями являются более консервативными. Может быть любым значением от 0.0 до 1.0 включительно.

Возвращаемое значение

Отправка файла мультимедиа

Отправьте файл мультимедиа на серверы AssemblyAI.

Параметры

Имя Ключ Обязательно Тип Описание
Содержимое файла
file True binary

Файл для отправки.

Возвращаемое значение

Тело
UploadedFile

Очистка данных запроса LeMUR

Удалите данные для ранее отправленного запроса LeMUR. Будут удалены данные ответа LLM, а также любой контекст, предоставленный в исходном запросе.

Параметры

Имя Ключ Обязательно Тип Описание
Идентификатор запроса LeMUR
request_id True string

Идентификатор запроса LeMUR, данные которого необходимо удалить. Это будет найдено в ответе исходного запроса.

Возвращаемое значение

Поиск слов в транскрибировании

Выполните поиск по расшифровку ключевых слов. Вы можете искать отдельные слова, цифры или фразы, содержащие до пяти слов или чисел.

Параметры

Имя Ключ Обязательно Тип Описание
Идентификатор расшифровки
transcript_id True string

Идентификатор расшифровки

Слова
words True array

Ключевые слова для поиска

Возвращаемое значение

Получение абзацев в расшифровке

Получение расшифровки по абзацам. API попытается семантической сегментировать расшифровку в абзацы, чтобы создать более понятные для чтения транскрипции.

Параметры

Имя Ключ Обязательно Тип Описание
Идентификатор расшифровки
transcript_id True string

Идентификатор расшифровки

Возвращаемое значение

Получение ответа LeMUR

Получите ранее созданный ответ LeMUR.

Параметры

Имя Ключ Обязательно Тип Описание
Идентификатор запроса LeMUR
request_id True string

Идентификатор ранее выполненного запроса LeMUR. Это будет найдено в ответе исходного запроса.

Возвращаемое значение

Тело
LemurResponse

Получение предложений в транскрибировании

Получение расшифровки по предложениям. API попытается семантической сегментировать расшифровку в предложения, чтобы создать более понятные для чтения транскрипции.

Параметры

Имя Ключ Обязательно Тип Описание
Идентификатор расшифровки
transcript_id True string

Идентификатор расшифровки

Возвращаемое значение

Получение расшифровки

Получите ресурс расшифровки. Расшифровка готова при завершении состояния.

Параметры

Имя Ключ Обязательно Тип Описание
Идентификатор расшифровки
transcript_id True string

Идентификатор расшифровки

Возвращаемое значение

Объект транскрибирования

Тело
Transcript

Получение редактированного звука

Извлеките отредактированные звуковые объекты, содержащие состояние и URL-адрес для редактированного звука.

Параметры

Имя Ключ Обязательно Тип Описание
Идентификатор расшифровки
transcript_id True string

Идентификатор расшифровки

Возвращаемое значение

Получение субтитров для расшифровки

Экспортируйте расшифровку в формате SRT или VTT, чтобы использовать видеопроигрыватель для субтитров и закрытых субтитров.

Параметры

Имя Ключ Обязательно Тип Описание
Идентификатор расшифровки
transcript_id True string

Идентификатор расшифровки

Формат субтитров
subtitle_format True string

Формат субтитров

Число символов на подпись
chars_per_caption integer

Максимальное число символов на подпись

Возвращаемое значение

response
string

Транскрибирование звука

Создайте расшифровку из файла мультимедиа, доступного по URL-адресу.

Параметры

Имя Ключ Обязательно Тип Описание
URL-адрес аудио
audio_url True string

URL-адрес звукового или видеофайла для транскрибирования.

Код языка
language_code string

Язык звукового файла. Возможные значения находятся на поддерживаемых языках. Значение по умолчанию — "en_us".

Language Detection
language_detection boolean

Включите автоматическое обнаружение языка, значение true или false.

Модель распознавания речи
speech_model string

Модель речи, используемая для транскрибирования.

Перемежать
punctuate boolean

Включение автоматической препинания может иметь значение true или false

Форматирование текста
format_text boolean

Включение форматирования текста может быть true или false

Cлова-паразиты
disfluencies boolean

Transcribe Filler Words, например "um", в файле мультимедиа; может быть true или false

Двухканальной
dual_channel boolean

Включение транскрибирования двойного канала может иметь значение true или false.

URL-адрес веб-перехватчика
webhook_url string

URL-адрес, на который мы отправляем запросы веб-перехватчика. Мы посылаем два разных типа запросов веб-перехватчика. Один запрос при завершении или сбое расшифровки и один запрос, когда редактированный звук готов, если redact_pii_audio включен.

Имя заголовка проверки подлинности веб-перехватчика
webhook_auth_header_name string

Имя заголовка, отправленное с расшифровкой завершенных или неудачных запросов веб-перехватчика

Значение заголовка проверки подлинности веб-перехватчика
webhook_auth_header_value string

Значение заголовка для отправки обратно с расшифровкой завершенных или неудачных запросов веб-перехватчика для добавленной безопасности

Ключевые фразы
auto_highlights boolean

Включение ключевых фраз, либо true, либо false

Звук начинается с
audio_start_from integer

Момент времени в миллисекундах, чтобы начать транскрибирование в файле мультимедиа

Конец звука в
audio_end_at integer

Момент времени в миллисекундах, чтобы остановить транскрибирование в файле мультимедиа

Word Boost
word_boost array of string

Список пользовательского словаря для повышения вероятности транскрибирования

Уровень повышения word
boost_param string

Сколько нужно увеличить указанные слова

Фильтрация ненормативной лексики
filter_profanity boolean

Фильтрация ненормативной лексики из транскрибированного текста может быть true или false

Redact PII
redact_pii boolean

Redact PII из транскрибированного текста с помощью модели Redact PII может иметь значение true или false.

Redact PII Audio
redact_pii_audio boolean

Создайте копию исходного файла мультимедиа с произнесенных идентификаторами piI "beeped", может иметь значение true или false. Дополнительные сведения см. в редакте PII.

Качество звука Redact PII
redact_pii_audio_quality string

Управляет типом файла звука, созданного redact_pii_audio. В настоящее время поддерживает mp3 (по умолчанию) и wav. Дополнительные сведения см. в редакте PII.

Политики redact PII
redact_pii_policies array of string

Список политик redaction piI для включения. Дополнительные сведения см. в редакте PII.

Подстановка личных данных Redact
redact_pii_sub string

Логика замены для обнаруженных персональных данных может быть "entity_name" или "хэш". Дополнительные сведения см. в редакте PII.

Метки говорящего
speaker_labels boolean

Включение диаризации говорящего может быть true или false

Ожидаемые докладчики
speakers_expected integer

Сообщает модели метки говорящего, сколько динамиков она должна попытаться определить, до 10. Дополнительные сведения см. в разделе "Диаризация говорящего".

Модерация содержимого
content_safety boolean

Включение модерации содержимого может быть true или false

Достоверность модерации содержимого
content_safety_confidence integer

Порог доверия для модели модерации содержимого. Значения должны быть от 25 до 100.

Обнаружение разделов
iab_categories boolean

Включение обнаружения разделов может быть true или false

От
from True array of string

Слова или фразы для замены

Кому
to True string

Слово или фраза для замены на

Sentiment Analysis
sentiment_analysis boolean

Включение анализа тональности может быть true или false

Автоглавы
auto_chapters boolean

Включение автоглавы может быть true или false

Обнаружение сущностей
entity_detection boolean

Включение обнаружения сущностей может быть true или false

Пороговое значение речи
speech_threshold float

Отклонить звуковые файлы, содержащие меньше этой доли речи. Допустимые значения находятся в диапазоне [0, 1] включительно.

Включение суммирования
summarization boolean

Включение суммирования может быть true или false

Сводная модель
summary_model string

Модель для суммирования расшифровки

Тип сводки
summary_type string

Тип сводки

Включение настраиваемых разделов
custom_topics boolean

Включение пользовательских разделов( true или false)

Пользовательские разделы
topics array of string

Список настраиваемых разделов

Возвращаемое значение

Объект транскрибирования

Тело
Transcript

Удаление расшифровки

Удалите расшифровку. Удаление не удаляет сам ресурс, но удаляет данные из ресурса и помечает его как удаленные.

Параметры

Имя Ключ Обязательно Тип Описание
Идентификатор расшифровки
transcript_id True string

Идентификатор расшифровки

Возвращаемое значение

Объект транскрибирования

Тело
Transcript

Определения

RedactedAudioResponse

Имя Путь Тип Описание
Состояние
status string

Состояние редактированного звука

Url-адрес для редактированного звука
redacted_audio_url string

URL-адрес редактированного звукового файла

WordSearchResponse

Имя Путь Тип Описание
Идентификатор расшифровки
id uuid

Идентификатор расшифровки

Общее количество совпадений
total_count integer

Общее количество всех сопоставленных экземпляров. Например, слово 1 совпадает с 2 раза, и слово 2 совпадает 3 раза, total_count равно 5.

Совпадения
matches array of object

Совпадения поиска

Текст
matches.text string

Соответствующее слово

Численность
matches.count integer

Общее количество раз, когда слово находится в расшифровке

Временные метки
matches.timestamps array of array

Массив меток времени

Отметка времени
matches.timestamps array of integer

Массив меток времени, структурированных как [start_time, end_time] в миллисекундах

Indexes
matches.indexes array of integer

Массив всех расположений индекса для этого слова в массиве слов завершенной расшифровки

Транскрипт

Объект транскрибирования

Имя Путь Тип Описание
Идентификатор
id uuid

Уникальный идентификатор расшифровки

URL-адрес аудио
audio_url string

URL-адрес носителя, который был транскрибирован

Состояние
status string

Состояние расшифровки. Возможные значения: очереди, обработка, завершение или ошибка.

Код языка
language_code string

Язык звукового файла. Возможные значения находятся на поддерживаемых языках. Значение по умолчанию — "en_us".

Language Detection
language_detection boolean

Включена ли автоматическая функция обнаружения языка( true или false)

Модель распознавания речи
speech_model string

Модель речи, используемая для транскрибирования.

Текст
text string

Текстовая расшифровка файла мультимедиа

Слова
words array of object

Массив временных последовательных объектов слов, по одному для каждого слова в расшифровке. Дополнительные сведения см. в разделе распознавания речи.

Достоверность
words.confidence double
Start
words.start integer
Конец
words.end integer
Текст
words.text string
Спикер
words.speaker string

Докладчик предложения, если включена диаризация говорящего, в противном случае — значение NULL

Высказывания
utterances array of object

Если включена dual_channel или speaker_labels, список повернутых объектов речевых фрагментов. Дополнительные сведения см. в разделе "Диаризация говорящего".

Достоверность
utterances.confidence double

Оценка достоверности для расшифровки этого речевых фрагментов

Start
utterances.start integer

Время начала в миллисекундах высказываний в звуковом файле

Конец
utterances.end integer

Время окончания в миллисекундах высказываний в звуковом файле

Текст
utterances.text string

Текст для этого речевых фрагментов

Слова
utterances.words array of object

Слова в речевых фрагментах.

Достоверность
utterances.words.confidence double
Start
utterances.words.start integer
Конец
utterances.words.end integer
Текст
utterances.words.text string
Спикер
utterances.words.speaker string

Докладчик предложения, если включена диаризация говорящего, в противном случае — значение NULL

Спикер
utterances.speaker string

Докладчик этого речевых фрагментов, где каждый докладчик назначает последовательную прописную букву , например "A" для докладчика А, "B" для докладчика B и т. д.

Достоверность
confidence double

Оценка достоверности для расшифровки, от 0,0 (низкая достоверность) до 1.0 (высокая достоверность)

Audio Duration (Длительность аудио);
audio_duration integer

Длительность файла мультимедиа объекта расшифровки в секундах

Перемежать
punctuate boolean

Включена ли автоматическая препинание, значение true или false

Форматирование текста
format_text boolean

Включена ли форматирование текста, значение true или false

Cлова-паразиты
disfluencies boolean

Transcribe Filler Words, например "um", в файле мультимедиа; может быть true или false

Двухканальной
dual_channel boolean

Включена ли транскрибирование двойного канала в запросе транскрибирования либо true, либо false

URL-адрес веб-перехватчика
webhook_url string

URL-адрес, на который мы отправляем запросы веб-перехватчика. Мы посылаем два разных типа запросов веб-перехватчика. Один запрос при завершении или сбое расшифровки и один запрос, когда редактированный звук готов, если redact_pii_audio включен.

Код состояния HTTP веб-перехватчика
webhook_status_code integer

Код состояния, полученный от сервера при доставке расшифровки завершенного или неудачного запроса веб-перехватчика, если был предоставлен URL-адрес веб-перехватчика.

Включенная проверка подлинности веб-перехватчика
webhook_auth boolean

Указаны ли сведения о проверке подлинности веб-перехватчика

Имя заголовка проверки подлинности веб-перехватчика
webhook_auth_header_name string

Имя заголовка, отправленное с расшифровкой завершенных или неудачных запросов веб-перехватчика

Ускорение скорости
speed_boost boolean

Включена ли ускорение скорости

Ключевые фразы
auto_highlights boolean

Включена ли ключевая фраза, значение true или false

Состояние
auto_highlights_result.status string

Успешное или недоступное в редких случаях, когда модель завершилась ошибкой

Results
auto_highlights_result.results array of object

Временный последовательный массив ключевых фраз

Численность
auto_highlights_result.results.count integer

Общее количество ключевых фраз в звуковом файле

Ранг
auto_highlights_result.results.rank float

Общая релевантность к общему звуковому файлу этой ключевой фразы — большее число означает более релевантное

Текст
auto_highlights_result.results.text string

Сам текст ключевой фразы

Временные метки
auto_highlights_result.results.timestamps array of object

Метка времени ключевой фразы

Start
auto_highlights_result.results.timestamps.start integer

Время начала в миллисекундах

Конец
auto_highlights_result.results.timestamps.end integer

Время окончания в миллисекундах

Звук начинается с
audio_start_from integer

Момент времени в миллисекундах в файле, в котором была запущена транскрибирование

Конец звука в
audio_end_at integer

Момент времени в миллисекундах в файле, в котором транскрибирование было завершено

Word Boost
word_boost array of string

Список пользовательского словаря для повышения вероятности транскрибирования

Поддержка
boost_param string

Значение параметра повышения слова

Фильтрация ненормативной лексики
filter_profanity boolean

Включена ли фильтрация ненормативной лексики, значение true или false

Redact PII
redact_pii boolean

Включена ли редактция PII, значение true или false

Redact PII Audio
redact_pii_audio boolean

Была ли создана редактируемая версия звукового файла либо true, либо false. Дополнительные сведения см. в редакте PII.

Качество звука Redact PII
redact_pii_audio_quality string

Управляет типом файла звука, созданного redact_pii_audio. В настоящее время поддерживает mp3 (по умолчанию) и wav. Дополнительные сведения см. в редакте PII.

Политики redact PII
redact_pii_policies array of string

Список политик Redaction piI, которые были включены, если включен redaction piI. Дополнительные сведения см. в редакте PII.

Подстановка личных данных Redact
redact_pii_sub string

Логика замены для обнаруженных персональных данных может быть "entity_name" или "хэш". Дополнительные сведения см. в редакте PII.

Метки говорящего
speaker_labels boolean

Включена ли диазаризация говорящего, может быть true или false

Ожидаемые докладчики
speakers_expected integer

Сообщите модели метки говорящего, сколько динамиков она должна попытаться определить, до 10. Дополнительные сведения см. в разделе "Диаризация говорящего".

Модерация содержимого
content_safety boolean

Включена ли модерация содержимого, может быть значение true или false

Состояние
content_safety_labels.status string

Успешное или недоступное в редких случаях, когда модель завершилась ошибкой

Results
content_safety_labels.results array of object
Текст
content_safety_labels.results.text string

Расшифровка раздела, помеченного моделью модерации содержимого

Наклейки
content_safety_labels.results.labels array of object

Массив меток безопасности, один для каждого конфиденциального раздела, обнаруженный в разделе

Этикетка
content_safety_labels.results.labels.label string

Метка конфиденциального раздела

Достоверность
content_safety_labels.results.labels.confidence double

Оценка достоверности для обсуждаемой темы от 0 до 1

Severity
content_safety_labels.results.labels.severity double

Как серьезно рассматривается тема в разделе от 0 до 1

Начало индекса предложения
content_safety_labels.results.sentences_idx_start integer

Индекс предложения, с которого начинается раздел

Конец индекса предложения
content_safety_labels.results.sentences_idx_end integer

Индекс предложения, по которому заканчивается раздел

Start
content_safety_labels.results.timestamp.start integer

Время начала в миллисекундах

Конец
content_safety_labels.results.timestamp.end integer

Время окончания в миллисекундах

Сводка
content_safety_labels.summary object

Сводка результатов достоверности модерации содержимого для всего звукового файла

Сводка оценки серьезности
content_safety_labels.severity_score_summary object

Сводка результатов серьезности модерации содержимого для всего звукового файла

Обнаружение разделов
iab_categories boolean

Включена ли функция обнаружения разделов, может быть ли значение true или false

Состояние
iab_categories_result.status string

Успешное или недоступное в редких случаях, когда модель завершилась ошибкой

Results
iab_categories_result.results array of object

Массив результатов для модели обнаружения тем

Текст
iab_categories_result.results.text string

Текст в расшифровке, в которой обнаружена тема

Наклейки
iab_categories_result.results.labels array of object
Актуальность
iab_categories_result.results.labels.relevance double

Насколько релевантна обнаруженная тема обнаружена

Этикетка
iab_categories_result.results.labels.label string

Метка таксономической метки IAB для метки обнаруженной темы, в которой > обозначается супертопическая или подтопическая связь

Start
iab_categories_result.results.timestamp.start integer

Время начала в миллисекундах

Конец
iab_categories_result.results.timestamp.end integer

Время окончания в миллисекундах

Сводка
iab_categories_result.summary object

Общая релевантность раздела ко всему звуковому файлу

Пользовательские орфографии
custom_spelling array of object

Настройка орфографии и форматирования слов с использованием значений и из них

От
custom_spelling.from array of string

Слова или фразы для замены

Кому
custom_spelling.to string

Слово или фраза для замены на

Включена автоматическая глава
auto_chapters boolean

Включена ли функция автоглавы, может иметь значение true или false.

Главы
chapters array of object

Массив временных последовательных глав для звукового файла

Суть
chapters.gist string

Ультра-короткий сводка (всего несколько слов) содержимого, произнесенное в главе

Заголовок
chapters.headline string

Сводка по одному предложению о содержимом, произнесемом во время главы

Сводка
chapters.summary string

Сводка по одному абзацу содержимого, произнесенное во время главы

Start
chapters.start integer

Время начала в миллисекундах для главы

Конец
chapters.end integer

Время начала в миллисекундах для главы

Включена сводка
summarization boolean

Включена ли суммирование, значение true или false

Тип сводки
summary_type string

Тип сгенерированного сводки, если включена сводка

Сводная модель
summary_model string

Модель суммирования, используемая для создания сводки, если включена сводка

Сводка
summary string

Созданная сводка файла мультимедиа, если включена сводка

Настраиваемые разделы включены
custom_topics boolean

Включена ли пользовательская тема, значение true или false

Темы
topics array of string

Список настраиваемых тем, указанных в том случае, если настраиваемые разделы включены

Sentiment Analysis
sentiment_analysis boolean

Включен ли анализ тональности, может иметь значение true или false

Результаты анализа тональности
sentiment_analysis_results array of object

Массив результатов для модели анализа тональности, если он включен. Дополнительные сведения см. в разделе "Анализ тональности".

Текст
sentiment_analysis_results.text string

Расшифровка предложения

Start
sentiment_analysis_results.start integer

Время начала предложения в миллисекундах

Конец
sentiment_analysis_results.end integer

Время окончания предложения в миллисекундах

Тональность
sentiment_analysis_results.sentiment

Обнаруженная тональность предложения, одна из ПОЛОЖИТЕЛЬНЫХ, НЕЙТРАЛЬНЫХ, ОТРИЦАТЕЛЬНЫХ

Достоверность
sentiment_analysis_results.confidence double

Оценка достоверности для обнаруженного тональности предложения от 0 до 1

Спикер
sentiment_analysis_results.speaker string

Докладчик предложения, если включена диаризация говорящего, в противном случае — значение NULL

Обнаружение сущностей
entity_detection boolean

Включена ли функция обнаружения сущностей, может быть true или false

Entities
entities array of object

Массив результатов для модели обнаружения сущностей, если он включен. Дополнительные сведения см. в разделе "Обнаружение сущностей".

Тип сущности
entities.entity_type string

Тип сущности для обнаруженной сущности

Текст
entities.text string

Текст для обнаруженной сущности

Start
entities.start integer

Время начала в миллисекундах, в котором обнаруженная сущность отображается в звуковом файле

Конец
entities.end integer

Время окончания в миллисекундах для обнаруженной сущности в звуковом файле

Пороговое значение речи
speech_threshold float

По умолчанию имеет значение NULL. Отклонить звуковые файлы, содержащие меньше этой доли речи. Допустимые значения находятся в диапазоне [0, 1] включительно.

Задушил
throttled boolean

Значение True, пока запрос регулируется и имеет значение false, если запрос больше не регулируется

Ошибка
error string

Сообщение об ошибке о том, почему сбой расшифровки

Языковая модель
language_model string

Языковая модель, используемая для расшифровки

Акустическая модель
acoustic_model string

Акустическая модель, используемая для расшифровки

ПредложенияResponse

Имя Путь Тип Описание
Идентификатор расшифровки
id uuid
Достоверность
confidence double
Audio Duration (Длительность аудио);
audio_duration number
Предложения
sentences array of object
Текст
sentences.text string
Start
sentences.start integer
Конец
sentences.end integer
Достоверность
sentences.confidence double
Слова
sentences.words array of object
Достоверность
sentences.words.confidence double
Start
sentences.words.start integer
Конец
sentences.words.end integer
Текст
sentences.words.text string
Спикер
sentences.words.speaker string

Докладчик предложения, если включена диаризация говорящего, в противном случае — значение NULL

Спикер
sentences.speaker string

Докладчик предложения, если включена диаризация говорящего, в противном случае — значение NULL

АбзацыResponse

Имя Путь Тип Описание
Идентификатор расшифровки
id uuid
Достоверность
confidence double
Audio Duration (Длительность аудио);
audio_duration number
Абзацы
paragraphs array of object
Текст
paragraphs.text string
Start
paragraphs.start integer
Конец
paragraphs.end integer
Достоверность
paragraphs.confidence double
Слова
paragraphs.words array of object
Достоверность
paragraphs.words.confidence double
Start
paragraphs.words.start integer
Конец
paragraphs.words.end integer
Текст
paragraphs.words.text string
Спикер
paragraphs.words.speaker string

Докладчик предложения, если включена диаризация говорящего, в противном случае — значение NULL

Спикер
paragraphs.speaker string

Докладчик предложения, если включена диаризация говорящего, в противном случае — значение NULL

Транскрибирование

Список расшифровок. Расшифровки сортируются от самых новых до старых. Предыдущий URL-адрес всегда указывает на страницу со старыми расшифровками.

Имя Путь Тип Описание
Лимит
page_details.limit integer

Количество результатов этой страницы ограничено

Число результатов
page_details.result_count integer

Фактическое количество результатов на странице

Текущий URL-адрес
page_details.current_url string

URL-адрес, используемый для получения текущей страницы расшифровок

Предыдущий URL-адрес
page_details.prev_url string

URL-адрес следующей страницы расшифровок. Предыдущий URL-адрес всегда указывает на страницу со старыми расшифровками.

Следующий URL-адрес
page_details.next_url string

URL-адрес следующей страницы расшифровок. Следующий URL-адрес всегда указывает на страницу с более новыми расшифровками.

Transcripts
transcripts array of object
Идентификатор
transcripts.id uuid
URL-адрес ресурса
transcripts.resource_url string
Состояние
transcripts.status string

Состояние расшифровки. Возможные значения: очереди, обработка, завершение или ошибка.

Создано
transcripts.created string
Завершено
transcripts.completed string
URL-адрес аудио
transcripts.audio_url string
Ошибка
transcripts.error string

Сообщение об ошибке о том, почему сбой расшифровки

UploadedFile

Имя Путь Тип Описание
URL-адрес отправленного файла
upload_url string

URL-адрес, указывающий на звуковой файл, доступный только серверами AssemblyAI

PurgeLemurRequestDataResponse

Имя Путь Тип Описание
Идентификатор запроса очистки
request_id uuid

Идентификатор запроса на удаление запроса LeMUR

Идентификатор запроса LeMUR для очистки
request_id_to_purge uuid

Идентификатор запроса LeMUR для очистки данных

Удалено
deleted boolean

Удалены ли данные запроса

LemurTaskResponse

Имя Путь Тип Описание
Ответ
response string

Ответ, созданный LeMUR.

Идентификатор запроса LeMUR
request_id uuid

Идентификатор запроса LeMUR

Входные маркеры
usage.input_tokens integer

Количество входных маркеров, используемых моделью

Выходные маркеры
usage.output_tokens integer

Количество выходных маркеров, созданных моделью

LemurResponse

Имя Путь Тип Описание
Ответ
response string

Ответ, созданный LeMUR.

Идентификатор запроса LeMUR
request_id uuid

Идентификатор запроса LeMUR

Входные маркеры
usage.input_tokens integer

Количество входных маркеров, используемых моделью

Выходные маркеры
usage.output_tokens integer

Количество выходных маркеров, созданных моделью

струна

Это базовый тип данных string.