AssemblyAI (предварительная версия)

Транскрибирование и извлечение данных из звука с помощью ИИ службы "Речь" AssemblyAI.

Этот соединитель доступен в следующих продуктах и регионах:

Услуга	Class	Регионы
Copilot Studio	Премия	Все регионы Power Automate , кроме следующих: - Правительство США (GCC) - Правительство США (GCC High) — Облако Китая, управляемое 21Vianet - Министерство обороны США (DoD)
Логические приложения	Стандарт	Все регионы Logic Apps , кроме следующих: — Регионы Azure для государственных организаций — Регионы Azure Для Китая - Министерство обороны США (DoD)
Power Apps	Премия	Все регионы Power Apps , кроме следующих: - Правительство США (GCC) - Правительство США (GCC High) — Облако Китая, управляемое 21Vianet - Министерство обороны США (DoD)
Power Automate	Премия	Все регионы Power Automate , кроме следующих: - Правительство США (GCC) - Правительство США (GCC High) — Облако Китая, управляемое 21Vianet - Министерство обороны США (DoD)

Контакт
Имя	Support
URL	https://www.assemblyai.com/docs/
Адрес электронной почты	support@assemblyai.com

Метаданные соединителя
Publisher	AssemblyAI
Веб-сайт	https://www.assemblyai.com
Политика конфиденциальности	https://www.assemblyai.com/legal/privacy-policy
Категории	AI

С помощью соединителя AssemblyAI можно использовать модели AssemblyAI для обработки звуковых данных, транскрибируя их с помощью моделей распознавания речи, анализируя их с помощью моделей аудиоразведки, а также создавая создаваемые функции на основе этих функций с помощью LLM.

Речь в тексте , включая множество настраиваемых функций, таких как диаризация говорящего, настраиваемая орфография, пользовательский словарь и т. д.
Модели аналитики аудио — это дополнительные модели ИИ, доступные и настроенные с помощью конфигурации транскрибирования.
LeMUR позволяет применять различные модели LLM к расшифровкам без необходимости создавать собственную инфраструктуру RAG для очень больших расшифровок.

Предпосылки

Для продолжения вам потребуется следующее:

Ключ API AssemblyAI (получить его бесплатно)

Получение учетных данных

Вы можете бесплатно получить ключ API AssemblyAI, зарегистрироваться для учетной записи и скопировать ключ API с панели мониторинга.

Начало работы с соединителем

Выполните следующие действия, чтобы транскрибировать звук с помощью соединителя AssemblyAI.

Отправка файла

Чтобы транскрибировать звуковой файл с помощью AssemblyAI, файл должен быть доступен для AssemblyAI. Если звуковой файл уже доступен по URL-адресу, можно использовать существующий URL-адрес.

В противном случае можно использовать Upload a File действие для отправки файла в AssemblyAI. Вы получите URL-адрес файла, который можно использовать только для транскрибирования с помощью ключа API. После транскрибирования файла файл будет удален с серверов AssemblyAI.

Транскрибирование звука

Чтобы транскрибировать звук, настройте Audio URL параметр с помощью URL-адреса звукового файла. Затем настройте дополнительные параметры, чтобы включить дополнительные функции распознавания речи и модели аудиоразведки .

Результатом действия Transcribe Audio является запись в очереди, которая начнет обрабатываться немедленно. Чтобы получить завершенную расшифровку, у вас есть два варианта:

Обработка веб-перехватчика готовой расшифровки
Опрос состояния расшифровки

Обработка веб-перехватчика готовой расшифровки

Если вы не хотите обрабатывать веб-перехватчик с помощью Logic Apps или Power Automate, настройте Webhook URL параметр в действии Transcribe Audio и реализуйте веб-перехватчик после документации по веб-перехватчику AssemblyAI.

Чтобы обрабатывать веб-перехватчик с помощью Logic Apps или Power Automate, выполните следующие действия:

Создание отдельного приложения логики или потока Power Automate
Настройте When an HTTP request is received в качестве триггера:
- Установите Who Can Trigger The Flow? на Anyone
- Установите значение Request Body JSON Schema :
```
{
  "type": "object",
  "properties": {
    "transcript_id": {
      "type": "string"
    },
    "status": {
      "type": "string"
    }
  }
}
```
- Установите Method на POST
Добавьте действие AssemblyAI Get Transcript , передавая transcript_id триггер в Transcript ID параметр.
Прежде чем делать что-либо еще, необходимо проверить, является completed ли Status он или error. Condition Добавьте действие, которое проверяет, является errorли Status результат выходных Get Transcript данных:
- True В ветви добавьте Terminate действие
  - Задайте для значения значение StatusFailed
  - Задайте для значения значение CodeTranscript Error
  - Передайте выходные ErrorGet Transcript данные Message в параметр.
- Вы можете оставить ветвь пустой False .
Теперь вы можете добавить любое действие после Condition того, как известно состояние completedрасшифровки, и вы можете получить любое из выходных свойств Get Transcript действия.
Сохраните приложение логики или поток. Будет HTTP URL создано для триггера When an HTTP request is received . HTTP URL Скопируйте и вернитесь к исходному приложению логики или потоку.
В исходном приложении логики или потоке Transcribe Audio обновите действие. HTTP URL Вставьте скопированные ранее данные в Webhook URL параметр и сохраните его.

Когда состояние расшифровки становится completed или errorсборкаAI отправляет HTTP-запрос POST в URL-адрес веб-перехватчика, который будет обрабатываться другим приложением логики или потоком.

В качестве альтернативы использованию веб-перехватчика можно провести опрос состояния расшифровки, как описано в следующем разделе.

Опрос состояния расшифровки

Вы можете пропросить состояние расшифровки, выполнив следующие действия.

Initialize variable Добавление действия
- Установите Name на transcript_status
- Установите Type на String
- Status Сохранение выходных Transcribe Audio данных в параметре Value
Do until Добавление действия
- Loop Until Настройте параметр со следующим кодом Fx:
```
or(equals(variables('transcript_status'), 'completed'), equals(variables('transcript_status'), 'error'))
```
  Этот код проверяет, является completed ли transcript_status переменная или error.
- Count Настройка параметра в86400
- Timeout Настройка параметра вPT24H
В действии Do until добавьте следующие действия:
- Delay Добавление действия, ожидающего одну секунду
- Get Transcript Добавьте действие и передайте ID выходные Transcribe Audio данные Transcript ID в параметр.
- Set variable Добавление действия
  - Установите Name на transcript_status
  - Status Передача выходных Get Transcript данных параметру Value
Цикл Do until будет продолжаться до завершения расшифровки или ошибки.
Добавьте другое Get Transcript действие, как и раньше, но добавьте его после Do until цикла, чтобы его выходные данные становятся доступными вне области Do until действия.

Прежде чем делать что-либо еще, необходимо проверить, является completed ли транскрибирование Status или error. Condition Добавьте действие, которое проверяет, имеет ли значение transcript_statuserror:

True В ветви добавьте Terminate действие
- Установите Status на Failed
- Установите Code на Transcript Error
- Передайте выходные ErrorGet Transcript данные Message в параметр.
Вы можете оставить ветвь пустой False .

Теперь вы можете добавить любое действие после Condition того, как известно состояние completedрасшифровки, и вы можете получить любое из выходных свойств Get Transcript действия.

Добавление дополнительных действий

Теперь, когда у вас есть завершенная транскрибирование, вы можете использовать множество других действий, проходящих в ID расшифровке, например

Get Sentences of Transcript
Get Paragraphs of Transcript
Get Subtitles of Transcript
Get Redacted Audio
Search Transcript for Words
Run a Task using LeMUR

Известные проблемы и ограничения

Известные проблемы в настоящее время отсутствуют. Мы не поддерживаем потоковую речьTo-Text (в режиме реального времени), так как не удается использовать пользовательские соединители.

Распространенные ошибки и средства устранения неполадок

Дополнительные сведения об ошибках см. в документации по AssemblyAI.

Часто задаваемые вопросы

Часто задаваемые вопросы см. в нашей документации.

Создание подключения

Соединитель поддерживает следующие типы проверки подлинности:


По умолчанию	Параметры для создания подключения.	Все регионы	Недоступен для совместного использования

По умолчанию

Применимо: все регионы

Параметры для создания подключения.

Это недоступно для общего доступа. Если приложение power предоставляется другому пользователю, пользователю будет предложено явно создать новое подключение.

Имя	Тип	Description	Обязательно
Ключ API AssemblyAI	securestring	Ключ API AssemblyAI для проверки подлинности API AssemblyAI.	True

Ограничения регулирования

Имя	Вызовы	Период обновления
Вызовы API для каждого подключения	100	60 секунд

Действия

Вывод списка расшифровок	Получите список созданных расшифровок. Расшифровки сортируются от самых новых до старых. Предыдущий URL-адрес всегда указывает на страницу со старыми расшифровками.
Выполнение задачи с помощью LeMUR	Используйте конечную точку задачи LeMUR для ввода собственного запроса LLM.
Отправка файла мультимедиа	Отправьте файл мультимедиа на серверы AssemblyAI.
Очистка данных запроса LeMUR	Удалите данные для ранее отправленного запроса LeMUR. Будут удалены данные ответа LLM, а также любой контекст, предоставленный в исходном запросе.
Поиск слов в транскрибировании	Выполните поиск по расшифровку ключевых слов. Вы можете искать отдельные слова, цифры или фразы, содержащие до пяти слов или чисел.
Получение абзацев в расшифровке	Получение расшифровки по абзацам. API попытается семантической сегментировать расшифровку в абзацы, чтобы создать более понятные для чтения транскрипции.
Получение ответа LeMUR	Получите ранее созданный ответ LeMUR.
Получение предложений в транскрибировании	Получение расшифровки по предложениям. API попытается семантической сегментировать расшифровку в предложения, чтобы создать более понятные для чтения транскрипции.
Получение расшифровки	Получите ресурс расшифровки. Расшифровка готова при завершении состояния.
Получение редактированного звука	Извлеките отредактированные звуковые объекты, содержащие состояние и URL-адрес для редактированного звука.
Получение субтитров для расшифровки	Экспортируйте расшифровку в формате SRT или VTT, чтобы использовать видеопроигрыватель для субтитров и закрытых субтитров.
Транскрибирование звука	Создайте расшифровку из файла мультимедиа, доступного по URL-адресу.
Удаление расшифровки	Удалите расшифровку. Удаление не удаляет сам ресурс, но удаляет данные из ресурса и помечает его как удаленные.

Вывод списка расшифровок

Идентификатор операции:: ListTranscripts

Получите список созданных расшифровок. Расшифровки сортируются от самых новых до старых. Предыдущий URL-адрес всегда указывает на страницу со старыми расшифровками.

Параметры

Имя	Ключ	Тип	Описание
Лимит	limit	integer	Максимальное количество расшифровок для получения
Состояние	status	string	Состояние расшифровки. Возможные значения: очереди, обработка, завершение или ошибка.
Создано	created_on	date	Только получение расшифровок, созданных на этой дате
Перед идентификатором	before_id	uuid	Получение расшифровок, созданных до этого идентификатора расшифровки
После идентификатора	after_id	uuid	Получение расшифровок, созданных после этого идентификатора расшифровки
Регулирование только	throttled_only	boolean	Только получение регулируемых расшифровок, переопределяет фильтр состояния

Возвращаемое значение

Список расшифровок. Расшифровки сортируются от самых новых до старых. Предыдущий URL-адрес всегда указывает на страницу со старыми расшифровками.

Тело: TranscriptList

Выполнение задачи с помощью LeMUR

Идентификатор операции:: LemurTask

Используйте конечную точку задачи LeMUR для ввода собственного запроса LLM.

Параметры

Имя	Ключ	Обязательно	Тип	Описание
Подсказка	prompt	True	string	Текст, который предложит модели создать нужные выходные данные, включая любой контекст, который требуется передать в модель.
Идентификаторы расшифровки	transcript_ids		array of uuid	Список завершенных расшифровок с текстом. До максимума 100 файлов или 100 часов, в зависимости от того, что меньше. Используйте transcript_ids или input_text в качестве входных данных в LeMUR.
Входной текст	input_text		string	Пользовательские отформатированные данные расшифровки. Максимальный размер — это ограничение контекста выбранной модели, которая по умолчанию составляет 100000. Используйте transcript_ids или input_text в качестве входных данных в LeMUR.
Контекст	context		string	Контекст для предоставления модели. Это может быть строка или значение JSON в свободной форме.
Окончательная модель	final_model		string	Модель, используемая для окончательного запроса после сжатия.
Максимальный размер выходных данных	max_output_size		integer	Максимальный размер выходных данных в токенах до 4000
Температура	temperature		float	Температура, используемая для модели. Более высокие значения приводят к тому, что ответы являются более творческими, более низкими значениями являются более консервативными. Может быть любым значением от 0.0 до 1.0 включительно.

Возвращаемое значение

Тело: LemurTaskResponse

Отправка файла мультимедиа

Идентификатор операции:: UploadFile

Отправьте файл мультимедиа на серверы AssemblyAI.

Параметры

Имя	Ключ	Обязательно	Тип	Описание
Содержимое файла	file	True	binary	Файл для отправки.

Возвращаемое значение

Тело: UploadedFile

Очистка данных запроса LeMUR

Идентификатор операции:: PurgeLemurRequestData

Удалите данные для ранее отправленного запроса LeMUR. Будут удалены данные ответа LLM, а также любой контекст, предоставленный в исходном запросе.

Параметры

Имя	Ключ	Обязательно	Тип	Описание
Идентификатор запроса LeMUR	request_id	True	string	Идентификатор запроса LeMUR, данные которого необходимо удалить. Это будет найдено в ответе исходного запроса.

Возвращаемое значение

Тело: PurgeLemurRequestDataResponse

Поиск слов в транскрибировании

Идентификатор операции:: WordSearch

Выполните поиск по расшифровку ключевых слов. Вы можете искать отдельные слова, цифры или фразы, содержащие до пяти слов или чисел.

Параметры

Имя	Ключ	Обязательно	Тип	Описание
Идентификатор расшифровки	transcript_id	True	string	Идентификатор расшифровки
Слова	words	True	array	Ключевые слова для поиска

Возвращаемое значение

Тело: WordSearchResponse

Получение абзацев в расшифровке

Идентификатор операции:: GetTranscriptParagraphs

Получение расшифровки по абзацам. API попытается семантической сегментировать расшифровку в абзацы, чтобы создать более понятные для чтения транскрипции.

Параметры

Имя	Ключ	Обязательно	Тип	Описание
Идентификатор расшифровки	transcript_id	True	string	Идентификатор расшифровки

Возвращаемое значение

Тело: ParagraphsResponse

Получение ответа LeMUR

Идентификатор операции:: GetLemurResponse

Получите ранее созданный ответ LeMUR.

Параметры

Имя	Ключ	Обязательно	Тип	Описание
Идентификатор запроса LeMUR	request_id	True	string	Идентификатор ранее выполненного запроса LeMUR. Это будет найдено в ответе исходного запроса.

Возвращаемое значение

Тело: LemurResponse

Получение предложений в транскрибировании

Идентификатор операции:: GetTranscriptSentences

Получение расшифровки по предложениям. API попытается семантической сегментировать расшифровку в предложения, чтобы создать более понятные для чтения транскрипции.

Параметры

Имя	Ключ	Обязательно	Тип	Описание
Идентификатор расшифровки	transcript_id	True	string	Идентификатор расшифровки

Возвращаемое значение

Тело: SentencesResponse

Получение расшифровки

Идентификатор операции:: GetTranscript

Получите ресурс расшифровки. Расшифровка готова при завершении состояния.

Параметры

Имя	Ключ	Обязательно	Тип	Описание
Идентификатор расшифровки	transcript_id	True	string	Идентификатор расшифровки

Возвращаемое значение

Объект транскрибирования

Тело: Transcript

Получение редактированного звука

Идентификатор операции:: GetRedactedAudio

Извлеките отредактированные звуковые объекты, содержащие состояние и URL-адрес для редактированного звука.

Параметры

Имя	Ключ	Обязательно	Тип	Описание
Идентификатор расшифровки	transcript_id	True	string	Идентификатор расшифровки

Возвращаемое значение

Тело: RedactedAudioResponse

Получение субтитров для расшифровки

Идентификатор операции:: GetSubtitles

Экспортируйте расшифровку в формате SRT или VTT, чтобы использовать видеопроигрыватель для субтитров и закрытых субтитров.

Параметры

Имя	Ключ	Обязательно	Тип	Описание
Идентификатор расшифровки	transcript_id	True	string	Идентификатор расшифровки
Формат субтитров	subtitle_format	True	string	Формат субтитров
Число символов на подпись	chars_per_caption		integer	Максимальное число символов на подпись

Возвращаемое значение

response: string

Транскрибирование звука

Идентификатор операции:: CreateTranscript

Создайте расшифровку из файла мультимедиа, доступного по URL-адресу.

Параметры

Имя	Ключ	Обязательно	Тип	Описание
URL-адрес аудио	audio_url	True	string	URL-адрес звукового или видеофайла для транскрибирования.
Код языка	language_code		string	Язык звукового файла. Возможные значения находятся на поддерживаемых языках. Значение по умолчанию — "en_us".
Language Detection	language_detection		boolean	Включите автоматическое обнаружение языка, значение true или false.
Модель распознавания речи	speech_model		string	Модель речи, используемая для транскрибирования.
Перемежать	punctuate		boolean	Включение автоматической препинания может иметь значение true или false
Форматирование текста	format_text		boolean	Включение форматирования текста может быть true или false
Cлова-паразиты	disfluencies		boolean	Transcribe Filler Words, например "um", в файле мультимедиа; может быть true или false
Двухканальной	dual_channel		boolean	Включение транскрибирования двойного канала может иметь значение true или false.
URL-адрес веб-перехватчика	webhook_url		string	URL-адрес, на который мы отправляем запросы веб-перехватчика. Мы посылаем два разных типа запросов веб-перехватчика. Один запрос при завершении или сбое расшифровки и один запрос, когда редактированный звук готов, если redact_pii_audio включен.
Имя заголовка проверки подлинности веб-перехватчика	webhook_auth_header_name		string	Имя заголовка, отправленное с расшифровкой завершенных или неудачных запросов веб-перехватчика
Значение заголовка проверки подлинности веб-перехватчика	webhook_auth_header_value		string	Значение заголовка для отправки обратно с расшифровкой завершенных или неудачных запросов веб-перехватчика для добавленной безопасности
Ключевые фразы	auto_highlights		boolean	Включение ключевых фраз, либо true, либо false
Звук начинается с	audio_start_from		integer	Момент времени в миллисекундах, чтобы начать транскрибирование в файле мультимедиа
Конец звука в	audio_end_at		integer	Момент времени в миллисекундах, чтобы остановить транскрибирование в файле мультимедиа
Word Boost	word_boost		array of string	Список пользовательского словаря для повышения вероятности транскрибирования
Уровень повышения word	boost_param		string	Сколько нужно увеличить указанные слова
Фильтрация ненормативной лексики	filter_profanity		boolean	Фильтрация ненормативной лексики из транскрибированного текста может быть true или false
Redact PII	redact_pii		boolean	Redact PII из транскрибированного текста с помощью модели Redact PII может иметь значение true или false.
Redact PII Audio	redact_pii_audio		boolean	Создайте копию исходного файла мультимедиа с произнесенных идентификаторами piI "beeped", может иметь значение true или false. Дополнительные сведения см. в редакте PII.
Качество звука Redact PII	redact_pii_audio_quality		string	Управляет типом файла звука, созданного redact_pii_audio. В настоящее время поддерживает mp3 (по умолчанию) и wav. Дополнительные сведения см. в редакте PII.
Политики redact PII	redact_pii_policies		array of string	Список политик redaction piI для включения. Дополнительные сведения см. в редакте PII.
Подстановка личных данных Redact	redact_pii_sub		string	Логика замены для обнаруженных персональных данных может быть "entity_name" или "хэш". Дополнительные сведения см. в редакте PII.
Метки говорящего	speaker_labels		boolean	Включение диаризации говорящего может быть true или false
Ожидаемые докладчики	speakers_expected		integer	Сообщает модели метки говорящего, сколько динамиков она должна попытаться определить, до 10. Дополнительные сведения см. в разделе "Диаризация говорящего".
Модерация содержимого	content_safety		boolean	Включение модерации содержимого может быть true или false
Достоверность модерации содержимого	content_safety_confidence		integer	Порог доверия для модели модерации содержимого. Значения должны быть от 25 до 100.
Обнаружение разделов	iab_categories		boolean	Включение обнаружения разделов может быть true или false
От	from	True	array of string	Слова или фразы для замены
Кому	to	True	string	Слово или фраза для замены на
Sentiment Analysis	sentiment_analysis		boolean	Включение анализа тональности может быть true или false
Автоглавы	auto_chapters		boolean	Включение автоглавы может быть true или false
Обнаружение сущностей	entity_detection		boolean	Включение обнаружения сущностей может быть true или false
Пороговое значение речи	speech_threshold		float	Отклонить звуковые файлы, содержащие меньше этой доли речи. Допустимые значения находятся в диапазоне [0, 1] включительно.
Включение суммирования	summarization		boolean	Включение суммирования может быть true или false
Сводная модель	summary_model		string	Модель для суммирования расшифровки
Тип сводки	summary_type		string	Тип сводки
Включение настраиваемых разделов	custom_topics		boolean	Включение пользовательских разделов( true или false)
Пользовательские разделы	topics		array of string	Список настраиваемых разделов

Возвращаемое значение

Объект транскрибирования

Тело: Transcript

Удаление расшифровки

Идентификатор операции:: DeleteTranscript

Удалите расшифровку. Удаление не удаляет сам ресурс, но удаляет данные из ресурса и помечает его как удаленные.

Параметры

Имя	Ключ	Обязательно	Тип	Описание
Идентификатор расшифровки	transcript_id	True	string	Идентификатор расшифровки

Возвращаемое значение

Объект транскрибирования

Тело: Transcript

Определения

RedactedAudioResponse

Имя	Путь	Тип	Описание
Состояние	status	string	Состояние редактированного звука
Url-адрес для редактированного звука	redacted_audio_url	string	URL-адрес редактированного звукового файла

WordSearchResponse

Имя	Путь	Тип	Описание
Идентификатор расшифровки	id	uuid	Идентификатор расшифровки
Общее количество совпадений	total_count	integer	Общее количество всех сопоставленных экземпляров. Например, слово 1 совпадает с 2 раза, и слово 2 совпадает 3 раза, total_count равно 5.
Совпадения	matches	array of object	Совпадения поиска
Текст	matches.text	string	Соответствующее слово
Численность	matches.count	integer	Общее количество раз, когда слово находится в расшифровке
Временные метки	matches.timestamps	array of array	Массив меток времени
Отметка времени	matches.timestamps	array of integer	Массив меток времени, структурированных как [start_time, end_time] в миллисекундах
Indexes	matches.indexes	array of integer	Массив всех расположений индекса для этого слова в массиве слов завершенной расшифровки

Транскрипт

Объект транскрибирования

Имя	Путь	Тип	Описание
Идентификатор	id	uuid	Уникальный идентификатор расшифровки
URL-адрес аудио	audio_url	string	URL-адрес носителя, который был транскрибирован
Состояние	status	string	Состояние расшифровки. Возможные значения: очереди, обработка, завершение или ошибка.
Код языка	language_code	string	Язык звукового файла. Возможные значения находятся на поддерживаемых языках. Значение по умолчанию — "en_us".
Language Detection	language_detection	boolean	Включена ли автоматическая функция обнаружения языка( true или false)
Модель распознавания речи	speech_model	string	Модель речи, используемая для транскрибирования.
Текст	text	string	Текстовая расшифровка файла мультимедиа
Слова	words	array of object	Массив временных последовательных объектов слов, по одному для каждого слова в расшифровке. Дополнительные сведения см. в разделе распознавания речи.
Достоверность	words.confidence	double
Start	words.start	integer
Конец	words.end	integer
Текст	words.text	string
Спикер	words.speaker	string	Докладчик предложения, если включена диаризация говорящего, в противном случае — значение NULL
Высказывания	utterances	array of object	Если включена dual_channel или speaker_labels, список повернутых объектов речевых фрагментов. Дополнительные сведения см. в разделе "Диаризация говорящего".
Достоверность	utterances.confidence	double	Оценка достоверности для расшифровки этого речевых фрагментов
Start	utterances.start	integer	Время начала в миллисекундах высказываний в звуковом файле
Конец	utterances.end	integer	Время окончания в миллисекундах высказываний в звуковом файле
Текст	utterances.text	string	Текст для этого речевых фрагментов
Слова	utterances.words	array of object	Слова в речевых фрагментах.
Достоверность	utterances.words.confidence	double
Start	utterances.words.start	integer
Конец	utterances.words.end	integer
Текст	utterances.words.text	string
Спикер	utterances.words.speaker	string	Докладчик предложения, если включена диаризация говорящего, в противном случае — значение NULL
Спикер	utterances.speaker	string	Докладчик этого речевых фрагментов, где каждый докладчик назначает последовательную прописную букву , например "A" для докладчика А, "B" для докладчика B и т. д.
Достоверность	confidence	double	Оценка достоверности для расшифровки, от 0,0 (низкая достоверность) до 1.0 (высокая достоверность)
Audio Duration (Длительность аудио);	audio_duration	integer	Длительность файла мультимедиа объекта расшифровки в секундах
Перемежать	punctuate	boolean	Включена ли автоматическая препинание, значение true или false
Форматирование текста	format_text	boolean	Включена ли форматирование текста, значение true или false
Cлова-паразиты	disfluencies	boolean	Transcribe Filler Words, например "um", в файле мультимедиа; может быть true или false
Двухканальной	dual_channel	boolean	Включена ли транскрибирование двойного канала в запросе транскрибирования либо true, либо false
URL-адрес веб-перехватчика	webhook_url	string	URL-адрес, на который мы отправляем запросы веб-перехватчика. Мы посылаем два разных типа запросов веб-перехватчика. Один запрос при завершении или сбое расшифровки и один запрос, когда редактированный звук готов, если redact_pii_audio включен.
Код состояния HTTP веб-перехватчика	webhook_status_code	integer	Код состояния, полученный от сервера при доставке расшифровки завершенного или неудачного запроса веб-перехватчика, если был предоставлен URL-адрес веб-перехватчика.
Включенная проверка подлинности веб-перехватчика	webhook_auth	boolean	Указаны ли сведения о проверке подлинности веб-перехватчика
Имя заголовка проверки подлинности веб-перехватчика	webhook_auth_header_name	string	Имя заголовка, отправленное с расшифровкой завершенных или неудачных запросов веб-перехватчика
Ускорение скорости	speed_boost	boolean	Включена ли ускорение скорости
Ключевые фразы	auto_highlights	boolean	Включена ли ключевая фраза, значение true или false
Состояние	auto_highlights_result.status	string	Успешное или недоступное в редких случаях, когда модель завершилась ошибкой
Results	auto_highlights_result.results	array of object	Временный последовательный массив ключевых фраз
Численность	auto_highlights_result.results.count	integer	Общее количество ключевых фраз в звуковом файле
Ранг	auto_highlights_result.results.rank	float	Общая релевантность к общему звуковому файлу этой ключевой фразы — большее число означает более релевантное
Текст	auto_highlights_result.results.text	string	Сам текст ключевой фразы
Временные метки	auto_highlights_result.results.timestamps	array of object	Метка времени ключевой фразы
Start	auto_highlights_result.results.timestamps.start	integer	Время начала в миллисекундах
Конец	auto_highlights_result.results.timestamps.end	integer	Время окончания в миллисекундах
Звук начинается с	audio_start_from	integer	Момент времени в миллисекундах в файле, в котором была запущена транскрибирование
Конец звука в	audio_end_at	integer	Момент времени в миллисекундах в файле, в котором транскрибирование было завершено
Word Boost	word_boost	array of string	Список пользовательского словаря для повышения вероятности транскрибирования
Поддержка	boost_param	string	Значение параметра повышения слова
Фильтрация ненормативной лексики	filter_profanity	boolean	Включена ли фильтрация ненормативной лексики, значение true или false
Redact PII	redact_pii	boolean	Включена ли редактция PII, значение true или false
Redact PII Audio	redact_pii_audio	boolean	Была ли создана редактируемая версия звукового файла либо true, либо false. Дополнительные сведения см. в редакте PII.
Качество звука Redact PII	redact_pii_audio_quality	string	Управляет типом файла звука, созданного redact_pii_audio. В настоящее время поддерживает mp3 (по умолчанию) и wav. Дополнительные сведения см. в редакте PII.
Политики redact PII	redact_pii_policies	array of string	Список политик Redaction piI, которые были включены, если включен redaction piI. Дополнительные сведения см. в редакте PII.
Подстановка личных данных Redact	redact_pii_sub	string	Логика замены для обнаруженных персональных данных может быть "entity_name" или "хэш". Дополнительные сведения см. в редакте PII.
Метки говорящего	speaker_labels	boolean	Включена ли диазаризация говорящего, может быть true или false
Ожидаемые докладчики	speakers_expected	integer	Сообщите модели метки говорящего, сколько динамиков она должна попытаться определить, до 10. Дополнительные сведения см. в разделе "Диаризация говорящего".
Модерация содержимого	content_safety	boolean	Включена ли модерация содержимого, может быть значение true или false
Состояние	content_safety_labels.status	string	Успешное или недоступное в редких случаях, когда модель завершилась ошибкой
Results	content_safety_labels.results	array of object
Текст	content_safety_labels.results.text	string	Расшифровка раздела, помеченного моделью модерации содержимого
Наклейки	content_safety_labels.results.labels	array of object	Массив меток безопасности, один для каждого конфиденциального раздела, обнаруженный в разделе
Этикетка	content_safety_labels.results.labels.label	string	Метка конфиденциального раздела
Достоверность	content_safety_labels.results.labels.confidence	double	Оценка достоверности для обсуждаемой темы от 0 до 1
Severity	content_safety_labels.results.labels.severity	double	Как серьезно рассматривается тема в разделе от 0 до 1
Начало индекса предложения	content_safety_labels.results.sentences_idx_start	integer	Индекс предложения, с которого начинается раздел
Конец индекса предложения	content_safety_labels.results.sentences_idx_end	integer	Индекс предложения, по которому заканчивается раздел
Start	content_safety_labels.results.timestamp.start	integer	Время начала в миллисекундах
Конец	content_safety_labels.results.timestamp.end	integer	Время окончания в миллисекундах
Сводка	content_safety_labels.summary	object	Сводка результатов достоверности модерации содержимого для всего звукового файла
Сводка оценки серьезности	content_safety_labels.severity_score_summary	object	Сводка результатов серьезности модерации содержимого для всего звукового файла
Обнаружение разделов	iab_categories	boolean	Включена ли функция обнаружения разделов, может быть ли значение true или false
Состояние	iab_categories_result.status	string	Успешное или недоступное в редких случаях, когда модель завершилась ошибкой
Results	iab_categories_result.results	array of object	Массив результатов для модели обнаружения тем
Текст	iab_categories_result.results.text	string	Текст в расшифровке, в которой обнаружена тема
Наклейки	iab_categories_result.results.labels	array of object
Актуальность	iab_categories_result.results.labels.relevance	double	Насколько релевантна обнаруженная тема обнаружена
Этикетка	iab_categories_result.results.labels.label	string	Метка таксономической метки IAB для метки обнаруженной темы, в которой > обозначается супертопическая или подтопическая связь
Start	iab_categories_result.results.timestamp.start	integer	Время начала в миллисекундах
Конец	iab_categories_result.results.timestamp.end	integer	Время окончания в миллисекундах
Сводка	iab_categories_result.summary	object	Общая релевантность раздела ко всему звуковому файлу
Пользовательские орфографии	custom_spelling	array of object	Настройка орфографии и форматирования слов с использованием значений и из них
От	custom_spelling.from	array of string	Слова или фразы для замены
Кому	custom_spelling.to	string	Слово или фраза для замены на
Включена автоматическая глава	auto_chapters	boolean	Включена ли функция автоглавы, может иметь значение true или false.
Главы	chapters	array of object	Массив временных последовательных глав для звукового файла
Суть	chapters.gist	string	Ультра-короткий сводка (всего несколько слов) содержимого, произнесенное в главе
Заголовок	chapters.headline	string	Сводка по одному предложению о содержимом, произнесемом во время главы
Сводка	chapters.summary	string	Сводка по одному абзацу содержимого, произнесенное во время главы
Start	chapters.start	integer	Время начала в миллисекундах для главы
Конец	chapters.end	integer	Время начала в миллисекундах для главы
Включена сводка	summarization	boolean	Включена ли суммирование, значение true или false
Тип сводки	summary_type	string	Тип сгенерированного сводки, если включена сводка
Сводная модель	summary_model	string	Модель суммирования, используемая для создания сводки, если включена сводка
Сводка	summary	string	Созданная сводка файла мультимедиа, если включена сводка
Настраиваемые разделы включены	custom_topics	boolean	Включена ли пользовательская тема, значение true или false
Темы	topics	array of string	Список настраиваемых тем, указанных в том случае, если настраиваемые разделы включены
Sentiment Analysis	sentiment_analysis	boolean	Включен ли анализ тональности, может иметь значение true или false
Результаты анализа тональности	sentiment_analysis_results	array of object	Массив результатов для модели анализа тональности, если он включен. Дополнительные сведения см. в разделе "Анализ тональности".
Текст	sentiment_analysis_results.text	string	Расшифровка предложения
Start	sentiment_analysis_results.start	integer	Время начала предложения в миллисекундах
Конец	sentiment_analysis_results.end	integer	Время окончания предложения в миллисекундах
Тональность	sentiment_analysis_results.sentiment		Обнаруженная тональность предложения, одна из ПОЛОЖИТЕЛЬНЫХ, НЕЙТРАЛЬНЫХ, ОТРИЦАТЕЛЬНЫХ
Достоверность	sentiment_analysis_results.confidence	double	Оценка достоверности для обнаруженного тональности предложения от 0 до 1
Спикер	sentiment_analysis_results.speaker	string	Докладчик предложения, если включена диаризация говорящего, в противном случае — значение NULL
Обнаружение сущностей	entity_detection	boolean	Включена ли функция обнаружения сущностей, может быть true или false
Entities	entities	array of object	Массив результатов для модели обнаружения сущностей, если он включен. Дополнительные сведения см. в разделе "Обнаружение сущностей".
Тип сущности	entities.entity_type	string	Тип сущности для обнаруженной сущности
Текст	entities.text	string	Текст для обнаруженной сущности
Start	entities.start	integer	Время начала в миллисекундах, в котором обнаруженная сущность отображается в звуковом файле
Конец	entities.end	integer	Время окончания в миллисекундах для обнаруженной сущности в звуковом файле
Пороговое значение речи	speech_threshold	float	По умолчанию имеет значение NULL. Отклонить звуковые файлы, содержащие меньше этой доли речи. Допустимые значения находятся в диапазоне [0, 1] включительно.
Задушил	throttled	boolean	Значение True, пока запрос регулируется и имеет значение false, если запрос больше не регулируется
Ошибка	error	string	Сообщение об ошибке о том, почему сбой расшифровки
Языковая модель	language_model	string	Языковая модель, используемая для расшифровки
Акустическая модель	acoustic_model	string	Акустическая модель, используемая для расшифровки

ПредложенияResponse

Имя	Путь	Тип	Описание
Идентификатор расшифровки	id	uuid
Достоверность	confidence	double
Audio Duration (Длительность аудио);	audio_duration	number
Предложения	sentences	array of object
Текст	sentences.text	string
Start	sentences.start	integer
Конец	sentences.end	integer
Достоверность	sentences.confidence	double
Слова	sentences.words	array of object
Достоверность	sentences.words.confidence	double
Start	sentences.words.start	integer
Конец	sentences.words.end	integer
Текст	sentences.words.text	string
Спикер	sentences.words.speaker	string	Докладчик предложения, если включена диаризация говорящего, в противном случае — значение NULL
Спикер	sentences.speaker	string	Докладчик предложения, если включена диаризация говорящего, в противном случае — значение NULL

АбзацыResponse

Имя	Путь	Тип	Описание
Идентификатор расшифровки	id	uuid
Достоверность	confidence	double
Audio Duration (Длительность аудио);	audio_duration	number
Абзацы	paragraphs	array of object
Текст	paragraphs.text	string
Start	paragraphs.start	integer
Конец	paragraphs.end	integer
Достоверность	paragraphs.confidence	double
Слова	paragraphs.words	array of object
Достоверность	paragraphs.words.confidence	double
Start	paragraphs.words.start	integer
Конец	paragraphs.words.end	integer
Текст	paragraphs.words.text	string
Спикер	paragraphs.words.speaker	string	Докладчик предложения, если включена диаризация говорящего, в противном случае — значение NULL
Спикер	paragraphs.speaker	string	Докладчик предложения, если включена диаризация говорящего, в противном случае — значение NULL

Транскрибирование

Имя	Путь	Тип	Описание
Лимит	page_details.limit	integer	Количество результатов этой страницы ограничено
Число результатов	page_details.result_count	integer	Фактическое количество результатов на странице
Текущий URL-адрес	page_details.current_url	string	URL-адрес, используемый для получения текущей страницы расшифровок
Предыдущий URL-адрес	page_details.prev_url	string	URL-адрес следующей страницы расшифровок. Предыдущий URL-адрес всегда указывает на страницу со старыми расшифровками.
Следующий URL-адрес	page_details.next_url	string	URL-адрес следующей страницы расшифровок. Следующий URL-адрес всегда указывает на страницу с более новыми расшифровками.
Transcripts	transcripts	array of object
Идентификатор	transcripts.id	uuid
URL-адрес ресурса	transcripts.resource_url	string
Состояние	transcripts.status	string	Состояние расшифровки. Возможные значения: очереди, обработка, завершение или ошибка.
Создано	transcripts.created	string
Завершено	transcripts.completed	string
URL-адрес аудио	transcripts.audio_url	string
Ошибка	transcripts.error	string	Сообщение об ошибке о том, почему сбой расшифровки

UploadedFile

Имя	Путь	Тип	Описание
URL-адрес отправленного файла	upload_url	string	URL-адрес, указывающий на звуковой файл, доступный только серверами AssemblyAI

PurgeLemurRequestDataResponse

Имя	Путь	Тип	Описание
Идентификатор запроса очистки	request_id	uuid	Идентификатор запроса на удаление запроса LeMUR
Идентификатор запроса LeMUR для очистки	request_id_to_purge	uuid	Идентификатор запроса LeMUR для очистки данных
Удалено	deleted	boolean	Удалены ли данные запроса

LemurTaskResponse

Имя	Путь	Тип	Описание
Ответ	response	string	Ответ, созданный LeMUR.
Идентификатор запроса LeMUR	request_id	uuid	Идентификатор запроса LeMUR
Входные маркеры	usage.input_tokens	integer	Количество входных маркеров, используемых моделью
Выходные маркеры	usage.output_tokens	integer	Количество выходных маркеров, созданных моделью

LemurResponse

Имя	Путь	Тип	Описание
Ответ	response	string	Ответ, созданный LeMUR.
Идентификатор запроса LeMUR	request_id	uuid	Идентификатор запроса LeMUR
Входные маркеры	usage.input_tokens	integer	Количество входных маркеров, используемых моделью
Выходные маркеры	usage.output_tokens	integer	Количество выходных маркеров, созданных моделью

струна

Это базовый тип данных string.

Поделиться через

AssemblyAI (предварительная версия)

Предпосылки

Получение учетных данных

Начало работы с соединителем

Отправка файла

Транскрибирование звука

Обработка веб-перехватчика готовой расшифровки

Опрос состояния расшифровки

Добавление дополнительных действий

Известные проблемы и ограничения

Распространенные ошибки и средства устранения неполадок

Часто задаваемые вопросы

Создание подключения

По умолчанию

Ограничения регулирования

Действия

Вывод списка расшифровок

Параметры

Возвращаемое значение

Выполнение задачи с помощью LeMUR

Параметры

Возвращаемое значение

Отправка файла мультимедиа

Параметры

Возвращаемое значение

Очистка данных запроса LeMUR

Параметры

Возвращаемое значение

Поиск слов в транскрибировании

Параметры

Возвращаемое значение

Получение абзацев в расшифровке

Параметры

Возвращаемое значение

Получение ответа LeMUR

Параметры

Возвращаемое значение

Получение предложений в транскрибировании

Параметры

Возвращаемое значение

Получение расшифровки

Параметры

Возвращаемое значение

Получение редактированного звука

Параметры

Возвращаемое значение

Получение субтитров для расшифровки

Параметры

Возвращаемое значение

Транскрибирование звука

Параметры

Возвращаемое значение

Удаление расшифровки

Параметры

Возвращаемое значение

Определения

RedactedAudioResponse

WordSearchResponse

Транскрипт

ПредложенияResponse

АбзацыResponse

Транскрибирование

UploadedFile

PurgeLemurRequestDataResponse

LemurTaskResponse

LemurResponse

струна