AssemblyAI (предварительная версия)
Транскрибирование и извлечение данных из звука с помощью ИИ службы "Речь" AssemblyAI.
Этот соединитель доступен в следующих продуктах и регионах:
| Услуга | Class | Регионы |
|---|---|---|
| Copilot Studio | Премия | Все регионы Power Automate , кроме следующих: - Правительство США (GCC) - Правительство США (GCC High) — Облако Китая, управляемое 21Vianet - Министерство обороны США (DoD) |
| Логические приложения | Стандарт | Все регионы Logic Apps , кроме следующих: — Регионы Azure для государственных организаций — Регионы Azure Для Китая - Министерство обороны США (DoD) |
| Power Apps | Премия | Все регионы Power Apps , кроме следующих: - Правительство США (GCC) - Правительство США (GCC High) — Облако Китая, управляемое 21Vianet - Министерство обороны США (DoD) |
| Power Automate | Премия | Все регионы Power Automate , кроме следующих: - Правительство США (GCC) - Правительство США (GCC High) — Облако Китая, управляемое 21Vianet - Министерство обороны США (DoD) |
| Контакт | |
|---|---|
| Имя | Support |
| URL | https://www.assemblyai.com/docs/ |
| Адрес электронной почты | support@assemblyai.com |
| Метаданные соединителя | |
|---|---|
| Publisher | AssemblyAI |
| Веб-сайт | https://www.assemblyai.com |
| Политика конфиденциальности | https://www.assemblyai.com/legal/privacy-policy |
| Категории | AI |
С помощью соединителя AssemblyAI можно использовать модели AssemblyAI для обработки звуковых данных, транскрибируя их с помощью моделей распознавания речи, анализируя их с помощью моделей аудиоразведки, а также создавая создаваемые функции на основе этих функций с помощью LLM.
- Речь в тексте , включая множество настраиваемых функций, таких как диаризация говорящего, настраиваемая орфография, пользовательский словарь и т. д.
- Модели аналитики аудио — это дополнительные модели ИИ, доступные и настроенные с помощью конфигурации транскрибирования.
- LeMUR позволяет применять различные модели LLM к расшифровкам без необходимости создавать собственную инфраструктуру RAG для очень больших расшифровок.
Предпосылки
Для продолжения вам потребуется следующее:
- Ключ API AssemblyAI (получить его бесплатно)
Получение учетных данных
Вы можете бесплатно получить ключ API AssemblyAI, зарегистрироваться для учетной записи и скопировать ключ API с панели мониторинга.
Начало работы с соединителем
Выполните следующие действия, чтобы транскрибировать звук с помощью соединителя AssemblyAI.
Отправка файла
Чтобы транскрибировать звуковой файл с помощью AssemblyAI, файл должен быть доступен для AssemblyAI. Если звуковой файл уже доступен по URL-адресу, можно использовать существующий URL-адрес.
В противном случае можно использовать Upload a File действие для отправки файла в AssemblyAI.
Вы получите URL-адрес файла, который можно использовать только для транскрибирования с помощью ключа API.
После транскрибирования файла файл будет удален с серверов AssemblyAI.
Транскрибирование звука
Чтобы транскрибировать звук, настройте Audio URL параметр с помощью URL-адреса звукового файла.
Затем настройте дополнительные параметры, чтобы включить дополнительные функции распознавания речи и модели аудиоразведки .
Результатом действия Transcribe Audio является запись в очереди, которая начнет обрабатываться немедленно. Чтобы получить завершенную расшифровку, у вас есть два варианта:
Обработка веб-перехватчика готовой расшифровки
Если вы не хотите обрабатывать веб-перехватчик с помощью Logic Apps или Power Automate, настройте Webhook URL параметр в действии Transcribe Audio и реализуйте веб-перехватчик после документации по веб-перехватчику AssemblyAI.
Чтобы обрабатывать веб-перехватчик с помощью Logic Apps или Power Automate, выполните следующие действия:
Создание отдельного приложения логики или потока Power Automate
Настройте
When an HTTP request is receivedв качестве триггера:- Установите
Who Can Trigger The Flow?наAnyone - Установите значение
Request Body JSON Schema:{ "type": "object", "properties": { "transcript_id": { "type": "string" }, "status": { "type": "string" } } } - Установите
MethodнаPOST
- Установите
Добавьте действие AssemblyAI
Get Transcript, передаваяtranscript_idтриггер вTranscript IDпараметр.Прежде чем делать что-либо еще, необходимо проверить, является
completedлиStatusон илиerror.ConditionДобавьте действие, которое проверяет, являетсяerrorлиStatusрезультат выходныхGet Transcriptданных:-
TrueВ ветви добавьтеTerminateдействие- Задайте для значения значение
StatusFailed - Задайте для значения значение
CodeTranscript Error - Передайте выходные
ErrorGet TranscriptданныеMessageв параметр.
- Задайте для значения значение
- Вы можете оставить ветвь пустой
False.
Теперь вы можете добавить любое действие после
Conditionтого, как известно состояниеcompletedрасшифровки, и вы можете получить любое из выходных свойствGet Transcriptдействия.-
Сохраните приложение логики или поток. Будет
HTTP URLсоздано для триггераWhen an HTTP request is received.HTTP URLСкопируйте и вернитесь к исходному приложению логики или потоку.В исходном приложении логики или потоке
Transcribe Audioобновите действие.HTTP URLВставьте скопированные ранее данные вWebhook URLпараметр и сохраните его.
Когда состояние расшифровки становится completed или errorсборкаAI отправляет HTTP-запрос POST в URL-адрес веб-перехватчика, который будет обрабатываться другим приложением логики или потоком.
В качестве альтернативы использованию веб-перехватчика можно провести опрос состояния расшифровки, как описано в следующем разделе.
Опрос состояния расшифровки
Вы можете пропросить состояние расшифровки, выполнив следующие действия.
Initialize variableДобавление действия- Установите
Nameнаtranscript_status - Установите
TypeнаString -
StatusСохранение выходныхTranscribe Audioданных в параметреValue
- Установите
Do untilДобавление действия-
Loop UntilНастройте параметр со следующим кодом Fx:
Этот код проверяет, являетсяor(equals(variables('transcript_status'), 'completed'), equals(variables('transcript_status'), 'error'))completedлиtranscript_statusпеременная илиerror. -
CountНастройка параметра в86400 -
TimeoutНастройка параметра вPT24H
В действии
Do untilдобавьте следующие действия:-
DelayДобавление действия, ожидающего одну секунду -
Get TranscriptДобавьте действие и передайтеIDвыходныеTranscribe AudioданныеTranscript IDв параметр. -
Set variableДобавление действия- Установите
Nameнаtranscript_status -
StatusПередача выходныхGet Transcriptданных параметруValue
- Установите
Цикл
Do untilбудет продолжаться до завершения расшифровки или ошибки.-
Добавьте другое
Get Transcriptдействие, как и раньше, но добавьте его послеDo untilцикла, чтобы его выходные данные становятся доступными вне областиDo untilдействия.
Прежде чем делать что-либо еще, необходимо проверить, является completed ли транскрибирование Status или error.
Condition Добавьте действие, которое проверяет, имеет ли значение transcript_statuserror:
-
TrueВ ветви добавьтеTerminateдействие- Установите
StatusнаFailed - Установите
CodeнаTranscript Error - Передайте выходные
ErrorGet TranscriptданныеMessageв параметр.
- Установите
- Вы можете оставить ветвь пустой
False.
Теперь вы можете добавить любое действие после Condition того, как известно состояние completedрасшифровки, и вы можете получить любое из выходных свойств Get Transcript действия.
Добавление дополнительных действий
Теперь, когда у вас есть завершенная транскрибирование, вы можете использовать множество других действий, проходящих в ID расшифровке, например
Get Sentences of TranscriptGet Paragraphs of TranscriptGet Subtitles of TranscriptGet Redacted AudioSearch Transcript for WordsRun a Task using LeMUR
Известные проблемы и ограничения
Известные проблемы в настоящее время отсутствуют. Мы не поддерживаем потоковую речьTo-Text (в режиме реального времени), так как не удается использовать пользовательские соединители.
Распространенные ошибки и средства устранения неполадок
Дополнительные сведения об ошибках см. в документации по AssemblyAI.
Часто задаваемые вопросы
Часто задаваемые вопросы см. в нашей документации.
Создание подключения
Соединитель поддерживает следующие типы проверки подлинности:
| По умолчанию | Параметры для создания подключения. | Все регионы | Недоступен для совместного использования |
По умолчанию
Применимо: все регионы
Параметры для создания подключения.
Это недоступно для общего доступа. Если приложение power предоставляется другому пользователю, пользователю будет предложено явно создать новое подключение.
| Имя | Тип | Description | Обязательно |
|---|---|---|---|
| Ключ API AssemblyAI | securestring | Ключ API AssemblyAI для проверки подлинности API AssemblyAI. | True |
Ограничения регулирования
| Имя | Вызовы | Период обновления |
|---|---|---|
| Вызовы API для каждого подключения | 100 | 60 секунд |
Действия
| Вывод списка расшифровок |
Получите список созданных расшифровок. Расшифровки сортируются от самых новых до старых. Предыдущий URL-адрес всегда указывает на страницу со старыми расшифровками. |
| Выполнение задачи с помощью LeMUR |
Используйте конечную точку задачи LeMUR для ввода собственного запроса LLM. |
| Отправка файла мультимедиа |
Отправьте файл мультимедиа на серверы AssemblyAI. |
| Очистка данных запроса LeMUR |
Удалите данные для ранее отправленного запроса LeMUR. Будут удалены данные ответа LLM, а также любой контекст, предоставленный в исходном запросе. |
| Поиск слов в транскрибировании |
Выполните поиск по расшифровку ключевых слов. Вы можете искать отдельные слова, цифры или фразы, содержащие до пяти слов или чисел. |
| Получение абзацев в расшифровке |
Получение расшифровки по абзацам. API попытается семантической сегментировать расшифровку в абзацы, чтобы создать более понятные для чтения транскрипции. |
| Получение ответа LeMUR |
Получите ранее созданный ответ LeMUR. |
| Получение предложений в транскрибировании |
Получение расшифровки по предложениям. API попытается семантической сегментировать расшифровку в предложения, чтобы создать более понятные для чтения транскрипции. |
| Получение расшифровки |
Получите ресурс расшифровки. Расшифровка готова при завершении состояния. |
| Получение редактированного звука |
Извлеките отредактированные звуковые объекты, содержащие состояние и URL-адрес для редактированного звука. |
| Получение субтитров для расшифровки |
Экспортируйте расшифровку в формате SRT или VTT, чтобы использовать видеопроигрыватель для субтитров и закрытых субтитров. |
| Транскрибирование звука |
Создайте расшифровку из файла мультимедиа, доступного по URL-адресу. |
| Удаление расшифровки |
Удалите расшифровку. Удаление не удаляет сам ресурс, но удаляет данные из ресурса и помечает его как удаленные. |
Вывод списка расшифровок
Получите список созданных расшифровок. Расшифровки сортируются от самых новых до старых. Предыдущий URL-адрес всегда указывает на страницу со старыми расшифровками.
Параметры
| Имя | Ключ | Обязательно | Тип | Описание |
|---|---|---|---|---|
|
Лимит
|
limit | integer |
Максимальное количество расшифровок для получения |
|
|
Состояние
|
status | string |
Состояние расшифровки. Возможные значения: очереди, обработка, завершение или ошибка. |
|
|
Создано
|
created_on | date |
Только получение расшифровок, созданных на этой дате |
|
|
Перед идентификатором
|
before_id | uuid |
Получение расшифровок, созданных до этого идентификатора расшифровки |
|
|
После идентификатора
|
after_id | uuid |
Получение расшифровок, созданных после этого идентификатора расшифровки |
|
|
Регулирование только
|
throttled_only | boolean |
Только получение регулируемых расшифровок, переопределяет фильтр состояния |
Возвращаемое значение
Список расшифровок. Расшифровки сортируются от самых новых до старых. Предыдущий URL-адрес всегда указывает на страницу со старыми расшифровками.
- Тело
- TranscriptList
Выполнение задачи с помощью LeMUR
Используйте конечную точку задачи LeMUR для ввода собственного запроса LLM.
Параметры
| Имя | Ключ | Обязательно | Тип | Описание |
|---|---|---|---|---|
|
Подсказка
|
prompt | True | string |
Текст, который предложит модели создать нужные выходные данные, включая любой контекст, который требуется передать в модель. |
|
Идентификаторы расшифровки
|
transcript_ids | array of uuid |
Список завершенных расшифровок с текстом. До максимума 100 файлов или 100 часов, в зависимости от того, что меньше. Используйте transcript_ids или input_text в качестве входных данных в LeMUR. |
|
|
Входной текст
|
input_text | string |
Пользовательские отформатированные данные расшифровки. Максимальный размер — это ограничение контекста выбранной модели, которая по умолчанию составляет 100000. Используйте transcript_ids или input_text в качестве входных данных в LeMUR. |
|
|
Контекст
|
context | string |
Контекст для предоставления модели. Это может быть строка или значение JSON в свободной форме. |
|
|
Окончательная модель
|
final_model | string |
Модель, используемая для окончательного запроса после сжатия. |
|
|
Максимальный размер выходных данных
|
max_output_size | integer |
Максимальный размер выходных данных в токенах до 4000 |
|
|
Температура
|
temperature | float |
Температура, используемая для модели. Более высокие значения приводят к тому, что ответы являются более творческими, более низкими значениями являются более консервативными. Может быть любым значением от 0.0 до 1.0 включительно. |
Возвращаемое значение
- Тело
- LemurTaskResponse
Отправка файла мультимедиа
Отправьте файл мультимедиа на серверы AssemblyAI.
Параметры
| Имя | Ключ | Обязательно | Тип | Описание |
|---|---|---|---|---|
|
Содержимое файла
|
file | True | binary |
Файл для отправки. |
Возвращаемое значение
- Тело
- UploadedFile
Очистка данных запроса LeMUR
Удалите данные для ранее отправленного запроса LeMUR. Будут удалены данные ответа LLM, а также любой контекст, предоставленный в исходном запросе.
Параметры
| Имя | Ключ | Обязательно | Тип | Описание |
|---|---|---|---|---|
|
Идентификатор запроса LeMUR
|
request_id | True | string |
Идентификатор запроса LeMUR, данные которого необходимо удалить. Это будет найдено в ответе исходного запроса. |
Возвращаемое значение
Поиск слов в транскрибировании
Выполните поиск по расшифровку ключевых слов. Вы можете искать отдельные слова, цифры или фразы, содержащие до пяти слов или чисел.
Параметры
| Имя | Ключ | Обязательно | Тип | Описание |
|---|---|---|---|---|
|
Идентификатор расшифровки
|
transcript_id | True | string |
Идентификатор расшифровки |
|
Слова
|
words | True | array |
Ключевые слова для поиска |
Возвращаемое значение
- Тело
- WordSearchResponse
Получение абзацев в расшифровке
Получение расшифровки по абзацам. API попытается семантической сегментировать расшифровку в абзацы, чтобы создать более понятные для чтения транскрипции.
Параметры
| Имя | Ключ | Обязательно | Тип | Описание |
|---|---|---|---|---|
|
Идентификатор расшифровки
|
transcript_id | True | string |
Идентификатор расшифровки |
Возвращаемое значение
- Тело
- ParagraphsResponse
Получение ответа LeMUR
Получите ранее созданный ответ LeMUR.
Параметры
| Имя | Ключ | Обязательно | Тип | Описание |
|---|---|---|---|---|
|
Идентификатор запроса LeMUR
|
request_id | True | string |
Идентификатор ранее выполненного запроса LeMUR. Это будет найдено в ответе исходного запроса. |
Возвращаемое значение
- Тело
- LemurResponse
Получение предложений в транскрибировании
Получение расшифровки по предложениям. API попытается семантической сегментировать расшифровку в предложения, чтобы создать более понятные для чтения транскрипции.
Параметры
| Имя | Ключ | Обязательно | Тип | Описание |
|---|---|---|---|---|
|
Идентификатор расшифровки
|
transcript_id | True | string |
Идентификатор расшифровки |
Возвращаемое значение
- Тело
- SentencesResponse
Получение расшифровки
Получите ресурс расшифровки. Расшифровка готова при завершении состояния.
Параметры
| Имя | Ключ | Обязательно | Тип | Описание |
|---|---|---|---|---|
|
Идентификатор расшифровки
|
transcript_id | True | string |
Идентификатор расшифровки |
Возвращаемое значение
Объект транскрибирования
- Тело
- Transcript
Получение редактированного звука
Извлеките отредактированные звуковые объекты, содержащие состояние и URL-адрес для редактированного звука.
Параметры
| Имя | Ключ | Обязательно | Тип | Описание |
|---|---|---|---|---|
|
Идентификатор расшифровки
|
transcript_id | True | string |
Идентификатор расшифровки |
Возвращаемое значение
Получение субтитров для расшифровки
Экспортируйте расшифровку в формате SRT или VTT, чтобы использовать видеопроигрыватель для субтитров и закрытых субтитров.
Параметры
| Имя | Ключ | Обязательно | Тип | Описание |
|---|---|---|---|---|
|
Идентификатор расшифровки
|
transcript_id | True | string |
Идентификатор расшифровки |
|
Формат субтитров
|
subtitle_format | True | string |
Формат субтитров |
|
Число символов на подпись
|
chars_per_caption | integer |
Максимальное число символов на подпись |
Возвращаемое значение
- response
- string
Транскрибирование звука
Создайте расшифровку из файла мультимедиа, доступного по URL-адресу.
Параметры
| Имя | Ключ | Обязательно | Тип | Описание |
|---|---|---|---|---|
|
URL-адрес аудио
|
audio_url | True | string |
URL-адрес звукового или видеофайла для транскрибирования. |
|
Код языка
|
language_code | string |
Язык звукового файла. Возможные значения находятся на поддерживаемых языках. Значение по умолчанию — "en_us". |
|
|
Language Detection
|
language_detection | boolean |
Включите автоматическое обнаружение языка, значение true или false. |
|
|
Модель распознавания речи
|
speech_model | string |
Модель речи, используемая для транскрибирования. |
|
|
Перемежать
|
punctuate | boolean |
Включение автоматической препинания может иметь значение true или false |
|
|
Форматирование текста
|
format_text | boolean |
Включение форматирования текста может быть true или false |
|
|
Cлова-паразиты
|
disfluencies | boolean |
Transcribe Filler Words, например "um", в файле мультимедиа; может быть true или false |
|
|
Двухканальной
|
dual_channel | boolean |
Включение транскрибирования двойного канала может иметь значение true или false. |
|
|
URL-адрес веб-перехватчика
|
webhook_url | string |
URL-адрес, на который мы отправляем запросы веб-перехватчика. Мы посылаем два разных типа запросов веб-перехватчика. Один запрос при завершении или сбое расшифровки и один запрос, когда редактированный звук готов, если redact_pii_audio включен. |
|
|
Имя заголовка проверки подлинности веб-перехватчика
|
webhook_auth_header_name | string |
Имя заголовка, отправленное с расшифровкой завершенных или неудачных запросов веб-перехватчика |
|
|
Значение заголовка проверки подлинности веб-перехватчика
|
webhook_auth_header_value | string |
Значение заголовка для отправки обратно с расшифровкой завершенных или неудачных запросов веб-перехватчика для добавленной безопасности |
|
|
Ключевые фразы
|
auto_highlights | boolean |
Включение ключевых фраз, либо true, либо false |
|
|
Звук начинается с
|
audio_start_from | integer |
Момент времени в миллисекундах, чтобы начать транскрибирование в файле мультимедиа |
|
|
Конец звука в
|
audio_end_at | integer |
Момент времени в миллисекундах, чтобы остановить транскрибирование в файле мультимедиа |
|
|
Word Boost
|
word_boost | array of string |
Список пользовательского словаря для повышения вероятности транскрибирования |
|
|
Уровень повышения word
|
boost_param | string |
Сколько нужно увеличить указанные слова |
|
|
Фильтрация ненормативной лексики
|
filter_profanity | boolean |
Фильтрация ненормативной лексики из транскрибированного текста может быть true или false |
|
|
Redact PII
|
redact_pii | boolean |
Redact PII из транскрибированного текста с помощью модели Redact PII может иметь значение true или false. |
|
|
Redact PII Audio
|
redact_pii_audio | boolean |
Создайте копию исходного файла мультимедиа с произнесенных идентификаторами piI "beeped", может иметь значение true или false. Дополнительные сведения см. в редакте PII. |
|
|
Качество звука Redact PII
|
redact_pii_audio_quality | string |
Управляет типом файла звука, созданного redact_pii_audio. В настоящее время поддерживает mp3 (по умолчанию) и wav. Дополнительные сведения см. в редакте PII. |
|
|
Политики redact PII
|
redact_pii_policies | array of string |
Список политик redaction piI для включения. Дополнительные сведения см. в редакте PII. |
|
|
Подстановка личных данных Redact
|
redact_pii_sub | string |
Логика замены для обнаруженных персональных данных может быть "entity_name" или "хэш". Дополнительные сведения см. в редакте PII. |
|
|
Метки говорящего
|
speaker_labels | boolean |
Включение диаризации говорящего может быть true или false |
|
|
Ожидаемые докладчики
|
speakers_expected | integer |
Сообщает модели метки говорящего, сколько динамиков она должна попытаться определить, до 10. Дополнительные сведения см. в разделе "Диаризация говорящего". |
|
|
Модерация содержимого
|
content_safety | boolean |
Включение модерации содержимого может быть true или false |
|
|
Достоверность модерации содержимого
|
content_safety_confidence | integer |
Порог доверия для модели модерации содержимого. Значения должны быть от 25 до 100. |
|
|
Обнаружение разделов
|
iab_categories | boolean |
Включение обнаружения разделов может быть true или false |
|
|
От
|
from | True | array of string |
Слова или фразы для замены |
|
Кому
|
to | True | string |
Слово или фраза для замены на |
|
Sentiment Analysis
|
sentiment_analysis | boolean |
Включение анализа тональности может быть true или false |
|
|
Автоглавы
|
auto_chapters | boolean |
Включение автоглавы может быть true или false |
|
|
Обнаружение сущностей
|
entity_detection | boolean |
Включение обнаружения сущностей может быть true или false |
|
|
Пороговое значение речи
|
speech_threshold | float |
Отклонить звуковые файлы, содержащие меньше этой доли речи. Допустимые значения находятся в диапазоне [0, 1] включительно. |
|
|
Включение суммирования
|
summarization | boolean |
Включение суммирования может быть true или false |
|
|
Сводная модель
|
summary_model | string |
Модель для суммирования расшифровки |
|
|
Тип сводки
|
summary_type | string |
Тип сводки |
|
|
Включение настраиваемых разделов
|
custom_topics | boolean |
Включение пользовательских разделов( true или false) |
|
|
Пользовательские разделы
|
topics | array of string |
Список настраиваемых разделов |
Возвращаемое значение
Объект транскрибирования
- Тело
- Transcript
Удаление расшифровки
Удалите расшифровку. Удаление не удаляет сам ресурс, но удаляет данные из ресурса и помечает его как удаленные.
Параметры
| Имя | Ключ | Обязательно | Тип | Описание |
|---|---|---|---|---|
|
Идентификатор расшифровки
|
transcript_id | True | string |
Идентификатор расшифровки |
Возвращаемое значение
Объект транскрибирования
- Тело
- Transcript
Определения
RedactedAudioResponse
| Имя | Путь | Тип | Описание |
|---|---|---|---|
|
Состояние
|
status | string |
Состояние редактированного звука |
|
Url-адрес для редактированного звука
|
redacted_audio_url | string |
URL-адрес редактированного звукового файла |
WordSearchResponse
| Имя | Путь | Тип | Описание |
|---|---|---|---|
|
Идентификатор расшифровки
|
id | uuid |
Идентификатор расшифровки |
|
Общее количество совпадений
|
total_count | integer |
Общее количество всех сопоставленных экземпляров. Например, слово 1 совпадает с 2 раза, и слово 2 совпадает 3 раза, total_count равно 5. |
|
Совпадения
|
matches | array of object |
Совпадения поиска |
|
Текст
|
matches.text | string |
Соответствующее слово |
|
Численность
|
matches.count | integer |
Общее количество раз, когда слово находится в расшифровке |
|
Временные метки
|
matches.timestamps | array of array |
Массив меток времени |
|
Отметка времени
|
matches.timestamps | array of integer |
Массив меток времени, структурированных как [start_time, end_time] в миллисекундах |
|
Indexes
|
matches.indexes | array of integer |
Массив всех расположений индекса для этого слова в массиве слов завершенной расшифровки |
Транскрипт
Объект транскрибирования
| Имя | Путь | Тип | Описание |
|---|---|---|---|
|
Идентификатор
|
id | uuid |
Уникальный идентификатор расшифровки |
|
URL-адрес аудио
|
audio_url | string |
URL-адрес носителя, который был транскрибирован |
|
Состояние
|
status | string |
Состояние расшифровки. Возможные значения: очереди, обработка, завершение или ошибка. |
|
Код языка
|
language_code | string |
Язык звукового файла. Возможные значения находятся на поддерживаемых языках. Значение по умолчанию — "en_us". |
|
Language Detection
|
language_detection | boolean |
Включена ли автоматическая функция обнаружения языка( true или false) |
|
Модель распознавания речи
|
speech_model | string |
Модель речи, используемая для транскрибирования. |
|
Текст
|
text | string |
Текстовая расшифровка файла мультимедиа |
|
Слова
|
words | array of object |
Массив временных последовательных объектов слов, по одному для каждого слова в расшифровке. Дополнительные сведения см. в разделе распознавания речи. |
|
Достоверность
|
words.confidence | double | |
|
Start
|
words.start | integer | |
|
Конец
|
words.end | integer | |
|
Текст
|
words.text | string | |
|
Спикер
|
words.speaker | string |
Докладчик предложения, если включена диаризация говорящего, в противном случае — значение NULL |
|
Высказывания
|
utterances | array of object |
Если включена dual_channel или speaker_labels, список повернутых объектов речевых фрагментов. Дополнительные сведения см. в разделе "Диаризация говорящего". |
|
Достоверность
|
utterances.confidence | double |
Оценка достоверности для расшифровки этого речевых фрагментов |
|
Start
|
utterances.start | integer |
Время начала в миллисекундах высказываний в звуковом файле |
|
Конец
|
utterances.end | integer |
Время окончания в миллисекундах высказываний в звуковом файле |
|
Текст
|
utterances.text | string |
Текст для этого речевых фрагментов |
|
Слова
|
utterances.words | array of object |
Слова в речевых фрагментах. |
|
Достоверность
|
utterances.words.confidence | double | |
|
Start
|
utterances.words.start | integer | |
|
Конец
|
utterances.words.end | integer | |
|
Текст
|
utterances.words.text | string | |
|
Спикер
|
utterances.words.speaker | string |
Докладчик предложения, если включена диаризация говорящего, в противном случае — значение NULL |
|
Спикер
|
utterances.speaker | string |
Докладчик этого речевых фрагментов, где каждый докладчик назначает последовательную прописную букву , например "A" для докладчика А, "B" для докладчика B и т. д. |
|
Достоверность
|
confidence | double |
Оценка достоверности для расшифровки, от 0,0 (низкая достоверность) до 1.0 (высокая достоверность) |
|
Audio Duration (Длительность аудио);
|
audio_duration | integer |
Длительность файла мультимедиа объекта расшифровки в секундах |
|
Перемежать
|
punctuate | boolean |
Включена ли автоматическая препинание, значение true или false |
|
Форматирование текста
|
format_text | boolean |
Включена ли форматирование текста, значение true или false |
|
Cлова-паразиты
|
disfluencies | boolean |
Transcribe Filler Words, например "um", в файле мультимедиа; может быть true или false |
|
Двухканальной
|
dual_channel | boolean |
Включена ли транскрибирование двойного канала в запросе транскрибирования либо true, либо false |
|
URL-адрес веб-перехватчика
|
webhook_url | string |
URL-адрес, на который мы отправляем запросы веб-перехватчика. Мы посылаем два разных типа запросов веб-перехватчика. Один запрос при завершении или сбое расшифровки и один запрос, когда редактированный звук готов, если redact_pii_audio включен. |
|
Код состояния HTTP веб-перехватчика
|
webhook_status_code | integer |
Код состояния, полученный от сервера при доставке расшифровки завершенного или неудачного запроса веб-перехватчика, если был предоставлен URL-адрес веб-перехватчика. |
|
Включенная проверка подлинности веб-перехватчика
|
webhook_auth | boolean |
Указаны ли сведения о проверке подлинности веб-перехватчика |
|
Имя заголовка проверки подлинности веб-перехватчика
|
webhook_auth_header_name | string |
Имя заголовка, отправленное с расшифровкой завершенных или неудачных запросов веб-перехватчика |
|
Ускорение скорости
|
speed_boost | boolean |
Включена ли ускорение скорости |
|
Ключевые фразы
|
auto_highlights | boolean |
Включена ли ключевая фраза, значение true или false |
|
Состояние
|
auto_highlights_result.status | string |
Успешное или недоступное в редких случаях, когда модель завершилась ошибкой |
|
Results
|
auto_highlights_result.results | array of object |
Временный последовательный массив ключевых фраз |
|
Численность
|
auto_highlights_result.results.count | integer |
Общее количество ключевых фраз в звуковом файле |
|
Ранг
|
auto_highlights_result.results.rank | float |
Общая релевантность к общему звуковому файлу этой ключевой фразы — большее число означает более релевантное |
|
Текст
|
auto_highlights_result.results.text | string |
Сам текст ключевой фразы |
|
Временные метки
|
auto_highlights_result.results.timestamps | array of object |
Метка времени ключевой фразы |
|
Start
|
auto_highlights_result.results.timestamps.start | integer |
Время начала в миллисекундах |
|
Конец
|
auto_highlights_result.results.timestamps.end | integer |
Время окончания в миллисекундах |
|
Звук начинается с
|
audio_start_from | integer |
Момент времени в миллисекундах в файле, в котором была запущена транскрибирование |
|
Конец звука в
|
audio_end_at | integer |
Момент времени в миллисекундах в файле, в котором транскрибирование было завершено |
|
Word Boost
|
word_boost | array of string |
Список пользовательского словаря для повышения вероятности транскрибирования |
|
Поддержка
|
boost_param | string |
Значение параметра повышения слова |
|
Фильтрация ненормативной лексики
|
filter_profanity | boolean |
Включена ли фильтрация ненормативной лексики, значение true или false |
|
Redact PII
|
redact_pii | boolean |
Включена ли редактция PII, значение true или false |
|
Redact PII Audio
|
redact_pii_audio | boolean |
Была ли создана редактируемая версия звукового файла либо true, либо false. Дополнительные сведения см. в редакте PII. |
|
Качество звука Redact PII
|
redact_pii_audio_quality | string |
Управляет типом файла звука, созданного redact_pii_audio. В настоящее время поддерживает mp3 (по умолчанию) и wav. Дополнительные сведения см. в редакте PII. |
|
Политики redact PII
|
redact_pii_policies | array of string |
Список политик Redaction piI, которые были включены, если включен redaction piI. Дополнительные сведения см. в редакте PII. |
|
Подстановка личных данных Redact
|
redact_pii_sub | string |
Логика замены для обнаруженных персональных данных может быть "entity_name" или "хэш". Дополнительные сведения см. в редакте PII. |
|
Метки говорящего
|
speaker_labels | boolean |
Включена ли диазаризация говорящего, может быть true или false |
|
Ожидаемые докладчики
|
speakers_expected | integer |
Сообщите модели метки говорящего, сколько динамиков она должна попытаться определить, до 10. Дополнительные сведения см. в разделе "Диаризация говорящего". |
|
Модерация содержимого
|
content_safety | boolean |
Включена ли модерация содержимого, может быть значение true или false |
|
Состояние
|
content_safety_labels.status | string |
Успешное или недоступное в редких случаях, когда модель завершилась ошибкой |
|
Results
|
content_safety_labels.results | array of object | |
|
Текст
|
content_safety_labels.results.text | string |
Расшифровка раздела, помеченного моделью модерации содержимого |
|
Наклейки
|
content_safety_labels.results.labels | array of object |
Массив меток безопасности, один для каждого конфиденциального раздела, обнаруженный в разделе |
|
Этикетка
|
content_safety_labels.results.labels.label | string |
Метка конфиденциального раздела |
|
Достоверность
|
content_safety_labels.results.labels.confidence | double |
Оценка достоверности для обсуждаемой темы от 0 до 1 |
|
Severity
|
content_safety_labels.results.labels.severity | double |
Как серьезно рассматривается тема в разделе от 0 до 1 |
|
Начало индекса предложения
|
content_safety_labels.results.sentences_idx_start | integer |
Индекс предложения, с которого начинается раздел |
|
Конец индекса предложения
|
content_safety_labels.results.sentences_idx_end | integer |
Индекс предложения, по которому заканчивается раздел |
|
Start
|
content_safety_labels.results.timestamp.start | integer |
Время начала в миллисекундах |
|
Конец
|
content_safety_labels.results.timestamp.end | integer |
Время окончания в миллисекундах |
|
Сводка
|
content_safety_labels.summary | object |
Сводка результатов достоверности модерации содержимого для всего звукового файла |
|
Сводка оценки серьезности
|
content_safety_labels.severity_score_summary | object |
Сводка результатов серьезности модерации содержимого для всего звукового файла |
|
Обнаружение разделов
|
iab_categories | boolean |
Включена ли функция обнаружения разделов, может быть ли значение true или false |
|
Состояние
|
iab_categories_result.status | string |
Успешное или недоступное в редких случаях, когда модель завершилась ошибкой |
|
Results
|
iab_categories_result.results | array of object |
Массив результатов для модели обнаружения тем |
|
Текст
|
iab_categories_result.results.text | string |
Текст в расшифровке, в которой обнаружена тема |
|
Наклейки
|
iab_categories_result.results.labels | array of object | |
|
Актуальность
|
iab_categories_result.results.labels.relevance | double |
Насколько релевантна обнаруженная тема обнаружена |
|
Этикетка
|
iab_categories_result.results.labels.label | string |
Метка таксономической метки IAB для метки обнаруженной темы, в которой > обозначается супертопическая или подтопическая связь |
|
Start
|
iab_categories_result.results.timestamp.start | integer |
Время начала в миллисекундах |
|
Конец
|
iab_categories_result.results.timestamp.end | integer |
Время окончания в миллисекундах |
|
Сводка
|
iab_categories_result.summary | object |
Общая релевантность раздела ко всему звуковому файлу |
|
Пользовательские орфографии
|
custom_spelling | array of object |
Настройка орфографии и форматирования слов с использованием значений и из них |
|
От
|
custom_spelling.from | array of string |
Слова или фразы для замены |
|
Кому
|
custom_spelling.to | string |
Слово или фраза для замены на |
|
Включена автоматическая глава
|
auto_chapters | boolean |
Включена ли функция автоглавы, может иметь значение true или false. |
|
Главы
|
chapters | array of object |
Массив временных последовательных глав для звукового файла |
|
Суть
|
chapters.gist | string |
Ультра-короткий сводка (всего несколько слов) содержимого, произнесенное в главе |
|
Заголовок
|
chapters.headline | string |
Сводка по одному предложению о содержимом, произнесемом во время главы |
|
Сводка
|
chapters.summary | string |
Сводка по одному абзацу содержимого, произнесенное во время главы |
|
Start
|
chapters.start | integer |
Время начала в миллисекундах для главы |
|
Конец
|
chapters.end | integer |
Время начала в миллисекундах для главы |
|
Включена сводка
|
summarization | boolean |
Включена ли суммирование, значение true или false |
|
Тип сводки
|
summary_type | string |
Тип сгенерированного сводки, если включена сводка |
|
Сводная модель
|
summary_model | string |
Модель суммирования, используемая для создания сводки, если включена сводка |
|
Сводка
|
summary | string |
Созданная сводка файла мультимедиа, если включена сводка |
|
Настраиваемые разделы включены
|
custom_topics | boolean |
Включена ли пользовательская тема, значение true или false |
|
Темы
|
topics | array of string |
Список настраиваемых тем, указанных в том случае, если настраиваемые разделы включены |
|
Sentiment Analysis
|
sentiment_analysis | boolean |
Включен ли анализ тональности, может иметь значение true или false |
|
Результаты анализа тональности
|
sentiment_analysis_results | array of object |
Массив результатов для модели анализа тональности, если он включен. Дополнительные сведения см. в разделе "Анализ тональности". |
|
Текст
|
sentiment_analysis_results.text | string |
Расшифровка предложения |
|
Start
|
sentiment_analysis_results.start | integer |
Время начала предложения в миллисекундах |
|
Конец
|
sentiment_analysis_results.end | integer |
Время окончания предложения в миллисекундах |
|
Тональность
|
sentiment_analysis_results.sentiment |
Обнаруженная тональность предложения, одна из ПОЛОЖИТЕЛЬНЫХ, НЕЙТРАЛЬНЫХ, ОТРИЦАТЕЛЬНЫХ |
|
|
Достоверность
|
sentiment_analysis_results.confidence | double |
Оценка достоверности для обнаруженного тональности предложения от 0 до 1 |
|
Спикер
|
sentiment_analysis_results.speaker | string |
Докладчик предложения, если включена диаризация говорящего, в противном случае — значение NULL |
|
Обнаружение сущностей
|
entity_detection | boolean |
Включена ли функция обнаружения сущностей, может быть true или false |
|
Entities
|
entities | array of object |
Массив результатов для модели обнаружения сущностей, если он включен. Дополнительные сведения см. в разделе "Обнаружение сущностей". |
|
Тип сущности
|
entities.entity_type | string |
Тип сущности для обнаруженной сущности |
|
Текст
|
entities.text | string |
Текст для обнаруженной сущности |
|
Start
|
entities.start | integer |
Время начала в миллисекундах, в котором обнаруженная сущность отображается в звуковом файле |
|
Конец
|
entities.end | integer |
Время окончания в миллисекундах для обнаруженной сущности в звуковом файле |
|
Пороговое значение речи
|
speech_threshold | float |
По умолчанию имеет значение NULL. Отклонить звуковые файлы, содержащие меньше этой доли речи. Допустимые значения находятся в диапазоне [0, 1] включительно. |
|
Задушил
|
throttled | boolean |
Значение True, пока запрос регулируется и имеет значение false, если запрос больше не регулируется |
|
Ошибка
|
error | string |
Сообщение об ошибке о том, почему сбой расшифровки |
|
Языковая модель
|
language_model | string |
Языковая модель, используемая для расшифровки |
|
Акустическая модель
|
acoustic_model | string |
Акустическая модель, используемая для расшифровки |
ПредложенияResponse
| Имя | Путь | Тип | Описание |
|---|---|---|---|
|
Идентификатор расшифровки
|
id | uuid | |
|
Достоверность
|
confidence | double | |
|
Audio Duration (Длительность аудио);
|
audio_duration | number | |
|
Предложения
|
sentences | array of object | |
|
Текст
|
sentences.text | string | |
|
Start
|
sentences.start | integer | |
|
Конец
|
sentences.end | integer | |
|
Достоверность
|
sentences.confidence | double | |
|
Слова
|
sentences.words | array of object | |
|
Достоверность
|
sentences.words.confidence | double | |
|
Start
|
sentences.words.start | integer | |
|
Конец
|
sentences.words.end | integer | |
|
Текст
|
sentences.words.text | string | |
|
Спикер
|
sentences.words.speaker | string |
Докладчик предложения, если включена диаризация говорящего, в противном случае — значение NULL |
|
Спикер
|
sentences.speaker | string |
Докладчик предложения, если включена диаризация говорящего, в противном случае — значение NULL |
АбзацыResponse
| Имя | Путь | Тип | Описание |
|---|---|---|---|
|
Идентификатор расшифровки
|
id | uuid | |
|
Достоверность
|
confidence | double | |
|
Audio Duration (Длительность аудио);
|
audio_duration | number | |
|
Абзацы
|
paragraphs | array of object | |
|
Текст
|
paragraphs.text | string | |
|
Start
|
paragraphs.start | integer | |
|
Конец
|
paragraphs.end | integer | |
|
Достоверность
|
paragraphs.confidence | double | |
|
Слова
|
paragraphs.words | array of object | |
|
Достоверность
|
paragraphs.words.confidence | double | |
|
Start
|
paragraphs.words.start | integer | |
|
Конец
|
paragraphs.words.end | integer | |
|
Текст
|
paragraphs.words.text | string | |
|
Спикер
|
paragraphs.words.speaker | string |
Докладчик предложения, если включена диаризация говорящего, в противном случае — значение NULL |
|
Спикер
|
paragraphs.speaker | string |
Докладчик предложения, если включена диаризация говорящего, в противном случае — значение NULL |
Транскрибирование
Список расшифровок. Расшифровки сортируются от самых новых до старых. Предыдущий URL-адрес всегда указывает на страницу со старыми расшифровками.
| Имя | Путь | Тип | Описание |
|---|---|---|---|
|
Лимит
|
page_details.limit | integer |
Количество результатов этой страницы ограничено |
|
Число результатов
|
page_details.result_count | integer |
Фактическое количество результатов на странице |
|
Текущий URL-адрес
|
page_details.current_url | string |
URL-адрес, используемый для получения текущей страницы расшифровок |
|
Предыдущий URL-адрес
|
page_details.prev_url | string |
URL-адрес следующей страницы расшифровок. Предыдущий URL-адрес всегда указывает на страницу со старыми расшифровками. |
|
Следующий URL-адрес
|
page_details.next_url | string |
URL-адрес следующей страницы расшифровок. Следующий URL-адрес всегда указывает на страницу с более новыми расшифровками. |
|
Transcripts
|
transcripts | array of object | |
|
Идентификатор
|
transcripts.id | uuid | |
|
URL-адрес ресурса
|
transcripts.resource_url | string | |
|
Состояние
|
transcripts.status | string |
Состояние расшифровки. Возможные значения: очереди, обработка, завершение или ошибка. |
|
Создано
|
transcripts.created | string | |
|
Завершено
|
transcripts.completed | string | |
|
URL-адрес аудио
|
transcripts.audio_url | string | |
|
Ошибка
|
transcripts.error | string |
Сообщение об ошибке о том, почему сбой расшифровки |
UploadedFile
| Имя | Путь | Тип | Описание |
|---|---|---|---|
|
URL-адрес отправленного файла
|
upload_url | string |
URL-адрес, указывающий на звуковой файл, доступный только серверами AssemblyAI |
PurgeLemurRequestDataResponse
| Имя | Путь | Тип | Описание |
|---|---|---|---|
|
Идентификатор запроса очистки
|
request_id | uuid |
Идентификатор запроса на удаление запроса LeMUR |
|
Идентификатор запроса LeMUR для очистки
|
request_id_to_purge | uuid |
Идентификатор запроса LeMUR для очистки данных |
|
Удалено
|
deleted | boolean |
Удалены ли данные запроса |
LemurTaskResponse
| Имя | Путь | Тип | Описание |
|---|---|---|---|
|
Ответ
|
response | string |
Ответ, созданный LeMUR. |
|
Идентификатор запроса LeMUR
|
request_id | uuid |
Идентификатор запроса LeMUR |
|
Входные маркеры
|
usage.input_tokens | integer |
Количество входных маркеров, используемых моделью |
|
Выходные маркеры
|
usage.output_tokens | integer |
Количество выходных маркеров, созданных моделью |
LemurResponse
| Имя | Путь | Тип | Описание |
|---|---|---|---|
|
Ответ
|
response | string |
Ответ, созданный LeMUR. |
|
Идентификатор запроса LeMUR
|
request_id | uuid |
Идентификатор запроса LeMUR |
|
Входные маркеры
|
usage.input_tokens | integer |
Количество входных маркеров, используемых моделью |
|
Выходные маркеры
|
usage.output_tokens | integer |
Количество выходных маркеров, созданных моделью |
струна
Это базовый тип данных string.