Бөлісу құралы:


Поиск звуковых файлов для пакетной транскрипции

Пакетное транскрибирование используется для транскрибирования большого объема звука в хранилище. Пакетное транскрибирование может получить доступ к звуковым файлам изнутри или за пределами Azure.

При хранении исходных звуковых файлов за пределами Azure они могут быть доступны через общедоступный URI (например, ;)https://crbn.us/hello.wav". Файлы должны быть доступны напрямую; URI, требующие проверки подлинности или вызывающие интерактивные скрипты, прежде чем доступ к файлу не поддерживается.

Доступ к звуковым файлам, хранящимся в хранилище BLOB-объектов Azure, можно получить с помощью одного из двух методов:

При создании транскрибирования можно указать один или несколько звуковых файлов. Рекомендуется предоставить несколько файлов на запрос или указать контейнер хранилища BLOB-объектов Azure с звуковыми файлами для транскрибирования. Служба пакетного транскрибирования может обрабатывать большое количество отправленных транскрибирования. Служба транскрибирует файлы одновременно, что позволяет уменьшить общее время обработки.

Поддерживаемые аудиоформаты и кодеки

API пакетной транскрибирования и API быстрого транскрибирования поддерживают несколько форматов и кодеков, например:

  • WAV
  • MP3
  • OPUS/OGG
  • FLAC
  • WMA
  • AAC
  • ALAW в контейнере WAV
  • MULAW в контейнере WAV
  • AMR (адаптивно переменная скорость)
  • WebM
  • SPEEX

Замечание

Служба пакетного транскрибирования интегрирует GStreamer и может принимать больше форматов и кодеков без возврата ошибок. Мы рекомендуем использовать форматы без потери, такие как кодировка WAV (кодировка PCM) и FLAC, чтобы обеспечить лучшее качество транскрибирования.

Отправка в хранилище BLOB-объектов Azure

Если звуковые файлы находятся в учетной записи Blob-хранилища Azure, вы можете запросить расшифровку как отдельных звуковых файлов, так и всего контейнера Blob-хранилища Azure. Вы также можете записывать результаты транскрибирования в контейнер BLOB-объектов.

Замечание

Для ограничений блобов и контейнеров см. квоты и ограничения пакетной транскрипции.

Выполните следующие действия, чтобы создать учетную запись хранения и отправить wav-файлы из локального каталога в новый контейнер.

  1. Откройте портал Azure и войдите в свою учетную запись Azure.
  2. Создайте ресурс учетной записи хранения в портал Azure. Используйте ту же подписку и группу ресурсов, что и ресурс "Речь".
  3. Выберите учетную запись хранения.
  4. В группе хранилища данных в левой области выберите контейнеры.
  5. Выберите +Контейнер.
  6. Введите имя нового контейнера и нажмите кнопку "Создать".
  7. Выберите новый контейнер.
  8. Выберите Загрузить.
  9. Выберите файлы для отправки и нажмите кнопку "Отправить".

Механизм безопасности доверенных служб Azure

В этом разделе объясняется, как настроить и ограничить доступ к исходным звуковым файлам пакетной транскрибирования в учетной записи хранения Azure с помощью механизма безопасности доверенных служб Azure.

Замечание

С помощью надежного механизма безопасности служб Azure нужно использовать хранилище блобов Azure для хранения звуковых файлов. Использование файлов Azure не поддерживается.

При выполнении всех действий в этом разделе учетная запись хранения настроена следующим образом:

Таким образом, ваша учетная запись хранения становится полностью заблокированной и не может использоваться в любом сценарии, кроме транскрибирования аудиофайлов, которые уже присутствовали к моменту применения новой конфигурации. Эту конфигурацию следует рассматривать как модель, что касается безопасности ваших звуковых данных, а также настроить её в соответствии с вашими потребностями.

Например, можно разрешить трафик из выбранных общедоступных IP-адресов и виртуальных сетей Azure. Вы также можете настроить доступ к учетной записи хранения с помощью частных конечных точек (см. также это руководство), повторно включить доступ с помощью ключа учетной записи хранения, разрешить доступ к другим доверенным службам Azure и т. д.

Замечание

Использование частных конечных точек для службы «Speech» не требуется для защиты учетной записи хранения. Вы можете использовать частную конечную точку для запросов API пакетных транскрипций, отдельно получая доступ к исходным звуковым файлам из защищенной учетной записи хранения, или наоборот.

Выполнив приведенные ниже действия, вы серьезно ограничиваете доступ к учетной записи хранения. Затем необходимо назначить минимальные необходимые разрешения для управляемого удостоверения ресурса "Речь" для доступа к учетной записи хранения.

Включите управляемое удостоверение, назначенное системой для ресурса распознавания речи

Выполните следующие действия, чтобы включить управляемое удостоверение, назначаемое системой, для ресурса 'Speech', используемого для пакетного транскриптирования.

  1. Откройте портал Azure и войдите в свою учетную запись Azure.

  2. Выберите ресурс "Речь".

  3. В группе Управление ресурсами в левой области выберите Удостоверение.

  4. На вкладке "Назначена системой" выберите "Вкл" для состояния.

    Это важно

    Назначаемая пользователем управляемая идентификация не соответствует требованиям для сценария аккаунта хранения массовой транскрибации. Обязательно включите управляемое удостоверение, назначаемое системой.

  5. Нажмите кнопку "Сохранить"

Теперь управляемому удостоверению вашего ресурса "Синтез речи" можно предоставить доступ к вашей учетной записи хранения.

Ограничение доступа к учетной записи хранения

Выполните следующие действия, чтобы ограничить доступ к учетной записи хранения.

Это важно

Перед блокировкой доступа к учетной записи хранения загрузите аудиофайлы в контейнер Blob.

  1. Откройте портал Azure и войдите в свою учетную запись Azure.
  2. Выберите учетную запись хранения.
  3. В группе "Параметры" в левой области выберите "Конфигурация".
  4. Выберите "Отключено " для предоставления общедоступного доступа к BLOB-объектам.
  5. Выберите "Отключено " для разрешения доступа к ключу учетной записи хранения
  6. Нажмите кнопку "Сохранить".

Дополнительные сведения см. в разделе "Запрет анонимного общедоступного доступа на чтение" к контейнерам и большим двоичным объектам и запрету авторизации общего ключа для учетной записи служба хранилища Azure.

Настройка брандмауэра служба хранилища Azure

Если у вас ограниченный доступ к учетной записи хранилища, необходимо предоставить доступ определённым управляемым удостоверениям. Выполните следующие действия, чтобы добавить доступ к ресурсу "Речь".

  1. Откройте портал Azure и войдите в свою учетную запись Azure.

  2. Выберите учетную запись хранения.

  3. В группе "Безопасность и сеть " в левой области выберите "Сеть".

  4. На вкладке "Брандмауэры и виртуальные сети " выберите "Включено" из выбранных виртуальных сетей и IP-адресов.

  5. Отмените выбор всех флажков.

  6. Убедитесь, что выбрана маршрутизация сети Майкрософт .

  7. В разделе "Экземпляры ресурсов" выберите Microsoft.CognitiveServices/accounts в качестве типа ресурса и выберите ресурс службы "Речь" в качестве имени экземпляра.

  8. Нажмите кнопку "Сохранить".

    Замечание

    Для распространения изменений сети может потребоваться до 5 минут.

Хотя в настоящее время доступ в сеть разрешён, ресурс для распознавания речи пока не может получить доступ к данным в учетной записи хранения. Необходимо назначить определенную роль доступа для управляемого удостоверения ресурса "Речь".

Назначение роли доступа к ресурсам

Выполните следующие действия, чтобы назначить роль читателя данных BLOB-объектов хранилища управляемому удостоверению ресурса для распознания речи.

Это важно

Для выполнения операции необходимо назначить роль владельца учетной записи хранения или более поздней области (например, подписку), чтобы выполнить операцию в следующих шагах. Это связано с тем, что только роль владельца может назначать роли другим пользователям. Дополнительные сведения см. здесь.

  1. Откройте портал Azure и войдите в свою учетную запись Azure.

  2. Выберите учетную запись хранения.

  3. Выберите меню контроль доступа (IAM) в левой области.

  4. Выберите " Добавить назначение ролей" в плитке "Предоставить доступ к этому ресурсу ".

  5. Выберите средство чтения данных BLOB-объектов хранилища в разделе "Роль " и нажмите кнопку "Далее".

  6. Выберите управляемое удостоверение в разделе "Участники>" Назначить доступ.

  7. Назначьте управляемое удостоверение ресурса "Речь" и выберите " Проверить и назначить".

    Снимок экрана проверки назначения управляемой роли.

  8. После подтверждения параметров нажмите кнопку "Проверить и назначить"

Теперь управляемая идентичность ресурса "Речь" имеет доступ к хранилищу и может получить доступ к звуковым файлам для пакетной транскрипции.

При использовании системного управляемого идентификатора создавая запрос на пакетное транскрибирование, используется простой URL учетной записи хранения (без SAS или других добавлений). Рассмотрим пример.

{
    "contentContainerUrl": "https://<storage_account_name>.blob.core.windows.net/<container_name>"
}

В противном случае можно указать отдельные файлы в контейнере. Рассмотрим пример.

{
    "contentUrls": [
        "https://<storage_account_name>.blob.core.windows.net/<container_name>/<file_name_1>",
        "https://<storage_account_name>.blob.core.windows.net/<container_name>/<file_name_2>"
    ]
}

URL-адрес SAS для пакетной транскрипции

Подписанный URL-адрес (SAS) — это универсальный код ресурса (URI), предоставляющий ограниченный доступ к контейнеру службы хранилища Azure. Используйте его, если вы хотите предоставить доступ к файлам пакетной транскрипции на определенный период времени, не передавая ключ учетной записи хранения.

Подсказка

Если доступ к контейнеру с исходными файлами пакетного транскрибирования должен быть предоставлен только вашему ресурсу службы "Речь", используйте механизм безопасности доверенных служб Azure.

Выполните следующие действия, чтобы создать SAS URL-адрес для пакетного транскрибирования.

  1. Выполните действия, описанные в загрузке в BLOB-хранилище Azure, чтобы создать учетную запись хранилища и загрузить звуковые файлы в новый контейнер.

  2. Выберите новый контейнер.

  3. В группе "Параметры" в области слева выберите маркеры общего доступа.

  4. Выберите +Контейнер.

  5. Выберите «Чтение» и «Список» для разрешений.

    Снимок экрана: разрешения URI SAS контейнера.

  6. Введите время начала и истечения срока действия для URI SAS или оставьте значения по умолчанию.

  7. Выберите Создать маркер SAS и URL-адрес.

При создании запроса пакетного транскрибирования используется URL-адрес SAS. Рассмотрим пример.

{
    "contentContainerUrl": "https://<storage_account_name>.blob.core.windows.net/<container_name>?SAS_TOKEN"
}

В противном случае можно указать отдельные файлы в контейнере. Необходимо создать и использовать другой URL-адрес SAS с разрешениями на чтение (r) для каждого файла. Рассмотрим пример.

{
    "contentUrls": [
        "https://<storage_account_name>.blob.core.windows.net/<container_name>/<file_name_1>?SAS_TOKEN_1",
        "https://<storage_account_name>.blob.core.windows.net/<container_name>/<file_name_2>?SAS_TOKEN_2"
    ]
}