Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Внимание
- Служба "Распознавание содержимого ИИ Azure" доступна в предварительной версии. Общедоступные предварительные выпуски предоставляют ранний доступ к функциям, которые находятся в активной разработке.
- Функции, подходы и процессы могут изменяться или иметь ограниченные возможности до общедоступной доступности.
- Дополнительные сведения см. в дополнительных условиях использования для предварительных версий Microsoft Azure.
Аудиоанализаторы позволяют транскрибировать и диаризацию беседного звука, извлекать структурированные поля, такие как сводки, тональности и ключевые темы. Настройте шаблон аудиоанализатора в соответствии с потребностями бизнеса с помощью портала Azure AI Foundry, чтобы начать создание результатов.
Ниже приведены распространенные сценарии обработки аудиоданных беседы:
- Получите аналитические сведения о клиентах с помощью анализа сводных данных и анализа тональности.
- Оценка и проверка качества звонков и соответствия в центрах вызовов.
- Создание автоматических сводок и метаданных для публикации podcast.
Возможности анализатора звука
Распознавание содержимого служит краеугольным камнем для решений службы "Аналитика речи", что позволяет использовать следующие возможности для аудиофайлов:
Извлечение содержимого
Извлечение звукового содержимого — это процесс транскрибирования аудиофайлов. Этот процесс включает разделение транскрипций по говорящим и может включать дополнительные функции, такие как обнаружение ролей, чтобы обновить результаты говорящего в соответствии с его значимой ролью. Кроме того, он может включать подробные результаты, включая метки времени на уровне слов.
Обработка языка
Мы поддерживаем различные варианты обработки языка во время транскрибирования.
В следующей таблице представлен обзор параметров, управляемых с помощью конфигурации "локали":
Настройка региона | Размер файла | Поддерживаемая обработка | Поддерживаемые языковые стандарты | Задержка результатов |
---|---|---|---|---|
автоматическое или пустое | ≤ 300 МБ или ≤ 2 часа | Многоязычное транскрибирование |
de-DE , en-AU , en-CA , en-GB , en-IN , en-US , es-ES , es-MX , fr-CA , fr-FR , hi-IN , it-IT , ja-JP , ko-KR , и zh-CN |
Почти в режиме реального времени |
автоматическое или пустое | > 300 МБ и >2 ч ≤ 4 часа | Многоязычное транскрибирование |
en-US , es-ES , es-MX fr-FR hi-IN it-IT ja-JP ko-KR pt-BR zh-CN |
Обычный |
одна локаль | ≤ 1 ГБ или ≤ 4 часа | Транскрибирование одного языка | Все поддерживаемые локали[^1] | • ≤ 300 МБ или ≤ 2 часа: почти в режиме реального времени • > 300 МБ и >2 ч ≤ 4 часа: Обычный |
несколько локалей | ≤ 1 ГБ или ≤ 4 часа | Транскрипция на одном языке (на основе определения языка) | Все поддерживаемые локали[^1] | • ≤ 300 МБ или ≤ 2 часа: почти в режиме реального времени • > 300 МБ и >2 ч ≤ 4 часа: Обычный |
[^1]: Распознавание содержимого поддерживает полный набор языков преобразования речи в текст системы Azure AI Speech. Для языков с поддержкой быстрых транскрибирования и файлов ≤ 300 МБ или ≤ 2 часа время транскрибирования значительно сокращается.
Транскрибирование. Преобразует аудиозапись беседы в доступные для поиска и анализируемые текстовые расшифровки в формате WebVTT. Настраиваемые поля можно создать из данных транскрибирования. Метки времени и метки времени уровня предложения доступны по запросу.
Диаризация. Различает динамиков в беседе, приписав части расшифровки конкретным ораторам.
Обнаружение роли докладчика. Определяет роли агента и клиента в контактных данных центра звонков.
Многоязычное транскрибирование. Создает многоязычные транскрипции, применяя язык/локаль для каждой фразы. При отклонении от обнаружения языка эта функция включается, если язык или языковой стандарт не указан, или язык задан на
auto
.
Замечание
При использовании многоязычного транскрибирования все файлы с неподдерживаемыми локалями создают результат на основе ближайшей поддерживаемой локали, который, вероятно, будет неверным. Это известное поведение. Избегайте проблем с качеством транскрибирования, обеспечивая настройку языковых стандартов, если не используется стандарт, поддерживающий многоязычное транскрибирование!
- Обнаружение языка. Автоматически обнаруживает доминирующий язык или языковой стандарт, используемый для транскрибирования файла. Задайте несколько языков и региональных стандартов, чтобы включить обнаружение языка.
Извлечение полей
Извлечение полей позволяет извлекать структурированные данные из звуковых файлов, таких как сводки, тональности и упомянутые сущности из журналов вызовов. Сначала можно настроить рекомендуемый шаблон анализатора или создать его с нуля.
Ключевые преимущества
Расширенные возможности звука, в том числе:
Настраиваемое извлечение данных. Настройте выходные данные в соответствии с вашими потребностями, изменив схему поля, что позволяет точно создавать и извлекать данные.
Генеривные модели. Используйте модели создания искусственного интеллекта для указания на естественном языке содержимого, которое требуется извлечь, и служба создает требуемые выходные данные.
Интегрированная предварительная обработка. Преимущества встроенных шагов предварительной обработки, таких как транскрибирование, диаризация и обнаружение ролей, предоставляя широкий контекст для генеривных моделей.
Адаптация сценария. Адаптируйте службу к вашим требованиям, создав настраиваемые поля и извлекая соответствующие данные.
Готовые звуковые анализаторы
Предварительно созданные анализаторы позволяют извлекать ценные сведения о звуковом содержимом без необходимости создавать настройку анализатора.
Все звуковые анализаторы создают расшифровки в стандартном формате WEBVTT, разделенном динамиком.
Замечание
Предварительно созданные анализаторы настроены на использование многоязычного транскрибирования, и функция returnDetails
включена.
Доступны следующие предварительно созданные анализаторы:
Анализ после вызова (предварительно настроенный колл-центр) Анализ записей звонков для генерации отчетов:
- Расшифровки бесед с результатом обнаружения роли докладчика
- Сводка вызова
- тональность вызовов
- первые пять статей, упомянутых
- список упомянутых компаний
- список людей (имена и должности/роли) упоминаются
- список соответствующих категорий вызовов
Пример результата:
{
"id": "bc36da27-004f-475e-b808-8b8aead3b566",
"status": "Succeeded",
"result": {
"analyzerId": "prebuilt-callCenter",
"apiVersion": "2025-05-01-preview",
"createdAt": "2025-05-06T22:53:28Z",
"stringEncoding": "utf8",
"warnings": [],
"contents": [
{
"markdown": "# Audio: 00:00.000 => 00:32.183\n\nTranscript\n```\nWEBVTT\n\n00:00.080 --> 00:00.640\n<v Agent>Good day.\n\n00:00.960 --> 00:02.240\n<v Agent>Welcome to Contoso.\n\n00:02.560 --> 00:03.760\n<v Agent>My name is John Doe.\n\n00:03.920 --> 00:05.120\n<v Agent>How can I help you today?\n\n00:05.440 --> 00:06.320\n<v Agent>Yes, good day.\n\n00:06.720 --> 00:08.160\n<v Agent>My name is Maria Smith.\n\n00:08.560 --> 00:11.280\n<v Agent>I would like to inquire about my current point balance.\n\n00:11.680 --> 00:12.560\n<v Agent>No problem.\n\n00:12.880 --> 00:13.920\n<v Agent>I am happy to help.\n\n00:14.240 --> 00:16.720\n<v Agent>I need your date of birth to confirm your identity.\n\n00:17.120 --> 00:19.600\n<v Agent>It is April 19th, 1988.\n\n00:20.000 --> 00:20.480\n<v Agent>Great.\n\n00:20.800 --> 00:24.160\n<v Agent>Your current point balance is 599 points.\n\n00:24.560 --> 00:26.160\n<v Agent>Do you need any more information?\n\n00:26.480 --> 00:27.200\n<v Agent>No, thank you.\n\n00:27.600 --> 00:28.320\n<v Agent>That was all.\n\n00:28.720 --> 00:29.280\n<v Agent>Goodbye.\n\n00:29.680 --> 00:30.320\n<v Agent>You're welcome.\n\n00:30.640 --> 00:31.840\n<v Agent>Goodbye at Contoso.\n```",
"fields": {
"Summary": {
"type": "string",
"valueString": "Maria Smith contacted Contoso to inquire about her current point balance. After confirming her identity with her date of birth, the agent, John Doe, informed her that her balance was 599 points. Maria did not require any further assistance, and the call concluded politely."
},
"Topics": {
"type": "array",
"valueArray": [
{
"type": "string",
"valueString": "Point balance inquiry"
},
{
"type": "string",
"valueString": "Identity confirmation"
},
{
"type": "string",
"valueString": "Customer service"
}
]
},
"Companies": {
"type": "array",
"valueArray": [
{
"type": "string",
"valueString": "Contoso"
}
]
},
"People": {
"type": "array",
"valueArray": [
{
"type": "object",
"valueObject": {
"Name": {
"type": "string",
"valueString": "John Doe"
},
"Role": {
"type": "string",
"valueString": "Agent"
}
}
},
{
"type": "object",
"valueObject": {
"Name": {
"type": "string",
"valueString": "Maria Smith"
},
"Role": {
"type": "string",
"valueString": "Customer"
}
}
}
]
},
"Sentiment": {
"type": "string",
"valueString": "Positive"
},
"Categories": {
"type": "array",
"valueArray": [
{
"type": "string",
"valueString": "Business"
}
]
}
},
"kind": "audioVisual",
"startTimeMs": 0,
"endTimeMs": 32183,
"transcriptPhrases": [
{
"speaker": "Agent",
"startTimeMs": 80,
"endTimeMs": 640,
"text": "Good day.",
"words": []
}, ...
{
"speaker": "Customer",
"startTimeMs": 5440,
"endTimeMs": 6320,
"text": "Yes, good day.",
"words": []
}, ...
]
}
]
}
}
Анализ разговоров (предусмотренный аудиоанализатор). Проанализировать записи для создания:
- Расшифровки бесед
- Сводка беседы
Пример результата:
{
"id": "9624cc49-b6b3-4ce5-be6c-e895d8c2484d",
"status": "Succeeded",
"result": {
"analyzerId": "prebuilt-audioAnalyzer",
"apiVersion": "2025-05-01-preview",
"createdAt": "2025-05-06T23:00:12Z",
"stringEncoding": "utf8",
"warnings": [],
"contents": [
{
"markdown": "# Audio: 00:00.000 => 00:32.183\n\nTranscript\n```\nWEBVTT\n\n00:00.080 --> 00:00.640\n<v Speaker 1>Good day.\n\n00:00.960 --> 00:02.240\n<v Speaker 1>Welcome to Contoso.\n\n00:02.560 --> 00:03.760\n<v Speaker 1>My name is John Doe.\n\n00:03.920 --> 00:05.120\n<v Speaker 1>How can I help you today?\n\n00:05.440 --> 00:06.320\n<v Speaker 1>Yes, good day.\n\n00:06.720 --> 00:08.160\n<v Speaker 1>My name is Maria Smith.\n\n00:08.560 --> 00:11.280\n<v Speaker 1>I would like to inquire about my current point balance.\n\n00:11.680 --> 00:12.560\n<v Speaker 1>No problem.\n\n00:12.880 --> 00:13.920\n<v Speaker 1>I am happy to help.\n\n00:14.240 --> 00:16.720\n<v Speaker 1>I need your date of birth to confirm your identity.\n\n00:17.120 --> 00:19.600\n<v Speaker 1>It is April 19th, 1988.\n\n00:20.000 --> 00:20.480\n<v Speaker 1>Great.\n\n00:20.800 --> 00:24.160\n<v Speaker 1>Your current point balance is 599 points.\n\n00:24.560 --> 00:26.160\n<v Speaker 1>Do you need any more information?\n\n00:26.480 --> 00:27.200\n<v Speaker 1>No, thank you.\n\n00:27.600 --> 00:28.320\n<v Speaker 1>That was all.\n\n00:28.720 --> 00:29.280\n<v Speaker 1>Goodbye.\n\n00:29.680 --> 00:30.320\n<v Speaker 1>You're welcome.\n\n00:30.640 --> 00:31.840\n<v Speaker 1>Goodbye at Contoso.\n```",
"fields": {
"Summary": {
"type": "string",
"valueString": "Maria Smith contacted Contoso to inquire about her current point balance. John Doe assisted her by confirming her identity using her date of birth and informed her that her balance was 599 points. Maria expressed no further inquiries, and the conversation concluded politely."
}
},
"kind": "audioVisual",
"startTimeMs": 0,
"endTimeMs": 32183,
"transcriptPhrases": [
{
"speaker": "Speaker 1",
"startTimeMs": 80,
"endTimeMs": 640,
"text": "Good day.",
"words": []
}, ...
{
"speaker": "Speaker 2",
"startTimeMs": 5440,
"endTimeMs": 6320,
"text": "Yes, good day.",
"words": []
}, ...
]
}
]
}
}
Вы также можете настроить предварительно созданные анализаторы для более точного управления выходными данными, определив настраиваемые поля. Настройка позволяет использовать полную мощность создаваемых моделей для извлечения глубоких аналитических сведений из звука. Например, настройка позволяет:
- Создайте другие инсайты.
- Контроль над языком результатов извлечения полей.
- Настройте поведение транскрибирования.
Акселератор решения для интеллектуального анализа данных из разговоров
Руководство по быстрому старту для решений по анализу речи см. в акселераторе решения интеллектуального анализа данных по разговорам.
Получайте полезные сведения из больших объемов общения, определяя ключевые темы, шаблоны и связи. Используя Azure AI Foundry, Azure AI Content Understanding, Azure OpenAI в azure AI Foundry Models и Azure AI Search, это решение анализирует неструктурированный диалог и сопоставляет его с значимыми, структурированными аналитическими сведениями.
Такие возможности, как моделирование тем, извлечение ключевых фраз, транскрибирование речи в текст и интерактивный чат позволяют пользователям изучать данные естественным образом и принимать более обоснованные решения.
Аналитики, работающие с большими объемами беседных данных, могут использовать это решение для извлечения аналитических сведений с помощью взаимодействия с естественным языком. Она поддерживает такие задачи, как определение тенденций поддержки клиентов, улучшение качества контактного центра и обнаружение оперативной аналитики, что позволяет командам выявлять закономерности, действовать на отзыве и принимать обоснованные решения быстрее.
Требования к входным данным
Подробный список поддерживаемых аудиоформатов см. в разделе"Ограничения службы" и кодеки.
Поддерживаемые языки и регионы
Полный список поддерживаемых регионов, языков и языковых стандартов см. в разделе "Поддержка языков и регионов".
Конфиденциальность и безопасность данных
Разработчики, использующие эту службу, должны просматривать политики Майкрософт по данным клиентов. Дополнительные сведения см. в разделе"Данные", "Защита" и "Конфиденциальность".
Следующие шаги
- Попробуйте обработать звуковое содержимое на портале Azure AI Foundry.
- Узнайте, как анализировать звуковое содержимое с помощью шаблонов анализаторов.
- Просмотрите примеры кода: