Azure AI 视频索引器中的语言支持

重要

由于Azure 媒体服务停用公告,Azure AI 视频索引器会宣布 Azure AI 视频索引器功能调整。 请参阅 与 Azure 媒体服务(AMS)停用 相关的更改,了解 Azure AI 视频索引器帐户的含义。 请参阅 AMS 停用准备:VI 更新和迁移指南

本文介绍视频索引器的语言选项,并为每个选项提供语言支持列表。 它包括对视频索引器功能、翻译、语言标识、自定义和视频索引器网站语言设置的语言支持。

每个方案支持的语言

本部分介绍视频索引器语言选项,并包含每个选项支持的语言表。

重要

列出的所有语言在通过 API 编制索引时都支持翻译。

列说明

  • 支持的源语言 – 支持听录、翻译和搜索的媒体文件中使用的语言。

  • 语言标识 - 当使用语言标识 编制索引时,视频索引器是否可以自动检测语言。 若要了解详细信息,请参阅 使用 Azure AI 视频索引器自动识别口语语言识别 部分。

  • 自定义 (语言模型) - 在视频索引器中自定义语言模型时是否可以使用该语言。 若要了解详细信息,请参阅 Azure AI 视频索引器中的自定义语言模型。

  • 发音(语言模型) - 语言是否可用于创建发音数据集作为自定义语音模型的一部分。 若要了解详细信息,请参阅 使用 Azure AI 视频索引器自定义语音模型。

  • 网站翻译 – 使用 Azure AI 视频索引器网站时是否支持翻译语言。 在语言下拉菜单中选择翻译的语言。

    显示菜单项为下载、英语和视图的菜单的屏幕截图。工具提示显示为英语项上的鼠标悬停,并显示翻译设置为英语。

    将翻译以下见解:

    • 字幕
    • 关键字
    • 主题
    • 标签
    • 帧模式(目前仅限希伯来语)

    使用翻译时,所有其他见解都以英语显示。

  • 网站语言 - 是否可以选择语言以在 Azure AI 视频索引器网站上使用。 选择设置图标,然后在“语言设置”下拉列表中选择语言。

    显示具有用户设置的菜单的屏幕截图显示它们已全部切换为打开。

语言 代码 支持
源语言
语言
识别
定制
(语言模型)
发音
(语言模型)
网站
翻译
网站
语言
南非荷兰语 af-ZA
阿拉伯语(以色列) ar-IL
阿拉伯语(伊拉克) ar-IQ
阿拉伯语(约旦) ar-JO
阿拉伯语(科威特) ar-KW
阿拉伯语(黎巴嫩) ar-LB
阿拉伯语(阿曼) ar-OM
阿拉伯语(巴勒斯坦民族权利机构) ar-PS
阿拉伯语(卡塔尔) ar-QA
阿拉伯语(沙特阿拉伯) ar-SA
阿拉伯语(阿拉伯联合酋长国) ar-AE
阿拉伯语(埃及) ar-EG
现代标准阿拉伯语(巴林) ar-BH
阿拉伯语(阿拉伯叙利亚共和国) ar-SY
亚美尼亚语 hy-AM
Bangla bn-BD
波斯尼亚语 bs-Latn
保加利亚语 bg-BG
加泰罗尼亚语 ca-ES
中文(繁体粤语) zh-HK
中文(简体) zh-Hans
中文(简体) zh-CK
中文(繁体) zh-Hant
克罗地亚语 hr-HR
捷克语 cs-CZ
丹麦语 da-DK
荷兰语 nl-NL
英语(澳大利亚) en-AU
英语(英国) en-GB
英语(美国) en-US
爱沙尼亚语 et-EE
斐济语 en-FJ
菲律宾语 fil-PH
芬兰语 fi-FI
法语 fr-FR
法语(加拿大) fr-CA
德语 de-DE
希腊语 el-GR
古吉拉特语 gu-IN
海地语 fr-HT
希伯来语 he-IL
印地语 hi-IN
匈牙利语 hu-HU
冰岛语 is-IS
印度尼西亚语 id-ID
爱尔兰语 ga-IE
意大利语 it-IT
日语 ja-JP
卡纳达语 kn-IN
斯瓦希里语 sw-KE
韩语 ko-KR
拉脱维亚语 lv-LV
立陶宛语 lt-LT
马达加斯加语 mg-MG
马来语 ms-MY
马拉雅拉姆语 ml-IN
马耳他语 mt-MT
挪威语 nb-NO
波斯语 fa-IR
波兰语 pl-PL
葡萄牙语 pt-BR
葡萄牙语(葡萄牙) pt-PT
罗马尼亚语 ro-RO
俄语 ru-RU
萨摩亚语 en-WS
塞尔维亚语(西里尔) sr-Cyrl-RS
塞尔维亚语(拉丁) sr-Latn-RS
斯洛伐克语 sk-SK
斯洛文尼亚语 sl-SI
西班牙语 es-ES
西班牙语(墨西哥) es-MX
瑞典语 sv-SE
泰米尔语 ta-IN
泰卢固语 te-IN
泰语 th-TH
汤加语 to-TO
土耳其语 tr-TR
乌克兰语 uk-UA
乌尔都语 ur-PK
越南语 vi-VN

通过 API 获取支持的语言

使用“获取支持的语言”API 调用来拉取每个区域支持的语言的完整列表。 有关详细信息,请参阅 “获取支持的语言”。

API 返回具有以下值的受支持语言的列表:

{
    "name": "Language",
    "languageCode": "Code",
    "isRightToLeft": true/false,
    "isSourceLanguage": true/false,
    "isAutoDetect": true/false
}
  • 支持的源语言:

    如果 isSourceLanguage 为 false,则仅支持翻译语言。 如果 isSourceLanguage 为 true,则支持该语言作为听录、翻译和搜索的源。

  • 语言识别(自动检测):

    如果 isAutoDetect 为 true,则语言标识(LID)和多语言标识(MLID)支持该语言。

语言标识

将媒体文件上传到视频索引器时,可以指定媒体文件的源语言。 如果通过视频索引器网站为文件编制索引,可以通过在文件上传过程中选择语言来完成此操作。 如果要通过 API 提交索引作业,则使用语言参数完成该作业。 然后,使用所选语言生成文件的听录。

如果不确定媒体文件的源语言,或者它可能包含多种语言,视频索引器可以检测口语。 如果选择媒体文件的源语言(LID)或多语言(MLID),则检测到的语言或语言将用于转录媒体文件。 若要了解有关 LID 和 MLID 的详细信息,请参阅使用 Azure AI 视频索引器自动识别口语,请参阅 使用语言识别模型 自动识别口语并 自动识别和转录多语言内容

在为 LID 和 MLID 编制媒体文件索引期间,允许识别 10 种语言。 以下是 9 种默认 语言的语言识别(LID)和多语言识别(MILD):

  • 德语 (de-DE)
  • 英语美国(en-US)
  • 西班牙语 (es-ES)
  • 法语 (fr-FR)
  • 意大利语 (it-IT)
  • 日语 (ja-JP)
  • 葡萄牙语(pt-BR)
  • 俄语 (ru-RU)
  • 中文(简体中文) (zh-Hans)

如何更改默认语言列表

如果需要使用默认未使用的语言进行标识,可以将列表自定义为支持通过网站或 API 进行自定义的任何 10 种语言:

使用网站更改列表

  1. 选择 “模型自定义”下的“语言 ID ”选项卡。 语言列表特定于你正在使用的视频索引器帐户以及登录用户。 默认语言列表将按用户保存在其本地设备上、每个设备和浏览器上。 因此,每个用户都可以配置自己的默认标识语言列表。

  2. 使用 “添加语言 ”搜索和添加更多语言。 如果已选择 10 种语言,必须先删除其中一种现有检测到的语言,然后再添加新语言。

    显示所有选定语言的表的屏幕截图。

使用 API 更改列表

上传文件时,视频索引器语言模型默认交叉引用 9 种语言。 如果存在匹配项,则模型使用检测到的语言为文件生成听录。

使用语言参数指定 multi (MLID) 或 auto (LID) 参数。 使用 customLanguages 参数指定最多 10 种语言。 (仅当语言参数设置为 multiauto.)若要了解有关使用 API 的详细信息,请参阅 使用 Azure AI 视频索引器 API