你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

如何使用语言检测

此语言检测功能可以计算文本,并返回一个语言标识符,该标识符指示文档的书写语言。

语言检测对于收集任意文本(语言未知)的内容存储十分有用。 可以解析此分析的结果,确定输入文档中使用的语言。 响应还返回一个 0 到 1 之间的分数,反映模型的置信度。

语言检测功能可以检测多种语言、变体、方言和某些区域或文化语言。

开发选项

若要使用语言检测,需在应用程序中提交原始非结构化文本进行分析并处理 API 输出。 分析按原样执行,不会对数据所用的模型进行其他自定义。 可通过两种方式使用语言检测:

开发选项 说明
Language Studio Language Studio 是一个基于 Web 的平台,让你可以在没有 Azure 帐户的情况下尝试使用文本示例进行实体链接,并在注册时使用自己的数据。 有关详细信息,请参阅 Language Studio 网站Language Studio 快速入门
REST API 或客户端库 (Azure SDK) 使用 REST API 或以各种语言提供的客户端库将语言检测集成到应用程序中。 有关详细信息,请参阅语言检测快速入门
Docker 容器 使用可用的 Docker 容器在本地部署此功能。 借助这些 Docker 容器,你能够将服务进一步引入数据,以满足合规性、安全性或其他操作目的。

确定如何处理数据(可选)

指定语言检测模型

默认情况下,语言检测将对文本使用最新的可用 AI 模型。 你还可以将 API 请求配置为使用特定模型版本

输入语言

提交要评估的文档时,语言检测将尝试确定文本是否以任何受支持的语言写成。

如果内容是用较少使用的语言表示的,则可以尝试“语言检测”功能来查看它是否返回代码。 无法检测到的语言的响应为 unknown

提交数据

提示

可以使用 Docker 容器进行语言检测,以便在本地使用 API。

在收到请求时执行分析。 同步使用语言检测功能是无状态的。 不会在帐户中存储数据,结果会立即在响应中返回。

以异步方式使用此功能时,API 结果在引入请求时的 24 小时内可用,并在响应中指示。 在此时间段后,结果将被清除,并且不再可用于检索。

获取语言检测结果

从语言检测获得结果时,可以将结果流式传输到应用程序或将输出保存到本地系统上的文件中。

语言检测将针对你提交的每个文档返回一种主要语言,以及其 ISO 639-1 名称、可读名称和置信度分数。 正分 1 表示分析可能达到的最高可信度。

不明确的内容

在某些情况下,可能很难根据输入区分语言。 可以使用 countryHint 参数指定 ISO 3166-1 alpha-2 国家/地区代码。 默认情况下,API 使用“US”作为默认国家/地区提示。 若要删除此行为,可以通过将此值设置为空字符串 countryHint = "" 来重置此参数。

例如,“communication”对于英语和法语都是通用的,如果在有限的背景下给出,则响应将基于“美国”国家/地区提示。 如果已知文本来源来自法国,可以将其作为提示给出。

输入

{
    "documents": [
        {
            "id": "1",
            "text": "communication"
        },
        {
            "id": "2",
            "text": "communication",
            "countryHint": "fr"
        }
    ]
}

语言检测模型现在具有其他上下文,可以做出更好的判断:

输出

{
    "documents":[
        {
            "detectedLanguage":{
                "confidenceScore":0.62,
                "iso6391Name":"en",
                "name":"English"
            },
            "id":"1",
            "warnings":[
                
            ]
        },
        {
            "detectedLanguage":{
                "confidenceScore":1.0,
                "iso6391Name":"fr",
                "name":"French"
            },
            "id":"2",
            "warnings":[
                
            ]
        }
    ],
    "errors":[
        
    ],
    "modelVersion":"2022-10-01"
}

如果分析器无法分析输入,则会返回 (Unknown)。 一个示例是你提交仅由数字组成的文本字符串的情况。

{
    "documents": [
        {
            "id": "1",
            "detectedLanguage": {
                "name": "(Unknown)",
                "iso6391Name": "(Unknown)",
                "confidenceScore": 0.0
            },
            "warnings": []
        }
    ],
    "errors": [],
    "modelVersion": "2021-01-05"
}

混合语言内容

同一文档中的混合语言内容将返回内容中代表性最强但正评级较低的语言。 评级反映该评估的边界强度。 在以下示例中,输入是英语、西班牙语和法语的混合。 分析器对每个段中的字符进行计数,确定主要语言。

输入

{
    "documents": [
        {
            "id": "1",
            "text": "Hello, I would like to take a class at your University. ¿Se ofrecen clases en español? Es mi primera lengua y más fácil para escribir. Que diriez-vous des cours en français?"
        }
    ]
}

输出

生成的输出包含主要语言,分数低于 1.0,表示可信度较低。

{
    "documents": [
        {
            "id": "1",
            "detectedLanguage": {
                "name": "Spanish",
                "iso6391Name": "es",
                "confidenceScore": 0.88
            },
            "warnings": []
        }
    ],
    "errors": [],
    "modelVersion": "2021-01-05"
}

服务和数据限制

有关每分钟和每秒可以发送的请求大小和数量信息,请参阅服务限制一文。

请参阅