检测语言

重要

对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习

从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。

ML 工作室(经典)文档即将停用,将来可能不会更新。

检测输入文件中每行的语言

类别:文本分析

注意

适用于:机器学习 Studio (经典) 应用

可在 Azure 机器学习设计器中获取类似的拖放模块。

模块概述

本文介绍如何使用 机器学习 Studio (经典) 中的检测语言模块来分析文本输入并识别与输入中每个记录关联的语言。

语言检测算法可以识别许多不同的语言。 只需指定要分析的字符串列,以及要检测的语言总数。 该算法将分析每行文本,并为每个语言分配概率分数。 第一个结果列中的语言是获得最高分数的语言。

如何配置检测语言

  1. 将包含要分析的文本的数据集添加到 机器学习 Studio (经典) 。 包含要分析的文本的列必须是字符串数据类型。

    datset 不需要包含标签列;语言检测算法完全适用于受支持语言的语言功能。

    如果要导入新数据,请确保以 UTF-8 格式保存数据。 不支持其他 Unicode 格式。

  2. "检测语言 "模块添加到试验,将数据集与文本连接以用于语言检测。

  3. 对于 "文本列",选择要分析的列。

  4. 对于 要检测的语言数的上限,指示要检测的最大语言数。

    设置语言数量的上限可以提高性能。

  5. 运行试验。

结果

检测 语言 模块输出每行的语言标识符和分数。

例如,下表包含测试数据的示例分析。

  • 前两列 col1语言标签 是通过输入数据集传递的列。 本示例中,由于输入数据集旨在测试模块,因此预期语言已已知,并且已在标签列中提供。

  • 其余列由检测语言 模块 生成。 如果存在等效的语言匹配项,可能会列出多种语言,每个语言都有一个分数。 在这种情况下,模块只预测每行的一种语言,以及该语言的概率分数。

    如果模块无法检测分数足够高的任何语言,则输出 (0) 未知语言的结果。 但是,模块支持的语言可能会随着 API 的更新而发生变化。

Col1 语言标签 Col1 语言 Col1 Iso6391 语言 Col1 Iso6391 语言分数
它是一家很棒的酒店,有友好的员工和良好的服务 英语 英语 en 100
Es war ein wunderbares Hotel mit freundlichem Personal und guter service 德语 德语 de 100
C'est un放大镜 h qualitétel avec un personnelique et un service de qualité 法语 法语 fr 100
Det var et dejligt hotel med et venligt personale og 服务 丹麦语 丹麦语 nl 100
Va ser un magn ific hotel amb un personal amable i bon servei 加泰罗尼亚语 加泰罗尼亚语 ca 92.30769348
とても素敵なホテルで、スタッフは親切で、サービスもよかった 日语 (未知) 0
qu mebpa'mey naQ friendly QaQ chavmoH je 克林贡语 法语 fr 77.5

示例

有关如何在试验中使用 检测 语言模块的示例,请参阅以下 Azure AI 库

  • 按语言筛选电影标题:检测电影名称中使用的语言,然后使用语言标识符将数据集拆分为英语和非英语电影。

技术说明

有关可能检测到的语言的一般概念,请参阅必应在线翻译。

可以检测到的语言比当前机器学习高级文本分析支持的语言更多。 建议使用检测语言的结果来筛选发送到需要语言特定处理的其他模块的结果。

基础语言服务也由 文本分析 服务Azure 认知服务

预期输入

名称 类型 说明
数据集 数据表 输入

模块参数

名称 类型 范围 可选 默认 说明
要检测的语言数上限 Integer [1;184] 必选 1 要检测的语言数上限。
文本列 ColumnSelection 必选 文本列的名称或从一个索引。

Outputs

名称 类型 说明
结果数据集 数据表 结果

例外

异常 描述
错误 0003 如果一个或多个输入为 NULL 或为空,将出现异常。
错误 0010 如果输入数据集的列名应匹配但不匹配,将出现异常。
错误 0016 如果传递给模块的输入数据集应该具有兼容的列类型,而实际没有,将出现异常。
错误 0008 如果参数不在范围内,将出现异常。

有关特定于工作室和经典 (模块) 的列表,请参阅机器学习代码

有关 API 异常的列表,请参阅机器学习 REST API代码

另请参阅

文本分析
A-Z 模块列表