言語を検出する

[アーティクル]
07/03/2019

重要

Machine Learning Studio (クラシック) のサポートは、2024 年 8 月 31 日に終了します。その日までに、Azure Machine Learning に切り替えすることをお勧めします。

2021 年 12 月 1 日以降、新しい Machine Learning Studio (クラシック) リソースは作成できません。 2024 年 8 月 31 日まで、既存の Machine Learning Studio (クラシック) リソースを引き続き使用できます。

ML Studio (クラシック) から Azure Machine Learning への機械学習プロジェクトの移動に関する情報を参照してください。
Azure Machine Learning についての詳細を参照してください。

ML Studio (クラシック) のドキュメントは廃止予定であり、今後更新されない可能性があります。

入力ファイル内の各行の言語を検出します

カテゴリ: Text Analytics

注意

適用対象: Machine Learning Studio (クラシック) のみ

類似のドラッグアンドドロップモジュールは Azure Machine Learning デザイナーで使用できます。

モジュールの概要

この記事では、Machine Learning Studio (クラシック) の言語の検出モジュールを使用して、テキスト入力を分析し、入力内の各レコードに関連付けられている言語を識別する方法について説明します。

言語検出アルゴリズムでは、さまざまな言語を識別できます。分析する文字列列と、検出する言語の総数を指定します。アルゴリズムはテキストの各行を分析し、各言語に確率スコアを割り当てる。最初の結果列の言語は、最高スコアを得た言語です。

言語の検出を構成する方法

分析するテキストを含むデータセットを、Machine Learning Studio (クラシック) の実験に追加します。分析するテキストを含む列は、文字列データ型である必要があります。

データセットにラベル列を含めさせる必要があります。言語検出アルゴリズムは、サポートされている言語の言語機能に対して純粋に機能します。

新しいデータをインポートする場合は、データが UTF-8 形式で保存されている必要があります。その他の Unicode 形式はサポートされていません。
[ 言語の検出] モジュール を実験に追加し、言語検出用のテキストでデータセットを接続します。
[ テキスト列] で、分析する列を選択します。
[ 検出する言語の数の上限] で、検出する言語の最大数を指定します。

言語の数に上限を設定すると、パフォーマンスが向上する可能性があります。
実験を実行します。

結果

言語 の検出モジュールは 、各行の言語識別子とスコアを出力します。

たとえば、次の表には、テストデータに関するサンプル分析が含まれます。

最初の 2 つの 列 col1 と 言語ラベルは 、入力データセットから渡される列です。この例では、入力データセットはモジュールのテスト用に設計されたため、予期される言語は既に既知であり、ラベル列に指定されています。
残りの列は、言語の検出 モジュールによって生成 されます。等しい可能性がある言語の一致がある場合は、複数の言語が一覧表示され、それぞれにスコアが付く場合があります。この場合、モジュールでは、行ごとに 1 つの言語と、その言語の確率スコアが予測されます。

モジュールが十分に高いスコアを持つ言語を検出できない場合、スコアが 0 の (Unknown) の結果が出力されます。ただし、モジュールでサポートされている言語は、API が更新されるに応じ、時間の中で変更される可能性があります。

Col1	言語ラベル	Col1 言語	Col1 Iso6391 言語	Col1 Iso6391 言語スコア
優しいスタッフと優れたサービスを備え、すばらしいホテルでした	英語	英語	en	100
Es war ein wunderbares Hotel mit freundlichem Personal und guter service	ドイツ語	ドイツ語	de	100
C'est un magnifique avec un personnelique et un service de qualiique	フランス語	フランス語	fr	100
Det var et dejligt hotel med et venligt personale og og service	デンマーク語	デンマーク語	nl	100
Va ser un magnbonfic hotel amb un personal amable i bon servei	カタロニア語	カタロニア語	ca	92.30769348
とても素敵なホテルで、スタッフは親切で、サービスもよかった	日本語	(不明)		0
qu mebpa'mey naQ friendly QaQ chavmoH je	クリンゴン語	フランス語	fr	77.5

例

実験で言語の検出モジュールを使用する方法の例については、次のAzure AI Gallery。

言語による映画タイトルのフィルター処理: 映画名で使用される言語を検出し、言語識別子を使用してデータセットを英語と英語以外の映画に分割します。

テクニカルノート

検出される可能性のある言語の一般的な概念については、「Bing 翻訳ツール」を参照してください。

高度なテキスト分析で現在サポートMachine Learningより多くの言語を検出できます。言語の検出の結果を使用して、言語固有の処理を必要とする他のモジュールに送信する結果をフィルター処理することをお勧めします。

基になる言語サービスは、Text Analytics サービスによってもAzure Cognitive Services。

想定される入力

名前	型	説明
データセット	データテーブル	入力。

モジュールのパラメーター

名前	種類	Range	省略可能	Default	説明
検出する言語の数の上限	Integer	[1;184]	必須	1	検出する言語の数の上限。
[テキスト列]	ColumnSelection		必須		テキスト列の名前または 1 からベースのインデックス。

出力

名前	型	説明
結果のデータセット	データテーブル	結果が

例外

例外	説明
エラー 0003	1 つまたは複数の入力が null または空の場合、例外が発生します。
エラー 0010	入力データセットで一致している必要のある列名があっても、そうなっていない場合、例外が発生します。
エラー 0016	モジュールに渡される入力データセットには互換性のある列の型が含まれる必要があっても、そうなっていない場合、例外が発生します。
エラー 0008	パラメーターが範囲内にない場合、例外が発生します。

Studio (クラシック) モジュールに固有のエラーの一覧については、「エラーコードMachine Learning参照してください。

API の例外の一覧については、「エラーコードMachine Learning REST API参照してください。

こちらもご覧ください

Text Analytics
モジュールの一覧 (アルファベット順)

次の方法で共有

言語を検出する

モジュールの概要

言語の検出を構成する方法

結果

例

テクニカルノート

想定される入力

モジュールのパラメーター

出力

例外

こちらもご覧ください

その他のリソース

次の方法で共有

言語を検出する

モジュールの概要

言語の検出を構成する方法

結果

例

テクニカル ノート

想定される入力

モジュールのパラメーター

出力

例外

こちらもご覧ください

その他のリソース

テクニカルノート