Erkennen von Sprachen

Artikel
07/03/2019

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Siehe Migrieren zu Azure Machine Learning
Weitere Informationen zu Azure Machine Learning.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

Erkennt die Sprache jeder Zeile in der Eingabedatei.

Kategorie: Textanalyse

Hinweis

Gilt für: Machine Learning Studio (klassisch)

Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie das Modul Sprachen erkennen in Machine Learning Studio (klassisch) verwenden, um Texteingaben zu analysieren und die Sprache zu identifizieren, die jedem Datensatz in der Eingabe zugeordnet ist.

Der Spracherkennungsalgorithmus kann viele verschiedene Sprachen identifizieren. Geben Sie einfach die zu analysierende Zeichenfolgenspalte und die Gesamtzahl der zu erkennenden Sprachen an. Der Algorithmus analysiert jede Textzeile und weist jeder Sprache eine Wahrscheinlichkeitsnote zu. Die Sprache in der ersten Ergebnisspalte ist die Sprache, die die höchste Bewertung erhalten hat.

Konfigurieren von Sprachen erkennen

Fügen Sie das Dataset mit dem Text, den Sie analysieren möchten, einem Experiment in Machine Learning Studio (klassisch) hinzu. Die Spalte mit dem zu analysierenden Text muss der Zeichenfolgendatentyp sein.

Das Datset muss keine Bezeichnungsspalte enthalten. der Spracherkennungsalgorithmus arbeitet ausschließlich mit linguistischen Merkmalen der unterstützten Sprachen.

Wenn Sie neue Daten importieren, stellen Sie sicher, dass Ihre Daten im UTF-8-Format gespeichert werden. Andere Unicode-Formate werden nicht unterstützt.
Fügen Sie Ihrem Experiment das Modul Sprachen erkennen hinzu, und verbinden Sie das Dataset mit dem Text für die Sprachenerkennung.
Wählen Sie unter Textspalte die Spalte aus, die Sie analysieren möchten.
Geben Sie für Upper bound on number of languages to detect (Obergrenze für die Anzahl der zu erkennenden Sprachen) die maximale Anzahl von sprachen an, die erkannt werden müssen.

Das Festlegen einer Obergrenze für die Anzahl von Sprachen kann die Leistung verbessern.
Führen Sie das Experiment aus.

Ergebnisse

Das Modul Sprachen erkennen gibt einen Sprachbezeichner und eine Bewertung für jede Zeile aus.

Die folgende Tabelle enthält beispielsweise eine Beispielanalyse für Testdaten.

Die ersten beiden Spalten col1 undlanguage label sind Spalten, die aus dem Eingabe-Dataset übergeben werden. Da das Eingabe-Dataset in diesem Beispiel zum Testen des Moduls entworfen wurde, war die erwartete Sprache bereits bekannt und wird in der Bezeichnungsspalte bereitgestellt.
Die übrigen Spalten werden vom Modul Sprachen erkennen generiert. Wenn es gleich wahrscheinliche Spracherkenntnisse gibt, werden möglicherweise mehrere Sprachen mit jeweils einer Bewertung aufgelistet. In diesem Fall sagt das Modul nur eine Sprache für jede Zeile zusammen mit dem Wahrscheinlichkeitswert für diese Sprache voraus.

Wenn das Modul keine Sprache mit einer ausreichend hohen Bewertung erkennt, wird das Ergebnis (Unbekannt) mit der Bewertung 0 ausgegeben. Die vom Modul unterstützten Sprachen können sich jedoch im Laufe der Zeit ändern, wenn die API aktualisiert wird.

Col1	Sprachbezeichnung	Sprache Col1	Col1 Iso6391 Language	Col1 Iso6391 Language Score
Es war ein großartiges Hotel mit einem nutzerfreundlichen Personal und gutem Service.	Englisch	Englisch	en	100
Es war einungen Hotel mit freundlichem Personal und guter Service	Deutsch	Deutsch	de	100
C'est un magnifique h °tel avec un personnelique et un service de qualiqualifizierten	Französisch	Französisch	fr	100
Det var et dejligt hotel et venligt personale og service	Dänisch	Dänisch	nl	100
Va ser un magnáfic hotel amb un personal amable i bon servei	Katalanisch	Katalanisch	ca	92.30769348
とても素敵なホテルで、スタッフは親切で、サービスもよかった	Japanisch	(Unbekannt)		0
qu mebpa'mey naQ friendly QaQ chavmoH je	Klingonisch	Französisch	fr	77.5

Beispiele

Beispiele für die Verwendung des Moduls Sprachen erkennen in einem Experiment finden Sie im Azure KI-Katalog:

Filtern von Filmtiteln nach Sprache: Erkennt die sprache, die in Filmnamen verwendet wird, und verwendet dann den Sprachbezeichner, um das Dataset in englische und nicht englische Filme zu unterteilen.

Technische Hinweise

Eine allgemeine Vorstellung der Sprachen, die möglicherweise erkannt werden können, finden Sie unter Bing-Übersetzer.

Es können viel mehr Sprachen erkannt werden, als Machine Learning derzeit für die erweiterte Textanalyse unterstützt. Es wird empfohlen, die Ergebnisse von Sprachen erkennen zu verwenden, um die Ergebnisse zu filtern, die Sie an andere Module senden, die sprachspezifische Verarbeitung erfordern.

Die zugrunde liegenden linguistischen Dienste werden auch vom Textanalyse dienst in Azure Cognitive Services.

Erwartete Eingaben

Name	Type	Beschreibung
Dataset	Datentabelle	Die Eingabe-.

Modulparameter

Name	Typ	Range	Optional	Standard	Beschreibung
Obergrenze für die Anzahl der sprachen, die erkannt werden sollen	Integer	[1;184]	Erforderlich	1	Obere Grenze für die Anzahl der sprachen, die erkannt werden sollen.
Textspalte	ColumnSelection		Erforderlich		Name oder ein basierter Index der Textspalte.

Ausgaben

Name	Type	Beschreibung
Ergebnisdataset	Datentabelle	Das Ergebnis

Ausnahmen

Ausnahme	Beschreibung
Fehler 0003	Eine Ausnahme tritt auf, wenn mindestens eine Eingabe NULL oder leer ist.
Fehler 0010	Eine Ausnahme tritt auf, wenn Eingabedatasets übereinstimmende Spaltennamen aufweisen sollten, dies aber nicht der Fall ist.
Fehler 0016	Eine Ausnahme tritt auf, wenn an das Modul übergebene Eingabedatasets kompatible Spaltentypen aufweisen sollten, dies aber nicht der Fall ist.
Fehler 0008	Eine Ausnahme tritt auf, wenn der Parameter nicht im Bereich liegt.

Eine Liste der Fehler, die für Studio-Module (klassisch) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.

Eine Liste der API-Ausnahmen finden Sie unter Machine Learning REST-API-Fehlercodes.

Siehe auch

Textanalyse
Modulliste von A bis Z

Share via