Detekovat jazyky

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

přečtěte si informace o přesunu projektů strojového učení z ML Studio (classic) do Azure Machine Learning.
přečtěte si další informace o Azure Machine Learning.

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Detekuje jazyk každého řádku ve vstupním souboru.

kategorie: Analýza textu

Poznámka

platí pro: jenom Machine Learning Studio (classic)

podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.

Přehled modulu

tento článek popisuje, jak pomocí modulu detekovat jazyky v aplikaci Machine Learning Studio (classic) analyzovat textové zadání a identifikovat jazyk přidružený ke každému záznamu ve vstupu.

Algoritmus detekce jazyka může identifikovat mnoho různých jazyků. Stačí zadat sloupec řetězce, který se má analyzovat, a celkový počet jazyků, které se mají detekovat. Algoritmus provede analýzu každého řádku textu a přiřadí skóre pravděpodobnosti pro každý jazyk. Jazyk v prvním sloupci výsledek je jazyk, který získal nejvyšší skóre.

Jak nakonfigurovat rozpoznávání jazyků

přidejte datovou sadu obsahující text, který chcete analyzovat, do experimentu v Machine Learning studiu (classic). Sloupec s textem, který se má analyzovat, musí být datový typ String.

Datset nemusí obsahovat sloupec popisku; algoritmus detekce jazyka funguje čistě na jazykových funkcích podporovaných jazyků.

Pokud importujete nová data, ujistěte se, že jsou vaše data uložená ve formátu UTF-8. Jiné formáty Unicode nejsou podporovány.
Přidejte modul detekovat jazyky do experimentu a připojte datovou sadu k textu pro detekci jazyka.
V poli textový sloupecvyberte sloupec, který chcete analyzovat.
Pro horní mez počtu jazyků, které se mají detekovat, určete maximální počet jazyků, které se mají detekovat.

Nastavení horní meze počtu jazyků může zlepšit výkon.
Spusťte experiment.

Výsledky

Modul detekovat jazyky vypíše identifikátor jazyka a skóre pro každý řádek.

Například následující tabulka obsahuje ukázkovou analýzu testovacích dat.

První dva sloupce Sloupec1 a popisek jazyka jsou sloupce předávané ze vstupní datové sady. Vzhledem k tomu, že vstupní datová sada byla navržena pro testování modulu, byl již známý jazyk a je uveden ve sloupci popisek.
Zbývající sloupce jsou generovány modulem detekovat jazyky . Pokud jsou shodné jazykové shody, mohou být uvedeny různé jazyky se stanovením skóre pro každý z nich. V tomto případě modul předpovídá pouze jeden jazyk pro každý řádek, a to spolu s skóre pravděpodobnosti pro daný jazyk.

Pokud se modulu nepovede detekovat žádný jazyk s dostatečně vysokým skóre, výsledek (neznámý) s skóre 0 je výstup. Jazyky podporované modulem se ale můžou v průběhu času v průběhu aktualizace rozhraní API změnit.

Sloupec 1	Popisek jazyka	Sloupec1 – jazyk	Iso6391 jazyk	Skóre jazyka Sloupec1 Iso6391
Jednalo se o skvělou Hotel s příjemnými pracovníky a dobrými službami.	Angličtina	angličtina	en	100
ES War Ein wunderbares Hotel mit freundlichem Personal und Guter Service	Němčina	Němčina	&	100
C'est un magnifique Hôtel avec sympathique et un Service de qualité	Francouzština	Francouzština	FR	100
Det var et dejligt Hotel med et venligt Personal The og jsou Service	Dánština	Dánština	belgick	100
VA magnífic hotelového AMB bez osobního amableu, kterou mám na šťastnosti	Katalánština	Katalánština	určen	92,30769348
とても素敵なホテルで vyberte Joomla スタッフは親切で vyberte Joomla サービスもよかった	Japonština	Neznámý		0
mebpa'mey naQ, popisný QaQ chavmoH je	Klingon	Francouzština	FR	77,5

Příklady

Příklady použití modulu detekovat jazyky v experimentu najdete v Azure AI Gallery:

Filtrovat názvy filmů podle jazyka: detekuje jazyk použitý v názvech filmů a potom pomocí identifikátoru jazyka rozdělí datovou sadu do angličtiny i v neanglickém videu.

Technické poznámky

obecnou představu o jazycích, které mohou být zjištěny, najdete v tématu Překladač Bing.

je možné zjistit mnoho dalších jazyků, než Machine Learning aktuálně podporuje pokročilou analýzu textu. Pro filtrování výsledků, které odesíláte do jiných modulů, které vyžadují zpracování specifické pro konkrétní jazyk, doporučujeme použít výsledky zjišťování jazyků .

základní jazykové služby používá i služba Analýza textu ve službě Azure Cognitive Services.

Očekávané vstupy

Název	Typ	Description
Datová sada	Tabulka dat	Vstup

Parametry modulu

Název	Typ	Rozsah	Volitelné	Výchozí	Description
Horní mez počtu jazyků k rozpoznání	Integer	[1;184]	Vyžadováno	1	Horní mez počtu jazyků, které se má detekovat.
Textový sloupec	Výběr sloupce		Vyžadováno		Název nebo jeden index textového sloupce.

Výstupy

Název	Typ	Description
Datová sada výsledků	Tabulka dat	Výsledek

Výjimky

Výjimka	Description
Chyba 0003	K výjimce dochází v případě, že jeden nebo více vstupů má hodnotu null nebo je prázdný.
Chyba 0010	K výjimce dochází v případě, že vstupní datové sady mají názvy sloupců, které by se měly shodovat, ale nikoli.
Chyba 0016	K výjimce dochází v případě, že vstupní datové sady předané modulu by měly mít kompatibilní typy sloupců, ale nikoli.
Chyba 0008	K výjimce dochází, pokud parametr není v rozsahu.

Seznam chyb specifických pro moduly sady Studio (classic) najdete v Machine Learning kódy chyb.

Seznam výjimek rozhraní API najdete v tématu Machine Learning REST API kódy chyb.

Viz také

Analýza textu
Seznam modulů A až Z

Last updated on 2019-07-03

Sdílet prostřednictvím