Sdílet prostřednictvím


Detekovat jazyky

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Detekuje jazyk každého řádku ve vstupním souboru.

kategorie: Analýza textu

Poznámka

platí pro: jenom Machine Learning Studio (classic)

podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.

Přehled modulu

tento článek popisuje, jak pomocí modulu detekovat jazyky v aplikaci Machine Learning Studio (classic) analyzovat textové zadání a identifikovat jazyk přidružený ke každému záznamu ve vstupu.

Algoritmus detekce jazyka může identifikovat mnoho různých jazyků. Stačí zadat sloupec řetězce, který se má analyzovat, a celkový počet jazyků, které se mají detekovat. Algoritmus provede analýzu každého řádku textu a přiřadí skóre pravděpodobnosti pro každý jazyk. Jazyk v prvním sloupci výsledek je jazyk, který získal nejvyšší skóre.

Jak nakonfigurovat rozpoznávání jazyků

  1. přidejte datovou sadu obsahující text, který chcete analyzovat, do experimentu v Machine Learning studiu (classic). Sloupec s textem, který se má analyzovat, musí být datový typ String.

    Datset nemusí obsahovat sloupec popisku; algoritmus detekce jazyka funguje čistě na jazykových funkcích podporovaných jazyků.

    Pokud importujete nová data, ujistěte se, že jsou vaše data uložená ve formátu UTF-8. Jiné formáty Unicode nejsou podporovány.

  2. Přidejte modul detekovat jazyky do experimentu a připojte datovou sadu k textu pro detekci jazyka.

  3. V poli textový sloupecvyberte sloupec, který chcete analyzovat.

  4. Pro horní mez počtu jazyků, které se mají detekovat, určete maximální počet jazyků, které se mají detekovat.

    Nastavení horní meze počtu jazyků může zlepšit výkon.

  5. Spusťte experiment.

Výsledky

Modul detekovat jazyky vypíše identifikátor jazyka a skóre pro každý řádek.

Například následující tabulka obsahuje ukázkovou analýzu testovacích dat.

  • První dva sloupce Sloupec1 a popisek jazyka jsou sloupce předávané ze vstupní datové sady. Vzhledem k tomu, že vstupní datová sada byla navržena pro testování modulu, byl již známý jazyk a je uveden ve sloupci popisek.

  • Zbývající sloupce jsou generovány modulem detekovat jazyky . Pokud jsou shodné jazykové shody, mohou být uvedeny různé jazyky se stanovením skóre pro každý z nich. V tomto případě modul předpovídá pouze jeden jazyk pro každý řádek, a to spolu s skóre pravděpodobnosti pro daný jazyk.

    Pokud se modulu nepovede detekovat žádný jazyk s dostatečně vysokým skóre, výsledek (neznámý) s skóre 0 je výstup. Jazyky podporované modulem se ale můžou v průběhu času v průběhu aktualizace rozhraní API změnit.

Sloupec 1 Popisek jazyka Sloupec1 – jazyk Iso6391 jazyk Skóre jazyka Sloupec1 Iso6391
Jednalo se o skvělou Hotel s příjemnými pracovníky a dobrými službami. Angličtina angličtina en 100
ES War Ein wunderbares Hotel mit freundlichem Personal und Guter Service Němčina Němčina & 100
C'est un magnifique Hôtel avec sympathique et un Service de qualité Francouzština Francouzština FR 100
Det var et dejligt Hotel med et venligt Personal The og jsou Service Dánština Dánština belgick 100
VA magnífic hotelového AMB bez osobního amableu, kterou mám na šťastnosti Katalánština Katalánština určen 92,30769348
とても素敵なホテルで vyberte Joomla スタッフは親切で vyberte Joomla サービスもよかった Japonština Neznámý 0
mebpa'mey naQ, popisný QaQ chavmoH je Klingon Francouzština FR 77,5

Příklady

Příklady použití modulu detekovat jazyky v experimentu najdete v Azure AI Gallery:

  • Filtrovat názvy filmů podle jazyka: detekuje jazyk použitý v názvech filmů a potom pomocí identifikátoru jazyka rozdělí datovou sadu do angličtiny i v neanglickém videu.

Technické poznámky

obecnou představu o jazycích, které mohou být zjištěny, najdete v tématu Překladač Bing.

je možné zjistit mnoho dalších jazyků, než Machine Learning aktuálně podporuje pokročilou analýzu textu. Pro filtrování výsledků, které odesíláte do jiných modulů, které vyžadují zpracování specifické pro konkrétní jazyk, doporučujeme použít výsledky zjišťování jazyků .

základní jazykové služby používá i služba Analýza textu ve službě Azure Cognitive Services.

Očekávané vstupy

Název Typ Description
Datová sada Tabulka dat Vstup

Parametry modulu

Název Typ Rozsah Volitelné Výchozí Description
Horní mez počtu jazyků k rozpoznání Integer [1;184] Vyžadováno 1 Horní mez počtu jazyků, které se má detekovat.
Textový sloupec Výběr sloupce Vyžadováno Název nebo jeden index textového sloupce.

Výstupy

Název Typ Description
Datová sada výsledků Tabulka dat Výsledek

Výjimky

Výjimka Description
Chyba 0003 K výjimce dochází v případě, že jeden nebo více vstupů má hodnotu null nebo je prázdný.
Chyba 0010 K výjimce dochází v případě, že vstupní datové sady mají názvy sloupců, které by se měly shodovat, ale nikoli.
Chyba 0016 K výjimce dochází v případě, že vstupní datové sady předané modulu by měly mít kompatibilní typy sloupců, ale nikoli.
Chyba 0008 K výjimce dochází, pokud parametr není v rozsahu.

Seznam chyb specifických pro moduly sady Studio (classic) najdete v Machine Learning kódy chyb.

Seznam výjimek rozhraní API najdete v tématu Machine Learning REST API kódy chyb.

Viz také

Analýza textu
Seznam modulů A až Z