Sdílet prostřednictvím


Extrahovat klíčové fráze z textu

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Extrahuje klíčové fráze z daného textu.

kategorie: Analýza textu

Poznámka

platí pro: jenom Machine Learning Studio (classic)

podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.

Přehled modulu

tento článek vysvětluje, jak použít extrakci klíčových frází z textového modulu v Machine Learning studiu (classic) k předběžnému zpracování textového sloupce. V případě textu v přirozeném jazyce, modul extrahuje jednu nebo více smysluplných frází. Frází může být jedno slovo, složené podstatné jméno nebo modifikátor plus podstatné jméno.

Tento modul je obálkou pro rozhraní API pro zpracování přirozeného jazyka pro extrakci klíčových frází. Fráze se analyzují jako potenciálně smysluplné v kontextu věty z různých důvodů:

  • Fráze zachytí téma věty.
  • Fráze obsahuje kombinaci modifikátoru a podstatného jména, která označuje mínění.

Předpokládejme například, že je analyzovaná věta: "jednalo se o skvělou hotelovou položku s jedinečnými décor a popisnými zaměstnanci."

Extrakce klíčových frází z textového modulu může vracet tyto klíčové fráze:

  • milovaný Hotel
  • přátelské personál
  • jedinečné décor

Jak nakonfigurovat extrakci klíčových frází z textu

Chcete-li extrahovat klíčové fráze, je nutné připojit datovou sadu, která má sloupec textu.

  1. přidejte klíčové fráze extrakce z modulu textu do experimentu v Machine Learning studiu (classic). Pak připojte datovou sadu, která má alespoň jeden fulltextový sloupec.

  2. K výběru sloupce typu řetězec, ze kterého se mají extrahovat klíčové fráze, použijte selektor sloupců.

  3. V možnosti jazykvyberte jazyk, který se má použít při analýze frází. Pokud zadáte jazyk, budou výstupem pouze fráze v cílovém jazyce.

  4. Pokud sloupec text obsahuje fráze v několika jazycích, vyberte možnost jazyk identifikovaný ve sloupcích. Zobrazí se nový selektor sloupců, který umožňuje vybrat sloupec v sadě dat, který obsahuje identifikátor jazyka. Identifikátor jazyka může být buď název jazyka, nebo identifikátor jazykové verze Iso6391. Například jsou přijatelné buď "anglické", nebo "en".

    Tip

    Před spuštěním extrakce klíčových frází z textupoužijte modul detekovat jazyky k identifikaci jazyka v jednotlivých řádcích a pro vygenerování identifikátoru. Pokud sloupec identifikátor jazyka obsahuje všechny jazyky, které nejsou podporovány, extrahují klíčové fráze z textua vyvolá chybu.

Výsledky

Výstupem modulu je datová sada obsahující sloupec klíčových frází oddělených čárkami.

Například následující příklady výsledků jsou pro vstupní datovou sadu obsahující recenze v několika jazycích:

Klíčové fráze
nové, nukleární podmořský, dobrý příběh, Avalanche událostí, dobré znaky
Úvod do Misterio, personajes, ventilátoru, Aventura, Isla
  • Všechny výstupní fráze jsou obsaženy v jednom sloupci; nejsou předávány žádné další sloupce a identifikátor není přidán. Pokud však chcete zarovnat výstupní fráze ke zdrojovému textu, můžete pomocí modulu Přidat sloupce znovu kombinovat výstupní fráze se vstupem.

  • Výstup extrakce klíčových frází neoznačí jazyk jednotlivých frází.

  • Pokud je zahrnut jazyk, který není podporován modulem pro extrakci klíčových frází , je vyvolána chyba (0039). Aby se předešlo chybám, nezapomeňte odfiltrovat vstupní text s nekompatibilním identifikátorem jazyka.

    Pokud je k dispozici příliš málo řádků jiných jazyků, můžete také zabránit chybě vynecháním identifikátoru jazyka a analýzou veškerého textu pomocí jednoho výběru jazyka. Nicméně když to uděláte, výsledky jsou velmi špatné, protože celé věty v jiných jazycích můžou být výstupem jako jedna klíčová fráze.

Příklady

Následující příklad ukazuje, jak tento modul použít k extrakci klíčových frází a následnému sestavení cloudu aplikace Word z frází: extrakce klíčových frází a zobrazení cloudu aplikace Word

Další příklady zpracování textu pomocí Machine Learning najdete v Azure AI Gallery .

Technické poznámky

Tento modul aktuálně podporuje následující jazyky:

  • Nizozemština
  • Angličtina
  • Francouzština
  • Němčina
  • Italština
  • Španělština

v případě dalších jazyků zvažte použití rozhraní Analýza textu API ve službě Azure Cognitive Services. další informace najdete v tématu postup extrakce klíčových frází v Analýza textu

Očekávané vstupy

Název Typ Description
Datová sada Tabulka dat Tabulka obsahující text, který má být zpracován.

Parametry modulu

Název Typ Rozsah Volitelné Výchozí Description
Jazyková verze – sloupec jazyka ColumnSelection jazyk: sloupec obsahuje jazyk Název nebo index založený na jednom z nich sloupce obsahujícího informace o jazyku jazykové verze
Sloupec textu ColumnSelection Vyžadováno Název nebo index založený na jednom indexu textového sloupce.
Jazyk T_Language Angličtina, španělština, francouzština, holandština, němčina, italština, italština, sloupec obsahuje jazyk Vyžadováno Angličtina Vyberte jazyk textu, který se má zpracovat.

Výstupy

Název Typ Description
Datová sada výsledků Tabulka dat Extrahované klíčové fráze

Výjimky

Výjimka Description
Chyba 0003 K výjimce dochází v případě, že jeden nebo více vstupů má hodnotu null nebo je prázdný.
Chyba 0010 K výjimce dochází v případě, že vstupní datové sady mají názvy sloupců, které by se měly shodovat, ale nikoli.
Chyba 0016 K výjimce dochází v případě, že vstupní datové sady předané modulu by měly mít kompatibilní typy sloupců, ale nikoli.
Chyba 0008 K výjimce dochází, pokud parametr není v rozsahu.

Seznam chyb specifických pro moduly sady Studio (classic) najdete v Machine Learning kódy chyb.

Seznam výjimek rozhraní API najdete v tématu Machine Learning REST API kódy chyb.

Viz také

Analýza textu
Seznam modulů A až Z