Delen via


Sleuteltermen extraheren uit tekst

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

Extraheert sleuteltermen uit de opgegeven tekst

Categorie: Text Analytics

Notitie

Van toepassing op: Machine Learning Studio (klassiek)

Vergelijkbare modules met slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.

Moduleoverzicht

In dit artikel wordt uitgelegd hoe u de module Sleuteltermen extraheren uit tekst in Machine Learning Studio (klassiek) gebruikt om een tekstkolom vooraf te verwerken. Met een kolom met tekst in natuurlijke taal extraheert de module een of meer betekenisvolle woordgroepen. Een woordgroep kan één woord, een samengesteld zelfstandig naamwoord of een modifier plus een zelfstandig naamwoord zijn.

Deze module is een wrapper voor API's voor verwerking van natuurlijke taal voor sleuteltermextractie. De zinnen worden om verschillende redenen geanalyseerd als potentieel zinvol in de context van de zin:

  • De zin legt het onderwerp van de zin vast.
  • De woordgroep bevat een combinatie van modifier en zelfstandig naamwoord die gevoel aangeven.

Stel bijvoorbeeld dat de geanalyseerde zin is: "Het was een fantastisch hotel om in te blijven, met unieke vriendelijke en vriendelijke medewerkers."

De module Sleuteltermen extraheren uit tekst kan deze sleuteltermen retourneren:

  • fantastisch hotel
  • vriendelijke medewerkers
  • unieke unieke ervaring

Sleuteltermen uit tekst extraheren configureren

Als u sleuteltermen wilt extraheren, moet u een gegevensset verbinden die een tekstkolom bevat.

  1. Voeg de module Sleuteltermen extraheren uit tekst toe aan uw experiment in Machine Learning Studio (klassiek). Verbind vervolgens een gegevensset met ten minste één kolom in volledige tekst.

  2. Gebruik de kolom selector om een kolom van het type tekenreeks te selecteren, waaruit sleuteltermen moeten worden geëxtraheert.

  3. Selecteer bij Taal een taal die moet worden gebruikt bij het analyseren van zinnen. Als u een taal opgeeft, worden alleen zinnen in de doeltaal uitgevoerd.

  4. Als de tekstkolom zinnen in meerdere talen bevat, kiest u de optie Taal geïdentificeerd in kolommen. Er wordt een nieuwe kolom selector weergegeven waarmee u een kolom in uw gegevensset kunt selecteren die een taal-id bevat. De taal-id kan de taalnaam of de Iso6391-cultuur-id zijn. 'Engels' of 'en' is bijvoorbeeld acceptabel.

    Tip

    Voordat u Sleuteltermen extraheren uit tekst gaat uitvoeren, gebruikt u de module Talen detecteren om de taal in elke rij te identificeren en de id voor u te genereren. Er teert een fout als de kolom taal-id talen bevat die niet worden ondersteund door Sleuteltermen extraheren uit tekst.

Resultaten

De uitvoer van de module is een gegevensset met een kolom met door komma's gescheiden sleuteltermen.

De volgende voorbeeldresultaten zijn bijvoorbeeld voor een invoerset met beoordelingen in meerdere talen:

Sleutelzinnen
novel,adventure best,best book,adventure story,strip of events,good characters
primer,personajes,fan,akiezer,isla
  • Alle uitvoerzinnen zijn opgenomen in één kolom; er worden geen andere kolommen doorgegeven en er wordt geen id toegevoegd. Als u de uitvoerzinnen echter wilt uitlijnen met de brontekst, kunt u de uitvoertermen opnieuw met de invoer samenvoegen met behulp van de module Kolommen toevoegen.

  • Met de uitvoer van sleuteltermextractie wordt de taal van afzonderlijke woordgroepen niet gemarkeerd.

  • Als er een taal is opgenomen die niet wordt ondersteund door de module Sleuteltermen extraheren, teert er een fout (0039). Om fouten te voorkomen, moet u invoertekst met een incompatibele taal-id uitfilteren.

    Als er maar weinig rijen met andere talen zijn, kunt u de fout ook voorkomen door de taal-id weg te laten en alle tekst te analyseren met behulp van één taalselectie. Als u dit doet, zijn de resultaten echter erg slecht, omdat volledige zinnen in de andere talen als één sleutelterm kunnen worden uitgevoerd.

Voorbeelden

In het volgende voorbeeld wordt gedemonstreerd hoe u deze module gebruikt om sleuteltermen op te halen en vervolgens een woordwolk op te bouwen op basis van de woordgroepen: Sleuteltermen extraheren en Woordwolk tonen

Zie de Azure AI Gallery voor meer voorbeelden van tekstverwerking met behulp Machine Learning.

Technische opmerkingen

Deze module ondersteunt momenteel de volgende talen:

  • Nederlands
  • Engels
  • Frans
  • Duits
  • Italiaans
  • Spaans

Voor extra talen kunt u overwegen om de api Text Analytics in Azure Cognitive Services. Zie Sleuteltermen extraheren in een Text Analytics

Verwachte invoer

Naam Type Description
Gegevensset Gegevenstabel De tabel met de tekst die moet worden verwerkt.

Moduleparameters

Naam Type Bereik Optioneel Standaard Beschrijving
Kolom Cultuurtaal ColumnSelection language:Kolom bevat taal Naam of een op één gebaseerde index van de kolom met informatie over de cultuurtaal
Tekstkolom ColumnSelection Vereist Naam of index op basis van één van de tekstkolom.
Taal T_Language Engels, Spaans, Frans, Nederlands, Duits, Italiaans, Kolom bevat taal Vereist Engels Selecteer de taal van de tekst die moet worden verwerkt.

Uitvoerwaarden

Naam Type Description
Gegevensset met resultaten Gegevenstabel De geëxtraheerde sleuteltermen

Uitzonderingen

Uitzondering Description
Fout 0003 Uitzondering treedt op als een of meer invoer null of leeg zijn.
Fout 0010 Uitzondering treedt op als invoersets kolomnamen hebben die wel overeenkomen, maar niet.
Fout 0016 Uitzondering treedt op als invoersets die aan de module worden doorgegeven compatibele kolomtypen moeten hebben, maar niet.
Fout 0008 Uitzondering treedt op als parameter zich niet binnen het bereik.

Zie Foutcodes voor een lijst met fouten die specifiek zijn Machine Learning voor Studio-modules (klassiek).

Zie Foutcodes voor een lijst Machine Learning REST API API-uitzonderingen.

Zie ook

Tekstanalyse
Lijst met A-Z-modules