Megosztás a következőn keresztül:


Szöveg előfeldolgozása

Ez a cikk az Azure Machine Learning designer egy összetevőjét ismerteti.

A Szöveg előfeldolgozása összetevő használatával tisztíthatja és egyszerűsítheti a szöveget. Támogatja ezeket a gyakori szövegfeldolgozási műveleteket:

  • Stop-words eltávolítása
  • Meghatározott célsztringek keresése és cseréje normál kifejezések használatával
  • Lemmatizálás, amely több kapcsolódó szót egyetlen canonical formává konvertál
  • Kis- és nagybetűk normalizálása
  • Bizonyos karakterosztályok, például számok, speciális karakterek és ismétlődő karaktersorozatok, például az "aaaa" eltávolítása
  • E-mailek és URL-címek azonosítása és eltávolítása

A Preprocess Text összetevő jelenleg csak az angol nyelvet támogatja.

Szövegelőfeldolgozás konfigurálása

  1. Adja hozzá az Előfeldolgozási szöveg összetevőt a folyamathoz az Azure Machine Learningben. Ezt az összetevőt a Text Analytics alatt találja.

  2. Olyan adatkészlet csatlakoztatása, amely legalább egy szöveget tartalmazó oszlopot tartalmaz.

  3. Válassza ki a nyelvet a Nyelv legördülő listából.

  4. Tisztítandó szövegoszlop: Jelölje ki az előfeldolgozáshoz használni kívánt oszlopot.

  5. Leállító szavak eltávolítása: Válassza ezt a lehetőséget, ha előre definiált stopszólistát szeretne alkalmazni a szövegoszlopra.

    A stopword listák nyelvfüggőek és testreszabhatók.

  6. Lemmatizálás: Válassza ezt a lehetőséget, ha azt szeretné, hogy a szavak a vesszőjükön jelenjenek meg. Ez a beállítás hasznos az egyébként hasonló szöveges jogkivonatok egyedi előfordulásainak számának csökkentéséhez.

    A lemmatizálási folyamat erősen nyelvfüggő.

  7. Mondatok észlelése: Válassza ezt a lehetőséget, ha azt szeretné, hogy az összetevő mondathatárjelet szúrjon be az elemzés során.

    Ez az összetevő három csőkarakterekből ||| álló sorozatot használ a mondat terminátorának ábrázolásához.

  8. A nem kötelező keresési és csereműveleteket normál kifejezések használatával hajthatja végre. A reguláris kifejezés először feldolgozásra kerül, az összes többi beépített lehetőség előtt.

    • Egyéni reguláris kifejezés: Határozza meg a keresett szöveget.
    • Egyéni cseresztring: Adjon meg egyetlen csereértéket.
  9. Kisbetűssé alakíthatja a kisbetűket: Ha kisbetűssé szeretné alakítani az ASCII nagybetűs karaktereit, válassza ezt a beállítást.

    Ha a karakterek nincsenek normalizálva, ugyanaz a nagybetűs és kisbetűs szó két különböző szónak számít.

  10. A következő karaktertípusokat vagy karaktersorozatokat is eltávolíthatja a feldolgozott kimeneti szövegből:

    • Számok eltávolítása: Ezzel a beállítással eltávolíthatja a megadott nyelv összes numerikus karakterét. Az azonosítószámok tartományfüggőek és nyelvfüggőek. Ha a numerikus karakterek egy ismert szó szerves részét képezik, előfordulhat, hogy a szám nem lesz eltávolítva. További információ: Technikai megjegyzések.

    • Speciális karakterek eltávolítása: Ezzel a beállítással eltávolíthatja a nem alfanumerikus speciális karaktereket.

    • Ismétlődő karakterek eltávolítása: Ezzel a beállítással eltávolíthat további karaktereket minden olyan sorozatból, amely többször ismétlődik. Egy "aaa" sorozat például "aa" értékre csökken.

    • E-mail-címek eltávolítása: Ezzel a beállítással eltávolíthatja a formátum <string>@<string>tetszőleges sorozatát.

    • URL-címek eltávolítása: Ezzel a beállítással eltávolíthat minden olyan sorozatot, amely a következő URL-előtagokat tartalmazza: http, https, , ftpwww

  11. Igék összehúzódásainak kibontása: Ez a beállítás csak azokra a nyelvekre vonatkozik, amelyek ige-összevonásokat használnak; jelenleg csak angol nyelven.

    Ha például ezt a lehetőséget választja, lecserélheti a "nem maradna ott" kifejezést a "nem maradna ott" kifejezésre.

  12. Fordított perjelek normalizálása perjelekre: Ezzel a beállítással az összes példányt \\ a értékre lehet képezni /.

  13. Jogkivonatok felosztása speciális karaktereken: Válassza ezt a lehetőséget, ha olyan karaktereken szeretné megszakítani a szavakat, mint &például a , -és így tovább. Ez a beállítás a speciális karaktereket is csökkentheti, ha kétszer többször ismétlődik.

    A sztringet MS---WORD például három jogkivonatra kell bontani: MS, -, és WORD.

  14. Küldje el a folyamatot.

Technikai megjegyzések

A Studio (klasszikus) és a tervező szöveg előtti összetevője különböző nyelvi modelleket használ. A tervező a spaCy többfeladatos CNN-betanított modelljét használja. A különböző modellek különböző jogkivonat-jelölőt és beszédrész-taggert adnak, ami eltérő eredményekhez vezet.

Az alábbiakban néhány példát láthat:

Konfiguráció Kimeneti eredmény
Ha az összes beállítás a Magyarázat lehetőséget választja
:
A "WC-3 3 3test 4test" esetében a tervező eltávolítja a "3test" szót, mivel ebben az összefüggésben a beszéd része tagger számként adja meg ezt a "3test" jogkivonatot, és a beszéd része szerint az összetevő eltávolítja azt.
Az összes beállítás ki van jelölve
Csak Removing number a kiválasztott
magyarázattal:
Az olyan esetekben, mint a "3test", a "4-EC", a tervező tokenizer adag nem osztja fel ezeket az eseteket, és kezeli őket, mint a teljes jogkivonatok. Így nem távolítja el a számokat ezekben a szavakban.
Csak a

A normál kifejezéssel testre szabott eredményeket is megjeleníthet:

Konfiguráció Kimeneti eredmény
Az összes beállításnál az
Egyéni reguláris kifejezés: (\s+)*(-|\d+)(\s+)*
Egyéni helyettesítő sztring: \1 \2 \3
Az összes beállítás ki van jelölve és a reguláris kifejezés
Csak Removing number a kijelölt
egyéni reguláris kifejezéssel: (\s+)*(-|\d+)(\s+)*
Egyéni helyettesítő sztring: \1 \2 \3
A kijelölt számok és a reguláris kifejezés eltávolításával

Következő lépések

Tekintse meg az Azure Machine Learning számára elérhető összetevőket .