Szöveg előfeldolgozása
Ez a cikk az Azure Machine Learning designer egy összetevőjét ismerteti.
A Szöveg előfeldolgozása összetevő használatával tisztíthatja és egyszerűsítheti a szöveget. Támogatja ezeket a gyakori szövegfeldolgozási műveleteket:
- Stop-words eltávolítása
- Meghatározott célsztringek keresése és cseréje normál kifejezések használatával
- Lemmatizálás, amely több kapcsolódó szót egyetlen canonical formává konvertál
- Kis- és nagybetűk normalizálása
- Bizonyos karakterosztályok, például számok, speciális karakterek és ismétlődő karaktersorozatok, például az "aaaa" eltávolítása
- E-mailek és URL-címek azonosítása és eltávolítása
A Preprocess Text összetevő jelenleg csak az angol nyelvet támogatja.
Szövegelőfeldolgozás konfigurálása
Adja hozzá az Előfeldolgozási szöveg összetevőt a folyamathoz az Azure Machine Learningben. Ezt az összetevőt a Text Analytics alatt találja.
Olyan adatkészlet csatlakoztatása, amely legalább egy szöveget tartalmazó oszlopot tartalmaz.
Válassza ki a nyelvet a Nyelv legördülő listából.
Tisztítandó szövegoszlop: Jelölje ki az előfeldolgozáshoz használni kívánt oszlopot.
Leállító szavak eltávolítása: Válassza ezt a lehetőséget, ha előre definiált stopszólistát szeretne alkalmazni a szövegoszlopra.
A stopword listák nyelvfüggőek és testreszabhatók.
Lemmatizálás: Válassza ezt a lehetőséget, ha azt szeretné, hogy a szavak a vesszőjükön jelenjenek meg. Ez a beállítás hasznos az egyébként hasonló szöveges jogkivonatok egyedi előfordulásainak számának csökkentéséhez.
A lemmatizálási folyamat erősen nyelvfüggő.
Mondatok észlelése: Válassza ezt a lehetőséget, ha azt szeretné, hogy az összetevő mondathatárjelet szúrjon be az elemzés során.
Ez az összetevő három csőkarakterekből
|||
álló sorozatot használ a mondat terminátorának ábrázolásához.A nem kötelező keresési és csereműveleteket normál kifejezések használatával hajthatja végre. A reguláris kifejezés először feldolgozásra kerül, az összes többi beépített lehetőség előtt.
- Egyéni reguláris kifejezés: Határozza meg a keresett szöveget.
- Egyéni cseresztring: Adjon meg egyetlen csereértéket.
Kisbetűssé alakíthatja a kisbetűket: Ha kisbetűssé szeretné alakítani az ASCII nagybetűs karaktereit, válassza ezt a beállítást.
Ha a karakterek nincsenek normalizálva, ugyanaz a nagybetűs és kisbetűs szó két különböző szónak számít.
A következő karaktertípusokat vagy karaktersorozatokat is eltávolíthatja a feldolgozott kimeneti szövegből:
Számok eltávolítása: Ezzel a beállítással eltávolíthatja a megadott nyelv összes numerikus karakterét. Az azonosítószámok tartományfüggőek és nyelvfüggőek. Ha a numerikus karakterek egy ismert szó szerves részét képezik, előfordulhat, hogy a szám nem lesz eltávolítva. További információ: Technikai megjegyzések.
Speciális karakterek eltávolítása: Ezzel a beállítással eltávolíthatja a nem alfanumerikus speciális karaktereket.
Ismétlődő karakterek eltávolítása: Ezzel a beállítással eltávolíthat további karaktereket minden olyan sorozatból, amely többször ismétlődik. Egy "aaa" sorozat például "aa" értékre csökken.
E-mail-címek eltávolítása: Ezzel a beállítással eltávolíthatja a formátum
<string>@<string>
tetszőleges sorozatát.URL-címek eltávolítása: Ezzel a beállítással eltávolíthat minden olyan sorozatot, amely a következő URL-előtagokat tartalmazza:
http
,https
, ,ftp
www
Igék összehúzódásainak kibontása: Ez a beállítás csak azokra a nyelvekre vonatkozik, amelyek ige-összevonásokat használnak; jelenleg csak angol nyelven.
Ha például ezt a lehetőséget választja, lecserélheti a "nem maradna ott" kifejezést a "nem maradna ott" kifejezésre.
Fordított perjelek normalizálása perjelekre: Ezzel a beállítással az összes példányt
\\
a értékre lehet képezni/
.Jogkivonatok felosztása speciális karaktereken: Válassza ezt a lehetőséget, ha olyan karaktereken szeretné megszakítani a szavakat, mint
&
például a ,-
és így tovább. Ez a beállítás a speciális karaktereket is csökkentheti, ha kétszer többször ismétlődik.A sztringet
MS---WORD
például három jogkivonatra kell bontani:MS
,-
, ésWORD
.Küldje el a folyamatot.
Technikai megjegyzések
A Studio (klasszikus) és a tervező szöveg előtti összetevője különböző nyelvi modelleket használ. A tervező a spaCy többfeladatos CNN-betanított modelljét használja. A különböző modellek különböző jogkivonat-jelölőt és beszédrész-taggert adnak, ami eltérő eredményekhez vezet.
Az alábbiakban néhány példát láthat:
Konfiguráció | Kimeneti eredmény |
---|---|
Ha az összes beállítás a Magyarázat lehetőséget választja : A "WC-3 3 3test 4test" esetében a tervező eltávolítja a "3test" szót, mivel ebben az összefüggésben a beszéd része tagger számként adja meg ezt a "3test" jogkivonatot, és a beszéd része szerint az összetevő eltávolítja azt. |
![]() |
Csak Removing number a kiválasztott magyarázattal: Az olyan esetekben, mint a "3test", a "4-EC", a tervező tokenizer adag nem osztja fel ezeket az eseteket, és kezeli őket, mint a teljes jogkivonatok. Így nem távolítja el a számokat ezekben a szavakban. |
![]() |
A normál kifejezéssel testre szabott eredményeket is megjeleníthet:
Konfiguráció | Kimeneti eredmény |
---|---|
Az összes beállításnál az Egyéni reguláris kifejezés: (\s+)*(-|\d+)(\s+)* Egyéni helyettesítő sztring: \1 \2 \3 |
![]() |
Csak Removing number a kijelölt egyéni reguláris kifejezéssel: (\s+)*(-|\d+)(\s+)* Egyéni helyettesítő sztring: \1 \2 \3 |
![]() |
Következő lépések
Tekintse meg az Azure Machine Learning számára elérhető összetevőket .
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: