Adatok felosztása reguláris kifejezéssel
Fontos
A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.
2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.
- További információ a gépi tanulási projektek a ML Studióból a klasszikusból a Azure Machine Learning.
- További információ a Azure Machine Learning.
A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.
Ez a cikk bemutatja, hogyan használhatja a Reguláris kifejezések felosztása lehetőséget a Machine Learning Studio Adatfelosztó moduljában. Ez a lehetőség akkor hasznos, ha szűrési feltételeket kell alkalmaznia egy szöveges oszlopra. Például eloszthatja az adatkészletet azzal, hogy megemlít-e egy adott terméket.
Megjegyzés
A következőkre vonatkozik: Machine Learning Studio (klasszikus)
Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.
Reguláriskifejezés-felosztást egyetlen szöveges oszlopra is használhat. Definiálhat egy reguláris kifejezést, amely tartalmazza a szöveges oszlop nevét, majd megadhatja az oszlopra vonatkozó feltételeket, például: "kezdete", "tartalmaz", vagy "nem tartalmazza".
A gépi tanulási kísérletek adat particionálásának általános információiért lásd: Split Data and Partition and Split (Adatok felosztása és felosztása).
Kapcsolódó feladatok
További lehetőségek az Adatok felosztása modulban :
Adatok felosztása relatív kifejezésekkel: Kifejezés alkalmazása numerikus adatokra.
Ajánló-adatkészletek felosztása: A javaslati modellekben használt adatkészletek felosztása. Az adatkészletnek három oszlopból kell lennie: elemekből, felhasználókból és értékelésekből.
Reguláris kifejezés használata egy adatkészlet felosztására
Adja hozzá az Adatok felosztása modult a kísérlethez, és csatlakoztassa bemenetként a felosztani kívánt adatkészlethez.
Felosztási módként válassza a Reguláris kifejezések felosztása lehetőséget.
A Reguláris kifejezés mezőbe írjon be egy érvényes reguláris kifejezést. Itt talál néhány példát.
A reguláris kifejezés csak a megadott oszlopra lesz alkalmazva, amelynek sztring adattípusnak kell lennie.
Ha segítségre van szüksége a reguláris kifejezések írásában, tekintse meg a Reguláriskifejezés-nyelv – Rövid útmutatót.
Futtassa a kísérletet, vagy kattintson a jobb gombbal a modulra, és válassza a Futtatás kiválasztva lehetőséget.
A megadott reguláris kifejezés alapján az adatkészlet két sorhalmazra oszlik: sorokra, amelyek értékei megegyeznek a kifejezéssel és az összes többi sorral.
Példák
Az alábbi példák bemutatják, hogyan osztható fel egy adatkészlet a Reguláris kifejezés lehetőséggel .
Egyetlen egész szó
Ez a példa az Gryphon
Text
első adatkészletbe helyezi az oszlopban lévő szöveget tartalmazó összes sort, a többi sort pedig az Adatok felosztása második kimenetbe helyezi:
\"Text" Gryphon
Substring
Ez a példa az adatkészlet második oszlopának bármely helyén keres sztringet, amelyet itt az 1 indexérték képvisel. Az egyezés megkülönbözteti a kis- és nagybetűket.
(\1) ^[a-f]
Az első eredmény adathalmaza tartalmazza az összes olyan sort, ahol az indexoszlop a következő karakterek egyikének karakterrel kezdődik: a
, , b
c
, d
, e
, f
. A többi sor a második kimenetre lesz irányítva.
Sztringek egyeztetése IP-címeken
Ebben a példában néhány kiszolgálói naplóadatot két kategóriába sorolunk az elemzéshez: a tűzfal mögötti kapcsolatokra és a tűzfalon kívüli IP-címekre. A rendszer a reguláris kifejezést alkalmazza a mezőre IP_Address
( sztring adattípus).
(\IP_Address) ^[10]
Az első kimenet tartalmazza az összes olyan címet, amely a következővel kezdődik: 10
.