Dela data med reguljära uttryck

Viktigt

Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.

Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.

Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.

Den här artikeln beskriver hur du använder alternativet Dela upp reguljära uttryck i modulen Dela data i Machine Learning Studio (klassisk). Det här alternativet är användbart när du behöver tillämpa ett filtervillkor på en textkolumn. Du kan till exempel dela din datauppsättning med om en viss produkt nämns.

Anteckning

Gäller endast för: Machine Learning Studio (klassisk)

Liknande dra och släpp-moduler är tillgängliga i Azure Machine Learning designer.

Du kan använda ett reguljärt uttryck som delas upp i en enskild textkolumn. Du definierar ett reguljärt uttryck som innehåller textkolumnnamnet och anger sedan villkor som gäller för kolumnen, till exempel "börjar med", ""contains" eller "innehåller inte".

Allmän information om datapartitionering för maskininlärningsexperiment finns i Dela data och Partitionera och Dela.

Andra alternativ i modulen Dela data:

Dela upp data med relativa uttryck: Tillämpa ett uttryck på numeriska data.
Dela upp rekommenderade datauppsättningar: Dela upp datauppsättningar som används i rekommendationsmodeller. Datamängden ska ha tre kolumner: objekt, användare och klassificeringar
Dela upp efter procentandel av datauppsättningen

Använda ett reguljärt uttryck för att dela upp en datauppsättning

Lägg till modulen Split Data (Dela data) i experimentet och anslut den som indata till den datamängd som du vill dela.
För Delningsläge väljer du Delning av reguljära uttryck.
I rutan Reguljärt uttryck skriver du ett giltigt reguljärt uttryck. Några exempel finns här.

Det reguljära uttrycket tillämpas endast på den angivna kolumnen, som måste vara en strängdatatyp.

Hjälp med att skriva reguljära uttryck finns i Snabbreferens för reguljära uttryck.
Kör experimentet eller högerklicka på modulen och välj Kör valt.

Baserat på det reguljära uttryck som du anger delas datauppsättningen in i två uppsättningar rader: rader med värden som matchar uttrycket och alla återstående rader.

Exempel

Följande exempel visar hur du delar en datauppsättning med hjälp av alternativet Reguljärt uttryck.

Enstaka helt ord

Det här exemplet placerar alla rader som innehåller texten GryphonTexti kolumnen i den första datauppsättningen och andra rader i den andra utdatamängden för Dela data:

    \"Text" Gryphon

Delsträng

Det här exemplet söker efter den angivna strängen på valfri plats i den andra kolumnen i datauppsättningen, vilket anges här med indexvärdet 1. Matchningen är fallkänslig.

(\1) ^[a-f]

Den första resultatdatamängden innehåller alla rader där indexkolumnen börjar med något av dessa tecken: a, b, c, d, e, f. Alla andra rader dirigeras till andra utdata.

Strängmatchning på IP-adresser

Det här exemplet delar in vissa serverloggdata i två kategorier för analys: anslutningar bakom brandväggen och anslutningar med IP-adresser utanför brandväggen. Det reguljära uttrycket tillämpas på fältet IP_Address (en strängdatatyp ).

(\IP_Address) ^[10]

De första utdata innehåller alla adresser som börjar med 10.

Se även

Exempel och delning
Partitionera och prova

Last updated on 2019-05-06

Dela via