Dividere i dati usando un'espressione regolare

Articolo
05/06/2019

Importante

Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).

Vedere leinformazioni sullo spostamento di progetti di Machine Learning da ML Studio (versione classica) ad Azure Machine Learning.
Altre informazioni sulle Azure Machine Learning.

La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

Questo articolo descrive come usare l'opzione Suddivisione di espressioni regolari nel modulo Split Data (Dividi dati) di Machine Learning Studio (versione classica). Questa opzione è utile quando è necessario applicare criteri di filtro a una colonna di testo. Ad esempio, è possibile dividere il set di dati per indicare se viene menzionato un determinato prodotto.

Nota

Si applica a: Machine Learning Studio (versione classica)

Nella finestra di progettazione sono disponibili moduli simili Azure Machine Learning trascinamento della selezione.

È possibile usare un'espressione regolare suddivisa in una singola colonna di testo. Si definisce un'espressione regolare che include il nome della colonna di testo e quindi si impostano le condizioni che si applicano alla colonna, ad esempio "inizia con", "contiene" o "non contiene".

Per informazioni generali sul partizionamento dei dati per gli esperimenti di Machine Learning, vedere Dividere dati e partizionare e dividere.

Altre opzioni nel modulo Split Data (Dividi dati):

Dividere i dati usando espressioni relative: applicare un'espressione ai dati numerici.
Split recommender datasets (Divisione dei set di dati di raccomandazione): consente di dividere i set di dati usati nei modelli di raccomandazione. Il set di dati deve avere tre colonne: elementi, utenti e classificazioni
Divisione per percentuale del set di dati

Usare un'espressione regolare per dividere un set di dati

Aggiungere il modulo Split Data (Dividi dati) all'esperimento e connetterlo come input al set di dati da dividere.
Per Modalità di divisione selezionare Suddivisione espressione regolare.
Nella casella Espressione regolare digitare un'espressione regolare valida. Di seguito sono riportati alcuni esempi.

L'espressione regolare viene applicata solo alla colonna specificata, che deve essere un tipo di dati stringa.

Per informazioni sulla composizione di espressioni regolari, vedere Il linguaggio delle espressioni regolari - Riferimento rapido.
Eseguire l'esperimento oppure fare clic con il pulsante destro del mouse sul modulo e scegliere Esegui selezionato.

In base all'espressione regolare specificata, il set di dati è suddiviso in due set di righe: righe con valori corrispondenti all'espressione e tutte le righe rimanenti.

Esempio

Gli esempi seguenti illustrano come dividere un set di dati usando l'opzione Espressione regolare.

Singola parola intera

Questo esempio inserisce nel primo set di GryphonTextdati tutte le righe che contengono il testo nella colonna e inserisce le altre righe nel secondo output di Dividi dati:

    \"Text" Gryphon

Substring

Questo esempio cerca la stringa specificata in qualsiasi posizione all'interno della seconda colonna del set di dati, qui denotata dal valore di indice 1. La corrispondenza prevede la distinzione tra maiuscole e minuscole.

(\1) ^[a-f]

Il primo set di dati dei risultati contiene tutte le righe in cui la colonna dell'indice inizia con uno di questi caratteri: a, b, c, d, e, f. Tutte le altre righe vengono indirizzate al secondo output.

Corrispondenza di stringhe per gli indirizzi IP

Questo esempio divide alcuni dati di log del server in due categorie per l'analisi: connessioni dietro il firewall e connessioni con indirizzi IP all'esterno del firewall. L'espressione regolare viene applicata al campo IP_Address (tipo di dati stringa).

(\IP_Address) ^[10]

Il primo output contiene tutti gli indirizzi che iniziano con 10.

Vedi anche

Sample and Split
Partition and Sample (Crea partizioni ed esegui campionamenti)

Condividi tramite

Dividere i dati usando un'espressione regolare

Usare un'espressione regolare per dividere un set di dati

Esempio

Singola parola intera

Substring

Corrispondenza di stringhe per gli indirizzi IP

Vedi anche

Risorse aggiuntive

Condividi tramite

Dividere i dati usando un'espressione regolare

Attività correlate

Usare un'espressione regolare per dividere un set di dati

Esempio

Singola parola intera

Substring

Corrispondenza di stringhe per gli indirizzi IP

Vedi anche

Risorse aggiuntive