Bagikan melalui


Pisahkan Data menggunakan Ekspresi Reguler

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Artikel ini menjelaskan cara menggunakan opsi Split Ekspresi Reguler di modul Split Data Pembelajaran Mesin Studio (klasik). Opsi ini berguna saat Anda perlu menerapkan kriteria filter ke kolom teks. Misalnya, Anda dapat membagi himpunan data Anda dengan apakah produk tertentu disebutkan.

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Anda dapat menggunakan pemisahan ekspresi reguler pada satu kolom teks. Anda menentukan ekspresi reguler yang menyertakan nama kolom teks, lalu mengatur kondisi yang berlaku untuk kolom, seperti "dimulai dengan", "berisi", atau "tidak berisi".

Untuk informasi umum tentang partisi data untuk eksperimen pembelajaran mesin, lihat Pisahkan Data dan Partisi dan Pisahkan.

Opsi lain dalam modul Split Data :

Menggunakan ekspresi reguler untuk membagi himpunan data

  1. Tambahkan modul Pisahkan Data ke eksperimen Anda, dan hubungkan sebagai input ke himpunan data yang ingin Anda pisahkan.

  2. Untuk Mode pemisahan, pilih Pemisahan ekspresi reguler.

  3. Dalam kotak Ekspresi reguler , ketik ekspresi reguler yang valid. Beberapa contoh diberikan di sini.

    Ekspresi reguler hanya diterapkan ke kolom yang ditentukan, yang harus merupakan tipe data string.

    Untuk bantuan menyusun ekspresi reguler, lihat Bahasa Ekspresi Reguler - Referensi Cepat.

  4. Jalankan eksperimen, atau klik kanan modul dan pilih Jalankan yang dipilih.

    Berdasarkan ekspresi reguler yang Anda berikan, himpunan data dibagi menjadi dua set baris: baris dengan nilai yang cocok dengan ekspresi dan semua baris yang tersisa.

Contoh

Contoh berikut menunjukkan cara membagi himpunan data menggunakan opsi Ekspresi Reguler .

Satu kata utuh

Contoh ini menempatkan ke dalam dataset pertama semua baris yang berisi teks Gryphon di kolom Text, dan menempatkan baris lain ke dalam output kedua dari Split Data:

    \"Text" Gryphon  

Substring

Contoh ini mencari string yang ditentukan dalam posisi apa pun dalam kolom kedua himpunan data, dilambangkan di sini dengan nilai indeks 1. Pencocokan ini peka huruf besar/kecil.

(\1) ^[a-f]

Himpunan data hasil pertama berisi semua baris di mana kolom indeks dimulai dengan salah satu karakter ini: a, b, c, d, e, f. Semua baris lainnya diarahkan ke output kedua.

Pencocokan string pada alamat IP

Contoh ini membagi beberapa data log server menjadi dua kategori untuk analisis: koneksi di belakang firewall dan koneksi dengan alamat IP di luar firewall. Ekspresi reguler diterapkan ke IP_Address bidang (tipe data string ).

(\IP_Address) ^[10]

Output pertama berisi semua alamat yang dimulai dengan 10.

Lihat juga

Sampel dan Split
Partisi dan Sampel