Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Penting
Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.
Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.
- Lihat informasi tentang memindahkan proyek pembelajaran mesin dari ML Studio (klasik) ke Azure Machine Learning.
- Pelajari selengkapnya tentang Azure Machine Learning.
ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.
Artikel ini menjelaskan cara menggunakan opsi Pemisahan Ekspresi Relatif dalam modul Pisahkan Data dari Machine Learning Studio (klasik). Opsi ini berguna saat Anda perlu membagi himpunan data menjadi himpunan data pelatihan dan pengujian menggunakan ekspresi numerik. Contohnya:
- Usia lebih besar dari 40 vs. 40 atau lebih muda
- Skor pengujian 60 atau lebih tinggi vs. kurang dari 60
- Nilai peringkat 1 vs. semua nilai lainnya
Catatan
Berlaku untuk: Azure Machine Learning Studio (klasik) saja
Modul seret dan letakkan serupa tersedia di perancang Azure Machine Learning.
Untuk membagi data, Anda memilih satu kolom numerik dalam data Anda, dan menentukan ekspresi yang akan digunakan dalam mengevaluasi setiap baris. Ekspresi relatif harus menyertakan nama kolom, nilai, dan operator seperti lebih besar dari dan kurang dari, sama dengan dan tidak sama dengan.
Opsi ini membagi himpunan data menjadi dua grup.
Untuk informasi umum tentang pemartisian data untuk eksperimen pembelajaran mesin, lihat Pisahkan Data dan Partisi dan Pisahkan.
Tugas terkait
Opsi lain dalam modul Pisahkan Data :
Memisahkan data menggunakan ekspresi reguler: Menerapkan ekspresi reguler ke kolom teks tunggal, dan membagi himpunan data berdasarkan hasilnya
Memisahkan himpunan data pemberi rekomendasi: Membagi himpunan data yang digunakan dalam model rekomendasi. Himpunan data harus memiliki tiga kolom: item, pengguna, dan peringkat
Menggunakan ekspresi relatif untuk membagi himpunan data
Tambahkan modul Pisahkan Data ke eksperimen Anda di Stuio, dan sambungkan sebagai input ke himpunan data yang ingin Anda pisahkan.
Untuk Mode pemisahan, pilih pemisahan ekspresi relatif.
Dalam kotak teks Ekspresi relasional , ketik ekspresi yang melakukan operasi perbandingan numerik, pada satu kolom:
Kolom berisi jumlah jenis data numerik apa pun, termasuk jenis data tanggal/waktu.
Ekspresi dapat mereferensikan maksimal satu nama kolom.
Gunakan karakter ampersand (&) untuk operasi AND dan gunakan karakter pipa (|) untuk operasi OR.
Operator berikut didukung:
<, ,>,<=,>=,==!=Anda tidak dapat mengelompokkan operasi dengan menggunakan
(dan).
Untuk ide, lihat bagian Contoh .
Jalankan eksperimen, atau klik kanan modul dan pilih Jalankan yang dipilih.
Ekspresi membagi himpunan data menjadi dua set baris: baris dengan nilai yang memenuhi kondisi, dan semua baris yang tersisa.
Jika Anda perlu melakukan operasi pemisahan tambahan, Anda dapat menambahkan instans kedua *Pisahkan Data, atau menggunakan modul Terapkan Transformasi SQL dan tentukan pernyataan CASE.
Contoh ekspresi yang berkaitan
Contoh berikut menunjukkan cara membagi himpunan data menggunakan opsi Ekspresi Relatif dalam modul Pisahkan Data :
Menggunakan tahun kalender
Skenario umum adalah membagi himpunan data berdasarkan tahun. Ekspresi berikut memilih semua baris di mana nilai dalam kolom Year lebih besar dari 2010.
\"Year" > 2010
Ekspresi tanggal harus mempertanggungjawabkan semua bagian tanggal yang disertakan dalam kolom data, dan format tanggal dalam kolom data harus konsisten.
Misalnya, dalam kolom tanggal menggunakan format mmddyyyy, ekspresi harus seperti ini:
\"Date" > 1/1/2010
Menggunakan indeks kolom
Ekspresi berikut menunjukkan cara Anda dapat menggunakan indeks kolom untuk memilih semua baris di kolom pertama himpunan data yang berisi nilai kurang dari atau sama dengan 30, tetapi tidak sama dengan 20.
(\0)<=30 & !=20
Operasi gabungan pada nilai waktu menggunakan beberapa pemisahan
Misalkan Anda ingin membagi tabel data log, untuk mengelompokkan kueri yang berjalan terlalu lama. Anda dapat menggunakan ekspresi relatif berikut pada kolom , Elapsed, untuk mendapatkan kueri yang berjalan lebih dari 1 menit.
\"Elapsed" >00:01:00
Untuk mendapatkan kueri dengan waktu respons di bawah satu menit tetapi lebih dari 30 detik, tambahkan instans Pisahkan Data lain di output sebelah kanan, dan gunakan ekspresi seperti ini:
\"Elapsed" <:00:01:00 & >00:00:30
Memisahkan himpunan data pada nilai tanggal
Ekspresi relatif berikut membagi himpunan data dengan menggunakan nilai tanggal di kolom dt1.
\"dt1" > 10-08-2015
Baris dengan tanggal yang lebih besar dari 10-08-2015 ditambahkan ke himpunan data output pertama (kiri).
Baris dengan tanggal 10-08-2015 atau lebih lama ditambahkan ke himpunan data output kedua (kanan).
Catatan teknis
Bagian ini berisi detail implementasi, tips, dan jawaban atas pertanyaan yang sering diajukan.
Batasan
Pembatasan berikut berlaku untuk ekspresi relatif pada himpunan data:
- Ekspresi relatif hanya dapat diterapkan ke jenis data numerik dan jenis data tanggal/waktu.
- Ekspresi relatif dapat mereferensikan maksimal satu nama kolom.
- Gunakan karakter ampersand (&) untuk operasi AND dan karakter pipa (|) untuk operasi OR.
- Operator berikut diizinkan untuk ekspresi relatif:
<, ,>,<=>=,==,!= - Operasi pengelompokan dengan tanda kurung tidak didukung.