Bagikan melalui


Transformasi Data - Sampel dan Split

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Artikel ini menjelaskan modul di Pembelajaran Mesin Studio (klasik) yang dapat Anda gunakan untuk mempartisi atau mengambil sampel data.

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Memisahkan dan mengambil sampel dataset adalah tugas penting dalam pembelajaran mesin. Misalnya, ini adalah praktik umum untuk membagi data menjadi kumpulan pelatihan dan pengujian untuk membantu Anda mengevaluasi model pada himpunan data yang tahan. Pengambilan sampel juga semakin penting di era big data, untuk memastikan bahwa ada distribusi kelas yang adil dalam data pelatihan Anda. Pengambilan sampel juga membantu memastikan bahwa Anda tidak memproses lebih banyak data daripada yang diperlukan.

Anda dapat menggunakan modul Pembelajaran Mesin Studio (klasik) untuk menyesuaikan cara Anda membagi atau mengambil sampel himpunan data:

  • Memfilter data pelatihan berdasarkan atribut dalam data.
  • Lakukan stratified sampling untuk membagi variabel kelas secara merata di antara n jumlah kelompok.
  • Bagilah data sumber menjadi kumpulan data pelatihan dan pengujian dengan menggunakan rasio kustom.
  • Terapkan ekspresi reguler ke data untuk memfilter nilai yang tidak valid.

Memilih operasi yang tepat: Pisahkan atau pengambilan sampel

Pembelajaran Mesin Studio (klasik) menyediakan dua modul yang merangkum tugas. Modul terdengar serupa, tetapi mereka memiliki kegunaan yang berbeda, dan memberikan fungsionalitas komplementer. Kemungkinan Anda akan menggunakan kedua modul dalam percobaan, untuk mendapatkan jumlah yang tepat dan campuran data yang tepat.

Selanjutnya, kami membandingkan modul Split Data dan modul Partisi dan Sampel dengan melihat tugas mana setiap modul biasanya digunakan.

Penggunaan modul Split Data

  • Bagilah data menjadi dua kelompok. Gunakan modul Split Data . Modul menghasilkan tepat dua pembagian data. Anda dapat menentukan kondisi di mana data dibagi, dan proporsi data untuk dimasukkan ke dalam setiap subset. Pisahkan Data selalu menyimpan subset data yang tidak memenuhi persyaratan.
  • Alokasikan nilai label sama dengan himpunan data. Opsi untuk melakukan stratifikasi pada kolom tertentu didukung oleh kedua modul. Namun, jika Anda ingin membuat dua himpunan data dan sebagian besar tertarik pada kolom label, modul Split Data adalah solusi cepat.

Contoh menggunakan modul Split Data

Misalkan Anda mengimpor himpunan data yang sangat besar dari file CSV. Himpunan data berisi demografi pelanggan. Anda ingin membuat model yang berbeda untuk pelanggan di berbagai negara, sehingga Anda memutuskan untuk membagi data dengan menggunakan nilai Country-Region kolom. Berikut adalah langkah-langkah yang Anda ambil untuk menyelesaikan tugas ini:

  1. Tambahkan modul Pisahkan Data , lalu tentukan ekspresi di bidang Country-Region . Sisa data tersedia pada output sekunder.
  2. Tambahkan contoh lain dari modul Split Data .
  3. Ulangi langkah 1 dan 2. Tentukan negara yang berbeda dalam ekspresi untuk setiap iterasi.

Modul Data Terpisah mendukung ekspresi reguler, untuk data teks, dan ekspresi relatif, untuk data numerik.

Modul Split Data juga menyediakan fungsionalitas canggih yang dapat Anda gunakan untuk membagi himpunan data khusus. Gunakan fungsionalitas untuk membuat model rekomendasi, dan untuk menghasilkan prediksi.

Penggunaan modul Partisi dan Sampel

  • Pengambilan sampel. Selalu gunakan modul Partisi dan Sampel . Modul ini menyediakan beberapa metode pengambilan sampel yang dapat disesuaikan, termasuk beberapa opsi untuk pengambilan sampel bertingkat.
  • Tetapkan kasus ke beberapa grup. Gunakan opsi Tetapkan untuk Lipat atau Pilih Lipat di modul Partisi dan Sampel .
  • Kembalikan hanya subset data. Gunakan modul Partisi dan Sampel . Modul memberi Anda subset yang ditentukan pada output utama. Data yang tersisa tersedia pada output sekunder.
  • Dapatkan hanya 2.000 baris teratas dari himpunan data. Gunakan modul Partisi dan Sampel . Pilih opsi Kepala . Ini sangat berguna ketika Anda menguji eksperimen baru dan ingin menjalankan uji coba singkat alur kerja.

Contoh menggunakan modul Partisi dan Sampel

Modul Partisi dan Sampel dapat menghasilkan beberapa partisi data, bukan hanya dua. Pada saat yang sama, ia dapat melakukan berbagai operasi pengambilan sampel.

Misalnya, Anda hanya perlu mendapatkan 10 persen dari data Anda, sambil memastikan bahwa distribusi atribut target sama dengan data sumber. Berikut adalah langkah-langkah yang Anda ambil untuk menyelesaikan tugas ini:

  1. Tambahkan modul Partisi dan Sampel .
  2. Pilih mode Sampling , lalu tentukan 10%.
  3. Pilih opsi pengambilan sampel bertingkat, lalu pilih kolom yang berisi atribut target.

Jika Anda tidak perlu menyimpan semua data, gunakan modul Partisi dan Sampel . Data yang tersisa masih ada di ruang kerja, tetapi tidak perlu diproses lebih lanjut sebagai bagian dari eksperimen.

Daftar modul

Kategori ini mencakup modul berikut:

  • Partisi dan Sampel: Membuat beberapa partisi himpunan data berdasarkan pengambilan sampel.
  • Pisahkan Data: Mempartisi baris himpunan data menjadi dua set yang berbeda.

Lihat juga