Bagikan melalui


Pisahkan Data menggunakan Baris Terpisah

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Artikel ini menjelaskan cara menggunakan opsi Pisahkan Baris dalam modul Pisahkan Data Pembelajaran Mesin Studio (klasik). Opsi ini sangat berguna ketika Anda perlu membagi himpunan data yang digunakan untuk pelatihan dan pengujian, baik secara acak atau dengan beberapa kriteria.

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Opsi Split Rows mendukung pemisahan acak dan bertingkat. Misalnya, Anda dapat menentukan split 70-30, atau split 10-90 dengan variabel target Anda sama-sama terwakili di kedua himpunan data.

Untuk informasi umum tentang partisi data untuk eksperimen pembelajaran mesin, lihat Pisahkan Data dan Partisi dan Pisahkan.

Opsi lain dalam modul Split Data mendukung berbagai cara untuk membagi data:

Membagi himpunan data menjadi dua kelompok

  1. Tambahkan modul Pisahkan Data ke eksperimen Anda di Studio (klasik), dan hubungkan himpunan data yang ingin Anda pisahkan.

  2. Untuk mode Pemisahan, pilih Pisahkan baris.

  3. Fraksi baris dalam himpunan data keluaran pertama. Gunakan opsi ini untuk menentukan berapa banyak baris yang masuk ke output pertama (kiri). Semua baris lainnya akan masuk ke output kedua (tangan kanan).

    Rasio mewakili persentase baris yang dikirim ke himpunan data output pertama, jadi Anda harus mengetikkan angka desimal antara 0 dan 1.

    Misalnya, jika Anda mengetik 0,75 sebagai nilai, himpunan data akan dibagi dengan menggunakan rasio 75:25, dengan 75% baris dikirim ke himpunan data output pertama, dan 25% dikirim ke himpunan data output kedua.

  4. Pilih opsi Pemisahan acak jika Anda ingin mengacak pilihan data menjadi dua grup. Ini adalah opsi yang lebih disukai saat membuat dataset pelatihan dan pengujian.

  5. Random Seed: Ketik nilai integer non-negatif untuk menginisialisasi urutan pseudorandom instans yang akan digunakan. Nilai awal default ini digunakan di semua modul yang menghasilkan angka acak.

    Menentukan benih membuat hasilnya umumnya dapat direproduksi. Jika Anda perlu mengulangi hasil operasi terpisah, Anda harus menentukan nilai awal untuk pembuat angka acak. Jika tidak, nilai awal acak diatur secara default ke 0, yang berarti nilai awal diperoleh dari jam sistem. Akibatnya, distribusi data mungkin sedikit berbeda setiap kali Anda melakukan pemisahan.

  6. Pemisahan bertingkat: Atur opsi ini ke True untuk memastikan bahwa dua himpunan data output berisi sampel representatif dari nilai di kolom strata atau kolom kunci stratifikasi.

    Dengan pengambilan sampel bertingkat, data dibagi sedemikian rupa sehingga setiap himpunan data output mendapatkan persentase yang kira-kira sama untuk setiap nilai target. Misalnya, Anda mungkin ingin memastikan bahwa set pelatihan dan pengujian Anda kira-kira seimbang sehubungan dengan hasilnya, atau sehubungan dengan beberapa kolom lain seperti jenis kelamin.

  7. Jalankan eksperimen, atau klik kanan modul dan pilih Jalankan yang dipilih.

Contoh

Contoh berikut menunjukkan cara melakukan pemisahan sederhana menggunakan mode Pisahkan Baris .

Dibagi menjadi dua bagian yang sama

Tambahkan modul Pisahkan Data setelah himpunan data tanpa ada perubahan lain. Secara default, modul membagi himpunan data menjadi dua bagian yang sama. Untuk data dengan jumlah baris ganjil, output kedua mendapatkan sisanya.

Dibagi menjadi tiga

Asumsikan bahwa Anda ingin membagi dataset menjadi dua bagian, dengan sepertiga dari data yang digunakan untuk pelatihan dan sisanya untuk pengujian atau perpecahan tambahan.

Untuk melakukan ini, tambahkan modul Split Data , dan atur Fraksi baris di output pertama ke 0,33. Output kedua berisi dua pertiga sisanya.

Untuk membagi output kedua menjadi bagian yang sama, tambahkan instance lain dari modul Split Data , dan kali ini gunakan default untuk split 50-50.

Catatan teknis

Bagian ini berisi detail implementasi, tips, dan jawaban atas pertanyaan yang sering diajukan.

Detail implementasi

  • Modul ini mengharuskan himpunan data berisi setidaknya dua baris; jika tidak, kesalahan dinaikkan.

  • Jika Anda menggunakan opsi untuk menentukan jumlah baris yang diinginkan, angka yang ditentukan harus berupa bilangan bulat positif, dan jumlahnya harus kurang dari jumlah total baris dalam himpunan data.

  • Semua nilai persentase harus berada dalam kisaran 0 dan 1.

  • Jika Anda menentukan angka atau persentase sebagai angka floating point kurang dari satu, dan Anda tidak menggunakan simbol persen (%), angka tersebut ditafsirkan sebagai nilai proporsional.

Persyaratan tambahan untuk pengambilan sampel bertingkat

  • Kolom strata hanya dapat berisi data nominal atau kategoris. Jika kolom berisi data numerik berkelanjutan, pesan kesalahan akan dinaikkan.

  • Kolom dengan terlalu banyak nilai unik bukanlah kandidat yang baik untuk stratifikasi. Anda dapat mencoba meruntuhkan beberapa kategori atau mengelompokkan nilai sebelumnya.

Lihat juga

Contoh danSplitPartition dan Sampel