Partisi dan Sampel
Penting
Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.
Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.
- Lihat informasi tentang memindahkan proyek pembelajaran mesin dari ML Studio (klasik) ke Azure Machine Learning.
- Mer informasjon tentang Azure Machine Learning.
ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.
Membuat beberapa partisi himpunan data berdasarkan pengambilan sampel
Kategori: Transformasi Data / Sampel dan Split
Catatan
Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja
Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.
Ringkasan Modul
Artikel ini menjelaskan cara menggunakan modul Partisi dan Sampel di Pembelajaran Mesin Studio (klasik), untuk melakukan pengambilan sampel pada himpunan data atau untuk membuat partisi dari himpunan data Anda.
Pengambilan sampel adalah alat penting dalam pembelajaran mesin karena memungkinkan Anda mengurangi ukuran himpunan data sambil mempertahankan rasio nilai yang sama. Modul ini mendukung beberapa tugas terkait yang penting dalam pembelajaran mesin:
Membagi data Anda menjadi beberapa subbagian dengan ukuran yang sama.
Anda dapat menggunakan partisi untuk validasi silang, atau untuk menetapkan kasus ke grup acak.
Memisahkan data menjadi grup lalu bekerja dengan data dari grup tertentu.
Setelah menetapkan kasus secara acak ke grup yang berbeda, Anda mungkin perlu memodifikasi fitur yang hanya terkait dengan satu grup.
Pengambilan sampel.
Anda dapat mengekstrak persentase data, menerapkan pengambilan sampel acak, atau memilih kolom yang akan digunakan untuk menyeimbangkan himpunan data dan melakukan pengambilan sampel bertingkat pada nilainya.
Membuat himpunan data yang lebih kecil untuk pengujian.
Jika Anda memiliki banyak data, Anda mungkin ingin menggunakan hanya n baris pertama saat menyiapkan eksperimen, lalu beralih menggunakan himpunan data lengkap saat Anda membangun model Anda. Anda juga dapat menggunakan pengambilan sampel untuk membuat himpunan data yang lebih kecil untuk digunakan dalam pengembangan.
Cara mengkonfigurasi Partisi dan Sampel
Modul ini mendukung beberapa metode untuk membagi data Anda menjadi partisi atau untuk pengambilan sampel. Pilih metode terlebih dahulu, lalu atur opsi tambahan yang diperlukan oleh metode.
- Dapatkan jumlah baris teratas
Mendapatkan baris TOP N dari himpunan data
Gunakan mode ini untuk hanya mendapatkan baris n pertama. Opsi ini berguna jika Anda ingin menguji eksperimen pada sejumlah kecil baris, dan tidak perlu data diseimbangkan atau diambil sampelnya dengan cara apa pun.
Tambahkan modul Partisi dan Sampel ke eksperimen Anda di Studio (klasik), dan hubungkan himpunan data.
Mode partisi atau sampel: Atur opsi ini ke Kepala.
Jumlah baris yang akan dipilih: Ketik jumlah baris yang akan dikembalikan.
Jumlah baris yang Anda tentukan harus berupa bilangan bulat non-negatif. Jika jumlah baris yang dipilih lebih besar dari jumlah baris dalam himpunan data, seluruh himpunan data dikembalikan.
Jalankan eksperimen.
Modul ini mengeluarkan satu himpunan data yang hanya berisi jumlah baris yang ditentukan. Baris selalu dibaca dari bagian atas himpunan data.
Membuat sampel data
Opsi ini mendukung pengambilan sampel acak sederhana atau pengambilan sampel acak bertingkat. Ini berguna jika Anda ingin membuat himpunan data sampel representatif yang lebih kecil untuk pengujian.
Tambahkan modul Partisi dan Sampel ke eksperimen Anda di Studio (klasik), dan hubungkan himpunan data.
Mode partisi atau sampel: Atur ini ke Pengambilan Sampel.
Tingkat pengambilan sampel: Ketik nilai antara 0 dan 1. nilai ini menentukan persentase baris dari himpunan data sumber yang harus disertakan dalam himpunan data output.
Misalnya, jika Anda hanya ingin setengah dari himpunan data asli, ketik
0.5
untuk menunjukkan bahwa tingkat pengambilan sampel harus 50%.Baris himpunan data input dikocok dan dimasukkan secara selektif ke dalam himpunan data output, sesuai dengan rasio yang ditentukan.
Benih acak untuk pengambilan sampel: Secara opsional, ketik bilangan bulat untuk digunakan sebagai nilai benih.
Opsi ini penting jika Anda ingin baris dibagi dengan cara yang sama setiap saat. Nilai default adalah 0, yang berarti bahwa turunan awal dihasilkan berdasarkan jam sistem. Hal ini dapat menyebabkan hasil yang sedikit berbeda setiap kali Anda menjalankan percobaan.
Stratified split untuk pengambilan sampel: Pilih opsi ini jika penting bahwa baris dalam himpunan data harus dibagi secara merata oleh beberapa kolom kunci sebelum pengambilan sampel.
Untuk kolom kunci bertingkat untuk pengambilan sampel, pilih kolom strata tunggal untuk digunakan saat membagi himpunan data. Baris dalam himpunan data kemudian dibagi sebagai berikut:
Semua baris input dikelompokkan (distratifikasi) oleh nilai-nilai dalam kolom strata yang ditentukan.
Baris diacak dalam setiap grup.
Setiap grup ditambahkan secara selektif ke himpunan data output untuk memenuhi rasio yang ditentukan.
Untuk informasi selengkapnya tentang stratified sampling, lihat bagian Catatan teknis .
Jalankan eksperimen.
Dengan opsi ini, modul menghasilkan satu himpunan data yang berisi pengambilan sampel data yang representatif.
Bagian sisa himpunan data yang tidak tersampersi bukanlah output. Namun, Anda dapat membuat gabungan pada himpunan data, menggunakan modul Terapkan transformasi SQL, untuk menentukan baris mana yang tidak digunakan.
Memisahkan data menjadi partisi
Gunakan opsi ini saat Anda ingin membagi himpunan data menjadi sub-himpunan data. Opsi ini juga berguna ketika Anda ingin membuat jumlah pelipatan khusus untuk validasi silang, atau untuk membagi baris menjadi beberapa grup.
Tambahkan modul Partisi dan Sampel ke eksperimen Anda di Studio (klasik), dan hubungkan himpunan data.
Untuk Partisi atau mode sampel, pilih Tetapkan ke Lipatan.
Gunakan penggantian dalam partisi: Pilih opsi ini jika Anda ingin baris sampel dimasukkan kembali ke kumpulan baris untuk kemungkinan digunakan kembali. Akibatnya, baris yang sama mungkin ditetapkan ke beberapa kali lipatan.
Jika Anda tidak menggunakan penggantian (opsi default), baris sampel tidak dimasukkan kembali ke dalam kumpulan baris untuk penggunaan kembali yang potensial. Akibatnya, setiap baris hanya dapat ditetapkan satu kali lipatan.
Pemisahan acak: Pilih opsi ini jika Anda ingin baris ditetapkan secara acak ke lipatan.
Jika Anda tidak memilih opsi ini, baris ditetapkan ke lipatan menggunakan metode round-robin.
Benih acak: Secara opsional, ketik bilangan bulat untuk digunakan sebagai nilai benih. Opsi ini penting jika Anda ingin baris dibagi dengan cara yang sama setiap saat. Jika tidak, nilai default 0 berarti bahwa turunan awal acak akan digunakan.
Tentukan metode partitioner: Tunjukkan bagaimana Anda ingin data dibagi ke setiap partisi, menggunakan opsi ini:
Partisi secara merata: Gunakan opsi ini untuk menempatkan jumlah baris yang sama di setiap partisi. Untuk menentukan jumlah partisi output, ketik bilangan bulat dalam kotak Tentukan jumlah lipatan untuk dibagi secara merata menjadi kotak teks.
Partisi dengan proporsi yang dikustomisasi: Gunakan opsi ini untuk menentukan ukuran setiap partisi sebagai daftar yang dipisahkan koma.
Misalnya, jika Anda ingin membuat tiga partisi, dengan partisi pertama yang berisi 50% data, dan dua partisi sisanya masing-masing berisi 25% data, klik Kotak teks Daftar proporsi yang dipisahkan oleh koma , dan ketik angka-angka ini:
.5, .25, .25
Jumlah semua ukuran partisi harus berjumlah tepat 1.
Jika Anda memasukkan angka yang berjumlah kurang dari 1, partisi tambahan akan dibuat untuk menampung baris yang tersisa. Misalnya, jika Anda mengetik nilai .2 dan .3, partisi ketiga dibuat yang menyimpan sisa 50 persen dari semua baris.
Jika Anda memasukkan angka yang menambahkan hingga lebih dari 1, kesalahan akan muncul saat Anda menjalankan eksperimen.
Pemisahan bertingkat: Pilih opsi ini jika Anda ingin baris distratifikasi saat dipisah, lalu pilih kolom strata.
Untuk informasi selengkapnya tentang stratified sampling, lihat bagian Catatan teknis .
Jalankan eksperimen.
Dengan opsi ini, modul mengeluarkan beberapa himpunan data, dipartisi menggunakan aturan yang Anda tentukan.
Menggunakan data dari partisi yang telah ditentukan sebelumnya
Opsi ini digunakan ketika Anda telah membagi himpunan data menjadi beberapa partisi dan sekarang ingin memuat setiap partisi secara bergantian untuk analisis atau pemrosesan lebih lanjut.
Tambahkan modul Partisi dan Sampel ke eksperimen di Studio (klasik).
Koneksi ke output dari contoh Partisi dan Sampel sebelumnya. Instans tersebut harus menggunakan opsi Tetapkan ke Lipatan untuk menghasilkan sejumlah partisi.
Mode partisi atau sampel: Pilih Pilih Lipatan.
Tentukan lipatan mana yang akan dicicipi: Pilih partisi yang akan digunakan dengan mengetikkan indeksnya. Indeks partisi berbasis 1. Misalnya, jika Anda membagi himpunan data menjadi tiga bagian, partisi akan memiliki indeks 1, 2, dan 3.
Jika Anda mengetik nilai indeks yang tidak valid, kesalahan waktu desain dinaikkan: "Kesalahan 0018: Himpunan data berisi data yang tidak valid."
Selain mengelompokkan himpunan data berdasarkan lipatan, Anda dapat memisahkan himpunan data menjadi dua grup: lipatan target, dan yang lainnya. Untuk melakukan ini, ketik indeks satu kali lipat, lalu pilih opsi, Pilih pelengkap lipatan yang dipilih, untuk mendapatkan semuanya kecuali data dalam lipatan yang ditentukan.
Jika Anda bekerja dengan beberapa partisi, Anda harus menambahkan instans tambahan modul Partisi dan Sampel untuk menangani setiap partisi.
Sebagai contoh, katakanlah pasien yang sebelumnya dipartisi menjadi lima lipatan menggunakan usia. Untuk bekerja dengan setiap lipatan individu, Anda memerlukan lima salinan modul Partisi dan Sampel , dan di masing-masing, Anda memilih lipatan yang berbeda.
Tip
Percobaan sampel, Split Partition dan Sample, menunjukkan teknik ini.
Jalankan eksperimen.
Dengan opsi ini, modul mengeluarkan satu himpunan data yang hanya berisi baris yang ditetapkan ke lipatan itu.
Catatan
Anda tidak dapat melihat sebutan lipatan secara langsung; mereka hanya ada dalam metadata.
Contoh
Untuk contoh bagaimana modul ini digunakan, lihat Galeri AI Azure:
Validasi Silang untuk Klasifikasi Biner: Tingkat pengambilan sampel 20% diterapkan untuk membuat himpunan data sampel acak yang lebih kecil. Dataset sensus asli memiliki lebih dari 30.000 baris; dataset sampel memiliki sekitar 6500.
Validasi Silang untuk Regresi: Data secara acak dan merata ditugaskan ke lima lipatan, tanpa stratifikasi, dan hasilnya digunakan untuk validasi silang.
Split Partition and Sample: Menunjukkan beberapa cara untuk menggunakan partisi dan pengambilan sampel. Pertama, opsi Tetapkan ke Lipatan digunakan untuk menetapkan baris dalam himpunan data ke salah satu dari tiga grup berukuran merata. Kemudian, tiga contoh partisi dan sampel ditambahkan dengan menggunakan mode Pick Fold untuk menerapkan operasi ke subset data.
- Pada lipatan pertama (indeks 1), baris dibagi secara acak.
- Pada lipatan kedua (indeks 2), baris dibagi dengan pendidikan.
- Pada lipatan ketiga (indeks 3), baris dibagi berdasarkan usia.
Catatan teknis
Kolom stratifikasi harus di kategoris dengan nilai diskrit. Jika kolom belum kategoris dan Anda mendapatkan kesalahan, gunakan Edit Metadata untuk mengubah properti kolom.
Kolom strata yang Anda tentukan tidak dapat berisi data kontinu: yaitu, data numerik dengan nilai floating point di setiap sel. Jika tidak, modul tidak dapat memproses data dan mengembalikan kesalahan.
Alasannya adalah bahwa setiap kolom yang digunakan untuk stratifikasi harus memiliki seperangkat nilai yang mungkin terbatas. Jika kolom strata yang ditentukan berisi nilai floating point, dan kolom tersebut bukan dari kategoris tipe, kolom tersebut berpotensi berisi jumlah nilai yang tak terbatas.
Jika kolom strata berisi nilai Boolean dan Anda ingin mereka ditafsirkan sebagai kategoris, Anda harus menggunakan modul Edit Metadata untuk mengubah label metadata.
Jika kolom strata Anda berisi string atau data numerik dengan terlalu banyak nilai unik, kolom tersebut bukan kandidat yang baik untuk pengambilan sampel bertingkat.
Lebih lanjut tentang stratified sampling
Stratified sampling memastikan bahwa subset data memiliki sampel representatif dari kolom strata yang dipilih. Teknik ini berguna, misalnya, ketika Anda ingin memastikan bahwa data pelatihan Anda berisi distribusi nilai usia yang sama dengan yang dimiliki data pengujian atau sebaliknya. Atau Anda mungkin ingin mengangkangi kolom gender dalam studi perawatan kesehatan untuk memastikan bahwa pria dan wanita didistribusikan secara merata ketika data dipartisi. Stratifikasi memastikan bahwa rasio nilai yang dipilih dipertahankan.
Anda menentukan nilai untuk memisahkan data dengan memilih satu kolom untuk berfungsi sebagai kolom strata.
Modul ini mensyaratkan bahwa kolom strata adalah kolom kategoris. Jika Anda ingin menggunakan kolom nilai integer untuk strata, ini adalah praktik terbaik untuk menetapkan tipe kategoris ke kolom ini. Anda dapat melakukan ini melalui skema data sebelum menambahkannya ke Pembelajaran Mesin Studio (klasik), atau Anda dapat memperbarui metadata kolom dengan menggunakan Edit Metadata.
Kolom dengan data kontinu (yaitu, data numerik dengan nilai floating point di setiap sel) tidak dapat digunakan sebagai kolom strata. Jika Anda mendapatkan kesalahan, Anda dapat menggunakan Data Grup ke dalam Tempat Sampah untuk memasukkan nilai ke dalam rentang diskrit, lalu menggunakan Edit Metadata untuk menjamin bahwa kolom akan diperlakukan sebagai kategoris.
Input yang diharapkan
Nama | Jenis | Deskripsi |
---|---|---|
Himpunan Data | Tabel Data | Himpunan data yang akan dibagi |
Parameter modul
Nama | Rentang | Jenis | Default | Deskripsi |
---|---|---|---|---|
Mode partisi atau sampel | Daftar | Metode pengambilan sampel | Pengambilan sampel | Pilih mode partisi atau pengambilan sampel |
Gunakan penggantian dalam partisi | Apa pun | Boolean | Salah | Tunjukkan apakah lipatan harus terputus-putus (default - tidak ada penggantian) atau tumpang tindih (penggantian penggunaan benar) |
Pemisahan acak | Apa pun | Boolean | True | Menunjukkan apakah split adalah acak |
Benih acak | Apa pun | Bilangan bulat | 0 | Tentukan benih untuk generator angka acak |
Tentukan metode partitioner | Daftar | Metode partisi | Partisi secara merata | Pilih Partisi Secara Merata untuk dipartisi menjadi lipatan dengan ukuran yang sama, atau Partisi dengan proporsi yang disesuaikan untuk dipartisi menjadi lipatan dengan ukuran yang disesuaikan |
Tentukan jumlah lipatan untuk dibagi secara merata menjadi | >=1 | Bilangan bulat | 5 | Pilih sejumlah partisi untuk dibagi menjadi |
Perpecahan bertingkat | Daftar | Tipe True/False | Salah | Menunjukkan apakah split bertingkat |
Kolom kunci stratifikasi | Semua | Pilihan Kolom | Berisi kunci stratifikasi | |
Daftar proporsi yang dipisahkan oleh koma | Semua | String | Proporsi daftar, dipisahkan oleh koma | |
Stratified split untuk penugasan lipatan yang disesuaikan | Semua | Tipe True/False | Salah | Tunjukkan apakah pemisahan dikelompokkan untuk tugas lipatan yang disesuaikan |
Kolom kunci stratifikasi untuk penetapan lipatan yang disesuaikan | Semua | Pilihan Kolom | Berisi kunci stratifikasi untuk tugas lipatan yang disesuaikan | |
Tentukan lipatan mana yang akan diambil sampelnya | >=1 | Bilangan bulat | 1 | Berisi indeks lipatan yang akan dicicipi |
Pilih pelengkap lipatan yang dipilih | Apa pun | Boolean | Salah | Pilih pelengkap lipatan yang ditentukan |
Tingkat pengambilan sampel | Semua | Mengambang | 0.01 | Pilih laju pengambilan sampel |
Benih acak untuk pengambilan sampel | Apa pun | Bilangan bulat | 0 | Tentukan benih untuk generator angka acak untuk pengambilan sampel |
Stratified split untuk pengambilan sampel | Semua | True/False | Salah | Menunjukkan apakah split bertingkat untuk pengambilan sampel |
Kolom kunci stratifikasi untuk pengambilan sampel | Semua | Pilihan Kolom | Berisi kunci stratifikasi untuk pengambilan sampel | |
Jumlah baris yang akan dipilih | >=0 | Bilangan bulat | 10 | Pilih jumlah maksimum catatan yang akan diizinkan untuk diteruskan ke modul berikutnya |
Output
Nama | Jenis | Deskripsi |
---|---|---|
oDataset | Tabel Data | Himpunan data yang dihasilkan dari split |
Lihat juga
Sampel dan Split
Memisahkan Data
Mengedit Metadata
Mengelompokkan Data ke dalam Bin