Bagikan melalui


Pisahkan Data

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Mempartisi baris himpunan data menjadi dua set yang berbeda

Kategori: Transformasi Data / Sampel dan Split

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Ringkasan Modul

Topik ini menjelaskan cara menggunakan modul Split Data di Pembelajaran Mesin Studio (klasik), untuk membagi himpunan data menjadi dua set yang berbeda.

Modul ini sangat berguna ketika Anda perlu memisahkan data ke dalam set pelatihan dan pengujian. Anda dapat menyesuaikan cara data dibagi juga. Beberapa opsi mendukung pengacakan data; lainnya disesuaikan untuk tipe data atau jenis model tertentu.

Cara mengonfigurasi Data Terpisah

Tip

Sebelum memilih mode pemisahan, baca semua opsi untuk menentukan jenis split yang Anda butuhkan. Jika Anda mengubah mode pemisahan, semua opsi lain dapat diatur ulang.

  1. Tambahkan modul Pisahkan Data ke eksperimen Anda di studio. Anda dapat menemukan modul ini di bawah Transformasi Data, dalam kategori Sampel dan Pemisahan.

  2. Mode pemisahan: Pilih salah satu mode berikut, tergantung pada jenis data yang Anda miliki, dan bagaimana Anda ingin membaginya. Setiap mode pemisah memiliki opsi yang berbeda. Klik topik berikut untuk instruksi dan contoh terperinci.

    • Baris terpisah: Gunakan opsi ini jika Anda hanya ingin membagi data menjadi dua bagian. Anda dapat menentukan persentase data yang akan dimasukkan ke dalam setiap split, tetapi secara default, data dibagi 50-50.

      Anda juga dapat mengacak pilihan baris di setiap grup, dan menggunakan pengambilan sampel bertingkat. Dalam pengambilan sampel bertingkat, Anda harus memilih satu kolom data yang Anda inginkan agar nilainya dibagi secara merata di antara dua himpunan data hasil.

    • Recommender Split: Selalu pilih opsi ini jika Anda menyiapkan data untuk digunakan dalam sistem rekomendasi. Ini membantu Anda membagi kumpulan data ke dalam kelompok pelatihan dan pengujian sambil memastikan bahwa nilai-nilai penting seperti pasangan atau peringkat item pengguna dibagi secara merata di antara grup.

    • Pemisahan Ekspresi Reguler: Pilih opsi ini saat Anda ingin membagi himpunan data Anda dengan menguji satu kolom untuk satu nilai.

      Misalnya, jika Anda menganalisis sentimen, Anda dapat memeriksa keberadaan nama produk tertentu di bidang teks, dan kemudian membagi dataset menjadi baris dengan nama produk target, dan yang tidak.

    • Pemisahan Ekspresi Relatif: Gunakan opsi ini kapan pun Anda ingin menerapkan kondisi ke kolom angka. Angka tersebut bisa menjadi bidang tanggal / waktu, kolom yang berisi jumlah usia atau dolar, atau bahkan persentase. Misalnya, Anda mungkin ingin membagi kumpulan data anda tergantung pada biaya item, mengelompokkan orang berdasarkan rentang usia, atau data terpisah berdasarkan tanggal kalender.

Persyaratan

  • Data Terpisah dapat membuat maksimum dua set himpunan data sekaligus, dan set tersebut harus eksklusif.

    Oleh karena itu, jika Anda memiliki pemisahan yang kompleks dengan beberapa kondisi dan output, Anda mungkin perlu merantai bersama beberapa modul Data Terpisah .

    Atau, Anda dapat menggunakan pernyataan CASE dan modul Terapkan transformasi SQL.

  • Modul ini tidak menghapus data atau menghapusnya dari himpunan data; itu hanya membagi data seperti yang ditentukan di antara output pertama dan kedua modul.

  • Memisahkan data untuk sistem rekomendasi memerlukan beberapa persyaratan tambahan. Secara umum, himpunan data hanya dapat terdiri dari pasangan item pengguna atau peringkat item pengguna tiga kali lipat. Oleh karena itu, modul Split Data tidak dapat bekerja pada himpunan data yang memiliki lebih dari tiga kolom, untuk menghindari kebingungan dengan data tipe fitur. Jika himpunan data Anda berisi terlalu banyak kolom, Anda mungkin mendapatkan kesalahan ini:

    Kesalahan 0022: Jumlah kolom yang dipilih dalam himpunan data input tidak sama dengan x

    Sebagai solusinya, Anda dapat menggunakan Pilih Kolom dalam Himpunan Data untuk menghapus beberapa kolom, lalu menambahkan kolom nanti menggunakan Tambahkan Kolom. Atau, jika himpunan data Anda memiliki banyak fitur yang ingin Anda gunakan dalam model, bagi himpunan data menggunakan opsi yang berbeda, dan latih model menggunakan Train Model daripada Train Matchbox Recommender.

Contoh

Untuk contoh bagaimana modul Data Terpisah digunakan, lihat Galeri AI Azure:

  • Validasi Silang untuk Klasifikasi Biner: Himpunan Data Dewasa: Tingkat pengambilan sampel 20% diterapkan untuk membuat himpunan data sampel acak yang lebih kecil. (Dataset sensus asli memiliki lebih dari 30.000 baris; dataset pelatihan memiliki sekitar 6500). Himpunan data dibersihkan untuk nilai yang hilang dan kemudian diteruskan ke lima model berbeda untuk pelatihan dan validasi silang.

Catatan teknis

Persyaratan berikut berlaku untuk semua penggunaan Data Terpisah:

  • Himpunan data input harus berisi setidaknya dua baris, atau kesalahan dinaikkan.
  • Jika Anda menggunakan opsi untuk menentukan jumlah baris yang diinginkan, angka yang ditentukan harus berupa bilangan bulat positif, dan jumlahnya harus kurang dari jumlah total baris dalam himpunan data.
  • Jika Anda menentukan angka sebagai persentase, atau jika Anda menggunakan string yang berisi karakter "%", nilai tersebut ditafsirkan sebagai persentase. Semua nilai persentase harus dalam kisaran (0, 100), tidak termasuk nilai 0 dan 100.
  • Jika Anda menentukan angka atau persentase yang merupakan angka titik mengambang kurang dari satu, dan Anda tidak menggunakan simbol persen (%), angka tersebut ditafsirkan sebagai nilai proporsional.
  • Jika Anda menggunakan opsi untuk pemisahan bertingkat, himpunan data output dapat dibagi lagi dengan subkelompok, dengan memilih kolom strata.

Input yang diharapkan

Nama Jenis Deskripsi
Himpunan Data Tabel Data Himpunan data untuk dipisah

Parameter modul

Nama Jenis Rentang Opsional Deskripsi Default
Mode pemisahan Mode pisahkan Pisahkan Baris, Pemisahan Rekomendasi, Ekspresi Reguler, atau Ekspresi Relatif Diperlukan Pisahkan Baris Pilih metode untuk memisahkan himpunan data

Output

Nama Jenis Deskripsi
Hasil dataset1 Tabel Data Himpunan data yang berisi baris yang dipilih
Hasil dataset2 Tabel Data Himpunan data yang berisi semua baris lainnya

Lihat juga

Sampel dan Split
Partisi dan Sampel
Daftar Modul A-Z