Bagikan melalui


Bergabung dengan Data

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Bergabung dengan dua himpunan data

Kategori: Transformasi / Manipulasi Data

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Ringkasan Modul

Artikel ini menjelaskan cara menggunakan modul Join Data di Pembelajaran Mesin Studio (klasik) untuk menggabungkan dua himpunan data menggunakan operasi gabungan gaya database.

Untuk melakukan gabungan pada dua himpunan data, mereka harus dihubungkan oleh satu kolom kunci. Kunci komposit tidak didukung.

Cara mengonfigurasi Data Gabungan

  1. Di Pembelajaran Mesin Studio (klasik), tambahkan himpunan data yang ingin Anda gabungkan, lalu seret modul Join Data ke dalam eksperimen Anda.

    Anda dapat menemukan modul dalam kategori Transformasi Data di bagian Manipulasi.

  2. Sambungkan himpunan data ke modul Data Gabungan.

    Modul Join Data tidak mendukung gabungan luar kanan, jadi jika Anda ingin memastikan bahwa baris dari himpunan data tertentu disertakan dalam output, himpunan data tersebut harus berada di input kiri.

  3. Klik Luncurkan pemilih kolom untuk memilih satu kolom kunci untuk himpunan data di input kiri.

  4. Klik Luncurkan pemilih kolom untuk memilih satu kolom kunci untuk himpunan data pada input yang tepat.

  5. Pilih opsi Cocokkan kasus jika Anda bergabung di kolom teks dan ingin memastikan bahwa gabungan mempertahankan sensitivitas kasus.

    Misalnya, jika Anda memilih opsi ini, A1000 akan dianggap sebagai nilai kunci yang berbeda dari a1000.

    Jika Anda membatalkan pilihan opsi ini, sensitivitas kasus tidak diberlakukan, dan A1000 akan dianggap sama a1000dengan .

  6. Gunakan daftar drop-down Tipe gabungan untuk menentukan cara himpunan data harus digabungkan. Jenis:

    • Inner Join: Gabungan batin adalah operasi gabungan yang khas. Operasi ini mengembalikan baris gabungan hanya saat nilai kolom kunci cocok.

    • Gabungan Kiri Luar: Gabungan kiri luar mengembalikan baris gabungan untuk semua baris dari tabel kiri. Ketika baris di tabel kiri tidak memiliki baris yang cocok di tabel kanan, baris yang dikembalikan berisi nilai yang hilang untuk semua kolom yang berasal dari tabel kanan kecuali Anda menentukan nilai penggantian untuk nilai yang hilang.

    • Gabungan Luar Penuh: Gabungan luar penuh mengembalikan semua baris dari tabel kiri (table1) dan dari tabel kanan (table2).

      Untuk setiap baris di tabel kiri yang tidak memiliki baris yang cocok di tabel kanan, hasil gabungan menyertakan baris yang berisi nilai yang hilang dari tabel kanan.

      Untuk setiap baris di tabel kanan yang tidak memiliki baris yang cocok di tabel kiri, hasil gabungan menyertakan baris yang berisi nilai yang hilang untuk semua kolom dari tabel kiri.

    • Semi-Gabungan Kiri: Semi-gabungan kiri hanya mengembalikan nilai dari tabel kiri saat nilai kolom kunci cocok.

  7. Untuk opsi, Simpan colum kunci yang tepat di tabel gabungan:

    • Batalkan pilihan opsi untuk mendapatkan satu kolom kunci dalam hasil.
    • Biarkan opsi dipilih untuk melihat tombol dari kedua tabel input.
  8. Jalankan eksperimen, atau pilih modul Join Data dan Run Selected yang dipilih, untuk melakukan join.

  9. Untuk melihat hasilnya, klik kanan modul Gabung Data , pilih Kumpulan data Hasil, dan klik Visualisasikan.

Contoh

Anda dapat melihat contoh bagaimana modul ini digunakan di Galeri AI Azure:

Catatan teknis

Bagian ini menjelaskan detail implementasi, dan jawaban atas beberapa pertanyaan yang sering diajukan.

Batasan

  • Himpunan data gabungan tidak dapat memiliki dua kolom dengan nama yang sama. Jika himpunan data kiri dan kanan memiliki nama kolom duplikat, akhiran numerik ditambahkan ke nama kolom himpunan data kanan untuk membuatnya unik.

    Misalnya, jika kedua himpunan data memiliki kolom bernama Bulan, kolom dari himpunan data kiri akan tetap seperti apa adanya, dan kolom dari himpunan data kanan akan diganti namanya menjadi Bulan (1).

  • Algoritma yang digunakan untuk perbandingan nilai kunci adalah hash-forced.

  • Setiap kolom himpunan data yang bergabung mempertahankan tipe kategoris, jika kolom yang sesuai dari himpunan data input adalah kategoris.

  • Di gabungan luar kiri, jika ada nilai yang hilang, level kategoris dibuat di himpunan data kiri untuk nilai yang hilang. Ini benar bahkan jika tidak ada nilai yang hilang dalam himpunan data gabungan (kanan).

Bagaimana cara bergabung dengan tabel pada kunci komposit?

Jika Anda perlu bergabung dengan tabel yang menggunakan kunci komposit (yaitu, kunci utama bergantung pada dua kolom independen), gunakan modul seperti berikut untuk menggabungkan isi dari dua kolom kunci:

  • Jalankan skrip R

    Misalnya, gunakan kode seperti follwing di dalam skrip R untuk menggabungkan kolom pertama dan kedua dari dataframe input menggunakan tanda hubung sebagai pemisah. paste(inputdf$Col1,inputdf$Col2,sep="-")

  • Terapkan Transformasi SQL

    Operator gabungan di SQLite adalah ||.

Bagaimana cara bergabung dengan tabel yang tidak memiliki kunci?

Jika himpunan data Anda tidak memiliki kolom kunci, Anda masih dapat menggabungkannya dengan himpunan data lain, baik dengan membuat kunci, atau dengan menggunakan modul Tambahkan Kolom .

Modul Tambahkan Kolom berperilaku seperti R, dan dapat menggabungkan dua himpunan data berdasarkan baris demi baris, jika himpunan data memiliki jumlah baris yang sama. Kesalahan dinaikkan jika himpunan data memiliki ukuran yang berbeda.

Input yang diharapkan

Nama Jenis Deskripsi
Himpunan data1 Tabel Data Himpunan data pertama yang bergabung
Himpunan Data2 Tabel Data Himpunan data kedua untuk bergabung

Parameter modul

Nama Rentang Jenis Default Deskripsi
Bergabung dengan kolom kunci untuk L Semua Pilihan Kolom Pilih kolom tombol gabungan untuk himpunan data pertama.
Bergabung dengan kolom kunci untuk R Semua Pilihan Kolom Pilih kolom kunci gabungan untuk himpunan data kedua.
Kasus pertandingan Apa pun Boolean True Tunjukkan apakah perbandingan peka huruf besar/kecil diperbolehkan di kolom kunci.
Jenis gabungan Daftar Jenis Bergabung dalam Pilih tipe gabungan.
Simpan kolom kunci yang tepat di tabel gabungan Apa pun Boolean True Tunjukkan apakah akan menyimpan kolom kunci dari himpunan data kedua dalam himpunan data yang digabungkan.

Output

Nama Jenis Deskripsi
Kumpulan data hasil Tabel Data Hasil operasi gabungan

Pengecualian

Pengecualian Deskripsi
Kesalahan 0001 Pengecualian terjadi jika satu atau beberapa kolom tertentu dari himpunan data tidak dapat ditemukan.
Kesalahan 0003 Pengecualian terjadi jika satu atau beberapa input null atau kosong.
Kesalahan 0006 Pengecualian terjadi jika parameter lebih besar dari atau sama dengan nilai yang ditentukan.
Kesalahan 0016 Pengecualian terjadi jika himpunan data input yang diteruskan ke modul harus memiliki jenis kolom yang kompatibel, tetapi tidak.
Kesalahan 0017 Pengecualian terjadi jika satu atau beberapa kolom tertentu memiliki jenis yang tidak didukung oleh modul saat ini.
Kesalahan 0020 Pengecualian terjadi jika jumlah kolom di beberapa himpunan data yang diteruskan ke modul terlalu kecil.
Kesalahan 0028 Pengecualian terjadi ketika kumpulan kolom berisi nama kolom duplikat dan tidak diperbolehkan.
Kesalahan 0011 Pengecualian terjadi jika argumen untuk kumpulan kolom yang diteruskan tidak berlaku untuk kolom himpunan data apa pun.
Kesalahan 0027 Pengecualian terjadi ketika dua objek harus memiliki ukuran yang sama, tetapi tidak.

Untuk daftar kesalahan khusus untuk modul Studio (klasik), lihat Pembelajaran Mesin Kode kesalahan.

Untuk daftar pengecualian API, lihat Pembelajaran Mesin Kode Kesalahan REST API.

Lihat juga

Manipulasi
Transformasi Data
Daftar Modul A-Z