Pilih Kolom di Set Data

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Memilih kolom untuk disertakan atau dikecualikan dari himpunan data dalam operasi

Kategori: Transformasi / Manipulasi Data

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Ringkasan Modul

Artikel ini menjelaskan cara menggunakan modul Pilih Kolom dalam Himpunan Data di Pembelajaran Mesin Studio (klasik), untuk memilih subset kolom yang akan digunakan dalam operasi hilir. Modul tidak secara fisik menghapus kolom dari himpunan data sumber; sebagai gantinya, ia membuat subkumpulan kolom seperti tampilan database atau proyeksi.

Modul ini sangat berguna ketika Anda perlu membatasi kolom yang tersedia untuk operasi hilir, atau jika Anda ingin mengurangi ukuran himpunan data dengan menghapus kolom yang tidak dibutuhkan.

Kolom dalam himpunan data adalah output dalam urutan yang sama seperti dalam data asli, bahkan jika Anda menentukannya dalam urutan yang berbeda.

Cara menggunakan Pilih Kolom dalam Himpunan Data

Modul ini tidak memiliki parameter. Anda menggunakan pemilih kolom untuk memilih kolom untuk disertakan atau dikecualikan.

Memilih kolom menurut nama

Ada beberapa opsi dalam modul untuk memilih kolom menurut nama:

  • Memfilter dan mencari

    Klik opsi MENURUT NAMA.

    Jika Anda telah menyambungkan himpunan data yang sudah diisi, daftar kolom yang tersedia akan muncul. Jika tidak ada kolom yang muncul, Anda mungkin perlu menjalankan modul hulu untuk melihat daftar kolom.

    Untuk memfilter daftar, ketik di kotak pencarian. Misalnya, jika Anda mengetikkan huruf w dalam kotak pencarian, daftar akan difilter untuk memperlihatkan nama kolom yang berisi huruf w.

    Pilih kolom dan klik tombol panah kanan untuk memindahkan kolom yang dipilih ke daftar di panel kanan.

    • Untuk memilih rentang nama kolom berkelanjutan, tekan Shift + Klik.
    • Untuk menambahkan kolom individual ke pilihan, tekan Ctrl + Klik.

    Klik tombol tanda centang untuk menyimpan dan menutup.

  • Menggunakan nama bersama dengan aturan lain

    Klik opsi DENGAN ATURAN.

    Pilih aturan, seperti memperlihatkan kolom jenis data tertentu.

    Lalu, klik kolom individual dari jenis tersebut menurut nama untuk menambahkannya ke daftar pilihan.

  • Mengetikkan atau menempelkan daftar nama kolom yang dipisahkan koma

    Jika himpunan data Anda sangat luas, mungkin lebih mudah untuk menggunakan indeks atau daftar nama yang dihasilkan, daripada memilih kolom satu per satu. Dengan asumsi Anda telah menyiapkan daftar terlebih dahulu:

    1. Klik opsi DENGAN ATURAN.
    2. Pilih Tidak ada kolom, pilih Sertakan, lalu klik di dalam kotak teks dengan tanda seru merah.
    3. Tempel atau ketik daftar nama kolom yang dipisahkan koma dari nama kolom yang divalidasi sebelumnya. Anda tidak dapat menyimpan modul jika kolom memiliki nama yang tidak valid, jadi pastikan untuk memeriksa nama sebelumnya.

    Anda juga dapat menggunakan metode ini untuk menentukan daftar kolom menggunakan nilai indeksnya. Lihat bagian Contoh untuk tips tentang cara bekerja dengan indeks kolom.

Memilih menurut jenis

Jika Anda menggunakan opsi DENGAN ATURAN, Anda bisa menerapkan beberapa kondisi pada pilihan kolom. Misalnya, Anda mungkin hanya perlu mendapatkan kolom fitur dari jenis data numerik.

Opsi BEGIN WITH menentukan titik awal Anda dan sangat penting untuk memahami hasilnya.

  • Jika Anda memilih opsi SEMUA KOLOM, semua kolom akan ditambahkan ke daftar. Kemudian, Anda harus menggunakan opsi Kecualikan untuk menghapus kolom yang memenuhi kondisi tertentu.

    Misalnya, Anda mungkin mulai dengan semua kolom lalu menghapus kolom menurut nama atau menurut jenis.

  • Jika Anda memilih opsi TANPA KOLOM, daftar kolom akan kosong. Anda kemudian menentukan kondisi untuk menambahkan kolom ke daftar.

    Jika Anda menerapkan beberapa aturan, setiap kondisi berupa penambahan. Misalnya, Anda mulai tanpa kolom, lalu menambahkan aturan untuk mendapatkan semua kolom numerik. Dalam Himpunan data harga mobil, yang menghasilkan 16 kolom. Kemudian, Anda mengeklik tanda + untuk menambahkan kondisi baru dan pilih Sertakan semua fitur. Himpunan data yang dihasilkan mencakup semua kolom numerik, ditambah semua kolom fitur, termasuk beberapa kolom fitur untai (karakter).

Memilih menurut indeks kolom

Indeks kolom mengacu pada urutan kolom dalam himpunan data asli.

  • Kolom dijumlahkan secara berurutan mulai dari 1.
  • Untuk mendapatkan rentang kolom, gunakan tanda hubung.
  • Spesifikasi terbuka seperti 1- atau -3 tidak diperbolehkan.
  • Nilai indeks (atau nama kolom) duplikat tidak diperbolehkan dan mungkin akan mengakibatkan kesalahan.

Misalnya, dengan asumsi himpunan data Anda memiliki setidaknya delapan kolom, Anda dapat menempelkan salah satu contoh berikut untuk menampilkan beberapa kolom yang tidak berdekatan:

  • 8,1-4,6
  • 1,3-8
  • 1,3-6,4

contoh akhir tidak mengakibatkan kesalahan; namun, ia menampilkan intans tunggal kolom 4.

Untuk tips tambahan tentang bekerja dengan indeks kolom, lihat bagian Contoh .

Mengubah urutan kolom

Opsi Perbolehkan duplikat dan pertahankan urutan kolom dalam pilihan dimulai dengan daftar kosong dan menambahkan kolom yang Anda tentukan menurut nama atau menurut indeks. Tidak seperti opsi lain, yang selalu menampilkan kolom dalam "urutan alami", opsi ini menghasilkan kolom dalam urutan sesuai nama atau daftar yang Anda beri.

Misalnya, dalam himpunan data dengan kolom Col1, Col2, Col3, dan Col4, Anda dapat membalikkan urutan kolom dan tidak menyertakan kolom 2 dengan menentukan salah satu daftar berikut:

  • Col4, Col3, Col1
  • 4,3,1

Contoh

Untuk contoh cara menggunakan Pilih Kolom dalam Himpunan Data, lihat eksperimen sampel ini di Galeri Model:

Skenario umum untuk pemilihan kolom

Contoh berikut menjelaskan beberapa cara khas pengguna menerapkan Pilih Kolom dalam Himpunan Data dalam pembelajaran mesin, dan memberikan beberapa tips cara memilih kolom:

  • Saya ingin menghapus kolom teks dari himpunan data sehingga saya dapat menerapkan operasi matematika ke semua kolom numerik.

    Banyak operasi mengharuskan hanya kolom numerik yang ada dalam himpunan data. Anda dapat menghapus kolom sementara yang akan menyebabkan kesalahan, dengan mengecualikan teks dan mengecualikan kolom kategoris (angka yang mewakili kategori diskrit).

    1. Klik Luncurkan pemilih kolom.

    2. Untuk Mulai Dengan, pilih Semua kolom.

    3. Pilih opsi Kecualikan , pilih tipe kolom, lalu pilih String.

    4. Klik tanda plus (+) untuk menambahkan kondisi baru.

    5. Pilih opsi Kecualikan , pilih tipe kolom, lalu pilih Kategoris.

  • Saya perlu menerapkan pemilihan fitur hanya ke kolom fitur kategoris.

    Jika Anda perlu memisahkan kolom dari jenis yang serupa, Anda dapat menerapkan beberapa kondisi. Misalnya, fitur dapat berupa kategoris atau numerik, tetapi beberapa modul pemilihan fitur tidak mengizinkan bidang non-numerik, jadi pertama-tama Anda harus mendapatkan fitur, dan kemudian menambahkan kondisi untuk mendapatkan hanya fitur numerik.

    1. Klik Luncurkan pemilih kolom.

    2. Untuk Mulai Dengan, pilih Tidak ada kolom.

    3. Pilih opsi Sertakan , dan pilih semua fitur.

    4. Klik tanda plus (+) untuk menambahkan kondisi baru.

    5. Pilih opsi Sertakan , pilih tipe kolom, lalu pilih Kategoris.

  • Saya perlu menerapkan operasi normalisasi yang berbeda ke kolom numerik yang berbeda.

    Sebelum menerapkan operasi matematika, Anda mungkin perlu memisahkan bilangan bulat dari angka floating point, dan sebagainya. Untuk melakukan ini gunakan tipe data dan terapkan beberapa kondisi.

    1. Klik Luncurkan pemilih kolom.

    2. Untuk Mulai Dengan, pilih Tidak ada kolom.

    3. Pilih opsi Sertakan , pilih tipe kolom, lalu pilih Numerik.

    4. Klik tanda plus (+) untuk menambahkan kondisi baru.

    5. Pilih opsi Sertakan , pilih tipe kolom, lalu pilih tipe numerik yang tidak kompatibel dengan operasi hilir.

  • Ada terlalu banyak kolom untuk dipilih menggunakan pemilih.

    Seringkali, setelah mengimpor dataset, Anda menemukan bahwa ia memiliki banyak kolom yang tidak diperlukan untuk pemodelan. Namun, Anda ingin menyimpannya untuk output nanti, atau untuk mengidentifikasi kasus. Anda dapat melakukan ini dengan membagi dataset menjadi dua bagian (metadata, dan kolom yang digunakan untuk pemodelan) dan kemudian menggabungkan kembali kolom sesuai kebutuhan, dengan menggunakan Tambahkan Kolom.

    1. Klik Luncurkan pemilih kolom.

    2. Untuk Mulai Dengan, pilih Tidak ada kolom.

    3. Pilih opsi Sertakan , pilih tipe kolom, lalu pilih Fitur.

    4. Klik tanda plus (+) untuk menambahkan kondisi baru.

    5. Pilih opsi Sertakan , pilih tipe kolom, lalu pilih Label.

    6. Ulangi langkah-langkah ini, tetapi mulailah dengan semua kolom, lalu kecualikan kolom fitur dan label untuk membuat himpunan data hanya metadata.

  • Saya tidak tahu nilai indeks untuk kolom yang saya butuhkan.

    Jika hanya ada beberapa kolom dalam himpunan data Anda, Anda dapat menggunakan opsi Visualisasi untuk melihat 100 baris pertama dan kemudian mencari tahu kolom mana yang diindeks 1, 2, dan seterusnya.

    • Indeks di Pembelajaran Mesin mulai dari 1, sehingga kolom pertama selalu 1.

    • Untuk mendapatkan indeks kolom terakhir, lihat dua daftar kolom di Pemilih Kolom: KOLOM YANG TERSEDIA dan KOLOM YANG DIPILIH. Bilah abu-abu di bawah daftar kolom menampilkan jumlah kolom di setiap daftar. Jadi, jika 24 kolom tersedia dan dua kolom dipilih, ada total 26 kolom, dan indeks kolom akhir adalah 26.

    Pilihan lain untuk mengekstrak skema himpunan data Anda adalah dengan menggunakan modul Execute R Script untuk mendapatkan nama kolom dengan nomor indeks.

    1. Koneksi himpunan data Anda ke modul Execute R Script.

    2. Dalam modul, ketik skrip seperti berikut untuk mengeluarkan nama kolom. Garis yang dimulai dengan myindex menghasilkan urutan yang mewakili indeks secara berurutan.

      dataset1 <- maml.mapInputPort(1) # class: data.frame
      mycolnames <-names(dataset1);
      myindex <- seq(from = 1, to = length(mycolnames), by=1);
      outdata <- as.data.frame(cbind(myindex, mycolnames));
      maml.mapOutputPort("outdata"); 
      

    Hasil pada Dataset harga Mobil

    myindex mycolnames
    1 symboling
    2 kerugian yang dinormalisasi
    3 make

Catatan teknis

Jika Anda terbiasa dengan database relasional, modul ini membuat proyeksi data; oleh karena itu nama aslinya, kolom Project. Dalam istilah database, proyeksi adalah fungsi, seperti pernyataan Transact-SQL atau LINQ, yang mengambil data dalam format tabular sebagai input dan menghasilkan output terkait.

Dalam aljabar relasional, proyeksi adalah operasi unary, yang ditulis sebagai satu set nama atribut. Hasil proyeksi adalah kumpulan atribut tersebut, dengan atribut lain dibuang.

Input yang diharapkan

Nama Jenis Deskripsi
Himpunan Data Tabel Data Himpunan data input

Parameter modul

Nama Rentang Jenis Default Deskripsi
Pilih kolom apa pun Pilihan Kolom Pilih kolom untuk disimpan dalam himpunan data yang diproyeksikan.

Output

Nama Jenis Deskripsi
Kumpulan data hasil Tabel Data Himpunan data output

Pengecualian

Pengecualian Deskripsi
Kesalahan 0001 Pengecualian terjadi jika satu atau beberapa kolom tertentu dari himpunan data tidak dapat ditemukan.
Kesalahan 0003 Pengecualian terjadi jika satu atau beberapa himpunan data input null atau kosong.

Untuk daftar kesalahan khusus untuk modul Studio (klasik), lihat Pembelajaran Mesin Kode kesalahan.

Untuk daftar pengecualian API, lihat Pembelajaran Mesin Kode Kesalahan REST API.

Lihat juga

Manipulasi