Bagikan melalui


Menggunakan sampel himpunan data di Azure Machine Learning Studio (klasik)

BERLAKU UNTUK:Berlaku untuk.Machine Learning Studio (klasik) Tidak berlaku untuk. Azure Machine Learning

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Saat Anda membuat ruang kerja baru di Azure Machine Learning Studio (klasik), sejumlah himpunan data sampel dan eksperimen dimasukkan secara default. Banyak dari himpunan data sampel ini digunakan oleh model sampel di Galeri Azure AI. Lainnya termasuk sebagai contoh berbagai jenis data yang biasanya digunakan dalam pembelajaran mesin.

Beberapa himpunan data ini tersedia di penyimpanan Azure Blob. Untuk himpunan data ini, tabel berikut menyediakan tautan langsung. Anda dapat menggunakan himpunan data ini dalam eksperimen dengan menggunakan modul Impor Data.

Sisa himpunan data sampel ini tersedia di ruang kerja Anda di bawah Himpunan Data Tersimpan. Anda dapat menemukan ini di palet modul di sebelah kiri kanvas eksperimen di Azure Machine Learning Studio (klasik). Anda dapat menggunakan salah satu himpunan data ini dalam eksperimen sendiri dengan menyeretnya ke kanvas eksperimen.

Himpunan data

Nama himpunan data Deskripsi himpunan data
Himpunan data Klasifikasi Biner Pendapatan Sensus Dewasa Serangkaian database Sensus Tahun 1994, menggunakan orang dewasa yang bekerja di atas usia 16 tahun dengan indeks pendapatan yang disesuaikan > 100.

Penggunaan: Mengklasifikasi orang menggunakan demografi untuk memprediksi apakah seseorang mendapat penghasilan lebih dari 50K setahun.

Penelitian Terkait: Kohavi, R., Becker, B., (1996). Repositori Pembelajaran Mesin UCI https://archive.ics.uci.edu/ml. Irvine, CA: Universitas California, Sekolah Tinggi Informasi dan Ilmu Komputer
Himpunan Data Kode Bandara Kode bandara A.S.

Himpunan data ini memuat satu baris untuk setiap bandara A.S., menyediakan nomor ID bandara dan nama bersama kota dan negara bagian lokasi.
Data harga mobil (Mentah) Informasi tentang mobil dengan membuat dan model, termasuk harga, fitur seperti jumlah silinder dan MPG, serta skor risiko asuransi.

Skor risiko awalnya dikaitkan dengan harga otomatis. Lalu, disesuaikan untuk risiko aktual dalam proses yang disebut sebagai aktuaris sebagai simbol. Nilai +3 menunjukkan bahwa otomatis berisiko, dan nilai -3 berarti mungkin aman.

Penggunaan: Memprediksi skor risiko berdasarkan fitur, menggunakan regresi atau klasifikasi multivariat.

Penelitian Terkait: Schlimmer, J.C. (1987). Repositori Pembelajaran Mesin UCI https://archive.ics.uci.edu/ml. Irvine, CA: Universitas California, Sekolah Tinggi Informasi dan Ilmu Komputer
Himpunan data UCI Bike Rental Himpunan data UCI Bike Rental yang didasarkan pada data nyata perusahaan Capital Bikeshare yang mempertahankan jaringan penyewaan sepeda di Washington DC.

Himpunan data memiliki satu baris untuk setiap jam setiap hari pada tahun 2011 dan 2012, dengan total 17.379 baris. Kisaran penyewaan sepeda per jam mulai dari 1 hingga 977.
Gambar RGB Bill Gates File gambar yang tersedia secara publik dikonversi ke data CSV.

Kode untuk mengonversi gambar disediakan dalam kuantisasi Warna menggunakan halaman detail model pengklusteran K-Means.
Data donor darah Serangkaian data dari database donor darah Pusat Layanan Transfusi Darah Kota Hsin-Chu, Taiwan.

Data donor mencakup bulan sejak donor terakhir), dan frekuensi, atau jumlah total donor, waktu sejak donor terakhir, dan jumlah donor darah.

Penggunaan: Tujuannya adalah memprediksi melalui klasifikasi apakah pendonor mendonorkan darah pada bulan Maret tahun 2007, di mana 1 menunjukkan donor selama periode target, dan 0 menunjukkan tanpa donor.

Penelitian Terkait: Yeh, I.C., (2008). Repositori Pembelajaran Mesin UCI https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science

Yeh, I-Cheng, Yang, King-Jang, dan Ting, Tao-Ming, “Knowledge discovery on RFM model using Bernoulli sequence, “Expert Systems with Applications, 2008, https://dx.doi.org/10.1016/j.eswa.2008.07.018
Data kanker payudara Salah satu dari tiga himpunan data terkait kanker yang disediakan oleh Oncology Institute yang sering kali muncul dalam literatur pembelajaran mesin. Menggabungkan informasi diagnostik dengan fitur dari analisis laboratorium sekitar 300 sampel jaringan.

Penggunaan: Mengklasifikasikan jenis kanker, didasarkan pada 9 atribut, beberapa atribut bersifat linier dan beberapa atribut dikategorikan.

Penelitian Terkait: Wohlberg, W.H., Street, W.N., & Mangasarian, O.L. (1995). Repositori Pembelajaran Mesin UCI https://archive.ics.uci.edu/ml. Irvine, CA: Universitas California, Sekolah Tinggi Informasi dan Ilmu Komputer
Fitur Kanker Payudara Himpunan data memuat informasi untuk wilayah mencurigakan (calon) gambar sinar-X 102 ribu, masing-masing dijelaskan oleh 117 fitur. Fitur-fiturnya adalah hak milik dan maknanya tidak diungkapkan oleh pembuat himpunan data (Siemens Healthcare).
Info Kanker Payudara Himpunan data memuat informasi tambahan untuk setiap wilayah gambar sinar-X yang mencurigakan. Setiap contoh menyediakan informasi (contohnya, label, ID pasien, koordinat patch relatif terhadap seluruh gambar) tentang nomor baris yang sesuai dalam himpunan data Fitur Kanker Payudara. Setiap pasien memiliki sejumlah contoh. Untuk pasien yang mengidap kanker, beberapa contohnya bersifat positif dan ada juga yang bersifat negatif. Untuk pasien yang tidak mengidap kanker, semua contohnya bersifat negatif. Himpunan data memiliki 102 ribu contoh. Himpunan datanya bersifat bias, 0,6% poin bersifat positif, sisanya bersifat negatif. Himpunan data tersedia oleh Siemens Healthcare.
Label Appetency CRM Dibagikan Label dari tantangan prediksi hubungan pelanggan KDD Cup Tahun 2009 (orange_small_train_appetency.labels).
Label Churn CRM Dibagikan Label dari tantangan prediksi hubungan pelanggan KDD Cup Tahun 2009 (orange_small_train_churn.labels).
Himpunan Data CRM Dibagikan Data ini berasal dari tantangan prediksi hubungan pelanggan KDD Cup Tahun 2009 (orange_small_train.data.zip).

Himpunan data memuat 50 ribu pelanggan dari perusahaan Telekomunikasi Prancis Orange. Setiap pelanggan memiliki 230 fitur anonim, 190 fitur di antaranya bersifat numerik dan 40 fitur dikategorikan. Fiturnya sangat jarang.
Label Penjualan CRM Dibagikan Label dari tantangan prediksi hubungan pelanggan KDD Cup Tahun 2009 (orange_large_train_upselling.labels).
data Regresi Efisiensi Energi Kumpulan profil energi yang disimulasikan, didasarkan pada 12 bentuk bangunan yang berbeda. Bangunannya dibedakan dengan delapan fitur. Mencakup area kaca, distribusi area kaca, dan orientasi.

Penggunaan: Gunakan regresi atau klasifikasi untuk memprediksi peringkat efisiensi energi berdasarkan salah satu dari dua respons nyata. Untuk klasifikasi beberapa kelas, bulatkan variabel respons ke bilangan bulat terdekat.

Penelitian Terkait: Xifara, A. & Tsanas, A. (2012). Repositori Pembelajaran Mesin UCI https://archive.ics.uci.edu/ml. Irvine, CA: Universitas California, Sekolah Tinggi Informasi dan Ilmu Komputer
Data Keterlambatan Penerbangan Data performa penerbangan penumpang tepat waktu yang diambil dari kumpulan data TranStats dari Departemen Transportasi A.S. (Tepat Waktu).

Himpunan data mencakup periode waktu April-Oktober Tahun 2013. Sebelum mengunggah ke Azure Machine Learning Studio (klasik), himpunan data diproses sebagai berikut:
  • Himpunan data difilter hanya untuk mencakup 70 bandara tersibuk di benua AS
  • Penerbangan yang dibatalkan diberi label sebagai tertunda lebih dari 15 menit
  • Penerbangan yang dialihkan akan difilter
  • Kolom berikut dipilih: Tahun, Bulan, DayofMonth, DayOfWeek, Operator, OriginAirportID, DestAirportID, CRSDepTime, DepDelay, DepDel15, CRSArrTime, ArrDelay, ArrDel15, Dibatalkan
Performa penerbangan tepat waktu (Mentah) Catatan kedatangan dan keberangkatan penerbangan pesawat di Amerika Serikat mulai Oktober Tahun 2011.

Penggunaan: Memprediksi keterlambatan penerbangan.

Penelitian Terkait: Dari Departemen Transportasi AS https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time.
Data kebakaran hutan Terdiri atas data cuaca, seperti indeks suhu dan kelembaban serta kecepatan angin. Data tersebut diambil dari daerah timur laut Portugal, dikombinasikan dengan catatan kebakaran hutan.

Penggunaan: Inilah tugas regresi yang sulit, yang bertujuan untuk memprediksi daerah kebakaran hutan yang terbakar.

Penelitian Terkait: Cortez, P., & Morais, A. (2008). Repositori Pembelajaran Mesin UCI https://archive.ics.uci.edu/ml. Irvine, CA: Universitas California, Sekolah Tinggi Informasi dan Ilmu Komputer

[Cortez dan Morais, 2007] P. Cortez dan A. Morais. Pendekatan Penggalian Data untuk Memprediksi Kebakaran Hutan menggunakan Data Meteorologi. Dalam J. Neves, M. F. Santos dan J. Machado Eds., Tren Baru dalam Kecerdasan Buatan, Prosiding EPIA ke-13 2007 - Konferensi Portugis tentang Kecerdasan Buatan, Desember, Guimarães, Portugal, hlm. 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9. Tersedia di: http://www.dsi.uminho.pt/~pcortez/fires.pdf.
Himpunan data UCI Kartu Kredit Jerman Himpunan data UCI Statlog (Kartu Kredit Jerman) (Statlog+German+Credit+Data), menggunakan file german.data.

Himpunan data mengklasifikasikan orang, yang dijelaskan melalui sekumpulan atribut, sebagai risiko kredit rendah atau tinggi. Setiap contoh mewakili seseorang. Ada 20 fitur, baik numerik maupun kategoris, dan label biner (nilai risiko kredit). Entri risiko kredit yang tinggi memiliki label = 2, entri risiko kredit yang rendah memiliki label = 1. Biaya salah mengklasifikasikan contoh risiko rendah setinggi 1, sedangkan biaya salah mengklasifikasikan contoh risiko tinggi serendah 5.
Judul Film IMDB Himpunan data terdiri atas informasi tentang film yang dinilai dalam tweet Twitter: ID film IMDB, nama film, genre, dan tahun produksi. Ada 17 ribu film dalam himpunan data. Himpunan data diperkenalkan dalam makalah “S. Dooms, T. De Pessemier dan L. Martens. MovieTweetings: Himpunan Data Rating Film yang Dikumpulkan Dari Twitter. Workshop on Crowdsourcing and Human Computation for Recommender Systems, CrowdRec at RecSys 2013.”
Iris dua data kelas Mungkin database yang paling dikenal untuk ditemukan dalam literatur pengenalan pola. Himpunan data relatif kecil, terdiri atas masing-masing 50 contoh pengukuran kelopak dari tiga varietas iris.

Penggunaan: Memprediksi jenis iris dari pengukuran.

Penelitian Terkait: Fisher, R.A. (1988). Repositori Pembelajaran Mesin UCI https://archive.ics.uci.edu/ml. Irvine, CA: Universitas California, Sekolah Tinggi Informasi dan Ilmu Komputer
Tweet Film Himpunan data adalah versi tambahan dari himpunan data Movie Tweetings. Himpunan data memiliki peringkat 170 ribu untuk film, diekstrak dari tweet terstruktur dengan baik di Twitter. Setiap instans mewakili tweet dan merupakan tupel: ID pengguna, ID film IMDB, peringkat, tanda waktu, jumlah favorit untuk tweet ini, dan jumlah retweet dari tweet ini. Himpunan data tersedia oleh A. Said, S. Dooms, B. Loni and D. Tikk untuk Recommender Systems Challenge 2014.
Data MPG untuk berbagai mobil Himpunan data ini adalah versi yang sedikit dimodifikasi dari himpunan data yang disediakan oleh perpustakaan StatLib dari Universitas Carnegie Mellon. Himpunan data digunakan dalam 1983 American Statistical Association Exposition.

Data ini mencantumkan konsumsi bahan bakar untuk berbagai mobil dalam mil per galon. Selain itu, juga termasuk informasi seperti jumlah silinder, perpindahan mesin, tenaga kuda, total berat, dan akselerasi.

Penggunaan: Memprediksi penghematan bahan bakar didasarkan pada tiga atribut diskrit beberapa nilai dan lima atribut berkelanjutan.

Penelitian Terkait: StatLib, Universitas Carnegie Mellon, (1993). Repositori Pembelajaran Mesin UCI https://archive.ics.uci.edu/ml. Irvine, CA: Universitas California, Sekolah Tinggi Informasi dan Ilmu Komputer
Himpunan data Klasifikasi Biner Diabetes Pima Indians Serangkaian data dari database National Institute of Diabetes and Digestive and Kidney Diseases. Himpunan data difilter untuk berfokus pada pasien wanita peninggalan India Pima. Data tersebut mencakup data medis seperti kadar glukosa dan insulin, serta faktor gaya hidup.

Penggunaan: Memprediksi apakah subjek menderita diabetes (klasifikasi biner).

Penelitian Terkait: Sigillito, V. (1990). UCI Machine Learning Repository https://archive.ics.uci.edu/ml“. Irvine, CA: Universitas California, Sekolah Tinggi Informasi dan Ilmu Komputer
Data pelanggan restoran Serangkaian metadata tentang pelanggan, termasuk demografi dan preferensi.

Penggunaan: Gunakan himpunan data ini, dikombinasikan dengan dua himpunan data restoran lain, untuk melatih dan menguji sistem pemberi rekomendasi.

Penelitian Terkait: Bache, K. dan Lichman, M. (2013). Repositori Pembelajaran Mesin UCI https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information dan Computer Science.
Data fitur restoran Sekumpulan metadata tentang restoran dan fiturnya, seperti jenis makanan, gaya makan, dan lokasi.

Penggunaan: Gunakan himpunan data ini, dikombinasikan dengan dua himpunan data restoran lain, untuk melatih dan menguji sistem pemberi rekomendasi.

Penelitian Terkait: Bache, K. dan Lichman, M. (2013). Repositori Pembelajaran Mesin UCI https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information dan Computer Science.
Peringkat restoran Terdiri atas peringkat yang diberikan oleh pengguna ke restoran dalam skala 0 hingga 2.

Penggunaan: Gunakan himpunan data ini, dikombinasikan dengan dua himpunan data restoran lain, untuk melatih dan menguji sistem pemberi rekomendasi.

Penelitian Terkait: Bache, K. dan Lichman, M. (2013). Repositori Pembelajaran Mesin UCI https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information dan Computer Science.
Himpunan data beberapa kelas Anil Baja Himpunan data ini terdiri atas serangkaian catatan dari uji coba anil baja. Terdiri atas atribut fisik (lebar, ketebalan, jenis (kumparan, lembaran, dll.) dari jenis baja yang dihasilkan.

Penggunaan: Memprediksi salah satu dari dua atribut kelas numerik; kekerasan atau kekuatan. Anda juga dapat menganalisis korelasi di antara atribut.

Nilai baja mengikuti standar yang ditetapkan, didefinisikan oleh SAE dan organisasi lain. Anda mencari 'nilai' tertentu (variabel kelas) dan ingin memahami nilai yang dibutuhkan.

Penelitian Terkait: Sterling, D. & Buntine, W. (NA). Repositori Pembelajaran Mesin UCI https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science

Panduan yang berguna untuk nilai baja dapat ditemukan di sini: https://www.steamforum.com/pictures/Outokumpu-steel-grades-properties-global-standards.pdf
Data teleskop Catatan ledakan partikel gamma energi tinggi bersama dengan kebisingan latar belakang, keduanya disimulasikan menggunakan proses Monte Carlo.

Tujuan simulasi ini adalah meningkatkan keakuratan teleskop gamma Cherenkov atmosfer berbasis tanah. Dilakukan dengan menggunakan metode statistik untuk membedakan antara isyarat yang diinginkan (pancaran radiasi Cherenkov) dan kebisingan latar belakang (mandi hadronik yang diprakarsai sinar kosmik di atmosfer atas).

Data telah diproses sebelumnya untuk membuat kluster memanjang dengan sumbu panjang berorientasi ke arah pusat kamera. Karakteristik elips ini (sering kali disebut parameter Hillas) adalah salah satu parameter gambar yang dapat digunakan untuk diskriminasi.

Penggunaan: Memprediksi apakah gambar pancaran mewakili isyarat atau kebisingan latar belakang.

Catatan: Keakuratan klasifikasi sederhana tidak berarti untuk data ini, karena mengklasifikasikan peristiwa latar belakang sebagai isyarat lebih buruk daripada mengklasifikasikan peristiwa isyarat sebagai latar belakang. Untuk perbandingan pengklasifikasi yang berbeda, grafik ROC harus digunakan. Probabilitas menerima peristiwa latar belakang sebagai isyarat harus di bawah salah satu ambang batas berikut: 0,01, 0,02, 0,05, 0,1, atau 0,2.

Selain itu, perhatikan bahwa jumlah peristiwa latar belakang (h, untuk mandi hadronik) diabaikan. Dalam pengukuran nyata, kelas h atau kebisingan mewakili sebagian besar peristiwa.

Penelitian Terkait: Bock, R.K. (1995). Repositori Pembelajaran Mesin UCI https://archive.ics.uci.edu/ml. Irvine, CA: Universitas California, Sekolah Tinggi Informasi
Himpunan Data Cuaca Pengamatan cuaca berbasis darat per jam dari NOAA (data gabungan dari 201304 hingga 201310).

Data cuaca mencakup pengamatan yang terbuat dari stasiun cuaca bandara, yang mencakup periode April-Oktober Tahun 2013. Sebelum mengunggah ke Azure Machine Learning Studio (klasik), himpunan data diproses sebagai berikut:
  • ID stasiun cuaca dipetakan ke ID bandara yang sesuai
  • Stasiun cuaca yang tidak terkait dengan 70 bandara tersibuk difilter
  • Kolom Tanggal dibagi menjadi kolom Tahun, Bulan, dan Hari yang terpisah
  • Kolom berikut dipilih: AirportID, Tahun, Bulan, Hari, Waktu, TimeZone, SkyCondition, Visibilitas, WeatherType, DryBulbFarenheit, DryBulbCelsius, WetBulbFarenheit, WetBulbCelsius, DewPointFarenheit, DewPointCelsius, RelativeHumidity, WindSpeed, WindDirection, ValueForWindCharacter, StationPressure, PressureTendency, PressureChange, SeaLevelPressure, RecordType, HourlyPrecip, Altimeter
Himpunan Data Wikipedia SP 500 Data berasal dari Wikipedia (https://www.wikipedia.org/) didasarkan pada artikel masing-masing perusahaan S&P 500, disimpan sebagai data XML.

Sebelum mengunggah ke Azure Machine Learning Studio (klasik), himpunan data diproses sebagai berikut:
  • Mengekstrak konten teks untuk setiap perusahaan tertentu
  • Menghapus pemformatan wiki
  • Menghapus karakter non-alfanumerik
  • Mengonversi semua teks menjadi huruf kecil
  • Kategori perusahaan yang diketahui telah ditambahkan

Perhatikan bahwa untuk beberapa perusahaan, artikel tidak dapat ditemukan, sehingga jumlah catatan kurang dari 500.
direct_marketing.csv Himpunan data terdiri atas data pelanggan dan indikasi tentang tanggapan mereka terhadap kampanye pengiriman langsung. Setiap baris mewakili pelanggan. Himpunan data terdiri atas sembilan fitur tentang demografi pengguna dan perilaku sebelumnya, serta tiga kolom label (kunjungi, konversi, dan pengeluaran). Kunjungi adalah kolom biner yang menunjukkan pelanggan yang dikunjungi setelah kampanye pemasaran. Konversi menunjukkan pelanggan membeli sesuatu. Pengeluaran adalah jumlah yang dikeluarkan. Himpunan data tersedia oleh Kevin Hillstrom untuk MineThatData E-Mail Analytics And Data Mining Challenge.
lyrl2004_tokens_test.csv Fitur contoh pengujian dalam himpunan data berita Reuters RCV1-V2. Himpunan data memiliki 781 ribu artikel berita bersama ID mereka (kolom pertama himpunan data). Setiap artikel diberi token, dihentikan, dan dibendung. Himpunan data disediakan oleh David. D. Lewis.
lyrl2004_tokens_train.csv Fitur contoh pelatihan dalam himpunan data berita Reuters RCV1-V2. Himpunan data memiliki 23 ribu artikel berita bersama ID mereka (kolom pertama himpunan data). Setiap artikel diberi token, dihentikan, dan dibendung. Himpunan data disediakan oleh David. D. Lewis.
network_intrusion_detection.csv
Himpunan data dari Kompetisi Penemuan Pengetahuan dan Alat Penggalian Data KDD Cup Tahun 1999 (kddcup99.html).

Himpunan data diunduh dan disimpan di penyimpanan Azure Blob (network_intrusion_detection.csv) dan mencakup himpunan data pelatihan dan pengujian. Himpunan data pelatihan memiliki sekitar 126 ribu baris dan 43 kolom, termasuk label. Tiga kolom adalah bagian dari informasi label, dan 40 kolom, yang terdiri atas fitur numerik dan string/kategoris, tersedia untuk melatih model. Data pengujian memiliki sekitar 22,5 ribu contoh pengujian dengan 43 kolom yang sama seperti dalam data pelatihan.
rcv1-v2.topics.qrels.csv Penetapan topik untuk artikel berita di himpunan data berita Reuters RCV1-V2. Artikel berita dapat ditetapkan ke beberapa topik. Format setiap baris adalah "<nama topik><id dokumen> 1". Himpunan data terdiri atas penetapan 2,6 juta topik. Himpunan data disediakan oleh David. D. Lewis.
student_performance.txt Data ini berasal dari tantangan evaluasi performa Siswa KDD Cup Tahun 2010 (evaluasi kinerja siswa). Data yang digunakan adalah training set Aljabar_2008_2009 (Stamper, J., Niculescu-Mizil, A., Ritter, S., Gordon, G.J., & Koedinger, K.R. (2010). Algebra I 2008-2009. Challenge dataset dari KDD Cup 2010 Educational Data Mining Challenge. Temukan di downloads.jsp.

Himpunan data diunduh dan disimpan di penyimpanan Azure Blob (student_performance.txt) dan terdiri atas file log dari sistem bimbingan belajar siswa. Fitur yang disediakan mencakup ID masalah dan deskripsi singkat, ID siswa, tanda waktu, dan jumlah upaya yang dilakukan siswa sebelum menyelesaikan masalah dengan cara yang benar. Himpunan data asli memiliki 8,9 juta catatan; himpunan data ini sampelnya tidak berfungsi pada 100 ribu baris pertama. Himpunan data memiliki 23 kolom terpisah tab dari berbagai jenis: numerik, kategoris, dan tanda waktu.

Langkah berikutnya