Referensi: Ubuntu (Linux) Data Science Virtual Machine

Dokumen ini menyajikan daftar alat yang tersedia di Ubuntu Ilmu Data Virtual Machine (DSVM) Anda.

Pustaka pembelajaran mendalam

PyTorch

PyTorch adalah kerangka kerja komputasi ilmiah yang populer, dengan dukungan luas untuk algoritma pembelajaran mesin. Jika komputer Anda memiliki GPU bawaan, komputer dapat menggunakan GPU tersebut untuk mempercepat pembelajaran mendalam. PyTorch tersedia di py38_pytorch lingkungan.

H2O

H2O adalah platform pembelajaran mesin dan analitik prediktif yang cepat, dalam memori, dan terdistribusi. Paket Python diinstal pada lingkungan akar dan py35 Anaconda. Paket R juga terinstal.

Untuk membuka H2O dari baris perintah, jalankan java -jar /dsvm/tools/h2o/current/h2o.jar. Anda dapat mengonfigurasi berbagai opsi baris perintah yang tersedia. Telusuri ke UI web Alur untuk http://localhost:54321 memulai. JupyterHub menawarkan contoh notebook.

TensorFlow

TensorFlow adalah pustaka pembelajaran mendalam Google. Ini adalah pustaka perangkat lunak sumber terbuka untuk komputasi numerik yang menggunakan grafik aliran data. Jika komputer Anda memiliki GPU bawaan, GPU tersebut dapat menggunakan GPU tersebut untuk mempercepat pembelajaran mendalam. TensorFlow tersedia di lingkungan conda py38_tensorflow.

Python

Ilmu Data Virtual Machine (DSVM) memiliki beberapa lingkungan Python yang telah diinstal sebelumnya, dengan Python versi 3.8 atau Python versi 3.6. Jalankan conda env list di jendela terminal untuk melihat daftar lengkap lingkungan yang diinstal.

Jupyter

DSVM juga dilengkapi dengan Jupyter, berbagi kode, dan lingkungan analisis kode. Jupyter dipasang pada DSVM dalam rasa ini:

  • Jupyter Lab
  • Jupyter Notebook
  • Jupyter Hub

Untuk meluncurkan Jupyter Lab, buka Jupyter dari menu aplikasi, atau pilih ikon desktop. Anda juga dapat menjalankan jupyter lab dari baris perintah untuk membuka Jupyter Lab.

Untuk membuka buku catatan Jupyter, buka baris perintah dan jalankan jupyter notebook.

Untuk membuka Jupyter Hub, buka nama DNS https://< VM atau alamat> IP:8000/ di browser. Anda harus memberikan nama pengguna dan kata sandi Linux lokal Anda.

Catatan

Anda dapat mengabaikan peringatan sertifikat apa pun.

Catatan

Untuk gambar Ubuntu, Firewall Port 8000 dibuka secara default saat VM disediakan.

Apache Spark mandiri

Instans mandiri Apache Spark telah diinstal sebelumnya di Linux DSVM untuk membantu Anda mengembangkan aplikasi Spark secara lokal sebelum Anda menguji dan menyebarkan aplikasi tersebut pada kluster besar.

Anda bisa menjalankan program PySpark melalui kernel Jupyter. Saat Jupyter diluncurkan, pilih tombol Baru . Daftar kernel yang tersedia harus terlihat. Anda dapat membangun aplikasi Spark dengan bahasa Python jika Anda memilih kernel Spark - Python . Anda juga dapat menggunakan Python IDE - misalnya, VS. Kode atau PyCharm - untuk membangun program Spark Anda.

Dalam instans mandiri ini, tumpukan Spark berjalan di dalam program klien panggilan. Fitur ini membuatnya lebih cepat dan lebih mudah untuk memecahkan masalah, dibandingkan dengan pengembangan pada kluster Spark.

IDE dan editor

Anda memiliki pilihan beberapa editor kode, termasuk VS. Kode, PyCharm, IntelliJ, vi/Vim, atau Emacs.

VS.Code, PyCharm, dan IntelliJ adalah editor grafis. Untuk menggunakannya, Anda harus masuk ke desktop grafis. Anda membukanya dengan menggunakan pintasan menu desktop dan aplikasi.

Vim dan Emacs adalah editor berbasis teks. Di Emacs, paket add-on ESS memudahkan untuk bekerja dengan R dalam editor Emacs. Untuk informasi selengkapnya, kunjungi situs web ESS.

Database

Klien SQL grafis

SQuirrel SQL, klien SQL grafis, dapat terhubung ke berbagai database - misalnya, Microsoft SQL Server atau MySQL - dan menjalankan kueri SQL. Cara tercepat untuk membuka SQuirrel SQL adalah dengan menggunakan Menu Aplikasi dari sesi desktop grafis (misalnya melalui klien X2Go)

Sebelum penggunaan awal, siapkan driver dan alias database Anda. Anda dapat menemukan driver JDBC di /usr/share/java/jdbcdrivers.

Untuk informasi selengkapnya, kunjungi sumber daya SQuirrel SQL .

Alat baris perintah untuk mengakses Microsoft SQL Server

Paket driver ODBC untuk SQL Server juga menyertakan dua alat baris perintah:

  • bcp: Alat bcp menyalin data secara massal antara instans Microsoft SQL Server dan file data, dalam format yang ditentukan pengguna. Anda bisa menggunakan alat bcp untuk mengimpor baris baru dengan jumlah besar ke dalam tabel SQL Server, atau untuk mengekspor data dari tabel ke dalam file data. Untuk mengimpor data ke dalam tabel, Anda harus menggunakan file format yang dibuat untuk tabel tersebut. Anda harus memahami struktur tabel dan jenis data yang valid untuk kolomnya.

Untuk informasi selengkapnya, kunjungi Koneksi dengan bcp.

  • sqlcmd: Anda dapat memasukkan pernyataan Transact-SQL dengan alat sqlcmd. Anda juga bisa memasukkan prosedur sistem dan file skrip di prompt perintah. Alat ini menggunakan ODBC untuk menjalankan batch T-SQL.

    Untuk informasi selengkapnya, kunjungi Koneksi dengan sqlcmd.

    Catatan

    Ada beberapa perbedaan dalam alat ini antara versi platform Linux dan Windows-nya. Tinjau dokumentasi untuk detailnya.

Pustaka akses database

Pustaka R dan Python tersedia untuk akses database:

  • Di R, Anda dapat menggunakan paket dplyr RODBC untuk mengkueri atau menjalankan pernyataan SQL di server database
  • Di Python, pustaka pyodbc menyediakan akses database dengan ODBC sebagai lapisan yang mendasarinya

Alat Azure

Alat Azure ini diinstal pada VM:

  • Azure CLI: Anda bisa menggunakan antarmuka baris perintah di Azure untuk membuat dan mengelola sumber daya Azure melalui perintah shell. Untuk membuka alat Azure, masukkan bantuan azure. Untuk informasi selengkapnya, kunjungi halaman dokumentasi Azure CLI.

  • Azure Storage Explorer: Azure Storage Explorer adalah alat grafis yang dapat Anda gunakan untuk menelusuri objek yang Anda simpan di akun penyimpanan Azure Anda, dan untuk mengunggah dan mengunduh data ke dan dari blob Azure. Anda bisa mengakses Storage Explorer dari ikon pintasan desktop. Anda juga dapat membukanya dari perintah shell jika Anda memasukkan StorageExplorer. Anda harus masuk dari klien X2Go, atau menyiapkan penerusan X11.

  • Pustaka Azure: Ini adalah beberapa pustaka yang telah diinstal sebelumnya:

    • Python: Python menawarkan pustaka terkait Azure, azureml, pydocumentdb, dan pyodbc Azure. Dengan tiga pustaka pertama, Anda bisa mengakses layanan penyimpanan Azure, Azure Machine Learning, dan Azure Cosmos DB (database NoSQL di Azure). Pustaka keempat, pyodbc (bersama dengan driver Microsoft ODBC untuk SQL Server), memungkinkan akses ke SQL Server, Azure SQL Database, dan Azure Synapse Analytics dari Python melalui antarmuka ODBC. Masukkan daftar pip untuk melihat semua pustaka yang tercantum. Pastikan untuk menjalankan perintah ini di lingkungan Python 2.7 dan 3.5.
    • R: Azure Pembelajaran Mesin dan RODBC adalah pustaka terkait Azure di R.
    • Java: Direktori /dsvm/sdk/AzureSDKJava memiliki daftar pustaka Azure Java dapat ditemukan di direktori /dsvm/sdk/AzureSDKJava pada VM. Pustaka kunci adalah API penyimpanan dan manajemen Azure, Azure Cosmos DB, dan driver JDBC untuk SQL Server.

Pembelajaran Mesin Azure

Layanan cloud Azure Pembelajaran Mesin yang dikelola sepenuhnya memungkinkan Anda membangun, menyebarkan, dan berbagi solusi analitik prediktif. Anda dapat membangun eksperimen dan model di studio Azure Pembelajaran Mesin. Kunjungi Pembelajaran Mesin Microsoft Azure untuk mengaksesnya dari browser web di Ilmu Data Virtual Machine.

Setelah masuk ke studio Azure Machine Learning, Anda bisa menggunakan kanvas eksperimen untuk membangun alur logis untuk algoritme pembelajaran mesin. Anda juga memiliki akses ke notebook Jupyter yang dihosting di Azure Pembelajaran Mesin. Notebook ini dapat bekerja dengan mulus dengan eksperimen di studio Azure Pembelajaran Mesin.

Untuk mengopsisionalkan model pembelajaran mesin yang Anda buat, bungkus dalam antarmuka layanan web. Operasionalisasi model pembelajaran mesin memungkinkan klien yang ditulis dalam bahasa apa pun untuk memanggil prediksi dari model tersebut. Kunjungi dokumentasi Pembelajaran Mesin untuk informasi selengkapnya.

Anda juga bisa membangun model di R atau Python di komputer virtual, lalu menyebarkannya dalam produksi di Azure Machine Learning. Kami menginstal pustaka di R (AzureML) dan Python (azureml) untuk mengaktifkan fungsionalitas ini.

Catatan

Kami menulis instruksi ini untuk versi Windows komputer virtual Ilmu Data. Namun, instruksinya mencakup penyebaran model Azure Pembelajaran Mesin ke VM Linux.

Alat pembelajaran mesin

VM dilengkapi dengan alat dan algoritma pembelajaran mesin yang telah dikompresi, semuanya telah diinstal sebelumnya secara lokal. Ini termasuk:

  • Vowpal Wabbit: Algoritma pembelajaran online yang cepat

  • xgboost: Alat ini menyediakan algoritma pohon yang dioptimalkan dan ditingkatkan

  • Rattle: Alat grafis berbasis R untuk eksplorasi dan pemodelan data yang mudah

  • Python: Anaconda Python dilengkapi algoritme pembelajaran mesin dengan pustaka seperti pembelajaran Scikit. Anda dapat menginstal pustaka lain dengan pip install perintah

  • LightGBM: Kerangka kerja peningkatan gradien berkinerja tinggi yang cepat, terdistribusi, berdasarkan algoritma pohon keputusan

  • R: Pustaka kaya fungsi pembelajaran mesin tersedia untuk R. Pustaka yang telah diinstal sebelumnya termasuk lm, glm, randomForest, dan rpart. Anda dapat menginstal pustaka lain dengan perintah ini:

    install.packages(<lib name>)
    

Berikut adalah informasi selengkapnya tentang tiga alat pembelajaran mesin pertama dalam daftar.

Vowpal Wabbit

Vowpal Wabbit adalah sistem pembelajaran mesin yang digunakan

  • active
  • allreduce
  • Hashing
  • pembelajaran interaktif
  • learning2search
  • online
  • Pengurangan

Teknik.

Gunakan perintah ini untuk menjalankan alat pada contoh dasar:

cp -r /dsvm/tools/VowpalWabbit/demo vwdemo
cd vwdemo
vw house_dataset

Direktori itu menawarkan demo lain yang lebih besar. Kunjungi bagian GitHub dan wiki Vowpal Wabbit ini untuk informasi lebih lanjut tentang Vowpal Wabbit.

xgboost

Pustaka xgboost dirancang dan dioptimalkan untuk algoritme (pohon) yang ditingkatkan. Pustaka xgboost mendorong batas komputasi komputer ke ekstrem yang diperlukan untuk peningkatan pohon skala besar yang akurat, portabel, dan dapat diskalakan.

Pustaka xgboost disediakan sebagai sumber daya baris perintah dan pustaka R. Untuk menggunakan pustaka ini di R, Anda dapat memasukkan R di shell untuk memulai sesi R interaktif, dan memuat pustaka.

Contoh sederhana ini menunjukkan untuk menjalankan xgboost dalam perintah R:

library(xgboost)

data(agaricus.train, package='xgboost')
data(agaricus.test, package='xgboost')
train <- agaricus.train
test <- agaricus.test
bst <- xgboost(data = train$data, label = train$label, max.depth = 2,
                eta = 1, nthread = 2, nround = 2, objective = "binary:logistic")
pred <- predict(bst, test$data)

Untuk menjalankan baris perintah xgboost, jalankan perintah ini di shell:

cp -r /dsvm/tools/xgboost/demo/binary_classification/ xgboostdemo
cd xgboostdemo
xgboost mushroom.conf

Untuk informasi selengkapnya tentang xgboost, kunjungi halaman dokumentasi xgboost dan repositori GitHub-nya.

Rattle

Rattle (the RAnalytical Tool To Learn Easily) menggunakan eksplorasi dan pemodelan data berbasis GUI. Itu

  • menyajikan ringkasan data statistik dan visual
  • mengubah data yang dapat dimodelkan dengan mudah
  • membangun model yang tidak diawasi dan diawasi dari data
  • menyajikan performa model secara grafis
  • mencetak himpunan data baru

Ini juga menghasilkan kode R, yang mereplikasi operasi Rattle di UI. Anda dapat menjalankan kode tersebut langsung di R, atau menggunakannya sebagai titik awal untuk analisis lebih lanjut.

Untuk menjalankan Rattle, Anda perlu beroperasi dalam sesi masuk desktop grafis. Pada terminal, masukkan R untuk membuka lingkungan R. Pada perintah R, masukkan perintah ini:

library(rattle)
rattle()

Antarmuka grafis, dengan sekumpulan tab, lalu terbuka. Langkah-langkah mulai cepat di Rattle ini menggunakan sampel himpunan data cuaca untuk membangun model. Dalam beberapa langkah, Anda menerima perintah untuk menginstal dan memuat paket R yang diperlukan secara otomatis yang belum ada di sistem.

Catatan

Jika Anda tidak memiliki izin akses untuk menginstal paket di direktori sistem (default), Anda mungkin melihat perintah di jendela konsol R Anda untuk menginstal paket ke pustaka pribadi Anda. Jawab y jika Anda menemukan perintah ini.

  1. Pilih Jalankan
  2. Kotak dialog muncul, menanyakan apakah Anda ingin menggunakan contoh himpunan data cuaca. Pilih Ya untuk memuat contoh
  3. Pilih tab Model
  4. Pilih Jalankan untuk membangun pohon keputusan
  5. Pilih Gambar untuk menampilkan pohon keputusan
  6. Pilih opsi Forest, dan pilih Jalankan untuk membangun forest acak
  7. Pilih tab Evaluasi
  8. Pilih opsi Risiko, dan pilih Jalankan untuk menampilkan dua plot performa Risiko (Kumulatif)
  9. Pilih tab Log untuk menampilkan kode R yang dihasilkan untuk operasi sebelumnya
    • Karena bug dalam rilis Rattle saat ini, Anda harus menyisipkan # karakter di depan Ekspor log ini dalam teks log
  10. Pilih tombol Ekspor untuk menyimpan file skrip R, bernama weather_script. R, ke folder utama

Anda bisa keluar dari Rattle dan R. Sekarang Anda bisa memodifikasi skrip R yang dihasilkan. Anda juga dapat menggunakan skrip apa adanya, dan menjalankannya kapan saja untuk mengulangi semua yang dilakukan dalam UI Rattle. Untuk pemula di R terutama, ini meminjamkan dirinya untuk analisis cepat dan pembelajaran mesin dalam antarmuka grafis sederhana, sambil secara otomatis menghasilkan kode dalam R untuk modifikasi atau pembelajaran.

Langkah berikutnya

Untuk pertanyaan selengkapnya, pertimbangkan untuk membuat tiket dukungan