Başvuru: Ubuntu (Linux) Veri Bilimi Sanal Makinesi

Makale
05/02/2024

Bu belge, Ubuntu Veri Bilimi Sanal Makinesi (DSVM) üzerindeki kullanılabilir araçların listesini sunar.

Derin öğrenme kitaplıkları

PyTorch

PyTorch , makine öğrenmesi algoritmalarına yönelik geniş destekle popüler bir bilimsel bilgi işlem çerçevesidir. Makinenizde yerleşik bir GPU varsa, derin öğrenmeyi hızlandırmak için bu GPU'nun kullanılmasına neden olabilir. PyTorch, ortamda kullanılabilir py38_pytorch .

H2O

H2O hızlı, bellek içi, dağıtılmış bir makine öğrenmesi ve tahmine dayalı analiz platformudur. Python paketi hem kök hem de py35 Anaconda ortamlarında yüklenir. R paketi de yüklenir.

Komut satırından H2O'yu açmak için komutunu çalıştırın java -jar /dsvm/tools/h2o/current/h2o.jar. Çeşitli kullanılabilirkomut satırı seçeneklerini yapılandırabilirsiniz. Başlamak için Flow web kullanıcı arabirimine http://localhost:54321 göz atın. JupyterHub örnek not defterleri sunar.

TensorFlow

TensorFlow , Google derin öğrenme kitaplığıdır. Veri akışı graflarını kullanan sayısal hesaplamalar için açık kaynak bir yazılım kitaplığıdır. Makinenizde yerleşik bir GPU varsa, derin öğrenmeyi hızlandırmak için bu GPU'yı kullanabilir. TensorFlow, conda ortamında kullanılabilir py38_tensorflow .

Python

Veri Bilimi Sanal Makinesi (DSVM), Python sürüm 3.8 veya Python sürüm 3.6 ile önceden yüklenmiş birden çok Python ortamına sahiptir. Yüklü ortamların tam listesini görmek için terminal penceresinde komutunu çalıştırın conda env list .

Jupyter

DSVM ayrıca bir kod paylaşımı ve kod analizi ortamı olan Jupyter ile birlikte gelir. Jupyter, DSVM'ye şu çeşitlerde yüklenir:

Jupyter Lab
Jupyter Notebook
Jupyter Hub

Jupyter Lab'i başlatmak için uygulama menüsünden Jupyter'ı açın veya masaüstü simgesini seçin. Jupyter Lab'i açmak için komut satırından da çalıştırabilirsiniz jupyter lab .

Jupyter not defterini açmak için bir komut satırı açın ve komutunu çalıştırın jupyter notebook.

Jupyter Hub'ı açmak için tarayıcıda https://< VM DNS adını veya IP adresini>:8000/ açın. Yerel Linux kullanıcı adınızı ve parolanızı sağlamanız gerekir.

Not

Tüm sertifika uyarılarını yoksayabilirsiniz.

Not

Ubuntu görüntüleri için vm sağlandığında güvenlik duvarı Bağlantı Noktası 8000 varsayılan olarak açılır.

Apache Spark tek başına

Büyük kümelerde bu uygulamaları test edip dağıtmadan önce Spark uygulamalarını yerel olarak geliştirmenize yardımcı olmak için Linux DSVM'ye tek başına bir Apache Spark örneği önceden yüklenmiştir.

PySpark programlarını Jupyter çekirdeği aracılığıyla çalıştırabilirsiniz. Jupyter başlatıldığında Yeni düğmesini seçin. Kullanılabilir çekirdeklerin listesi görünür hale gelmelidir. Spark - Python çekirdeğini seçerseniz Python diliyle Spark uygulamaları oluşturabilirsiniz. Python IDE de kullanabilirsiniz; örneğin VS. Spark programınızı derlemek için kod veya PyCharm.

Bu tek başına örnekte Spark yığını, çağıran istemci programının içinde çalışır. Bu özellik, Spark kümesindeki geliştirmeyle karşılaştırıldığında sorunları gidermeyi hızlandırır ve kolaylaştırır.

IDE'ler ve düzenleyiciler

VS de dahil olmak üzere çeşitli kod düzenleyicileri tercih edebilirsiniz. Code, PyCharm, IntelliJ, vi/Vim veya Emacs.

VS. Code, PyCharm ve IntelliJ grafik düzenleyicilerdir. Bunları kullanmak için grafik masaüstünde oturum açmanız gerekir. Bunları masaüstü ve uygulama menüsü kısayollarını kullanarak açarsınız.

Vim ve Emacs metin tabanlı düzenleyicilerdir. Emacs'te ESS eklenti paketi, Emacs düzenleyicisinde R ile çalışmayı kolaylaştırır. Daha fazla bilgi için ESS web sitesini ziyaret edin.

Veritabanları

Grafik SQL istemcisi

Grafik sql istemcisi SQuirrel SQL, microsoft SQL Server veya MySQL gibi çeşitli veritabanlarına bağlanabilir ve SQL sorguları çalıştırabilir. SQuirrel SQL'i açmanın en hızlı yolu, grafik masaüstü oturumundan Uygulama Menüsü'nü kullanmaktır (örneğin, X2Go istemcisi aracılığıyla)

İlk kullanımdan önce sürücülerinizi ve veritabanı diğer adlarınızı ayarlayın. JDBC sürücülerini /usr/share/java/jdbcdrivers konumunda bulabilirsiniz.

Daha fazla bilgi için SQuirrel SQL kaynağını ziyaret edin.

Microsoft SQL Server'a erişmek için komut satırı araçları

SQL Server için ODBC sürücü paketi iki komut satırı aracı da içerir:

bcp: bcp aracı verileri microsoft SQL Server örneği ile veri dosyası arasında kullanıcı tarafından belirtilen biçimde toplu olarak kopyalar. Bcp aracını kullanarak çok sayıda yeni satırı SQL Server tablolarına aktarabilir veya tablolardaki verileri veri dosyalarına aktarabilirsiniz. Verileri tabloya aktarmak için, bu tablo için oluşturulmuş bir biçim dosyası kullanmanız gerekir. Tablonun yapısını ve sütunları için geçerli olan veri türlerini anlamanız gerekir.

Daha fazla bilgi için bcp ile bağlanma bağlantısını ziyaret edin.

sqlcmd: Transact-SQL deyimlerini sqlcmd aracıyla girebilirsiniz. Komut isteminde sistem yordamlarını ve betik dosyalarını da girebilirsiniz. Bu araç, Transact-SQL toplu işlemlerini çalıştırmak için ODBC kullanır.

Daha fazla bilgi için sqlcmd ile bağlanma bağlantısını ziyaret edin.

Not

Bu araçta Linux ve Windows platformu sürümleri arasında bazı farklılıklar vardır. Ayrıntılar için belgeleri gözden geçirin.

Veritabanı erişim kitaplıkları

R ve Python kitaplıkları veritabanı erişimi için kullanılabilir:

R'de, VERITABANı sunucusunda SQL deyimlerini sorgulamak veya çalıştırmak için RODBC dplyr paketlerini kullanabilirsiniz
Python'da pyodbc kitaplığı, temel katman olarak ODBC ile veritabanı erişimi sağlar

Azure araçları

Bu Azure araçları VM'ye yüklenir:

Azure CLI: Kabuk komutları aracılığıyla Azure kaynakları oluşturmak ve yönetmek için Azure'daki komut satırı arabirimini kullanabilirsiniz. Azure araçlarını açmak için azure yardımı yazın. Daha fazla bilgi için Azure CLI belgeleri sayfasını ziyaret edin.
Azure Depolama Gezgini: Azure Depolama Gezgini, Azure depolama hesabınızda depoladığınız nesnelere göz atmak ve Azure bloblarına veri yükleyip indirmek için kullanabileceğiniz bir grafik aracıdır. masaüstü kısayol simgesinden Depolama Gezgini erişebilirsiniz. StorageExplorer girerseniz bunu bir kabuk isteminden de açabilirsiniz. X2Go istemcisinden oturum açmış olmanız veya X11 iletmenin ayarlanmış olması gerekir.
Azure kitaplıkları: Bunlar önceden yüklenmiş kitaplıklardan bazılarıdır:
- Python: Python azure, azureml, pydocumentdb ve pyodbc Azure ile ilgili kitaplıkları sunar. İlk üç kitaplıkla Azure depolama hizmetlerine, Azure Machine Learning'e ve Azure Cosmos DB'ye (Azure'da noSQL veritabanı) erişebilirsiniz. Dördüncü kitaplık olan pyodbc (SQL Server için Microsoft ODBC sürücüsüyle birlikte), BIR ODBC arabirimi aracılığıyla Python'dan SQL Server, Azure SQL Veritabanı ve Azure Synapse Analytics'e erişim sağlar. Listelenen tüm kitaplıkları görmek için pip listesini girin. Bu komutu Python 2.7 ve 3.5 ortamlarında çalıştırdığınızdan emin olun.
- R: Azure Machine Learning ve RODBC, R'deki Azure ile ilgili kitaplıklardır.
- Java: Dizin /dsvm/sdk/AzureSDKJava'da Azure Java kitaplıklarının listesi VM'deki /dsvm/sdk/AzureSDKJava dizininde bulunabilir. Anahtar kitaplıklar Azure depolama ve yönetim API'leri, Azure Cosmos DB ve SQL Server için JDBC sürücüleridir.

Azure Machine Learning

Tam olarak yönetilen Azure Machine Learning bulut hizmeti tahmine dayalı analiz çözümleri oluşturmanıza, dağıtmanıza ve paylaşmanıza olanak tanır. Denemelerinizi ve modellerinizi Azure Machine Learning stüdyosu'da oluşturabilirsiniz. Veri Bilimi Sanal Makinesi bir web tarayıcısından erişmek için Microsoft Azure Machine Learning'i ziyaret edin.

Azure Machine Learning stüdyosu'da oturum açtığınızda, makine öğrenmesi algoritmaları için mantıksal bir akış oluşturmak üzere bir deneme tuvali kullanabilirsiniz. Ayrıca Azure Machine Learning'de barındırılan bir Jupyter not defterine de erişebilirsiniz. Bu not defteri, Azure Machine Learning stüdyosu'daki denemelerle sorunsuz bir şekilde çalışabilir.

Oluşturduğunuz makine öğrenmesi modellerini kullanıma hazır hale getirmek için bunları bir web hizmeti arabiriminde sarmalarsınız. Makine öğrenmesi modelini kullanıma hazır hale getirme, herhangi bir dilde yazılmış istemcilerin bu modellerden tahminleri çağırmasına olanak tanır. Daha fazla bilgi için Machine Learning belgelerini ziyaret edin.

Ayrıca modellerinizi VM üzerinde R veya Python'da derleyebilir ve ardından Azure Machine Learning'de üretim ortamında dağıtabilirsiniz. Bu işlevselliği etkinleştirmek için R (AzureML) ve Python(azureml) kitaplıkları yükledik.

Not

Veri Bilimi Sanal Makinesi Windows sürümü için bu yönergeleri yazdık. Ancak yönergeler, Linux VM'ye Azure Machine Learning modeli dağıtımlarını kapsar.

Makine öğrenmesi araçları

VM, önceden derlenmiş makine öğrenmesi araçları ve algoritmasıyla birlikte gelir ve bunların tümü yerel olarak önceden yüklenmiştir. Bu modüller şunlardır:

Vowpal Wabbit: Hızlı bir çevrimiçi öğrenme algoritması
xgboost: Bu araç iyileştirilmiş, artırılmış ağaç algoritmaları sağlar
Rattle: Kolay veri keşfi ve modellemesi için R tabanlı bir grafik aracı
Python: Anaconda Python, Scikit-learn gibi kitaplıklara sahip makine öğrenmesi algoritmalarıyla birlikte gelir. komutuyla pip install diğer kitaplıkları yükleyebilirsiniz
LightGBM: Karar ağacı algoritmalarına dayalı hızlı, dağıtılmış, yüksek performanslı gradyan artırma çerçevesi
R: R için zengin bir makine öğrenmesi işlevleri kitaplığı sağlanır. Önceden yüklenmiş kitaplıklar lm, glm, randomForest ve rpart'tır. Şu komutla diğer kitaplıkları yükleyebilirsiniz:
```
install.packages(<lib name>)
```

Listedeki ilk üç makine öğrenmesi aracı hakkında daha fazla bilgi aşağıdadır.

Vowpal Wabbit

Vowpal Wabbit, makine öğrenmesi sisteminin kullandığı bir makine öğrenmesi sistemidir

active
allreduce
Karma
etkileşimli öğrenme
learning2search
çevrimiçi
Indirim

Teknik.

Aracı temel bir örnekte çalıştırmak için şu komutları kullanın:

cp -r /dsvm/tools/VowpalWabbit/demo vwdemo
cd vwdemo
vw house_dataset

Bu dizin başka, daha büyük tanıtımlar sunar. Vowpal Wabbit hakkında daha fazla bilgi için GitHub'ın bu bölümünü ve Vowpal Wabbit wiki'sini ziyaret edin.

xgboost

xgboost kitaplığı artırılmış (ağaç) algoritmalar için tasarlanmıştır ve iyileştirilmiştir. xgboost kitaplığı makinelerin hesaplama sınırlarını doğru, taşınabilir ve ölçeklenebilir büyük ölçekli ağaç artırma için gereken uç değerlere iter.

xgboost kitaplığı hem komut satırı kaynağı hem de R kitaplığı olarak sağlanır. Bu kitaplığı R'de kullanmak için, kabuğa R girerek etkileşimli bir R oturumu başlatabilir ve kitaplığı yükleyebilirsiniz.

Bu basit örnek, R isteminde xgboost çalıştırmayı gösterir:

library(xgboost)

data(agaricus.train, package='xgboost')
data(agaricus.test, package='xgboost')
train <- agaricus.train
test <- agaricus.test
bst <- xgboost(data = train$data, label = train$label, max.depth = 2,
                eta = 1, nthread = 2, nround = 2, objective = "binary:logistic")
pred <- predict(bst, test$data)

xgboost komut satırını çalıştırmak için kabukta şu komutları çalıştırın:

cp -r /dsvm/tools/xgboost/demo/binary_classification/ xgboostdemo
cd xgboostdemo
xgboost mushroom.conf

xgboost hakkında daha fazla bilgi için xgboost belgeleri sayfasını ve GitHub deposunu ziyaret edin.

Rattle

Rattle (R Adeniz Tool To Lkazanç Easily) GUI tabanlı veri keşfi ve modelleme kullanır. -

verilerin istatistiksel ve görsel özetlerini sunar
kolayca modellenebilen verileri dönüştürür
verilerden hem denetimsiz hem de denetimli modeller oluşturur
modellerin performansını grafiksel olarak sunar
yeni veri kümelerini puanlar

Ayrıca kullanıcı arabiriminde Rattle işlemlerini çoğaltan R kodu oluşturur. Bu kodu doğrudan R'de çalıştırabilir veya daha fazla analiz için başlangıç noktası olarak kullanabilirsiniz.

Rattle'ı çalıştırmak için grafik masaüstü oturum açma oturumunda çalışmanız gerekir. R ortamını açmak için terminalde R girin. R isteminde şu komutu girin:

library(rattle)
rattle()

Bir dizi sekme içeren bir grafik arabirim açılır. Rattle'daki bu hızlı başlangıç adımları, model oluşturmak için örnek bir hava durumu veri kümesi kullanır. Bazı adımlarda, sistemde henüz yüklü olmayan belirli, gerekli R paketlerini otomatik olarak yükleme ve yükleme istemleri alırsınız.

Not

Paketi sistem dizinine yüklemek için erişim izinleriniz yoksa (varsayılan), R konsol pencerenizde paketleri kişisel kitaplığınıza yüklemek için bir istem görebilirsiniz. Bu istemlerle karşılaşırsanız y yanıtlayın.

Çalıştır’ı seçin
Örnek hava durumu veri kümesini kullanmak isteyip istemediğinizi soran bir iletişim kutusu görüntülenir. Örneği yüklemek için Evet'i seçin
Model sekmesini seçin
Karar ağacı oluşturmak için Yürüt'e tıklayın
Karar ağacını görüntülemek için Çiz'i seçin
Orman seçeneğini belirleyin ve rastgele bir orman oluşturmak için Yürüt'e tıklayın
Değerlendir sekmesini seçin
Risk seçeneğini belirleyin ve yürüt'e tıklayarak iki Risk (Kümülatif) performans çizimi görüntüleyin
Önceki işlemler için oluşturulan R kodunu göstermek için Günlük sekmesini seçin
- Rattle'ın geçerli sürümündeki bir hata nedeniyle, günlüğün metninde Bu günlüğü dışarı aktar'ın önüne bir # karakter eklemeniz gerekir
weather_script adlı R betik dosyasını kaydetmek için Dışarı Aktar düğmesini seçin. R, giriş klasörüne

Rattle ve R'dan çıkabilirsiniz. Artık oluşturulan R betiğini değiştirebilirsiniz. Ayrıca betiği olduğu gibi kullanabilir ve rattle kullanıcı arabiriminde yapılan her şeyi yinelemek için istediğiniz zaman çalıştırabilirsiniz. Özellikle R'deki yeni başlayanlar için bu, değişiklik veya öğrenme için R'de otomatik olarak kod oluştururken, basit bir grafik arabiriminde hızlı analiz ve makine öğrenmesine yardımcı olur.

Sonraki adımlar

Daha fazla soru için destek bileti oluşturmayı göz önünde bulundurun

Aracılığıyla paylaş