Veri Bilimi Sanal Makinesi desteklenen veri platformları

Makale
04/19/2024

Veri Bilimi Sanal Makinesi (DSVM) ile analiz kaynaklarınızı çok çeşitli veri platformlarına göre oluşturabilirsiniz. DSVM, uzak veri platformlarına yönelik arabirimlere ek olarak hızlı geliştirme ve prototip oluşturma için yerel bir örnek sağlar.

DSVM şu veri platformu araçlarını destekler:

SQL Server Developer Edition

Kategori	Değer
Nedir?	Yerel ilişkisel veritabanı örneği
Desteklenen DSVM sürümleri	Windows 2019, Linux (SQL Server 2019)
Tipik kullanımlar	Daha küçük bir veri kümesiyle hızlı yerel geliştirme Veritabanı içi R çalıştırma
Örneklere bağlantılar	Sql veritabanına küçük bir New York City veri kümesi örneği yüklenir: `nyctaxi` Microsoft Machine Learning Server'ı ve veritabanı içi analizi gösteren bir Jupyter örneği bulun: `~notebooks/SQL_R_Services_End_to_End_Tutorial.ipynb`
DSVM'de ilgili araçlar	SQL Server Management Studio ODBC/JDBC sürücüleri pyodbc, RODBC

Not

SQL Server Developer Edition yalnızca geliştirme ve test amacıyla kullanılabilir. Üretimde çalıştırmak için bir lisansa veya SQL Server VM'lerinden birine ihtiyacınız vardır.

Not

Machine Learning Server Tek Başına desteği 1 Temmuz 2021'de sona erdi. 30 Haziran'dan sonra DSVM görüntülerinden kaldıracağız. Mevcut dağıtımlar yazılıma erişmeye devam edecektir, ancak ulaşılan destek bitiş tarihi nedeniyle destek 1 Temmuz 2021'de sona erecektir.

Not

SQL Server Developer Edition'ı Kasım 2021'in sonuna kadar DSVM görüntülerinden kaldıracağız. Mevcut dağıtımlarda SQL Server Developer Edition yüklenmeye devam edecektir. Yeni deployemnt'lerde, SQL Server Developer Edition'a erişmek istiyorsanız Docker desteği aracılığıyla SQL Server Developer Edition'ı yükleyebilir ve kullanabilirsiniz. Daha fazla bilgi için Hızlı Başlangıç: Docker ile SQL Server kapsayıcı görüntülerini çalıştırma adresini ziyaret edin.

Windows

Ayarlama

Veritabanı sunucusu önceden yapılandırılmıştır ve SQL Server ile ilgili Windows hizmetleri (örneğin, SQL Server (MSSQLSERVER)) otomatik olarak çalışacak şekilde ayarlanır. El ile gerçekleştirilen tek adım, Microsoft Machine Learning Server'ı kullanarak veritabanı içi analizi etkinleştirmeyi içerir. Sql Server Management Studio'da (SSMS) tek seferlik bir eylem olarak analizi etkinleştirmek için aşağıdaki komutu çalıştırın. Makine yöneticisi olarak oturum açtıktan sonra bu komutu çalıştırın, SSMS'de yeni bir sorgu açın ve veritabanını seçin master :

CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS

(%COMPUTERNAME% değerini VM adınız ile değiştirin.)

SQL Server Management Studio'yu çalıştırmak için, program listesinde "SQL Server Management Studio" araması yapabilir veya Windows Search'i kullanarak bulup çalıştırabilirsiniz. Kimlik bilgileri istendiğinde Windows Kimlik Doğrulaması'nı seçin ve makine adını veya localhost SQL Server Adı alanında kullanın.

Nasıl kullanılır ve çalıştırılır

Varsayılan olarak, varsayılan veritabanı örneğine sahip veritabanı sunucusu otomatik olarak çalışır. SQL Server veritabanına yerel olarak erişmek için VM'de SQL Server Management Studio gibi araçları kullanabilirsiniz. Yerel yönetici hesaplarının veritabanında yönetici erişimi vardır.

Ayrıca DSVM, konuşulacak ODBC ve JDBC sürücüleriyle birlikte gelir

SQL Server
Azure SQL veritabanları
Python ve Machine Learning Server dahil olmak üzere birden çok dilde yazılmış uygulamalardan Azure Synapse Analytics kaynakları.

DSVM'de nasıl yapılandırılır ve yüklenir?

SQL Server standart şekilde yüklenir. adresinde C:\Program Files\Microsoft SQL Serverbulabilirsiniz. Veritabanı içi Machine Learning Sunucusu örneğini adresinde C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICESbulabilirsiniz. DSVM'de ayrıca konumunda C:\Program Files\Microsoft\R Server\R_SERVERyüklü ayrı bir tek başına Machine Learning Sunucusu örneği vardır. Bu iki Machine Learning Sunucusu örneği kitaplıkları paylaşmaz.

Ubuntu

Sql Server Developer Edition'ı kullanmadan önce Ubuntu DSVM'ye yüklemeniz gerekir. Daha fazla bilgi için Hızlı Başlangıç: SQL Server'ı yükleme ve Ubuntu'da veritabanı oluşturma makalesini ziyaret edin.

Apache Spark 2.x (Tek Başına)

Kategori	Değer
Nedir?	Popüler Apache Spark platformunun tek başına (işlemdeki tek düğümlü) örneği; hızlı, büyük ölçekli veri işleme ve makine öğrenmesi için bir sistem
Desteklenen DSVM sürümleri	Linux
Tipik kullanımlar	Spark/PySpark uygulamalarının daha küçük bir veri kümesiyle yerel olarak hızlı geliştirilmesi ve Azure HDInsight gibi büyük Spark kümelerinde daha sonra dağıtım Microsoft Machine Learning Server Spark bağlamı test edin ML uygulamaları oluşturmak için SparkML veya Microsoft açık kaynak MMLSpark kitaplığını kullanma
Örneklere bağlantılar	Jupyter örneği: ~/notebooks/SparkML/pySpark ~/notebooks/MMLSpark Microsoft Machine Learning Sunucusu (Spark bağlamı): /dsvm/samples/MRS/MRSSparkContextSample.R
DSVM'de ilgili araçlar	PySpark, Scala Jupyter (Spark/PySpark Çekirdekleri) Microsoft Machine Learning Sunucusu, SparkR, Sparklyr Apache Drill

Nasıl kullanılır?

Komut satırında Spark işleri göndermek için veya pyspark komutunu çalıştırabilirsinizspark-submit. Jupyter not defteri oluşturmak için Spark çekirdeğiyle yeni bir not defteri de oluşturabilirsiniz.

R'den Spark'ı kullanmak için, DSVM'de bulunan SparkR, Sparklyr ve Microsoft Machine Learning Server gibi kitaplıkları kullanırsınız. Yukarıdaki tablodaki örneklerin bağlantılarına bakın.

Ayarlama

Ubuntu Linux DSVM sürümündeKi Microsoft Machine Learning Server'da Spark bağlamında çalışmadan önce, yerel tek düğümlü Hadoop HDFS ve Yarn örneğini etkinleştirmek için bir kerelik kurulum adımlarını tamamlamanız gerekir. Varsayılan olarak, Hadoop hizmetleri DSVM'de yüklenir ancak devre dışı bırakılır. Bunları etkinleştirmek için şu komutları ilk kez kök olarak çalıştırın:

echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn

Hadoop ile ilgili hizmetleri artık ihtiyacınız olmadığında durdurmak için komutunu çalıştırın systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn.

Uzak Spark bağlamında (DSVM'deki tek başına Spark örneği) MRS geliştirme ve test etme işlemini gösteren bir örnek sağlanır ve dizinde /dsvm/samples/MRS kullanılabilir.

DSVM'de nasıl yapılandırılır ve yüklenir?

Platform	Yükleme Konumu ($SPARK_HOME)
Linux	/dsvm/tools/spark-X.X.X-bin-hadoopX.X

Microsoft MMLSpark makine öğrenmesi kitaplıklarını kullanarak Azure Blob depolama veya Azure Data Lake Depolama'dan verilere erişmek için kullanılan kitaplıklar $SPARK_HOME/jars'a önceden yüklenir. Spark başlatıldığında bu JAR'ler otomatik olarak yüklenir. Spark varsayılan olarak yerel diskte bulunan verileri kullanır.

DSVM'deki Spark örneği Blob depolamada veya Azure Data Lake Depolama depolanan verilere erişebilir. Önce dosyayı $SPARK_HOME/conf/core-site.xml.template içinde bulunan şablona göre oluşturup yapılandırmanız core-site.xml gerekir. Blob depolamaya ve Azure Data Lake Depolama erişmek için uygun kimlik bilgilerine de sahip olmanız gerekir. Şablon dosyaları Blob depolama ve Azure Data Lake Depolama yapılandırmaları için yer tutucuları kullanır.

Azure Data Lake Depolama hizmeti kimlik bilgilerini oluşturma hakkında daha fazla bilgi için Azure Data Lake Storage 1. Nesil ile kimlik doğrulaması adresini ziyaret edin. core-site.xml dosyasına Blob depolama veya Azure Data Lake Depolama kimlik bilgilerini girdikten sonra, wasb:// veya adl:// URI ön eki aracılığıyla bu kaynaklarda depolanan verilere başvurabilirsiniz.

Aracılığıyla paylaş

Veri Bilimi Sanal Makinesi desteklenen veri platformları

SQL Server Developer Edition

Windows

Ayarlama

Nasıl kullanılır ve çalıştırılır

DSVM'de nasıl yapılandırılır ve yüklenir?

Ubuntu

Apache Spark 2.x (Tek Başına)

Nasıl kullanılır?

Ayarlama

DSVM'de nasıl yapılandırılır ve yüklenir?

Geri Bildirim

Geri Bildirim

Ek kaynaklar