HDInsight'ta Apache Spark'ta otomatik makine öğrenmesi ile Azure Machine Learning iş yüklerini çalıştırma
Azure Machine Learning makine öğrenmesi modellerini oluşturma, eğitma ve dağıtma işlemlerini basitleştirir ve hızlandırır. Otomatik makine öğrenmesinde (AutoML) tanımlı bir hedef özelliği olan eğitim verileriyle başlarsınız. Algoritmaların ve özellik seçimlerinin birleşimleri aracılığıyla yineleme yapın, eğitim puanlarına göre verileriniz için en iyi modeli otomatik olarak seçin. HDInsight, müşterilerin yüzlerce düğüm içeren kümeler sağlamasına olanak tanır. HDInsight kümesinde Spark üzerinde çalışan AutoML, kullanıcıların bu düğümler genelinde işlem kapasitesini kullanarak eğitim işlerini ölçeği genişletme biçiminde çalıştırmasına ve birden çok eğitim işini paralel olarak çalıştırmasına olanak tanır. Kullanıcıların işlemi diğer büyük veri iş yükleriyle paylaşırken AutoML denemeleri çalıştırmasına olanak tanır.
HDInsight kümesine Azure Machine Learning yükleme
Otomatik makine öğrenmesi hakkında genel öğreticiler için bkz . Öğretici: Regresyon modelinizi oluşturmak için otomatik makine öğrenmesini kullanma. Tüm yeni HDInsight-Spark kümeleri AzureML-AutoML SDK'sı ile önceden yüklenmiş olarak gelir.
Not
Azure Machine Learning paketleri Python3 conda ortamına yüklenir. Yüklü Jupyter Notebook, PySpark3 çekirdeği kullanılarak çalıştırılmalıdır.
AutoML'yi kullanmak için Zeppelin not defterlerini de kullanabilirsiniz.
Çalışma alanı için kimlik doğrulaması
Çalışma alanı oluşturma ve deneme gönderimi için kimlik doğrulama belirteci gerekir. Bu belirteç bir Microsoft Entra uygulaması kullanılarak oluşturulabilir. Bir Microsoft Entra kullanıcısı, hesapta çok faktörlü kimlik doğrulaması etkinleştirilmemişse gerekli kimlik doğrulama belirtecini oluşturmak için de kullanılabilir.
Aşağıdaki kod parçacığı, Bir Microsoft Entra uygulaması kullanarak bir kimlik doğrulama belirteci oluşturur.
from azureml.core.authentication import ServicePrincipalAuthentication
auth_sp = ServicePrincipalAuthentication(
tenant_id='<Azure Tenant ID>',
service_principal_id='<Azure AD Application ID>',
service_principal_password='<Azure AD Application Key>'
)
Aşağıdaki kod parçacığı, Microsoft Entra kullanıcısını kullanarak bir kimlik doğrulama belirteci oluşturur.
from azure.common.credentials import UserPassCredentials
credentials = UserPassCredentials('user@domain.com', 'my_smart_password')
Veri kümesi yükleniyor
Spark'ta otomatik makine öğrenmesi, verilerde kolayca değerlendirilen ve sabit işlemler gerçekleştiren Veri akışlarını kullanır. Veri Akışı, genel okuma erişimi olan bir blobdan veya SAS belirteciyle blob URL'sinden veri kümesi yükleyebilir.
import azureml.dataprep as dprep
dataflow_public = dprep.read_csv(
path='https://commonartifacts.blob.core.windows.net/automl/UCI_Adult_train.csv')
dataflow_with_token = dprep.read_csv(
path='https://dpreptestfiles.blob.core.windows.net/testfiles/read_csv_duplicate_headers.csv?st=2018-06-15T23%3A01%3A42Z&se=2019-06-16T23%3A01%3A00Z&sp=r&sv=2017-04-17&sr=b&sig=ugQQCmeC2eBamm6ynM7wnI%2BI3TTDTM6z9RPKj4a%2FU6g%3D')
Ayrıca tek seferlik kayıt kullanarak veri depolarını çalışma alanına kaydedebilirsiniz.
Deneme gönderimi
Otomatik makine öğrenmesi yapılandırmasında, paketin dağıtılmış modda çalışması için özelliği spark_context
ayarlanmalıdır. Paralel olarak yürütülen en fazla yineleme sayısı olan özelliği concurrent_iterations
, Spark uygulamasının yürütücü çekirdeklerinden daha küçük bir sayıya ayarlanmalıdır.
Sonraki adımlar
- Azure Machine Learning Otomatik ML özelliklerini kullanma hakkında daha fazla bilgi için bkz. Azure Machine Learning'de yeni otomatik makine öğrenmesi özellikleri
- Microsoft Research'ten AutoML projesi