Azure Machine Learning'de Azure Databricks ve AutoML ile geliştirme ortamı ayarlama
Azure Machine Learning'de Azure Databricks ve otomatik ML kullanan bir geliştirme ortamı yapılandırmayı öğrenin.
Azure Databricks, Azure bulutunda ölçeklenebilir Apache Spark platformunda büyük ölçekli yoğun makine öğrenmesi iş akışlarını çalıştırmak için idealdir. CPU veya GPU tabanlı işlem kümesi ile işbirliğine dayalı bir Not Defteri tabanlı ortam sağlar.
Diğer makine öğrenmesi geliştirme ortamları hakkında bilgi için bkz. Python geliştirme ortamını ayarlama.
Önkoşul
Azure Machine Learning çalışma alanı. Oluşturmak için Çalışma alanı kaynakları oluşturma makalesindeki adımları kullanın.
Azure Machine Learning ve AutoML ile Azure Databricks
Azure Databricks, Azure Machine Learning ve AutoML özellikleriyle tümleşir.
Azure Databricks'i kullanabilirsiniz:
- Spark MLlib kullanarak modeli eğitmek ve modeli ACI/AKS'ye dağıtmak için.
- Azure Machine Learning SDK'sı kullanarak otomatik makine öğrenmesi özellikleriyle.
- Azure Machine Learning işlem hattından işlem hedefi olarak.
Databricks kümesi ayarlama
Databricks kümesi oluşturun. Bazı ayarlar yalnızca Databricks'te otomatik makine öğrenmesi için SDK'yı yüklediğinizde geçerlidir.
Kümenin oluşturulması birkaç dakika sürer.
Şu ayarları kullanın:
Ayar | Şunlara uygulanır | Değer |
---|---|---|
Küme Adı | Her zaman | yourclustername |
Databricks Runtime Sürümü | Her zaman | 9.1 LTS |
Python sürümü | Her zaman | 3 |
Çalışan Türü (eş zamanlı yinelemelerin maksimum # değerini belirler) |
Otomatikleştirilmiş ML Sadece |
Bellek için iyileştirilmiş VM tercih edilir |
Işçi | Her zaman | 2 veya üzeri |
Otomatik Ölçeklendirmeyi Etkinleştir | Otomatikleştirilmiş ML Sadece |
İşaretsiz |
Devam etmeden önce kümenin çalışmasını bekleyin.
Azure Machine Learning SDK'sını Databricks'e ekleme
Küme çalıştırıldıktan sonra, kümenize uygun Azure Machine Learning SDK paketini eklemek için bir kitaplık oluşturun .
Otomatik ML'yi kullanmak için Azure Machine Learning SDK'sını AutoML ile ekleme bölümüne atlayın.
Kitaplığı depolamak istediğiniz geçerli Çalışma Alanı klasörüne sağ tıklayın. KitaplıkOluştur'u> seçin.
İpucu
Eski bir SDK sürümünüz varsa, kümenin yüklü kitaplıklarından bu sürümün seçimini kaldırın ve çöp kutusuna taşıyın. Yeni SDK sürümünü yükleyin ve kümeyi yeniden başlatın. Yeniden başlatmadan sonra bir sorun varsa kümenizi ayırıp yeniden takın.
Aşağıdaki seçeneği belirtin (başka SDK yüklemesi desteklenmez)
SDK paketi ek özellikleri Kaynak PyPi Adı Databricks için Python Egg veya PyPI'yi karşıya yükleme azureml-sdk[databricks] Uyarı
Başka SDK ekleri yüklenemez. Yalnızca [
databricks
] seçeneğini belirleyin.- Tüm kümelere otomatik olarak ekle'yi seçmeyin.
- Küme adınızın yanındaki Ekle'yi seçin.
Durum Eklendi olarak değişene kadar hataları izleyin ve bu işlem birkaç dakika sürebilir. Bu adım başarısız olursa:
Kümenizi şu şekilde yeniden başlatmayı deneyin:
- Sol bölmede Kümeler'i seçin.
- Tabloda kümenizin adını seçin.
- Kitaplıklar sekmesinde Yeniden Başlat'ı seçin.
Başarılı bir yükleme aşağıdakine benzer:
AutoML ile Azure Machine Learning SDK'sını Databricks'e ekleme
Küme Databricks Runtime 7.3 LTS (ML değil ) ile oluşturulduysa, Azure Machine Learning SDK'sını yüklemek için not defterinizin ilk hücresinde aşağıdaki komutu çalıştırın.
%pip install --upgrade --force-reinstall -r https://aka.ms/automl_linux_requirements.txt
AutoML yapılandırma ayarları
AutoML yapılandırmasında, Azure Databricks kullanırken aşağıdaki parametreleri ekleyin:
max_concurrent_iterations
kümenizdeki çalışan düğümlerinin sayısını temel alır.spark_context=sc
varsayılan Spark bağlamını temel alır.
Azure Databricks ile çalışan ML not defterleri
Deneyin:
Birçok örnek not defteri kullanılabilir olsa da, Azure Databricks ile yalnızca bu örnek not defterleri çalışır.
Bu örnekleri doğrudan çalışma alanınızdan içeri aktarabilirsiniz. Aşağıya bakın:
Sorun giderme
Databricks otomatik makine öğrenmesi çalıştırmasını iptal eder: Azure Databricks'te otomatik makine öğrenmesi özelliklerini kullandığınızda, bir çalıştırmayı iptal etmek ve yeni bir deneme çalıştırması başlatmak için Azure Databricks kümenizi yeniden başlatın.
Otomatik makine öğrenmesi için Databricks >10 yinelemeleri: Otomatik makine öğrenmesi ayarlarında, 10'dan fazla yinelemeniz varsa çalıştırmayı gönderdiğinizde olarak ayarlanır
show_output
False
.Azure Machine Learning SDK'sı ve otomatik makine öğrenmesi için Databricks pencere öğesi: Not defterleri HTML pencere öğelerini ayrıştıramadığından, Databricks not defterinde Azure Machine Learning SDK pencere öğesi desteklenmez. Azure Databricks not defteri hücrenizde bu Python kodunu kullanarak pencere öğesini portalda görüntüleyebilirsiniz:
displayHTML("<a href={} target='_blank'>Azure Portal: {}</a>".format(local_run.get_portal_url(), local_run.id))
Paketleri yüklerken hata
Daha fazla paket yüklendiğinde Azure Databricks'te Azure Machine Learning SDK yüklemesi başarısız olur. gibi
psutil
bazı paketler çakışmalara neden olabilir. Yükleme hatalarını önlemek için kitaplık sürümünü dondurarak paketleri yükleyin. Bu sorun Azure Machine Learning SDK'sı ile değil Databricks ile ilgilidir. Bu sorunla diğer kitaplıklarda da karşılaşabilirsiniz. Örnek:psutil cryptography==1.5 pyopenssl==16.0.0 ipython==2.2.0
Alternatif olarak, Python kitaplıklarıyla ilgili yükleme sorunlarıyla karşılaşmaya devam ediyorsanız init betiklerini kullanabilirsiniz. Bu yaklaşım resmi olarak desteklenmez. Daha fazla bilgi için bkz. Küme kapsamlı başlatma betikleri.
İçeri aktarma hatası: içinden ad
Timedelta
pandas._libs.tslibs
içeri aktarılamıyor: Otomatik makine öğrenmesi kullanırken bu hatayı görürseniz not defterinizde aşağıdaki iki satırı çalıştırın:%sh rm -rf /databricks/python/lib/python3.7/site-packages/pandas-0.23.4.dist-info /databricks/python/lib/python3.7/site-packages/pandas %sh /databricks/python/bin/pip install pandas==0.23.4
İçeri aktarma hatası: 'pandas.core.indexes' adlı modül yok: Otomatik makine öğrenmesi kullanırken bu hatayı görürseniz:
Azure Databricks kümenize iki paket yüklemek için şu komutu çalıştırın:
scikit-learn==0.19.1 pandas==0.22.0
Kümeyi ayırıp not defterinize yeniden yükleyin.
Bu adımlar sorunu çözmezse kümeyi yeniden başlatmayı deneyin.
FailToSendFeather: Azure Databricks kümesindeki verileri okurken hata
FailToSendFeather
görürseniz aşağıdaki çözümlere bakın:- Paketi en son sürüme yükseltin
azureml-sdk[automl]
. - Sürüm 1.1.8 veya üzerini ekleyin
azureml-dataprep
. - Sürüm 0.11 veya üzerini ekleyin
pyarrow
.
- Paketi en son sürüme yükseltin
Sonraki adımlar
- MNIST veri kümesiyle Azure Machine Learning'de model eğitin ve dağıtın.
- Bkz. Python için Azure Machine Learning SDK'sı başvurusu.