Makine öğrenmesi modellerini eğitme

Azure Synapse Analytics'teki Apache Spark, büyük verilerle makine öğrenmesine olanak sağlayarak büyük miktarlarda yapılandırılmış, yapılandırılmamış ve hızlı hareket eden verilerden değerli içgörüler elde etme olanağı sağlar. Azure Synapse Analytics'te Azure Spark kullanarak makine öğrenmesi modellerini eğitirken çeşitli seçenekler vardır: Apache Spark MLlib, Azure Machine Learning ve diğer çeşitli açık kaynak kitaplıkları.

Apache SparkML ve MLlib

Azure Synapse Analytics’te Apache Spark, Microsoft'un buluttaki Apache Spark uygulamalarından biridir. Büyük veri analizini artırmak için bellek içi işlemeyi destekleyen birleşik, açık kaynaklı, paralel bir veri işleme çerçevesi sağlar. Spark işleme altyapısı hız, kullanım kolaylığı ve gelişmiş analiz için geliştirilmiştir. Spark'ın bellek içi dağıtılmış hesaplama özellikleri, makine öğrenmesi ve graf hesaplamalarında kullanılan yinelemeli algoritmalar için iyi bir seçimdir.

Bu dağıtılmış ortama algoritmik modelleme özellikleri getiren iki ölçeklenebilir makine öğrenmesi kitaplığı vardır: MLlib ve SparkML. MLlib, RDD'lerin üzerine kurulu özgün API'yi içerir. SparkML, ML işlem hatlarını oluşturmak için DataFrame'ler üzerinde oluşturulmuş daha üst düzey bir API sağlayan daha yeni bir pakettir. SparkML henüz MLlib'in tüm özelliklerini desteklemez, ancak Spark'ın standart makine öğrenmesi kitaplığı olarak MLlib'in yerini alır.

Not

Bu öğreticiyi izleyerek SparkML modeli oluşturma hakkında daha fazla bilgi edinebilirsiniz.

Azure Synapse Analytics'teki her Apache Spark havuzu, önceden yüklenmiş ve popüler makine öğrenmesi kitaplıkları kümesiyle birlikte gelir. Bu kitaplıklar, programlarınıza veya projelerinize eklemek isteyebileceğiniz yeniden kullanılabilir kodlar sağlar. Varsayılan olarak dahil edilen ilgili makine öğrenmesi kitaplıklarından bazıları şunlardır:

  • Scikit-learn , klasik ML algoritmaları için en popüler tek düğümlü makine öğrenmesi kitaplıklarından biridir. Scikit-learn denetimli ve denetimsiz öğrenme algoritmalarının çoğunu destekler ve veri madenciliği ve veri analizi için de kullanılabilir.

  • XGBoost , eğitim karar ağaçları ve rastgele ormanlar için iyileştirilmiş algoritmalar içeren popüler bir makine öğrenmesi kitaplığıdır.

  • PyTorch & Tensorflow güçlü Python derin öğrenme kitaplıklarıdır. Azure Synapse Analytics'teki bir Apache Spark havuzunda, havuzunuzdaki yürütücü sayısını sıfır olarak ayarlayarak tek makineli modeller oluşturmak için bu kitaplıkları kullanabilirsiniz. Apache Spark bu yapılandırma altında işlevsel olmasa da, tek makineli modeller oluşturmanın basit ve uygun maliyetli bir yoludur.

Yayımlanan Azure Synapse Analytics çalışma zamanını görüntüleyerek kullanılabilir kitaplıklar ve ilgili sürümler hakkında daha fazla bilgi edinebilirsiniz.

MMLSpark

Apache Spark için Microsoft Machine Learning kitaplığı MMLSpark'tır. Bu kitaplık, veri bilimciler için Spark'ta daha üretken hale getirmek, deneme hızını artırmak ve büyük veri kümelerinde derin öğrenme de dahil olmak üzere son teknoloji makine öğrenmesi tekniklerinden yararlanmak için tasarlanmıştır.

MMLSpark, dizinleme dizeleri, verileri makine öğrenmesi algoritmaları tarafından beklenen bir düzene zorlama ve özellik vektörlerini bir araya getirme gibi ölçeklenebilir ML modelleri oluştururken SparkML'nin düşük düzey API'lerinin üzerine bir katman sağlar. MMLSpark kitaplığı, PySpark'ta model oluşturmaya yönelik bu ve diğer yaygın görevleri basitleştirir.

Azure Machine Learning'de otomatik ML (kullanım dışı)

Azure Machine Learning, makine öğrenmesi modellerini eğitmeye, dağıtmanıza, otomatikleştirmenize, yönetmenize ve izlemenize olanak tanıyan bulut tabanlı bir ortamdır. Azure Machine Learning'de otomatik ML eğitim verilerini ve yapılandırma ayarlarını kabul eder ve en iyi modele ulaşmak için farklı özellik normalleştirme/standartlaştırma yöntemlerinin, modellerinin ve hiper parametre ayarlarının birleşimleriyle otomatik olarak yinelenir.

Azure Synapse Analytics içinde otomatik ML kullanırken, kimlik doğrulaması ve model eğitimini basitleştirmek için farklı hizmetler arasındaki derin tümleştirmeden yararlanabilirsiniz.

Uyarı

  • Azure Synapse, 29 Eylül 2023 tarihinden itibaren Spark 2.4 Çalışma Zamanları için resmi desteği sona erdirecektir. 29 Eylül 2023'ün ardından Spark 2.4 ile ilgili destek biletlerine değinmeyeceksiniz. Spark 2.4 için hata veya güvenlik düzeltmeleri için yayın işlem hattı yoktur. Spark 2.4'ün destek kesme tarihinden sonra kullanımı kendi riski altındadır. Olası güvenlik ve işlevsellik endişeleri nedeniyle kullanılmaya devam etmemesi kesinlikle önerilmez.
  • Apache Spark 2.4'ün kullanımdan kaldırılması işleminin bir parçası olarak, Azure Synapse Analytics'teki AutoML'nin de kullanım dışı bırakılacağını bildirmek isteriz. Buna hem düşük kod arabirimi hem de kod aracılığıyla AutoML denemeleri oluşturmak için kullanılan API'ler dahildir.
  • AutoML işlevinin yalnızca Spark 2.4 çalışma zamanı aracılığıyla kullanılabildiğini lütfen unutmayın.
  • AutoML özelliklerinden yararlanmaya devam etmek isteyen müşteriler için verilerinizi Azure Data Lake Storage 2. Nesil (ADLSg2) hesabınıza kaydetmenizi öneririz. Buradan Azure Machine Learning (AzureML) aracılığıyla AutoML deneyimine sorunsuz bir şekilde erişebilirsiniz. Bu geçici çözümle ilgili daha fazla bilgiyi burada bulabilirsiniz.

Azure Yapay Zeka Hizmetleri

Azure AI hizmetleri , duygusal yaklaşım için metinleri analiz etme veya nesneleri veya yüzleri tanımak için görüntüleri analiz etme gibi genel sorunları çözmek için makine öğrenmesi özellikleri sağlar. Bu hizmetleri kullanmak için makine öğrenmesi veya veri bilimi alanında bilgi sahibi olmanıza gerek yoktur. Bilişsel Hizmet, bir makine öğrenmesi çözümündeki bileşenlerin bir bölümünü veya tümünü sağlar: veriler, algoritma ve eğitilmiş model. Bu hizmetler, makine öğrenmesi veya veri bilimi deneyimine ihtiyaç duymadan verileriniz hakkında genel bilgi gerektirir. Önceden eğitilmiş bu Azure AI hizmetlerinden Azure Synapse Analytics içinde otomatik olarak yararlanabilirsiniz.

Sonraki adımlar

Bu makalede, Azure Synapse Analytics'teki Apache Spark havuzlarında makine öğrenmesi modellerini eğitmeye yönelik çeşitli seçeneklere genel bir bakış sunulmaktadır. Aşağıdaki öğreticiyi izleyerek model eğitimi hakkında daha fazla bilgi edinebilirsiniz: