Azure Databricks'te makine öğrenmesi

Tamamlandı

Azure Databricks, makine öğrenmesi modeli geliştirme için kapsamlı, bulut tabanlı bir ortam sağlar. Machine Learning, verileri analiz eden ve modelleyen veri bilimciler ile modelleri dağıtan ve yöneten makine öğrenmesi mühendisleri arasında işbirliği yapan bir disiplindir. Azure Databricks, veri bilim insanlarının veri alımı, araştırma ve hazırlama görevlerinin yanı sıra model eğitimi, değerlendirme ve yönetim görevlerini gerçekleştirmesine olanak tanır.

Machine Learning kişisi için Azure Databricks portalının ekran görüntüsü.

Makine öğrenmesi için Databricks çalışma zamanları

Azure Databricks çalışma alanında küme oluşturduğunuzda, kümeye yüklenecek Databricks çalışma zamanını belirtebilirsiniz. Azure Databricks, makine öğrenmesi için iyileştirilmiş bazı databricks çalışma zamanları içerir. Makine öğrenmesi işlemlerini yönetmek için makine öğrenmesi çerçeveleri ve yardımcı programlar da dahil olmak üzere makine öğrenmesi iş yüklerinde yaygın olarak kullanılan kitaplıklar için destek içerir.

Makine öğrenmesi çözümleri uygulayacaksanız ML çalışma zamanlarından biriyle bir küme oluşturun. Klasik makine öğrenmesi senaryoları için CPU tabanlı bir çalışma zamanı veya derin öğrenme çerçevelerine sahip karmaşık sinir ağları oluşturmanız gerekiyorsa GPU tabanlı çalışma zamanı seçebilirsiniz. Bu da GPU'ların matris ve vektör tabanlı verileri verimli bir şekilde işleme özelliğinden yararlanmasını sağlayabilir.

Azure Databricks'te makine öğrenmesi çerçeveleri

Azure Databricks, dağıtılmış veri işleme için yüksek oranda ölçeklenebilir bir platform olan Apache Spark'ta yerleşiktir. Spark'ta, veri bilimcileri ve makine öğrenmesi mühendisleri genellikle verileri hazırlamak ve makine öğrenmesi modellerini eğitmek için kullanmak üzere kodun PySpark'ta (Spark için iyileştirilmiş bir Python değişkeni) yazıldığı etkileşimli not defterlerinde çalışır. Python ekosisteminde yaygın olarak kullanılan birçok makine öğrenmesi çerçevesi vardır:

  • Scikit-Learn: Tahmine dayalı modelleri eğitip değerlendirmenize yardımcı olmak için çok çeşitli algoritmalar ve diğer kitaplıklar sağlayan popüler bir makine öğrenmesi çerçevesidir.
  • Spark MLlib: Spark için özel olarak oluşturulmuş bir makine öğrenmesi kitaplığı. MLlib, makine öğrenmesi modellerini eğitmek ve değerlendirmek için iki yol sağlar:
    • Spark dayanıklı dağıtılmış veri kümesi (RDD) yapısını temel alan sınıflar.
    • Spark veri çerçevesi yapısını temel alan sınıflar. Bu çerçeve (genellikle Spark ML olarak adlandırılır) MLlib kullanmak için tercih edilen çerçevedir.
  • PyTorch: Karmaşık tahmin, görüntü işleme ve doğal dil işleme iş yükleri için sinir ağı modelleri oluşturmak için kullanılan derin öğrenme çerçevesi.
  • TensorFlow: Yaygın olarak kullanılan bir diğer derin öğrenme çerçevesi.

Makine öğrenmesi modellerini eğitmek ve değerlendirmek için Azure Databricks'te bu çerçevelerden herhangi birini (ve daha fazlasını) kullanabilirsiniz.