Makine öğrenmesi ve derin öğrenme için veri yükleme
Bu bölümde, özellikle ML ve DL uygulamalarına yönelik verileri yükleme hakkındaki bilgiler ele alınmaktadır. Verileri yükleme hakkında genel bilgi için bkz . Databricks lakehouse'a veri alma.
Veri yüklemek ve model denetim noktası oluşturmak için dosyaları depolama
Makine öğrenmesi uygulamalarının, veri yükleme ve model denetim noktası oluşturma için paylaşılan depolama alanı kullanması gerekebilir. Bu, özellikle dağıtılmış derin öğrenme için önemlidir.
Azure Databricks, hem Spark hem de yerel dosya API'lerini kullanarak kümedeki verilere erişmek için Databricks Dosya Sistemi'ni (DBFS) sağlar.
Tablo verilerini yükleme
Tablosal makine öğrenmesi verilerini tablolardan veya dosyalardan yükleyebilirsiniz (örneğin, bkz. CSV dosyalarını okuma). PySpark yöntemini toPandas()
kullanarak Apache Spark DataFrames'i pandas DataFrames'e dönüştürebilir ve ardından isteğe bağlı olarak PySpark yöntemini to_numpy()
kullanarak NumPy biçimine dönüştürebilirsiniz.
Büyük dil modellerinde ince ayar yapmak için verileri hazırlama
Yüz Dönüştürücülerini Kucaklama ve Yüz Veri Kümelerini Kucaklama ile verilerinizi açık kaynak büyük dil modellerinde ince ayar yapmak için hazırlayabilirsiniz.
Yüz Tanıma modellerinde ince ayarlama yapmak için verileri hazırlama
Dağıtılmış eğitim için verileri hazırlama
Bu bölüm, dağıtılmış eğitim için veri hazırlamaya yönelik üç yöntemi kapsar: Mozaik Akış, Petastorm ve TFRecords.
Geri Bildirim
https://aka.ms/ContentUserFeedback.
Çok yakında: 2024 boyunca, içerik için geri bildirim mekanizması olarak GitHub Sorunları’nı kullanımdan kaldıracak ve yeni bir geri bildirim sistemiyle değiştireceğiz. Daha fazla bilgi için bkz.Gönderin ve geri bildirimi görüntüleyin