Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Bu bölümde, özellikle ML ve DL uygulamalarına yönelik verileri yükleme hakkındaki bilgiler ele alınmaktadır. Verileri yükleme hakkında genel bilgi için bkz. Lakeflow Connect'te standart bağlayıcılar.
Veri yüklemek ve model denetim noktası oluşturmak için dosyaları depolama
Makine öğrenmesi uygulamalarının, veri yükleme ve model denetim noktası oluşturma için paylaşılan depolama alanı kullanması gerekebilir. Bu, özellikle dağıtılmış derin öğrenme için önemlidir.
Azure Databricks, veriler ve yapay zeka varlıkları için birleşik bir idare çözümü olan Unity Kataloğusağlar. Hem Spark hem de yerel dosya API'lerini kullanarak kümedeki verilere erişmek için Unity Kataloğu'nu kullanabilirsiniz.
Tablo verilerini yükleme
Tablosal makine öğrenmesi verilerini tablolardan veya dosyalardan yükleyebilirsiniz (örneğin, bkz. CSV dosyalarını okuma). PySpark yöntemini kullanarak Apache Spark DataFrames'i pandas DataFrames'e dönüştürebilir, ardından isteğe bağlı olarak NumPy formatına çevirmek için yine PySpark yöntemini kullanabilirsiniztoPandas().
Büyük dil modellerinde ince ayar yapmak için verileri hazırlama
Hugging Face Datasets ve Hugging Face Transformers ile verilerinizi açık kaynak büyük dil modellerinde ince ayar yapmak için hazırlayabilirsiniz.
Hugging Face modellerini ince ayar için veri hazırlama
Dağıtılmış derin öğrenme eğitimi için verileri hazırlama
Bu bölüm, Mozaik Akış ve TFRecords kullanarak dağıtılmış derin öğrenme eğitimi için veri hazırlamayı kapsar.