Makine öğrenmesi ve derin öğrenme için veri yükleme

Bu bölümde, özellikle ML ve DL uygulamalarına yönelik verileri yükleme hakkındaki bilgiler ele alınmaktadır. Verileri yükleme hakkında genel bilgi için bkz. Lakeflow Connect'te standart bağlayıcılar.

Veri yüklemek ve model denetim noktası oluşturmak için dosyaları depolama

Makine öğrenmesi uygulamalarının, veri yükleme ve model denetim noktası oluşturma için paylaşılan depolama alanı kullanması gerekebilir. Bu, özellikle dağıtılmış derin öğrenme için önemlidir.

Azure Databricks, veriler ve yapay zeka varlıkları için birleşik bir idare çözümü olan Unity Kataloğusağlar. Hem Spark hem de yerel dosya API'lerini kullanarak kümedeki verilere erişmek için Unity Kataloğu'nu kullanabilirsiniz.

Tablo verilerini yükleme

Tablosal makine öğrenmesi verilerini tablolardan veya dosyalardan yükleyebilirsiniz (örneğin, bkz. CSV dosyalarını okuma). PySpark yöntemini kullanarak Apache Spark DataFrames'i pandas DataFrames'e dönüştürebilir, ardından isteğe bağlı olarak NumPy formatına çevirmek için yine PySpark yöntemini kullanabilirsiniztoPandas().

Büyük dil modellerinde ince ayar yapmak için verileri hazırlama

Hugging Face Datasets ve Hugging Face Transformers ile verilerinizi açık kaynak büyük dil modellerinde ince ayar yapmak için hazırlayabilirsiniz.

Hugging Face modellerini ince ayar için veri hazırlama

Dağıtılmış derin öğrenme eğitimi için verileri hazırlama

Bu bölüm, Mozaik Akış ve TFRecords kullanarak dağıtılmış derin öğrenme eğitimi için veri hazırlamayı kapsar.