Aracılığıyla paylaş


Mozaik Akış kullanarak veri yükleme

Bu makalede, Apache Spark'tan PyTorch ile uyumlu bir biçime veri dönüştürmek için Mozaik Akış'ın nasıl kullanılacağı açıklanmaktadır.

Mozaik Akış, açık kaynak bir veri yükleme kitaplığıdır. Apache Spark DataFrames olarak zaten yüklenmiş veri kümelerindeki derin öğrenme modellerinin tek düğümlü veya dağıtılmış olarak eğitilip değerlendirilmesini sağlar. Mozaik Akış öncelikle Mozaik Besteci'yi destekler, ancak aynı zamanda yerel PyTorch, PyTorch Lightning ve TorchDistributor ile tümleşir. Mozaik Akış, aşağıdakiler dahil olmak üzere geleneksel PyTorch DataLoader'lara göre bir dizi avantaj sağlar:

  • Görüntüler, metin, video ve çok modüllü veriler dahil olmak üzere tüm veri türleriyle uyumluluk.
  • Büyük bulut depolama sağlayıcıları (AWS, OCI, GCS, Azure, Databricks UC Birimi ve Cloudflare R2, Coreweave, Backblaze b2 gibi S3 uyumlu herhangi bir nesne deposu) için destek
  • Doğruluk garantilerini, performansı, esnekliği ve kullanım kolaylığını en üst düzeye çıkarma. Daha fazla bilgi için temel özellikler sayfasını görüntüleyin.

Mozaik Akış hakkında genel bilgi için Akış API'sinin belgelerini görüntüleyin.

Not

Mozaik Akış, Databricks Runtime 15.2 ML ve üzeri sürümlerine önceden yüklenmiştir.

Mozaik Akış kullanarak Spark DataFrame'lerden veri yükleme

Mozaik Akış, Apache Spark'tan Mozaik Veri Parçası (MDS) biçimine dönüştürmek için basit bir iş akışı sağlar ve dağıtılmış bir ortamda kullanılmak üzere yüklenebilir.

Önerilen iş akışı:

  1. Apache Spark kullanarak verileri yükleme ve isteğe bağlı olarak ön işleme.
  2. Veri çerçevesini geçici depolama için diske ve/veya kalıcı depolama için Unity Kataloğu birimine kaydetmek için kullanın streaming.base.converters.dataframe_to_mds . Bu veriler MDS biçiminde depolanır ve sıkıştırma ve karma oluşturma desteğiyle daha da iyileştirilebilir. Gelişmiş kullanım örnekleri, UDF'ler kullanılarak verilerin ön işlenmesini de içerebilir. Daha fazla bilgi için Spark DataFrame to MDS öğreticisini görüntüleyin.
  3. Gerekli verileri belleğe yüklemek için kullanın streaming.StreamingDataset . StreamingDataset PyTorch'un IterableDataset'inin esnek olarak belirlenimci karıştırma özelliğine sahip olan ve dönem ortasında hızlı bir şekilde yeniden başlatılmasını sağlayan bir sürümüdür. Daha fazla bilgi için StreamingDataset belgelerini görüntüleyin.
  4. Eğitim/değerlendirme/test için gerekli verileri yüklemek için kullanın streaming.StreamingDataLoader . StreamingDataLoader , PyTorch'un DataLoader'ının, modelin bu sırada gördüğü örnek sayısını izlediği ek bir denetim noktası/yeniden başlatma arabirimi sağlayan bir sürümüdür.

Uçtan uca bir örnek için aşağıdaki not defterine bakın:

Mozaik Akış not defterini kullanarak Spark'tan PyTorch'a veri yüklemeyi basitleştirme

Not defterini alma