Bagikan melalui


Menyiapkan data untuk pelatihan terdistribusi

Artikel ini menjelaskan metode untuk menyiapkan data untuk pelatihan terdistribusi: Mosaic Streaming dan TFRecords.

Mosaic Streaming adalah pustaka pemuatan data sumber terbuka yang memungkinkan streaming himpunan data besar yang efisien dari penyimpanan cloud. Pustaka ini unggul dalam menangani set data besar yang tidak muat dalam memori, karena dirancang khusus untuk pelatihan terdistribusi dan multi-simpul model-model besar. Mosaic Streaming menawarkan integrasi yang mulus dengan PyTorch dan ekosistem MosaicML. Artikel berikut mengilustrasikan kasus penggunaan ini:

TFRecord

Anda juga dapat menggunakan format TFRecord sebagai sumber data untuk pembelajaran mendalam terdistribusi. Format TFRecord adalah format biner berorientasi rekaman sederhana yang digunakan banyak aplikasi TensorFlow untuk data pelatihan.

tf.data.TFRecordDataset adalah himpunan data TensorFlow, yang terdiri dari catatan dari file TFRecords. Untuk detail selengkapnya tentang cara mengonsumsi data TFRecord, lihat panduan TensorFlow tentang Mengonsumsi data TFRecord.

Artikel berikut menjelaskan dan mengilustrasikan cara yang disarankan untuk menyimpan data Anda ke file TFRecord dan memuat file TFRecord: