Salvare i dataframe Apache Spark come file TFRecord

Questo articolo illustra come usare spark-tensorflow-connector per salvare i dataframe apache Spark in file TFRecord e caricare TFRecord con TensorFlow.

Il formato di file TFRecord è un semplice formato binario orientato ai record per i dati di training di ML. La classe tf.data.TFRecordDataset consente di trasmettere il contenuto di uno o più file TFRecord come parte di una pipeline di input.

Usare la spark-tensorflow-connector libreria

È possibile usare spark-tensorflow-connector per salvare i dataframe apache Spark in file TFRecord.

spark-tensorflow-connectorè una libreria all'interno dell'ecosistema TensorFlow che consente la conversione tra dataframe Spark e TFRecords (un formato comune per l'archiviazione dei dati per TensorFlow). Con spark-tensorflow-connector, è possibile usare le API del dataframe Spark per leggere i file TFRecords in dataframe e scrivere dataframe come TFRecords.

Nota

La spark-tensorflow-connector libreria è inclusa in Databricks Runtime per Machine Learning. Per usare spark-tensorflow-connector le versioni e la compatibilità delle note sulla versione di Databricks Runtime, è necessario installare la libreria da Maven. Per informazioni dettagliate, vedere Pacchetto Maven o Spark .

Esempio: Caricare dati da file TFRecord con TensorFlow

Il notebook di esempio illustra come salvare i dati dai dataframe Apache Spark in file TFRecord e caricare i file TFRecord per il training ml.

È possibile caricare i file TFRecord usando la tf.data.TFRecordDataset classe . Per informazioni dettagliate, vedere [Lettura di un file TFRecord](https://www.tensorflow.org/ tutorials/load_data/tfrecord#reading_a_tfrecord_file) da TensorFlow.

Preparare i dati delle immagini per il notebook DL distribuito

Ottenere il notebook