Salvare i dataframe Apache Spark come file TFRecord
Questo articolo illustra come usare spark-tensorflow-connector per salvare i dataframe apache Spark in file TFRecord e caricare TFRecord con TensorFlow.
Il formato di file TFRecord è un semplice formato binario orientato ai record per i dati di training di ML. La classe tf.data.TFRecordDataset consente di trasmettere il contenuto di uno o più file TFRecord come parte di una pipeline di input.
Usare la spark-tensorflow-connector
libreria
È possibile usare spark-tensorflow-connector per salvare i dataframe apache Spark in file TFRecord.
spark-tensorflow-connector
è una libreria all'interno dell'ecosistema TensorFlow che consente la conversione tra dataframe Spark e TFRecords (un formato comune per l'archiviazione dei dati per TensorFlow). Con spark-tensorflow-connector, è possibile usare le API del dataframe Spark per leggere i file TFRecords in dataframe e scrivere dataframe come TFRecords.
Nota
La spark-tensorflow-connector
libreria è inclusa in Databricks Runtime per Machine Learning. Per usare spark-tensorflow-connector
le versioni e la compatibilità delle note sulla versione di Databricks Runtime, è necessario installare la libreria da Maven. Per informazioni dettagliate, vedere Pacchetto Maven o Spark .
Esempio: Caricare dati da file TFRecord con TensorFlow
Il notebook di esempio illustra come salvare i dati dai dataframe Apache Spark in file TFRecord e caricare i file TFRecord per il training ml.
È possibile caricare i file TFRecord usando la tf.data.TFRecordDataset
classe . Per informazioni dettagliate, vedere [Lettura di un file TFRecord](https://www.tensorflow.org/ tutorials/load_data/tfrecord#reading_a_tfrecord_file) da TensorFlow.