Zapisywanie ramek danych platformy Apache Spark jako plików TFRecord

W tym artykule pokazano, jak używać łącznika spark-tensorflow-connector do zapisywania ramek danych platformy Apache Spark w plikach TFRecord i ładowania pliku TFRecord za pomocą biblioteki TensorFlow.

Format pliku TFRecord jest prostym formatem binarnym zorientowanym na rekordy dla danych treningowych uczenia maszynowego. Klasa tf.data.TFRecordDataset umożliwia przesyłanie strumieniowe zawartości co najmniej jednego pliku TFRecord w ramach potoku wejściowego.

Korzystanie z spark-tensorflow-connector biblioteki

Możesz użyć łącznika spark-tensorflow-connector , aby zapisać ramki danych platformy Apache Spark w plikach TFRecord.

spark-tensorflow-connectorjest biblioteką w ekosystemie TensorFlow, która umożliwia konwersję między ramkami danych platformy Spark i elementami TFRecords (popularnym formatem przechowywania danych dla biblioteki TensorFlow). Za pomocą łącznika spark-tensorflow-connector można użyć interfejsów API ramki danych Spark do odczytywania plików TFRecords do ramek danych i zapisywania ramek danych jako tfRecords.

Uwaga

Biblioteka jest zawarta spark-tensorflow-connector w środowisku Databricks Runtime for Machine Edukacja. Aby użyć spark-tensorflow-connectorinformacji o wersji środowiska Databricks Runtime i zgodności, należy zainstalować bibliotekę z narzędzia Maven. Aby uzyskać szczegółowe informacje, zobacz Pakiet Maven lub Spark.

Przykład: ładowanie danych z plików TFRecord za pomocą biblioteki TensorFlow

W przykładowym notesie pokazano, jak zapisywać dane z ramek danych platformy Apache Spark w plikach TFRecord i ładować pliki TFRecord na potrzeby trenowania uczenia maszynowego.

Pliki TFRecord można załadować przy użyciu tf.data.TFRecordDataset klasy . Aby uzyskać szczegółowe informacje, zobacz [Odczyt pliku TFRecord](https://www.tensorflow.org/ tutorials/load_data/tfrecord#reading_a_tfrecord_file) z biblioteki TensorFlow.

Przygotowywanie danych obrazów do notesu rozproszonej biblioteki DLL

Pobierz notes