Zapisywanie ramek danych platformy Apache Spark jako plików TFRecord

W tym artykule pokazano, jak używać łącznika spark-tensorflow-connector do zapisywania ramek danych Apache Spark w plikach TFRecord i do ładowania TFRecord za pomocą TensorFlow.

Format pliku TFRecord jest prostym formatem binarnym zorientowanym na rekordy dla danych treningowych uczenia maszynowego. Klasa tf.data.TFRecordDataset umożliwia przesyłanie strumieniowe zawartości co najmniej jednego pliku TFRecord w ramach potoku wejściowego.

Korzystanie z `spark-tensorflow-connector` biblioteki

Możesz użyć łącznika spark-tensorflow-connector , aby zapisać ramki danych platformy Apache Spark w plikach TFRecord.

spark-tensorflow-connector, jest biblioteką w ekosystemie TensorFlow, która umożliwia konwersję między Spark DataFrames i formatem TFRecords (popularnym formatem przechowywania danych dla TensorFlow). Za pomocą łącznika spark-tensorflow-connector można użyć interfejsów API Spark DataFrame do odczytywania plików TFRecords do DataFrames i zapisywania DataFrame jako TFRecords.

Uwaga

Biblioteka jest zawarta spark-tensorflow-connector w środowisku Databricks Runtime na potrzeby uczenia maszynowego. Aby użyć spark-tensorflow-connector w uwagach do wydania i zgodności środowiska Databricks Runtime, należy zainstalować bibliotekę z Maven. Aby uzyskać szczegółowe informacje, zobacz Pakiet Maven lub Spark.

Przykład: ładowanie danych z plików TFRecord za pomocą biblioteki TensorFlow

W przykładowym notesie pokazano, jak zapisywać dane z ramek danych platformy Apache Spark w plikach TFRecord i ładować pliki TFRecord na potrzeby trenowania uczenia maszynowego.

Pliki TFRecord można załadować przy użyciu tf.data.TFRecordDataset klasy . Aby uzyskać szczegółowe informacje, zobacz Odczytywanie pliku TFRecord z biblioteki TensorFlow.

Przygotowanie danych obrazowych do notesu rozproszonego uczenia maszynowego

Pobierz laptopa

Opinia

Czy ta strona była pomocna?

Last updated on 2026-05-03