Notatka
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
W tym artykule pokazano, jak używać łącznika spark-tensorflow-connector do zapisywania ramek danych Apache Spark w plikach TFRecord i do ładowania TFRecord za pomocą TensorFlow.
Format pliku TFRecord jest prostym formatem binarnym zorientowanym na rekordy dla danych treningowych uczenia maszynowego. Klasa tf.data.TFRecordDataset umożliwia przesyłanie strumieniowe zawartości co najmniej jednego pliku TFRecord w ramach potoku wejściowego.
Korzystanie z spark-tensorflow-connector biblioteki
Możesz użyć łącznika spark-tensorflow-connector , aby zapisać ramki danych platformy Apache Spark w plikach TFRecord.
spark-tensorflow-connector, jest biblioteką w ekosystemie TensorFlow, która umożliwia konwersję między Spark DataFrames i formatem TFRecords (popularnym formatem przechowywania danych dla TensorFlow). Za pomocą łącznika spark-tensorflow-connector można użyć interfejsów API Spark DataFrame do odczytywania plików TFRecords do DataFrames i zapisywania DataFrame jako TFRecords.
Uwaga
Biblioteka jest zawarta spark-tensorflow-connector w środowisku Databricks Runtime na potrzeby uczenia maszynowego. Aby użyć spark-tensorflow-connector w uwagach do wydania i zgodności środowiska Databricks Runtime, należy zainstalować bibliotekę z Maven. Aby uzyskać szczegółowe informacje, zobacz Pakiet Maven lub Spark.
Przykład: ładowanie danych z plików TFRecord za pomocą biblioteki TensorFlow
W przykładowym notesie pokazano, jak zapisywać dane z ramek danych platformy Apache Spark w plikach TFRecord i ładować pliki TFRecord na potrzeby trenowania uczenia maszynowego.
Pliki TFRecord można załadować przy użyciu tf.data.TFRecordDataset klasy . Aby uzyskać szczegółowe informacje, zobacz Odczytywanie pliku TFRecord z biblioteki TensorFlow.