TFRecord 파일로 Apache Spark DataFrames 저장

이 문서에서는 spark-tensorflow-connector를 사용하여 Apache Spark DataFrames를 TFRecord 파일에 저장하고 TensorFlow로 TFRecord를 로드하는 방법을 보여 줍니다.

TFRecord 파일 형식은 ML 학습 데이터에 대한 간단한 레코드 지향 이진 형식입니다. tf.data.TFRecordDataset 클래스를 사용하면 입력 파이프라인의 일부로 하나 이상의 TFRecord 파일의 콘텐츠를 스트리밍할 수 있습니다.

라이브러리 사용 spark-tensorflow-connector

spark-tensorflow-connector를 사용하여 Apache Spark DataFrames를 TFRecord 파일에 저장할 수 있습니다.

spark-tensorflow-connector는 Spark DataFrames와 TFRecords(TensorFlow에 대한 데이터를 저장하기 위한 인기 있는 형식) 간의 변환을 가능하게 하는 TensorFlow 에코시스템의 라이브러리입니다. spark-tensorflow-connector를 사용하면 Spark DataFrame API를 사용하여 TFRecords 파일을 DataFrames로 읽고 DataFrames를 TFRecords로 쓸 수 있습니다.

참고 항목

spark-tensorflow-connector 이 라이브러리는 Machine Learning용 Databricks 런타임에 포함되어 있습니다. Databricks 런타임 릴리스 정보 버전 및 호환성에서 사용 spark-tensorflow-connector 하려면 Maven에서 라이브러리를 설치해야 합니다. 자세한 내용은 Maven 또는 Spark 패키지를 참조하세요.

예: TensorFlow를 사용하여 TFRecord 파일에서 데이터 로드

예제 Notebook은 Apache Spark DataFrames에서 TFRecord 파일로 데이터를 저장하고 ML 학습을 위해 TFRecord 파일을 로드하는 방법을 보여 줍니다.

tf.data.TFRecordDataset 클래스를 사용하여 TFRecord 파일을 로드할 수 있습니다. 자세한 내용은 TensorFlow에서 [TFRecord 파일 읽기](https://www.tensorflow.org/ 자습서/load_data/tfrecord#reading_a_tfrecord_file)를 참조하세요.

분산 DL Notebook에 대한 이미지 데이터 준비

전자 필기장 가져오기