TFRecord 파일로 Apache Spark DataFrames 저장

TFRecord 파일 형식은 ML 학습 데이터에 대한 간단한 레코드 지향 이진 형식입니다. tf.data.TFRecordDataset 클래스를 사용하면 입력 파이프라인의 일부로 하나 이상의 TFRecord 파일의 콘텐츠를 스트리밍할 수 있습니다.

참고

이 가이드는 TensorFlow를 사용하여 데이터를 가져오는 포괄적인 가이드가 아닙니다. TensorFlow API 가이드를 참조하세요.

TFRecord 파일에 Apache Spark DataFrames 저장

spark-tensorflow-connector를 사용하여 Apache Spark DataFrames를 TFRecord 파일에 저장할 수 있습니다.

spark-tensorflow-connectorTensorFlow 에코시스템 내의 라이브러리로, Spark DataFrames와 TFRecords 간에 변환할 수 있습니다(TensorFlow에 대한 데이터를 저장하는 데 널리 사용되는 형식). spark-tensorflow-connector를 사용하면 Spark DataFrame API를 사용하여 TFRecords 파일을 DataFrames로 읽고 DataFrames를 TFRecords로 쓸 수 있습니다.

참고

spark-tensorflow-connector 라이브러리는 기계 학습 및 데이터 과학을 위한 즉시 사용할 수 있는 환경을 제공하는 기계 학습 런타임인 Machine Learning용 Databricks Runtime에 포함되어 있습니다. 다음 지침을 사용하여 라이브러리를 설치하는 대신 Machine Learning용 Databricks Runtime을 사용하여 클러스터를 만들 수 있습니다. Databricks Runtime에서 spark-tensorflow-connector를 사용하려면 Maven에서 라이브러리를 설치해야 합니다. 자세한 내용은 Maven 또는 Spark 패키지를 참조하세요.

TensorFlow를 사용하여 TFRecord 파일에서 데이터 로드

tf.data.TFRecordDataset 클래스를 사용하여 TFRecord 파일을 로드할 수 있습니다. 자세한 내용은 TensorFlow에서 TFRecord 파일 읽기를 참조하세요.

다음 예제 Notebook에서는 Apache Spark DataFrames에서 TFRecord 파일로 데이터를 저장하고 ML 학습을 위해 TFRecord 파일을 로드하는 방법을 보여 줍니다.

분산 DL에 대한 이미지 데이터 준비

Notebook 가져오기