TFRecord 파일로 Apache Spark DataFrames 저장
TFRecord 파일 형식은 ML 학습 데이터에 대한 간단한 레코드 지향 이진 형식입니다. tf.data.TFRecordDataset 클래스를 사용하면 입력 파이프라인의 일부로 하나 이상의 TFRecord 파일의 콘텐츠를 스트리밍할 수 있습니다.
참고
이 가이드는 TensorFlow를 사용하여 데이터를 가져오는 포괄적인 가이드가 아닙니다. TensorFlow API 가이드를 참조하세요.
TFRecord 파일에 Apache Spark DataFrames 저장
spark-tensorflow-connector를 사용하여 Apache Spark DataFrames를 TFRecord 파일에 저장할 수 있습니다.
spark-tensorflow-connector는 TensorFlow 에코시스템 내의 라이브러리로, Spark DataFrames와 TFRecords 간에 변환할 수 있습니다(TensorFlow에 대한 데이터를 저장하는 데 널리 사용되는 형식). spark-tensorflow-connector를 사용하면 Spark DataFrame API를 사용하여 TFRecords 파일을 DataFrames로 읽고 DataFrames를 TFRecords로 쓸 수 있습니다.
참고
spark-tensorflow-connector 라이브러리는 기계 학습 및 데이터 과학을 위한 즉시 사용할 수 있는 환경을 제공하는 기계 학습 런타임인 Machine Learning용 Databricks Runtime에 포함되어 있습니다. 다음 지침을 사용하여 라이브러리를 설치하는 대신 Machine Learning용 Databricks Runtime을 사용하여 클러스터를 만들 수 있습니다. Databricks Runtime에서 spark-tensorflow-connector를 사용하려면 Maven에서 라이브러리를 설치해야 합니다. 자세한 내용은 Maven 또는 Spark 패키지를 참조하세요.
TensorFlow를 사용하여 TFRecord 파일에서 데이터 로드
tf.data.TFRecordDataset
클래스를 사용하여 TFRecord 파일을 로드할 수 있습니다. 자세한 내용은 TensorFlow에서 TFRecord 파일 읽기를 참조하세요.
다음 예제 Notebook에서는 Apache Spark DataFrames에서 TFRecord 파일로 데이터를 저장하고 ML 학습을 위해 TFRecord 파일을 로드하는 방법을 보여 줍니다.