기계 학습 및 딥 러닝을 위한 데이터 로드

아티클
03/05/2024

이 섹션에서는 ML 및 DL 애플리케이션에 사용할 데이터를 로드하는 방법을 다룹니다. 데이터 로드에 대한 일반적인 내용은 Databricks Lakehouse로 데이터 수집을 참조 하세요.

데이터 로드 및 모델 검사포인트링용 파일 저장

기계 학습 애플리케이션은 데이터 로드 및 모델 검사포인트링을 위해 공유 스토리지를 사용해야 할 수 있습니다. 이는 분산된 딥 러닝에 특히 중요합니다.

Azure Databricks는 Spark 및 로컬 파일 API를 사용하여 클러스터의 데이터에 액세스하기 위한 DBFS(Databricks 파일 시스템)를 제공합니다.

테이블 형식 데이터 로드

테이블 또는 파일에서 테이블 형식 기계 학습 데이터를 로드할 수 있습니다(예: CSV 파일 읽기 및 쓰기 참조). PySpark 메서드를 사용하여 Apache Spark DataFrames를 pandas DataFrames로 변환한 다음 필요에 따라 PySpark 메서드to_numpy()toPandas()를 사용하여 NumPy 형식으로 변환할 수 있습니다.

큰 언어 모델을 미세 조정하기 위한 데이터 준비

포옹 얼굴 변환기 및 포옹 얼굴 데이터 세트를 사용하여 오픈 소스 큰 언어 모델을 미세 조정하기 위해 데이터를 준비할 수 있습니다.

포옹 얼굴 모델을 미세 조정하기 위한 데이터 준비

분산 학습용 데이터 준비

이 섹션에서는 분산 학습용 데이터를 준비하는 두 가지 메서드 Petastorm 및 TFRecords를 다룹니다.

분산 학습을 위한 데이터 준비
- 페타스토밍(권장)
- TFRecord