다음을 통해 공유


딥 러닝(사용되지 않음)

Azure Synapse Analytics의 Apache Spark는 빅 데이터로 기계 학습을 가능하게 하여 대량의 정형, 비정형 및 빠르게 이동하는 데이터에서 귀중한 통찰력을 얻을 수 있는 기능을 제공합니다. Azure Synapse Analytics에서 Azure Spark를 사용하여 기계 학습 모델을 교육할 때 Apache Spark MLlib, Azure Machine Learning 및 기타 다양한 오픈 소스 라이브러리와 같은 몇 가지 옵션이 있습니다.

참고 항목

Azure Synapse GPU 지원 풀 미리 보기는 이제 더 이상 사용되지 않습니다.

주의

Apache Spark 3.1 및 3.2용 Azure Synapse Runtime의 GPU에 대한 사용 중단 및 사용하지 않도록 설정 알림

  • GPU 가속 미리 보기는 이제 Apache Spark 3.2(사용되지 않음) 런타임에서 더 이상 사용되지 않습니다. 더 이상 사용되지 않는 런타임에는 버그 및 기능 수정이 포함되지 않습니다. Spark 3.2의 이 런타임과 해당 GPU 가속 미리 보기는 2024년 7월 8일부터 사용 중지되고 사용하지 않도록 설정되었습니다.
  • GPU 가속 미리 보기는 이제 Azure Synapse 3.1(사용되지 않음) 런타임에서 더 이상 사용되지 않습니다. Apache Spark 3.1용 Azure Synapse Runtime은 2023년 1월 26일에 지원이 종료되고 공식 지원은 2024년 1월 26일부터 중단되었으며, 이 날짜 이후에는 지원 티켓, 버그 수정 또는 보안 업데이트가 더 이상 없습니다.

GPU 지원 Apache Spark 풀

풀을 만들고 관리하는 프로세스를 간소화하기 위해 Azure Synapse는 하위 수준 라이브러리를 미리 설치하고 컴퓨팅 노드 간에 복잡한 네트워킹 요구 사항을 모두 설정합니다. 이 통합을 통해 사용자는 GPU 가속 풀을 몇 분 이내에 시작할 수 있습니다.

참고 항목

  • GPU 가속 풀은 미국 동부, 오스트레일리아 동부 및 북유럽에 있는 작업 영역에서 만들 수 있습니다.
  • GPU 가속 풀은 Apache Spark 3.1(사용되지 않음) 및 3.2 런타임(사용되지 않음)에서만 사용할 수 있습니다.
  • GPU 사용 클러스터를 만들려면 제한 증가를 요청해야 할 수 있습니다.

GPU ML 환경

Azure Synapse Analytics는 딥 러닝 인프라에 대한 기본 제공 지원을 제공합니다. Apache Spark 3용 Azure Synapse Analytics 런타임에는 TensorFlow 및 PyTorch와 같은 가장 일반적인 딥 러닝 라이브러리에 대한 지원이 포함됩니다. Azure Synapse 런타임에는 분산 학습에 일반적으로 사용되는 Petastorm 및 Horovod와 같은 지원 라이브러리도 포함되어 있습니다.

Tensorflow

TensorFlow는 모든 개발자를 위한 오픈 소스 기계 학습 프레임워크입니다. 기계 학습 및 딥 러닝 애플리케이션을 구현하는 데 사용됩니다.

Tensorflow에 대한 자세한 내용은 Tensorflow API 설명서를 참조하세요.

PyTorch

PyTorch는 GPU와 CPU를 사용하는 딥 러닝에 최적화된 텐서 라이브러리입니다.

PyTorch에 대한 자세한 내용은 PyTorch 설명서를 참조하세요.

Horovod

Horovod는 TensorFlow, Keras 및 PyTorch를 위한 분산 딥 러닝 학습 프레임워크입니다. Horovod는 분산 딥 러닝을 빠르고 쉽게 사용할 수 있도록 개발되었습니다. 이 프레임워크를 사용하면 몇 줄의 코드로 수백 개의 GPU에서 실행되도록 기존 학습 스크립트를 확장할 수 있습니다. 또한 Horovod는 Apache Spark 위에서 실행할 수 있으므로 데이터 처리 및 모델 학습을 단일 파이프라인으로 통합할 수 있습니다.

Azure Synapse Analytics에서 분산 학습 작업을 실행하는 방법에 대해 자세히 알아보려면 다음 자습서를 참조하세요. - 자습서: Horovod 및 PyTorch를 사용한 분산 학습 - 자습서: Horovod 및 Tensorflow를 사용한 분산 학습

Horovod에 대한 자세한 내용은 Horovod 설명서를 참조하세요.

Petastorm

Petastorm은 딥 러닝 모델의 단일 노드 또는 분산 학습을 가능하게 하는 오픈 소스 데이터 액세스 라이브러리입니다. 이 라이브러리를 사용하면 Apache Parquet 형식의 데이터 세트와 이미 Apache Spark DataFrame으로 로드된 데이터 세트에서 직접 학습할 수 있습니다. Petastorm은 Tensorflow 및 PyTorch와 같은 인기 있는 학습 프레임워크를 지원합니다.

Petastorm에 대한 자세한 내용은 Petastorm GitHub 페이지 또는 Petastorm API 설명서를 참조하세요.

다음 단계

이 문서에서는 Azure Synapse Analytics의 Apache Spark 풀 내에서 기계 학습 모델을 학습하는 다양한 옵션에 대한 개요를 제공합니다. 아래 자습서를 따라 모델 학습에 대해 자세히 알아볼 수 있습니다.