다음을 통해 공유


Apache Spark용 Python 사용

Microsoft Fabric은 Apache Spark에 대한 기본 제공 Python 지원을 제공합니다. 여기에는 사용자가 친숙한 Spark 또는 R 인터페이스를 사용하여 Spark와 상호 작용할 수 있는 PySpark에 대한 지원도 포함됩니다.

Spark 일괄 처리 작업 정의 또는 대화형 패브릭 Notebook을 통해 Python을 사용하여 데이터를 분석할 수 있습니다. 이 문서에서는 Python 언어를 사용하여 Synapse에서 Spark 애플리케이션을 개발하는 방법에 대한 개요를 제공합니다.

Notebook 세션 만들기 및 실행

Microsoft Fabric Notebook은 라이브 코드, 시각화, 내레이션 텍스트를 포함하는 파일을 만들 수 있는 웹 인터페이스입니다. Notebook은 아이디어를 검증하고 빠른 실험을 사용하여 데이터를 통해 인사이트를 확보하기 좋은 도구입니다. Notebook은 데이터 준비, 데이터 시각화, 기계 학습 및 기타 빅 데이터 시나리오에서도 널리 사용됩니다.

Microsoft Fabric Notebook에서 Python을 시작하려면 언어 옵션을 PySpark(Python)로 설정하여 Notebook 맨 위에 있는 기본 언어를 변경합니다.

%%pyspark
# Enter your Python code here

셀 시작 부분에 올바른 언어 매직 명령을 지정하면 Notebook 하나에서 여러 언어를 사용할 수 있습니다.

Microsoft Fabric Analytics의 Notebook에 대한 자세한 내용은 Notebook을 사용하는 방법을 참조하세요.

패키지 설치

라이브러리는 프로그램 또는 프로젝트에 포함시키는 것이 좋은 재사용 가능한 코드를 제공합니다. 애플리케이션에서 파트너 코드 또는 로컬로 빌드된 코드를 사용할 수 있도록 하려면 Notebook 세션에 인라인으로 라이브러리를 설치합니다. 또는 작업 영역 관리자가 환경을 만들고, 라이브러리를 설치하고, 작업 영역 설정에서 작업 영역 기본값으로 환경을 연결할 수 있습니다.

Microsoft Fabric의 라이브러리 관리에 대한 자세한 내용은 Apache Spark 라이브러리 관리를 참조하세요.

Notebook 유틸리티

Microsoft Spark 유틸리티(MSSparkUtils)는 일반적인 작업을 쉽게 할 수 있게 돕는 기본 제공 패키지입니다. MSSparkUtils를 사용하여 파일 시스템 작업을 하고, 환경 변수를 가져오고, Notebook을 서로 연결하고, 비밀을 사용할 수 있습니다. MSSparkUtils는 PySpark Notebook에 대해 지원됩니다.

시작하려면 다음 명령을 실행하면 됩니다.

from notebookutils import mssparkutils
mssparkutils.notebook.help()

지원되는 MSSparkUtils 명령에 대한 자세한 내용은 Microsoft Spark 유틸리티 사용을 참조하세요.

Spark에서 Pandas 사용

Spark의 Pandas API를 사용하면 여러 노드에 분산된 Pandas 워크로드를 실행하여 모든 크기로 Pandas 워크로드를 확장할 수 있습니다. pandas에 이미 익숙하고 빅 데이터에 Spark를 사용하려는 경우 Spark의 pandas API를 사용하면 즉시 생산성을 높일 수 있습니다.

코드를 수정하지 않고 애플리케이션을 마이그레이션할 수 있습니다. pandas, 테스트 및 더 작은 데이터 세트, Spark와 함께 프로덕션 및 분산 데이터 세트 둘 다에서 작동하는 단일 코드베이스를 가질 수 있습니다. Spark의 Pandas API와 Pandas API 간에 오버헤드 없이 쉽게 전환할 수 있습니다.

Python 런타임

Microsoft Fabric 런타임은 데이터 과학 및 기계 학습에 최적화된 큐레이팅된 환경입니다. Microsoft Fabric 런타임은 Pandas, PyTorch, scikit-learn 및 XGBoost와 같은 라이브러리를 포함하여 인기 있는 다양한 Python 오픈 소스 라이브러리를 제공합니다.

Python 시각화

Python 에코시스템은 다양한 기능으로 가득 찬 여러 그래프 라이브러리를 제공합니다. 기본적으로 Microsoft Fabric의 모든 Spark 인스턴스에는 큐레이팅되고 인기 있는 오픈 소스 라이브러리 집합이 포함되어 있습니다. 다른 라이브러리 또는 버전을 추가하거나 관리할 수도 있습니다. 라이브러리 관리에 대한 자세한 내용은 라이브러리 관리 모범 사례 요약을 참조 하세요.

Python 시각화를 만드는 방법에 대한 자세한 내용은 Python 시각화를 참조하세요.