다음을 통해 공유


Azure Databricks의 Apache Spark

Apache Spark는 Azure Databricks Data Intelligence 플랫폼의 핵심이며 컴퓨팅 클러스터 및 SQL 웨어하우스를 구동하는 기술입니다. Azure Databricks는 Apache Spark 워크로드를 실행하기 위한 효율적이고 간단한 플랫폼을 제공하는 Apache Spark에 최적화된 플랫폼입니다.

Apache Spark와 Azure Databricks는 어떤 관계가 있나요?

Databricks 회사는 Apache Spark의 원래 제작자에 의해 설립되었습니다. 오픈 소스 소프트웨어 프로젝트인 Apache Spark는 Databricks를 비롯한 여러 상위 회사의 위탁자를 보유하고 있습니다.

Databricks는 지속적으로 Apache Spark의 기능을 개발하고 릴리스합니다. Azure Databricks를 지원하는 Databricks 런타임에는 Spark와 함께 사용할 수 있는 최적화된 실행 계층인 Photon을 포함하여 Apache Spark를 기반으로 빌드하고 확장하는 추가 최적화 및 독점 기능이 포함됩니다. Databricks Photon은 Apache Spark 워크로드의 성능을 개선하고 작동하도록 설계되었습니다. Photon은 쿼리 및 기타 작업을 벡터화하여 Spark의 성능을 향상시켜 SQL 및 DataFrame API 작업을 더 빠르게 실행할 수 있도록 합니다.

Databricks는 Apache Spark에 어떻게 최적화되었나요?

Apache Spark에서 모든 작업은 변환 또는 작업으로 정의됩니다.

  • 변환: 계획에 일부 처리 논리를 추가합니다. 예를 들어 데이터 읽기, 조인, 집계 및 형식 캐스팅이 있습니다.
  • 작업: 결과를 평가하고 출력하는 처리 논리를 트리거합니다. 예를 들어 쓰기, 결과 표시 또는 미리 보기, 수동 캐싱 또는 행 수 가져오기 등이 있습니다.

Apache Spark는 지연 실행 모델을 사용합니다. 즉, 작업이 트리거될 때까지 작업 컬렉션에 정의된 논리가 평가되지 않습니다. 논리를 불필요하게 평가하지 않도록 하려면 작업만 사용하여 결과를 대상 테이블에 다시 저장합니다.

작업은 논리 최적화를 위한 처리 병목 상태를 나타내기 때문에 Azure Databricks는 최적의 논리 실행을 보장하기 위해 Apache Spark에 이미 있는 최적화를 기반으로 수많은 최적화를 추가했습니다. 이러한 최적화는 지정된 작업에 의해 트리거되는 모든 변환을 한 번에 고려하고 데이터의 실제 레이아웃에 따라 최적의 계획을 찾습니다. 수동으로 데이터를 캐싱하거나 프로덕션 파이프라인에서 미리 보기 결과를 반환하면 이러한 최적화가 중단되고 비용 및 대기 시간이 증가할 수 있습니다.

Apache Spark는 Azure Databricks에서 어떻게 작동하나요?

Azure Databricks에 컴퓨팅 클러스터 또는 SQL 웨어하우스를 배포하면 Apache Spark가 구성되고 가상 머신에 배포됩니다. Azure Databricks에서 관리하므로 Spark 컨텍스트 또는 Spark 세션을 구성하거나 초기화할 필요가 없습니다.

Apache Spark를 사용하지 않고 Azure Databricks를 사용할 수 있나요?

예. Azure Databricks는 다양한 워크로드를 지원하며 Databricks 런타임에 오픈 소스 라이브러리를 포함합니다. Databricks SQL은 내부적으로 Photon 을 사용하지만 최종 사용자는 Spark SQL 구문을 사용하여 Photon을 사용하여 데이터베이스 개체를 만들고 쿼리할 수 있습니다.

Machine Learning용 Databricks Runtime은 ML 워크로드에 최적화되어 있으며, 많은 데이터 과학자들이 Azure Databricks에서 작업하는 동안 TensorFlow 및 SciKit Learn과 같은 주요 오픈 소스 라이브러리를 사용합니다. 작업을 사용하여 Azure Databricks에서 배포 및 관리하는 컴퓨팅 리소스에 대해 원하는 워크로드를 예약할 수 있습니다.

Azure Databricks에서 Apache Spark를 사용하는 이유는 무엇인가요?

Databricks 플랫폼은 비즈니스에 맞게 확장되는 엔터프라이즈 솔루션을 개발하고 배포하기 위한 안전하고 공동 작업적인 환경을 제공합니다. Databricks 직원은 세계에서 가장 지식이 많은 Apache Spark 유지 관리자 및 사용자를 포함합니다. 이 회사는 사용자가 Apache Spark를 실행하기 위해 가장 빠른 환경에 액세스할 수 있도록 새로운 최적화를 지속적으로 개발하고 릴리스합니다.

Azure Databricks에서 Apache Spark를 사용하는 방법에 대해 자세히 알아보려면 어떻게 해야 하나요?

Azure Databricks에서 Apache Spark를 시작하려면 바로 살펴보세요! Apache Spark DataFrames 자습서에서는 Python, R 또는 Scala에서 데이터를 로드하고 변환하는 방법을 안내합니다. 자습서: Apache Spark DataFrames를 사용하여 데이터 로드 및 변환을 참조하세요.

Spark의 Python, R 및 Scala 언어 지원에 대한 자세한 내용은 Azure Databricks, sparklyrScala 개발자용 Azure DatabricksPySparkApache Spark API에 대한 참조를 참조하세요.