영어로 읽기

다음을 통해 공유


Databricks에서 개발

Databricks 개발자 사용자는 데이터 과학자, 데이터 엔지니어, 데이터 분석가, 기계 학습 엔지니어뿐만 아니라 DevOps 및 MLOps 엔지니어를 포함하며, 모든 빌드 솔루션 및 통합을 통해 특정 요구 사항에 맞게 Databricks를 확장하고 사용자 지정합니다. 작업 영역에서 사용할 수 있는 많은 Databricks API 및 데이터 엔지니어링 기능 외에도 Databricks에 연결하고 Databricks의 개발자 사용자를 지원하는 로컬로 개발하기 위한 많은 도구가 있습니다.

이 문서에서는 Databricks 개발자 사용자가 사용할 수 있는 API 및 도구에 대한 개요를 제공합니다.

작업 영역에서 코딩 시작

작업 영역에서 개발하는 것은 Databricks API를 빠르게 숙지하는 좋은 방법입니다. Databricks는 유용한 도구 및 유틸리티를 포함하여 작업 영역에서 Python, SQL, Scala, R 및 기타 개발자 중심 기능을 지원합니다.

시작하는 몇 가지 방법은 다음과 같습니다.

  • 개요를 읽고 Python, ScalaR대한 다양한 시나리오에 대한 자습서 링크를 찾습니다. 다양한 언어로 지원되는 도구 테이블은 Languages 개요참조하세요.
  • SQL 언어 참조 찾아서 기능의 깊이와 폭을 살펴봅니다.
  • 자습서: Python, Scala 또는 R에서 Apache Spark DataFrames 사용하여 데이터 로드 및 변환을 통해 Spark API를 소개합니다. PySpark에 대한 추가 간단한 예제는 PySpark 기본에 있습니다.
  • 사용 가능한 참조 설명서를 찾아보세요. 여기에는 다른 도구로 생성 및 수정할 수 있는 Databricks 개체에 대한 좋은 그림을 제공하는 REST API 참조도 포함되어 있습니다.
  • Notebook에 Python SDK 설치하고 간단한 함수를 작성합니다.
  • 유틸리티를 사용하여 Databricks 환경을 조작하는 데 익숙해지도록 fsdbutils 명령을 사용하여 일부 파일을 이동합니다.

사용자 지정 앱 및 솔루션 빌드

Azure Databricks는 작업 영역과 로컬 개발 모두에 대한 도구를 제공합니다. UI를 사용하여 앱을 만들 수 있는 작업 영역에서는 Unity 카탈로그 볼륨 및 작업 영역 파일에서 데이터에 쉽게 액세스할 수 있고, 디버깅을 위한 Databricks Assistant와 같은 작업 영역 전용 기능을 사용할 수 있으며, Notebook과 같은 다른 기능을 완벽하게 갖추고 있으며, Git 폴더에서 소스 제어를 사용할 수 있습니다.

또는 로컬 컴퓨터에서 IDE를 사용하여 사용자 지정 솔루션을 개발하여 풍부한 개발 환경의 전체 기능을 활용합니다. 로컬 개발은 광범위한 언어를 지원합니다. 즉, 디버깅 및 테스트 프레임워크와 같은 언어 종속 기능을 사용하여 더 큰 프로젝트를 지원하고 소스 제어에 직접 액세스할 수 있습니다.

도구 사용 권장 사항은 어느 개발자 도구를 사용해야 하나요?을 참조하세요.

특징 설명
인증 및 권한 부여 Azure Databricks에서 작동하도록 도구, 스크립트 및 앱에 대한 인증 및 권한 부여를 구성합니다.
Databricks 앱 다른 사용자와 공유할 수 있는 Databricks 플랫폼에서 보안 데이터 및 AI 사용자 지정 애플리케이션을 만듭니다.
Visual Studio Code용 Databricks 확장 Visual Studio Code를 사용하여 원격 Azure Databricks 작업 영역에 연결하여, Databricks 작업 영역에 대한 연결을 쉽게 구성하고 Databricks 리소스를 관리할 수 있는 UI를 제공합니다.
PyCharm Databricks 플러그 인 원격 Databricks 작업 영역에 대한 연결을 구성하고 PyCharm에서 Databricks 클러스터에서 파일을 실행합니다. 이 플러그 인은 Databricks와 협력하여 JetBrains에서 개발하고 제공합니다.
Databricks SDK REST API를 직접 호출하는 대신 SDK를 사용하여 Databricks와의 상호 작용을 자동화합니다. SDK는 작업 영역에서도 사용할 수 있습니다.

Databricks에 연결

Databricks에 연결하는 것은 많은 통합 및 솔루션의 필수 구성 요소이며 Databricks는 선택할 수 있는 다양한 연결 도구를 제공합니다. 다음 표에서는 개발 환경 및 프로세스를 Azure Databricks 작업 영역 및 리소스에 연결하는 도구를 제공합니다.

특징 설명
Databricks Connect PyCharm, IntelliJ IDEA, Eclipse, RStudio 및 JupyterLab과 같은 인기 있는 IDE(통합 개발 환경)를 사용하여 Azure Databricks에 연결합니다.
Visual Studio Code용 Databricks 확장 Databricks 작업 영역에 대한 연결 및 Databricks 리소스를 관리하기 위한 UI를 쉽게 구성합니다.
SQL 드라이버 및 도구 Azure Databricks에 연결하여 SQL 명령 및 스크립트를 실행하고, Azure Databricks와 프로그래밍 방식으로 상호 작용하고, Azure Databricks SQL 기능을 Python, Go, JavaScript 및 TypeScript와 같은 인기 있는 언어로 작성된 애플리케이션에 통합합니다.

또한 많은 인기 있는 타사 도구를 클러스터 및 SQL 웨어하우스에 연결하여 Azure Databricks의 데이터에 액세스할 수 있습니다. 기술 파트너를 참조하세요.

인프라 및 리소스 관리

인프라 및 리소스의 프로비저닝 및 관리를 자동화하기 위해 CI/CD 파이프라인을 빌드하는 개발자 및 데이터 엔지니어는 간단하고 복잡한 파이프라인 시나리오를 지원하는 다음 도구 중에서 선택할 수 있습니다.

도구 사용 권장 사항은 어느 개발자 도구를 사용해야 하나요?을 참조하세요.

특징 묘사
Databricks CLI Databricks CLI(명령줄 인터페이스)를 사용하여 Azure Databricks 기능에 액세스합니다. CLI는 Databricks REST API를 래핑하므로 curl 또는 Postman을 사용하여 REST API 호출을 직접 보내는 대신 Databricks CLI를 사용하여 Databricks와 상호 작용할 수 있습니다. 로컬 터미널에서 CLI를 사용하거나 작업 영역 웹 터미널사용합니다.
Databricks 자산 번들 Databricks CLI의 기능인 Databricks Asset Bundles를 사용하여 데이터 및 AI 프로젝트에 대한 업계 표준 개발, 테스트 및 배포 모범 사례를 사용하여 Databricks 리소스 및 CI/CD 파이프라인을 정의하고 관리합니다.
Databricks의 Terraform 프로바이더Databricks를 위한 Terraform CDKTF Terraform사용하여 Azure Databricks 인프라 및 리소스를 프로비전합니다.
CI/CD 도구 인기 있는 CI/CD 시스템과 GitHub Actions, JenkinsApache Airflow같은 프레임워크를 통합합니다.

코드 공동 작업 및 공유

작업 영역의 다른 많은 공동 작업 기능 중에서 Databricks는 작업 영역에서 다음 기능을 사용하여 코드를 공동 작업하고 공유하려는 개발자 사용자를 특히 지원합니다.

특징 묘사
UDF UDF(사용자 정의 함수)를 개발하여 코드를 재사용하고 공유합니다.
Git 폴더 Databricks 프로젝트 파일의 버전 및 소스 제어 기여에 Git 폴더를 구성합니다.

Databricks 개발자 커뮤니티에 참여

Databricks에는 다음 프로그램 및 리소스에서 지원하는 활성 개발자 커뮤니티가 있습니다.