Databricks에서 개발
Databricks 개발자 사용자는 데이터 과학자, 데이터 엔지니어, 데이터 분석가, 기계 학습 엔지니어뿐만 아니라 DevOps 및 MLOps 엔지니어를 포함하며, 모든 빌드 솔루션 및 통합을 통해 특정 요구 사항에 맞게 Databricks를 확장하고 사용자 지정합니다. 작업 영역에서 사용할 수 있는 많은 Databricks API 및 데이터 엔지니어링 기능 외에도 Databricks에 연결하고 Databricks의 개발자 사용자를 지원하는 로컬로 개발하기 위한 많은 도구가 있습니다.
이 문서에서는 Databricks 개발자 사용자가 사용할 수 있는 API 및 도구에 대한 개요를 제공합니다.
작업 영역에서 개발하는 것은 Databricks API를 빠르게 숙지하는 좋은 방법입니다. Databricks는 유용한 도구 및 유틸리티를 포함하여 작업 영역에서 Python, SQL, Scala, R 및 기타 개발자 중심 기능을 지원합니다.
시작하는 몇 가지 방법은 다음과 같습니다.
- 개요를 읽고 Python, Scala및 R대한 다양한 시나리오에 대한 자습서 링크를 찾습니다. 다양한 언어로 지원되는 도구 테이블은 Languages 개요참조하세요.
- SQL 언어 참조 찾아서 기능의 깊이와 폭을 살펴봅니다.
- 자습서: Python, Scala 또는 R에서 Apache Spark DataFrames 사용하여 데이터 로드 및 변환을 통해 Spark API를 소개합니다. PySpark에 대한 추가 간단한 예제는 PySpark 기본에 있습니다.
- 사용 가능한 참조 설명서를 찾아보세요. 여기에는 다른 도구로 생성 및 수정할 수 있는 Databricks 개체에 대한 좋은 그림을 제공하는 REST API 참조도 포함되어 있습니다.
- Notebook에 Python SDK 설치하고 간단한 함수를 작성합니다.
-
유틸리티를 사용하여 Databricks 환경을 조작하는 데 익숙해지도록
fs
dbutils
명령을 사용하여 일부 파일을 이동합니다.
Azure Databricks는 작업 영역과 로컬 개발 모두에 대한 도구를 제공합니다. UI를 사용하여 앱을 만들 수 있는 작업 영역에서는 Unity 카탈로그 볼륨 및 작업 영역 파일에서 데이터에 쉽게 액세스할 수 있고, 디버깅을 위한 Databricks Assistant와 같은 작업 영역 전용 기능을 사용할 수 있으며, Notebook과 같은 다른 기능을 완벽하게 갖추고 있으며, Git 폴더에서 소스 제어를 사용할 수 있습니다.
또는 로컬 컴퓨터에서 IDE를 사용하여 사용자 지정 솔루션을 개발하여 풍부한 개발 환경의 전체 기능을 활용합니다. 로컬 개발은 광범위한 언어를 지원합니다. 즉, 디버깅 및 테스트 프레임워크와 같은 언어 종속 기능을 사용하여 더 큰 프로젝트를 지원하고 소스 제어에 직접 액세스할 수 있습니다.
도구 사용 권장 사항은 어느 개발자 도구를 사용해야 하나요?을 참조하세요.
특징 | 설명 |
---|---|
인증 및 권한 부여 | Azure Databricks에서 작동하도록 도구, 스크립트 및 앱에 대한 인증 및 권한 부여를 구성합니다. |
Databricks 앱 | 다른 사용자와 공유할 수 있는 Databricks 플랫폼에서 보안 데이터 및 AI 사용자 지정 애플리케이션을 만듭니다. |
Visual Studio Code용 Databricks 확장 | Visual Studio Code를 사용하여 원격 Azure Databricks 작업 영역에 연결하여, Databricks 작업 영역에 대한 연결을 쉽게 구성하고 Databricks 리소스를 관리할 수 있는 UI를 제공합니다. |
PyCharm Databricks 플러그 인 | 원격 Databricks 작업 영역에 대한 연결을 구성하고 PyCharm에서 Databricks 클러스터에서 파일을 실행합니다. 이 플러그 인은 Databricks와 협력하여 JetBrains에서 개발하고 제공합니다. |
Databricks SDK | REST API를 직접 호출하는 대신 SDK를 사용하여 Databricks와의 상호 작용을 자동화합니다. SDK는 작업 영역에서도 사용할 수 있습니다. |
Databricks에 연결하는 것은 많은 통합 및 솔루션의 필수 구성 요소이며 Databricks는 선택할 수 있는 다양한 연결 도구를 제공합니다. 다음 표에서는 개발 환경 및 프로세스를 Azure Databricks 작업 영역 및 리소스에 연결하는 도구를 제공합니다.
특징 | 설명 |
---|---|
Databricks Connect | PyCharm, IntelliJ IDEA, Eclipse, RStudio 및 JupyterLab과 같은 인기 있는 IDE(통합 개발 환경)를 사용하여 Azure Databricks에 연결합니다. |
Visual Studio Code용 Databricks 확장 | Databricks 작업 영역에 대한 연결 및 Databricks 리소스를 관리하기 위한 UI를 쉽게 구성합니다. |
SQL 드라이버 및 도구 | Azure Databricks에 연결하여 SQL 명령 및 스크립트를 실행하고, Azure Databricks와 프로그래밍 방식으로 상호 작용하고, Azure Databricks SQL 기능을 Python, Go, JavaScript 및 TypeScript와 같은 인기 있는 언어로 작성된 애플리케이션에 통합합니다. |
팁
또한 많은 인기 있는 타사 도구를 클러스터 및 SQL 웨어하우스에 연결하여 Azure Databricks의 데이터에 액세스할 수 있습니다. 기술 파트너를 참조하세요.
인프라 및 리소스의 프로비저닝 및 관리를 자동화하기 위해 CI/CD 파이프라인을 빌드하는 개발자 및 데이터 엔지니어는 간단하고 복잡한 파이프라인 시나리오를 지원하는 다음 도구 중에서 선택할 수 있습니다.
도구 사용 권장 사항은 어느 개발자 도구를 사용해야 하나요?을 참조하세요.
특징 | 묘사 |
---|---|
Databricks CLI | Databricks CLI(명령줄 인터페이스)를 사용하여 Azure Databricks 기능에 액세스합니다. CLI는 Databricks REST API를 래핑하므로 curl 또는 Postman을 사용하여 REST API 호출을 직접 보내는 대신 Databricks CLI를 사용하여 Databricks와 상호 작용할 수 있습니다. 로컬 터미널에서 CLI를 사용하거나 작업 영역 웹 터미널사용합니다. |
Databricks 자산 번들 | Databricks CLI의 기능인 Databricks Asset Bundles를 사용하여 데이터 및 AI 프로젝트에 대한 업계 표준 개발, 테스트 및 배포 모범 사례를 사용하여 Databricks 리소스 및 CI/CD 파이프라인을 정의하고 관리합니다. |
Databricks의 Terraform 프로바이더 및 Databricks를 위한 Terraform CDKTF | Terraform사용하여 Azure Databricks 인프라 및 리소스를 프로비전합니다. |
CI/CD 도구 | 인기 있는 CI/CD 시스템과 GitHub Actions, Jenkins및 Apache Airflow같은 프레임워크를 통합합니다. |
작업 영역의 다른 많은 공동 작업 기능 중에서 Databricks는 작업 영역에서 다음 기능을 사용하여 코드를 공동 작업하고 공유하려는 개발자 사용자를 특히 지원합니다.
특징 | 묘사 |
---|---|
UDF | UDF(사용자 정의 함수)를 개발하여 코드를 재사용하고 공유합니다. |
Git 폴더 | Databricks 프로젝트 파일의 버전 및 소스 제어 기여에 Git 폴더를 구성합니다. |
Databricks에는 다음 프로그램 및 리소스에서 지원하는 활성 개발자 커뮤니티가 있습니다.
- Databricks MVP들: 이 프로그램은 데이터 및 AI 커뮤니티에서 탁월한 성과를 발휘하는 커뮤니티 구성원, 데이터 과학자, 데이터 엔지니어, 개발자 및 오픈 소스 애호가들을 인정하는 프로그램입니다. 자세한 내용은 Databricks MVP참조하세요.
- 교육: Databricks는 Apache Spark 개발자, 생성 AI 엔지니어, 데이터 엔지니어등을 위한 학습 모듈을 제공합니다.
- 커뮤니티: Databricks 커뮤니티 및 Apache Spark 커뮤니티풍부한 지식을 사용할 수 있습니다.