Tạo cụm Tia lửa
Bạn có thể tạo một hoặc nhiều cụm trong không gian làm việc Azure Databricks của mình bằng cách sử dụng cổng thông tin Azure Databricks.
Khi tạo cụm, bạn có thể chỉ định cài đặt cấu hình, bao gồm:
- Tên cho cụm.
- Chế độ cụm, có thể là:
- Tiêu chuẩn: Thích hợp cho khối lượng công việc một người dùng yêu cầu nhiều nút nhân viên.
- High Concurrency: Thích hợp cho khối lượng công việc nơi nhiều người dùng sẽ sử dụng cụm đồng thời.
- Nút duy nhất: Thích hợp cho khối lượng công việc nhỏ hoặc thử nghiệm, chỉ yêu cầu một nút nhân viên duy nhất.
- Phiên bản Databricks Runtime sẽ được sử dụng trong cụm; đọc chính tả phiên bản Spark và các cấu phần riêng lẻ như Python, Scala và các cấu phần khác được cài đặt.
- Loại máy ảo (VM) được sử dụng cho các nút nhân viên trong cụm.
- Số lượng nút nhân viên tối thiểu và tối đa trong cụm.
- Loại máy ảo được sử dụng cho nút trình điều khiển trong cụm.
- Cụm có hỗ trợ tính năng tự động tính toán để tự động đổi kích cỡ cụm hay không.
- Cụm có thể ở trạng thái không hoạt động trước khi tắt tự động.
Cách Azure quản lý tài nguyên cụm
Khi bạn tạo không gian làm việc Azure Databricks, thiết bị Databricks sẽ được triển khai dưới dạng tài nguyên Azure trong đăng ký của bạn. Khi bạn tạo một cụm trong không gian làm việc, bạn chỉ định loại và kích cỡ của máy ảo (VM) để sử dụng cho cả nút trình điều khiển và nút nhân viên cũng như một số tùy chọn cấu hình khác, nhưng Azure Databricks quản lý tất cả các khía cạnh khác của cụm.
Thiết bị Databricks được triển khai vào Azure như một nhóm tài nguyên được quản lý trong gói đăng ký của bạn. Nhóm tài nguyên này chứa máy ảo trình điều khiển và nhân viên cho các cụm của bạn, cùng với các tài nguyên bắt buộc khác, bao gồm mạng ảo, nhóm bảo mật và tài khoản lưu trữ. Tất cả siêu dữ liệu cho cụm của bạn, chẳng hạn như công việc đã lên lịch, được lưu trữ trong Cơ sở dữ liệu Azure với sao chép địa lý để dung sai lỗi.
Trong nội bộ, Azure Kubernetes Service (AKS) được sử dụng để chạy máy bay điều khiển và máy bay dữ liệu Azure Databricks thông qua các bộ chứa chạy trên thế hệ mới nhất của phần cứng Azure (máy ảo Dv3), với SSD NvMe có khả năng bật độ trễ 100us trên máy ảo Azure hiệu suất cao với kết nối mạng tăng tốc. Azure Databricks sử dụng các tính năng này của Azure để cải thiện hơn nữa hiệu suất của Spark. Sau khi các dịch vụ trong nhóm tài nguyên được quản lý của bạn đã sẵn sàng, bạn có thể quản lý cụm Databricks thông qua giao diện người dùng Azure Databricks và thông qua các tính năng như tự động xác định tỷ lệ và tự động chấm dứt.
Lưu ý
Bạn cũng có tùy chọn gắn cụm của bạn vào một vùng các nút nhàn rỗi để giảm thời gian khởi động cụm. Để biết thêm thông tin, hãy xem Nhóm trong tài liệu Azure Databricks.