Triển khai giải pháp phân tích dữ liệu với Azure Databricks
Xem nhanh
-
Cấp độ
-
Kỹ năng
-
Sản phẩm
-
Vai trò
-
Chủ đề
Vào cuối lộ trình học tập này, bạn sẽ xây dựng được các kỹ năng từ trung cấp đến nâng cao vững chắc trong cả Databricks và Spark on Azure. Bạn có thể nhập, chuyển đổi và phân tích các tập dữ liệu quy mô lớn bằng cách sử dụng Spark DataFrames, Spark SQL và PySpark, giúp bạn tự tin làm việc với xử lý dữ liệu phân tán. Trong Databricks, bạn biết cách điều hướng không gian làm việc, quản lý cụm, xây dựng và duy trì bảng Delta.
Bạn cũng sẽ có khả năng thiết kế và chạy quy trình ETL, tối ưu hóa bảng Delta, quản lý các thay đổi lược đồ và áp dụng các quy tắc chất lượng dữ liệu. Ngoài ra, bạn còn tìm hiểu cách điều phối khối lượng công việc với Lakeflow Jobs và quy trình, cho phép bạn chuyển từ quy trình khám phá sang quy trình làm việc tự động. Cuối cùng, bạn làm quen với các tính năng quản trị và bảo mật, bao gồm Unity Catalog, tích hợp Purview và quản lý quyền truy cập, giúp bạn hoạt động hiệu quả trong môi trường dữ liệu sẵn sàng sản xuất.
Điều kiện tiên quyết
Trước khi bắt đầu lộ trình học tập này, bạn nên cảm thấy thoải mái với các nguyên tắc cơ bản của Python và SQL. Điều này bao gồm khả năng viết các tập lệnh Python đơn giản và làm việc với các cấu trúc dữ liệu phổ biến, cũng như viết các truy vấn SQL để lọc, nối và tổng hợp dữ liệu. Hiểu biết cơ bản về các định dạng tệp phổ biến như CSV, JSON hoặc Parquet cũng sẽ hữu ích khi làm việc với tập dữ liệu.
Ngoài ra, việc làm quen với cổng thông tin Azure và các dịch vụ cốt lõi như Azure Storage là rất quan trọng, cùng với nhận thức chung về các khái niệm dữ liệu như xử lý hàng loạt so với xử lý trực tuyến và dữ liệu có cấu trúc so với dữ liệu phi cấu trúc. Mặc dù không bắt buộc, nhưng việc tiếp xúc trước với các khung dữ liệu lớn như Spark và kinh nghiệm làm việc với máy tính xách tay Jupyter có thể giúp quá trình chuyển đổi sang Databricks suôn sẻ hơn.
Mã thành tích
Bạn có muốn yêu cầu mã thành tích không?
Mô-đun trong lộ trình học tập này
Azure Databricks là một dịch vụ đám mây cung cấp nền tảng có thể mở rộng cho phân tích dữ liệu bằng cách sử dụng Apache Spark.
Tìm hiểu cách thực hiện phân tích dữ liệu bằng Azure Databricks. Khám phá các phương pháp nhập dữ liệu khác nhau và cách tích hợp dữ liệu từ các nguồn như Azure Data Lake và Cơ sở dữ liệu Azure SQL. Mô-đun này hướng dẫn bạn cách sử dụng các sổ tay cộng tác để thực hiện phân tích dữ liệu thăm dò (EDA), để bạn có thể trực quan hóa, thao tác và kiểm tra dữ liệu để khám phá các mẫu hình, bất thường và tương quan.
Azure Databricks được xây dựng trên Apache Spark và cho phép các kỹ sư và nhà phân tích dữ liệu chạy công việc Spark để chuyển đổi, phân tích và trực quan hóa dữ liệu ở quy mô lớn.
Delta Lake là giải pháp quản lý dữ liệu trong Azure Databricks cung cấp các tính năng bao gồm giao dịch ACID, thực thi sơ đồ và du hành thời gian đảm bảo tính nhất quán, tính toàn vẹn và khả năng lập phiên bản dữ liệu.
Xây dựng Quy trình khai báo Lakeflow cho phép xử lý dữ liệu theo thời gian thực, có thể mở rộng và đáng tin cậy bằng cách sử dụng các tính năng nâng cao của Delta Lake trong Azure Databricks
Triển khai khối lượng công việc với Lakeflow Jobs liên quan đến việc điều phối và tự động hóa các quy trình xử lý dữ liệu phức tạp, quy trình làm việc máy học và các tác vụ phân tích. Trong mô-đun này, bạn tìm hiểu cách triển khai khối lượng công việc với Databricks Lakeflow Jobs.