Mô hình hóa dữ liệu trong kho
Nếu không có mô hình hóa dữ liệu, mọi consumer phải tìm ra bảng nào liên quan đến nhau, viết logic tổng hợp của riêng họ và đoán ý nghĩa cột. Mô hình hóa dữ liệu giải quyết vấn đề này bằng cách nhúng cấu trúc, logic nghiệp vụ và tài liệu trực tiếp vào kho. Trong kho Microsoft Fabric, bạn chuẩn bị dữ liệu để clarity, xác định mối quan hệ giữa các bảng, chuẩn hóa access thông qua dạng xem và đo lường cũng như xuất bản các mô hình ngữ nghĩa để báo cáo. Các lựa chọn mô hình hóa này ảnh hưởng đến mọi trải nghiệm xuôi dòng, bao gồm truy vấn T-SQL, báo cáo Power BI và phân tích ngôn ngữ tự nhiên dựa trên AI.
Chuẩn bị dữ liệu để tiêu thụ
Trước khi xác định mối quan hệ hoặc thêm tính toán, bạn cần làm sạch những gì người tiêu dùng nhìn thấy. Bảng kho thô thường chứa các bảng dàn dựng, cột khóa thay thế và cờ nội bộ dành cho xử lý ETL, không phải để phân tích. Những đối tượng này tạo ra tiếng ồn khi người tiêu dùng duyệt dữ liệu. Chuẩn bị nhà kho để tiêu thụ có nghĩa là chỉ hiển thị những gì có liên quan và làm cho nó dễ hiểu.
Trong chế độ xem mô hình, bạn có thể thực hiện một số bước để cải thiện trải nghiệm của người consumer:
- Ẩn các đối tượng nội bộ như bảng dàn dựng, cột khóa thay thế và artifacts ETL làm lộn xộn danh sách trường.
-
Đổi tên cột để sử dụng tên thân thiện với doanh nghiệp trong đó tên cột kho là kỹ thuật hoặc viết tắt. Ví dụ: đổi tên
CustRgnthànhCustomer Region. - Thêm mô tả vào bảng và cột để người tiêu dùng hiểu dữ liệu đại diện cho điều gì mà không cần tham khảo tài liệu bên ngoài.
Những bước này quan trọng hơn là sự ngăn nắp. Copilot trong Power BI và tác nhân dữ liệu Fabric IQ dựa vào tên bảng, tên cột và mô tả để diễn giải các câu hỏi ngôn ngữ tự nhiên và tạo SQL hoặc DAX chính xác. Cột được đặt tên Customer Region với mô tả như "Khu vực địa lý của địa chỉ chính của khách hàng" tạo ra kết quả ngôn ngữ tự nhiên tốt hơn so với CustRgn không có mô tả.
Với các bảng gọn gàng, được đặt tên rõ ràng, bạn đã sẵn sàng xác định cách các bảng đó kết nối với nhau.
Hiểu mối quan hệ giữa các bảng
Mối quan hệ là kết nối logic giữa hai bảng cho phép lọc, nhóm và tổng hợp trên các bảng đó. Trong lược đồ hình sao, mối quan hệ kết nối bảng dữ liệu với bảng thứ nguyên thông qua các cột khóa được chia sẻ.
Ví dụ: một CustomerKey cột tồn tại trong cả hai FactSales và DimCustomer thiết lập liên kết cho phép phân tích doanh số bán hàng theo thuộc tính khách hàng như khu vực, phân khúc hoặc loại tài khoản.
Mỗi mối quan hệ có hai thuộc tính quan trọng.
- Số lượng mô tả cách các hàng trong hai bảng tương ứng. Trong lược đồ sao, mối quan hệ giữa thực tế với thứ nguyên thường là nhiều-một, có nghĩa là nhiều hàng dữ kiện ánh xạ đến một hàng thứ nguyên duy nhất.
- Hướng bộ lọc chéo xác định cách bộ lọc lan truyền giữa các bảng. Hướng đơn, trong đó thứ nguyên lọc bảng dữ liệu, là cài đặt tiêu chuẩn cho hầu hết các thiết kế lược đồ sao vì nó giữ cho hành vi của bộ lọc có thể dự đoán được và hiệu quả.
Nếu không có các mối quan hệ xác định, mọi consumer muốn kết hợp dữ liệu giữa các bảng cần phải viết logic JOIN rõ ràng. Các mối quan hệ loại bỏ sự lặp lại đó bằng cách mã hóa kết nối một lần. Khi bạn tạo mô hình ngữ nghĩa từ kho, các mối quan hệ này thông báo cách tác nhân dữ liệu Power BI, Copilot và Fabric IQ diễn giải dữ liệu. Ví dụ: tác nhân dữ liệu sử dụng các mối quan hệ để tạo ra các kết nối chính xác khi dịch các câu hỏi ngôn ngữ tự nhiên sang SQL.
Ghi
Hầu hết các kho dữ liệu đều sử dụng mô hình chiều. Các mối quan hệ có thể được tạo để định hình một lược đồ sao, đây là một mô hình lý tưởng để phân tích. Để biết thêm thông tin, hãy xem mô-đun mô hình chiều Design trong Microsoft Fabric.
Chuẩn hóa access dữ liệu với các chế độ xem và biện pháp
Bây giờ các bảng của bạn đã sạch sẽ và được kết nối, bước tiếp theo là cung cấp cho người tiêu dùng những cách đáng tin cậy, nhất quán để truy vấn và tính toán dựa trên dữ liệu đó. Nếu không chuẩn hóa, mỗi nhóm sẽ viết logic kết hợp của riêng mình, áp dụng các bộ lọc riêng và xác định các công thức của riêng mình, dẫn đến các kết quả xung đột.
Chế độ xem cung cấp tính nhất quán này cho người tiêu dùng T-SQL. Dạng xem đóng gói logic nối, bộ lọc và lựa chọn cột vào một truy vấn có thể tái sử dụng mà người tiêu dùng tham chiếu như bảng. Ví dụ: một view kết hợp các bảng fact và dimension, lọc cho các đơn đặt hàng đã hoàn thành và chỉ hiển thị các cột mà các nhà phân tích cần cung cấp cho mọi T-SQL consumer một điểm khởi đầu đáng tin cậy. Chế độ xem cũng đóng vai trò là nguồn dữ liệu ổn định cho báo cáo. Thay vì xây dựng báo cáo trực tiếp dựa trên các bảng cơ sở có thể thay đổi, bạn có thể trỏ báo cáo tại các chế độ xem có hình dạng nhất quán.
Các thước đo cung cấp cùng một tính nhất quán cho các tính toán DAX. Đo lường là một biểu thức DAX có thể tái sử dụng để xác định một phép tính như tổng, trung bình, tỷ lệ hoặc số lượng. Bạn tạo số đo trực tiếp trong dạng xem mô hình kho bằng cách chọn bảng và thêm số đo mới. Ví dụ: thước đo Total Sales tính tổng cột SalesAmount đảm bảo mọi consumer sử dụng cùng một phép tính.
Bởi vì định nghĩa đo lường tồn tại với dữ liệu, nó trở thành nguồn tin cậy duy nhất cho số liệu đó. Khi doanh nghiệp thay đổi cách tính doanh thu, bạn cập nhật thước đo ở một nơi thay vì theo dõi mọi báo cáo có chứa công thức riêng.
Cùng với nhau, các chế độ xem và các biện pháp bao gồm cả hai mặt của mức tiêu thụ: các chế độ xem chuẩn hóa cách người tiêu dùng T-SQL access và truy vấn dữ liệu, trong khi các biện pháp chuẩn hóa cách các tính toán kinh doanh xuất hiện trong báo cáo và bảng thông tin.
Mẹo
Công thức DAX và thiết kế đo lường nâng cao được đề cập chuyên sâu trong các mô-đun sau. Đối với các dạng xem và thủ tục được lưu trữ, hãy xem bài học trước về truy vấn và chuyển đổi dữ liệu.
Tạo mô hình ngữ nghĩa cho báo cáo Power BI
Với các bảng đã chuẩn bị, các mối quan hệ được xác định cũng như các chế độ xem và biện pháp được chuẩn hóa, kho đã sẵn sàng cho báo cáo hạ nguồn. Các nhóm truy vấn kho hàng trực tiếp bằng cách sử dụng T-SQL hoặc kết nối thông qua các công cụ của bên thứ ba có thể làm việc với mô hình kho hàng as-is. Tuy nhiên, khi bạn muốn xây dựng báo cáo và bảng thông tin Power BI tương tác, bước tiếp theo là tạo mô hình ngữ nghĩa.
Các mô hình ngữ nghĩa được tạo từ kho Fabric sử dụng chế độ Direct Lake. Không giống như chế độ nhập truyền thống sao chép dữ liệu vào bộ nhớ Power BI, Direct Lake đọc dữ liệu trực tiếp từ các tệp OneLake Parquet. Điều này có nghĩa là báo cáo phản ánh dữ liệu kho mới nhất mà không yêu cầu làm mới theo lịch trình. Điều đó cũng có nghĩa là bạn tránh được chi phí storage và xử lý khi duy trì một bản sao dữ liệu riêng biệt.
Mẹo
Thiết kế mô hình ngữ nghĩa và các mẫu khả năng mở rộng được đề cập sâu hơn trong Thiết kế các mô hình ngữ nghĩa có thể mở rộng. Đơn vị này tập trung vào việc mô hình hóa dữ liệu trong chính kho.