Làm mới tăng dần cho Power Query và nguồn dữ liệu Data Lake Storage

Việc làm mới tăng dần cho các nguồn dữ liệu dựa trên Power Query (bản xem trước) hoặc Azure Data Lake Storage mang lại những lợi ích sau:

  • Làm mới nhanh hơn - Chỉ những dữ liệu đã thay đổi mới được làm mới. Ví dụ: bạn có thể chỉ làm mới năm ngày qua của bộ dữ liệu lịch sử.
  • Độ tin cậy tăng lên - Với số lần làm mới nhỏ hơn, bạn không cần duy trì kết nối với các hệ thống nguồn dễ thay đổi trong thời gian dài, nhờ đó giảm nguy cơ xảy ra sự cố kết nối.
  • Giảm mức tiêu thụ tài nguyên - Chỉ làm mới một tập hợp con trong tổng số dữ liệu của bạn sẽ giúp sử dụng tài nguyên máy tính hiệu quả hơn và giảm tác động đến môi trường.

Định cấu hình làm mới tăng dần cho các nguồn dữ liệu dựa trên Power Query (bản xem trước)

[Bài viết này là tài liệu trước khi phát hành và có thể thay đổi.]

Định cấu hình bất kỳ Power Query nguồn dữ liệu nào trong Customer Insights - Data để làm mới dữ liệu dần dần. Nguồn dữ liệu phải có cột khóa chính xác định duy nhất các bản ghi và cột ngày giờ cho biết thời điểm dữ liệu được cập nhật lần cuối.

Quan trọng

  • Đây là một tính năng xem trước.
  • Các tính năng xem trước không được dùng cho sản xuất và có thể có chức năng bị hạn chế. Những tính năng này khả dụng trước khi có bản phát hành chính thức để khách hàng có thể truy cập sớm và cung cấp phản hồi.
  1. Tạo nguồn dữ liệu mới dựa trên Power Query.

  2. Chọn nguồn dữ liệu hỗ trợ làm mới tăng dần, chẳng hạn như Cơ sở dữ liệu Azure SQL.

  3. Chọn các bảng để nhập.

  4. Hoàn tất các bước chuyển đổi và chọn Tiếp theo.

  5. Trong hộp thoại Thiết lập làm mới tăng dần , chọn Thiết lập để mở Cài đặt làm mới tăng dần. Nếu bạn chọn Bỏ qua, nguồn dữ liệu sẽ làm mới toàn bộ tập dữ liệu.

    Tiền bo

    Bạn cũng có thể áp dụng làm mới gia tăng sau bằng cách chỉnh sửa nguồn dữ liệu hiện có.

  6. Trên Cài đặt làm mới gia tăng, hãy định cấu hình làm mới gia tăng cho tất cả các bảng mà bạn đã chọn khi tạo nguồn dữ liệu.

    Định cấu hình cài đặt làm mới tăng dần.

  7. Chọn một bảng và cung cấp các chi tiết sau:

    • Xác định khóa chính: Chọn khóa chính cho bảng.
    • Xác định trường "cập nhật lần cuối": Trường này chỉ hiển thị các thuộc tính loại ngày hoặc giờ. Chọn một thuộc tính cho biết thời điểm các bản ghi được cập nhật lần cuối. Thuộc tính này xác định các bản ghi nằm trong khung thời gian làm mới tăng dần.
    • Kiểm tra các bản cập nhật mỗi: Chỉ định khoảng thời gian bạn muốn khung thời gian làm mới tăng dần.
  8. Chọn Lưu để hoàn tất quá trình tạo nguồn dữ liệu. Làm mới dữ liệu ban đầu là làm mới hoàn toàn. Sau đó, làm mới dữ liệu gia tăng xảy ra như được cấu hình ở bước trước.

Định cấu hình làm mới tăng dần cho Azure Data Lake Storage nguồn dữ liệu

Microsoft khuyến nghị định dạng Delta Lake để có được hiệu suất và kết quả tốt nhất khi làm việc với các tập dữ liệu lớn. Customer Insights - Data cung cấp trình kết nối được tối ưu hóa cho dữ liệu được định dạng Delta Lake. Các quy trình nội bộ như thống nhất được tối ưu hóa để chỉ xử lý dần dần những dữ liệu đã thay đổi, dẫn đến thời gian xử lý ngắn hơn.

Để sử dụng tính năng nhập và làm mới tăng dần cho bảng Data Lake, hãy đặt cấu hình bảng đó khi thêm hoặc chỉnh sửa Azure Data Lake nguồn dữ liệu. Thư mục dữ liệu bảng phải chứa các thư mục sau:

  • FullData: Thư mục chứa các file dữ liệu chứa các bản ghi ban đầu
  • IncrementalData: Thư mục chứa các thư mục phân cấp ngày/giờ ở định dạng yyyy/mm/dd/hh chứa các bản cập nhật gia tăng. Các thư mục năm, tháng, ngày và giờ dự kiến ​​​​sẽ có bốn và hai chữ số tương ứng. hh biểu thị giờ UTC của các bản cập nhật và chứa các thư mục UpsertsXóa . Upserts chứa các tệp dữ liệu có cập nhật cho các bản ghi hiện có hoặc các bản ghi mới. Xóa chứa các tệp dữ liệu có bản ghi cần xóa.

Thứ tự xử lý dữ liệu gia tăng

Hệ thống xử lý các tệp trong thư mục IncrementalData sau khi giờ UTC được chỉ định kết thúc. Ví dụ: nếu hệ thống bắt đầu xử lý quá trình làm mới tăng dần vào ngày 21 tháng 1 năm 2023 lúc 8:15 sáng, thì tất cả các tệp trong thư mục 2023/01/21/07 (đại diện cho các tệp dữ liệu được lưu trữ từ 7 giờ sáng đến 8 giờ sáng) đều được xử lý. Mọi tệp trong thư mục 2023/01/21/08 (biểu thị giờ hiện tại nơi các tệp vẫn đang được tạo) sẽ không được xử lý cho đến lần chạy tiếp theo.

Nếu có hai bản ghi cho khóa chính, một bản cập nhật và xóa, Customer Insights - Data sẽ sử dụng bản ghi có ngày sửa đổi mới nhất. Ví dụ: nếu dấu thời gian xóa là 2023-01-21T08:00:00 và dấu thời gian upsert là 2023-01-21T08:30:00, thì nó sẽ sử dụng bản ghi upsert. Nếu việc xóa xảy ra sau khi upsert, hệ thống sẽ coi bản ghi đã bị xóa.

Đặt cấu hình làm mới tăng dần cho nguồn dữ liệu Azure Data Lake

  1. Khi thêm hoặc chỉnh sửa nguồn dữ liệu, hãy điều hướng đến ngăn Thuộc tính của bảng.

  2. Xem lại các thuộc tính. Đảm bảo thiết lập thuộc tính ngày được tạo hoặc cập nhật lần cuối với a dateTimeĐịnh dạng dữ liệu và a Calendar.Date Loại ngữ nghĩa. Chỉnh sửa thuộc tính nếu cần và chọn Xong.

  3. Từ ngăn Chọn bảng , hãy chỉnh sửa bảng. Hộp kiểm Nhập gia tăng đã được chọn.

    Định cấu hình các bảng trong nguồn dữ liệu để làm mới dần dần.

    1. Duyệt đến thư mục gốc chứa các tệp .csv hoặc .parquet để có dữ liệu đầy đủ, cập nhật dữ liệu gia tăng và xóa dữ liệu gia tăng.
    2. Nhập phần mở rộng cho dữ liệu đầy đủ và cả tệp gia tăng (.csv hoặc .parquet).
    3. Đối với tệp .csv, hãy chọn dấu phân cách cột và nếu bạn muốn hàng đầu tiên của tệp làm tiêu đề cột.
    4. Chọn Lưu.
  4. Đối với Cập nhật lần cuối, hãy chọn thuộc tính dấu thời gian ngày.

  5. Nếu Khóa chính không được chọn, hãy chọn khóa chính. Khóa chính là thuộc tính duy nhất của bảng. Để một thuộc tính là khóa chính hợp lệ, thuộc tính đó không được bao gồm các giá trị trùng lặp, giá trị bị thiếu hoặc giá trị rỗng. Các thuộc tính kiểu dữ liệu chuỗi, số nguyên và GUID được hỗ trợ làm khóa chính.

  6. Chọn Đóng để lưu và đóng ngăn.

  7. Tiếp tục thêm hoặc chỉnh sửa nguồn dữ liệu.

Chạy làm mới toàn bộ một lần cho nguồn dữ liệu Azure Data Lake

Sau khi bạn đặt cấu hình làm mới tăng dần cho nguồn dữ liệu Azure Data Lake, đôi khi dữ liệu cần được xử lý bằng cách làm mới hoàn toàn. Thư mục dữ liệu đầy đủ được thiết lập để làm mới tăng dần phải chứa vị trí của dữ liệu đầy đủ.

  1. Khi chỉnh sửa nguồn dữ liệu, hãy điều hướng đến ngăn Chọn bảng và chỉnh sửa bảng bạn muốn làm mới.

  2. Trên ngăn Chỉnh sửa bảng , hãy cuộn đến hộp kiểm Chạy làm mới toàn bộ một lần và chọn hộp kiểm đó.

    Định cấu hình bảng trong nguồn dữ liệu để làm mới một lần.

  3. Đối với Xử lý các tệp gia tăng từ, hãy chỉ định ngày và giờ để giữ lại các tệp gia tăng. Dữ liệu đầy đủ cộng với dữ liệu gia tăng bắt đầu xử lý sau ngày và giờ đã chỉ định. Ví dụ: nếu bạn muốn thực hiện làm mới/chèn lấp một phần dữ liệu cho đến cuối tháng 11 trong khi vẫn giữ lại dữ liệu gia tăng từ đầu tháng 12 đến hôm nay (30 tháng 12), hãy nhập ngày 1 tháng 12. Để thay thế tất cả dữ liệu và bỏ qua dữ liệu trong thư mục gia tăng, hãy chỉ định một ngày trong tương lai.

  4. Chọn Đóng để lưu và đóng ngăn.

  5. Chọn Lưu để áp dụng các thay đổi của bạn và quay lại trang Nguồn dữ liệu . Nguồn dữ liệu ở trạng thái Đang làm mới , đang thực hiện làm mới hoàn toàn.