Cập nhật nguồn dữ liệu Common Data Model để sử dụng bảng Delta

Cập nhật kết nối dữ liệu hiện có bằng các bảng Common Data Model và di chuyển đến các bảng có định dạng Delta mà không cần xóa và tạo lại cấu hình hiện có phụ thuộc vào kết nối dữ liệu.

Những lý do chính để kết nối với dữ liệu được lưu trữ ở định dạng Delta:

  • Nhập trực tiếp dữ liệu định dạng Delta để tiết kiệm thời gian và công sức.
  • Loại bỏ chi phí tính toán và lưu trữ liên quan đến việc chuyển đổi và lưu trữ bản sao dữ liệu hồ của bạn.
  • Tự động cải thiện độ tin cậy của việc thu thập dữ liệu được cung cấp bởi Customer Insights - Data phiên bản Delta .

Delta là thuật ngữ được giới thiệu cùng với Delta Lake, nền tảng lưu trữ dữ liệu và bảng trong Nền tảng Databricks Lakehouse. Delta Lake là một kho lưu trữ mã nguồn mở tầng mang các giao dịch ACID (tính nguyên tử, tính nhất quán, tính cô lập và tính bền vững) vào khối lượng công việc dữ liệu lớn. Để biết thêm thông tin, hãy xem Trang tài liệu về Hồ Delta.

Điều kiện tiên quyết

  • Azure Data Lake Storage Phải nằm trong cùng một đối tượng thuê và vùng Azure với Customer Insights - Data.

  • Người dùng dịch vụ chính phải có quyền Người đóng góp dữ liệu Blob lưu trữ để truy cập vào tài khoản lưu trữ. Customer Insights - Data Để biết thêm thông tin, hãy xem Cấp quyền cho chủ thể dịch vụ để truy cập tài khoản lưu trữ.

  • Người dùng thiết lập hoặc cập nhật nguồn dữ liệu cần có ít nhất quyền Trình đọc dữ liệu Blob lưu trữ trên tài khoản Azure Data Lake Storage .

  • Dữ liệu được lưu trữ trong các dịch vụ trực tuyến có thể được lưu trữ ở vị trí khác với nơi dữ liệu được xử lý hoặc lưu trữ. Bằng cách nhập hoặc kết nối với dữ liệu được lưu trữ trong các dịch vụ trực tuyến, bạn đồng ý rằng dữ liệu có thể được chuyển giao.  Tìm hiểu thêm tại Trung tâm tin cậy của Microsoft.

  • Customer Insights - Data hỗ trợ trình đọc Databricks phiên bản 2. Các bảng Delta sử dụng các tính năng yêu cầu trình đọc Databricks phiên bản 3 trở lên không được hỗ trợ. Tìm hiểu thêm: Các tính năng được hỗ trợ của Databricks.

  • Bảng Delta phải nằm trong một thư mục trong vùng lưu trữ và không thể nằm trong thư mục gốc của vùng lưu trữ. Ví dụ:

    storageaccountcontainer/
        DeltaDataRoot/
           ADeltaTable/
                 _delta_log/
                     0000.json
                     0001.json
                 part-0001-snappy.parquet
                 part-0002-snappy.parquet
    
  • Các bảng Delta và lược đồ của chúng phải khớp với các bảng trong Mô hình dữ liệu chung hiện có nguồn dữ liệu và nằm trong cùng một vùng lưu trữ. Các bảng trong thư mục dữ liệu mới phải khớp chính xác với các bảng đã chọn trong Mô hình dữ liệu chung nguồn dữ liệu. Tên bảng và lược đồ của chúng phải khớp chính xác. Trong Delta, tên bảng giống với tên thư mục nơi dữ liệu được lưu trữ. Do đó, tên thư mục phải khớp chính xác với các bảng đã chọn trong Mô hình dữ liệu chung nguồn dữ liệu. Nếu không, quá trình cập nhật sẽ không thành công.

    Ví dụ: nếu các bảng Common Data Model nguồn dữ liệu được chọn là Table1 và Table2, thì thư mục bạn chọn để cập nhật phải hiển thị Table1 và Table2 trong phân cấp.

    storageaccountroot/
    DeltaDataRoot/
        Table1/
        Table2/
    

Cập nhật bảng dữ liệu Common Data Model thành bảng Delta

  1. Đi tới Dữ liệu>Nguồn dữ liệu.

  2. Chọn Mô hình dữ liệu chung Azure Data Lake nguồn dữ liệu rồi chọn Cập nhật lên bảng Delta. Hoặc chọn Bắt đầu cập nhật từ trang Thêm bảng nếu bạn đang chỉnh sửa Mô hình dữ liệu chung nguồn dữ liệu.

    Trang nguồn dữ liệu hiển thị Mô hình dữ liệu chung nguồn dữ liệu với bảng Cập nhật lên Delta được tô sáng.

  3. Chọn Duyệt và điều hướng đến thư mục chứa dữ liệu ở định dạng Delta và hoàn toàn khớp với bảng Azure Data Lake nguồn dữ liệu đã chọn. Chọn nó, sau đó chọn Cập nhật nguồn dữ liệu.

    Trang Nguồn dữ liệu mở ra và hiển thị nguồn dữ liệu mới ở trạng thái Đang làm mới .

    Quan trọng

    Không dừng quá trình làm mới vì nó có thể ảnh hưởng tiêu cực đến việc cập nhật nguồn dữ liệu.

    Tiền bo

    trạng thái cho các tác vụ và quy trình. Hầu hết các quy trình đều phụ thuộc vào các quy trình thượng nguồn khác, chẳng hạn như nguồn dữ liệu và hồ sơ dữ liệu làm mới.

    Chọn trạng thái để mở ngăn Chi tiết tiến trình và xem tiến trình của các tác vụ. Để hủy công việc, hãy chọn Hủy công việc ở cuối ngăn.

    Trong mỗi tác vụ, bạn có thể chọn Xem chi tiết để biết thêm thông tin về tiến trình, chẳng hạn như thời gian xử lý, ngày xử lý gần nhất và bất kỳ lỗi và cảnh báo nào liên quan đến tác vụ hoặc quy trình. Chọn Xem trạng thái hệ thống ở cuối bảng điều khiển để xem các quy trình khác trong hệ thống.

Chúng tôi khuyên bạn nên tiếp tục truyền dữ liệu đến vị trí Data Lake Storage thông qua đường ống hiện có và duy trì các bản kê khai và lược đồ cho đến khi bạn xác định bản cập nhật thành công và mọi thứ hoạt động như mong đợi.

Hoàn nguyên chuyển đổi từ bảng Common Data Model sang bảng Delta

Nếu bạn đã thử cập nhật Azure Data Lake Common Data Model nguồn dữ liệu vào bảng Delta và quá trình này không thành công, hãy thực hiện các bước sau.

Điều kiện tiên quyết

  • Tổ chức của bạn đã tiếp tục truyền dữ liệu Data Lake Storage qua đường truyền của bạn.
  • Tổ chức của bạn đã duy trì các biểu hiện và lược đồ của Data Lake Storage.

Hoàn nguyên quay lại Mô hình dữ liệu chung Azure Data Lake nguồn dữ liệu

  1. Đi tới Dữ liệu>Nguồn dữ liệu.

  2. Chọn Mô hình dữ liệu chung Azure Data Lake nguồn dữ liệu, sau đó chọn hoàn nguyên vào bảng Mô hình dữ liệu chung.

  3. Xác nhận rằng bạn muốn hoàn nguyên. Trang Nguồn dữ liệu mở ra và hiển thị nguồn dữ liệu mới ở trạng thái Đang làm mới .

    Quan trọng

    Không dừng quá trình làm mới vì nó có thể ảnh hưởng tiêu cực đến việc khôi phục nguồn dữ liệu.