Kết nối với các bảng Delta trong Azure Data Lake Storage
Kết nối với dữ liệu trong bảng Delta và đưa vào Dynamics 365 Customer Insights - Data.
Những lý do chính để kết nối với dữ liệu được lưu trữ ở định dạng Delta:
- Nhập trực tiếp dữ liệu định dạng Delta để tiết kiệm thời gian và công sức.
- Loại bỏ chi phí tính toán và lưu trữ liên quan đến việc chuyển đổi và lưu trữ bản sao dữ liệu hồ của bạn.
- Tự động cải thiện độ tin cậy của việc thu thập dữ liệu được cung cấp bởi Customer Insights - Data phiên bản Delta .
Các tính năng và phiên bản Databricks được hỗ trợ
Customer Insights - Data hỗ trợ các tính năng Databricks với 'minReaderVersion' từ 2 trở về trước. Các tính năng của Databricks yêu cầu trình đọc Databricks phiên bản 3 trở lên không được hỗ trợ. Bảng hiển thị các tính năng Databricks được hỗ trợ và không được hỗ trợ.
Tính năng được hỗ trợ | Các tính năng không được hỗ trợ |
---|---|
Chức năng cơ bản | Các vectơ xóa |
Thay đổi nguồn cấp dữ liệu | Phân cụm chất lỏng |
Kiểm tra ràng buộc | Bảng tính năng viết |
Ánh xạ cột | Dấu thời gianNTZ |
Tạo cột | Mở rộng loại |
Cột danh tính | Phiên bản |
Theo dõi hàng | |
Bảng tính năng đọc | |
Đồng phục |
Tìm hiểu thêm: Databricks quản lý khả năng tương thích của tính năng Delta Lake như thế nào?.
Điều kiện tiên quyết
Azure Data Lake Storage Phải nằm trong cùng một đối tượng thuê và vùng Azure với Customer Insights - Data.
Người dùng dịch vụ chính phải có quyền Người đóng góp dữ liệu Blob lưu trữ để truy cập vào tài khoản lưu trữ. Customer Insights - Data Để biết thêm thông tin, hãy xem Cấp quyền cho chủ thể dịch vụ để truy cập tài khoản lưu trữ.
Người dùng thiết lập hoặc cập nhật nguồn dữ liệu cần có ít nhất quyền Trình đọc dữ liệu Blob lưu trữ trên tài khoản Azure Data Lake Storage .
Dữ liệu được lưu trữ trong các dịch vụ trực tuyến có thể được lưu trữ ở một vị trí khác với nơi dữ liệu được xử lý hoặc lưu trữ. Bằng cách nhập hoặc kết nối với dữ liệu được lưu trữ trong các dịch vụ trực tuyến, bạn đồng ý rằng dữ liệu có thể được chuyển giao. Tìm hiểu thêm tại Trung tâm tin cậy của Microsoft.
Customer Insights - Data hỗ trợ trình đọc Databricks phiên bản 2. Các bảng Delta sử dụng các tính năng yêu cầu trình đọc Databricks phiên bản 3 trở lên không được hỗ trợ. Tìm hiểu thêm: Các tính năng được hỗ trợ của Databricks.
Bảng Delta phải nằm trong một thư mục trong vùng lưu trữ và không thể nằm trong thư mục gốc của vùng lưu trữ. Ví dụ:
storageaccountcontainer/ DeltaDataRoot/ ADeltaTable/ _delta_log/ 0000.json 0001.json part-0001-snappy.parquet part-0002-snappy.parquet
- Dữ liệu trong Azure Data Lake Storage của bạn phải nằm trong bảng Delta. Customer Insights - Data dựa vào thuộc tính phiên bản trong lịch sử của bảng để xác định những thay đổi mới nhất cho quá trình xử lý gia tăng.
Kết nối với dữ liệu Delta từ Azure Data Lake Storage
Đi tới Dữ liệu>Nguồn dữ liệu.
Chọn Thêm nguồn dữ liệu.
Chọn bảng Azure Data Lake Delta.
Nhập tên nguồn dữ liệu và Mô tả tùy chọn. Tên được tham chiếu trong các quy trình tiếp theo và không thể thay đổi sau khi tạo nguồn dữ liệu.
Chọn một trong các tùy chọn sau để Kết nối bộ lưu trữ của bạn bằng.
- Đăng ký Azure: Chọn Đăng ký và sau đó chọn Nhóm tài nguyên và Tài khoản lưu trữ.
- Tài nguyên Azure: Nhập ID tài nguyên.
Theo tùy chọn, nếu bạn muốn thu thập dữ liệu từ tài khoản lưu trữ thông qua Azure Private liên kết, hãy chọn Enable Private liên kết. Để biết thêm thông tin, hãy xem Liên kết riêng tư.
Chọn tên của Vùng chứa chứa thư mục dữ liệu của bạn và chọn Tiếp theo.
Điều hướng đến thư mục chứa dữ liệu trong bảng Delta và chọn thư mục đó. Sau đó, chọn Tiếp theo. Danh sách các bảng có sẵn sẽ được hiển thị.
Chọn các bảng bạn muốn đưa vào.
Đối với các bảng được chọn mà khóa chính không được xác định, Bắt buộc sẽ hiển thị bên dưới Khóa chính. Đối với mỗi bảng sau:
- Chọn Bắt buộc. Bảng Chỉnh sửa bảng sẽ hiển thị.
- Chọn Khóa chính. Khóa chính là thuộc tính duy nhất của bảng. Để một thuộc tính là khóa chính hợp lệ, thuộc tính đó không được bao gồm các giá trị trùng lặp, giá trị bị thiếu hoặc giá trị rỗng. Các thuộc tính kiểu dữ liệu chuỗi, số nguyên và GUID được hỗ trợ làm khóa chính.
- Chọn Đóng để lưu và đóng bảng điều khiển.
Để bật tính năng lập hồ sơ dữ liệu trên bất kỳ cột nào, hãy chọn số lượng Cột cho bảng. Trang Quản lý thuộc tính sẽ hiển thị.
- Chọn Hồ sơ dữ liệu cho toàn bộ bảng hoặc cho các cột cụ thể. Theo mặc định, không có bảng nào được bật để lập hồ sơ dữ liệu.
- Chọn Xong.
Chọn Lưu. Trang Nguồn dữ liệu mở ra và hiển thị nguồn dữ liệu mới ở trạng thái Đang làm mới .
Tiền bo
Có trạng thái cho các tác vụ và quy trình. Hầu hết các quy trình đều phụ thuộc vào các quy trình thượng nguồn khác, chẳng hạn như nguồn dữ liệu và hồ sơ dữ liệu làm mới.
Chọn trạng thái để mở ngăn Chi tiết tiến trình và xem tiến trình của các tác vụ. Để hủy công việc, hãy chọn Hủy công việc ở cuối ngăn.
Trong mỗi tác vụ, bạn có thể chọn Xem chi tiết để biết thêm thông tin về tiến trình, chẳng hạn như thời gian xử lý, ngày xử lý gần nhất và bất kỳ lỗi và cảnh báo nào liên quan đến tác vụ hoặc quy trình. Chọn Xem trạng thái hệ thống ở cuối bảng điều khiển để xem các quy trình khác trong hệ thống.
Quá trình tải dữ liệu có thể mất một khoảng thời gian. Sau khi làm mới thành công, dữ liệu đã nhập có thể được xem lại từ trang Bảng .
Quản lý thay đổi lược đồ
Khi một cột được thêm vào hoặc xóa khỏi lược đồ của thư mục Delta nguồn dữ liệu, hệ thống sẽ chạy lệnh làm mới toàn bộ dữ liệu. Làm mới hoàn toàn mất nhiều thời gian hơn để xử lý toàn bộ dữ liệu so với làm mới gia tăng.
Thêm cột
Khi một cột được thêm vào nguồn dữ liệu, thông tin sẽ tự động được thêm vào dữ liệu trong Customer Insights - Data khi có thao tác làm mới. Nếu quá trình hợp nhất đã được cấu hình cho bảng, cột mới phải được thêm vào quy trình hợp nhất.
Từ Dữ liệu khách hàng bước, chọn Chọn bảng và cột và chọn cột mới.
Trong Chế độ xem dữ liệu hợp nhất bước, hãy đảm bảo cột không bị loại trừ khỏi hồ sơ khách hàng. Chọn Loại trừ và thêm lại cột.
Trong Chạy cập nhật cho hồ sơ hợp nhất bước, chọn Hợp nhất hồ sơ khách hàng và các phụ thuộc.
Thay đổi hoặc xóa một cột
Khi một cột bị xóa khỏi nguồn dữ liệu, hệ thống sẽ kiểm tra các phụ thuộc trong các quy trình khác. Nếu có sự phụ thuộc vào các cột, hệ thống sẽ dừng làm mới và đưa ra lỗi cho biết sự phụ thuộc đó phải bị xóa. Những phụ thuộc này sẽ hiển thị trong thông báo để giúp bạn xác định vị trí và xóa chúng.
Xác thực thay đổi lược đồ
Sau khi nguồn dữ liệu làm mới, hãy chuyển đến trang Dữ liệu>Bảng . Chọn bảng cho nguồn dữ liệu và xác minh lược đồ.
Du hành thời gian và làm mới dữ liệu hồ Delta
Du hành thời gian trên hồ Delta là khả năng truy vấn thông qua các phiên bản bảng dựa trên dấu thời gian hoặc số phiên bản. Các thay đổi đối với thư mục Delta được đánh số phiên bản và sử dụng các phiên bản thư mục Delta để theo dõi dữ liệu cần xử lý. Customer Insights - Data Trong quá trình làm mới bảng delta thông thường, dữ liệu sẽ được lấy từ tất cả các phiên bản bảng dữ liệu kể từ lần làm mới cuối cùng. Chỉ cần có tất cả các phiên bản, Customer Insights - Data có thể xử lý các phần tử đã thay đổi và cung cấp kết quả nhanh hơn. Tìm hiểu thêm về du hành thời gian.
Ví dụ: nếu Customer Insights – Data được đồng bộ hóa lần cuối với phiên bản 23 của dữ liệu thư mục Delta, thì ứng dụng này hy vọng sẽ tìm thấy phiên bản 23 và có thể là các phiên bản tiếp theo. Nếu phiên bản dữ liệu mong đợi không khả dụng, quá trình đồng bộ hóa dữ liệu sẽ không thành công và cần phải làm mới dữ liệu đầy đủ theo cách thủ công . Đồng bộ hóa dữ liệu có thể không thành công nếu dữ liệu thư mục Delta của bạn bị xóa rồi được tạo lại. Hoặc nếu Customer Insights - Data không thể kết nối với thư mục Delta của bạn trong thời gian dài khi các phiên bản nâng cao.
Để tránh phải làm mới toàn bộ dữ liệu, chúng tôi khuyên bạn nên duy trì lịch sử tồn đọng hợp lý, chẳng hạn như 15 ngày.
Chạy thủ công làm mới dữ liệu đầy đủ trên thư mục bảng Delta
Làm mới hoàn toàn sẽ lấy tất cả dữ liệu từ bảng theo định dạng Delta và tải lại từ phiên bản bảng Delta không (0). Những thay đổi trong lược đồ thư mục Delta sẽ kích hoạt quá trình làm mới hoàn toàn tự động. Để kích hoạt làm mới hoàn toàn theo cách thủ công, hãy thực hiện các bước sau.
Đi tới Dữ liệu>Nguồn dữ liệu.
Chọn bảng Azure Data Lake Delta nguồn dữ liệu.
Chọn bảng bạn muốn làm mới. Ngăn Chỉnh sửa bảng sẽ hiển thị.
Chọn Chạy làm mới đầy đủ một lần.
Chọn Lưu để chạy làm mới. Trang Nguồn dữ liệu mở ra và hiển thị nguồn dữ liệu ở trạng thái Đang làm mới , nhưng chỉ có bảng được chọn đang làm mới.
Lặp lại quy trình này cho các bảng khác nếu có thể.
Lỗi đồng bộ dữ liệu
Đồng bộ hóa dữ liệu có thể không thành công nếu dữ liệu thư mục Delta của bạn bị xóa rồi được tạo lại. Hoặc nếu Customer Insights - Data không thể kết nối với thư mục Delta của bạn trong thời gian dài khi các phiên bản nâng cao. Để giảm thiểu tác động khi lỗi đường ống dữ liệu không liên tục tạo ra nhu cầu làm mới hoàn toàn, chúng tôi khuyên bạn nên duy trì lịch sử tồn đọng hợp lý, chẳng hạn như 15 ngày.