Tạo kho dữ liệu

Đã hoàn thành

Trong Azure Machine Learning, các trữ dữ liệu của trừu tượng đối với các nguồn dữ liệu đám mây. Chúng đóng gói thông tin cần thiết để kết nối với các nguồn dữ liệu và lưu trữ an toàn thông tin kết nối này để bạn không phải mã hóa thông tin đó trong tập lệnh của mình.

Những lợi ích của việc sử dụng kho dữ liệu là:

  • Cung cấp URI dễ sử dụng cho bộ lưu trữ dữ liệu của bạn.
  • Hỗ trợ phát hiện dữ liệu trong Azure Machine Learning.
  • Lưu trữ an toàn thông tin kết nối mà không để lộ bí mật và chìa khóa cho các nhà khoa học dữ liệu.

Khi tạo kho dữ liệu với tài khoản lưu trữ hiện có trên Azure, bạn có thể lựa chọn giữa hai phương pháp xác thực khác nhau:

sơ đồ hai phương pháp xác thực khác nhau mà kho dữ liệu Máy học Máy Azure sử dụng để kết nối với các nguồn dữ liệu bên ngoài.

  • dựa trên thông tin xác thực: Sử dụng chính của dịch vụ, mã thông báo ( mã thông báoSAS) hoặc khóa tài khoản để xác thực quyền truy nhập vào tài khoản lưu trữ của bạn.
  • định danh dựa trênđịnh danh: Sử dụng danh Microsoft Entra của bạn để hoặc danh được quản lý.

Hiểu rõ các loại kho dữ liệu

Azure Machine Learning hỗ trợ tạo kho dữ liệu cho nhiều loại nguồn dữ liệu Azure, bao gồm:

  • Lưu trữ Azure Blob
  • Chia sẻ Tệp Azure
  • Azure Data Lake (Thế hệ 2)

Sử dụng các kho dữ liệu tích hợp sẵn

Mỗi không gian làm việc có bốn kho dữ liệu tích hợp sẵn (hai kho lưu trữ blob kết nối với Azure Storage và hai kết nối với chia sẻ tệp Azure Storage), được sử dụng làm kho lưu trữ hệ thống bởi Azure Machine Learning.

Trong hầu hết các dự án máy học, bạn cần làm việc với các nguồn dữ liệu của riêng mình. Ví dụ: bạn có thể tích hợp giải pháp máy học của mình với dữ liệu từ các ứng dụng hoặc quy trình kỹ thuật dữ liệu hiện có.

Tạo kho dữ liệu

Kho dữ liệu được đính kèm vào không gian làm việc và được sử dụng để lưu trữ thông tin kết nối đến các dịch vụ lưu trữ. Khi bạn tạo kho dữ liệu, bạn cung cấp một tên có thể được sử dụng để truy xuất thông tin kết nối.

Kho dữ liệu cho phép bạn dễ dàng kết nối với các dịch vụ lưu trữ mà không cần phải cung cấp tất cả các chi tiết cần thiết mỗi lần bạn muốn đọc hoặc ghi dữ liệu. Nó cũng tạo ra một lớp bảo vệ nếu bạn muốn người dùng sử dụng dữ liệu, nhưng không kết nối trực tiếp với dịch vụ lưu trữ cơ sở.

Tạo kho dữ liệu cho bộ chứa Azure Blob Storage

Bạn có thể tạo kho dữ liệu thông qua giao diện người dùng đồ họa, giao diện dòng lệnh Azure (CLI) hoặc bộ công cụ phát triển phần mềm Python (SDK).

Tùy thuộc vào dịch vụ lưu trữ bạn muốn kết nối, có các tùy chọn khác nhau để Azure Machine Learning xác thực.

Ví dụ: khi bạn muốn tạo kho dữ liệu để kết nối với bộ chứa Azure Blob Storage, bạn có thể sử dụng khóa tài khoản:

blob_datastore = AzureBlobDatastore(
    			name = "blob_example",
    			description = "Datastore pointing to a blob container",
    			account_name = "mytestblobstore",
    			container_name = "data-container",
    			credentials = AccountKeyConfiguration(
        			account_key="XXXxxxXXXxXXXXxxXXX"
    			),
)
ml_client.create_or_update(blob_datastore)

Ngoài ra, bạn có thể tạo kho dữ liệu để kết nối với bộ chứa Azure Blob Storage bằng cách sử dụng mã thông báo SAS để xác thực:

blob_datastore = AzureBlobDatastore(
name="blob_sas_example",
description="Datastore pointing to a blob container",
account_name="mytestblobstore",
container_name="data-container",
credentials=SasTokenConfiguration(
sas_token="?xx=XXXX-XX-XX&xx=xxxx&xxx=xxx&xx=xxxxxxxxxxx&xx=XXXX-XX-XXXXX:XX:XXX&xx=XXXX-XX-XXXXX:XX:XXX&xxx=xxxxx&xxx=XXxXXXxxxxxXXXXXXXxXxxxXXXXXxxXXXXXxXXXXxXXXxXXxXX"
),
)
ml_client.create_or_update(blob_datastore)