Lấy và chuẩn bị dữ liệu

Đã hoàn thành

Dữ liệu là nền tảng của máy học. Cả số lượng dữ liệu và chất lượng dữ liệu đều ảnh hưởng đến độ chính xác của mô hình.

Để đào tạo mô hình máy học, bạn cần:

  • Xác định nguồn dữ liệu và định dạng.
  • Chọn cách phục vụ dữ liệu.
  • Thiết kế giải pháp nhập dữ liệu.

Để nhận và chuẩn bị dữ liệu bạn sử dụng để đào tạo mô hình máy học, bạn cần trích xuất dữ liệu từ một nguồn và cung cấp dữ liệu đó cho dịch vụ Azure mà bạn muốn sử dụng để đào tạo các mô hình hoặc đưa ra dự đoán.

Xác định nguồn dữ liệu và định dạng

Trước tiên, bạn cần xác định nguồn dữ liệu và định dạng dữ liệu hiện tại của nguồn dữ liệu đó.

Xác định Ví dụ
Nguồn dữ liệu Ví dụ: dữ liệu có thể được lưu trữ trong hệ thống Quản lý Mối quan hệ Khách hàng (CRM), trong cơ sở dữ liệu giao dịch như cơ sở dữ liệu SQL hoặc được tạo bởi thiết bị Internet of Things (IoT).
Định dạng dữ liệu Bạn cần hiểu định dạng hiện tại của dữ liệu, có thể là dữ liệu dạng bảng hoặc có cấu trúc, dữ liệu bán cấu trúc hoặc dữ liệu phi cấu trúc.

Sau đó, bạn cần quyết định mình cần dữ liệu nào để đào tạo mô hình của mình và định dạng nào bạn muốn dữ liệu đó được phân phát cho mô hình đó.

Thiết kế giải pháp nhập dữ liệu

Nói chung, cách tốt nhất là trích xuất dữ liệu từ nguồn trước khi phân tích. Cho dù đang sử dụng dữ liệu cho kỹ thuật dữ liệu, phân tích dữ liệu hay khoa học dữ liệu, bạn muốn trích xuất dữ liệu từ nguồn dữ liệu, chuyển đổi dữ liệu và tải dữ liệu vào một lớp phục vụ. Quá trình này còn được gọi là Trích xuất, Biến đổiTải (ETL) hoặc Trích xuất, TảiChuyển đổi (ELT). Lớp phục vụ làm cho dữ liệu của bạn có sẵn cho dịch vụ bạn sử dụng để xử lý dữ liệu thêm như các mô hình đào tạo máy học.

Để di chuyển và chuyển đổi dữ liệu, bạn có thể sử dụng quy trình nhập dữ liệu. Quy trình nhập dữ liệu là một chuỗi các tác vụ di chuyển và chuyển đổi dữ liệu. Bằng cách tạo quy trình, bạn có thể chọn kích hoạt các tác vụ theo cách thủ công hoặc lên lịch quy trình khi bạn muốn các tác vụ được tự động hóa. Các quy trình này có thể được tạo bằng các dịch vụ Azure như Azure Synapse Analytics, Azure Databricks và Cả Azure Machine Learning.

Một cách tiếp cận phổ biến cho giải pháp nhập dữ liệu là:

  1. Trích xuất dữ liệu thô từ nguồn của nó (như hệ thống CRM hoặc thiết bị IoT).
  2. Sao chép và chuyển đổi dữ liệu bằng Azure Synapse Analytics.
  3. Lưu trữ dữ liệu đã chuẩn bị trong Lưu trữ Azure Blob.
  4. Đào tạo mô hình bằng Azure Machine Learning.

Sơ đồ hiển thị ví dụ về quy trình nhập dữ liệu.

Khám phá ví dụ

Hãy tưởng tượng bạn muốn đào tạo mô hình dự báo thời tiết. Bạn thích một bảng kết hợp tất cả các số đo nhiệt độ của mỗi phút. Bạn muốn tạo tập hợp dữ liệu và có bảng nhiệt độ trung bình mỗi giờ. Để tạo bảng, bạn muốn chuyển đổi dữ liệu bán cấu trúc được nhập từ thiết bị IoT đo nhiệt độ tại các khoảng thời gian, sang dữ liệu dạng bảng.

Sơ đồ hiển thị ví dụ về dữ liệu JSON được chuyển đổi thành bảng.

Ví dụ: để tạo tập dữ liệu bạn có thể sử dụng để đào tạo mô hình dự báo, bạn có thể:

  1. Trích xuất các phép đo dữ liệu dưới dạng đối tượng JSON từ các thiết bị IoT.
  2. Chuyển đổi đối tượng JSON thành bảng.
  3. Chuyển đổi dữ liệu để có nhiệt độ trên mỗi máy/phút.

Tiếp theo, chúng ta hãy khám phá các dịch vụ mà chúng ta có thể sử dụng để đào tạo các mô hình máy học.