Sử dụng các mô hình dựng sẵn

Đã hoàn thành

Các mô hình dựng sẵn trong Azure Document Intelligence cho phép bạn trích xuất dữ liệu từ các loại biểu mẫu phổ biến mà không cần đào tạo mô hình của riêng bạn. Microsoft đào tạo các mô hình này trên số lượng lớn tài liệu mẫu, vì vậy bạn có thể mong đợi kết quả chính xác và đáng tin cậy cho các loại tài liệu tiêu chuẩn.

Mô hình phân tích tài liệu

Trước khi xem xét các mô hình dựng sẵn theo miền cụ thể, điều quan trọng là phải hiểu các mô hình phân tích tài liệu làm nền tảng cho chúng.

Đọc mô hình

Mô hình đọc trích xuất văn bản in và viết tay từ tài liệu và hình ảnh. Nó phát hiện ngôn ngữ của từng dòng văn bản và phân loại văn bản được viết tay hay in. Mô hình đọc được sử dụng làm nền tảng cho việc trích xuất văn bản trong tất cả các mô hình Document Intelligence khác.

Đối với các tệp PDF hoặc TIFF nhiều trang, bạn có thể sử dụng pages tham số trong yêu cầu của mình để chỉ định phạm vi trang để phân tích.

Mô hình đọc lý tưởng khi bạn muốn trích xuất các từ và dòng từ các tài liệu không có cấu trúc cố định hoặc có thể dự đoán được.

Ảnh chụp màn hình hiển thị mô hình đã đọc đang phân tích tài liệu mẫu trong Document Intelligence Studio.

Mô hình bố cục

Mô hình bố cục mở rộng khả năng trích xuất văn bản của mô hình đọc bằng cách phát hiện các dấu lựa chọn, bảng và thông tin cấu trúc tài liệu. Nó cũng hỗ trợ một tính năng tùy chọn keyValuePairs để trích xuất các cặp khóa-giá trị.

Khi bạn số hóa tài liệu, tài liệu đó có thể có góc cạnh hoặc bảng có thể có cấu trúc phức tạp với các ô được hợp nhất hoặc hàng không hoàn chỉnh. Mô hình bố cục có thể xử lý những khó khăn này. Mỗi ô bảng được trích xuất với nội dung, vị trí hộp giới hạn và chỉ mục hàng/cột.

Dấu lựa chọn (hộp kiểm và nút radio) được trích xuất với hộp giới hạn, mức độ tin cậy và liệu chúng có được chọn hay không.

Ảnh chụp màn hình hiển thị mô hình bố cục trích xuất bảng và cấu trúc từ tài liệu mẫu trong Document Intelligence Studio.

Lưu ý

Mô hình tài liệu chung đã có sẵn trong các phiên bản trước của Document Intelligence, nhưng đã không được dùng nữa trong 2023-10-31-preview bản phát hành. Chức năng của nó để trích xuất cặp khóa-giá trị và thực thể đã được tích hợp vào mô hình bố cục và các tính năng khác.

Các mô hình dựng sẵn cho các loại tài liệu cụ thể

Azure Document Intelligence bao gồm các mô hình dựng sẵn được đào tạo trên các loại tài liệu cụ thể. Các mô hình dựng sẵn sau đây là một số ví dụ có sẵn để trích xuất các trường từ các tài liệu kinh doanh phổ biến:

Mẫu Mô tả
Hóa đơn Trích xuất tên khách hàng, chi tiết nhà cung cấp, số đơn đặt hàng, hóa đơn và ngày đến hạn, địa chỉ thanh toán và giao hàng, mục hàng và tổng số.
Biên lai Trích xuất thông tin chi tiết về người bán, ngày và giờ giao dịch, mục hàng và tổng số. Hỗ trợ xử lý biên lai khách sạn một trang.
Sao kê ngân hàng Trích xuất thông tin tài khoản, số dư đầu và cuối và chi tiết giao dịch.
Kiểm tra Trích xuất người nhận thanh toán, số tiền, ngày tháng và các thông tin liên quan khác.
Cuống phiếu lương Trích xuất tiền lương, giờ làm việc, khấu trừ, trả lương ròng và các lĩnh vực trả lương phổ biến khác.
Thẻ tín dụng Trích xuất thông tin thẻ thanh toán.
Hợp đồng Trích xuất thông tin chi tiết về thỏa thuận và bên.

Chứng từ thuế Hoa Kỳ

Mẫu Mô tả
Thuế hợp nhất của Hoa Kỳ Một mô hình duy nhất trích xuất từ bất kỳ loại biểu mẫu thuế Hoa Kỳ nào được hỗ trợ.
W-2 · Trích xuất chi tiết bồi thường chịu thuế.
1098 và các biến thể Trích xuất lãi suất thế chấp và các chi tiết liên quan.
1099 và các biến thể Khai thác thu nhập từ nhiều nguồn khác nhau.
1040 và các biến thể Trích xuất chi tiết tờ khai thuế thu nhập cá nhân.

Giấy tờ thế chấp Hoa Kỳ

Mẫu Mô tả
1003 (URLA) Trích xuất chi tiết đơn xin vay.
1004 (URAR) Trích xuất thông tin từ thẩm định tài sản.
1005 Trích xuất thông tin xác nhận việc làm.
1008 Trích xuất chi tiết chuyển khoản vay.
Tiết lộ kết thúc Trích xuất các điều khoản cho vay cuối cùng.

Giấy tờ tùy thân

Mẫu Mô tả
Giấy tờ tùy thân Trích xuất thông tin chi tiết từ giấy phép lái xe của Hoa Kỳ, ID và bằng lái xe của Liên minh Châu Âu cũng như hộ chiếu quốc tế. Bao gồm tên, ngày sinh, số tài liệu và xác nhận hoặc hạn chế.
Thẻ bảo hiểm y tế Trích xuất các trường phổ biến từ thẻ bảo hiểm y tế Hoa Kỳ.
Giấy chứng nhận kết hôn Trích xuất thông tin hôn nhân được chứng nhận.

Quan trọng

Mô hình tài liệu ID trích xuất thông tin cá nhân thuộc phạm vi điều chỉnh của luật bảo vệ dữ liệu ở hầu hết các khu vực pháp lý. Đảm bảo bạn có quyền lưu trữ dữ liệu của cá nhân và tuân thủ tất cả các yêu cầu pháp lý hiện hành.

Tính năng của các mô hình dựng sẵn

Các mô hình dựng sẵn được thiết kế để trích xuất các loại dữ liệu khác nhau từ tài liệu. Những tính năng này bao gồm:

  • Trích xuất văn bản: Tất cả các mô hình dựng sẵn đều trích xuất các dòng và từ từ văn bản viết tay và in.
  • Cặp khóa-giá trị: Khoảng văn bản xác định nhãn và phản hồi của nhãn đó. Ví dụ: Trọng lượng31 kg.
  • Dấu lựa chọn: Hộp kiểm và nút chọn, bao gồm cả việc chúng có được chọn hay không.
  • Bảng: Dữ liệu trong ô, bao gồm số cột và hàng, tiêu đề cột và hàng cũng như các ô được hợp nhất.
  • Trường: Các mô hình được đào tạo cho một loại biểu mẫu cụ thể xác định một tập hợp các trường cố định. Ví dụ: mô hình hóa đơn trích xuất CustomerNameInvoiceTotal.

Khi nào nên sử dụng mô hình tạo sẵn so với mô hình tùy chỉnh

Các mô hình tạo sẵn bao gồm các loại tài liệu phổ biến nhất. Nếu bạn có một loại biểu mẫu dành riêng cho ngành hoặc duy nhất, bạn có thể nhận được kết quả chính xác hơn với mô hình tùy chỉnh. Tuy nhiên, các mô hình tùy chỉnh cần thời gian và dữ liệu mẫu để đào tạo. Luôn kiểm tra xem mô hình dựng sẵn có tồn tại cho kịch bản của bạn hay không trước khi đầu tư vào phát triển mô hình tùy chỉnh.

Tìm hiểu thêm