Mô hình dựng sẵn nhận dạng văn bản

Mô hình nhận dạng văn bản dựng sẵn sẽ trích xuất các từ trong tài liệu và hình ảnh thành các luồng ký tự có thể đọc được bằng máy. Công nghệ này sử dụng công nghệ nhận dạng ký tự quang học (OCR) tiên tiến nhất để phát hiện văn bản in và viết tay trong hình ảnh.

Mô hình này xử lý hình ảnh và tệp tài liệu để trích xuất các dòng văn bản in hoặc viết tay.

Sử dụng trong Power Apps

Mô hình nhận dạng văn bản dựng sẵn có sẵn trong Power Apps bằng cách sử dụng thành phần nhận dạng văn bản. Thông tin thêm: Sử dụng thành phần nhận dạng văn bản trong Power Apps

Sử dụng trong Power Automate

Để biết thông tin về cách sử dụng mô hình này trong Power Automate, hãy xem Sử dụng mô hình dựng sẵn nhận dạng văn bản trong Power Automate.

Ngôn ngữ, định dạng và kích thước được hỗ trợ

Các tập tin bạn có thể quét bằng mô hình nhận dạng văn bản phải có những đặc điểm sau:

  • Ngôn ngữ in văn bản: Tiếng Nam Phi, tiếng Albania, tiếng Angika (Devanagiri), tiếng Ả Rập, tiếng Asturian, tiếng Awadhi-Hindi (Devanagiri), tiếng Azerbaijan (Latin), tiếng Bagheli, tiếng Basque, tiếng Belarus (Cyrillic), tiếng Belarus (tiếng Latin), tiếng Bhojpuri-Hindi (Devanagiri), tiếng Bislama, tiếng Bodo (Devanagiri), tiếng Bosnia (tiếng Latin), tiếng Brajbha, tiếng Breton, Tiếng Bungari, Bundeli, Buryat (Cyrillic), Catalan, Cebuano, Chamling, Chamorro, Chhattisgarhi (Devanagiri), Tiếng Trung (Giản thể), Tiếng Trung (Truyền thống), Cornish, Corsican, Crimean Tatar (Latin), Croatia, Séc, Đan Mạch, Dari, Dhimal (Devanagiri), Dogri (Devanagiri), tiếng Hà Lan, tiếng Anh, Erzya (Cyrillic), tiếng Estonia, tiếng Faroe, tiếng Fijian, tiếng Philipin, Tiếng Phần Lan, tiếng Pháp, tiếng Friulian, tiếng Gagauz (tiếng Latin), Tiếng Galicia, tiếng Đức, tiếng Gilbert, tiếng Gondi (Devanagiri), tiếng Greenland, tiếng Gurung (Devanagiri), tiếng Haiti Creole, tiếng Halbi (Devanagiri), tiếng Hani, tiếng Haryanvi, tiếng Hawaii, tiếng Hindi, tiếng Hmong Daw (tiếng Latin), tiếng Ho(Devanagiri), tiếng Hungary, tiếng Iceland, tiếng Inari Sami, tiếng Indonesia, tiếng Interlingua, tiếng Inuktitut (tiếng Latin), tiếng Ireland, tiếng Ý, tiếng Nhật, tiếng Jaunsari (Devanagiri), tiếng Java, Kabuverdianu, Kachin (Latin), Kangri (Devanagiri), Karachay-Balkar, Kara-Kalpak (Cyrillic), Kara-Kalpak (Latin), Kashubian, Kazakhstan (Cyrillic), Kazakhstan (Latin), Khaling, Khasi, K'iche', Korean, Korku, Koryak, Kosraean, Kumyk (Cyrillic), Kurd (Ả Rập), Kurd (Latin), Kurukh (Devanagiri), tiếng Kyrgyz (Cyrillic), tiếng Lakota, tiếng Latin, Tiếng Litva, tiếng Hạ Sorbia, tiếng Lule Sami, tiếng Luxembourg, tiếng Mahasu Pahari (Devanagiri), tiếng Mã Lai (Latin), tiếng Malta, tiếng Malto (Devanagiri), tiếng Manx, tiếng Maori, tiếng Marathi, tiếng Mông Cổ (Kirin), tiếng Montenegro (Kirin), tiếng Montenegro (Latin), tiếng Napoli, tiếng Nepal, tiếng Niue, tiếng Nogay, tiếng Sami Bắc (Latin), tiếng Na Uy, tiếng Occitan, tiếng Ossetic, tiếng Pashto, tiếng Ba Tư, tiếng Ba Lan, tiếng Bồ Đào Nha, tiếng Punjab (tiếng Ả Rập), tiếng Ripuarian, tiếng Rumani, tiếng Romansh, tiếng Nga, tiếng Sadri (Devanagiri), tiếng Samoa (Latin), tiếng Phạn (Devanagari), tiếng Santali (Devanagiri), tiếng Scotland, tiếng Gaelic Scotland, tiếng Serbia (Latin), tiếng Sherpa (Devanagiri), tiếng Sirmauri (Devanagiri), tiếng Skolt Sami, tiếng Slovak, tiếng Slovenia, tiếng Somali (Ả Rập), tiếng Sami Nam, tiếng Tây Ban Nha, tiếng Swahili (Latin), tiếng Thụy Điển, tiếng Tajik (Cyrillic), tiếng Tatar (La tinh), Tetum, Thangmi, Tonga, Thổ Nhĩ Kỳ, Turkmen (La tinh), Tuvan, Thượng Sorbia, Urdu, Uyghur (Ả Rập), Uzbek (Ả Rập), Uzbek (Cyrillic), Uzbek (La tinh), Volapük, Walser, xứ Wales, Tây Frisian, Yucatec Maya, Zhuang, Zulu
  • Ngôn ngữ cho văn bản viết tay: Tiếng Anh, Tiếng Trung (giản thể), Tiếng Pháp, Tiếng Đức, Tiếng Ý, Tiếng Nhật, Tiếng Hàn, Tiếng Bồ Đào Nha, Tiếng Tây Ban Nha
  • Định dạng:
    • JPG
    • PNG
    • BMP
    • PDF
  • Kích thước: Tối đa 20 MB
  • Đối với tài liệu PDF, chỉ có 2.000 trang đầu tiên được xử lý.

Đầu ra mô hình

Nếu phát hiện được tài liệu, mô hình nhận dạng văn bản sẽ đưa ra thông tin sau:

  • Kết quả: Danh sách các dòng được trích xuất từ văn bản đầu vào.
  • Văn bản: Chuỗi chứa dòng văn bản được phát hiện.
  • BoundingBox: Bốn giá trị biểu diễn hộp giới hạn, được mô tả bằng cách sử dụng vị trí trên cùng và bên trái cùng với chiều rộng và chiều cao của hộp.

Giới hạn

Hoạt động Giới hạn Thời gian gia hạn
Cuộc gọi nhận dạng văn bản (theo môi trường) 480 60 giây

Đào tạo: Nhận dạng văn bản với AI Builder (module)