Mô hình dựng sẵn nhận dạng văn bản

Mô hình dựng sẵn nhận dạng văn bản trích xuất các từ trong tài liệu và hình ảnh thành các luồng ký tự mà máy có thể đọc được. Nó sử dụng công nghệ nhận dạng ký tự quang học (OCR) tiên tiến nhất để phát hiện văn bản in và viết tay trong hình ảnh.

Mô hình này xử lý hình ảnh và tệp tài liệu để trích xuất các dòng văn bản in hoặc viết tay.

Sử dụng trong Power Apps

Mô hình dựng sẵn nhận dạng văn bản có sẵn trong Power Apps bằng cách sử dụng thành phần trình nhận dạng văn bản. Thông tin thêm: Sử dụng thành phần trình nhận dạng văn bản trong Power Apps

Sử dụng trong Power Automate

Để biết thông tin về cách sử dụng mô hình này trong Power Automate, hãy xem Sử dụng mô hình dựng sẵn nhận dạng văn bản trong Power Automate.

Ngôn ngữ, định dạng và kích thước được hỗ trợ

Các tệp bạn có thể quét bằng mô hình nhận dạng văn bản phải có các đặc điểm sau:

  • Ngôn ngữ in văn bản: Afrikaans, Albanian, Angika (Devanagiri), Arabic, Asturian, Awadhi-Hindi (Devanagiri), Azerbaijani (Latin), Bagheli, Basque, Belarusian (Cyrillic), Belarusia (Latin), Bhojpuri-Hindi (Devanagiri), Bislama, Bodo (Devanagiri), Bosnian (Latin), Brajbha, Breton, Bulgari, Bundeli, Buryat (Cyrillic), Catalan, Cebuano, Chamling, Chamorro, Chhattisgarhi (Devanagiri), Trung Quốc (Giản thể), Tiếng Trung (Phồn thể), Tiếng Cornish, Tiếng Corsican, Tiếng Tatar Crimean (Tiếng Latinh), Tiếng Croatia, Tiếng Séc, Tiếng Đan Mạch, Tiếng Dari, Tiếng Dhimal (Devanagiri), Tiếng Dogri (Devanagiri), Tiếng Hà Lan, Tiếng Anh, Tiếng Erzya (Cyrillic), Tiếng Estonia, Tiếng Faroe, Tiếng Fiji, Tiếng Filipino, Phần Lan, Pháp, Friulian, Gagauz (Latin), Galicia, Đức, Gilbertese, Gondi (Devanagiri), Greenlandic, Gurung (Devanagiri), Haiti Creole, Halbi (Devanagiri), Hani, Haryanvi, Hawaiian, Hindi, Hmong Daw (Latin ), Ho(Devanagiri), Hungary, Iceland, Inari Sami, Indonesia, Interlingua, Inuktitut (Latin), Ailen, Ý, Nhật, Jaunsari (Devanagiri), Java, Kabuverdianu, Kachin (Latin), Kangri (Devanagiri), Karachay- Balkar, Kara-Kalpak (Cyrillic), Kara-Kalpak (Latin), Kashubian, Kazakh (Cyrillic), Kazakh (Latin), Khaling, Khasi, K'iche', Hàn Quốc, Korku, Koryak, Kosraean, Kumyk (Cyrillic), Người Kurd (tiếng Ả Rập), tiếng Kurd (tiếng Latinh), tiếng Kurukh (Devanagiri), tiếng Kyrgyz (tiếng Cyrillic), tiếng Lakota, tiếng Latinh, tiếng Litva, tiếng Hạ Sorbia, tiếng Lule Sami, tiếng Luxembourg, Mahasu Pahari (Devanagiri), tiếng Mã Lai (tiếng Latinh), tiếng Malta, tiếng Malto (Devanagiri) ), Manx, Maori, Marathi, Mông Cổ (Cyrillic), Montenegro (Cyrillic), Montenegro (Latin), Neapolitan, Nepali, Niuean, Nogay, Bắc Sami (Latin), Na Uy, Occitan, Ossetic, Pashto, Ba Tư, Ba Lan, Bồ Đào Nha, Punjabi (Ả Rập), Ripuary, Rumani, Romansh, Nga, Sadri (Devanagiri), Samoa (Latin), Phạn (Devanagari), Santali (Devanagiri), Scots, Scotland Gaelic, Serbian (Latin), Sherpa (Devanagiri), Sirmauri (Devanagiri), Skolt Sami, Slovak, Slovenia, Somali (Ả Rập), Nam Sami, Tây Ban Nha, Swahili (Latin), Thụy Điển, Tajik (Cyrillic), Tatar (Latin), Tetum, Thangmi, Tongan, Thổ Nhĩ Kỳ, Turkmen (Latin), Tuvan, Upper Sorbian, Urdu, Uyghur (Ả Rập), Uzbek (Ả Rập), Uzbek (Cyrillic), Uzbek (Latin), Volapük, Walser, Welsh, Western Frisian, Yucatec Maya, Zhuang, Zulu
  • Ngôn ngữ cho văn bản viết tay: Tiếng Anh, Tiếng Trung (Giản thể), Tiếng Pháp, Tiếng Đức, Tiếng Ý, Tiếng Nhật, Tiếng Hàn, Tiếng Bồ Đào Nha, Tiếng Tây Ban Nha
  • Định dạng:
    • JPG
    • PNG
    • BMP
    • PDF
  • Kích thước: Tối đa 20 MB
  • Đối với tài liệu PDF, chỉ 2.000 trang đầu tiên được xử lý.

đầu ra mô hình

Nếu một tài liệu được phát hiện, mô hình nhận dạng văn bản sẽ đưa ra thông tin sau:

  • Kết quả: Danh sách các dòng được trích xuất từ ​​văn bản đầu vào.
  • Văn bản: Các chuỗi chứa dòng văn bản được phát hiện.
  • BoundingBox: Bốn giá trị đại diện cho hộp giới hạn, được mô tả bằng cách sử dụng các vị trí trên cùng và bên trái cùng với chiều rộng và chiều cao của nó.

Giới hạn

Hoạt động Giới hạn thời gian gia hạn
Cuộc gọi nhận dạng văn bản (mỗi môi trường) 480 60 giây

Xem thêm

Đào tạo: Nhận dạng văn bản bằng AI Builder (module)