Mulai menggunakan alat Pelabelan Sampel Kecerdasan Dokumen
Konten ini berlaku untuk: v2.1.
Tip
- Untuk pengalaman yang ditingkatkan dan kualitas model tingkat lanjut, coba Document Intelligence v3.0 Studio.
- Studio v3.0 mendukung model apa pun yang dilatih dengan data berlabel v2.1.
- Anda dapat mengacu ke panduan migrasi API untuk mendapatkan detail informasi tentang migrasi dari v2.1 ke v3.0.
- Lihat mulai cepat REST API atau C#, Java, JavaScript, atau Python SDK untuk memulai versi v3.0.
Alat Pelabelan Sampel Kecerdasan Dokumen Azure AI adalah alat sumber terbuka yang memungkinkan Anda menguji fitur terbaru layanan Kecerdasan Dokumen dan Pengenalan Karakter Optik (OCR):
Menganalisis dokumen dengan API Tata Letak. Mencoba API Tata Letak untuk mengekstrak teks, tabel, tanda pilihan, dan struktur dari dokumen.
Menganalisis dokumen menggunakan model prabangun. Mulailah dengan model prabangun untuk mengekstrak data dari faktur, tanda terima, dokumen identitas, atau kartu nama.
Melatih dan menganalisis Formulir kustom. Gunakan model kustom untuk mengekstrak data dari dokumen khusus untuk data bisnis dan kasus penggunaan yang khas.
Prasyarat
Anda memerlukan hal berikut untuk memulai:
Langganan Azure—Anda dapat membuat langganan gratis
Layanan Azure AI atau sumber daya Kecerdasan Dokumen. Setelah Anda memiliki langganan Azure, buat sumber daya Kecerdasan Dokumen satu layanan, atau multi-layanan di portal Azure untuk mendapatkan kunci dan titik akhir Anda. Anda dapat menggunakan tingkat harga gratis (
F0
) untuk percobaan, lalu meningkatkannya ke tingkat berbayar untuk produksi.Tip
Buat sumber daya layanan Azure AI jika Anda berencana mengakses beberapa layanan Azure AI di bawah satu titik akhir/kunci. Hanya untuk akses Kecerdasan Dokumen, buat sumber daya Kecerdasan Dokumen. Harap dicatat bahwa Anda memerlukan sumber daya layanan tunggal jika Anda ingin menggunakan autentikasi Microsoft Entra.
Membuat sumber daya Kecerdasan Dokumen
Buka portal Azure dan buat sumber daya Kecerdasan Dokumen baru . Di panel Buat, berikan informasi berikut ini:
Detail proyek | Deskripsi |
---|---|
Langganan | Pilih langganan Azure yang aksesnya sudah diberikan. |
Grup sumber daya | Grup sumber daya Azure yang berisi sumber daya Anda. Anda dapat membuat grup baru atau menambahkannya ke grup yang sudah ada sebelumnya. |
Wilayah | Lokasi sumber daya layanan Azure AI Anda. Lokasi yang berbeda dapat menimbulkan latensi, tapi tidak berdampak pada ketersediaan runtime sumber daya Anda. |
Nama | Nama deskriptif untuk sumber daya Anda. Sebaiknya gunakan nama deskriptif, misalnya MyNameFormRecognizer. |
Tingkat harga | Biaya sumber daya Anda bergantung pada tingkat harga yang dipilih dan penggunaannya. Untuk informasi selengkapnya, lihat detail harga API. |
Tinjau + buat | Pilih tombol Tinjau + buat guna menyebarkan sumber daya Anda di portal Microsoft Azure. |
Mengambil kunci dan titik akhir
Saat sumber daya Kecerdasan Dokumen Anda selesai disebarkan, temukan dan pilih dari daftar Semua sumber daya di portal. Kunci dan titik akhir Anda akan berada di halaman Kunci dan Titik Akhir sumber daya, di bagian Manajemen Sumber Daya. Simpan keduanya ke lokasi sementara sebelum melanjutkan.
Menganalisis menggunakan model Prabangun
Kecerdasan Dokumen menawarkan beberapa model bawaan untuk dipilih. Setiap model memiliki seperangkat bidang yang didukung. Model yang Analyze
digunakan untuk operasi tergantung pada jenis dokumen yang akan dianalisis. Berikut adalah model bawaan yang saat ini didukung oleh layanan Kecerdasan Dokumen:
- Faktur: mengekstrak teks, tanda pilihan, tabel, pasangan kunci-nilai, dan informasi penting dari faktur.
- Kuitansi: mengekstrak teks dan informasi penting dari kuitansi.
- Dokumen ID: mengekstrak teks dan informasi penting dari SIM dan paspor internasional.
- Kartu nama: mengekstrak teks dan informasi penting dari kartu nama.
Navigasikan ke Alat Sampel Kecerdasan Dokumen.
Pada beranda alat sampel, pilih gunakan model bawaan untuk mendapatkan petak data .
Pilih Jenis Formulir untuk dianalisis dari menu dropdown.
Pilih URL untuk {i>file
Pada bidang Sumber, pilih URL dari menu drop down, tempel URL yang dipilih, dan pilih tombol Ambil.
Di bidang titik akhir layanan Inteligensi Dokumen, tempelkan titik akhir yang Anda peroleh dengan langganan Kecerdasan Dokumen Anda.
Di bidang kunci, tempelkan kunci yang Anda peroleh dari sumber daya Kecerdasan Dokumen Anda.
Pilih Jalankan analisis. Alat Pelabelan Sampel Kecerdasan Dokumen memanggil API Analisis Bawaan dan menganalisis dokumen.
Lihat hasilnya - lihat pasangan kunci-nilai yang diekstrak, item baris, teks yang disorot diekstrak, dan tabel terdeteksi.
Unduh {i>file output
- Simpul "readResults" berisi setiap baris teks dengan penempatan kotak pembatasnya masing-masing pada halaman.
- Simpul "selectionMarks" menunjukkan setiap tanda pilihan (kotak centang, tanda radio) dan apakah statusnya
selected
atauunselected
. - Bagian "pageResults" mencakup tabel yang diekstrak. Rentang baris dan kolom, kotak pembatas, dan lainnya diekstrak untuk setiap tabel, teks, baris, dan indeks kolom.
- Bidang "documentResults" berisi informasi pasangan kunci/nilai dan informasi item baris untuk bagian dokumen yang paling relevan.
Menganalisis Tata Letak
Azure Document Intelligence Layout API mengekstrak teks, tabel, tanda pilihan, dan informasi struktur dari dokumen (PDF, TIFF) dan gambar (JPG, PNG, BMP).
Navigasikan ke Alat Sampel Kecerdasan Dokumen.
Pada beranda alat sampel, pilih Gunakan Tata Letak untuk mendapatkan teks, tabel, dan tanda pilihan.
Di bidang titik akhir layanan Inteligensi Dokumen, tempelkan titik akhir yang Anda peroleh dengan langganan Kecerdasan Dokumen Anda.
Di bidang kunci, tempelkan kunci yang Anda peroleh dari sumber daya Kecerdasan Dokumen Anda.
Pada bidang Sumber, pilih URL dari menu drop down, tempel URL
https://raw.githubusercontent.com/Azure-Samples/cognitive-services-REST-api-samples/master/curl/form-recognizer/layout-page-001.jpg
yang dipilih, dan pilih tombol Ambil.Pilih Jalankan Tata letak. Alat Pelabelan Sampel Kecerdasan Dokumen memanggil
Analyze Layout API
dan menganalisis dokumen.Lihat hasilnya - lihat teks yang disorot yang diekstrak, tanda pilihan terdeteksi, dan tabel terdeteksi.
Unduh {i>file output
- Node
readResults
berisi setiap baris teks dengan penempatan kotak pembatasnya masing-masing pada halaman. - Simpul
selectionMarks
menunjukkan setiap tanda pilihan (kotak centang, tanda radio) dan apakah statusnyaselected
atauunselected
. - Bagian
pageResults
ini mencakup tabel yang diekstrak. Rentang baris dan kolom, kotak pembatas, dan lainnya diekstrak untuk setiap tabel, teks, baris, dan indeks kolom.
- Node
Melatih model formulir kustom
Melatih model kustom untuk menganalisis dan mengekstrak data dari formulir dan dokumen yang spesifik untuk bisnis Anda. API adalah program pembelajaran mesin yang dilatih untuk mengenali bidang isian borang di dalam konten tertentu serta mengekstrak pasangan kunci-nilai dan data tabel. Anda memerlukan setidaknya lima contoh jenis formulir yang sama untuk memulai dan model kustom Anda dapat dilatih dengan atau tanpa himpunan data berlabel.
Prasyarat untuk melatih model formulir kustom
Kontainer {i>blob kumpulan data sampelkami.
Jika Anda tidak tahu cara membuat akun penyimpanan Azure dengan kontainer, ikuti panduan mulai cepat Azure Storage untuk portal Azure.
Mengonfigurasi CORS
CORS (Berbagi Sumber Daya Lintas Asal) perlu dikonfigurasi di akun penyimpanan Azure Anda agar dapat diakses dari Studio Kecerdasan Dokumen. Untuk mengonfigurasi CORS di portal Azure, Anda memerlukan akses ke tab CORS akun penyimpanan Anda.
Pilih tab CORS untuk akun penyimpanan.
Mulailah dengan membuat entri CORS baru di Blob service.
Atur Asal yang diizinkan ke
https://fott-2-1.azurewebsites.net
.Tip
Anda dapat menggunakan wildcard '*' daripada domain tertentu untuk memungkinkan semua domain asal membuat permintaan melalui CORS.
Pilih 8 opsi yang tersedia untuk Metode yang diizinkan.
Setujui semua header yang diizinkan dan Header terbuka dengan memasukkan * di setiap bidang.
Atur Usia Maksimal hingga 120 detik atau nilai apa pun yang dapat diterima.
Pilih tombol simpan di bagian atas halaman dan simpan perubahan.
Gunakan alat Pelabelan Sampel
Navigasikan ke Alat Sampel Kecerdasan Dokumen.
Pada beranda alat sampel, pilih Gunakan formulir kustom untuk melatih model dengan label dan mendapatkan pasangan kunci-nilai.
Pilih Proyek baru
Membuat proyek baru
Konfigurasikan bidangPengaturan Proyek dengan nilai berikut:
Nama Tampilan. Beri nama proyek Anda.
Token Keamanan. Setiap proyek membuat otomatis token keamanan yang dapat digunakan untuk mengenkripsi/mendekripsi pengaturan proyek sensitif. Anda dapat menemukan token keamanan di Pengaturan Aplikasi dengan memilih ikon roda gigi di bagian bawah bilah navigasi kiri.
Koneksi sumber. Alat Sample Labeling tersambung ke sumber (formulir asli yang Anda unggah) dan target (label dan data output yang dibuat). Koneksi dapat disiapkan dan dibagikan di seluruh proyek. Koneksi ini menggunakan model penyedia yang dapat diperluas, sehingga Anda dapat dengan mudah menambahkan penyedia sumber/target baru.
- Buat koneksi baru, klik tombol Tambahkan Koneksi. Isi bidang dengan nilai berikut ini:
- Nama Tampilan. Beri nama koneksinya.
- Deskripsi. Tambahkan deskripsi singkat.
- URL SAS. Tempel URL tanda tangan akses bersama (SAS) untuk kontainer Azure Blob Storage Anda.
Untuk mengambil URL SAS untuk data pelatihan model kustom Anda, buka sumber daya penyimpanan di portal Microsoft Azure dan pilih tab Penjelajah Penyimpanan. Navigasikan ke kontainer Anda, klik kanan, dan pilih Dapatkan tanda tangan akses berbagi. SAS harus didapatkan untuk kontainer Anda, bukan untuk akun penyimpanan itu sendiri. Pastikan izin Baca, Tulis, Hapus, dan Cantumkan dicentang, lalu pilih Buat. Kemudian, salin nilai di bagian URL ke lokasi sementara. Ini harus memiliki format:
https://<storage account>.blob.core.windows.net/<container name>?<SAS value>
.
Jalur Folder (opsional). Jika formulir sumber Anda terletak di dalam folder dalam wadah blob, tentukan nama folder.
Uri Layanan Kecerdasan Dokumen - URL titik akhir Kecerdasan Dokumen Anda.
Kunci. Kunci Document Intelligence Anda.
Versi API. Pertahankan nilai (default) v2.1.
Deskripsi (opsional). Deskripsikan proyek Anda.
Labeli formulir Anda
Saat Anda membuat atau membuka proyek, jendela editor {i>tag tag
- Panel pratinjau yang dapat diubah ukurannya yang berisi daftar formulir yang dapat digulir dari koneksi sumber.
- Panel editor utama yang memungkinkan Anda menerapkan {i>tag
- Panel editor {i>tag tag
Mengidentifikasi teks dan tabel
Pilih Jalankan Tata Letak di dokumen yang belum pernah dikunjungi di panel sebelah kiri untuk mendapatkan informasi tata letak teks dan tabel untuk setiap dokumen. Alat pelabelan menggambar kotak pembatas di sekitar setiap elemen teks.
Alat pelabelan juga menunjukkan tabel mana yang diekstrak secara otomatis. Pilih ikon tabel/kisi di sebelah kiri dokumen dan lihat tabel yang diekstrak. Karena konten tabel diekstrak secara otomatis, kami tidak memberi label konten tabel, melainkan mengandalkan ekstraksi otomatis.
Menerapkan label ke teks
Selanjutnya, Anda membuat tag (label) dan menerapkannya ke elemen teks yang Anda inginkan untuk dianalisis model. Perhatikan bahwa himpunan data Label Sampel menyertakan bidang yang sudah diberi label; kami menambahkan bidang lain.
Gunakan panel editor {i>tag tag
Pilih tanda plus + untuk membuat tag baru.
Masukkan nama "Total" tag.
Pilih Enter untuk menyimpan tag.
Di editor utama, pilih nilai total dari elemen teks yang disorot.
Pilih tag Total yang ingin Anda terapkan ke nilai, atau tekan tombol keyboard yang sesuai. Tombol angka ditetapkan sebagai {i>hotkey tag tag tag
Tip
Ingatlah tips berikut saat Anda melabeli formulir:
Anda hanya dapat menerapkan satu {i>tag
Setiap {i>tag tag
{i>Tag
Memberi label nilai saat muncul di formulir; jangan mencoba membagi nilai menjadi dua bagian dengan dua {i>tag tag
Jangan sertakan kunci di bidang yang diberi tag—hanya nilainya saja.
Data tabel harus dideteksi secara otomatis dan akan tersedia dalam file JSON {i>output Melatih model kustom | Memberi label formulir Anda
Gunakan tombol di sebelah kanan + untuk menelusuri, mengganti nama, menyusun ulang, dan menghapus tag Anda.
Untuk menghapus tag yang diterapkan tanpa menghapus tag itu sendiri, pilih persegi panjang yang diberi tag pada tampilan dokumen dan tekan tombol hapus.
Melatih model kustom
Pilih ikon Latih di panel kiri dan buka halaman Pelatihan. Kemudian pilih tombol Latih untuk mulai melatih model. Setelah proses pelatihan selesai, Anda akan melihat informasi berikut:
ID Model - ID model yang dibuat dan dilatih. Setiap panggilan pelatihan membuat model baru dengan ID-nya sendiri. Salin string ini ke lokasi yang aman; Anda memerlukannya jika Anda ingin melakukan panggilan prediksi melalui REST API atau pustaka klien.
Akurasi Rata-Rata - Akurasi rata-rata model. Anda dapat meningkatkan akurasi model dengan melabeli lebih banyak formulir dan pelatihan ulang untuk membuat model baru. Sebaiknya Anda mulai dengan melabeli lima formulir dengan menganalisis dan menguji hasilnya dan kemudian jika diperlukan menambahkan lebih banyak formulir sesuai kebutuhan.
Daftar tag, dan perkiraan akurasi per tag. Untuk informasi selengkapnya, lihat Menginterpretasikan dan meningkatkan akurasi dan kepercayaan diri.
Menganalisis formulir kustom
Analyze
Pilih ikon dari bilah navigasi dan uji model Anda.Pilih file Lokal sumber dan telusuri file untuk dipilih dari himpunan data sampel yang Anda buka zipnya di folder pengujian.
Pilih tombol Jalankan analisis untuk mendapatkan pasangan kunci/nilai, teks, dan prediksi tabel untuk formulir. Alat ini menerapkan tag dalam kotak pembatas dan melaporkan keyakinan setiap tag.
Itu saja! Anda mempelajari cara menggunakan alat sampel Kecerdasan Dokumen untuk model bawaan, tata letak, dan kustom Kecerdasan Dokumen. Anda juga belajar menganalisis formulir kustom dengan data berlabel manual.