Mulai menggunakan alat Pelabelan Sampel Kecerdasan Dokumen

Konten ini berlaku untuk:Tanda centang Kecerdasan Dokumen v2.1v2.1.

Tip

  • Untuk pengalaman yang ditingkatkan dan kualitas model tingkat lanjut, coba Document Intelligence v3.0 Studio.
  • Studio v3.0 mendukung model apa pun yang dilatih dengan data berlabel v2.1.
  • Anda dapat mengacu ke panduan migrasi API untuk mendapatkan detail informasi tentang migrasi dari v2.1 ke v3.0.
  • Lihat mulai cepat REST API atau C#, Java, JavaScript, atau Python SDK untuk memulai versi v3.0.

Alat Pelabelan Sampel Kecerdasan Dokumen Azure AI adalah alat sumber terbuka yang memungkinkan Anda menguji fitur terbaru layanan Kecerdasan Dokumen dan Pengenalan Karakter Optik (OCR):

Prasyarat

Anda memerlukan hal berikut untuk memulai:

  • Langganan Azure—Anda dapat membuat langganan gratis

  • Layanan Azure AI atau sumber daya Kecerdasan Dokumen. Setelah Anda memiliki langganan Azure, buat sumber daya Kecerdasan Dokumen satu layanan, atau multi-layanan di portal Azure untuk mendapatkan kunci dan titik akhir Anda. Anda dapat menggunakan tingkat harga gratis (F0) untuk percobaan, lalu meningkatkannya ke tingkat berbayar untuk produksi.

    Tip

    Buat sumber daya layanan Azure AI jika Anda berencana mengakses beberapa layanan Azure AI di bawah satu titik akhir/kunci. Hanya untuk akses Kecerdasan Dokumen, buat sumber daya Kecerdasan Dokumen. Harap dicatat bahwa Anda memerlukan sumber daya layanan tunggal jika Anda ingin menggunakan autentikasi Microsoft Entra.

Membuat sumber daya Kecerdasan Dokumen

Buka portal Azure dan buat sumber daya Kecerdasan Dokumen baru . Di panel Buat, berikan informasi berikut ini:

Detail proyek Deskripsi
Langganan Pilih langganan Azure yang aksesnya sudah diberikan.
Grup sumber daya Grup sumber daya Azure yang berisi sumber daya Anda. Anda dapat membuat grup baru atau menambahkannya ke grup yang sudah ada sebelumnya.
Wilayah Lokasi sumber daya layanan Azure AI Anda. Lokasi yang berbeda dapat menimbulkan latensi, tapi tidak berdampak pada ketersediaan runtime sumber daya Anda.
Nama Nama deskriptif untuk sumber daya Anda. Sebaiknya gunakan nama deskriptif, misalnya MyNameFormRecognizer.
Tingkat harga Biaya sumber daya Anda bergantung pada tingkat harga yang dipilih dan penggunaannya. Untuk informasi selengkapnya, lihat detail harga API.
Tinjau + buat Pilih tombol Tinjau + buat guna menyebarkan sumber daya Anda di portal Microsoft Azure.

Mengambil kunci dan titik akhir

Saat sumber daya Kecerdasan Dokumen Anda selesai disebarkan, temukan dan pilih dari daftar Semua sumber daya di portal. Kunci dan titik akhir Anda akan berada di halaman Kunci dan Titik Akhir sumber daya, di bagian Manajemen Sumber Daya. Simpan keduanya ke lokasi sementara sebelum melanjutkan.

Cuplikan layar di titik akhir di portal Azure.

Menganalisis menggunakan model Prabangun

Kecerdasan Dokumen menawarkan beberapa model bawaan untuk dipilih. Setiap model memiliki seperangkat bidang yang didukung. Model yang Analyze digunakan untuk operasi tergantung pada jenis dokumen yang akan dianalisis. Berikut adalah model bawaan yang saat ini didukung oleh layanan Kecerdasan Dokumen:

  • Faktur: mengekstrak teks, tanda pilihan, tabel, pasangan kunci-nilai, dan informasi penting dari faktur.
  • Kuitansi: mengekstrak teks dan informasi penting dari kuitansi.
  • Dokumen ID: mengekstrak teks dan informasi penting dari SIM dan paspor internasional.
  • Kartu nama: mengekstrak teks dan informasi penting dari kartu nama.
  1. Navigasikan ke Alat Sampel Kecerdasan Dokumen.

  2. Pada beranda alat sampel, pilih gunakan model bawaan untuk mendapatkan petak data .

    Cuplikan layar model tata letak menganalisis operasi hasil.

  3. Pilih Jenis Formulir untuk dianalisis dari menu dropdown.

  4. Pilih URL untuk {i>file

  5. Pada bidang Sumber, pilih URL dari menu drop down, tempel URL yang dipilih, dan pilih tombol Ambil.

    Cuplikan layar menu dropdown lokasi sumber.

  6. Di bidang titik akhir layanan Inteligensi Dokumen, tempelkan titik akhir yang Anda peroleh dengan langganan Kecerdasan Dokumen Anda.

  7. Di bidang kunci, tempelkan kunci yang Anda peroleh dari sumber daya Kecerdasan Dokumen Anda.

    Cuplikan layar menu dropdown 'select-form-type'.

  8. Pilih Jalankan analisis. Alat Pelabelan Sampel Kecerdasan Dokumen memanggil API Analisis Bawaan dan menganalisis dokumen.

  9. Lihat hasilnya - lihat pasangan kunci-nilai yang diekstrak, item baris, teks yang disorot diekstrak, dan tabel terdeteksi.

    Menganalisis Hasil model faktur Kecerdasan Dokumen

  10. Unduh {i>file output

    • Simpul "readResults" berisi setiap baris teks dengan penempatan kotak pembatasnya masing-masing pada halaman.
    • Simpul "selectionMarks" menunjukkan setiap tanda pilihan (kotak centang, tanda radio) dan apakah statusnya selected atau unselected.
    • Bagian "pageResults" mencakup tabel yang diekstrak. Rentang baris dan kolom, kotak pembatas, dan lainnya diekstrak untuk setiap tabel, teks, baris, dan indeks kolom.
    • Bidang "documentResults" berisi informasi pasangan kunci/nilai dan informasi item baris untuk bagian dokumen yang paling relevan.

Menganalisis Tata Letak

Azure Document Intelligence Layout API mengekstrak teks, tabel, tanda pilihan, dan informasi struktur dari dokumen (PDF, TIFF) dan gambar (JPG, PNG, BMP).

  1. Navigasikan ke Alat Sampel Kecerdasan Dokumen.

  2. Pada beranda alat sampel, pilih Gunakan Tata Letak untuk mendapatkan teks, tabel, dan tanda pilihan.

    pengaturan Koneksi untuk alat Kecerdasan Dokumen Tata Letak.

  3. Di bidang titik akhir layanan Inteligensi Dokumen, tempelkan titik akhir yang Anda peroleh dengan langganan Kecerdasan Dokumen Anda.

  4. Di bidang kunci, tempelkan kunci yang Anda peroleh dari sumber daya Kecerdasan Dokumen Anda.

  5. Pada bidang Sumber, pilih URL dari menu drop down, tempel URL https://raw.githubusercontent.com/Azure-Samples/cognitive-services-REST-api-samples/master/curl/form-recognizer/layout-page-001.jpg yang dipilih, dan pilih tombol Ambil.

  6. Pilih Jalankan Tata letak. Alat Pelabelan Sampel Kecerdasan Dokumen memanggil Analyze Layout API dan menganalisis dokumen.

    Cuplikan layar menu dropdown tata letak.

  7. Lihat hasilnya - lihat teks yang disorot yang diekstrak, tanda pilihan terdeteksi, dan tabel terdeteksi.

    Koneksi pengaturan untuk alat Kecerdasan Dokumen.

  8. Unduh {i>file output

    • Node readResults berisi setiap baris teks dengan penempatan kotak pembatasnya masing-masing pada halaman.
    • Simpul selectionMarks menunjukkan setiap tanda pilihan (kotak centang, tanda radio) dan apakah statusnya selected atau unselected.
    • Bagian pageResults ini mencakup tabel yang diekstrak. Rentang baris dan kolom, kotak pembatas, dan lainnya diekstrak untuk setiap tabel, teks, baris, dan indeks kolom.

Melatih model formulir kustom

Melatih model kustom untuk menganalisis dan mengekstrak data dari formulir dan dokumen yang spesifik untuk bisnis Anda. API adalah program pembelajaran mesin yang dilatih untuk mengenali bidang isian borang di dalam konten tertentu serta mengekstrak pasangan kunci-nilai dan data tabel. Anda memerlukan setidaknya lima contoh jenis formulir yang sama untuk memulai dan model kustom Anda dapat dilatih dengan atau tanpa himpunan data berlabel.

Prasyarat untuk melatih model formulir kustom

  • Kontainer {i>blob kumpulan data sampelkami.

  • Jika Anda tidak tahu cara membuat akun penyimpanan Azure dengan kontainer, ikuti panduan mulai cepat Azure Storage untuk portal Azure.

  • Mengonfigurasi CORS

    CORS (Berbagi Sumber Daya Lintas Asal) perlu dikonfigurasi di akun penyimpanan Azure Anda agar dapat diakses dari Studio Kecerdasan Dokumen. Untuk mengonfigurasi CORS di portal Azure, Anda memerlukan akses ke tab CORS akun penyimpanan Anda.

    1. Pilih tab CORS untuk akun penyimpanan.

      Cuplikan layar menu pengaturan CORS di portal Microsoft Azure.

    2. Mulailah dengan membuat entri CORS baru di Blob service.

    3. Atur Asal yang diizinkan ke https://fott-2-1.azurewebsites.net.

      Cuplikan layar yang memperlihatkan konfigurasi CORS untuk akun penyimpanan.

      Tip

      Anda dapat menggunakan wildcard '*' daripada domain tertentu untuk memungkinkan semua domain asal membuat permintaan melalui CORS.

    4. Pilih 8 opsi yang tersedia untuk Metode yang diizinkan.

    5. Setujui semua header yang diizinkan dan Header terbuka dengan memasukkan * di setiap bidang.

    6. Atur Usia Maksimal hingga 120 detik atau nilai apa pun yang dapat diterima.

    7. Pilih tombol simpan di bagian atas halaman dan simpan perubahan.

Gunakan alat Pelabelan Sampel

  1. Navigasikan ke Alat Sampel Kecerdasan Dokumen.

  2. Pada beranda alat sampel, pilih Gunakan formulir kustom untuk melatih model dengan label dan mendapatkan pasangan kunci-nilai.

    Melatih model kustom.

  3. Pilih Proyek baru

    Cuplikan layar pilih permintaan proyek baru.

Membuat proyek baru

Konfigurasikan bidangPengaturan Proyek dengan nilai berikut:

  1. Nama Tampilan. Beri nama proyek Anda.

  2. Token Keamanan. Setiap proyek membuat otomatis token keamanan yang dapat digunakan untuk mengenkripsi/mendekripsi pengaturan proyek sensitif. Anda dapat menemukan token keamanan di Pengaturan Aplikasi dengan memilih ikon roda gigi di bagian bawah bilah navigasi kiri.

  3. Koneksi sumber. Alat Sample Labeling tersambung ke sumber (formulir asli yang Anda unggah) dan target (label dan data output yang dibuat). Koneksi dapat disiapkan dan dibagikan di seluruh proyek. Koneksi ini menggunakan model penyedia yang dapat diperluas, sehingga Anda dapat dengan mudah menambahkan penyedia sumber/target baru.

    • Buat koneksi baru, klik tombol Tambahkan Koneksi. Isi bidang dengan nilai berikut ini:
    • Nama Tampilan. Beri nama koneksinya.
    • Deskripsi. Tambahkan deskripsi singkat.
    • URL SAS. Tempel URL tanda tangan akses bersama (SAS) untuk kontainer Azure Blob Storage Anda.
    • Untuk mengambil URL SAS untuk data pelatihan model kustom Anda, buka sumber daya penyimpanan di portal Microsoft Azure dan pilih tab Penjelajah Penyimpanan. Navigasikan ke kontainer Anda, klik kanan, dan pilih Dapatkan tanda tangan akses berbagi. SAS harus didapatkan untuk kontainer Anda, bukan untuk akun penyimpanan itu sendiri. Pastikan izin Baca, Tulis, Hapus, dan Cantumkan dicentang, lalu pilih Buat. Kemudian, salin nilai di bagian URL ke lokasi sementara. Ini harus memiliki format: https://<storage account>.blob.core.windows.net/<container name>?<SAS value>.

      Lokasi SAS.

  4. Jalur Folder (opsional). Jika formulir sumber Anda terletak di dalam folder dalam wadah blob, tentukan nama folder.

  5. Uri Layanan Kecerdasan Dokumen - URL titik akhir Kecerdasan Dokumen Anda.

  6. Kunci. Kunci Kecerdasan Dokumen Anda.

  7. Versi API. Pertahankan nilai (default) v2.1.

  8. Deskripsi (opsional). Deskripsikan proyek Anda.

    Pengaturan koneksi

Labeli formulir Anda

Halaman proyek baru

Saat Anda membuat atau membuka proyek, jendela editor {i>tag tag

  • Panel pratinjau yang dapat diubah ukurannya yang berisi daftar formulir yang dapat digulir dari koneksi sumber.
  • Panel editor utama yang memungkinkan Anda menerapkan {i>tag
  • Panel editor {i>tag tag
Mengidentifikasi teks dan tabel

Pilih Jalankan Tata Letak di dokumen yang belum pernah dikunjungi di panel sebelah kiri untuk mendapatkan informasi tata letak teks dan tabel untuk setiap dokumen. Alat pelabelan menggambar kotak pembatas di sekitar setiap elemen teks.

Alat pelabelan juga menunjukkan tabel mana yang diekstrak secara otomatis. Pilih ikon tabel/kisi di sebelah kiri dokumen dan lihat tabel yang diekstrak. Karena konten tabel diekstrak secara otomatis, kami tidak memberi label konten tabel, melainkan mengandalkan ekstraksi otomatis.

Visualisasi tabel di alat Pelabelan Sampel.

Menerapkan label ke teks

Selanjutnya, Anda membuat tag (label) dan menerapkannya ke elemen teks yang Anda inginkan untuk dianalisis model. Perhatikan bahwa himpunan data Label Sampel menyertakan bidang yang sudah diberi label; kami menambahkan bidang lain.

Gunakan panel editor {i>tag tag

  1. Pilih tanda plus + untuk membuat tag baru.

  2. Masukkan nama "Total" tag.

  3. Pilih Enter untuk menyimpan tag.

  4. Di editor utama, pilih nilai total dari elemen teks yang disorot.

  5. Pilih tag Total yang ingin Anda terapkan ke nilai, atau tekan tombol keyboard yang sesuai. Tombol angka ditetapkan sebagai {i>hotkey tag tag tag

    Tip

    Ingatlah tips berikut saat Anda melabeli formulir:

    • Anda hanya dapat menerapkan satu {i>tag

    • Setiap {i>tag tag

    • {i>Tag

    • Memberi label nilai saat muncul di formulir; jangan mencoba membagi nilai menjadi dua bagian dengan dua {i>tag tag

    • Jangan sertakan kunci di bidang yang diberi tag—hanya nilainya saja.

    • Data tabel harus dideteksi secara otomatis dan akan tersedia dalam file JSON {i>output Melatih model kustom | Memberi label formulir Anda

    • Gunakan tombol di sebelah kanan + untuk menelusuri, mengganti nama, menyusun ulang, dan menghapus tag Anda.

    • Untuk menghapus tag yang diterapkan tanpa menghapus tag itu sendiri, pilih persegi panjang yang diberi tag pada tampilan dokumen dan tekan tombol hapus.

Labeli sampel.

Melatih model kustom

Pilih ikon Latih di panel kiri dan buka halaman Pelatihan. Kemudian pilih tombol Latih untuk mulai melatih model. Setelah proses pelatihan selesai, Anda akan melihat informasi berikut:

  • ID Model - ID model yang dibuat dan dilatih. Setiap panggilan pelatihan membuat model baru dengan ID-nya sendiri. Salin string ini ke lokasi yang aman; Anda memerlukannya jika Anda ingin melakukan panggilan prediksi melalui REST API atau pustaka klien.

  • Akurasi Rata-Rata - Akurasi rata-rata model. Anda dapat meningkatkan akurasi model dengan melabeli lebih banyak formulir dan pelatihan ulang untuk membuat model baru. Sebaiknya Anda mulai dengan melabeli lima formulir dengan menganalisis dan menguji hasilnya dan kemudian jika diperlukan menambahkan lebih banyak formulir sesuai kebutuhan.

  • Daftar tag, dan perkiraan akurasi per tag. Untuk informasi selengkapnya, lihatMenginterpretasi serta meningkatkan akurasi dan kepercayaan diri.

    Alat tampilan pelatihan.

Menganalisis formulir kustom

  1. Analyze Pilih ikon dari bilah navigasi dan uji model Anda.

  2. Pilih file Lokal sumber dan telusuri file untuk dipilih dari himpunan data sampel yang Anda buka zipnya di folder pengujian.

  3. Pilih tombol Jalankan analisis untuk mendapatkan pasangan kunci/nilai, teks, dan prediksi tabel untuk formulir. Alat ini menerapkan tag dalam kotak pembatas dan melaporkan keyakinan setiap tag.

    Tampilan pelatihan.

Itu saja! Anda mempelajari cara menggunakan alat sampel Kecerdasan Dokumen untuk model bawaan, tata letak, dan kustom Kecerdasan Dokumen. Anda juga belajar menganalisis formulir kustom dengan data berlabel manual.

Langkah berikutnya