Memulai: Studio Kecerdasan Dokumen

Konten ini berlaku untuk:tanda centangv4.0 (pratinjau) | Versi sebelumnya:tanda centang biruv3.1 (GA)tanda centang biruv3.0 (GA)

Document Intelligence Studio adalah alat online untuk menjelajahi, memahami, dan mengintegrasikan fitur secara visual dari layanan Kecerdasan Dokumen di aplikasi Anda. Anda dapat memulai dengan menjelajahi model yang telah dilatih sebelumnya dengan sampel atau dokumen Anda sendiri. Anda juga dapat membuat proyek untuk membangun model template kustom dan mereferensikan model dalam aplikasi menggunakan Python SDK dan mulai cepat lainnya.

Prasyarat untuk pengguna baru

Tip

Buat sumber daya layanan Azure AI jika Anda berencana mengakses beberapa layanan Azure AI di bawah satu titik akhir/kunci. Hanya untuk akses Kecerdasan Dokumen, buat sumber daya Kecerdasan Dokumen. Harap dicatat bahwa Anda memerlukan sumber daya layanan tunggal jika Anda ingin menggunakan autentikasi Microsoft Entra.

Penetapan peran Azure

Untuk analisis dokumen dan model bawaan, penetapan peran berikut diperlukan untuk skenario yang berbeda.

  • Dasar
    • Pengguna Cognitive Services: Anda memerlukan peran ini ke sumber daya layanan Kecerdasan Dokumen atau Azure AI untuk memasuki halaman analisis.
  • Lanjutan
    • Kontributor: Anda memerlukan peran ini untuk membuat grup sumber daya, layanan Kecerdasan Dokumen, atau sumber daya layanan Azure AI.

Untuk informasi selengkapnya tentang otorisasi, lihatKebijakan otorisasi Studio Kecerdasan Dokumen.

Model

Model bawaan membantu Anda menambahkan fitur Kecerdasan Dokumen ke aplikasi Anda tanpa harus membangun, melatih, dan menerbitkan model Anda sendiri. Anda dapat memilih dari beberapa model bawaan, yang masing-masing memiliki kumpulan bidang data yang didukung sendiri. Pilihan model yang akan digunakan untuk operasi analisis bergantung pada jenis dokumen yang akan dianalisis. Kecerdasan Dokumen saat ini mendukung model bawaan berikut:

Analisis dokumen

  • Tata Letak: mengekstrak teks, tabel, tanda pilihan, dan informasi struktur dari dokumen (PDF dan TIFF) dan gambar (JPG, PNG, dan BMP).
  • Baca: mengekstrak baris teks, kata, lokasi mereka, bahasa terdeteksi, dan gaya tulisan tangan jika terdeteksi dari dokumen (PDF, TIFF) dan gambar (JPG, PNG, BMP).

Bawaan

  • Faktur: mengekstrak teks, tanda pilihan, tabel, pasangan kunci-nilai, dan informasi penting dari faktur.
  • Tanda Terima: mengekstrak teks dan informasi penting dari kuitansi.
  • Kartu asuransi kesehatan: ekstrak asuransi, anggota, resep, nomor grup dan informasi utama lainnya dari kartu asuransi kesehatan AS.
  • W-2: mengekstrak informasi kunci dan teks dari formulir pajak W-2.
  • Dokumen ID: mengekstrak teks dan informasi penting dari SIM dan paspor internasional.

Kustom

  • Model ekstraksi kustom: mengekstrak informasi dari formulir dan dokumen dengan model ekstraksi kustom. Latih model dengan cepat dengan melabeli sebanyak lima dokumen sampel.
  • Model klasifikasi kustom: latih pengklasifikasi kustom untuk membedakan antara berbagai jenis dokumen dalam aplikasi Anda. Latih model dengan cepat dengan dua kelas dan lima sampel per kelas.

Setelah Anda menyelesaikan prasyarat, navigasikan ke Studio Kecerdasan Dokumen.

  1. Pilih fitur layanan Kecerdasan Dokumen dari halaman beranda Studio.

  2. Langkah ini adalah proses satu kali kecuali Anda telah memilih sumber daya layanan dari penggunaan sebelumnya. Pilih langganan Azure, grup sumber daya, dan lokasi sumber daya Anda. (Anda dapat mengubah sumber daya kapan saja di "Pengaturan" di menu teratas.) Tinjau dan konfirmasi pilihan Anda.

  3. Pilih perintah Analisis untuk menjalankan analisis pada dokumen sampel, atau coba dokumen Anda dengan menggunakan perintah Tambahkan.

  4. Gunakan kontrol di bagian bawah layar untuk memperbesar dan memperkecil dan memutar tampilan dokumen.

  5. Amati konten yang diekstraksi dan disorot dalam tampilan dokumen. Arahkan mouse Anda ke atas tombol dan nilai untuk melihat detail.

  6. Di tab Hasil bagian output, telusuri output JSON untuk memahami format respons layanan.

  7. Di tab Kode, telusuri kode sampel untuk integrasi. Salin dan unduh untuk memulai.

Menambahkan prasyarat untuk proyek kustom

Selain akun Azure dan sumber daya layanan Kecerdasan Dokumen atau Azure AI, Anda memerlukan:

Kontainer Azure Blob Storage

Performa standarAkun Azure Blob Storage. Anda membuat kontainer untuk menyimpan dan mengatur dokumen pelatihan dalam akun penyimpanan Anda. Jika Anda tidak tahu cara membuat akun penyimpanan Azure dengan kontainer, ikuti panduan mulai cepat berikut:

  • Membuat akun penyimpanan. Saat membuat akun penyimpanan, pastikan untuk memilih performa Standar di kolom Detail instans → Performa.
  • Membuat kontainer. Saat membuat kontainer Anda, atur bidang Tingkat akses publik ke Container (akses baca anonim untuk kontainer dan blob) di jendela Kontainer Baru.

Penetapan peran Azure

Untuk proyek kustom, penetapan peran berikut diperlukan untuk skenario yang berbeda.

  • Dasar
    • Pengguna Cognitive Services: Anda memerlukan peran ini untuk sumber daya layanan Kecerdasan Dokumen atau Azure AI untuk melatih model kustom atau melakukan analisis dengan model terlatih.
    • Kontributor Data Blob Penyimpanan: Anda memerlukan peran ini untuk Akun Penyimpanan untuk membuat proyek dan melabeli data.
  • Lanjutan
    • Kontributor Akun Penyimpanan: Anda memerlukan peran ini agar Akun Penyimpanan menyiapkan pengaturan CORS (ini adalah upaya satu kali jika akun penyimpanan yang sama digunakan kembali).
    • Kontributor: Anda memerlukan peran ini untuk membuat grup sumber daya dan sumber daya.

Mengonfigurasi CORS

CORS (Berbagi Sumber Daya Lintas Asal) perlu dikonfigurasi di akun penyimpanan Azure Anda agar dapat diakses dari Studio Kecerdasan Dokumen. Untuk mengonfigurasi CORS di portal Azure, Anda memerlukan akses ke tab CORS akun penyimpanan Anda.

  1. Pilih tab CORS untuk akun penyimpanan.

    Cuplikan layar menu pengaturan CORS di portal Microsoft Azure.

  2. Mulailah dengan membuat entri CORS baru di Blob service.

  3. Atur Asal yang diizinkan ke https://documentintelligence.ai.azure.com.

    Cuplikan layar yang memperlihatkan konfigurasi CORS untuk akun penyimpanan.

    Tip

    Anda dapat menggunakan wildcard '*' daripada domain tertentu untuk memungkinkan semua domain asal membuat permintaan melalui CORS.

  4. Pilih 8 opsi yang tersedia untuk Metode yang diizinkan.

  5. Setujui semua header yang diizinkan dan Header terbuka dengan memasukkan * di setiap bidang.

  6. Atur Usia Maksimal hingga 120 detik atau nilai apa pun yang dapat diterima.

  7. Klik tombol simpan di bagian atas halaman untuk menyimpan perubahan.

CORS sekarang harus dikonfigurasi untuk menggunakan akun penyimpanan dari Document Intelligence Studio.

Set sampel dokumen

  1. Masuk ke portal Azure dan navigasikan ke Kontainer penyimpanan>data akun>penyimpanan Anda.

    Cuplikan layar menu Penyimpanan data di portal Azure.

  2. Pilih kontainer dari daftar.

  3. Pilih Unggah dari menu di bagian atas halaman.

    Cuplikan layar tombol unggah kontainer di portal Azure.

  4. Jendela Unggah blob akan muncul.

  5. Pilih file yang ingin Anda unggah.

    Cuplikan layar jendela unggah blob di portal Azure.

Catatan

Secara default, Studio akan menggunakan dokumen yang terletak di akar kontainer Anda. Namun, Anda dapat menggunakan data yang diatur dalam folder jika ditentukan dalam langkah pembuatan proyek formulir Kustom. LihatAtur data Anda dalam subfolder

Model kustom

Untuk membuat model kustom, Anda mulai dengan mengonfigurasi proyek Anda:

  1. Dari beranda Studio, pilih kartu model Kustom untuk membuka halaman model Kustom.

  2. Gunakan perintah "Buat proyek" untuk memulai wizard konfigurasi proyek baru.

  3. Masukkan detail proyek, pilih langganan dan sumber daya Azure, dan kontainer penyimpanan Azure Blob yang berisi data Anda.

  4. Tinjau dan kirimkan pengaturan Anda untuk membuat proyek.

  5. Untuk memulai cepat proses pelabelan, gunakan fitur label otomatis untuk memberi label menggunakan model yang sudah dilatih atau salah satu model bawaan kami.

  6. Untuk pelabelan manual dari awal, tentukan label dan jenisnya yang Anda minati untuk diekstraksi.

  7. Pilih teks dalam dokumen dan pilih label dari daftar geser turun atau panel label.

  8. Beri label empat dokumen lagi untuk mendapatkan setidaknya lima dokumen berlabel.

  9. Pilih perintah Latih dan masukkan nama model, pilih apakah Anda ingin model neural (disarankan) atau templat untuk mulai melatih model kustom Anda.

  10. Setelah model siap, gunakan perintah Uji untuk memvalidasinya dengan dokumen pengujian Anda dan amati hasilnya.

Demo model Kustom Kecerdasan Dokumen

Pelabelan sebagai tabel

Catatan

  • Dengan rilis api versi 2022-06-30-preview dan yang lebih baru, model templat kustom akan menambahkan dukungan untuk bidang tabular lintas halaman (tabel).
  • Dengan rilis api versi 2022-06-30-preview dan yang lebih baru, model neural kustom akan mendukung bidang tabular (tabel) dan model yang dilatih dengan API versi 2022-08-31, atau yang lebih baru akan menerima label bidang tabular.
  1. Gunakan perintah Hapus untuk menghapus model yang tidak diperlukan.

  2. Unduh detail model untuk tampilan offline.

  3. Pilih beberapa model dan tulis menjadi model baru untuk digunakan dalam aplikasi Anda.

Menggunakan tabel sebagai pola visual:

Untuk model formulir kustom, scaat membuat model kustom, Anda mungkin perlu mengekstrak kumpulan data dari dokumen Anda. Pengumpulan data dapat muncul dalam beberapa format. Menggunakan tabel sebagai pola visual:

  • Jumlah dinamis atau variabel nilai (baris) untuk set bidang (kolom) tertentu

  • Kumpulan nilai tertentu untuk set bidang (kolom) tertentu (kolom dan/atau baris)

Label sebagai tabel dinamis

Gunakan tabel dinamis untuk mengekstrak jumlah variabel nilai (baris) untuk set bidang tertentu (kolom):

  1. Tambahkan label jenis "Tabel" baru, pilih jenis "Tabel dinamis", dan beri nama label Anda.

  2. Tambahkan jumlah kolom (bidang) dan baris (untuk data) yang Anda butuhkan.

  3. Pilih teks di halaman Anda lalu pilih sel untuk ditetapkan ke teks. Ulangi untuk semua baris dan kolom di semua halaman di semua dokumen.

Pelabelan Kecerdasan Dokumen sebagai contoh tabel dinamis

Label sebagai tabel tetap

Gunakan tabel tetap untuk mengekstrak kumpulan nilai tertentu untuk set bidang (kolom dan/atau baris) tertentu:

  1. Buat label tipe "Tabel" baru, pilih jenis "Tabel tetap", dan beri nama.

  2. Tambahkan jumlah kolom dan baris yang Anda butuhkan sesuai dengan dua set bidang.

  3. Pilih teks di halaman Anda lalu pilih sel untuk menetapkannya ke teks. Ulangi untuk dokumen lainnya.

Pelabelan Kecerdasan Dokumen sebagai contoh tabel tetap

Deteksi tanda tangan

Catatan

Bidang tanda tangan saat ini hanya didukung untuk model templat kustom. Saat melatih model neural kustom, bidang tanda tangan berlabel diabaikan.

Guna memberi label untuk deteksi tanda tangan: (Hanya formulir kustom)

  1. Dalam tampilan pelabelan, buat label jenis "Tanda Tangan" baru dan beri nama.

  2. Gunakan perintah Wilayah untuk membuat wilayah persegi panjang di lokasi tanda tangan yang diharapkan.

  3. Pilih wilayah yang digambar dan pilih label tipe Tanda Tangan untuk menetapkannya ke wilayah yang Anda gambar. Ulangi untuk dokumen lainnya.

Pelabelan Kecerdasan Dokumen untuk contoh deteksi tanda tangan

Langkah berikutnya

Mulai menggunakan Studio Kecerdasan Dokumen.