Gambaran umum ekstraksi informasi

Selesai

Nota

Lihat tab Teks dan gambar untuk detail selengkapnya!

Ekstraksi informasi adalah beban kerja yang menggabungkan beberapa teknik AI untuk mengekstrak data dari konten - seringkali dokumen digital. Solusi ekstraksi informasi komprehensif melibatkan elemen visi komputer untuk mendeteksi teks dalam data berbasis gambar; dan pembelajaran mesin, atau AI yang semakin generatif, untuk memetakan teks yang diekstrak secara semantik ke bidang data tertentu.

Diagram proses ekstraksi informasi.

  1. Deteksi dan ekstraksi teks dari gambar menggunakan pengenalan karakter optik (OCR).
  2. Identifikasi nilai dan pemetaan dari hasil OCR ke bidang data.

Misalnya, solusi pemrosesan klaim pengeluaran yang didukung AI mungkin secara otomatis mengekstrak bidang yang relevan dari tanda terima untuk memproses klaim dengan lebih efisien.

Tanda terima yang dipindai Data yang diekstrak
Diagram tanda terima.
  • Vendor: Fourth Coffee
  • Tanggal: 2024-08-15
  • Subtotal: $6,48
  • Pajak: $0,49
  • Total Klaim: $6,97

Memilih pendekatan yang tepat

Saat merencanakan solusi ekstraksi informasi, penting untuk mempertimbangkan persyaratan dan batasan yang harus ditangani sistem. Beberapa pertimbangan utama meliputi:

  • Karakteristik dokumen. Dokumen tempat Anda perlu mengekstrak data adalah dasar dari seluruh solusi. Pertimbangkan faktor-faktor seperti:

    • Konsistensi tata letak: Formulir standar mendukung pendekatan berbasis templat, sementara kebutuhan untuk memproses beberapa format dan tata letak mungkin memerlukan solusi berbasis pembelajaran mesin yang lebih kompleks.
    • Persyaratan volume: Pemrosesan dengan volume tinggi mendapat manfaat dari model pembelajaran mesin otomatis yang berjalan pada perangkat keras sistem yang dioptimalkan.
    • Persyaratan akurasi: Aplikasi kritis mungkin memerlukan validasi manusia dalam prosesnya.
  • Persyaratan dan batasan infrastruktur teknis. Solusi Anda akan memerlukan infrastruktur perangkat keras dan perangkat lunak untuk dijalankan. Pertimbangkan faktor-faktor seperti:

    • Keamanan dan privasi: Dokumen yang Anda proses mungkin berisi data sensitif atau rahasia. Solusi Anda harus mencakup langkah-langkah yang memadai untuk mengamankan akses ke data dan kepatuhan dengan persyaratan industri apa pun untuk menyimpan dan memproses data yang dilindungi.
    • Daya pemrosesan: Pembelajaran mendalam dan model AI generatif yang umum digunakan dalam solusi ekstraksi informasi memerlukan sumber daya komputasi yang signifikan.
    • Persyaratan latensi: Pemrosesan real time dapat membatasi kompleksitas model.
    • Kebutuhan skalabilitas: Solusi berbasis cloud menawarkan skalabilitas yang lebih baik untuk beban kerja variabel.
    • Kompleksitas integrasi: Pertimbangkan kompatibilitas API dan persyaratan format data.

Petunjuk / Saran

Dalam banyak kasus, solusi ekstraksi informasi dapat dibangun menggunakan layanan perangkat lunak, seperti Azure Document Intelligence di Microsoft Foundry Tools dan Azure Content Understanding di Microsoft Foundry Tools. Menggunakan layanan seperti ini sebagai fondasi untuk solusi Anda dapat sangat mengurangi upaya pengembangan yang diperlukan sambil memberikan kemampuan performa, akurasi, dan integrasi yang sangat skalabel serta telah terbukti di industri.