Pemrosesan dokumen cerdas

Pemrosesan Dokumen Cerdas (IDP) mengonversi konten yang tidak terstruktur—seperti PDF, file DOCX, gambar, dan presentasi—menjadi data terstruktur dan diperkaya yang mendukung agen hilir, aplikasi, dan analitik.

Dengan Azure Databricks, Anda dapat membangun alur IDP end-to-end langsung di Lakehouse menggunakan Fungsi AI yang dapat disusun secara asli, termasuk ai_parse_document, , ai_extractdan ai_classify. Fungsi yang dikembangkan penelitian ini dibuat khusus untuk pemrosesan dokumen berkinerja tinggi. Karena semua pemrosesan berjalan dalam Unity Catalog, alur IDP tingkat produksi Anda tetap aman, diatur, dan dikelola sepenuhnya.

Skenario penggunaan	Pendekatan yang direkomendasikan
Penguraian dokumen	Konversi PDF, DOCX, gambar, dan PPT menjadi teks terstruktur, tabel, dan deskripsi gambar.
ekstraksi Informasi	Tarik bidang terstruktur dari dokumen atau teks biasa menggunakan skema yang Anda tentukan.
Mengklasifikasikan konten	Tetapkan kategori yang telah ditentukan sebelumnya ke dokumen atau teks, mendukung hingga 500+ label.

Kasus penggunaan umum

IDP di Azure Databricks mendukung berbagai aplikasi hilir:

Retrieval-augmented generation (RAG): Mengurai dan menyusun dokumen untuk meningkatkan pengelompokan, kualitas pengambilan, dan pemahaman dasar untuk aplikasi LLM.
Ekstraksi dan analitik pengetahuan: Ekstrak bidang kunci dan metadata untuk mengaktifkan pencarian, pelaporan, dan kecerdasan bisnis pada data dokumen.
Alur kerja berbasis agen: Merutekan, mengklasifikasikan, dan memperkaya dokumen untuk mendukung pengambilan keputusan otomatis dan eksekusi tugas.
Pemahaman dan klasifikasi dokumen: Mengatur korpora dokumen besar menurut jenis, topik, atau konten untuk pemrosesan hilir.

Cara kerjanya

Azure Databricks memungkinkan pemrosesan dokumen cerdas sebagai alur kerja end-to-end terpadu di Lakehouse. Analisis penyerapan, penguraian, pengayaan, dan hilir dibangun pada satu platform, sehingga setiap tahap bekerja dengan mulus bersama-sama tanpa memerlukan integrasi atau pergerakan data yang kompleks.

Menyerap dan mengatur

Gunakan Lakeflow Spark Declarative Pipelines untuk menyerap dokumen mentah (seperti PDF, gambar, dan file DOCX) dan mengatur alur Anda. Karena penyerapan dan orkestrasi terintegrasi secara asli dengan Lakehouse, dokumen mengalir langsung ke pemrosesan hilir tanpa infrastruktur tambahan.
Menganalisis dokumen (Lapisan perunggu)

Terapkan ai_parse_document untuk mengonversi file mentah menjadi representasi terstruktur. Ini membuat lapisan perunggu yang distandarisasi yang menangkap teks, deskripsi tabel/gambar, serta struktur dokumen, membentuk fondasi yang konsisten untuk semua kasus penggunaan berikutnya.
Mengekstrak dan mengklasifikasikan

Gunakan ai_extract dan ai_classify untuk memperkaya dokumen yang diurai dengan bidang dan metadata terstruktur. Fungsi-fungsi ini beroperasi langsung pada output yang diurai, memungkinkan Anda mengekstrak informasi utama, mengklasifikasikan dokumen, dan merutekannya melalui alur kerja tanpa langkah transformasi tambahan.
Menganalisis dan mengoprasionalkan

Manfaatkan Fungsi AI tambahan atau alat lain (dasbor AI/BI, Aplikasi, Pencarian Vektor) untuk analitik hilir, pengambilan (RAG), dan alur kerja berbasis agen. Karena semua data tetap berada di Lakehouse, data dokumen terstruktur dapat segera digunakan untuk pencarian, dasbor, dan aplikasi.

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2026-04-04

Pemrosesan dokumen cerdas

Kasus penggunaan umum

Cara kerjanya

Saran dan Komentar

Sumber Daya Tambahan: