Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Pemrosesan Dokumen Cerdas (IDP) mengonversi konten yang tidak terstruktur—seperti PDF, file DOCX, gambar, dan presentasi—menjadi data terstruktur dan diperkaya yang mendukung agen hilir, aplikasi, dan analitik.
Dengan Azure Databricks, Anda dapat membangun alur IDP end-to-end langsung di Lakehouse menggunakan Fungsi AI yang dapat disusun secara asli, termasuk ai_parse_document, , ai_extractdan ai_classify. Fungsi yang dikembangkan penelitian ini dibuat khusus untuk pemrosesan dokumen berkinerja tinggi. Karena semua pemrosesan berjalan dalam Unity Catalog, alur IDP tingkat produksi Anda tetap aman, diatur, dan dikelola sepenuhnya.
| Skenario penggunaan | Pendekatan yang direkomendasikan |
|---|---|
| Penguraian dokumen | Konversi PDF, DOCX, gambar, dan PPT menjadi teks terstruktur, tabel, dan deskripsi gambar. |
| ekstraksi Informasi | Tarik bidang terstruktur dari dokumen atau teks biasa menggunakan skema yang Anda tentukan. |
| Mengklasifikasikan konten | Tetapkan kategori yang telah ditentukan sebelumnya ke dokumen atau teks, mendukung hingga 500+ label. |
Kasus penggunaan umum
IDP di Azure Databricks mendukung berbagai aplikasi hilir:
- Retrieval-augmented generation (RAG): Mengurai dan menyusun dokumen untuk meningkatkan pengelompokan, kualitas pengambilan, dan pemahaman dasar untuk aplikasi LLM.
- Ekstraksi dan analitik pengetahuan: Ekstrak bidang kunci dan metadata untuk mengaktifkan pencarian, pelaporan, dan kecerdasan bisnis pada data dokumen.
- Alur kerja berbasis agen: Merutekan, mengklasifikasikan, dan memperkaya dokumen untuk mendukung pengambilan keputusan otomatis dan eksekusi tugas.
- Pemahaman dan klasifikasi dokumen: Mengatur korpora dokumen besar menurut jenis, topik, atau konten untuk pemrosesan hilir.
Cara kerjanya
Azure Databricks memungkinkan pemrosesan dokumen cerdas sebagai alur kerja end-to-end terpadu di Lakehouse. Analisis penyerapan, penguraian, pengayaan, dan hilir dibangun pada satu platform, sehingga setiap tahap bekerja dengan mulus bersama-sama tanpa memerlukan integrasi atau pergerakan data yang kompleks.
Menyerap dan mengatur
Gunakan Lakeflow Spark Declarative Pipelines untuk menyerap dokumen mentah (seperti PDF, gambar, dan file DOCX) dan mengatur alur Anda. Karena penyerapan dan orkestrasi terintegrasi secara asli dengan Lakehouse, dokumen mengalir langsung ke pemrosesan hilir tanpa infrastruktur tambahan.
Menganalisis dokumen (Lapisan perunggu)
Terapkan
ai_parse_documentuntuk mengonversi file mentah menjadi representasi terstruktur. Ini membuat lapisan perunggu yang distandarisasi yang menangkap teks, deskripsi tabel/gambar, serta struktur dokumen, membentuk fondasi yang konsisten untuk semua kasus penggunaan berikutnya.Mengekstrak dan mengklasifikasikan
Gunakan
ai_extractdanai_classifyuntuk memperkaya dokumen yang diurai dengan bidang dan metadata terstruktur. Fungsi-fungsi ini beroperasi langsung pada output yang diurai, memungkinkan Anda mengekstrak informasi utama, mengklasifikasikan dokumen, dan merutekannya melalui alur kerja tanpa langkah transformasi tambahan.Menganalisis dan mengoprasionalkan
Manfaatkan Fungsi AI tambahan atau alat lain (dasbor AI/BI, Aplikasi, Pencarian Vektor) untuk analitik hilir, pengambilan (RAG), dan alur kerja berbasis agen. Karena semua data tetap berada di Lakehouse, data dokumen terstruktur dapat segera digunakan untuk pencarian, dasbor, dan aplikasi.