Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Artikel ini menjelaskan solusi Azure untuk membangun, melatih, menyebarkan, dan menggunakan model pemrosesan dokumen kustom. Layanan Azure ini juga menyediakan kemampuan antarmuka pengguna (UI) untuk pelabelan atau penandaan teks selama pemrosesan.
Arsitektur
Unduh file Visio dari arsitektur ini.
Aliran Data
Aliran data berikut sesuai dengan diagram sebelumnya:
Orkestrator seperti Azure Logic Apps, Azure Data Factory, atau Azure Functions menyerap pesan dan lampiran dari server email dan file dari server protokol transfer file atau aplikasi web.
Azure Functions dan Azure Logic Apps mengaktifkan beban kerja tanpa server. Layanan yang Anda pilih tergantung pada preferensi Anda untuk kemampuan layanan seperti pengembangan, konektor, manajemen, dan konteks operasional. Untuk informasi selengkapnya, lihat Membandingkan Azure Functions dan Azure Logic Apps.
Pertimbangkan untuk menggunakan Azure Data Factory untuk memindahkan data secara massal.
Orkestrator mengirim data yang diserap ke Azure Blob Storage atau Azure Data Lake Storage. Mereka mengatur data di penyimpanan ini berdasarkan karakteristik seperti ekstensi berkas atau rincian pelanggan.
Anda dapat menggunakan layanan Azure berikut, baik secara independen atau dalam kombinasi, untuk dokumen pelatihan dan membangun model kustom untuk mengatasi berbagai kasus penggunaan.
Studio Kecerdasan Dokumen: Jika dokumen mengharuskan Anda mengekstrak pasangan kunci-nilai atau membuat tabel kustom dari gambar atau PDF, gunakan Document Intelligence Studio untuk menandai data dan melatih model kustom. Jika ada persyaratan untuk mengidentifikasi jenis dokumen, yang disebut klasifikasi dokumen, sebelum Anda memanggil model ekstraksi yang benar, gunakan Document Intelligent Studio untuk memberi label dokumen dan membangun model.
Language Studio: Untuk klasifikasi dokumen berdasarkan konten, atau untuk ekstraksi entitas khusus domain, Anda dapat melatih klasifikasi teks kustom atau model pengenalan entitas bernama (NER) di Language Studio.
Studio Azure Machine Learning: Untuk pelabelan data untuk klasifikasi teks atau ekstraksi entitas untuk digunakan dengan kerangka kerja sumber terbuka seperti PyTorch atau TensorFlow, gunakan studio Pembelajaran Mesin, Python SDK, Azure CLI, atau REST API. Studio Pembelajaran Mesin menyediakan katalog model model fondasi. Model fondasi ini memiliki kemampuan penyempurnaan untuk berbagai tugas seperti klasifikasi teks, jawaban atas pertanyaan, dan ringkasan. Untuk menyempurnakan model fundasi, gunakan UI Machine Learning studio atau kode.
Azure OpenAI dalam Model Foundry: Untuk menyempurnakan model Azure OpenAI pada data atau domain Anda sendiri untuk berbagai tugas seperti ringkasan teks dan jawaban atas pertanyaan, gunakan portal Microsoft Foundry, Python SDK, atau REST API.
Untuk menyebarkan model kustom dan menggunakannya untuk inferensi:
Azure Document Intelligence di Foundry Tools memiliki fitur penyebaran model bawaan. Inferensi dengan model kustom dilakukan dengan menggunakan SDK atau model dokumen REST API. ModelId, atau nama model, yang ditentukan selama pembuatan model disertakan dalam URL permintaan untuk analisis dokumen. Kecerdasan Dokumen tidak memerlukan langkah-langkah penyebaran lebih lanjut.
Language Studio menyediakan opsi untuk menyebarkan model bahasa kustom. Dapatkan URL prediksi titik akhir REST dengan memilih model untuk penyebaran. Anda dapat menyimpulkan model dengan menggunakan titik akhir REST atau pustaka klien Azure SDK.
Machine Learning menyebarkan model kustom ke titik akhir terkelola Machine Learning secara online atau batch. Anda juga dapat menggunakan Machine Learning SDK untuk menyebarkan ke Azure Kubernetes Service (AKS) sebagai layanan web. Model fondasi yang disempurnakan dapat disebarkan dari katalog model melalui komputasi terkelola atau API tanpa server. Model yang disebarkan melalui komputasi terkelola dapat disimpulkan dengan menggunakan titik akhir terkelola, yang mencakup titik akhir online untuk inferensi real time dan titik akhir batch untuk inferensi batch.
Foundry menyediakan beberapa opsi untuk menyebarkan model Azure OpenAI yang disempurnakan. Anda dapat menyebarkan model ini dengan menggunakan Python SDK atau REST API. Anda juga dapat menyebarkan model fondasi yang disempurnakan dari penyedia seperti Meta atau Llama sebagai API tanpa server atau dengan menggunakan komputasi terkelola.
Components
Azure Logic Apps adalah bagian dari Azure Integration Services. Logic Apps membuat alur kerja otomatis yang mengintegrasikan aplikasi, data, layanan, dan sistem. Dalam arsitektur ini, Logic Apps mengatur penyerapan dokumen dan data dari berbagai sumber dan memicu proses hilir untuk pemrosesan dokumen. Anda dapat menggunakan konektor terkelola untuk layanan seperti Azure Storage dan Microsoft 365 untuk memicu alur kerja saat file tiba di akun penyimpanan atau email diterima.
Azure Data Factory adalah layanan integrasi data terkelola untuk mengatur dan mengotomatiskan pergerakan dan transformasi data. Dalam arsitektur ini, Azure Data Factory menambahkan aktivitas transformasi seperti memanggil titik akhir REST atau menjalankan notebook pada data yang sudah diimpor ke alur.
Azure Functions adalah layanan komputasi tanpa server yang dapat menghosting beban kerja berbasis peristiwa yang memiliki proses berumur pendek. Dalam arsitektur ini, Functions memungkinkan beban kerja untuk memproses dokumen masuk dan memicu alur pemrosesan model.
Blob Storage adalah solusi penyimpanan objek untuk menyimpan data yang tidak terstruktur. Blob Storage mendukung pustaka untuk beberapa bahasa, seperti .NET, Node.js, dan Python. Aplikasi dapat mengakses file di Blob Storage melalui HTTP atau HTTPS. Blob Storage memiliki tingkat akses panas, dingin, dan arsip untuk mendukung pengoptimalan biaya untuk menyimpan data dalam jumlah besar. Dalam arsitektur ini, akun ini adalah solusi untuk file mentah yang menggunakan lapisan hot.
Data Lake Storage adalah repositori berbasis cloud yang dapat diskalakan untuk menyimpan dan mengatur data yang tidak terstruktur dalam volume besar. Dalam arsitektur ini, Data Lake Storage mengatur dan memelihara data yang diserap dalam volume besar untuk mendukung analitik, pelabelan, dan alur kerja pembelajaran mesin.
Kecerdasan Dokumen adalah komponen dari Foundry Tools. Dalam arsitektur ini, ia menyediakan kemampuan analisis dokumen bawaan untuk mengekstrak teks cetak dan tulisan tangan, tabel, dan pasangan kunci-nilai. Kecerdasan Dokumen memiliki model bawaan untuk mengekstrak data dari faktur, dokumen, tanda terima, kartu IDENTITAS, dan kartu nama. Kecerdasan Dokumen juga memiliki model formulir templat kustom dan model dokumen neural kustom yang dapat Anda gunakan untuk melatih dan menyebarkan model kustom.
Document Intelligence Studio menyediakan antarmuka untuk menjelajahi fitur dan model Kecerdasan Dokumen. Anda dapat menggunakan antarmuka untuk memberi label data dan membangun model pemrosesan dokumen kustom.
Bahasa Azure di Foundry Tools mengonsolidasikan layanan pemrosesan bahasa alami (NLP) Azure. Ini menyediakan opsi bawaan dan dapat disesuaikan dan kemampuan pemahaman bahasa. Gunakan untuk mengklasifikasikan dokumen, mengenali entitas bernama, dan menyelesaikan tugas NLP lainnya.
Language Studio adalah UI berbasis web dalam Bahasa yang dapat Anda gunakan untuk membangun, melatih, mengelola, dan menyebarkan model bahasa. Dalam arsitektur ini, ia mendukung pemberian tag, pelatihan, dan penyebaran model bahasa kustom untuk tugas seperti klasifikasi dan ekstraksi entitas dalam alur pemrosesan dokumen. Pelabelan otomatis mendukung klasifikasi teks kustom dan dapat secara otomatis memberi label dokumen ke dalam kelas atau kategori yang berbeda. Studio ini juga menyediakan opsi untuk melihat performa model, termasuk skor F1, presisi, dan pengenalan.
Azure Machine Learning adalah platform pembelajaran mesin terkelola untuk pengembangan dan penyebaran model dalam skala besar. Dalam arsitektur ini, ia melabeli data, melatih model kustom (termasuk dengan kerangka kerja sumber terbuka), dan menyebarkan model untuk tugas inferensi.
Studio Pembelajaran Mesin menyediakan opsi pelabelan data untuk gambar dan teks. Ini mendukung alur kerja pelatihan model dalam arsitektur ini.
Ekspor data berlabel sebagai himpunan data COCO atau Pembelajaran Mesin. Anda dapat menggunakan himpunan data ini untuk melatih dan menyebarkan model di notebook Azure Machine Learning.
Azure OpenAI menyediakan model bahasa dan model multimodal yang kuat sebagai REST API yang dapat Anda gunakan untuk menyelesaikan berbagai tugas. Dalam arsitektur ini, model Azure OpenAI menangani tugas bahasa lanjutan seperti model penyempurnaan untuk meningkatkan performa pada data yang hilang atau kurang terwakili selama pelatihan asli model dasar. Anda juga dapat menggunakan model fondasi dari beberapa penyedia untuk menyelesaikan tugas-tugas ini.
Alternatives
Anda dapat menambahkan lebih banyak alur kerja ke skenario ini berdasarkan kasus penggunaan tertentu.
Jika dokumen adalah gambar atau PDF, Anda dapat mengekstrak data dengan menggunakan pengenalan karakter optik Azure, API Baca Kecerdasan Dokumen, atau pustaka sumber terbuka.
Anda dapat menggunakan model bawaan dalam Bahasa untuk ringkasan dokumen dan percakapan.
Gunakan kode praproses untuk menjalankan langkah-langkah pemrosesan teks. Langkah-langkah ini termasuk pembersihan, penghapusan kata berhenti, lemmatisasi, stemming, dan ringkasan teks pada data yang diekstrak sesuai dengan persyaratan pemrosesan dokumen. Anda dapat mengekspos kode sebagai REST API untuk otomatisasi. Selesaikan atau otomatisasi langkah-langkah ini secara manual dengan mengintegrasikan dengan proses penyerapan Azure Logic Apps atau Azure Functions .
Anda dapat menggunakan portal Foundry untuk menyempurnakan dan menyebarkan model fondasi, dan membangun aplikasi AI generatif.
Foundry menyediakan dua opsi komputasi untuk model sebagai hosting platform (MaaP), komputasi tanpa server, dan komputasi terkelola. Model dan wilayah tertentu mendukung penyebaran melalui API tanpa server, yang menyediakan model sebagai layanan (MaaS).
Pembelajaran Mesin dan Foundry memiliki kemampuan yang sama, jadi evaluasi kedua platform dan pilih yang terbaik untuk skenario Anda.
Anda dapat menggunakan Azure Content Understanding di Foundry Tools untuk membuat penganalisis kustom dengan menentukan skema bidang untuk mengekstrak data terstruktur dari dokumen.
Detail skenario
Pemrosesan dokumen mencakup berbagai tugas. Mungkin sulit untuk memenuhi semua kebutuhan pemrosesan dokumen Anda dengan menggunakan model bawaan yang tersedia dalam Kecerdasan Bahasa dan Dokumen. Anda mungkin perlu membangun model kustom untuk mengotomatiskan pemrosesan dokumen untuk aplikasi dan domain yang berbeda.
Tantangan utama dalam penyesuaian model meliputi:
Pelabelan atau penandaan data teks dengan entitas pasangan nilai kunci yang relevan untuk mengklasifikasikan teks untuk ekstraksi.
Mengelola infrastruktur pelatihan, seperti komputasi dan penyimpanan, dan integrasinya.
Menyebarkan model dalam skala besar untuk dikonsumsi oleh aplikasi.
Kemungkinan kasus penggunaan
Kasus penggunaan berikut dapat memanfaatkan model kustom untuk pemrosesan dokumen:
Buat model klasifikasi NER dan teks kustom berdasarkan kerangka kerja sumber terbuka.
Ekstrak nilai kunci kustom dari dokumen untuk berbagai vertikal industri seperti asuransi dan layanan kesehatan.
Tandai dan ekstrak entitas dependen domain tertentu di luar model NER bawaan untuk domain seperti keamanan atau keuangan.
Buat tabel kustom dari dokumen.
Ekstrak tanda tangan.
Memberi label dan mengklasifikasikan email atau dokumen lain berdasarkan konten.
Meringkas dokumen atau membuat model tanya jawab kustom berdasarkan data Anda.
Pertimbangan
Pertimbangan ini mengimplementasikan pilar Azure Well-Architected Framework, yang merupakan serangkaian tenet panduan yang dapat Anda gunakan untuk meningkatkan kualitas beban kerja. Untuk informasi selengkapnya, lihat Well-Architected Framework.
Untuk contoh beban kerja ini, menerapkan setiap pilar bergantung pada konfigurasi dan penggunaan setiap komponen layanan Azure secara optimal.
Reliability
Keandalan membantu memastikan bahwa aplikasi Anda dapat memenuhi komitmen yang Anda buat kepada pelanggan Anda. Untuk informasi selengkapnya, lihat Daftar periksa tinjauan desain untuk Keandalan.
Availability
Untuk informasi selengkapnya tentang perjanjian tingkat layanan untuk setiap komponen arsitektur, lihat Dokumen lisensi.
Untuk informasi selengkapnya tentang opsi konfigurasi untuk merancang aplikasi dengan ketersediaan tinggi dengan akun Penyimpanan, lihat Menggunakan geo-redundansi untuk merancang aplikasi yang sangat tersedia.
Resiliency
Atasi mode kegagalan layanan individual seperti Functions dan Storage untuk membantu memastikan ketahanan layanan komputasi dan penyimpanan data dalam skenario ini. Untuk informasi selengkapnya, lihat Panduan keandalan berdasarkan layanan.
Cadangkan dan pulihkan model klasifikasi teks kustom dan model NER Anda dalam Bahasa.
Pembelajaran Mesin tergantung pada layanan konstituen seperti Blob Storage, layanan komputasi, dan AKS. Untuk memberikan keandalan bagi Pembelajaran Mesin, konfigurasikan masing-masing layanan ini agar dapat diandalkan. Untuk informasi selengkapnya tentang merancang pemulihan, lihat Failover untuk kelangsungan bisnis dan pemulihan bencana (BCDR).
Untuk Azure OpenAI, bantu pastikan ketersediaan berkelanjutan dengan menyediakan dua atau beberapa sumber daya Azure OpenAI di wilayah yang berbeda. Pendekatan ini memungkinkan failover ke wilayah lain jika ada masalah. Untuk informasi selengkapnya, lihat BCDR dengan Azure OpenAI.
Keamanan
Keamanan memberikan jaminan terhadap serangan yang sengaja dan penyalahgunaan data serta sistem yang berharga bagi Anda. Untuk informasi selengkapnya, lihat Daftar periksa tinjauan desain untuk Keamanan.
Terapkan perlindungan data, manajemen identitas dan akses, serta rekomendasi keamanan jaringan untuk Blob Storage, Foundry Tools for Document Intelligence and Language Studio, Machine Learning, dan Azure OpenAI.
Pengoptimalan Biaya
Pengoptimalan Biaya berfokus pada cara untuk mengurangi pengeluaran yang tidak perlu dan meningkatkan efisiensi operasional. Untuk informasi selengkapnya, lihat Daftar periksa tinjauan desain untuk optimalisasi biaya.
Total biaya penerapan solusi ini tergantung pada harga layanan yang Anda pilih.
Biaya utama untuk solusi ini meliputi:
Biaya komputasi untuk melatih dan menyebarkan model Pembelajaran Mesin.
Untuk membantu mengoptimalkan biaya, pilih jenis node, ukuran kluster, dan jumlah simpul yang tepat. Pembelajaran Mesin menyediakan opsi untuk pelatihan, seperti mengatur jumlah minimum simpul kluster komputasi ke nol dan menentukan waktu diam sebelum menurunkan skala. Untuk informasi selengkapnya, lihat Mengelola dan mengoptimalkan biaya Pembelajaran Mesin.
Durasi dan aktivitas orkestrasi data. Untuk Azure Data Factory, biaya untuk aktivitas salin pada runtime integrasi Azure didasarkan pada jumlah unit integrasi data yang digunakan dan waktu yang diperlukan untuk menyelesaikan aktivitas. Aktivitas orkestrasi yang ditambahkan juga dikenakan biaya, berdasarkan jumlahnya.
Paket harga Azure Logic Apps bergantung pada sumber daya yang Anda buat dan gunakan. Artikel berikut ini dapat membantu Anda memilih paket yang tepat untuk kasus penggunaan tertentu:
Untuk informasi selengkapnya tentang harga untuk komponen tertentu, lihat sumber daya berikut ini:
- Harga Kecerdasan Dokumen
- Harga Fungsi
- Harga Azure Logic Apps
- Harga Azure Data Factory
- Harga Blob Storage
- Bahasa dalam Penetapan Harga Foundry Tools
- Harga Pembelajaran Mesin
- Harga Azure OpenAI
Gunakan kalkulator harga Azure untuk menambahkan opsi komponen yang Anda pilih dan memperkirakan biaya keseluruhan solusi.
Efisiensi Performa
Efisiensi Performa mengacu pada kemampuan beban kerja Anda untuk menskalakan untuk memenuhi tuntutan pengguna secara efisien. Untuk informasi selengkapnya, lihat Daftar periksa tinjauan desain untuk Efisiensi Kinerja.
Skalabilitas
Untuk menskalakan Functions secara otomatis atau manual, pilih paket hosting yang tepat.
Secara default, Kecerdasan Dokumen mendukung 15 permintaan bersamaan per detik. Untuk menambah kuota ini, buat tiket dukungan Azure.
Untuk model kustom Azure Machine Learning yang dihosting sebagai layanan web di AKS, komponen front-end azureml-fe secara otomatis menskalakan sesuai kebutuhan. Komponen ini juga merutekan permintaan inferensi masuk ke layanan yang sudah dikerahkan.
Untuk penyebaran sebagai titik akhir terkelola, dukung penskalaan otomatis dengan mengintegrasikan dengan fitur skala otomatis Azure Monitor. Untuk informasi selengkapnya, lihat Titik akhir untuk inferensi dalam produksi.
Batas layanan API pada NER kustom dan klasifikasi teks kustom untuk inferensi adalah 20 permintaan GET atau POST per menit.
Kontributor
Microsoft mempertahankan artikel ini. Kontributor berikut menulis artikel ini.
Penulis utama:
- Dixit Arora | Insinyur Senior
- Jyotsna Ravi | Insinyur Utama
Untuk melihat profil LinkedIn nonpublik, masuk ke LinkedIn.
Langkah selanjutnya
- Mulai menggunakan proyek kustom di Document Intelligence Studio
- Menggunakan model Kecerdasan Dokumen
- Apa itu Bahasa?
- Apa itu pengenalan karakter optik?
- Cara mengonfigurasi Functions dengan jaringan virtual