Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Akıllı Belge İşleme (IDP), PDF'ler, DOCX dosyaları, resimler ve sunular gibi yapılandırılmamış içeriği akış aracılarını, uygulamaları ve analizleri destekleyen yapılandırılmış, zenginleştirilmiş verilere dönüştürür.
Azure Databricks ile, ai_parse_document, ai_extract ve ai_classify gibi yerel olarak birleştirilebilen yapay zeka işlevlerini kullanarak doğrudan Lakehouse üzerinde uçtan uca IDP işlem hatları oluşturabilirsiniz. Araştırma tarafından geliştirilen bu işlevler, yüksek performanslı belge işleme için amaca yönelik olarak oluşturulmuşlardır. Tüm işlemler Unity Kataloğu'nda çalıştırıldığından, üretim sınıfı IDP işlem hatlarınız güvenli, yönetilen ve tam olarak yönetilir durumda kalır.
| Kullanım örneği | Önerilen yaklaşım |
|---|---|
| Belge ayrıştırma | PDF'leri, DOCX'leri, resimleri ve PPT'leri yapılandırılmış metinlere, tablolara ve şekil açıklamalarına dönüştürün. |
| Bilgi ayıklama | Tanımladığınız şemayı kullanarak belgelerden veya düz metinden yapılandırılmış alanları çekin. |
| İçeriği sınıflandırma | Belgelere veya metne 500'den fazla etiketi destekleyen önceden tanımlanmış kategoriler atayın. |
Yaygın kullanım örnekleri
Azure Databricks'te IDP, çok çeşitli aşağı akış uygulamalarını destekler:
- Bilgi getirme ile artırılmış üretim (RAG): LLM uygulamaları için öbekleme, bilgi getirme kalitesi ve temellendirme süreçlerini geliştirmek amacıyla belgeleri ayrıştırma ve yapılandırma.
- Bilgi ayıklama ve analiz: Belge verilerinde arama, raporlama ve iş zekasını etkinleştirmek için önemli alanları ve meta verileri ayıklayın.
- Aracı temelli iş akışları: Otomatik karar alma ve görev yürütmeyi desteklemek için belgeleri yönlendirin, sınıflandırın ve zenginleştirin.
- Belge anlama ve sınıflandırma: Büyük belge kuruluşlarını aşağı akış işleme için türe, konuya veya içeriğe göre düzenleyin.
Nasıl çalışır?
Azure Databricks, Lakehouse'da birleşik, uçtan uca bir iş akışı olarak akıllı belge işlemeye olanak tanır. Alım, ayrıştırma, zenginleştirme ve aşağı akış analizi tek bir platform üzerinde oluşturulmuş olduğundan, her aşama karmaşık tümleştirme veya veri taşıma gerektirmeden sorunsuz bir şekilde birlikte çalışır.
Veri alma ve düzenleme
Ham belgeleri (PDF'ler, görüntüler ve DOCX dosyaları gibi) almak ve işlem hatlarınızı yönetmek için Lakeflow Spark Bildirimli İşlem Hatlarını kullanın. Veri alma ve orkestrasyon Lakehouse ile doğal olarak entegre edildiği için belgeler ek altyapıya ihtiyaç duymadan doğrudan sonraki işleme aşamasına akar.
Belgeleri ayrıştırma (Bronz katman)
Ham dosyaları yapılandırılmış gösterimlere dönüştürmek için uygulayın
ai_parse_document. Bu, metinleri, tabloları/resim açıklamalarını ve belge yapısını yakalayan standartlaştırılmış bir bronz katman oluşturur ve tüm aşağı akış kullanım örnekleri için tutarlı bir temel oluşturur.Ayıklama ve sınıflandırma
Yapılandırılmış alanlar ve meta verilerle ayrıştırılmış belgeleri zenginleştirmek için
ai_extractveai_classifykullanın. Bu işlevler doğrudan ayrıştırılan çıkışlar üzerinde çalışır ve böylece temel bilgileri ayıklamanıza, belgeleri sınıflandırmanıza ve bunları ek dönüştürme adımları olmadan iş akışları aracılığıyla yönlendirmenize olanak tanır.Analiz etme ve kullanıma hazır hale getirme
Ek Yapay Zeka Fonksiyonları veya diğer araçları (AI/BI panoları, Uygulamalar, Vektör Arama), analiz işlemlerini, bilgi alma (RAG) ve aracı tabanlı iş akışlarını geliştirmek için kullanın. Tüm veriler Lakehouse'da kaldığından, yapılandırılmış belge verileri arama, panolar ve uygulamalar için hemen kullanılabilir.