Aracılığıyla paylaş


Azure Logic Apps iş akışlarında yapay zeka eylemleri için belgeleri ve öbek metnini ayrıştırma

Şunlar için geçerlidir: Azure Logic Apps (Tüketim + Standart)

Bazen bazı eylemlerle bu içeriği kullanabilmeniz için içeriği sözcükler veya karakter öbekleri olan belirteçlere dönüştürmeniz veya büyük bir belgeyi daha küçük parçalara bölmeniz gerekir. Örneğin, Azure AI Search veya Azure OpenAI eylemleri belirteçli giriş bekler ve yalnızca sınırlı sayıda belirteci işleyebilir.

Bu senaryolar için, mantıksal uygulama iş akışınızda Veri İşlemleri eylemleri olan Bir belgeyi ayrıştır ve Metni öbeklere ayır işlemlerini kullanın. Bu eylemler sırasıyla PDF belgesi, CSV dosyası, Excel dosyası gibi içerikleri belirteçli dize çıkışına dönüştürür ve ardından dizeyi belirteç sayısına göre parçalara ayırır. Daha sonra bu çıkışlara atıfta bulunabilir ve sonraki eylemlerle iş akışınızda kullanabilirsiniz.

İpucu

Daha fazla bilgi edinmek için Azure Copilot'a şu soruları sorabilirsiniz:

  • Yapay zekada belirteç nedir?
  • Belirteçli giriş nedir?
  • Belirteçli dize çıkışı nedir?
  • Yapay zekada ayrıştırma nedir?
  • Yapay zekada parçalama nedir?

Azure Copilot'u bulmak için Azure portalı araç çubuğunda Copilot'u seçin.

Bu kılavuzda, iş akışınızda belgeleri ayrıştırma ve metin öbekleme eylemlerinin nasıl ekleneceği ve ayarlanacağı gösterilmektedir.

Bilinen sorunlar ve sınırlamalar

Belgeyi Ayrıştırma ve Metni Öbeklere Ayır eylemleri şu anda ana bilgisayar dosyalarını desteklemez, örneğin Sanal Depolama Erişim Yöntemi (VSAM) dosyaları gibi orta seviye ikili dosyalar. Ancak Standart iş akışlarıyla çalışıyorsanız, bunun yerine Konak Dosyası İçeriğini Ayrıştır adlı IBM Konak Dosyası yerleşik eylemini kullanabilirsiniz.

Önkoşullar

  • Bir Azure hesabı ve aboneliği Azure aboneliğiniz yoksa ücretsiz bir Azure hesabı için kaydolun.

  • Varolan bir tetikleyiciye sahip Tüketim veya Standart mantıksal uygulama iş akışı, çünkü Bir belgeyi ayrıştırma ve Metni öbekleme işlemleri yalnızca eylemler olarak kullanılabilir. Ayrıştırmak veya parçalamak istediğiniz içeriği getiren eylemin bu veri işlemlerinden önce gerçekleştirdiğinden emin olun.

Belgeyi ayrıştırma

Belgeyi ayrıştır eylemi PDF belgesi, CSV dosyası, Excel dosyası vb. gibi içerikleri belirteçli dizeye dönüştürür. Bu örnekte, iş akışınızın Http isteği alındığında adlı İstek tetikleyicisiyle başladığını varsayalım. Bu tetikleyici, Azure işlevi, başka bir mantıksal uygulama iş akışı gibi başka bir bileşenden gönderilen HTTP isteğini almayı bekler. HTTP isteği, iş akışının alıp ayrıştırmak için kullanabileceği yeni yüklenmiş bir belgenin URL'sini içerir. HTTP eylemi tetikleyiciyi hemen izler ve belgenin URL'sine bir HTTP isteği gönderir ve depolama konumundaki belge içeriğiyle birlikte döndürür.

Azure Blob Depolama, SharePoint, OneDrive, Dosya Sistemi, FTP gibi başka içerik kaynakları kullanıyorsanız, bu kaynaklar için tetikleyicilerin kullanılabilir olup olmadığını de kontrol edebilirsiniz. Ayrıca, bu kaynakların içeriğini almak için eylemlerin kullanılabilir olup olmadığını de kontrol edebilirsiniz. Daha fazla bilgi için bkz . Yerleşik işlemler ve Yönetilen bağlayıcılar.

  1. Azure portalında mantıksal uygulama kaynağınızı ve iş akışınızı tasarımcıda açın.

  2. Mevcut tetikleyici ve eylemlerin altında, belgeyi iş akışınıza Ayrıştır adlı Veri İşlemleri eylemini eklemek için bu genel adımları izleyin.

  3. Tasarımcıda Belge ayrıştırma eylemini seçin.

  4. Eylem bilgileri bölmesi açıldıktan sonra, Parametreler sekmesindeki Belge İçeriği özelliğinde şu adımları izleyerek ayrıştırılacak içeriği belirtin:

    1. Belge İçeriği kutusunun içini seçin.

      Dinamik içerik listesi (şimşek simgesi) ve ifade düzenleyicisi (işlev simgesi) seçenekleri görüntülenir.

      • Önceki bir eylemden çıkışı seçmek için dinamik içerik listesini seçin.

      • Önceki bir eylemin çıkışını işleyen bir ifade oluşturmak için ifade düzenleyicisini seçin.

      Bu örnek, dinamik içerik listesi için şimşek simgesini seçerek devam eder.

    2. Dinamik içerik listesi açıldıktan sonra, önceki bir işlemden istediğiniz çıkışı seçin.

      Bu örnekte, Belgeyi ayrıştır eylemi, HTTP eyleminden alınan Gövde çıktısına başvurur.

      İş akışı tasarımcısının ekran görüntüsünde, Belgeyi Ayrıştır adlı bir eylem, açık dinamik içerik listesi ve HTTP eyleminden seçilen Gövde çıkışı gösterilmektedir.

      Gövde çıkışı artık Belge İçeriği kutusunda görünür:

      Gövde çıkışı olan bir belgeyi ayrıştırma adlı eylemdeki örnek iş akışını gösteren ekran görüntüsü.

  5. Belgeyi ayrıştır eyleminin altında, belirteçli dize çıkışıyla çalışmak istediğiniz eylemleri (örneğin, bu kılavuzun daha sonra açıkladığı Öbek metni) ekleyin.

Belgeyi ayrıştırma - Referans

Parametreler

Veri Akışı Adı Değer Veri türü Açıklama Sınır
Belge İçeriği < parse edilecek içerik> Herhangi biri Ayrıştırılacak içerik. Hiçbiri

Çıkışlar

Veri Akışı Adı Veri türü Açıklama
Ayrıştırılan sonuç metni Dize dizisi Dize dizisi.
Ayrıştırılan sonuç Nesne Ayrıştırılan metnin tamamını içeren bir nesne.

Öbek metni

Öbek metin eylemi, sonraki eylemlerin geçerli iş akışında daha kolay kullanılması için içeriği daha küçük parçalara ayırır. İzleyen adımlar, Belgeyi Ayrıştır bölümündeki örnek üzerine inşa edilmiştir ve belirteçli, küçük içerik parçacıkları bekleyen Azure AI işlemlerinde kullanılmak üzere belirteç dizisinin çıktısını bölmektedir.

Not

Öbekleme kullanan önceki eylemler Öbek metin eylemini etkilemez ve Öbek metin eylemi öbek kullanan sonraki eylemleri etkilemez.

  1. Azure portalında mantıksal uygulama kaynağınızı ve iş akışınızı tasarımcıda açın.

  2. Belge ayrıştır eyleminin altında, Öbek metni adlı Veri İşlemleri eylemini eklemek için bu genel adımları izleyin.

  3. Tasarımcıda Öbek metni eylemini seçin.

  4. Eylem bilgileri bölmesi açıldıktan sonra, Parametreler sekmesindeki ÖbekLeme Stratejisi özelliği için, henüz seçili değilse öbekleme yöntemi olarak TokenSize'ı seçin.

    Strateji Açıklama
    TokenSize Belirtilen içeriği belirteç sayısına göre bölün.
  5. Stratejiyi seçtikten sonra, parçalama içeriğini belirtmek için Metin kutusunun içini seçin.

    Dinamik içerik listesi (şimşek simgesi) ve ifade düzenleyicisi (işlev simgesi) seçenekleri görüntülenir.

    • Önceki bir eylemden çıkışı seçmek için dinamik içerik listesini seçin.

    • Önceki bir eylemin çıkışını işleyen bir ifade oluşturmak için ifade düzenleyicisini seçin.

    Bu örnek, dinamik içerik listesi için şimşek simgesini seçerek devam eder.

    1. Dinamik içerik listesi açıldıktan sonra, önceki bir işlemden istediğiniz çıkışı seçin.

      Bu örnekte Öbek metni eylemi, Belgeyi ayrıştır eyleminden Ayrıştırılan sonuç metni çıkışına başvurur.

      İş akışı tasarımcısı, açık dinamik içerik listesi içeren Öbek metni adlı eylem ve Belge ayrıştır eyleminden seçilen çıkışı gösteren ekran görüntüsü.

      Metin kutusu artık Ayrıştırılmış sonuç eylemi çıkışını gösterir:

      Öbek metni adlı eylemde seçili ayrıştırılmış sonuç metni çıkışıyla örnek iş akışını gösteren ekran görüntüsü.

  6. Seçtiğiniz stratejiye ve senaryoya göre Öbek metin eylemi için ayarlamaları tamamlayın. Daha fazla bilgi için Öbek Metin - Referans'e bakınız.

Artık Azure AI eylemleri gibi belirteçli girişi bekleyen ve kullanan başka eylemler eklediğinizde, giriş içeriği daha kolay kullanım için biçimlendirilir.

Bölüm metni - Referans

Parametreler

Veri Akışı Adı Değer Veri türü Açıklama Sınırlar
Öbekleme Stratejisi TokenSize Dize enum İçeriği belirteç sayısına göre bölün.

Varsayılan: TokenSize
Uygulanamaz
Metin < içerik-parçalama> Herhangi biri Parçalanacak içerik. Bkz. Sınırlar ve yapılandırma başvuru kılavuzu
EncodingModel < kodlama yöntemi> Dize sabiti numaralandırma Kullanılacak kodlama modeli:

- Varsayılan: cl100k_base (gpt4, gpt-3.5-turbo, gpt-35-turbo)

- r50k_base (gpt-3)

- p50k_base (gpt-3)

- p50k_edit (gpt-3)

- cl200k_base (gpt-4o)

Daha fazla bilgi için bkz . OpenAI - Modellere genel bakış.
Uygulanamaz
TokenSize < öbek başına max-tokens> Tamsayı İçerik öbekleri başına en fazla belirteç sayısı.

Varsayılan: Yok
Min: 1
Maksimum: 8000
PageOverlapLength < çakışan karakter sayısı> Tamsayı Önceki öbek sonundan sonraki öbeke eklenecek karakter sayısı. Bu ayar, içeriği öbeklere bölerken önemli bilgileri kaybetmemenize yardımcı olur ve öbekler arasında sürekliliği ve bağlamı korur.

Varsayılan: 0 - Çakışan karakter yok.
Minimum: 0

İpucu

Daha fazla bilgi edinmek için Azure Copilot'a şu soruları sorabilirsiniz:

  • Öbeklemede Sayfa Örtüşme Uzunluğu nedir?
  • Azure AI'de kodlama nedir?

Azure Copilot'u bulmak için Azure portalı araç çubuğunda Copilot'u seçin.

Çıkışlar

Veri Akışı Adı Veri türü Açıklama
Öbeklenmiş sonuç Metin öğeleri Dize dizisi Dize dizisi.
Parçalanmış sonuç Metin öğeleri String Dizideki tek bir dize.
Parçalanmış sonuç Nesne Öbeklenmiş metnin tamamını içeren bir nesne.

Örnek iş akışı

Aşağıdaki örnek, herhangi bir kaynaktan veri almak için eksiksiz bir iş akışı düzeni oluşturan diğer eylemleri içerir:

Örnek iş akışının tamamını gösteren ekran görüntüsü.

Adımlar Görev Altında yatan işlem Açıklama
1 Yeni içeriği bekleyin veya denetleyin. HTTP isteği alındığında Zamanlanmış bir yinelenme temelinde veya sırasıyla belirli olaylara yanıt olarak yeni verilerin gelmesini yoklayan veya bekleyen bir tetikleyici. Böyle bir olay, Azure Blob Depolama, SharePoint, OneDrive, Dosya Sistemi, FTP gibi belirli bir depolama sistemine yüklenmiş yeni bir dosya olabilir.

Bu örnekte İstek tetikleyicisi işlemi, başka bir uç noktadan gönderilen bir HTTP veya HTTPS isteğini bekler. İstek, karşıya yüklenen yeni bir belgenin URL'sini içerir.
2 İçeriği alın. HTTP Tetikleyici çıktısından dosya URL'si kullanılarak yüklenen belgeyi getiren bir HTTP eylemi.
3 Belge ayrıntılarını oluştur. Compose Çeşitli öğeleri birleştirir veri işlemleri eylemi.

Bu örnek, belgeyle ilgili anahtar-değer bilgilerini birleştirir.
4 Belirteç dizesi oluşturun. Belgeyi ayrıştırma Oluştur eyleminin çıkışını kullanarak belirteçli bir dize oluşturan Veri İşlemleri eylemi.
5 İçerik öbekleri oluşturun. Veri dilimi metni İçerik öbekleri başına belirteç sayısına göre belirteç dizesini parçalara ayıran Veri İşlemleri eylemi.
6 Belirteçli ve öbeklenmiş metni JSON'a dönüştürün. JSON Ayrıştırma Öbeklenmiş çıkışı bir JSON dizisine dönüştüren Veri İşlemleri eylemi.
7 JSON dizi öğeleri'ne tıklayın. Seç JSON dizisinden birden çok öğe seçen Veri İşlemleri eylemi.
8 Eklemeleri oluşturun. Birden çok ekleme alma Her JSON dizi öğesi için eklemeler oluşturan bir Azure OpenAI eylemi.
9 Eklemeleri ve diğer bilgileri seçin. Seç Eklemeleri ve diğer belge bilgilerini seçen Veri İşlemleri eylemi.
10 Verilerin dizinini oluşturun. Belgeleri dizine ekleme Seçilen her eklemeye göre verilerin dizinini oluşturan bir Azure AI Arama eylemi.