Udostępnij przez


Składniki odżywcze — wyodrębnianie z formatu PDF (wersja zapoznawcza)

Odblokuj zaawansowany tekst PDF i wyodrębnianie danych za pomocą akcji Wyodrębnianie konwertera dokumentów składników odżywczych. Bezproblemowe pobieranie tekstu, danych, wyodrębnianie par klucz-wartość i wykorzystanie technologii OCR do przetwarzania zeskanowanych dokumentów. Idealne rozwiązanie do indeksowania, wyszukiwania, analizy zawartości i przepływów pracy danych ze strukturą.

Ten łącznik jest dostępny w następujących produktach i regionach:

Usługa Class Regions
Copilot Studio Premium Wszystkie regiony usługi Power Automate z wyjątkiem następujących:
     - Rząd USA (GCC)
     - Rząd USA (GCC High)
     - China Cloud obsługiwane przez firmę 21Vianet
     - Departament Obrony USA (DoD)
Logic Apps Standard Wszystkie regiony usługi Logic Apps z wyjątkiem następujących:
     — Regiony platformy Azure Government
     — Regiony platformy Azure (Chiny)
     - Departament Obrony USA (DoD)
Power Apps Premium Wszystkie regiony usługi Power Apps z wyjątkiem następujących:
     - Rząd USA (GCC)
     - Rząd USA (GCC High)
     - China Cloud obsługiwane przez firmę 21Vianet
     - Departament Obrony USA (DoD)
Power Automate Premium Wszystkie regiony usługi Power Automate z wyjątkiem następujących:
     - Rząd USA (GCC)
     - Rząd USA (GCC High)
     - China Cloud obsługiwane przez firmę 21Vianet
     - Departament Obrony USA (DoD)
Kontakt
Name Wsparcie dla składników odżywczych (dawniej Muhimbi)
adres URL https://support.nutrient.io/hc/en-us/requests/new
Email support+low-code@nutrient.io
Metadane łącznika
Publisher Muhimbi handlu jako składnik odżywczych
Witryna internetowa https://www.nutrient.io/low-code/
Zasady ochrony prywatności https://www.nutrient.io/legal/privacy/
Kategorie Kolaboracja; Zawartość i pliki

Wyodrębnianie tekstu i danych z plików PDF

Konwerter dokumentów składników odżywczych umożliwia wyodrębnianie tekstu, danych lub określonych stron z plików PDF w ramach zautomatyzowanych przepływów pracy w usłudze Power Automate. Możesz również wyodrębnić tekst z obrazów przy użyciu protokołu OCR.

Dostępne akcje

Zapoznaj się z połączonymi przewodnikami, aby uzyskać instrukcje krok po kroku dotyczące implementowania tych akcji w przepływach pracy.

Wymagania wstępne

Aby użyć konwertera dokumentów składników odżywczych, potrzebne jest bezpłatne lubpróbne konto. Zapoznaj się z przewodnikiem porównawczym , aby zrozumieć różnice między tymi typami kont.

Wprowadzenie

Wykonaj poniższe kroki, aby rozpocząć korzystanie z łącznika Konwerter dokumentów składników odżywczych:

Znane problemy i ograniczenia

Nie można przetworzyć dokumentów chronionych za pomocą usług IRM, DRM, RMS lub AIP z powodu ograniczeń zabezpieczeń.

W przypadku pytań lub pomocy skontaktuj się z naszym zespołem pomocy technicznej.

Limity ograniczania

Nazwa Wywołania Okres odnowienia
Wywołania interfejsu API na połączenie 100 60 sekund

Akcje

Wyodrębnianie par klucz-wartość z dokumentu PDF

Identyfikowanie i wyodrębnianie par klucz-wartość z dokumentów na potrzeby przetwarzania formularzy lub przepływów pracy danych strukturalnych.

Wyodrębnianie tekstu z dokumentu PDF

Pobieranie zawartości tekstowej z dokumentów PDF w celu łatwego indeksowania, wyszukiwania lub analizy zawartości.

Wyodrębnianie tekstu z pliku PDF przy użyciu protokołu OCR

Wyodrębnij tekst ze zeskanowanych dokumentów lub obrazów przy użyciu technologii OCR, dzięki czemu można je przeszukiwać i edytować.

Wyodrębnianie par klucz-wartość z dokumentu PDF

Identyfikowanie i wyodrębnianie par klucz-wartość z dokumentów na potrzeby przetwarzania formularzy lub przepływów pracy danych strukturalnych.

Parametry

Nazwa Klucz Wymagane Typ Opis
Nazwa pliku źródłowego
source_file_name True string

Nazwa pliku źródłowego, w tym rozszerzenie

Zawartość pliku źródłowego
source_file_content True byte

Zawartość pliku do konwersji

Język OCR
ocr_language string

Kody języków wyodrębniania OCR i KVP oddzielone znakami "+". Na przykład "eng+deu+fra" doda język angielski, niemiecki i francuski.

DPI
dpi enum

Usuwanie pustych stron w pliku PDF

Format wyjściowy KVP
kvp_format enum

Formaty danych wyjściowych oddzielone przecinkami. Dane KVP mogą być danymi wyjściowymi w formacie JSON, CSV i XML. e.g. json,csv,xml

Zakres stron
page_range string

Strony, które mają być przetwarzane przez KVP. Użyj ciągu "1–5" dla stron od 1 do 5 lub użyj ciągu "1, 5, 6", aby określić strony 1 i 5 i 6.

Autorotate
autorotate enum

Ustawienie tej wartości na wartość "Tak" spowoduje automatyczne obracanie stron, jeśli tekst nie ma poprawnej orientacji.

Przycinanie symboli
trim_symbols enum

Ustawienie wartości "Tak" spowoduje usunięcie wszystkich symboli z początku/końca wartości, z wyjątkiem skrótu "#" lub symboli kropki ".".

Uwzględnij pole ograniczenia klucza
include_key_bounding_box enum

Uwzględnij wartości pola ograniczenia dla klucza w danych wyjściowych

Uwzględnij pole ograniczenia wartości
include_value_bounding_box enum

Uwzględnij wartości pola ograniczenia dla wartości w danych wyjściowych

Dołącz numer strony
include_page_number enum

Dołącz numer strony dla pary wartości klucza w danych wyjściowych

Uwzględnij pewność
include_confidence enum

Uwzględnij współczynnik ufności dla pary wartości klucza w danych wyjściowych. Ufność jest mierzona między 0 (bez ufności) i 100 (pełna pewność).

Próg ufności
confidence_threshold integer

Próg ufności pary wartości klucza musi zostać uwzględniony w danych wyjściowych. Wyniki poniżej progu są odrzucane.

Uwzględnij typ
include_type enum

Uwzględnij typ danych dla pary klucz wartości w danych wyjściowych

Oczekiwane klucze
expected_keys string

Ciąg JSON zawierający oczekiwane klucze i synonimy

Niepowodzenie z powodu błędu
fail_on_error boolean

Niepowodzenie z powodu błędu

Zwraca

Dane odpowiedzi dla wszystkich operacji

Wyodrębnianie tekstu z dokumentu PDF

Pobieranie zawartości tekstowej z dokumentów PDF w celu łatwego indeksowania, wyszukiwania lub analizy zawartości.

Parametry

Nazwa Klucz Wymagane Typ Opis
Nazwa pliku źródłowego
source_file_name True string

Nazwa pliku źródłowego, w tym rozszerzenie

Zawartość pliku źródłowego
source_file_content True byte

Zawartość pliku do konwersji

Zakres stron
page_range string

Zakres stron do wyodrębniania tekstu, np. 1,5,8–12

Niepowodzenie z powodu błędu
fail_on_error boolean

Niepowodzenie z powodu błędu

Zwraca

Dane odpowiedzi dla wszystkich operacji

Wyodrębnianie tekstu z pliku PDF przy użyciu protokołu OCR

Wyodrębnij tekst ze zeskanowanych dokumentów lub obrazów przy użyciu technologii OCR, dzięki czemu można je przeszukiwać i edytować.

Parametry

Nazwa Klucz Wymagane Typ Opis
Nazwa pliku źródłowego
source_file_name True string

Nazwa pliku źródłowego, w tym rozszerzenie

Zawartość pliku źródłowego
source_file_content True byte

Zawartość pliku do OCR

Język
language enum

Język

Współrzędna X
x string

Współrzędna X (w pkt, 1/72 cala)

Współrzędna Y
y string

Współrzędna Y (w pkt, 1/72 cala)

Szerokość
width string

Szerokość obszaru OCR (w pkt, 1/72 cala)

Wysokość
height string

Wysokość obszaru OCR (w pkt, 1/72 cala)

Numer strony
page_number string

Numer strony (pozostaw pole puste dla wszystkich stron OCR)

Performance
performance enum

Wydajność ()

lista/lista dozwolonych
characters_option enum

Opcja Znaków

Znaki
characters string

Znaki do czarnej listy lub listy dozwolonych

Korzystanie z dzielenia na strony
paginate boolean

Podzielony

Niepowodzenie z powodu błędu
fail_on_error boolean

Niepowodzenie z powodu błędu

Zwraca

Dane odpowiedzi dla operacji OCRText

Definicje

ocr_operation_response

Dane odpowiedzi dla operacji OCRText

Nazwa Ścieżka Typ Opis
Tekst wychodzący
out_text string

Wyodrębniony tekst OCRed w postaci zwykłego tekstu.

Nazwa pliku podstawowego
base_file_name string

Nazwa pliku wejściowego bez rozszerzenia.

Kod wyniku
result_code enum

Kod wyniku operacji.

Szczegóły wyników
result_details string

Szczegóły wyniku operacji.

operation_response

Dane odpowiedzi dla wszystkich operacji

Nazwa Ścieżka Typ Opis
Przetworzona zawartość pliku
processed_file_content byte

Plik wygenerowany przez konwerter Muhimbi.

Nazwa pliku podstawowego
base_file_name string

Nazwa pliku wejściowego bez rozszerzenia.

Kod wyniku
result_code enum

Kod wyniku operacji.

Szczegóły wyników
result_details string

Szczegóły wyniku operacji.