Składniki odżywcze — wyodrębnianie z formatu PDF (wersja zapoznawcza)

Odblokuj zaawansowany tekst PDF i wyodrębnianie danych za pomocą akcji Wyodrębnianie konwertera dokumentów składników odżywczych. Bezproblemowe pobieranie tekstu, danych, wyodrębnianie par klucz-wartość i wykorzystanie technologii OCR do przetwarzania zeskanowanych dokumentów. Idealne rozwiązanie do indeksowania, wyszukiwania, analizy zawartości i przepływów pracy danych ze strukturą.

Ten łącznik jest dostępny w następujących produktach i regionach:

Usługa	Class	Regions
Copilot Studio	Premium	Wszystkie regiony usługi Power Automate z wyjątkiem następujących: - Rząd USA (GCC) - Rząd USA (GCC High) - China Cloud obsługiwane przez firmę 21Vianet - Departament Obrony USA (DoD)
Logic Apps	Standard	Wszystkie regiony usługi Logic Apps z wyjątkiem następujących: — Regiony platformy Azure Government — Regiony platformy Azure (Chiny) - Departament Obrony USA (DoD)
Power Apps	Premium	Wszystkie regiony usługi Power Apps z wyjątkiem następujących: - Rząd USA (GCC) - Rząd USA (GCC High) - China Cloud obsługiwane przez firmę 21Vianet - Departament Obrony USA (DoD)
Power Automate	Premium	Wszystkie regiony usługi Power Automate z wyjątkiem następujących: - Rząd USA (GCC) - Rząd USA (GCC High) - China Cloud obsługiwane przez firmę 21Vianet - Departament Obrony USA (DoD)

Kontakt
Name	Wsparcie dla składników odżywczych (dawniej Muhimbi)
adres URL	https://support.nutrient.io/hc/en-us/requests/new
Email	support+low-code@nutrient.io

Metadane łącznika
Publisher	Muhimbi handlu jako składnik odżywczych
Witryna internetowa	https://www.nutrient.io/low-code/
Zasady ochrony prywatności	https://www.nutrient.io/legal/privacy/
Kategorie	Kolaboracja; Zawartość i pliki

Wyodrębnianie tekstu i danych z plików PDF

Konwerter dokumentów składników odżywczych umożliwia wyodrębnianie tekstu, danych lub określonych stron z plików PDF w ramach zautomatyzowanych przepływów pracy w usłudze Power Automate. Możesz również wyodrębnić tekst z obrazów przy użyciu protokołu OCR.

Dostępne akcje

Zapoznaj się z połączonymi przewodnikami, aby uzyskać instrukcje krok po kroku dotyczące implementowania tych akcji w przepływach pracy.

Wymagania wstępne

Aby użyć konwertera dokumentów składników odżywczych, potrzebne jest bezpłatne lubpróbne konto. Zapoznaj się z przewodnikiem porównawczym , aby zrozumieć różnice między tymi typami kont.

Wprowadzenie

Wykonaj poniższe kroki, aby rozpocząć korzystanie z łącznika Konwerter dokumentów składników odżywczych:

Zarejestruj się, aby uzyskać 30-dniową wersję próbną, wypełniając ten formularz.
Po przesłaniu formularza otrzymasz wiadomość e-mail ze szczegółami aktywacji wersji próbnej.
Zapoznaj się z filmem wideo z wprowadzeniem , aby zapoznać się z przewodnikiem po procesie.
Aby uzyskać szczegółowe instrukcje, zapoznaj się z przewodnikiem Konwerter dokumentów dla usługi Power Automate .
Zapoznaj się z samouczkami dotyczącymi usług Power Automate i Logic Apps , aby zapoznać się z praktycznymi przykładami.

Znane problemy i ograniczenia

Nie można przetworzyć dokumentów chronionych za pomocą usług IRM, DRM, RMS lub AIP z powodu ograniczeń zabezpieczeń.

W przypadku pytań lub pomocy skontaktuj się z naszym zespołem pomocy technicznej.

Limity ograniczania

Nazwa	Wywołania	Okres odnowienia
Wywołania interfejsu API na połączenie	100	60 sekund

Akcje

Wyodrębnianie par klucz-wartość z dokumentu PDF	Identyfikowanie i wyodrębnianie par klucz-wartość z dokumentów na potrzeby przetwarzania formularzy lub przepływów pracy danych strukturalnych.
Wyodrębnianie tekstu z dokumentu PDF	Pobieranie zawartości tekstowej z dokumentów PDF w celu łatwego indeksowania, wyszukiwania lub analizy zawartości.
Wyodrębnianie tekstu z pliku PDF przy użyciu protokołu OCR	Wyodrębnij tekst ze zeskanowanych dokumentów lub obrazów przy użyciu technologii OCR, dzięki czemu można je przeszukiwać i edytować.

Wyodrębnianie par klucz-wartość z dokumentu PDF

Identyfikator operacji:: extract_key_value_pairs

Identyfikowanie i wyodrębnianie par klucz-wartość z dokumentów na potrzeby przetwarzania formularzy lub przepływów pracy danych strukturalnych.

Parametry

Nazwa	Klucz	Wymagane	Typ	Opis
Nazwa pliku źródłowego	source_file_name	True	string	Nazwa pliku źródłowego, w tym rozszerzenie
Zawartość pliku źródłowego	source_file_content	True	byte	Zawartość pliku do konwersji
Język OCR	ocr_language		string	Kody języków wyodrębniania OCR i KVP oddzielone znakami "+". Na przykład "eng+deu+fra" doda język angielski, niemiecki i francuski.
DPI	dpi		enum	Usuwanie pustych stron w pliku PDF
Format wyjściowy KVP	kvp_format		enum	Formaty danych wyjściowych oddzielone przecinkami. Dane KVP mogą być danymi wyjściowymi w formacie JSON, CSV i XML. e.g. json,csv,xml
Zakres stron	page_range		string	Strony, które mają być przetwarzane przez KVP. Użyj ciągu "1–5" dla stron od 1 do 5 lub użyj ciągu "1, 5, 6", aby określić strony 1 i 5 i 6.
Autorotate	autorotate		enum	Ustawienie tej wartości na wartość "Tak" spowoduje automatyczne obracanie stron, jeśli tekst nie ma poprawnej orientacji.
Przycinanie symboli	trim_symbols		enum	Ustawienie wartości "Tak" spowoduje usunięcie wszystkich symboli z początku/końca wartości, z wyjątkiem skrótu "#" lub symboli kropki ".".
Uwzględnij pole ograniczenia klucza	include_key_bounding_box		enum	Uwzględnij wartości pola ograniczenia dla klucza w danych wyjściowych
Uwzględnij pole ograniczenia wartości	include_value_bounding_box		enum	Uwzględnij wartości pola ograniczenia dla wartości w danych wyjściowych
Dołącz numer strony	include_page_number		enum	Dołącz numer strony dla pary wartości klucza w danych wyjściowych
Uwzględnij pewność	include_confidence		enum	Uwzględnij współczynnik ufności dla pary wartości klucza w danych wyjściowych. Ufność jest mierzona między 0 (bez ufności) i 100 (pełna pewność).
Próg ufności	confidence_threshold		integer	Próg ufności pary wartości klucza musi zostać uwzględniony w danych wyjściowych. Wyniki poniżej progu są odrzucane.
Uwzględnij typ	include_type		enum	Uwzględnij typ danych dla pary klucz wartości w danych wyjściowych
Oczekiwane klucze	expected_keys		string	Ciąg JSON zawierający oczekiwane klucze i synonimy
Niepowodzenie z powodu błędu	fail_on_error		boolean	Niepowodzenie z powodu błędu

Zwraca

Dane odpowiedzi dla wszystkich operacji

Body: operation_response

Wyodrębnianie tekstu z dokumentu PDF

Identyfikator operacji:: extract_text

Pobieranie zawartości tekstowej z dokumentów PDF w celu łatwego indeksowania, wyszukiwania lub analizy zawartości.

Parametry

Nazwa	Klucz	Wymagane	Typ	Opis
Nazwa pliku źródłowego	source_file_name	True	string	Nazwa pliku źródłowego, w tym rozszerzenie
Zawartość pliku źródłowego	source_file_content	True	byte	Zawartość pliku do konwersji
Zakres stron	page_range		string	Zakres stron do wyodrębniania tekstu, np. 1,5,8–12
Niepowodzenie z powodu błędu	fail_on_error		boolean	Niepowodzenie z powodu błędu

Zwraca

Dane odpowiedzi dla wszystkich operacji

Body: operation_response

Wyodrębnianie tekstu z pliku PDF przy użyciu protokołu OCR

Identyfikator operacji:: ocr_text

Wyodrębnij tekst ze zeskanowanych dokumentów lub obrazów przy użyciu technologii OCR, dzięki czemu można je przeszukiwać i edytować.

Parametry

Nazwa	Klucz	Wymagane	Typ	Opis
Nazwa pliku źródłowego	source_file_name	True	string	Nazwa pliku źródłowego, w tym rozszerzenie
Zawartość pliku źródłowego	source_file_content	True	byte	Zawartość pliku do OCR
Język	language		enum	Język
Współrzędna X	x		string	Współrzędna X (w pkt, 1/72 cala)
Współrzędna Y	y		string	Współrzędna Y (w pkt, 1/72 cala)
Szerokość	width		string	Szerokość obszaru OCR (w pkt, 1/72 cala)
Wysokość	height		string	Wysokość obszaru OCR (w pkt, 1/72 cala)
Numer strony	page_number		string	Numer strony (pozostaw pole puste dla wszystkich stron OCR)
Performance	performance		enum	Wydajność ()
lista/lista dozwolonych	characters_option		enum	Opcja Znaków
Znaki	characters		string	Znaki do czarnej listy lub listy dozwolonych
Korzystanie z dzielenia na strony	paginate		boolean	Podzielony
Niepowodzenie z powodu błędu	fail_on_error		boolean	Niepowodzenie z powodu błędu

Zwraca

Dane odpowiedzi dla operacji OCRText

Body: ocr_operation_response

Definicje

ocr_operation_response

Dane odpowiedzi dla operacji OCRText

Nazwa	Ścieżka	Typ	Opis
Tekst wychodzący	out_text	string	Wyodrębniony tekst OCRed w postaci zwykłego tekstu.
Nazwa pliku podstawowego	base_file_name	string	Nazwa pliku wejściowego bez rozszerzenia.
Kod wyniku	result_code	enum	Kod wyniku operacji.
Szczegóły wyników	result_details	string	Szczegóły wyniku operacji.

operation_response

Dane odpowiedzi dla wszystkich operacji

Nazwa	Ścieżka	Typ	Opis
Przetworzona zawartość pliku	processed_file_content	byte	Plik wygenerowany przez konwerter Muhimbi.
Nazwa pliku podstawowego	base_file_name	string	Nazwa pliku wejściowego bez rozszerzenia.
Kod wyniku	result_code	enum	Kod wyniku operacji.
Szczegóły wyników	result_details	string	Szczegóły wyniku operacji.