Wymagania i ograniczenia dotyczące modeli w Microsoft Syntex

Dotyczy: √ Wszystkie modele niestandardowe | √ Wszystkie wstępnie utworzone modele

Microsoft Syntex umożliwia tworzenie modeli niestandardowych i wstępnie utworzonych modeli. W zależności od wybranego typu modelu mogą istnieć różne wymagania, takie jak typ i rozmiar pliku, języki, które muszą być obsługiwane, zagadnienia geograficzne i inne czynniki, które pomogą Ci zdecydować, jakiego typu modelu użyć.

Modele niestandardowe:

Wstępnie utworzone modele:

Modele niestandardowe

Przetwarzanie dokumentów bez struktury

Ikonę Opis
Symbol plików. Obsługiwane typy plików
Ten model obsługuje następujące typy plików: .csv, .doc, .docx, .eml, .heic, .heif, .htm, .html, .jpeg, .jpg, .md, .msg, .pdf, .png, .ppt, .pptx, .rtf, .tif, .tiff, .txt, .xls i .xlsx ( formuły w plikach .xls i .xlsx nie są uruchamiane).
Symbol konwersacji. Obsługiwane języki

Ten model obsługuje następujące języki: zobacz obsługiwane języki.
Symbol akapitu. Zagadnienia dotyczące OCR
Ten model wykorzystuje technologię optycznego rozpoznawania znaków (OCR) do skanowania .pdf plików, plików obrazów i plików .tiff. Przetwarzanie OCR działa najlepiej w dokumentach spełniających następujące wymagania:
- Format pliku .jpg, .png lub .pdf (tekst lub skanowane). Pliki .pdf osadzone w tekście są lepsze, ponieważ nie będzie żadnych błędów w wyodrębnianiu znaków i lokalizacji.
- Jeśli pliki .pdf są zablokowane hasłem, należy usunąć blokadę przed ich przesłaniem.
— Łączny rozmiar plików dokumentów używanych do trenowania na kolekcję nie może przekraczać 50 MB, a dokumenty PDF nie powinny mieć więcej niż 500 stron.
- W przypadku obrazów wymiary muszą mieć od 50 x 50 do 10 000 x 10 000 pikseli. Obrazy, które są bardzo szerokie lub mają nieparzyste wymiary (na przykład plany pomieszczeń), mogą zostać obcięte w procesie OCR i utracić dokładność.
- W przypadku plików .pdf wymiary muszą mieć maksymalnie 11 x 17 cali, co odpowiada rozmiarom papieru legalnego lub A3 i mniejszemu rozmiarowi.
- W przypadku skanowania z dokumentów papierowych skanowanie powinno być obrazami wysokiej jakości.
- Musi używać alfabetu łacińskiego (znaki angielskie).
Zwróć uwagę na następujące różnice dotyczące plików tekstowych pakietu Microsoft Office i plików zeskanowanych za pomocą protokołu OCR (.pdf, obrazów lub .tiff):
— Wszystkie pliki: obcięte przy użyciu 64 000 znaków (podczas trenowania i uruchamiania względem plików w bibliotece dokumentów).
— Pliki zeskanowane przez protokół OCR: istnieje limit 500 stron. Tylko typy plików PDF i plików obrazów są przetwarzane przez usługę OCR.
Symbol kuli ziemskiej. Środowiska z wieloma lokalizacjami geograficznymi
Podczas konfigurowania aplikacji Syntex w środowisku z wieloma lokalizacjami geograficznymi platformy Microsoft 365 można skonfigurować go tylko do używania typu modelu w centralnej lokalizacji. Jeśli chcesz użyć tego typu modelu w lokalizacji satelitarnej, skontaktuj się z pomocą techniczną firmy Microsoft.
Symbol obiektów. Biblioteki z wieloma modelami
Jeśli co najmniej dwa wytrenowane modele są stosowane do tej samej biblioteki, plik jest klasyfikowany przy użyciu modelu, który ma najwyższy średni wynik ufności. Wyodrębnione jednostki będą pochodzić tylko z zastosowanego modelu.

Dowolne przetwarzanie dokumentów

Ikonę Opis
Symbol plików. Obsługiwane typy plików
Ten model obsługuje następujące typy plików: zobacz wymagania dotyczące typu pliku.
Symbol konwersacji. Obsługiwane języki
Ten model obsługuje następujące języki: zobacz obsługiwane języki.
Symbol akapitu. Zagadnienia dotyczące OCR
Ten model wykorzystuje technologię optycznego rozpoznawania znaków (OCR) do skanowania .pdf plików, plików obrazów i plików .tiff. Przetwarzanie OCR działa najlepiej w przypadku dokumentów spełniających te wymagania.
Symbol przepustowości/wydajności. Porady dotyczące optymalizacji
Jeśli model nie działa zgodnie z potrzebami, spróbuj wykonać te kroki, aby zwiększyć wydajność modelu.
Symbol kuli ziemskiej. Środowiska z wieloma lokalizacjami geograficznymi
Podczas konfigurowania aplikacji Syntex w środowisku z wieloma lokalizacjami geograficznymi platformy Microsoft 365 można skonfigurować go tylko do używania typu modelu w centralnej lokalizacji. Jeśli chcesz użyć tego typu modelu w lokalizacji satelitarnej, skontaktuj się z pomocą techniczną firmy Microsoft.
Symbol bloków. Niestandardowe środowiska platformy Power Platform
Jeśli używasz środowiska niestandardowego (zamiast środowiska domyślnego) do przetwarzania w usłudze Power Platform, istnieją dodatkowe wymagania dotyczące konfiguracji. Aby uzyskać więcej informacji, zobacz Custom Power Platform environments (Niestandardowe środowiska platformy Power Platform).
Symbol obiektów. Biblioteki z wieloma modelami
Jeśli co najmniej dwa wytrenowane modele są stosowane do tej samej biblioteki, plik jest klasyfikowany przy użyciu modelu, który ma najwyższy średni wynik ufności. Wyodrębnione jednostki będą pochodzić tylko z zastosowanego modelu. Możesz mieć tylko jeden dowolny lub jeden model strukturalny na bibliotekę.

Przetwarzanie dokumentów strukturalnych

Ikonę Opis
Symbol plików. Obsługiwane typy plików
Ten model obsługuje następujące typy plików: zobacz wymagania dotyczące typu pliku.
Symbol konwersacji. Obsługiwane języki
Ten model obsługuje następujące języki: zobacz obsługiwane języki.
Symbol akapitu. Zagadnienia dotyczące OCR
Ten model wykorzystuje technologię optycznego rozpoznawania znaków (OCR) do skanowania .pdf plików, plików obrazów i plików .tiff. Przetwarzanie OCR działa najlepiej w przypadku dokumentów spełniających te wymagania.
Symbol przepustowości/wydajności. Porady dotyczące optymalizacji
Jeśli model nie działa zgodnie z potrzebami, spróbuj wykonać te kroki, aby zwiększyć wydajność modelu.
Symbol kuli ziemskiej. Środowiska z wieloma lokalizacjami geograficznymi
Podczas konfigurowania aplikacji Syntex w środowisku z wieloma lokalizacjami geograficznymi platformy Microsoft 365 można skonfigurować go tylko do używania typu modelu w centralnej lokalizacji. Jeśli chcesz użyć tego typu modelu w lokalizacji satelitarnej, skontaktuj się z pomocą techniczną firmy Microsoft.
Symbol bloków. Niestandardowe środowiska platformy Power Platform
Jeśli używasz środowiska niestandardowego (zamiast środowiska domyślnego) do przetwarzania w usłudze Power Platform, istnieją dodatkowe wymagania dotyczące konfiguracji. Aby uzyskać więcej informacji, zobacz Custom Power Platform environments (Niestandardowe środowiska platformy Power Platform).
Symbol obiektów. Biblioteki z wieloma modelami
Jeśli co najmniej dwa wytrenowane modele są stosowane do tej samej biblioteki, plik jest klasyfikowany przy użyciu modelu, który ma najwyższy średni wynik ufności. Wyodrębnione jednostki będą pochodzić tylko z zastosowanego modelu. Możesz mieć tylko jeden dowolny lub jeden model strukturalny na bibliotekę.

Wstępnie utworzone modele

Przetwarzanie kontraktu

Ikonę Opis
Symbol plików. Obsługiwane typy plików
Ten model obsługuje następujące typy plików: .bmp, .jpeg, .pdf, .png i .tiff.
Symbol konwersacji. Obsługiwane języki
Ten model obsługuje tylko kontrakty w języku angielskim.
Symbol akapitu. Zagadnienia dotyczące OCR
Ten model wykorzystuje technologię optycznego rozpoznawania znaków (OCR) do skanowania .pdf plików, plików obrazów i plików .tiff. Przetwarzanie OCR działa najlepiej w dokumentach spełniających następujące wymagania:
- Format pliku .jpg, .png lub .pdf (tekst lub skanowane). Pliki .pdf osadzone w tekście są lepsze, ponieważ nie będzie żadnych błędów w wyodrębnianiu znaków i lokalizacji.
— W przypadku plików .pdf i .tiff można przetworzyć maksymalnie 2000 stron.
— Rozmiar pliku musi być mniejszy niż 50 MB.
- W przypadku obrazów wymiary muszą mieć od 50 x 50 do 10 000 x 10 000 pikseli.
- W przypadku plików .pdf wymiary muszą mieć maksymalnie 11 x 17 cali, co odpowiada rozmiarom papieru legalnego lub A3 i mniejszemu rozmiarowi.
— Łączny rozmiar danych szkoleniowych wynosi 500 stron lub mniej.
Symbol kuli ziemskiej. Środowiska z wieloma lokalizacjami geograficznymi
Podczas konfigurowania aplikacji Syntex w środowisku z wieloma lokalizacjami geograficznymi platformy Microsoft 365 można skonfigurować go tylko do używania typu modelu w centralnej lokalizacji. Jeśli chcesz użyć tego typu modelu w lokalizacji satelitarnej, skontaktuj się z pomocą techniczną firmy Microsoft.
Symbol obiektów. Biblioteki z wieloma modelami
Jeśli co najmniej dwa wytrenowane modele są stosowane do tej samej biblioteki, plik jest klasyfikowany przy użyciu modelu, który ma najwyższy średni wynik ufności. Wyodrębnione jednostki będą pochodzić tylko z zastosowanego modelu.

Przetwarzanie faktur

Ikonę Opis
Symbol plików. Obsługiwane typy plików
Ten model obsługuje następujące typy plików: .bmp, .jpeg, .pdf, .png i .tiff.
Symbol konwersacji. Obsługiwane języki
Ten model obsługuje faktury w języku angielskim, hiszpańskim, niemieckim, francuskim, włoskim, portugalskim i holenderskim.
Symbol akapitu. Zagadnienia dotyczące OCR
Ten model wykorzystuje technologię optycznego rozpoznawania znaków (OCR) do skanowania .pdf plików, plików obrazów i plików .tiff. Przetwarzanie OCR działa najlepiej w dokumentach spełniających następujące wymagania:
- Format pliku .jpg, .png lub .pdf (tekst lub skanowane). Pliki .pdf osadzone w tekście są lepsze, ponieważ nie będzie żadnych błędów w wyodrębnianiu znaków i lokalizacji.
— W przypadku plików .pdf i .tiff można przetworzyć maksymalnie 2000 stron.
— Rozmiar pliku musi być mniejszy niż 50 MB.
- W przypadku obrazów wymiary muszą mieć od 50 x 50 do 10 000 x 10 000 pikseli.
- W przypadku plików .pdf wymiary muszą mieć maksymalnie 11 x 17 cali, co odpowiada rozmiarom papieru legalnego lub A3 i mniejszemu rozmiarowi.
— Łączny rozmiar danych szkoleniowych wynosi 500 stron lub mniej.
Symbol kuli ziemskiej. Środowiska z wieloma lokalizacjami geograficznymi
Podczas konfigurowania aplikacji Syntex w środowisku z wieloma lokalizacjami geograficznymi platformy Microsoft 365 można skonfigurować go tylko do używania typu modelu w centralnej lokalizacji. Jeśli chcesz użyć tego typu modelu w lokalizacji satelitarnej, skontaktuj się z pomocą techniczną firmy Microsoft.
Symbol obiektów. Biblioteki z wieloma modelami
Jeśli co najmniej dwa wytrenowane modele są stosowane do tej samej biblioteki, plik jest klasyfikowany przy użyciu modelu, który ma najwyższy średni wynik ufności. Wyodrębnione jednostki będą pochodzić tylko z zastosowanego modelu.

Przetwarzanie paragonu

Ikonę Opis
Symbol plików. Obsługiwane typy plików
Ten model obsługuje następujące typy plików: .bmp, .jpeg, .pdf, .png i .tiff.
Symbol konwersacji. Obsługiwane języki
Ten model obsługuje sprzedaż w języku angielskim, croation, czeskim, duńskim, holenderskim, fińskim, niemieckim, węgierskim, włoskim, japońskim, łotewskim, litewskim, norweskim, portugalskim, hiszpańskim, szwedzkim i wietnamskim.
Symbol akapitu. Zagadnienia dotyczące OCR
Ten model wykorzystuje technologię optycznego rozpoznawania znaków (OCR) do skanowania .pdf plików, plików obrazów i plików .tiff. Przetwarzanie OCR działa najlepiej w dokumentach spełniających następujące wymagania:
- Format pliku .jpg, .png lub .pdf (tekst lub skanowane). Pliki .pdf osadzone w tekście są lepsze, ponieważ nie będzie żadnych błędów w wyodrębnianiu znaków i lokalizacji.
— W przypadku plików .pdf i .tiff można przetworzyć maksymalnie 2000 stron.
— Rozmiar pliku musi być mniejszy niż 50 MB.
- W przypadku obrazów wymiary muszą mieć od 50 x 50 do 10 000 x 10 000 pikseli.
- W przypadku plików .pdf wymiary muszą mieć maksymalnie 11 x 17 cali, co odpowiada rozmiarom papieru legalnego lub A3 i mniejszemu rozmiarowi.
— Łączny rozmiar danych szkoleniowych wynosi 500 stron lub mniej.
Symbol kuli ziemskiej. Środowiska z wieloma lokalizacjami geograficznymi
Podczas konfigurowania aplikacji Syntex w środowisku z wieloma lokalizacjami geograficznymi platformy Microsoft 365 można skonfigurować go tylko do używania typu modelu w centralnej lokalizacji. Jeśli chcesz użyć tego typu modelu w lokalizacji satelitarnej, skontaktuj się z pomocą techniczną firmy Microsoft.
Symbol obiektów. Biblioteki z wieloma modelami
Jeśli co najmniej dwa wytrenowane modele są stosowane do tej samej biblioteki, plik jest klasyfikowany przy użyciu modelu, który ma najwyższy średni wynik ufności. Wyodrębnione jednostki będą pochodzić tylko z zastosowanego modelu.