Sdílet prostřednictvím


Požadavky a omezení pro modely v Microsoft Syntexu

Platí pro: ✓ Všechny vlastní modely | ✓ Všechny předem připravené modely

Microsoft Syntex umožňuje vytvářet vlastní modely a předem připravené modely. V závislosti na typu modelu, který zvolíte, můžou existovat různé požadavky, jako je typ a velikost souboru, jazyky, které je potřeba podporovat, zeměpisné aspekty a další faktory, které vám pomůžou rozhodnout, jaký typ modelu použít.

Vlastní modely:

Předem připravené modely:

Vlastní modely

Nestrukturované zpracování dokumentů

Ikona Popis
Symbol souborů. Podporované typy souborů
Tento model podporuje následující typy souborů: .csv, .doc, .docx, .eml, .heic, .heif, .htm, .html, .jpeg, .jpg, .md, .msg, .pdf, .png, .ppt, .pptx, .rtf, .tif, .tiff, .txt, .xls a .xlsx (vzorce v souborech .xls a .xlsx se nespouštějí).
Symbol konverzace. Podporované jazyky

Tento model podporuje následující jazyky: viz podporované jazyky.
Symbol odstavce. Důležité informace o OCR
Tento model používá technologii optického rozpoznávání znaků (OCR) ke skenování .pdf souborů, souborů obrázků a .tiff souborů. Zpracování OCR funguje nejlépe u dokumentů, které splňují následující požadavky:
- Formát souboru .jpg, .png nebo .pdf (text nebo naskenovaný). Textové .pdf soubory jsou lepší, protože při extrakci a umístění znaků nebudou žádné chyby.
– Pokud jsou soubory .pdf uzamčené heslem, musíte zámek před odesláním odebrat.
- Kombinovaná velikost souborů dokumentů používaných pro trénování na kolekci nesmí překročit 50 MB a dokumenty PDF by neměly mít více než 500 stránek.
- U obrázků musí být rozměry mezi 50 x 50 a 10 000 x 10 000 pixelů. Obrázky, které jsou velmi široké nebo mají odlišné rozměry (například plány prostorového uspořádání), se můžou v procesu OCR zkrátit a ztratit přesnost.
- Pro .pdf soubory musí mít rozměry maximálně 11 x 17 palců, což odpovídá formátu papíru Legal nebo A3 a menší.
- Pokud se skenuje z papírových dokumentů, měly by být snímky ve vysoké kvalitě.
– Musí používat latinku (anglické znaky).
Všimněte si následujících rozdílů v textových souborech Microsoft Office a souborech s kontrolou OCR (.pdf, obrázku nebo .tiff):
- Všechny soubory: Zkrácené na 64 000 znaků (při trénování a při spuštění proti souborům v knihovně dokumentů).
– Naskenované soubory OCR: Limit je 500 stránek. OCR zpracovává jenom typy souborů PDF a obrázků.
Symbol glóbusu. Prostředí Multi-Geo
Při nastavování syntexu v prostředí Microsoft 365 Multi-Geo ho můžete nakonfigurovat tak, aby používal typ modelu pouze v centrálním umístění. Pokud chcete tento typ modelu použít v satelitním umístění, kontaktujte podporu Microsoftu.
Symbol objektů. Knihovny s více modely
Pokud se ve stejné knihovně použijí dva nebo více natrénovaných modelů, soubor se klasifikuje pomocí modelu, který má nejvyšší průměrné skóre spolehlivosti. Extrahované entity budou pouze z použitého modelu.

Zpracování dokumentů ve volném formátu

Ikona Popis
Symbol souborů. Podporované typy souborů
Tento model podporuje následující typy souborů: viz požadavky na typ souboru.
Symbol konverzace. Podporované jazyky
Tento model podporuje následující jazyky: viz podporované jazyky.
Symbol odstavce. Důležité informace o OCR
Tento model používá technologii optického rozpoznávání znaků (OCR) ke skenování .pdf souborů, souborů obrázků a .tiff souborů. Zpracování OCR funguje nejlépe u dokumentů, které splňují tyto požadavky.
Symbol šířky pásma/efektivity. Tipy pro optimalizaci
Pokud váš model nefunguje tak, jak byste chtěli, zkuste tento postup zlepšit výkon modelu.
Symbol glóbusu. Prostředí Multi-Geo
Při nastavování syntexu v prostředí Microsoft 365 Multi-Geo ho můžete nakonfigurovat tak, aby používal typ modelu pouze v centrálním umístění. Pokud chcete tento typ modelu použít v satelitním umístění, kontaktujte podporu Microsoftu.
Symbol bloků. Vlastní prostředí Power Platform
Pokud pro zpracování power platform používáte vlastní prostředí (místo výchozího prostředí), existují další požadavky na nastavení. Další informace najdete v tématu Vlastní prostředí Power Platform.
Symbol objektů. Knihovny s více modely
Pokud se ve stejné knihovně použijí dva nebo více natrénovaných modelů, soubor se klasifikuje pomocí modelu, který má nejvyšší průměrné skóre spolehlivosti. Extrahované entity budou pouze z použitého modelu. Pro každou knihovnu můžete mít pouze jeden volný formulář nebo jeden strukturovaný model.

Strukturované zpracování dokumentů

Ikona Popis
Symbol souborů. Podporované typy souborů
Tento model podporuje následující typy souborů: viz požadavky na typ souboru.
Symbol konverzace. Podporované jazyky
Tento model podporuje následující jazyky: viz podporované jazyky.
Symbol odstavce. Důležité informace o OCR
Tento model používá technologii optického rozpoznávání znaků (OCR) ke skenování .pdf souborů, souborů obrázků a .tiff souborů. Zpracování OCR funguje nejlépe u dokumentů, které splňují tyto požadavky.
Symbol šířky pásma/efektivity. Tipy pro optimalizaci
Pokud váš model nefunguje tak, jak byste chtěli, zkuste tento postup zlepšit výkon modelu.
Symbol glóbusu. Prostředí Multi-Geo
Při nastavování syntexu v prostředí Microsoft 365 Multi-Geo ho můžete nakonfigurovat tak, aby používal typ modelu pouze v centrálním umístění. Pokud chcete tento typ modelu použít v satelitním umístění, kontaktujte podporu Microsoftu.
Symbol bloků. Vlastní prostředí Power Platform
Pokud pro zpracování power platform používáte vlastní prostředí (místo výchozího prostředí), existují další požadavky na nastavení. Další informace najdete v tématu Vlastní prostředí Power Platform.
Symbol objektů. Knihovny s více modely
Pokud se ve stejné knihovně použijí dva nebo více natrénovaných modelů, soubor se klasifikuje pomocí modelu, který má nejvyšší průměrné skóre spolehlivosti. Extrahované entity budou pouze z použitého modelu. Pro každou knihovnu můžete mít pouze jeden volný formulář nebo jeden strukturovaný model.

Předem připravené modely

Zpracování smlouvy

Ikona Popis
Symbol souborů. Podporované typy souborů
Tento model podporuje následující typy souborů: .bmp, .jpeg, .pdf, .png a .tiff.
Symbol konverzace. Podporované jazyky
Tento model podporuje pouze anglické jazykové kontrakty.
Symbol odstavce. Důležité informace o OCR
Tento model používá technologii optického rozpoznávání znaků (OCR) ke skenování .pdf souborů, souborů obrázků a .tiff souborů. Zpracování OCR funguje nejlépe u dokumentů, které splňují následující požadavky:
- Formát souboru .jpg, .png nebo .pdf (text nebo naskenovaný). Textové .pdf soubory jsou lepší, protože při extrakci a umístění znaků nebudou žádné chyby.
- U .pdf a .tiff souborů je možné zpracovat až 2 000 stránek.
– Velikost souboru musí být menší než 50 MB.
- U obrázků musí být rozměry mezi 50 x 50 a 10 000 x 10 000 pixelů.
- Pro .pdf soubory musí mít rozměry maximálně 11 x 17 palců, což odpovídá formátu papíru Legal nebo A3 a menší.
– Celková velikost trénovacích dat je 500 stránek nebo méně.
Symbol glóbusu. Prostředí Multi-Geo
Při nastavování syntexu v prostředí Microsoft 365 Multi-Geo ho můžete nakonfigurovat tak, aby používal typ modelu pouze v centrálním umístění. Pokud chcete tento typ modelu použít v satelitním umístění, kontaktujte podporu Microsoftu.
Symbol objektů. Knihovny s více modely
Pokud se ve stejné knihovně použijí dva nebo více natrénovaných modelů, soubor se klasifikuje pomocí modelu, který má nejvyšší průměrné skóre spolehlivosti. Extrahované entity budou pouze z použitého modelu.

Zpracování faktur

Ikona Popis
Symbol souborů. Podporované typy souborů
Tento model podporuje následující typy souborů: .bmp, .jpeg, .pdf, .png a .tiff.
Symbol konverzace. Podporované jazyky
Tento model podporuje faktury v angličtině, španělštině, němčině, francouzštině, italštině, portugalštině a holandštině.
Symbol odstavce. Důležité informace o OCR
Tento model používá technologii optického rozpoznávání znaků (OCR) ke skenování .pdf souborů, souborů obrázků a .tiff souborů. Zpracování OCR funguje nejlépe u dokumentů, které splňují následující požadavky:
- Formát souboru .jpg, .png nebo .pdf (text nebo naskenovaný). Textové .pdf soubory jsou lepší, protože při extrakci a umístění znaků nebudou žádné chyby.
- U .pdf a .tiff souborů je možné zpracovat až 2 000 stránek.
– Velikost souboru musí být menší než 50 MB.
- U obrázků musí být rozměry mezi 50 x 50 a 10 000 x 10 000 pixelů.
- Pro .pdf soubory musí mít rozměry maximálně 11 x 17 palců, což odpovídá formátu papíru Legal nebo A3 a menší.
– Celková velikost trénovacích dat je 500 stránek nebo méně.
Symbol glóbusu. Prostředí Multi-Geo
Při nastavování syntexu v prostředí Microsoft 365 Multi-Geo ho můžete nakonfigurovat tak, aby používal typ modelu pouze v centrálním umístění. Pokud chcete tento typ modelu použít v satelitním umístění, kontaktujte podporu Microsoftu.
Symbol objektů. Knihovny s více modely
Pokud se ve stejné knihovně použijí dva nebo více natrénovaných modelů, soubor se klasifikuje pomocí modelu, který má nejvyšší průměrné skóre spolehlivosti. Extrahované entity budou pouze z použitého modelu.

Zpracování příjmu

Ikona Popis
Symbol souborů. Podporované typy souborů
Tento model podporuje následující typy souborů: .bmp, .jpeg, .pdf, .png a .tiff.
Symbol konverzace. Podporované jazyky
Tento model podporuje účtenky v angličtině, češtině, dánštině, holandštině, finštině, němčině, maďarštině, italštině, japonštině, lotyštině, litevštině, norštině, portugalštině, španělštině, švédštině a vietnamštině.
Symbol odstavce. Důležité informace o OCR
Tento model používá technologii optického rozpoznávání znaků (OCR) ke skenování .pdf souborů, souborů obrázků a .tiff souborů. Zpracování OCR funguje nejlépe u dokumentů, které splňují následující požadavky:
- Formát souboru .jpg, .png nebo .pdf (text nebo naskenovaný). Textové .pdf soubory jsou lepší, protože při extrakci a umístění znaků nebudou žádné chyby.
- U .pdf a .tiff souborů je možné zpracovat až 2 000 stránek.
– Velikost souboru musí být menší než 50 MB.
- U obrázků musí být rozměry mezi 50 x 50 a 10 000 x 10 000 pixelů.
- Pro .pdf soubory musí mít rozměry maximálně 11 x 17 palců, což odpovídá formátu papíru Legal nebo A3 a menší.
– Celková velikost trénovacích dat je 500 stránek nebo méně.
Symbol glóbusu. Prostředí Multi-Geo
Při nastavování syntexu v prostředí Microsoft 365 Multi-Geo ho můžete nakonfigurovat tak, aby používal typ modelu pouze v centrálním umístění. Pokud chcete tento typ modelu použít v satelitním umístění, kontaktujte podporu Microsoftu.
Symbol objektů. Knihovny s více modely
Pokud se ve stejné knihovně použijí dva nebo více natrénovaných modelů, soubor se klasifikuje pomocí modelu, který má nejvyšší průměrné skóre spolehlivosti. Extrahované entity budou pouze z použitého modelu.

Zpracování citlivých informací

Ikona Popis
Symbol souborů. Podporované typy souborů
Tento model podporuje následující typy souborů: .csv, .doc, .docx, .eml, .heic, .heif, .htm, .html, .jpeg, .jpg, .md, .msg, .pdf, .png, .ppt, .pptx, .rtf, .tif, .tiff, .txt, .xls a .xlsx.
Symbol konverzace. Podporované jazyky
Tento model podporuje následující jazyky: viz podporované jazyky.
Tento model také podporuje jazyky pro ručně psaný itištěný text.
Symbol odstavce. Důležité informace o OCR
Tento model používá technologii optického rozpoznávání znaků (OCR) ke skenování .pdf souborů, souborů obrázků a .tiff souborů. Zpracování OCR funguje nejlépe u dokumentů, které splňují následující požadavky:
- Formát souboru .jpg, .png nebo .pdf (text nebo naskenovaný). Textové .pdf soubory jsou lepší, protože při extrakci a umístění znaků nebudou žádné chyby.
- U .pdf a .tiff souborů je možné zpracovat až 2 000 stránek.
– Velikost souboru musí být menší než 50 MB.
- U obrázků musí být rozměry mezi 50 x 50 a 10 000 x 10 000 pixelů.
- Pro .pdf soubory musí mít rozměry maximálně 11 x 17 palců, což odpovídá formátu papíru Legal nebo A3 a menší.
– Celková velikost trénovacích dat je 500 stránek nebo méně.
Podporuje jazyky pro ručně psaný itištěný text.
Symbol glóbusu. Prostředí Multi-Geo
Při nastavování syntexu v prostředí Microsoft 365 Multi-Geo ho můžete nakonfigurovat tak, aby používal typ modelu pouze v centrálním umístění. Pokud chcete tento typ modelu použít v satelitním umístění, kontaktujte podporu Microsoftu.
Symbol objektů. Knihovny s více modely
Pokud se ve stejné knihovně použijí dva nebo více natrénovaných modelů, soubor se klasifikuje pomocí modelu, který má nejvyšší průměrné skóre spolehlivosti. Extrahované entity budou pouze z použitého modelu.