Dokumentumintelligencia-olvasási modell
Fontos
- A Document Intelligence nyilvános előzetes verziójú kiadásai korai hozzáférést biztosítanak az aktív fejlesztés alatt lévő funkciókhoz. A funkciók, a megközelítések és a folyamatok az általános rendelkezésre állás (GA) előtt változhatnak a felhasználói visszajelzések alapján.
- A Document Intelligence ügyfélkódtárak nyilvános előzetes verziója alapértelmezés szerint a REST API 2024-07-31-preview verziója.
- A nyilvános előzetes verzió 2024-07-31 előzetes verziója jelenleg csak a következő Azure-régiókban érhető el. Vegye figyelembe, hogy az AI Studio egyéni generatív (dokumentummező-kinyerési) modellje csak az USA északi középső régiójában érhető el:
- USA keleti régiója
- USA2 nyugati régiója
- Nyugat-Európa
- USA északi középső régiója
Ez a tartalom a következőre vonatkozik: v4.0 (előzetes verzió) | Korábbi verziók: v3.1 (GA) v3.0 (GA)
Ez a tartalom a következőre vonatkozik: v4.0 (előzetes verzió) | Korábbi verziók: v3.1 (GA) v3.0 (GA)
Feljegyzés
Ha szöveget szeretne kinyerni külső képekből, például címkékből, utcatáblákból és plakátokból, használja az Azure AI Image Analysis v4.0 Olvasás funkcióját, amely általános, nem dokumentumalapú képekhez van optimalizálva egy teljesítmény-továbbfejlesztett szinkron API-val, amely megkönnyíti az OCR beágyazását a felhasználói élmény forgatókönyveibe.
A Dokumentumintelligencia olvasási optikai karakterfelismerési (OCR) modell nagyobb felbontásban fut, mint az Azure AI Vision Read, és kinyomtatja és kézzel írt szöveget nyer ki PDF-dokumentumokból és beolvasott képekből. Emellett támogatja a Microsoft Word-, Excel-, PowerPoint- és HTML-dokumentumokból történő szövegkigyűjtést is. Észleli a bekezdéseket, szövegsorokat, szavakat, helyeket és nyelveket. Az olvasási modell a dokumentumintelligencia egyéb előre összeállított modelljeinek (például az Elrendezés, Az Általános dokumentum, a Számla, a Nyugta, az Identitás (ID) dokumentum, az Állapotbiztosítási kártya és a W2 alapjául szolgáló OCR-motor az egyéni modelleken kívül.
Mi az optikai karakterfelismerés?
A dokumentumok optikai karakterfelismerése (OCR) több fájlformátumban és globális nyelven nagy méretű, szövegigényes dokumentumokhoz van optimalizálva. Olyan funkciókat tartalmaz, mint a dokumentumképek nagyobb felbontású vizsgálata a kisebb és sűrűbb szövegek jobb kezelése érdekében; bekezdésészlelés; és kitölthető űrlapkezelés. Az OCR-képességek olyan speciális forgatókönyveket is tartalmaznak, mint az egykarakterek, valamint a számlákban, nyugtákban és egyéb előre összeállított forgatókönyvekben gyakran használt kulcsmezők pontos kinyerése.
Fejlesztési lehetőségek (v4)
A Document Intelligence v4.0 (2024-07-31-preview) a következő eszközöket, alkalmazásokat és kódtárakat támogatja:
Szolgáltatás | Források | Modellazonosító |
---|---|---|
OCR-modell olvasása | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
előre összeállított olvasás |
Bemeneti követelmények (v4)
Támogatott fájlformátumok:
Modell PDF Kép: JPEG/JPG
,PNG
,BMP
,TIFF
HEIF
Microsoft Office:
Word (DOCX
), Excel (XLSX
), PowerPoint (PPTX
), HTMLOlvasás ✔ ✔ ✔ Elrendezés ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview) Általános dokumentum ✔ ✔ Előre összeállított ✔ ✔ Egyéni kinyerés ✔ ✔ Egyéni besorolás ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview) A legjobb eredmény érdekében dokumentumonként egy tiszta fényképet vagy kiváló minőségű vizsgálatot biztosít.
PDF és TIFF esetén legfeljebb 2000 oldal dolgozható fel (ingyenes szintű előfizetéssel csak az első két oldal dolgozható fel).
A dokumentumok elemzéséhez használt fájlméret 500 MB a fizetős (S0) szint, az
4
ingyenes (F0) szint esetén pedig MB.A képméreteknek 50 képpont x 50 képpont és 10 000 képpont x 10 000 képpont között kell lenniük.
Ha a PDF-eket jelszó védi, akkor beküldés előtt el kell távolítania a védelmet.
A kinyerni kívánt szöveg minimális magassága 12 képpont egy 1024 x 768 képpontos képhez. Ez a dimenzió körülbelül
8
150 pont/hüvelyk (DPI) pontszövegnek felel meg.Egyéni modell betanítása esetén a betanítási adatok oldalainak maximális száma az egyéni sablonmodell esetében 500, az egyéni neurális modell esetében pedig 50 000.
Egyéni extrakciós modell betanítása esetén a betanítási adatok teljes mérete 50 MB a sablonmodellhez, a neurális modellhez pedig
1
GB.Egyéni besorolási modell betanítása esetén a betanítási adatok
1
teljes mérete GB, legfeljebb 10 000 oldal. A 2024-07-31-es és újabb verziókban a betanítási adatok2
teljes mérete GB, legfeljebb 10 000 oldal.
Ismerkedés az olvasási modellel (v4)
Próbáljon meg szöveget kinyerni űrlapokból és dokumentumokból a Document Intelligence Studióval. A következő eszközökre van szüksége:
Azure-előfizetés – ingyenesen létrehozhat egyet.
Dokumentumintelligencia-példány az Azure Portalon. A szolgáltatás kipróbálásához használhatja az ingyenes tarifacsomagot (
F0
). Az erőforrás üzembe helyezése után válassza az Ugrás az erőforráshoz lehetőséget a kulcs és a végpont lekéréséhez.
Feljegyzés
A Document Intelligence Studio jelenleg nem támogatja a Microsoft Word, Excel, PowerPoint és HTML fájlformátumokat.
A Document Intelligence Studióval feldolgozott mintadokumentum
A Document Intelligence Studio kezdőlapján válassza az Olvasás lehetőséget.
Elemezheti a mintadokumentumot, vagy feltöltheti saját fájljait.
Válassza az Elemzés futtatása gombot, és szükség esetén konfigurálja az Elemzési beállításokat:
Támogatott nyelvek és területi beállítások (v4)
A támogatott nyelvek teljes listáját a Nyelvi támogatás – dokumentumelemzési modellek oldalon találja.
Adatkinyerés (v4)
Feljegyzés
A Microsoft Word- és HTML-fájlokat a 4.0-s verzió támogatja. A PDF-hez és a képekhez képest az alábbi funkciók nem támogatottak:
- Nincs szög, szélesség/magasság és egység az egyes oldalobjektumokkal.
- Minden észlelt objektum esetében nincs határoló sokszög vagy határoló régió.
- Az oldaltartomány (
pages
) paraméterként nem támogatott. - Nincs
lines
objektum.
Kereshető PDF-fájlok
A kereshető PDF-funkcióval analóg PDF-fájlokat, például beolvasott PDF-fájlokat konvertálhat beágyazott szöveggel rendelkező PDF-fájllá. A beágyazott szöveg lehetővé teszi a részletes szövegkeresést a PDF kinyert tartalmában az észlelt szöveges entitások képfájlokra való felülírásával.
Fontos
- A kereshető PDF-funkciót jelenleg csak a Read OCR-modell
prebuilt-read
támogatja. A funkció használatakor adja meg amodelId
következőtprebuilt-read
, mivel más modelltípusok hibát adnak vissza ehhez az előzetes verzióhoz. - A kereshető PDF a 2024-07-31 előzetes verziójú
prebuilt-read
modell részét képezi, és nincs további költség a kereshető PDF-kimenet létrehozásához.- A kereshető PDF jelenleg csak bemenetként támogatja a PDF-fájlokat. A többi fájltípus, például a képfájlok támogatása később is elérhető lesz.
Kereshető PDF-fájlok használata
A kereshető PDF használatához küldjön egy kérést POST
a Analyze
művelettel, és adja meg a kimeneti formátumot a következő módon pdf
:
POST /documentModels/prebuilt-read:analyze?output=pdf
{...}
202
A művelet befejezésének lekérdezése Analyze
. A művelet befejezése után küldjön egy kérést GET
a művelet eredményeinek PDF-formátumának lekérésére Analyze
.
A sikeres befejezés után a PDF lekérhető és letölthető a következő formátumban application/pdf
: . Ez a művelet lehetővé teszi a PDF beágyazott szöveges formájának közvetlen letöltését a Base64 kódolású JSON helyett.
// Monitor the operation until completion.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}
200
{...}
// Upon successful completion, retrieve the PDF as application/pdf.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
200 OK
Content-Type: application/pdf
Pages paraméter
A lapgyűjtemény a dokumentum lapjainak listája. Minden oldal egymás után jelenik meg a dokumentumban, és tartalmazza a tájolási szöget, amely azt jelzi, hogy az oldal elforgatva van-e, valamint a szélességet és a magasságot (képpontban megadott méretek). A modell kimenetének oldalegységei az alábbi módon lesznek kiszámítva:
Fájlformátum | Számított oldalegység | Összes oldal |
---|---|---|
Képek (JPEG/JPG, PNG, BMP, HEIF) | Minden kép = 1 oldalegység | Összes kép |
A PDF minden oldala = 1 oldalegység | A PDF összes oldala | |
ÖSSZETŰZÉS | A TIFF minden képe = 1 oldal | Összes kép a TIFF-ben |
Word (DOCX) | Legfeljebb 3000 karakter = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak | Legfeljebb 3000 karakter hosszúságú oldalak összesen |
Excel (XLSX) | Minden munkalap = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak | Munkalapok összesen |
PowerPoint (PPTX) | Minden dia = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak | Összes dia |
HTML | Legfeljebb 3000 karakter = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak | Legfeljebb 3000 karakter hosszúságú oldalak összesen |
# Analyze pages.
for page in result.pages:
print(f"----Analyzing document from page #{page.page_number}----")
print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")
Lapok használata szövegkinyeréshez
Nagyméretű, többoldalas PDF-dokumentumok esetén a pages
lekérdezési paraméterrel konkrét oldalszámokat vagy oldaltartományokat jelölhet a szöveg kinyeréséhez.
Bekezdés kinyerése
A Dokumentumintelligencia olvasási OCR-modellje a gyűjteményben lévő összes azonosított szövegblokkot legfelső szintű objektumként analyzeResults
nyeri ki.paragraphs
A gyűjtemény minden bejegyzése egy szövegblokkot jelöl, és tartalmazza a kinyert szöveget éscontent
a határoló polygon
koordinátákat. Az span
információk a dokumentum teljes szövegét tartalmazó legfelső szintű content
tulajdonság szövegtöredékére mutatnak.
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
}
]
Szöveg, sorok és szavak kinyerése
A Read OCR modell kinyeri a nyomtatási és a kézzel írt stílusszöveget.lines
words
A modell a koordinátákat és confidence
a kinyert szavakat adja polygon
ki. A styles
gyűjtemény tartalmaz minden kézzel írt stílust a vonalakhoz, ha észlelik, valamint a társított szövegre mutató spanokat. Ez a funkció a támogatott kézzel írt nyelvekre vonatkozik.
A Microsoft Word, Az Excel, a PowerPoint és a HTML esetében a Dokumentumintelligencia-olvasási modell 3.1-s és újabb verziói az összes beágyazott szöveget kinyerik. A szövegek szavakként és bekezdésekként vannak extratolva. A beágyazott képek nem támogatottak.
# Analyze lines.
if page.lines:
for line_idx, line in enumerate(page.lines):
words = get_words(page, line)
print(
f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{line.polygon}'"
)
# Analyze words.
for word in words:
print(f"......Word '{word.content}' has a confidence of {word.confidence}")
Kézzel írt stílus kinyerése
A válasz magában foglalja annak besorolását, hogy az egyes szövegsorok kézírásstílusúak-e vagy sem, valamint egy megbízhatósági pontszámot. További információ: kézzel írt nyelvi támogatás. Az alábbi példa egy JSON-kódrészletet mutat be.
"styles": [
{
"confidence": 0.95,
"spans": [
{
"offset": 509,
"length": 24
}
"isHandwritten": true
]
}
Ha engedélyezte a betűtípus-/stílus hozzáadása funkciót, az objektum részeként is megkapja a styles
betűtípus/stílus eredményét.
Következő lépések v4.0
Végezze el a dokumentumintelligencia gyorsútmutatóját:
Ismerkedjen meg a REST API-val:
További minták keresése a GitHubon:
Ez a tartalom a következőre vonatkozik: v3.1 (GA) | Legújabb verzió: v4.0 (előzetes verzió) | Korábbi verziók: 3.0-s verzió
Ez a tartalom a következő verziókra vonatkozik: v3.0 (GA) | Legújabb verziók: v4.0 (előzetes verzió) v3.1
Feljegyzés
Ha szöveget szeretne kinyerni külső képekből, például címkékből, utcatáblákból és plakátokból, használja az Azure AI Image Analysis v4.0 Olvasás funkcióját, amely általános, nem dokumentumalapú képekhez van optimalizálva egy teljesítmény-továbbfejlesztett szinkron API-val, amely megkönnyíti az OCR beágyazását a felhasználói élmény forgatókönyveibe.
A Dokumentumintelligencia olvasási optikai karakterfelismerési (OCR) modell nagyobb felbontásban fut, mint az Azure AI Vision Read, és kinyomtatja és kézzel írt szöveget nyer ki PDF-dokumentumokból és beolvasott képekből. Emellett támogatja a Microsoft Word-, Excel-, PowerPoint- és HTML-dokumentumokból történő szövegkigyűjtést is. Észleli a bekezdéseket, szövegsorokat, szavakat, helyeket és nyelveket. Az olvasási modell a dokumentumintelligencia egyéb előre összeállított modelljeinek (például az Elrendezés, Az Általános dokumentum, a Számla, a Nyugta, az Identitás (ID) dokumentum, az Állapotbiztosítási kártya és a W2 alapjául szolgáló OCR-motor az egyéni modelleken kívül.
Mi az OCR a dokumentumokhoz?
A dokumentumok optikai karakterfelismerése (OCR) több fájlformátumban és globális nyelven nagy méretű, szövegigényes dokumentumokhoz van optimalizálva. Olyan funkciókat tartalmaz, mint a dokumentumképek nagyobb felbontású vizsgálata a kisebb és sűrűbb szövegek jobb kezelése érdekében; bekezdésészlelés; és kitölthető űrlapkezelés. Az OCR-képességek olyan speciális forgatókönyveket is tartalmaznak, mint az egykarakterek, valamint a számlákban, nyugtákban és egyéb előre összeállított forgatókönyvekben gyakran használt kulcsmezők pontos kinyerése.
Fejlesztési lehetőségek
A Document Intelligence v3.1 a következő eszközöket, alkalmazásokat és kódtárakat támogatja:
Szolgáltatás | Források | Modellazonosító |
---|---|---|
OCR-modell olvasása | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
előre összeállított olvasás |
A Document Intelligence 3.0-s verzió a következő eszközöket, alkalmazásokat és kódtárakat támogatja:
Szolgáltatás | Források | Modellazonosító |
---|---|---|
OCR-modell olvasása | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
előre összeállított olvasás |
Bemeneti követelmények
Támogatott fájlformátumok:
Modell PDF Kép: JPEG/JPG
,PNG
,BMP
,TIFF
HEIF
Microsoft Office:
Word (DOCX
), Excel (XLSX
), PowerPoint (PPTX
), HTMLOlvasás ✔ ✔ ✔ Elrendezés ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview) Általános dokumentum ✔ ✔ Előre összeállított ✔ ✔ Egyéni kinyerés ✔ ✔ Egyéni besorolás ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview) A legjobb eredmény érdekében dokumentumonként egy tiszta fényképet vagy kiváló minőségű vizsgálatot biztosít.
PDF és TIFF esetén legfeljebb 2000 oldal dolgozható fel (ingyenes szintű előfizetéssel csak az első két oldal dolgozható fel).
A dokumentumok elemzéséhez használt fájlméret 500 MB a fizetős (S0) szint, az
4
ingyenes (F0) szint esetén pedig MB.A képméreteknek 50 képpont x 50 képpont és 10 000 képpont x 10 000 képpont között kell lenniük.
Ha a PDF-eket jelszó védi, akkor beküldés előtt el kell távolítania a védelmet.
A kinyerni kívánt szöveg minimális magassága 12 képpont egy 1024 x 768 képpontos képhez. Ez a dimenzió körülbelül
8
150 pont/hüvelyk (DPI) pontszövegnek felel meg.Egyéni modell betanítása esetén a betanítási adatok oldalainak maximális száma az egyéni sablonmodell esetében 500, az egyéni neurális modell esetében pedig 50 000.
Egyéni extrakciós modell betanítása esetén a betanítási adatok teljes mérete 50 MB a sablonmodellhez, a neurális modellhez pedig
1
GB.Egyéni besorolási modell betanítása esetén a betanítási adatok
1
teljes mérete GB, legfeljebb 10 000 oldal. A 2024-07-31-es és újabb verziókban a betanítási adatok2
teljes mérete GB, legfeljebb 10 000 oldal.
Ismerkedés az olvasási modellel
Próbáljon meg szöveget kinyerni űrlapokból és dokumentumokból a Document Intelligence Studióval. A következő eszközökre van szüksége:
Azure-előfizetés – ingyenesen létrehozhat egyet.
Dokumentumintelligencia-példány az Azure Portalon. A szolgáltatás kipróbálásához használhatja az ingyenes tarifacsomagot (
F0
). Az erőforrás üzembe helyezése után válassza az Ugrás az erőforráshoz lehetőséget a kulcs és a végpont lekéréséhez.
Feljegyzés
A Document Intelligence Studio jelenleg nem támogatja a Microsoft Word, Excel, PowerPoint és HTML fájlformátumokat.
A Document Intelligence Studióval feldolgozott mintadokumentum
A Document Intelligence Studio kezdőlapján válassza az Olvasás lehetőséget.
Elemezheti a mintadokumentumot, vagy feltöltheti saját fájljait.
Válassza az Elemzés futtatása gombot, és szükség esetén konfigurálja az Elemzési beállításokat:
Támogatott nyelvek és területi beállítások
A támogatott nyelvek teljes listáját a Nyelvi támogatás – dokumentumelemzési modellek oldalon találja.
Adatkinyerés
Feljegyzés
A Microsoft Word- és HTML-fájlokat a 3.1-s és újabb verziók támogatják. A PDF-hez és a képekhez képest az alábbi funkciók nem támogatottak:
- Nincs szög, szélesség/magasság és egység az egyes oldalobjektumokkal.
- Minden észlelt objektum esetében nincs határoló sokszög vagy határoló régió.
- Az oldaltartomány (
pages
) paraméterként nem támogatott. - Nincs
lines
objektum.
Kereshető PDF
A kereshető PDF-funkcióval analóg PDF-fájlokat, például beolvasott PDF-fájlokat konvertálhat beágyazott szöveggel rendelkező PDF-fájllá. A beágyazott szöveg lehetővé teszi a részletes szövegkeresést a PDF kinyert tartalmában az észlelt szöveges entitások képfájlokra való felülírásával.
Fontos
- A kereshető PDF-funkciót jelenleg csak a Read OCR-modell
prebuilt-read
támogatja. A funkció használatakor adja meg amodelId
következőtprebuilt-read
, mivel más modelltípusok hibát adnak vissza ehhez az előzetes verzióhoz. - A kereshető PDF a 2024-07-31 előzetes verziójú
prebuilt-read
modell részét képezi, és nincs további költség a kereshető PDF-kimenet létrehozásához.- A kereshető PDF jelenleg csak bemenetként támogatja a PDF-fájlokat. A többi fájltípus, például a képfájlok támogatása később is elérhető lesz.
Kereshető PDF használata
A kereshető PDF használatához küldjön egy kérést POST
a Analyze
művelettel, és adja meg a kimeneti formátumot a következő módon pdf
:
POST /documentModels/prebuilt-read:analyze?output=pdf
{...}
202
A művelet befejezésének lekérdezése Analyze
. A művelet befejezése után küldjön egy kérést GET
a művelet eredményeinek PDF-formátumának lekérésére Analyze
.
A sikeres befejezés után a PDF lekérhető és letölthető a következő formátumban application/pdf
: . Ez a művelet lehetővé teszi a PDF beágyazott szöveges formájának közvetlen letöltését a Base64 kódolású JSON helyett.
// Monitor the operation until completion.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}
200
{...}
// Upon successful completion, retrieve the PDF as application/pdf.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
200 OK
Content-Type: application/pdf
Oldalak
A lapgyűjtemény a dokumentum lapjainak listája. Minden oldal egymás után jelenik meg a dokumentumban, és tartalmazza a tájolási szöget, amely azt jelzi, hogy az oldal elforgatva van-e, valamint a szélességet és a magasságot (képpontban megadott méretek). A modell kimenetének oldalegységei az alábbi módon lesznek kiszámítva:
Fájlformátum | Számított oldalegység | Összes oldal |
---|---|---|
Képek (JPEG/JPG, PNG, BMP, HEIF) | Minden kép = 1 oldalegység | Összes kép |
A PDF minden oldala = 1 oldalegység | A PDF összes oldala | |
ÖSSZETŰZÉS | A TIFF minden képe = 1 oldal | Összes kép a TIFF-ben |
Word (DOCX) | Legfeljebb 3000 karakter = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak | Legfeljebb 3000 karakter hosszúságú oldalak összesen |
Excel (XLSX) | Minden munkalap = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak | Munkalapok összesen |
PowerPoint (PPTX) | Minden dia = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak | Összes dia |
HTML | Legfeljebb 3000 karakter = 1 oldalegység, beágyazott vagy csatolt képek nem támogatottak | Legfeljebb 3000 karakter hosszúságú oldalak összesen |
"pages": [
{
"pageNumber": 1,
"angle": 0,
"width": 915,
"height": 1190,
"unit": "pixel",
"words": [],
"lines": [],
"spans": []
}
]
# Analyze pages.
for page in result.pages:
print(f"----Analyzing document from page #{page.page_number}----")
print(
f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
)
Oldalak kijelölése szövegkinyeréshez
Nagyméretű, többoldalas PDF-dokumentumok esetén a pages
lekérdezési paraméterrel konkrét oldalszámokat vagy oldaltartományokat jelölhet a szöveg kinyeréséhez.
Bekezdések
A Dokumentumintelligencia olvasási OCR-modellje a gyűjteményben lévő összes azonosított szövegblokkot legfelső szintű objektumként analyzeResults
nyeri ki.paragraphs
A gyűjtemény minden bejegyzése egy szövegblokkot jelöl, és tartalmazza a kinyert szöveget éscontent
a határoló polygon
koordinátákat. Az span
információk a dokumentum teljes szövegét tartalmazó legfelső szintű content
tulajdonság szövegtöredékére mutatnak.
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
}
]
Szöveg, sorok és szavak
A Read OCR modell kinyeri a nyomtatási és a kézzel írt stílusszöveget.lines
words
A modell a koordinátákat és confidence
a kinyert szavakat adja polygon
ki. A styles
gyűjtemény tartalmaz minden kézzel írt stílust a vonalakhoz, ha észlelik, valamint a társított szövegre mutató spanokat. Ez a funkció a támogatott kézzel írt nyelvekre vonatkozik.
A Microsoft Word, Az Excel, a PowerPoint és a HTML esetében a Dokumentumintelligencia-olvasási modell 3.1-s és újabb verziói az összes beágyazott szöveget kinyerik. A szövegek szavakként és bekezdésekként vannak extratolva. A beágyazott képek nem támogatottak.
"words": [
{
"content": "While",
"polygon": [],
"confidence": 0.997,
"span": {}
},
],
"lines": [
{
"content": "While healthcare is still in the early stages of its Al journey, we",
"polygon": [],
"spans": [],
}
]
# Analyze lines.
for line_idx, line in enumerate(page.lines):
words = line.get_words()
print(
f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{format_polygon(line.polygon)}'"
)
# Analyze words.
for word in words:
print(
f"......Word '{word.content}' has a confidence of {word.confidence}"
)
Kézzel írt stílus szövegsorokhoz
A válasz magában foglalja annak besorolását, hogy az egyes szövegsorok kézírásstílusúak-e vagy sem, valamint egy megbízhatósági pontszámot. További információ: kézzel írt nyelvi támogatás. Az alábbi példa egy JSON-kódrészletet mutat be.
"styles": [
{
"confidence": 0.95,
"spans": [
{
"offset": 509,
"length": 24
}
"isHandwritten": true
]
}
Ha engedélyezte a betűtípus-/stílus hozzáadása funkciót, az objektum részeként is megkapja a styles
betűtípus/stílus eredményét.
Következő lépések
Végezze el a dokumentumintelligencia gyorsútmutatóját:
Ismerkedjen meg a REST API-val:
További minták keresése a GitHubon: