Поделиться через


DocumentPage Класс

Элементы содержимого и макета, извлеченные из страницы входных данных.

Новые возможности в версии 2023-07-31: свойства штрихкодов и формул .

Наследование
builtins.object
DocumentPage

Конструктор

DocumentPage(**kwargs: Any)

Методы

from_dict

Преобразует дикт в форме DocumentPage в саму модель.

to_dict

Возвращает представление DocumentPage из диктовки.

from_dict

Преобразует дикт в форме DocumentPage в саму модель.

from_dict(data: Dict) -> DocumentPage

Параметры

data
dict
Обязательно

Словарь в форме DocumentPage.

Возвращаемое значение

DocumentPage

Возвращаемый тип

to_dict

Возвращает представление DocumentPage из диктовки.

to_dict() -> Dict

Возвращаемое значение

dict

Возвращаемый тип

Атрибуты

angle

Общая ориентация содержимого по часовой стрелке, измеряемая в градусах между (-180, 180].

angle: float | None

barcodes

Извлеченные штрихкоды со страницы.

barcodes: List[DocumentBarcode]

formulas

Извлеченные формулы со страницы

formulas: List[DocumentFormula]

height

Высота изображения/PDF в пикселях/дюймах соответственно.

height: float | None

lines

Извлеченные строки со страницы, потенциально содержащие как текстовые, так и визуальные элементы.

lines: List[DocumentLine]

page_number

1-й номер страницы во входном документе.

page_number: int

selection_marks

Извлеченные метки выбора со страницы.

selection_marks: List[DocumentSelectionMark]

spans

Расположение страницы в сцепленном содержимом в порядке чтения.

spans: List[DocumentSpan]

unit

Единица измерения, используемая свойствами ширины, высоты и ограничивающего многоугольника. Для изображений используется единица измерения "пиксель". Для PDF единица измерения — "дюйм". Возможные значения: "пиксель", "дюйм".

unit: str | None

width

Ширина изображения/PDF в пикселях/дюймах соответственно.

width: float | None

words

Извлеченные слова со страницы.

words: List[DocumentWord]