Что такое Аналитика документов Azure?
Подсказка
Дополнительные сведения см. на вкладке "Текст и изображения ".
Аналитика документов Azure — это облачная служба искусственного интеллекта в Microsoft Foundry, которая использует модели OCR и глубокого обучения для извлечения текста, пар "ключ-значение", меток выделения и таблиц из документов.
OCR фиксирует структуру документа, создавая ограничивающие прямоугольники вокруг обнаруженных объектов на изображении. Расположения ограничивающих прямоугольников записываются в виде координат относительно остальной части страницы. Аналитика документов Azure возвращает данные ограничивающих рамок и другие сведения в структурированном формате JSON, который сохраняет отношения исходного документа.
Для создания модели извлечения документов с нуля требуется опыт глубокого обучения, большие объемы вычислений и длительное время обучения. Аналитика документов Azure предоставляет базовые модели, уже обученные по тысячам примеров форм, чтобы обеспечить высокую точность извлечения данных с минимальными усилиями.
Компоненты службы аналитики документов
Аналитика документов Azure состоит из трех категорий моделей:
Модели анализа документов: извлечение текста, структуры, таблиц и меток выделения из документов. Модель чтения текста извлекает текст и обнаруживает языки, а модель структурирования обеспечивает извлечение таблиц и структур. Вы подробно изучите эти модели в модуле "Использование предварительно созданных моделей ".
Предварительно созданные модели: извлечение сведений из распространенных типов документов , таких как счета, квитанции, налоговые формы, документы идентификатора и многое другое — без каких-либо необходимых учебных средств. Вы увидите полный список доступных готовых моделей в модуле "Использование предварительно созданных моделей ".
Пользовательские модели: Извлекайте данные из форм, адаптированных под ваш бизнес, используя собственные промаркированные наборы данных. К ним относятся пользовательские модели шаблонов (быстрые и экономичные для фиксированных макетов), пользовательские нейронные модели (более высокая точность для различных макетов), составные модели и пользовательские классификаторы. Вы узнаете об обучении и использовании пользовательских моделей в модуле обучения и использовании пользовательских моделей .
Доступ к службам аналитики документов
Доступ к аналитике документов Azure можно получить несколькими способами:
- REST API: вызовите службу непосредственно с помощью HTTP-запросов.
- Пакеты SDK для клиентской библиотеки: используйте пакеты SDK для Python, C#, Java и JavaScript.
- Document Intelligence Studio: онлайн-средство для визуального изучения, тестирования и создания решений аналитики документов.
- Портал Microsoft Foundry: интеграция аналитики документов с другими средствами Foundry.
Подсказка
Упражнение этого модуля посвящено пакету SDK для Python. Базовые службы REST могут использоваться любым языком.
Создание ресурса аналитики документов
Для использования аналитики документов Azure требуется ресурс Azure. Можно использовать следующее:
- Ресурс Foundry: многосервисная подписка, предоставляющая доступ к нескольким ИИ службам через одну конечную точку и ключ.
- Ресурс аналитики документов Azure: одиночный ресурс, используемый только с аналитикой документов.
Замечание
Создайте ресурс Foundry, если планируется получить доступ к нескольким средствам Foundry в одной конечной точке и ключе. Только для доступа к аналитике документов создайте выделенный ресурс аналитики документов.
Требования к входным данным
Аналитика документов Azure работает с входными документами, которые соответствуют этим требованиям:
- Формат должен быть JPEG, PNG, BMP, PDF (текст или сканированный) или TIFF. Модель чтения также принимает форматы файлов Microsoft Office.
- Размер файла должен быть меньше 500 МБ для уровня "Стандартный" и 4 МБ для уровня "Бесплатный".
- Изображения должны иметь размеры в пределах от 50 x 50 до 10 000 x 10 000 пикселей.
- Документы PDF должны иметь размеры менее 17 x 17 дюймов (размер бумаги A3).
- Документы PDF не должны быть защищены паролем.