Поделиться через


Обзор форматов XML-файлов в версии 2007 системы Office

Обновлено: Январь 2009

Назначение: Office Resource Kit

 

Последнее изменение раздела: 2009-01-07

Выпуск 2007 системы Microsoft Office представляет новые XML-форматы файлов на основе новых стандартов. Новые форматы позволяют быстро создавать документы из раздельных источников данных, ускоряют сбор документов, поиск данных и повторное использование содержимого. XML-форматы упрощают обмен данными между приложениями в Выпуск 2007 системы Office и корпоративных деловых системах.

Вы можете создать документ в новом XML-формате с помощью любого стандартного инструмента и технологии − использование Выпуск 2007 системы Office не требуется. Пользователи могут увеличить продуктивность, публикуя, находя и используя информацию более быстро и точно в любом выбранном окружении.

Новые XML-форматы созданы на основе эталонных технологий XML и ZIP, они позволяют осуществить полную интеграцию с любым поставщиком технологий и доступны по бесплатной лицензии. Спецификации XML-формата будут опубликованы и станут доступны по той же бесплатной лицензии, что существует для Microsoft Office 2003 Reference Schemas, будут распространяться открыто и доступно для широкого промышленного использования.

Преимущества новых XML-форматов файлов

Новые XML-форматы имеют ряд преимуществ для разработчиков, профессионалов в сфере IT и пользователей. В их числе можно назвать следующие:

  • Компактный формат файлов. Документы автоматически сжимаются, теряя до 75 процентов размера.

  • Улучшенное восстановление поврежденных файлов. Модульное хранение данных позволяет открывать файлы, даже если какой-либо компонент файла, такой как график или таблица, поврежден.

  • Повышенная безопасность документов. Встроенный код, такой как объекты OLE или код Microsoft Visual Basic для приложений (VBA), хранится в отдельной части файла, так что он легко определяется для специальной обработки. Администраторы могут блокировать документы, содержащие нежелательные макросы или элементы управления, что делает документы безопасней для пользователей, их открывающих.

  • Улучшенная интеграция. У разработчиков есть прямой доступ к особому содержимому файла, такому как графики, комментарии и метаданные документа.

  • Прозрачность и повышенная защищенность информации. Можно работать над документами совместно, соблюдая конфиденциальность, поскольку сведения личного характера и сведения, связанные с деятельностью организации, такие как имена авторов, комментарии, отслеженные исправления и пути к файлам могут быть легко обнаружены и удалены.

  • Совместимость. Установив простое обновление, пользователи Microsoft Office 2000, Microsoft Office XP и Office 2003 смогут открывать, редактировать и сохранять документы в одном из новых XML-форматов.

Структура новых XML-форматов файлов

Основная структура файлов всех XML-форматов в Выпуск 2007 системы Office состоит из пяти элементов:

  • Начальная часть. Высшая по порядку часть в иерархии.

  • Части XML. Файлы или папки, состоящие из XML, отображающего содержимое файла.

  • Части не-XML. Части, которые не являются XML и которые, как правило, представляют собой изображения или объекты OLE.

  • Часть отношений.Тип части, указывающий на другие части для определения относительно иерархии в структуре частей.

  • ZIP-архив. Объединяет части в один файл.

Начальная часть

Начальная часть, часть XML, являющаяся частью отношений и рассматривающаяся как высшая часть файла, определяет тип файла. К примеру, если именем основного контейнера будет WordDoc, расширением файла будет DOCX.

Части XML

Когда форматированный XML-файл Office сохраняется в Выпуск 2007 системы Office, файл делится на несколько логических частей, которые описывают весь файл. Для Office Word 2007 разделение файла на эти части позволяет проще изменять или обращаться с запросами к файлу вне первичного приложения Office.

Например, для разработчика стало легче удалять свойства документа из файла, поскольку теперь свойства помещаются в отдельную часть, которую можно удалить из контейнера документа. При использовании WordprocessingML (предоставленного в качестве опционального XML-формата файлов в Microsoft Office 2003) удаление комментариев означало разбор всего файла для поиска и удаления XML, ответственного за наполнение комментариев. При использовании нового формата файлов данные, связанные с компонентами, делятся на части. Комментарии, ссылки, заголовки, колонтитулы и другие данные находятся в удаляемых отдельных частях документа. Нет необходимости в разборе всего документа Word.

Части не-XML

Части не-XML как правило представляют собой изображения и объекты OLE. Любой тип файлов, использующий двоичное содержимое и не использующий XML, определяется как не-XML. Части не-XML чаще всего являются файлом, присоединенным к документу или встроенным в него. В документации схемы формата XML Office Word 2007 объясняются буквальные отношения и схема иерархии, используемая Word для файлов такого типа.

Часть отношений

Часть отношений является частью XML, указывающей на другие части и определяющей относительную иерархию частей. Большинство частей XML высокого уровня являются частями отношений. Части XML, содержащие данные и не указывающие на другие части, также называются примитивами и обычно представляют собой тип содержимого приложения.

ZIP-архив

Использование ZIP-архива дает следующие преимущества для всех приложений:

  • Открытый стандарт. Алгоритм сжатия ZIP является определенным открытым стандартом.

  • Сниженный размер файла. Файлы как правило меньше, чем их двоичный эквивалент. В среднем файлы Office Word 2007 на 75% меньше своих двоичных аналогов, в зависимости от количества изображений.

  • Повышенная надежность. Файлы стали более надежными и менее чувствительными к потенциальным ошибкам. Более ранние версии файлов должны были быть полностью в порядке для корректной работы.

Хотя использование ZIP-архива означает, что файл двоичен, программный интерфейс (API) WinFX обеспечивает встроенную поддержку для формата архива в области имен System.IO.Packaging. Это позволяет разработчикам создавать средства обработки формата, работающие напрямую с логической моделью (частями) без необходимости распаковки или сжатия архива.

Загрузить эту книгу

Для упрощения чтения и печати эта тема включена в следующую загружаемую книгу: