Visão geral dos formatos de arquivo XML no Office System 2007
Atualizado: janeiro de 2009
Aplica-se a: Office Resource Kit
Tópico modificado em: 2009-01-07
O Microsoft Office 2007 apresenta novos formatos de arquivo XML que são robustos e baseados em padrões abertos. Os novos formatos de arquivo XML permitem a criação rápida de documentos de fontes de dados díspares, acelerando o assembly de documentos, a mineração de dados e a reutilização de conteúdo. Os formatos simplificam a troca de dados entre aplicativos no 2007 Office system e e sistemas corporativos.
Você pode criar um documento nos novos formatos XML com qualquer ferramenta e tecnologia padrão — o 2007 Office system não é necessário. Os usuários podem aumentar a produtividade publicando, pesquisando e reutilizando informações com mais rapidez e precisão no ambiente que quiserem.
Os novos formatos XML se baseiam nas tecnologias XML e ZIP padrão da indústria, dão suporte à integração total a qualquer provedor de tecnologia e estão disponíveis por meio de uma licença sem royalties. A especificação de formato de arquivo XML será publicada e disponibilizada sob a mesma licença sem royalties que existe para os esquemas de referência do Microsoft Office 2003 e é abertamente oferecida e disponível para uso amplo da indústria.
Benefícios dos novos formatos de arquivo XML
Os novos formatos XML apresentam uma série de benefícios para os desenvolvedores, profissionais de TI e usuários. Esses benefícios incluem:
Formato de arquivo compacto. Os documentos são automaticamente compactados e até 75 por cento menores.
Recuperação de arquivos danificados aprimorada. O armazenamento de dados modular permite que os arquivos sejam abertos mesmo se um componente do arquivo, como um gráfico ou uma tabela, estiver danificado.
Documentos mais seguros. O código incorporado, como objetos OLE ou código Microsoft Visual Basic for Applications (VBA), é armazenado em uma seção separada dentro do arquivo e, portanto, é facilmente identificado para processamento especial. Administradores de TI podem bloquear os documentos que contêm macros indesejadas ou controles, tornando os documentos mais seguros para usuários quando forem abertos.
Integração mais fácil. Os desenvolvedores têm acesso direto ao conteúdo específico dentro do arquivo, como gráficos, comentários e metadados do documento.
Transparência e segurança de informações aprimorado. Os documentos podem ser compartilhados confidencialmente porque informações de identificação pessoal e informações comerciais confidenciais, como nomes de usuário, comentários, alterações controladas e caminhos de arquivo, são facilmente identificadas e removidas.
Compatibilidade. Ao instalar uma atualização simples, os usuários das versões Microsoft Office 2000, Microsoft Office XP e Office 2003 podem abrir, editar e salvar documentos em um dos novos formatos XML.
Estrutura dos novos formatos de arquivo XML
A estrutura básica de todos os formatos XML do 2007 Office system consiste em cinco elementos:
Parte inicial. A parte de ordem mais alta na hierarquia.
Partes do XML. Arquivos ou pastas formados por XML que compõe o conteúdo do arquivo.
Partes não-XML. Partes que não são XML e geralmente são imagens ou objetos OLE.
Parte de relacionamento. Um tipo de componente que geralmente aponta para outras partes para definir a hierarquia relacional da estrutura de partes.
Pacote ZIP. Empacota partes em um único arquivo.
Parte inicial
A parte inicial, uma parte XML que é de relacionamento e poderia ser considerada a parte de ordem mais alta, determina o tipo de arquivo. Por exemplo, se o nome do contêiner principal for WordDoc, a extensão de nome de arquivo será .docx.
Partes XML
Quando um arquivo de formato XML do Office é salvo no 2007 Office system, é dividido em um conjunto de partes lógicas que descreve o arquivo inteiro. Para o Office Word 2007, dividir o arquivo nessas partes permite que ele seja facilmente consultado ou modificado fora do aplicativo do Office original.
Por exemplo, é mais fácil para um desenvolvedor remover propriedades do documento de um arquivo porque as propriedades são colocadas em uma única parte, e a parte pode ser excluída do contêiner do documento ao ser excluída. Com o WordprocessingML (fornecido como um formato de arquivo XML opcional no Microsoft Office 2003), remover comentários envolvia analisar o arquivo inteiro para localizar e remover o XML que representava o conteúdo do comentário. Com o novo formato de arquivo, dados relacionados ao recurso são divididos em partes. Comentários, links, cabeçalhos, rodapés e outros dados estão em partes separadas que podem ser removidas. Você não precisará analisar todo o documento do Word.
Partes não-XML
Geralmente, as partes não-XML são imagens e objetos OLE. Qualquer tipo de arquivo que usa conteúdo binário ou não usa o XML é identificado como não-XML. Uma parte não-XML, com mais frequência, é um arquivo anexado ou incorporado em um documento. A documentação de esquema do formato XML do Office Word 2007 explica o relacionamento literal e a hierarquia de esquemas usados pelo Word para arquivos desse tipo.
Parte de relacionamento
Uma parte de relacionamento é uma parte XML que aponta para outras partes e define a hierarquia relacional das partes. As partes XML de mais alto nível são partes de relacionamento. As partes XML que contêm dados e não apontam para outras partes também são chamadas de primitivas e normalmente têm um tipo de conteúdo de aplicativo/XML.
Pacote ZIP
O uso de um pacote ZIP oferece os seguintes benefícios em todos os aplicativos:
Padrão aberto. O algoritmo de compactação ZIP é um padrão aberto bem definido.
Tamanho de arquivo reduzido. Os arquivos são geralmente menores do que um arquivo binário equivalente. Em média, os arquivos do Office Word 2007 são 75 % menores do que suas contrapartes binárias, dependendo do número de imagens.
Mais robustez. Os arquivos são mais robustos e menos sensíveis a possíveis erros. Os arquivos anteriores exigiam que o o arquivo estivesse totalmente intacto para funcionar corretamente.
Embora o uso de um pacote ZIP signifique que o arquivo é binário, o conjunto de APIs WinFX oferece suporte nativo ao formato do pacote no namespace System.IO.Packaging. Isso permite que desenvolvedores criem ferramentas que processam o formato e trabalham diretamente com o modelo lógico (as partes) sem ter que considerar a expansão ou a compactação do pacote.
Baixar este manual
Este tópico está incluído no seguinte manual baixável para facilitar a leitura e a impressão:
Referência técnica para a versão Office 2007
Consulte a lista completa de manuais disponíveis no Conteúdo baixável para o Resource Kit do Office 2007.