Procedimiento para recuperar párrafos de un documento XML abierto de Office (LINQ to XML)

Este artículo proporciona un ejemplo que abre un documento XML abierto de Office y recupera una colección de todos los párrafos del documento.

Para más información sobre Office Open XML, consulte SDK de Open XML y el blog de Eric White.

Ejemplo: Recuperación de párrafos de un documento de Office Open XML

Este ejemplo abre un paquete de Office Open XML y usa las relaciones de ese paquete para buscar las partes del documento y del estilo. A continuación, consulta el documento y proyecta una colección que tiene la información del párrafo. Cada objeto de la colección representa un párrafo y contiene el nodo de párrafo XElement, el nombre de estilo y el texto.

El ejemplo funciona en el documento de Office Open XML que se indica en Creación del documento de origen de Office Open XML.

Se usa lo siguiente:

  • El método de extensión StringConcatenate, definido como parte del ejemplo.
  • Las clases que se encuentran en el ensamblado WindowsBase.
  • Los tipos del espacio de nombres System.IO.Packaging.
public static class LocalExtensions
    public static string StringConcatenate(this IEnumerable<string> source)
        StringBuilder sb = new StringBuilder();
        foreach (string s in source)
        return sb.ToString();

    public static string StringConcatenate<T>(this IEnumerable<T> source,
        Func<T, string> func)
        StringBuilder sb = new StringBuilder();
        foreach (T item in source)
        return sb.ToString();

    public static string StringConcatenate(this IEnumerable<string> source, string separator)
        StringBuilder sb = new StringBuilder();
        foreach (string s in source)
        return sb.ToString();

    public static string StringConcatenate<T>(this IEnumerable<T> source,
        Func<T, string> func, string separator)
        StringBuilder sb = new StringBuilder();
        foreach (T item in source)
        return sb.ToString();

class Program
    public static string ParagraphText(XElement e)
        XNamespace w = e.Name.Namespace;
        return e
               .Elements(w + "r")
               .Elements(w + "t")
               .StringConcatenate(element => (string)element);

    static void Main(string[] args)
        const string fileName = "SampleDoc.docx";

        const string documentRelationshipType =
        const string stylesRelationshipType =
        const string wordmlNamespace =
        XNamespace w = wordmlNamespace;

        XDocument xDoc = null;
        XDocument styleDoc = null;

        using (Package wdPackage = Package.Open(fileName, FileMode.Open, FileAccess.Read))
            PackageRelationship docPackageRelationship =
            if (docPackageRelationship != null)
                Uri documentUri =
                       new Uri("/", UriKind.Relative),
                PackagePart documentPart =

                //  Load the document XML in the part into an XDocument instance.
                xDoc = XDocument.Load(XmlReader.Create(documentPart.GetStream()));

                //  Find the styles part. There will only be one.
                PackageRelationship styleRelation =
                if (styleRelation != null)
                    Uri styleUri = PackUriHelper.ResolvePartUri(documentUri, styleRelation.TargetUri);
                    PackagePart stylePart = wdPackage.GetPart(styleUri);

                    //  Load the style XML in the part into an XDocument instance.
                    styleDoc = XDocument.Load(XmlReader.Create(stylePart.GetStream()));

        string defaultStyle =
                from style in styleDoc.Root.Elements(w + "style")
                where (string)style.Attribute(w + "type") == "paragraph" &&
                      (string)style.Attribute(w + "default") == "1"
                select style
            ).First().Attribute(w + "styleId");

        // Find all paragraphs in the document.
        var paragraphs =
            from para in xDoc
                         .Element(w + "body")
                         .Descendants(w + "p")
            let styleNode = para
                            .Elements(w + "pPr")
                            .Elements(w + "pStyle")
            select new
                ParagraphNode = para,
                StyleName = styleNode != null ?
                    (string)styleNode.Attribute(w + "val") :

        // Retrieve the text of each paragraph.
        var paraWithText =
            from para in paragraphs
            select new
                ParagraphNode = para.ParagraphNode,
                StyleName = para.StyleName,
                Text = ParagraphText(para.ParagraphNode)

        foreach (var p in paraWithText)
            Console.WriteLine("StyleName:{0} >{1}<", p.StyleName, p.Text);

Este ejemplo produce el siguiente resultado:

StyleName:Heading1 >Parsing WordprocessingML with LINQ to XML<
StyleName:Normal ><
StyleName:Normal >The following example prints to the console.<
StyleName:Normal ><
StyleName:Code >using System;<
StyleName:Code ><
StyleName:Code >class Program {<
StyleName:Code >    public static void (string[] args) {<
StyleName:Code >        Console.WriteLine("Hello World");<
StyleName:Code >    }<
StyleName:Code >}<
StyleName:Normal ><
StyleName:Normal >This example produces the following output:<
StyleName:Normal ><
StyleName:Code >Hello World<