Partager via


Comment : identifier le texte d'une chaîne HTML dans Visual Basic

Cet exemple montre comment utiliser une expression régulière simple pour supprimer les balises d'un document HTML.

Exemple

Les balises HTML peuvent correspondre à l'expression régulière \<[^\>]+\>, c'est-à-dire :

  1. le caractère « < », suivi

  2. d'un jeu d'un ou de plusieurs caractères, ne comprenant pas le « > », suivi

  3. du caractère « > ».

Cet exemple utilise la méthode Regex.Replace partagée pour remplacer toutes les correspondances de l'expression régulière de la balise par la chaîne vide.

    ''' <summary>Removes the tags from an HTML document.</summary>
    ''' <param name="htmlText">HTML text to parse.</param>
    ''' <returns>The text of an HTML document without tags.</returns>
    ''' <remarks></remarks>
    Function GetTextFromHtml(ByVal htmlText As String) As String
        Dim output As String = Regex.Replace(htmlText, "\<[^\>]+\>", "")
        Return output
    End Function

Cet exemple requiert que vous utilisiez l'instruction Imports pour importer l'espace de noms System.Text.RegularExpressions. Pour plus d'informations, consultez Imports, instruction (espace de noms et type .NET).

Voir aussi

Tâches

Comment : identifier des liens hypertexte dans une chaîne HTML en Visual Basic

Comment : supprimer des caractères non valides d'une chaîne

Autres ressources

Analyse de chaînes en Visual Basic