Comment : identifier le texte d'une chaîne HTML dans Visual Basic
Cet exemple montre comment utiliser une expression régulière simple pour supprimer les balises d'un document HTML.
Exemple
Les balises HTML peuvent correspondre à l'expression régulière \<[^\>]+\>, c'est-à-dire :
le caractère « < », suivi
d'un jeu d'un ou de plusieurs caractères, ne comprenant pas le « > », suivi
du caractère « > ».
Cet exemple utilise la méthode Regex.Replace partagée pour remplacer toutes les correspondances de l'expression régulière de la balise par la chaîne vide.
''' <summary>Removes the tags from an HTML document.</summary>
''' <param name="htmlText">HTML text to parse.</param>
''' <returns>The text of an HTML document without tags.</returns>
''' <remarks></remarks>
Function GetTextFromHtml(ByVal htmlText As String) As String
Dim output As String = Regex.Replace(htmlText, "\<[^\>]+\>", "")
Return output
End Function
Cet exemple requiert que vous utilisiez l'instruction Imports pour importer l'espace de noms System.Text.RegularExpressions. Pour plus d'informations, consultez Imports, instruction (espace de noms et type .NET).
Voir aussi
Tâches
Comment : identifier des liens hypertexte dans une chaîne HTML en Visual Basic
Comment : supprimer des caractères non valides d'une chaîne