Procedura: identificare il testo in una stringa HTML in Visual Basic
Aggiornamento: novembre 2007
Nell'esempio seguente viene illustrato come utilizzare un'espressione regolare per rimuovere i tag da un documento HTML.
Esempio
I tag HTML possono essere individuati tramite l'espressione regolare \<[^\>]+\>, che significa:
Il carattere "<" seguito da
Un insieme di uno o più caratteri, escluso il carattere ">" seguito da
Il carattere ">".
In questo esempio viene utilizzato il metodo Regex.Replace condiviso per sostituire tutte le corrispondenze dell'espressione regolare con una stringa vuota.
''' <summary>Removes the tags from an HTML document.</summary>
''' <param name="htmlText">HTML text to parse.</param>
''' <returns>The text of an HTML document without tags.</returns>
''' <remarks></remarks>
Function GetTextFromHtml(ByVal htmlText As String) As String
Dim output As String = Regex.Replace(htmlText, "\<[^\>]+\>", "")
Return output
End Function
Nell'esempio è necessario utilizzare l'istruzione Imports per importare lo spazio dei nomi System.Text.RegularExpressions. Per ulteriori informazioni, vedere Istruzione Imports (tipo e spazio dei nomi .NET).
Vedere anche
Attività
Procedura: identificare collegamenti ipertestuali in una stringa HTML di Visual Basic
Procedura: rimuovere caratteri non validi da una stringa