Analyse HTML par les services Web XML ASP.NET

Cette rubrique est spécifique à une technologie existante. Les services Web XML et les clients du service Web XML doivent à présent être créés à l'aide de Windows Communication Foundation.

Aujourd'hui, le Web offre une quantité immense d'informations. Malheureusement, la majorité de ces données n'est interprétée facilement que par des yeux humains, qui les lisent par le biais d'un navigateur. Les services Web créés à l'aide ASP.NET contribuent à améliorer cette situation en fournissant une solution d'analyse HTML qui permet aux développeurs d'analyser le contenu d'une page HTML distante et d'exposer les données résultantes par programmation. Une fois obtenue l'autorisation de l'éditeur du contenu de site Web, et à condition que la disposition du contenu ne change pas, l'analyse HTML peut être utilisée pour exposer des services Web dont les clients peuvent tirer parti. Pour plus d'informations sur les l'analyse HTML, consultez Comment : créer des services Web qui analysent le contenu d'une page Web.

La génération d'un service Web qui analyse le contenu d'une page Web utilise un modèle différent de la génération d'un service Web typique. Un service Web qui analyse une page HTML est implémenté par la création d'une description de service, un document XML en WSDL (Web Services Description Language). Dans la description de service, des éléments XML sont ajoutés pour spécifier à la fois les paramètres d'entrée et les données à retourner de la page HTML analysée.

Les paramètres d'entrée peuvent être passés au serveur Web si la page HTML qui est analysée accepte les paramètres qui affectent le contenu de la page HTML retournée.

L'essentiel de l'implémentation se fait dans la spécification des données retournées par la page HTML analysée, puisque c'est là que les instructions d'analyse du contenu HTML sont spécifiées. Pour ajouter ces éléments XML et donc générer un service Web qui analyse une page HTML, un développeur doit comprendre la disposition d'un document XML écrit en WSDL. Pour plus d'informations sur WSDL, consultez la spécification WSDL sur le site Web W3C (http://www.w3.org/TR/wsdl).

Les données à retourner d'une page HTML analysée sont exprimées dans la description de service à l'aide d'une série d'éléments XML qui contiennent des expressions régulières pour analyser des données spécifiques tout en fournissant un nom pour chaque donnée. L'expression régulière .NET Framework réelle apparaît dans un élément XML match. Les expressions régulières fournissent une notation complète des critères spéciaux qui vous permet d'analyser rapidement de grandes quantités de texte pour rechercher des modèles de caractère spécifiques. Pour plus d'informations sur la syntaxe d'expression régulière .NET Framework, consultez .NET Framework Regular Expressions.

Élément <match>

L'élément match peut être spécifié avec les attributs suivants :

Attribut Description

name

Classe ou nom de propriété qui représente la donnée retournée. Une classe proxy générée par l'outil Wsdl.exe associe l'attribut de nom à une classe si l'élément XML match a des éléments match enfants. Les éléments match enfants sont mappés aux propriétés de la classe.

Pattern

Modèle d'expression régulière à utiliser pour obtenir la donnée. Pour plus d'informations sur la syntaxe d'expression régulière .NET Framework, consultez .NET Framework Regular Expressions.

ignoreCase

Spécifie si l'expression régulière doit être exécutée sans respecter la casse. Sensible à la casse par défaut.

Repeats

Spécifie le nombre de valeurs qui doivent être retournées de l'expression régulière, au cas où l'expression régulière ait plusieurs correspondances sur la page HTML. Une valeur égale à 1 ne retourne que la première correspondance. Une valeur égale à -1 retourne toutes les correspondances. Une valeur égale à -1 équivaut à un * dans une expression régulière. La valeur par défaut est -1.

Group

Spécifie un regroupement de correspondances connexes.

Capture

Spécifie l'index d'une correspondance dans un regroupement.

type

Les classes proxy générées à l'aide de Wsdl.exe utilisent l'attribut type comme nom de la classe retournée pour un match qui contient des éléments match enfants. Par défaut, une classe proxy générée par Wsdl.exe attribue au nom de la classe retournée le nom spécifié dans l'attribut name.

Voir aussi

Tâches

Comment : créer des services Web qui analysent le contenu d'une page Web

Référence

MatchAttribute Class
Outil Web Services Description Language Tool (Wsdl.exe)

Autres ressources

.NET Framework Regular Expressions
Services Web XML utilisant ASP.NET