Partager via


Options Demande de profil de modèle de colonne (tâche de profilage des données)

S’applique à : SQL Server SSIS Integration Runtime dans Azure Data Factory

Utilisez le volet Propriétés de la demande de la page Demandes de profil pour définir les options de la Demande de profil de modèle de colonne sélectionnée dans le volet Demandes. Un profil de modèle de colonne signale un ensemble d'expressions régulières qui reflètent le pourcentage spécifié des valeurs dans une colonne de chaîne. Ce profil peut vous aider à identifier des problèmes dans vos données, tels que les chaînes non valides, et peut suggérer des expressions régulières susceptibles d'être utilisées à l'avenir pour la validation de nouvelles valeurs. Par exemple, le profil de modèle d'une colonne États-Unis/Codes postaux peut générer les expressions régulières \d{5}-\d{4}, \d{5} et \d{9}. Si vous rencontrez d'autres expressions régulières, il est probable que vos données contiennent des valeurs qui ne sont pas valides ou utilisent un format incorrect.

Notes

Les options décrites dans cette rubrique apparaissent sur la page Demandes de profil de l' Éditeur de tâche de profilage de données. Pour plus d’informations sur cette page de l’éditeur, consultez Éditeur de tâche de profilage de données (Page Demandes de profil).

Pour plus d’informations sur l’utilisation de la tâche de profilage des données, consultez Configuration de la tâche de profilage des données. Pour plus d’informations sur l’utilisation de la visionneuse du profil des données pour analyser le résultat de la tâche de profilage des données, consultez Visionneuse du profil des données.

Fonctionnement de l'utilisation des séparateurs et des symboles

Avant de calculer les modèles d’une Demande de profil de modèle de colonne, la tâche de profilage des données marque les données sous forme de jetons. Autrement dit, elle sépare les valeurs de chaîne en unités plus petites appelées « jetons ». Pour séparer les chaînes en jetons, la tâche se base sur les séparateurs et les symboles que vous spécifiez pour les propriétés Séparateurs et Symboles :

  • Séparateurs Par défaut, la liste des séparateurs contient les caractères suivants : espace, tabulation horizontale (\t), nouvelle ligne (\n) et retour chariot (\r). Vous pouvez définir d'autres séparateurs mais vous ne pouvez pas supprimer les séparateurs par défaut.

  • Symboles Par défaut, la liste des symboles contient les caractères suivants : ,.;:-"'~=&/@!?()<>[]{}|#*^%, ainsi que la coche. Par exemple, si les symboles sont "()-", la valeur "(425) 123-4567" est marquée sous forme de jeton de la manière suivante : ["(", "425", ")", "123", "-", "4567", ")"].

Un caractère ne peut pas être à la fois un séparateur et un symbole.

Tous les séparateurs sont normalisés en un espace unique dans le cadre du processus de création de jetons tandis que les symboles sont conservés.

Fonctionnement de l'utilisation de la table des balises

Vous pouvez éventuellement regrouper les jetons associés par une même étiquette en stockant les étiquettes et les termes associés dans une table spéciale que vous créez dans une base de données SQL Server. La table des balises doit être composée de deux colonnes de chaîne, l’une appelée « Balise », l’autre « Terme ». Ces colonnes peuvent être de type char, nchar, varchar, ou nvarchar, mais pas text ou ntext. Vous pouvez fusionner plusieurs balises et leurs termes correspondants dans une seule et unique table. Une demande de profil de modèle de colonne peut utiliser une seule table des balises. Vous pouvez utiliser un gestionnaire de connexions ADO.NET distinct pour vous connecter à la table d’étiquettes. La table des balises peut donc être stockée dans une autre base de données ou sur un autre serveur que les données sources.

Par exemple, vous pouvez regrouper les valeurs « East », « West », « North » et « South » susceptibles d'apparaître dans des adresses postales en utilisant la balise unique « Direction ». Un exemple de cette table des balises est proposé ci-dessous.

Tag Terme
Sens Est
Sens West
Sens Nord
Sens Sud

Vous pouvez éventuellement utiliser une autre balise pour regrouper les différents mots qui expriment la notion de « rue » (Street) dans les adresses postales :

Tag Terme
Rue Rue
Rue Avenue
Rue Emplacement
Rue Moyen

D'après cette combinaison de balises, le modèle obtenu pour une adresse postale peut se présenter de la manière suivante :

\d+\ LookupTag=Direction \d+\p{L}+\ LookupTag=Street

Notes

L'utilisation d'une table des balises diminue les performances de la tâche de profilage des données. N'utilisez pas plus de 10 balises ou plus de 100 termes par balise.

Le même terme peut appartenir à plusieurs balises.

Options Propriétés de la demande

Pour une demande de profil de modèle de colonne, le volet Propriétés de la demande affiche les groupes d’options suivants :

  • Données, qui incluent les options TableOrView et Column

  • Général

  • Options

Options de données

ConnectionManager
Sélectionnez le gestionnaire de connexions ADO.NET existant qui utilise le fournisseur de données .NET pour SQL Server (SqlClient) pour établir la connexion à la base de données SQL Server qui contient la table ou la vue à profiler.

TableOrView
Sélectionnez la table ou la vue existante qui contient la colonne à profiler.

Pour plus d'informations, consultez la section « Options TableorView » dans cette rubrique.

Colonne
Sélectionnez la colonne existante à profiler. Sélectionnez (*) pour profiler toutes les colonnes.

Pour plus d'informations, consultez la section « Options de colonne » dans cette rubrique.

Options TableOrView

Schéma
Spécifie le schéma auquel la table sélectionnée appartient. Cette option est en lecture seule.

Table
Affiche le nom de la table sélectionnée. Cette option est en lecture seule.

Options de colonne

IsWildCard
Indique si le caractère générique (*) a été sélectionné. Cette option est définie sur True si vous avez sélectionné (*) pour profiler toutes les colonnes. Sa valeur est False si vous avez sélectionné une colonne spécifique dont le profil doit être généré. Cette option est en lecture seule.

ColumnName
Affiche le nom de la colonne sélectionnée. Cette option est vide si vous avez sélectionné (*) pour profiler toutes les colonnes. Cette option est en lecture seule.

StringCompareOptions
Cette option ne s'applique pas au profil de modèle de colonne.

Options générales

RequestID
Tapez un nom descriptif pour identifier cette demande de profil. En règle générale, il n'est pas nécessaire de modifier la valeur générée automatiquement.

Options

MaxNumberOfPatterns
Spécifiez le nombre maximal de modèles que vous souhaitez calculer à l'aide du profil. La valeur par défaut de cette option est 10. La valeur maximale est 100.

PercentageDataCoverageDesired
Spécifiez le pourcentage des données que vous souhaitez refléter avec les modèles calculés. La valeur par défaut de cette option est 95 (pourcent).

CaseSensitive
Indiquez si les modèles doivent respecter la casse. La valeur par défaut de cette option est False.

Délimiteurs
Répertoriez les caractères à traiter en tant qu'équivalents des espaces entre les mots lorsque vous marquez du texte sous forme de jetons. Par défaut, la liste des séparateurs contient les caractères suivants : espace, tabulation horizontale (\t), nouvelle ligne (\n) et retour chariot (\r). Vous pouvez définir d'autres séparateurs mais vous ne pouvez pas supprimer les séparateurs par défaut.

Pour plus d'informations, consultez la section « Fonctionnement de l'utilisation des séparateurs et des symboles » plus haut dans cette rubrique.

Symboles
Répertoriez les symboles à conserver dans le cadre des modèles. Les exemples peuvent inclure « / » pour les dates, « : » pour les heures et « @ » pour les adresses de messagerie. Par défaut, la liste des symboles contient les caractères suivants : ,.;:-"'~=&/@!?()<>[]{}|#*^%.

Pour plus d'informations, consultez la section « Fonctionnement de l'utilisation des séparateurs et des symboles » plus haut dans cette rubrique.

TagTableConnectionManager
Sélectionnez le gestionnaire de connexions ADO.NET existant qui utilise le fournisseur de données .NET pour SQL Server (SqlClient) afin de vous connecter à la base de données SQL Server qui contient la table d’étiquettes.

Pour plus d'informations, consultez la section « Fonctionnement de l'utilisation de la table des balises » plus haut dans cette rubrique.

TagTableName
Sélectionnez la table des balises existante qui doit être composée de deux colonnes de chaîne intitulées Balise et Terme.

Pour plus d'informations, consultez la section « Fonctionnement de l'utilisation de la table des balises » plus haut dans cette rubrique.

Voir aussi

Éditeur de tâche de profilage de données (page Général)
Formulaire de profil rapide de table simple (tâche de profilage des données)