Mappages de champs et transformations à l’aide d’indexeurs Azure AI Recherche
Cet article explique comment définir des mappages de champs explicites qui établissent le chemin d’accès aux données entre les champs sources d’une source de données prise en charge et des champs cibles dans un index de recherche.
Quand un indexeur Recherche Azure AI charge un index de recherche, il détermine le chemin d’accès des données en utilisant des mappages de champs source à destination. Les mappages de champs implicites sont internes et se produisent lorsque les noms de champs et les types de données sont compatibles entre la source et la destination. Si les entrées et sorties ne correspondent pas, vous pouvez définir des mappages de champs explicites pour configurer le chemin d’accès aux données, comme décrit dans cet article.
Les mappages de champs peuvent également être utilisés pour des conversions de données légères, comme l’encodage ou le décodage, via des fonctions de mappage. Si un traitement plus important est nécessaire, envisagez Azure Data Factory pour combler l’écart.
Les mappages de champs s’appliquent aux éléments suivants :
Structures de données physiques des deux côtés du chemin d’accès aux données. Les structures de données logiques créées par des compétences se trouvent seulement en mémoire. Utilisez outputFieldMappings pour mapper des nœuds en mémoire aux champs de sortie d’un index de recherche.
Index de recherche IA parents uniquement. Pour les index « secondaires » avec des documents « enfants » ou des « blocs », reportez-vous aux scénarios de mappage de champs avancés.
Des champs de recherche du plus haut niveau seulement, où
targetFieldName
est un champ simple ou une collection. Un champ cible ne peut pas être un type complexe.
Veillez à utiliser une source de données prise en charge pour l’indexation pilotée par l’indexeur.
Cas d’utilisation | Description |
---|---|
Disparité de nom | Supposons que votre source de données comprend un champ nommé _city . Comme Azure AI Recherche n’autorise pas les noms de champs commençant par un trait de soulignement, un mappage de champs vous permet de mapper « _city » à « city ». Si vos exigences d’indexation incluent la récupération de contenu à partir de plusieurs sources de données, où les noms de champs varient entre les sources, vous pouvez utiliser un mappage de champs pour clarifier le chemin. |
Disparité de type | Supposez que vous souhaitiez qu’un champ source d’entiers soit de type Edm.String afin qu’il puisse faire l’objet d’une recherche dans l’index de recherche. Étant donné que les types sont différents, vous devez définir un mappage de champs qui puisse résoudre correctement le chemin des données. Notez qu’Azure AI Recherche a un plus petit ensemble de types de données pris en charge que beaucoup de sources de données. Si vous importez des données SQL, un mappage de champs vous permet de mapper le type de données SQL souhaité dans un index de recherche. |
Chemins de données un-à-plusieurs | Vous pouvez remplir plusieurs champs dans l’index avec du contenu provenant du même champ source. Par exemple, vous pouvez appliquer différents analyseurs à chaque champ pour prendre en charge plusieurs cas d’usage dans votre application cliente. |
Encodage et décodage | Vous pouvez appliquer des fonctions de mappage pour prendre en charge l’encodage base64 ou le décodage des données pendant l’indexation. |
Diviser des chaînes ou recaster des tableaux en collections | Vous pouvez appliquer des fonctions de mappage pour diviser une chaîne qui inclut un délimiteur ou pour envoyer un tableau JSON vers un champ de recherche de type Collection(Edm.String) . |
Remarque
Si aucun mappage de champs n’est présent, les indexeurs supposent que les champs de source de données doivent être mappés à des champs d’index du même nom. L’ajout d’un mappage de champs remplace les mappages de champs par défaut pour les champs source et cible. Certains indexeurs, comme l’indexeur de stockage d’objets blob, ajoutent automatiquement des mappages de champs par défaut pour le champ de clé d’index.
Les champs complexes ne sont pas pris en charge dans un mappage de champs. Votre structure source (des structures imbriquées ou hiérarchiques) doit correspondre exactement au type complexe dans l’index pour que les mappages par défaut fonctionnent. Pour plus d’informations et obtenir un exemple, consultez Tutoriel : Indexer des blobs JSON imbriqués. Si vous obtenez une erreur similaire à "Field mapping specifies target field 'Address/city' that doesn't exist in the index"
, c’est parce que les mappages de champs cibles ne peuvent pas être d’un type complexe.
Vous pouvez aussi avoir seulement besoin de quelques nœuds dans la structure complexe. Pour obtenir des nœuds individuels, aplatissez les données entrantes dans une collection de chaînes (voir outputFieldMappings pour cette autre solution).
Cette section explique les étapes de configuration des mappages de champs.
Utilisez Créer un indexeur, Créer ou mettre à jour un indexeur ou une méthode équivalente dans un Kit de développement logiciel (SDK) Azure. Voici un exemple de définition d’un indexeur.
{ "name": "myindexer", "description": null, "dataSourceName": "mydatasource", "targetIndexName": "myindex", "schedule": { }, "parameters": { }, "fieldMappings": [], "disabled": false, "encryptionKey": { } }
Renseignez le tableau
fieldMappings
pour spécifier les mappages. Un mappage de champs se compose de trois parties."fieldMappings": [ { "sourceFieldName": "_city", "targetFieldName": "city", "mappingFunction": null } ]
Propriété Description sourceFieldName Obligatoire. Représente un champ de votre source de données. targetFieldName facultatif. Représente un champ de votre index de recherche. Si elle est omise, la valeur de sourceFieldName
est utilisée pour la cible. Les champs cibles doivent être des champs ou collections simples de premier niveau. Il ne peut pas s’agir d’un type ou d’une collection complexe. Si vous rencontrez un problème de type de données, sachez que le type de données d’un champ est spécifié dans la définition d’index. Le mappage de champs requiert seulement d’avoir le nom de champ.mappingFunction facultatif. Se compose de fonctions prédéfinies qui transforment des données.
Un mappage de champ explicite établit un chemin d’accès aux données pour les cas où le nom et le type ne sont pas identiques.
Azure AI Recherche utilise une comparaison qui ne respecte pas la casse pour résoudre les noms de champ et de fonction dans les mappages de champs. C'est pratique (vous n'avez besoin de faire attention à la casse), mais cela signifie que votre source de données et votre index ne peuvent pas comporter des champs qui diffèrent uniquement par la casse.
PUT https://[service name].search.windows.net/indexers/myindexer?api-version=[api-version]
Content-Type: application/json
api-key: [admin key]
{
"dataSourceName" : "mydatasource",
"targetIndexName" : "myindex",
"fieldMappings" : [ { "sourceFieldName" : "_city", "targetFieldName" : "city" } ]
}
Cet exemple mappe un champ source unique à plusieurs champs cibles (« mappages un-à-plusieurs »). Vous pouvez dupliquer (« fork ») un champ en copiant le même contenu de champ source vers deux champs d’index différents qui seront analysés ou attribués différemment dans l’index.
"fieldMappings" : [
{ "sourceFieldName" : "text", "targetFieldName" : "textStandardEnglishAnalyzer" },
{ "sourceFieldName" : "text", "targetFieldName" : "textSoundexAnalyzer" }
]
Vous pouvez utiliser une approche similaire pour le contenu généré par des compétences.
Une fonction de mappage de champ transforme le contenu d’un champ avant son stockage dans l’index. Les fonctions de mappage actuellement prises en charge sont les suivantes :
Notez que ces fonctions sont exclusivement prises en charge pour les index parents pour l’instant. Elles ne sont pas compatibles avec le mappage d’index segmenté : ces fonctions ne peuvent donc pas être utilisées pour des projections d’index.
Exécute l’encodage Base64 sécurisé pour les URL de la chaîne d'entrée. Suppose que l'entrée est encodée en UTF-8.
Seuls les caractères sécurisés pour les URL peuvent apparaître dans une clé de document Azure AI Recherche, de façon à ce que vous puissiez traiter le document à l’aide de l’API de recherche. Si le champ source de votre clé contient des caractères non sécurisés pour les URL, comme -
et \
, utilisez la fonction base64Encode
pour les convertir au moment de l’indexation.
L’exemple suivant spécifie la fonction base64Encode sur metadata_storage_name
pour traiter les caractères non pris en charge.
PUT /indexers?api-version=2024-07-01
{
"dataSourceName" : "my-blob-datasource ",
"targetIndexName" : "my-search-index",
"fieldMappings" : [
{
"sourceFieldName" : "metadata_storage_name",
"targetFieldName" : "key",
"mappingFunction" : {
"name" : "base64Encode",
"parameters" : { "useHttpServerUtilityUrlTokenEncode" : false }
}
}
]
}
Une clé de document (avant et après la conversion) ne doit pas dépasser 1 024 caractères. Une fois que vous avez récupéré la clé encodée au moment de la recherche, utilisez la fonction base64Decode
pour obtenir la valeur de clé d’origine, et l’utiliser pour récupérer le document source.
Vous pouvez avoir besoin d’utiliser une version encodée d’un champ comme metadata_storage_path
en tant que clé, mais aussi avoir besoin d’une version décodée pour la recherche en texte intégral. Pour prendre en charge les deux scénarios, vous pouvez mapper metadata_storage_path
à deux champs : un pour la clé (encodé), et un second pour un champ de chemin d’accès dont nous pouvons supposer qu’il a un attribut searchable
dans le schéma d’index.
PUT /indexers/blob-indexer?api-version=2024-07-01
{
"dataSourceName" : " blob-datasource ",
"targetIndexName" : "my-target-index",
"schedule" : { "interval" : "PT2H" },
"fieldMappings" : [
{ "sourceFieldName" : "metadata_storage_path", "targetFieldName" : "key", "mappingFunction" : { "name" : "base64Encode" } },
{ "sourceFieldName" : "metadata_storage_path", "targetFieldName" : "path" }
]
}
L’indexeur de stockage d’objets blob ajoute automatiquement un mappage de champs à partir de metadata_storage_path
, l’URI de l’objet blob, au champ de clé d’index si aucun mappage de champs n’est spécifié. Cette valeur est encodée en Base64 afin d’être utilisée en toute sécurité comme clé de document Azure AI Recherche. L’exemple suivant montre comment mapper simultanément une version de metadata_storage_path
en codage Base64 sécurisée pour les URL à un champ index_key
et conserver la valeur d’origine dans un champ metadata_storage_path
:
"fieldMappings": [
{
"sourceFieldName": "metadata_storage_path",
"targetFieldName": "metadata_storage_path"
},
{
"sourceFieldName": "metadata_storage_path",
"targetFieldName": "index_key",
"mappingFunction": {
"name": "base64Encode"
}
}
]
Si vous n’incluez aucune propriété de paramètre pour votre fonction de mappage, la valeur par défaut est {"useHttpServerUtilityUrlTokenEncode" : true}
.
Azure AI Recherche prend en charge deux encodages en Base64 différents. Vous devez utiliser les mêmes paramètres lors de l’encodage et du décodage du même champ. Pour décider quels paramètres utiliser, consultez les options relatives à l’encodage base64.
Effectue le décodage en Base64 de la chaîne d'entrée. L’entrée est considérée comme une chaîne encodée en Base64 et sécurisée pour les URL.
Votre source de données peut contenir des chaînes encodées en Base64, telles que des chaînes de métadonnées de blob ou des URL web, que vous voulez rendre disponibles pour des recherches sous la forme de texte brut. Vous pouvez utiliser la fonction base64Decode
pour transformer les données encodées en chaînes normales lors du remplissage de votre index de recherche.
"fieldMappings" : [
{
"sourceFieldName" : "Base64EncodedMetadata",
"targetFieldName" : "SearchableMetadata",
"mappingFunction" : {
"name" : "base64Decode",
"parameters" : { "useHttpServerUtilityUrlTokenDecode" : false }
}
}
]
Si vous n’incluez aucune propriété de paramètre, la valeur par défaut est {"useHttpServerUtilityUrlTokenEncode" : true}
.
Azure AI Recherche prend en charge deux encodages en Base64 différents. Vous devez utiliser les mêmes paramètres lors de l’encodage et du décodage du même champ. Pour décider quels paramètres utiliser, consultez les options relatives à l’encodage base64.
Azure AI Recherche prend en charge l’encodage en base64 normal et sécurisé pour les URL. Une chaîne encodée en base64 lors de l’indexation devra être décodée ultérieurement avec les mêmes options d’encodage. Dans le cas contraire, le résultat ne correspondra pas à la version d’origine.
Si les paramètres useHttpServerUtilityUrlTokenEncode
ou useHttpServerUtilityUrlTokenDecode
d’encodage et de décodage, respectivement, sont définis sur true
, base64Encode
se comporte comme HttpServerUtility.UrlTokenEncode et base64Decode
se comporte comme HttpServerUtility.UrlTokenDecode.
Attention
Si base64Encode
est utilisé pour générer des valeurs de clé, useHttpServerUtilityUrlTokenEncode
doit être défini sur true. Seul l’encodage en base64 sécurisé pour les URL peut être utilisé pour les valeurs de clés. Pour obtenir l’ensemble des restrictions appliquées aux caractères des valeurs de clé, consultez Règles de nommage.
Les bibliothèques .NET dans Azure AI Recherche utilisent l’intégralité de .NET Framework qui fournit un encodage intégré. Les options useHttpServerUtilityUrlTokenEncode
et useHttpServerUtilityUrlTokenDecode
appliquent cette fonctionnalité intégrée. Si vous utilisez .NET Core ou une autre infrastructure, nous vous recommandons de définir ces options sur false
et d’appeler directement les fonctions d’encodage et de décodage de votre infrastructure.
Le tableau suivant compare les différents encodages base64 de la chaîne 00>00?00
. Pour déterminer quel traitement s’avère nécessaire (le cas échéant) pour vos fonctions base64, appliquez votre fonction d’encodage de bibliothèque à la chaîne 00>00?00
et comparez le résultat obtenu au résultat attendu MDA-MDA_MDA
.
Encodage | Résultat d’encodage base64 | Autre traitement après l’encodage de bibliothèque | Autre traitement avant l’encodage de bibliothèque |
---|---|---|---|
Base64 avec remplissage | MDA+MDA/MDA= |
Utiliser des caractères sécurisés pour les URL et supprimer le remplissage | Utiliser des caractères base64 standard et ajouter le remplissage |
Base64 sans remplissage | MDA+MDA/MDA |
Utiliser des caractères sécurisés pour les URL | Utiliser des caractères base64 standard |
Base64 sécurisé pour les URL avec remplissage | MDA-MDA_MDA= |
Supprimer le remplissage | Ajouter le remplissage |
Base64 sécurisé pour les URL sans remplissage | MDA-MDA_MDA |
None | None |
Divise un champ de chaîne en utilisant le séparateur spécifié et récupère le jeton à la position spécifiée dans le fractionnement résultant.
Cette fonction utilise les paramètres suivants :
delimiter
: une chaîne à utiliser comme séparateur lors du fractionnement de la chaîne d'entrée.position
: une position entière à base zéro du jeton à choisir une fois la chaîne d'entrée fractionnée.
Par exemple, si l’entrée est Jane Doe
, que le delimiter
est " "
(espace) et que la position
est 0, le résultat est Jane
; si la position
est 1, le résultat est Doe
. Si la position fait référence à un jeton qui n’existe pas, une erreur est retournée.
Votre source de données contient un champ PersonName
et vous souhaitez l’indexer en tant que deux champs FirstName
et LastName
distincts. Vous pouvez utiliser cette fonction pour fractionner l'entrée en utilisant l'espace comme séparateur.
"fieldMappings" : [
{
"sourceFieldName" : "PersonName",
"targetFieldName" : "FirstName",
"mappingFunction" : { "name" : "extractTokenAtPosition", "parameters" : { "delimiter" : " ", "position" : 0 } }
},
{
"sourceFieldName" : "PersonName",
"targetFieldName" : "LastName",
"mappingFunction" : { "name" : "extractTokenAtPosition", "parameters" : { "delimiter" : " ", "position" : 1 } }
}]
Transforme une chaîne formatée en tant que tableau de chaînes JSON en un tableau de chaînes utilisable pour remplir un champ Collection(Edm.String)
dans l'index.
Par exemple, si la chaîne d’entrée est ["red", "white", "blue"]
, le champ cible de type Collection(Edm.String)
est rempli avec les valeurs red
, white
et blue
. Pour les valeurs d’entrée qui ne peuvent pas être analysées en tant que tableaux de chaînes JSON, une erreur est retournée.
Azure SQL Database n’inclut aucun type de données intégré qui mappe naturellement aux champs Collection(Edm.String)
dans Azure AI Recherche. Pour remplir les champs de la collection de chaînes, vous pouvez prétraiter votre source de données en tant que tableau de chaînes JSON, puis utiliser la fonction de mappage jsonArrayToStringCollection
.
"fieldMappings" : [
{
"sourceFieldName" : "tags",
"mappingFunction" : { "name" : "jsonArrayToStringCollection" }
}]
Cette fonction peut être utilisée pour encoder une chaîne de sorte qu’elle soit « URL safe ». Lorsqu’elle est utilisée avec une chaîne qui contient des caractères qui ne sont pas autorisés dans une URL, cette fonction convertit ces caractères « non sécurisés » en équivalents d’entité de caractère. Cette fonction utilise le format d’encodage UTF-8.
La fonction urlEncode
peut être utilisée comme alternative à la fonction base64Encode
, si seuls les caractères non sécurisés d’URL doivent être convertis, tout en conservant les autres caractères tels quels.
Par exemple, si la chaîne d’entrée est <hello>
, le champ cible de type(Edm.String)
est rempli avec la valeur %3chello%3e
Une fois que vous avez récupéré la clé encodée au moment de la recherche, vous pouvez utiliser la fonction urlDecode
pour obtenir la valeur de clé d’origine, et l’utiliser pour récupérer le document source.
"fieldMappings" : [
{
"sourceFieldName" : "SourceKey",
"targetFieldName" : "IndexKey",
"mappingFunction" : {
"name" : "urlEncode"
}
}
]
Cette fonction convertit une chaîne encodée en URL en chaîne décodée à l’aide du format d’encodage UTF-8.
Certains clients de stockage Azure codent automatiquement les métadonnées de blob au format URL si elles contiennent des caractères non-ASCII. Toutefois, si vous souhaitez effectuer des recherches dans ces métadonnées (en texte brut), vous pouvez utiliser la fonction urlDecode
pour réactiver les données encodées dans des chaînes normales lors du remplissage de votre index de recherche.
"fieldMappings" : [
{
"sourceFieldName" : "UrlEncodedMetadata",
"targetFieldName" : "SearchableMetadata",
"mappingFunction" : {
"name" : "urlDecode"
}
}
]
Cette fonction convertit une chaîne de n’importe quelle longueur en chaîne de longueur fixe.
Lorsque des erreurs liées à la longueur de clé de document supérieure à 1 024 caractères se produisent, cette fonction peut être appliquée pour réduire la longueur de la clé de document.
"fieldMappings" : [
{
"sourceFieldName" : "metadata_storage_path",
"targetFieldName" : "your key field",
"mappingFunction" : {
"name" : "fixedLengthEncode"
}
}
]
Cette fonction convertit une chaîne en un objet JSON mis en forme. Ceci peut être utilisé pour les scénarios où la source de données, comme Azure SQL, ne prend pas en charge nativement les types de données composés ou hiérarchiques, puis les mappe à des champs complexes.
Supposons qu’il existe une ligne SQL avec une chaîne JSON qui doit être mappée à un champ complexe (défini en conséquence) dans l’index : la fonction toJson
peut être utilisée pour cela. Par exemple, si un champ complexe dans l’index doit être rempli avec les données suivantes :
{
"id": "5",
"info": {
"name": "Jane",
"surname": "Smith",
"skills": [
"SQL",
"C#",
"Azure"
],
"dob": "2005-11-04T12:00:00"
}
}
Il est possible d’y parvenir en utilisant la fonction de mappage toJson
sur une colonne de chaîne JSON dans une ligne SQL qui ressemble à ceci : {"id": 5, "info": {"name": "Jane", "surname": "Smith", "skills": ["SQL", "C#", "Azure"]}, "dob": "2005-11-04T12:00:00"}
.
Le mappage de champ doit être spécifié comme indiqué ci-dessous.
"fieldMappings" : [
{
"sourceFieldName" : "content",
"targetFieldName" : "complexField",
"mappingFunction" : {
"name" : "toJson"
}
}
]
Dans les scénarios où vous avez des relations de document « un-à-plusieurs », telles que la segmentation ou la division de données, suivez ces instructions pour mapper les champs des documents parents aux documents « enfants » (blocs) :
Si vous ignorez l’indexation des documents parents (en définissant projectionMode
sur skipIndexingParentDocuments
dans l’indexProjections
de l’ensemble de compétences), utilisez les projections d’index pour mapper les champs des documents parents aux documents « enfants ».
Si vous indexez des documents parents et des documents « enfants » :
- Utilisez les mappages de champs pour mapper les champs aux documents parents.
- Utilisez les projections d’index pour mapper les champs aux documents « enfants ».
Si un champ du document parent nécessite une transformation (à l’aide de fonctions de mappage telles que l’encodage) et doit être mappé aux documents parents et/ou « enfants » :
- Appliquez la transformation à l’aide des fonctions des mappages de champs dans l’indexeur.
- Utilisez les projections d’index dans l’ensemble de compétences pour mapper le champ transformé aux documents « enfants ».