Ce contenu s’applique à : v4.0 (préversion) v3.1 (GA) v3.0 (GA) v2.1 (GA)
Azure AI Intelligence documentaire est un service basé sur le cloud qui utilise des modèles de Machine Learning pour extraire des paires clé-valeur, du texte et des tableaux de vos documents. Le résultat retourné est une sortie JSON structurée. Intelligence documentaire répond à plusieurs cas d’usage, notamment au traitement de données automatisé, aux stratégies améliorées pilotées par les données et aux capacités enrichies de recherche dans les documents.
Vue d’ensemble
Azure AI Document Intelligence et Azure AI Form Recognizer correspondent-ils au même service ?
Oui.
Azure AI Document Intelligence et Azure AI Form Recognizer correspondent au même service. Le service a été renommé, passant d’Azure AI Form Recognizer à Azure AI Document Intelligence, en juillet 2023. Le service offre les mêmes capacités et les mêmes fonctionnalités qu’avant le changement de nom.
Changements de tarification : aucun changement de tarification n’a été opéré. Les noms Cognitive Services et Applied AI Services continuent d’être utilisés dans la facturation Azure, l’analyse des coûts, la liste de prix et les API de tarification.
Changements cassants : les API ou les bibliothèques de client n’ont fait l’objet d’aucun changement cassant. Les API REST et les versions 2024-02-29-preview, 2023-10-31-preview et ultérieures du kit de développement logiciel (SDK) sont renommées
document intelligence
.
Le service Intelligence documentaire s’intègre-t-il à d’autres services Microsoft ?
Oui.
Document Intelligence s’intègre avec les services suivants :
Fonctionnalités d’IA
Puis-je utiliser Document Intelligence avec l’IA générative pour le traitement de documents ?
Oui.
Document Intelligence inclut désormais le modèle génératif personnalisé, un nouveau type de modèle d'extraction qui utilise l'IA générative et les grands modèles de langage (LLM) pour extraire des champs à partir de documents. Dans le passé, vous avez utilisé un modèle RAG (récupération de génération augmentée) pour extraire des champs. Le nouveau modèle fournit des résultats de haute qualité avec un seul appel d’API. Vous pouvez également utiliser une solution d’IA générative de document pour discuter avec vos documents (RAG), générer du contenu captivant à partir de ces documents et accéder aux modèles Azure OpenAI Service sur vos données.
Avec Azure AI Document Intelligence et Azure OpenAI combinés, vous pouvez créer une application d’entreprise pour interagir en toute transparence avec vos documents à l’aide du langage naturel. Vous pouvez facilement trouver des réponses, obtenir des informations précieuses et générer du contenu nouveau et attrayant à partir de documents existants.
Vous trouverez plus d’informations sur le modèle de génération augmentée de récupération ici.
Document Intelligence peut-il aider avec la segmentation sémantique au sein des documents pour la génération de récupération augmentée ?
Oui.
Document Intelligence peut fournir les blocs de construction pour activer la segmentation sémantique. La segmentation sémantique est une étape clé de la génération augmentée de récupération (RAG) pour garantir une amélioration de la densité du contexte et de la pertinence.
Document Intelligence fournit un modèle de disposition qui fournit une décomposition visuelle du document en lignes, paragraphes, sections, en-têtes et pieds de page.
Vous pouvez ensuite choisir de récupérer les résultats au format Markdown pour segmenter davantage le document sur les limites de section ou de paragraphe.
Pour plus d’informations, consultez la vue d’ensemble de la génération augmentée de récupération (RAG) dans Document Intelligence
Document Intelligence Studio
De quelles autorisations spécifiques ai-je besoin pour accéder à Document Intelligence Studio ?
Oui.
Vous avez besoin d’un compte Azure actif et d’un abonnement avec au moins un rôle de Lecteur pour accéder à Document Intelligence Studio.
Pour l’analyse des documents et les modèles prédéfinis, voici les exigences de rôle pour les scénarios utilisateur :
De base
- Utilisateur Cognitive Services : vous avez besoin de ce rôle pour une ressource Intelligence documentaire ou Azure Cognitive Services multiservices pour utiliser Document Intelligence Studio.
Avancé
- Contributeur : vous avez besoin de ce rôle pour créer un groupe de ressources ou une ressource Intelligence documentaire.
Pour les projets de modèle personnalisés, voici les exigences de rôle pour les scénarios utilisateur :
De base
Utilisateur Cognitive Services : vous avez besoin de ce rôle pour une ressource Intelligence documentaire ou Azure Cognitive Services multiservices pour effectuer l’apprentissage d’un modèle ou effectuer des analyses à l’aide des modèles formés.
Contributeur aux données BLOB du stockage : vous avez besoin de ce rôle pour un compte de stockage afin de créer des données de projet et d’étiquette.
Avancé
Contributeur au compte de stockage : vous avez besoin de ce rôle pour que le compte de stockage configure les paramètres de partage de ressources cross-origin (CORS). Si vous réutilisez le même compte de stockage, cela ne sera fait qu’une fois.
Contributeur : vous avez besoin de ce rôle pour créer un groupe de ressources et des ressources. Le rôle Contributeur ou Contributeur de compte de stockage ne vous permet pas d’utiliser votre ressource ou votre compte de stockage Intelligence documentaire si l’authentification locale (basée sur une clé) est désactivée. Vous avez néanmoins toujours besoin des rôles de base (Utilisateur ou utilisatrice de Cognitive Services et Contributeur aux données Blob du stockage) pour utiliser les fonctions sur Studio d’intelligence documentaire.
Pour plus d’informations, consultez Rôles intégrés Microsoft Entra et les sections sur les attributions de rôles Azure dans le Démarrage rapide Document Intelligence Studio.
Puis-je traiter les documents de plus de deux pages dans Document Intelligence Studio ?
Oui, pour les ressources de niveau payant.
Non, pour les ressources de niveau gratuit.
Pour les ressources de niveau gratuit (F0), seules les deux premières pages sont analysées, que vous utilisiez Document Intelligence Studio, l’API REST ou des bibliothèques de client.
Si vous souhaitez analyser toutes les pages d’un document, passez à une ressource payante (S0). Dans Document Intelligence Studio, sélectionnez le bouton Paramètres (engrenage), l’onglet Ressources, puis vérifiez le niveau de prix à utiliser pour analyser vos documents.
Comment puis-je changer de répertoire ou d’abonnement dans Document Intelligence Studio ?
Oui.
Pour modifier un répertoire dans Document Intelligence Studio, sélectionnez le bouton Paramètres (engrenage). Sous Répertoire, sélectionnez le répertoire dans la liste, puis Changer de répertoire. Reconnectez-vous après avoir changé de répertoire.
Pour modifier un abonnement ou une ressource, accédez à l’onglet Ressource sous Paramètres.
Puis-je utiliser Document Intelligence Studio avec une ressource configurée avec un pare-feu ou un réseau virtuel ?
Oui.
Si votre ressource Document Intelligence est configurée avec un pare-feu ou un réseau virtuel, vous devez ajouter l’adresse IP dédiée 20.3.165.95 à la liste d’autorisation du pare-feu pour votre ressource Document Intelligence. Certaines fonctions dans des projets personnalisés (par exemple, l’étiquette automatique, la gestion de projet et les hommes dans la boucle) ne fonctionnent pas si l’accès au réseau public est désactivé.
Quand je charge un fichier dans Document Intelligence Studio en fonction « Extraire de l’URL », puis-je utiliser une URL à partir de mon stockage d’objets blob ?
Oui.
Si votre URL de stockage d’objets blob Azure inclut un jeton SAS et est accessible à partir de réseaux publics. Vous ne pouvez pas utiliser la fonction Extraire pour les comptes de stockage où l’accès à la clé est désactivé ou derrière un pare-feu/réseau virtuel.
Puis-je réutiliser ou personnaliser l’expérience d’étiquetage de Document Intelligence Studio et l’intégrer dans ma propre application ?
Oui.
L’expérience d’étiquetage de Document Intelligence Studio est disponible en open source dans le référentiel Toolkit.
Existe-t-il des points de terminaison d’URL distincts pour les régions de cloud souverain Document Intelligence ?
Oui.
Document Intelligence Studio dispose de points de terminaison d’URL distincts pour les régions de cloud souverain :
URL pour le cloud Azure US Government (Azure Fairfax) : Document Intelligence Studio US Government.
URL Microsoft Azure gérée par 21Vianet (Azure Chine) : Document Intelligence Studio China.
Développement d’application
Puis-je développer des applications avec Azure AI Document Intelligence en utilisant les dernières options de développement ?
Oui.
Intelligence documentaire offre les toutes dernières options de développement sur les plateformes suivantes :
[REST API](/rest/api/aiservices/document-models/analyze-document?view=rest-aiservices-2023-07-31 &preserve-view=true&tabs=HTTP)
Puis-je migrer mon application vers la dernière version de Document Intelligence ?
Oui.
Le tableau suivant comporte des liens menant à des instructions détaillées qui expliquent comment migrer vers la dernière version de Document Intelligence :
Langue/API | Guide de migration |
---|---|
API REST | v3 |
C#/.NET | 4.0.0 |
Java | 4.0.0 |
JavaScript | 4.0.0 |
Python | 3.2.0 |
Puis-je spécifier une plage de pages à analyser dans un document ?
Oui.
Utilisez le paramètre pages
(pris en charge dans les versions 2.1, 3.0 et ultérieures de l’API REST) et spécifiez des pages pour les documents PDF et TIFF multipages. Les entrées acceptées comprennent les plages suivantes :
- Pages uniques. Par exemple, si vous spécifiez
1, 2
, les pages 1 et 2 sont traitées. - Plages finies. Par exemple, si vous spécifiez
2-5
, les pages 2 à 5 sont traitées. - Plages ouvertes. Par exemple, si vous spécifiez
5-
, toutes les pages à partir de la page 5 sont traitées. Si vous spécifiez-10
, les pages 1 à 10 sont traitées.
Vous pouvez associer ces paramètres, et les plages peuvent se chevaucher. Par exemple, si vous spécifiez -5, 1, 3, 5-10
, les pages 1 à 10 sont traitées.
Le service accepte la demande s’il peut traiter au moins une page du document. Par exemple, l’utilisation de 5-100
sur un document de cinq pages est une entrée valide dans laquelle la page 5 est traitée.
Si vous ne fournissez pas de plage de pages, l’ensemble du document est traité.
Est-il préférable d’utiliser Document Intelligence Studio plutôt que l’outil d’étiquetage d’échantillons FOTT pour mon projet ?
Oui.
Nous recommandons Document Intelligence Studio dans la majorité des cas, car il permet de limiter la durée de configuration des ressources Document Intelligence et des services de stockage.
Réservez l’outil Form OCR Testing Tool (FOTT) aux scénarios suivants :
Vos données doivent rester sur un seul ordinateur. Utilisez l’Outil d’étiquetage d’échantillon FOTT et un conteneur Intelligence documentaire.
Votre projet dépend fortement de Document Intelligence V2.1 et vous souhaitez continuer à utiliser les API v2.1.
Existe-t-il des bonnes pratiques pour atténuer la limitation de requêtes ?
Oui.
Intelligence documentaire utilise la mise à l’échelle automatique pour fournir les ressources de calcul requises à la demande, tout en réduisant les coûts pour les clients. Pour atténuer la limitation de requêtes au cours de la mise à l’échelle automatique, nous vous recommandons l’approche suivante :
Implémentez une logique de nouvelle tentative dans votre application.
Si vous constatez que le nombre de demandes
POST
est limité, envisagez d’ajouter un délai entre les demandes.Augmentez graduellement la charge de travail. Évitez les variations brutales.
Créez une demande de support pour augmenter la limite du nombre de transactions par seconde (TPS).
En savoir plus sur les quotas et les limites du service Document Intelligence.
Modèles personnalisés
Puis-je améliorer un score d’exactitude estimé pour un modèle personnalisé ?
Oui.
La variance de la structure visuelle de vos documents peut influencer la précision d’un modèle. Voici quelques conseils :
Incluez toutes les variantes d’un document dans le jeu de données d’apprentissage. Les variantes comprennent notamment les différents formats (par exemple des fichiers PDF numériques et numérisés).
Séparez les types de documents visuellement distincts et effectuez l'apprentissage de différents modèles.
Vérifiez que vous n’avez pas d’étiquettes superflues.
Dans le cas des étiquettes de signature et de région, n’incluez pas le texte environnant.
Pour plus d’informations, consultez Scores d’exactitude et de confiance.
Peut-on effectuer à nouveau l'apprentissage d’un modèle personnalisé ?
Non.
Intelligence documentaire ne comporte pas d’opération explicite de nouvel apprentissage. Chaque opération d’apprentissage génère un nouveau modèle.
Si vous constatez que votre modèle a besoin d’être réentraîné, vous pouvez ajouter des échantillons supplémentaires à votre jeu de données d’entraînement et entraîner un nouveau modèle.
Vous pouvez aussi créer un modèle à composer avec votre modèle d’origine comme suit :
Créez un jeu de données pour votre nouveau modèle.
Étiquetez un nouveau modèle et effectuez-en l’apprentissage.
Vérifiez que le nouveau modèle fonctionne correctement pour vos types de documents.
Composez votre nouveau modèle avec le modèle existant dans un point de terminaison unique. Intelligence documentaire peut ensuite déterminer le modèle le mieux adapté pour chaque document à analyser.
Pour plus d’informations, consultez Modèles composés.
Comment puis-je déplacer mes modèles entraînés d’un environnement vers un autre (par exemple d’un environnement bêta vers un environnement de production) ?
Oui.
Vous pouvez utiliser l’API Copier pour copier des modèles personnalisés d’un compte Document Intelligence vers d’autres situés dans n’importe quelle région géographique prise en charge. Pour obtenir des instructions détaillées, consultez Récupération d’urgence.
L’opération de copie est limitée à la copie de modèles dans l’environnement cloud spécifique dans lequel vous avez formé le modèle. Par exemple, la copie de modèles du cloud public vers Azure Government Cloud n’est pas prise en charge.
Est-ce que je suis facturé lors de l’entraînement d’un modèle personnalisé ?
Oui.
L’entraînement est gratuit pour tous les modèles de modèle personnalisé et modèle génératif personnalisé. Toutefois, la création du jeu de données d’entraînement pour tous les modèles nécessite l’exécution du modèle de disposition sur les documents d’entraînement. Les clients sont responsables de ce coût.
Les modèles générateurs personnalisés s’appuient également sur la fonctionnalité d’étiquette automatique pour accélérer la génération du jeu de données étiqueté. Il existe un coût associé à cette action. Bien que l’opération de génération pour les modèles de modèle et de génération soit gratuite, la création du jeu de données étiqueté peut entraîner des coûts minimes.
Pour v4.0 2024-07-31-preview
, les modèles neuronaux personnalisés peuvent être entraînés gratuitement pendant un maximum de 10 heures. Que vous effectuiez l’apprentissage d’un modèle unique pendant les 10 heures ou que vous effectuiez l’apprentissage de plusieurs modèles pendant une durée totale de 10 heures, vous ne serez pas facturé pour les 10 premières heures. Après avoir utilisé les 10 heures gratuites, vous serez automatiquement facturé par heure d’apprentissage supplémentaire. Pour plus d’informations sur les tarifs, consultez la page de tarification. Cette nouvelle fonctionnalité d’entraînement payante permet aux modèles d’entraînement de traiter des documents plus volumineux pendant une durée prolongée. Pour plus d’informations sur cette fonctionnalité d’entraînement payante, consultez la section sur la facturation des modèles neuronaux personnalisés.
Pour v3.0 2022-08-31
ou v3.1 2023-07-31
, les modèles neuronaux personnalisés peuvent être entraînés gratuitement pendant un maximum de 20 sessions d’entraînement, chaque session étant limitée à 30 minutes de durée d’entraînement. Une fois que vous avez utilisé toutes les 20 sessions d’entraînement, vous pouvez envoyer un ticket de support Azure pour augmenter la limite de session d’entraînement. Pour augmenter la limite, deux sessions d’apprentissage sont considérés comme une heure d’apprentissage et vous êtes facturé pour deux sessions / une heure d’apprentissage. Pour plus d’informations sur les tarifs, consultez la [page de tarification]. Pour plus d’informations sur les façons d’augmenter la limite, consultez la section sur la facturation des modèles neuronaux personnalisés. Pour v3.0
et v3.1
, la fonctionnalité d’apprentissage payante n’est pas disponible. La fonctionnalité d’entraînement payante pour le modèle neuronal personnalisé est disponible uniquement sur v4.0
.
Compte de stockage
Le jeton de signature d’accès partagé (SAP) que j’utilise pour authentifier mon compte de stockage présente-t-il un délai d’expiration ?
Oui.
Lorsque vous créez une signature d’accès partagé (SAP), la durée par défaut est de 48 heures. Passé ce délai, vous devrez créer un nouveau jeton.
Envisagez de définir une durée plus longue pour le délai pendant lequel vous utilisez votre compte de stockage avec Intelligence documentaire.
Document Intelligence peut-il accéder aux données contenues dans mon compte de stockage s’il se trouve derrière un réseau virtuel ou un pare-feu ?
Non, pas directement.
Document Intelligence ne peut pas accéder à votre compte de stockage s’il est protégé par un réseau virtuel ou un pare-feu.
Cependant, l’accès et l’authentification des comptes de stockage Azure privés prennent en charge les identités managées pour les ressources Azure. Lorsque vous utilisez une identité managée, le service Intelligence documentaire peut accéder à votre compte de stockage à l’aide des informations d’identification affectées.
Si vous envisagez d’analyser les données de votre compte de stockage privé à l’aide de FOTT, vous devez déployer l’outil derrière le réseau virtuel ou le pare-feu.
Découvrez comment créer et utiliser une identité managée pour votre ressource Document Intelligence.
conteneurs
Y a-t-il une différence entre les conteneurs déconnectés et les conteneurs connectés ?
Oui.
Même si les capacités des modèles sont identiques pour les conteneurs connectés et les conteneurs déconnectés, les méthodes de facturation et de connectivité sont différentes :
Les conteneurs connectés envoient des informations de facturation à Azure à l’aide d’une ressource Intelligence documentaire de votre compte Azure. Avec les conteneurs connectés, l’envoi des informations de facturation à Azure nécessite une connexion Internet. Les conteneurs connectés Intelligence documentaire envoient des informations de facturation à Azure à l’aide d’une ressource Intelligence documentaire de votre compte Azure. Les conteneurs connectés n’envoient pas de données client à Microsoft, telles que l’image ou le texte analysé. Pour obtenir un exemple des informations que les conteneurs connectés envoient à Microsoft pour la facturation, consultez la FAQ sur les conteneurs Azure AI.
Les conteneurs déconnectés vous permettent d’utiliser des API non connectées à Internet. Les informations de facturation ne sont pas envoyées via Internet. Au lieu de cela, les frais sont basés sur un niveau d’engagement payant. À l’heure actuelle, l’utilisation d’un conteneur déconnecté est réservée aux modèles personnalisés et de facturation Intelligence documentaire.
Puis-je utiliser le stockage local pour le conteneur de l’outil d’étiquetage d’échantillon (FOTT) d’Intelligence documentaire ?
Oui.
FOTT a une version qui utilise le stockage local. La version doit être installée sur un ordinateur Windows. Vous pouvez l’installer à partir de cet emplacement.
Sur la page du projet, spécifiez l’URI du dossier d’étiquettes au format /shared ou /shared/sub-dir si vos fichiers d’étiquetage se trouvent dans un sous-répertoire. Le comportement de tous les autres outils d’étiquetage d’échantillon d’Intelligence documentaire est le même que celui du service hébergé.
Existe-t-il une bonne pratique pour le scale-up ?
Oui.
Pour les appels asynchrones, vous pouvez exécuter plusieurs conteneurs avec un stockage partagé. Le conteneur qui traite l’appel POST
Analyze stocke la sortie dans le stockage. Ensuite, n’importe quel autre conteneur peut récupérer les résultats du stockage et servir les appels GET
. Ainsi, l’ID de requête n’est pas lié à un conteneur.
Pour les appels synchrones, vous pouvez exécuter plusieurs conteneurs, mais un seul conteneur répond à une demande. Étant donné qu’il s’agit d’un appel bloquant, n’importe quel conteneur du pool peut répondre à la requête et envoyer la réponse. Ici, un seul conteneur est lié à une requête à la fois et aucune interrogation n’est requise.
Puis-je configurer des conteneurs avec un stockage partagé ?
Oui.
Les conteneurs utilisent la propriété Mounts: Shared
lors du démarrage pour spécifier le stockage partagé pour stocker les fichiers de traitement. Pour voir l’utilisation de cette propriété, reportez-vous à la documentation sur les conteneurs.
Sécurité et confidentialité
Le service Intelligence documentaire stocke-t-il mes données ?
Oui, pour un temps limité.
Pour toutes les fonctionnalités, Intelligence documentaire stocke temporairement les données et les résultats dans Stockage Azure, dans la même région que la requête. Vos données sont ensuite supprimées dans les 24 heures qui suivent le moment où vous envoyez une demande d’analyse.
En savoir plus à propos des données, de la confidentialité et de la sécurité avec Intelligence documentaire.
Pour les modèles personnalisés entraînés, les sorties intermédiaires après analyse et étiquetage sont stockées au même emplacement Stockage Azure que vos données d’entraînement. Les modèles personnalisés entraînés sont stockés dans Stockage Azure dans la même région et sont isolés logiquement avec votre abonnement Azure et vos informations d’identification d’API.
Aide et support supplémentaires
Y a-t-il d’autres ressources disponibles pour apporter des réponses aux questions relatives à Azure AI Document Intelligence ?
Oui.
Vous trouverez dans Microsoft Q&A des questions techniques et les réponses. Vous pouvez filtrer les requêtes spécifiques à Intelligence documentaire.
Puis-je envoyer des commentaires directs si le service ne reconnaît pas un texte en particulier ou s’il le reconnaît de façon incorrecte pendant l’étiquetage de documents ?
Oui.
Nous mettons à jour et améliorons constamment les modèles Document Intelligence. Vous pouvez envoyer un e-mail à l’équipe Intelligence documentaire. Si possible, partagez un exemple de document mettant en évidence le problème.