Nouveautés d’Azure AI Intelligence documentaire

Article
02/29/2024

Ce contenu s’applique à :v4.0 (préversion)v3.1 (GA)v3.0 (GA)v2.1 (GA)

Le service Intelligence documentaire est mis à jour régulièrement. Ajoutez cette page aux favoris pour vous tenir informé des notes de publication, des améliorations apportées aux fonctionnalités et de la plus récente documentation.

Important

Les versions d’API en préversion sont mises hors service une fois l’API de disponibilité générale publiée. La version d’API 2023-02-28-preview va être mise hors service. Si vous utilisez toujours l’API en préversion ou les versions de Kit de développement logiciel (SDK) associées, veuillez mettre à jour votre code pour cibler la dernière version d’API 2023-07-31 (disponibilité générale).

Février 2024

L’API REST2024-02-29-preview d’Intelligence documentaire est désormais disponible. L’API de préversion introduit de nouvelles fonctionnalités mises à jour :

La version préliminaire publique 2024-02-29-preview est actuellement disponible uniquement dans les régions Azure suivantes :
- USA Est
- USA Ouest 2
- Europe Ouest
Le modèle de disposition prend désormais en charge la détection de figure et l’analyse hiérarchique de la structure des documents (sections et sous-sections). La qualité de l’ordre de lecture et de la détection des rôles logiques par l’IA est également améliorée.
Modèles d’extraction personnalisés
- Les modèles d’extraction personnalisés prennent désormais en charge les scores de confiance de cellule, de ligne et de table. En savoir plus sur la confiance de table, de ligne et de cellule.
- Les modèles d’extraction personnalisés ont des améliorations de la qualité de l’IA pour l’extraction de champs.
- Le modèle d’extraction de modèle personnalisé prend désormais en charge l’extraction de champs qui se chevauchent. En savoir plus sur les champs qui se chevauchent et leur utilisation.
Modèle de classification personnalisé
- Le modèle de classification personnalisé prend désormais en charge la formation incrémentielle pour les scénarios où vous devez mettre à jour le modèle classifieur avec des exemples supplémentaires ou des classes supplémentaires. En savoir plus sur la formation incrémentielle.
- Le modèle de classification personnalisé ajoute la prise en charge des types de documents Office (.docx, .pptx et .xls). En savoir plus sur la prise en charge des types de documents développés.

Modèle de facture

Prise en charge des nouveaux paramètres régionaux :

Paramètres régionaux	Code
Arabe	(`ar`)
Bulgare	(`bg`)
Grec	(`el`)
Hébreu	(`he`)
Macédonien	(`mk`)
Russe (`ru`)	Serbe (cyrillique) (`sr-cyrl`)
Ukrainien	(`uk`)
Thaï	(`th`)
Turc	(`tr`)
Vietnamien	(`vi`)

Prise en charge des nouveaux codes monétaires :

Devise	Paramètres régionaux	Code
BAM	Mark convertible de Bosnie	(`ba`)
BGN	Lev bulgare	(`bg`)
ILS	Nouveau shekel israélien	(`il`)
MKD	Denar macédonien	(`mk`)
RUB	Rouble russe	(`ru`)
THB	Baht thaïlandais	(`th`)
TRY	Livre turque	(`tr`)
UAH	Hryvnia ukrainienne	(`ua`)
VND	Dong vietnamien	(`vn`)

Expansion des articles fiscaux pour l’Allemagne (de), l’Espagne (es), le Portugal (pt), le Canada anglais en-CA.

Modèle d’ID
- Prise en charge des champs développés pour les ID et permis de conduire de l’Union européenne.
🆕 Documents hypothécaires
- Extraire des informations du formulaire 1003 – Uniform Residential Loan Application.
- Extraire des informations du formulaire 1008 – Uniform Underwriting and Transmittal Summary.
- Extraire des informations à partir de la divulgation de clôture de l’hypothèque.
🆕 Modèle de carte de crédit
- Extraire des informations à partir de cartes bancaires.
🆕 Certificat de mariage
- Nouveau prédéfini pour extraire des informations à partir des certificats de mariage.

Décembre 2023

Les bibliothèques de clients Intelligence documentaire ciblant l’API REST 2023-10-31-preview sont désormais disponibles.

Novembre 2023

L’API REST31-10-2023-préversiond’Intelligence documentaire est désormais disponible. L’API de préversion introduit de nouvelles fonctionnalités mises à jour :

La version préliminaire publique 2023-10-31-préversion est actuellement disponible uniquement dans les régions Azure suivantes :
- USA Est
- USA Ouest 2
- Europe Ouest
Modèle Read
- Extension linguistique pour l’écriture manuscrite : russe (ru), arabe (ar), thaï (th).
- Conformité au Cyber Executive Order (EO).
Modèle de disposition
- Prise en charge des fichiers Office et HTML.
- Prise en charge de la sortie markdown.
- Améliorations de l’extraction de table, de l’ordre de lecture et de la détection des titres de section.
- Dans Intelligence documentaire 2023-10-31-preview, le modèle de document général (prebuilt-document) est déconseillé. À l’avenir, pour extraire des paires clé-valeur à partir de documents, utilisez le modèle prebuilt-layout avec le paramètre de chaîne de requête features=keyValuePairs facultatif activé.
Modèle de reçu
- Extrait maintenant la devise pour tous les champs liés aux prix.
Modèle de carte d’assurance maladie
- Prise en charge de nouveaux champs pour les informations de Medicare et Medicaid.
Modèles de documents fiscaux américains
- Nouveau modèle fiscal 1099. Prend en charge le formulaire de base 1099 et variantes suivantes : A, B, C, CAP, DIV, G, H, INT, K, LS, LTC, MISC, NEC, OID, PATR, Q, QA, R, S, SA, SB.
Modèle de facture
- Prise en charge du champ KVK.
- Prise en charge du champ BPAY.
- Nombreuses améliorations relatives aux champs.
Classification personnalisée
- Prise en charge de documents multilingues.
- Nouvelles options de fractionnement de page : fractionnement automatique, toujours fractionner par page, aucun fractionnement.
Fonctionnalités du module complémentaire
- Des champs de requête sont disponibles avec la version 2023-10-31-preview.
- Les fonctionnalités de module complémentaire sont disponibles dans tous les modèles, à l’exception du modèle de lecture.

Remarque

Avec la publication en disponibilité générale de l’API 2022-08-31, les API en préversion associées sont dépréciées. Si vous utilisez les versions de l’API 2021-09-30-preview, 2022-01-30-preview, ou 2022-06-30-preview, mettez à jour vos applications pour cibler la version d’API 2022-08-31. Pour plus d’informations, consultez le guide de migration.

Juillet 2023

Remarque

Form Recognizer est désormais Azure AI Intelligence Documentaire !

Les services Azure AI Document englobent tout ce qui était auparavant connu sous le nom de Cognitive Services et Azure Applied AI Services.
Il n’y a aucune modification de la tarification.
Les noms Cognitive Services et Azure Applied AI continuent d’être utilisés dans la facturation Azure, l’analyse des coûts, la liste de prix et les API de prix.
Aucun changement cassant ne concerne les interfaces de programmation d’applications (API) et les bibliothèques de clients.
Certaines plateformes attendent toujours la mise à jour du changement de nom. Toutes les mention de Form Recognizer ou Intelligence documentaire dans notre documentation font référence au même service Azure.

Intelligence documentaire v3.1 (GA)

L’API Intelligence documentaire version 3.1 est désormais en disponibilité générale (GA) ! La version de l’API correspond à 2023-07-31. L’API v3.1 introduit de nouvelles fonctionnalités mises à jour :

Les API Intelligence documentaire sont désormais plus modulaires et prennent en charge des fonctionnalités facultatives. Vous pouvez désormais personnaliser la sortie pour inclure spécifiquement les fonctionnalités dont vous avez besoin. Découvrez-en davantage sur les paramètres facultatifs.
API de classification de documents pour fractionner un fichier unique en documents individuels. Découvrez-en davantage sur la classification de documents.
Modèle de contrat prédéfini.
Modèle de formulaire fiscal américain 1098 prédéfini.
Prise en charge des types de fichiers Office avec l’API Read.
Reconnaissance de codes-barres dans les documents.
Fonctionnalité de module complémentaire de reconnaissance de formule.
Fonctionnalité de module complémentaire de reconnaissance de police.
Prise en charge des documents haute résolution.
Les modèles neuronaux personnalisés nécessitent désormais un seul exemple étiqueté pour l’apprentissage.
Extension du langage des modèles neuronaux personnalisés. Entraîner un modèle neuronal pour des documents en 30 langues. Pour obtenir la liste complète des langues prises en charge, consultez Prise en charge linguistique.
🆕 Modèle prédéfini de carte d’assurance maladie.
Extension des paramètres régionaux du modèle de facture prédéfini.
Développement du langage et des paramètres régionaux du modèle de réception prédéfini avec plus de 100 langues prises en charge.
Le modèle d’ID prédéfini prend désormais en charge les ID européens.

Mises à jour de l’expérience utilisateur du studio Intelligence documentaire

✔️ Options d’analyse

Document Intelligence prend désormais en charge des fonctionnalités d’analyse plus sophistiquées et Studio autorise un point d’entrée (bouton Options d’analyse) pour configurer facilement les fonctionnalités du module complémentaire.
En fonction du scénario d’extraction de document, configurez la plage d’analyse, la plage de pages de document, la détection facultative et les fonctionnalités de détection Premium.

Remarque

L’extraction de police n’est pas visualisées dans Document Intelligence Studio. Toutefois, vous pouvez vérifier la section de styles de la sortie JSON pour obtenir les résultats de la détection de police.

✔️ Étiquetage automatique des documents avec des modèles prédéfinis ou l’un de vos propres modèles

Dans la page d’étiquetage des modèles d’extraction personnalisés, vous pouvez désormais étiqueter automatiquement vos documents à l’aide de l’un des modèles prédéfinis du service Intelligence documentaire ou de modèles que vous avez précédemment entraînés.
Pour certains documents, il peut y avoir des étiquettes en double après l’exécution de l’étiquette automatique. Veillez à modifier les étiquettes afin qu’il n’y ait pas d’étiquettes en double dans la page d’étiquetage par la suite.

✔️ Tables d’étiquetage automatique

Dans la page d’étiquetage du modèle d’extraction personnalisée, vous pouvez désormais étiqueter automatiquement les tables du document sans avoir à étiqueter les tables manuellement.

✔️ Ajouter des fichiers de test directement à votre jeu de données d’entraînement

Une fois que vous avez entraîné un modèle d’extraction personnalisé, utilisez la page de test pour améliorer la qualité de votre modèle en chargeant des documents de test dans un jeu de données d’entraînement si nécessaire.
Si un score de confiance faible est retourné pour certaines étiquettes, assurez-vous qu’elles sont correctement étiquetées. Si ce n’est pas le cas, ajoutez-les au jeu de données d’entraînement et réétiquetez pour améliorer la qualité du modèle.

Animated screenshot showing how to add test files to training dataset.

✔️ Utiliser les options de liste de documents et les filtres dans les projets personnalisés

Utilisez la page d’étiquetage du modèle d’extraction personnalisé. Vous pouvez désormais naviguer facilement dans vos documents de formation en utilisant la fonctionnalité de recherche, de filtrage et de tri.
Utilisez le mode grille pour afficher un aperçu des documents ou utilisez l’affichage liste pour faire défiler les documents plus facilement.

✔️ Partage de projet

Partagez facilement des projets d’extraction personnalisés. Pour plus d’informations, consultez Partage de projet avec des modèles personnalisés.

Mai 2023

Présentation de la documentation actualisée pour la build 2023

🆕 Vue d’ensemble d’Intelligence documentaire : navigation améliorée, points d’accès structurés et images enrichies.
🆕 Choisir un modèle Intelligence documentaire fournit des conseils pour choisir la meilleure solution Intelligence documentaire pour vos projets et flux de travail.

Avril 2023

Annonce de la publication de préversion publique de bibliothèque client la plus récente d’Intelligence documentaire

L’API REST Intelligence documentaire version 2023-02-28-preview prend en charge les bibliothèques de clients de la préversion publique. Cette version inclut les nouvelles fonctionnalités et capacités suivantes disponibles pour les bibliothèques de clients .NET/C# (4.1.0-beta-1), Java (4.1.0-beta-1), JavaScript (4.1.0-beta-1) et Python (3.3.0b.1) :
Pour plus d’informations, consultez leKit de développement logiciel (SDK) Intelligence documentaire (préversion publique) et les Notes de publication de mars 2023.

Mars 2023

Important

Les fonctionnalités 2023-02-28-preview sont actuellement disponibles uniquement dans les régions suivantes :

Europe Ouest
USA Ouest 2
USA Est

Modèle de classification personnalisée est une nouvelle capacité dans Intelligence documentaire à partir de l’API 2023-02-28-preview. Essayez la fonctionnalité de classification de documents à l’aide du studio Intelligence documentaire ou de l’API REST.
Les fonctionnalités Champs de requête ajoutées au modèle Document général utilisent les modèles Azure Open AI pour extraire des champs spécifiques de documents. Essayez la fonctionnalité Documents généraux avec champs de requête à l’aide du studio Intelligence documentaire. Les champs de requête sont actuellement actifs uniquement pour les ressources de la région East US.
Fonctionnalités de modules complémentaires :
- L’extraction de police est désormais reconnue avec l’API 2023-02-28-preview.
- L’extraction de formule est désormais reconnue avec l’API 2023-02-28-preview.
- L’extraction haute résolution est désormais reconnue avec l’API 2023-02-28-preview.
Mises à jour des modèles d’extraction personnalisés :
- Les Modèles neuraux personnalisés prennent désormais en charge les langues ajoutées pour l’apprentissage et l’analyse. Effectuez l’apprentissage de modèles neuronaux pour le néerlandais, le français, l’allemand, l’italien et l’espagnol.
- Les Modèles personnalisés disposent désormais d’une fonctionnalité de détection de signature améliorée.
Mises à jour de Document Intelligence Studio :
- En plus de la prise en charge de toutes les nouvelles fonctionnalités, comme la classification et les champs de requête, Studio permet désormais le partage de projet pour les projets de modèles personnalisés.
- Nouveaux modèles ajoutés dans la préversion contrôlée : Cartes de vaccination, Contrats, Formulaire fiscal US 1098, Formulaire fiscal US 1098-E et Formulaire fiscal US 1098-T. Pour demander un accès aux modèles de préversion contrôlés, remplissez et envoyez le Formulaire de demande de préversion privée Intelligence documentaire.
Mises à jour du modèle de reçu :
- Le modèle de reçu prend désormais en charge les reçus thermiques.
- Le modèle de reçu prend désormais en charge 18 langues et trois langues régionales (anglais, français, portugais).
- Le modèle de reçu prend désormais en charge l’extraction TaxDetails.
Le modèle de disposition améliore désormais la reconnaissance des tables.
Le modèle de lecture améliore désormais la reconnaissance des caractères à un chiffre.

Février 2023

Certains conteneurs Intelligence documentaire pour la version 3.0 sont désormais disponibles !
Actuellement, les conteneurs Read v3.0 et Layout v3.0 sont disponibles.

Pour plus d’informations, consultezInstaller et exécuter des conteneurs Intelligence documentaire.

Janvier 2023

Modèle de reçu prédéfini : langues prises en charge ajoutées. Le modèle de reçu prend désormais en charge ces langues et paramètres régionaux ajoutés
- Japonais : Japon (ja-JP)
- Français : Canada (fr-CA)
- Néerlandais : Pays-Bas (nl-NL)
- Anglais : Émirats arabes unis (en-AE)
- Portugais : Brésil (pt-BR)
Modèle de facture prédéfini : langues prises en charge ajoutées. Le modèle de facture prend désormais en charge ces langues et paramètres régionaux ajoutés
- Anglais : États-Unis (en-US), Australie (en-AU), Canada (en-CA), Royaume-Uni (en-UK), Inde (en-IN)
- Espagnol - Espagne (es-ES)
- Français - France (fr-FR)
- Italien - Italie (it-IT)
- Portugais - Portugal (pt-PT)
- Néerlandais : Pays-Bas (nl-NL)
Modèle de facture prédéfini : champs reconnus ajoutés. Le modèle de facture reconnaît maintenant ces champs ajoutés
- Code devise
- Modes de paiement
- Remise totale
- Éléments fiscaux (en-IN uniquement)
Modèle d’ID prédéfini : ajout de types de documents pris en charge. Le modèle d’ID prend désormais en charge ces types de documents ajoutés
- ID militaire des États-Unis

Conseil

Toutes les mises à jour de janvier 2023 sont disponibles avec l’API REST version 2022-08-31 (disponibilité générale).

Modèle de réception prédéfini : prise en charge de langues supplémentaires :

Le modèle de reçu prédéfini prend désormais en charge les langues suivantes :
- Anglais : Émirats arabes unis (en-AE)
- Néerlandais : Pays-Bas (nl-NL)
- Français : Canada (fr-CA)
- Allemand (de-DE)
- Italien (it-IT)
- Japonais : Japon (ja-JP)
- Portugais : Brésil (pt-BR)
Modèle de facture prédéfini : prise en charge de langues supplémentaires et extractions de champs

Le modèle de facture prédéfini prend désormais en charge les langues suivantes :
- Anglais : Australie (en-AU), Canada (en-CA), Royaume-Uni (en-UK), Inde (en-IN)
- Portugais : Brésil (pt-BR)
Le modèle de facture prédéfini prend désormais en charge les extractions de champs suivantes :
- Code devise
- Modes de paiement
- Remise totale
- Éléments fiscaux (en-IN uniquement)
Modèle de document d’ID prédéfini : prise en charge de types de documents supplémentaires

Le modèle de document d’ID prédéfini prend désormais en charge les types de documents suivants :
- Expansion des permis de conduire prenant en charge l’Inde, le Canada, le Royaume-Uni et l’Australie
- Cartes d’identité et documents militaires américains
- Cartes d’identité et documents indiens (PAN et Aadhaar)
- Cartes d’identité et documents d’Australie (carte photo, pièce d’identité de passe-clé)
- Cartes d’identité et documents canadiens (carte d’identité, carte Maple)
- Cartes d’identité et documents au Royaume-Uni (carte d’identité nationale/régionale)

Décembre 2022

Mises à jour du studio Intelligence documentaire

La version de décembre de Studio Intelligence documentaire inclut les dernières mises à jour de Studio Intelligence documentaire. Il existe des améliorations significatives de l’expérience utilisateur, principalement avec la prise en charge de l’étiquetage de modèle personnalisé.
- Étendue de pages. Studio prend désormais en charge l’analyse de pages spécifiées d’un document.
- Étiquetage de modèle personnalisé :
  - Exécuter automatiquement l’API Disposition. Vous pouvez choisir d’exécuter automatiquement l’API Disposition pour tous les documents de votre stockage d’objets blob pendant le processus de configuration d’un modèle personnalisé.
  - Rechercher. Studio inclut désormais des fonctionnalités de recherche pour localiser des mots dans un document. Cette amélioration facilite la navigation lors de l’étiquetage.
  - Navigation. Vous pouvez sélectionner des étiquettes pour cibler des mots étiquetés dans un document.
  - Étiquetage automatique de table. Après la sélection de l’icône de table dans un document, vous pouvez choisir d’étiqueter automatiquement la table extraite dans la vue étiquetage.
  - Sous-types d’étiquettes et sous-types de deuxième niveau Studio prend désormais en charge les sous-types pour les colonnes de table, les lignes de table et les sous-types de deuxième niveau pour des types tels que les dates et les nombres.
La génération de modèles neuronaux personnalisés est désormais prise en charge dans la région US Gov Virginie.
Les versions d’API en préversion 2022-01-30-preview et 2021-09-30-preview seront mis hors service le 31 janvier 2023. Effectuez une mise à jour vers la version d’API 2022-08-31 pour éviter toute interruption de service.

Novembre 2022

Annonce de la dernière version stable des bibliothèques Azure AI Intelligence documentaire
- Cette version inclut des modifications et des mises à jour importantes pour les bibliothèques de clients .NET, Java, JavaScript et Python. Pour plus d’informations, consultezAzure SDK DevBlog.
- Les améliorations les plus significatives sont l’introduction de deux nouveaux clients, le DocumentAnalysisClient et .DocumentModelAdministrationClient

Octobre 2022

Contenu versionné d’Intelligence documentaire
- La documentation sur Intelligence documentaire est mise à jour pour présenter une expérience versionnée. À présent, vous pouvez choisir d’afficher le contenu ciblant l’expérience v3.0 GA ou l’expérience v2.1 GA. L’expérience v3.0 est la valeur par défaut.
Exemple de code Studio Intelligence documentaire
- L’exemple de code de l’expérience d’étiquetage Studio Intelligence documentaire est désormais disponible sur GitHub. Les clients peuvent développer et intégrer Intelligence documentaire dans leur propre expérience utilisateur ou générer leur propre expérience utilisateur à l’aide de l’exemple de code Studio Intelligence documentaire.
Extension linguistique
- Avec la dernière préversion, les modèles Read avec reconnaissance optique de caractères, de mise en page et de modèles personnalisés d’Intelligence documentaire prennent en charge 134 nouvelles langues. Ces ajouts linguistiques incluent le grec, le letton, le serbe, le thaï, l’ukrainien et le vietnamien, ainsi que plusieurs langues latines et cyrilliques. Intelligence documentaire offre désormais un total de 299 langues prises en charge dans les versions les plus récentes en disponibilité générale et en préversion. Reportez-vous à la page langues prises en charge pour afficher toutes les langues prises en charge.
- Utilisez le paramètre api-version=2022-06-30-preview d’API REST lors de l’utilisation de l’API ou du Kit de développement logiciel (SDK) correspondant pour prendre en charge les nouvelles langues de vos applications.
Nouveau modèle de contrat prédéfini
- Nouveau modèle prédéfini qui extrait des informations des contrats comme les parties, le titre, l’ID de contrat, la date d’exécution et plus encore. Le modèle de contrats est actuellement en préversion, demandez l’accès ici.
Expansion régionale pour l’entraînement des modèles neuronaux personnalisés
- L’entraînement des modèles neuronaux personnalisés est désormais pris en charge dans des régions supplémentaires.
  - USA Est
  - USA Est 2
  - Gouvernement des États-Unis – Arizona

Septembre 2022

Remarque

À compter de la version 4.0.0, un nouveau jeu de clients a été introduit pour tirer parti des fonctionnalités les plus récentes du service Intelligence documentaire.

La version GA de la version SDK 4.0.0 inclut les mises à jour suivantes :

Version 4.0.0 GA (2022-09-08)
Prend en charge les clients API REST v3.0 et v2.0

Package (NuGet)

Journal des modifications/Historique des versions

Guide de migration

ReadMe

Exemples

L’extension de région pour l’apprentissage de modèles neuronaux personnalisés est désormais prise en charge dans six nouvelles régions
- Australie Est
- USA Centre
- Asie Est
- France Centre
- Sud du Royaume-Uni
- USA Ouest 2
- Pour obtenir la liste complète des régions où l’entraînement est pris en charge, consultez Modèles neuronaux personnalisés.
- Publication de la version 4.0.0 GA du SDK Intelligence documentaire :
  - Les bibliothèques de clients Intelligence documentaire versions 4.0.0 (.NET/C#, Java, JavaScript) et 3.2.0 (Python) sont en disponibilité générale et prêtes à être utilisées dans les applications de production.
  - Pour plus d’informations sur les bibliothèques de clients Intelligence documentaire, consultez la vue d’ensemble du SDK.
  - Mettez à jour vos applications à l’aide du guide de migration de votre langage de programmation.

Août 2022

Version préliminaire d’août 2022 de la bêta du SDK Intelligence documentaire inclut les mises à jour suivantes :

Version 4.0.0-beta.5 (09/08/2022)

Journal des modifications/Historique des versions

Package (NuGet)

Documentation de référence du SDK

Intelligence documentaire v3.0 en disponibilité générale
- L’API REST Intelligence documentaire v3.0 est désormais en disponibilité générale, ce qui signifie qu’elle peut être utilisée dans les applications de production. Mettez à jour vos applications avec l’API REST version 2022-08-31.
Mises à jour du studio Intelligence documentaire
- Étapes suivantes. Sous chaque page de modèle, Studio comporte désormais une section Étapes suivantes. Les utilisateurs peuvent rapidement consulter des exemples de code, des instructions de résolution des problèmes et des informations tarifaires.
- Modèles personnalisés. Studio permet désormais de réorganiser les étiquettes dans les projets de modèles personnalisés afin d’améliorer l’efficacité de l’étiquetage.
- Copie des modèles Les modèles personnalisés peuvent être copiés dans les services Intelligence documentaire à partir de Studio. Cette opération permet de promouvoir un modèle formé dans d’autres environnements et régions.
- Suppression de documents. Studio prend désormais en charge la suppression de documents à partir de jeux de données étiquetés dans les projets personnalisés.
Mises à jour du service Intelligence documentaire
- prebuilt-read. Désormais, le modèle Read avec reconnaissance optique de caractères est également disponible dans Intelligence documentaire avec deux nouvelles fonctionnalités, la détection des paragraphes et de la langue. Read d’Intelligence documentaire cible des scénarios de documents avancés, alignés sur les grandes fonctionnalités d’analyse des documents d’Intelligence documentaire.
- prebuilt-layout. Le modèle Layout extrait les paragraphes et indique si le texte extrait est un paragraphe, un titre, un en-tête de section, une note de bas de page, un en-tête de page, un pied de page ou un numéro de page.
- prebuilt-invoice. Désormais, les champs TotalVAT et Line/VAT seront respectivement remplacés par les champs existants TotalTax et Line/Tax.
- prebuilt-idDocument. Prise en charge de l’extraction de données pour les cartes d’identité, les cartes de sécurité sociale et les cartes vertes américaines. Prise en charge des informations relatives aux visas de passeport.
- prebuilt-receipt. Prise en charge étendue des paramètres régionaux pour le français (fr-FR), l’espagnol (es-ES), le portugais (pt-PT), l’italien (it-IT) et l’allemand (de-DE).
- prebuilt-businessCard. Prise en charge de l’analyse des adresses pour extraire les sous-champs de composants d’adresses tels que l’adresse, la ville, l’état, le pays/la région et le code postal.
Amélioration de la qualité de l’IA
- prebuilt-read. La prise en charge des caractères uniques, des dates manuscrites, des montants, des noms et d’autres données importantes courantes dans les reçus et les factures a été améliorée, de même que le traitement des documents PDF numériques.
- prebuilt-layout. Meilleure détection des tableaux rognés et sans bordure, et meilleure reconnaissance des cellules longues.
- prebuilt-document. Amélioration de la détection des valeurs et des cases à cocher.
- custom-neural. Amélioration de la précision de la détection et de l’extraction des tables.

Juin 2022

Version préliminaire de la bêta de juin 2022 du SDK Intelligence documentaire inclut les mises à jour suivantes :

Version 4.0.0-beta.4 (2022-06-08)

Journal des modifications/Historique des versions

Package (NuGet)

Documentation de référence du SDK

La version de juin de Studio Intelligence documentaire est la dernière mise à jour du studio Intelligence documentaire. Cette mise à jour apporte des améliorations considérables en matière d’expérience utilisateur et d’accessibilité :
- Exemple de code pour JavaScript et C#. L’onglet de code Studio comprend désormais des exemples de code JavaScript et C# en plus de l’exemple Python existant.
- Nouvelle interface utilisateur de chargement de document. Studio prend désormais en charge le chargement d’un document par glisser-déposer dans la nouvelle interface utilisateur de chargement.
- Nouvelle fonctionnalité pour les projets personnalisés. Les projets personnalisés prennent maintenant en charge la création de comptes de stockage et d’objets blob lors de la configuration du projet. En outre, le projet personnalisé prend maintenant en charge le chargement de fichiers d’entraînement directement dans Studio et la copie du modèle personnalisé existant.
La publication Intelligence documentaire v3.0 0 2022-06-30-preview présente d’importantes mises à jour des API de fonctionnalités :
- La disposition étend l’extraction de structure. La disposition inclut à présent des éléments de structure ajoutés, notamment des sections, des en-têtes de section et des paragraphes. Cette mise à jour permet des scénarios de segmentation de documents plus affinés. Pour obtenir la liste complète des éléments de structure identifiés, consultezla structure améliorée.
- Prise en charge des champs tabulaires des modèles neuronaux personnalisés. Les modèles de document personnalisés prennent à présent en charge les champs tabulaires. Les champs tabulaires par défaut sont également multipage. Pour en savoir plus sur les champs tabulaires dans des modèles neuronaux personnalisés, consultezles champs tabulaires.
- Prise en charge des champs tabulaires des modèles personnalisés pour les tables de plusieurs pages. Les modèles de formulaire personnalisés prennent à présent en charge les champs tabulaires sur les pages. Pour en savoir plus sur les champs tabulaires dans des modèles de modèle personnalisés, consultezles champs tabulaires.
- La sortie du modèle de facture inclut désormais des paires clé-valeur de document général. Lorsque les factures contiennent des champs requis au-delà des champs inclus dans le modèle prédéfini, le modèle de document général complète la sortie avec des paires clé-valeur. Consultezpaires clé-valeur.
- Extension des langues disponibles pour les factures. Le modèle de facture inclut la prise en charge étendu de langues. ConsultezLangues prises en charge.
- La carte de visite prédéfinie inclut désormais la prise en charge de la langue japonaise. ConsultezLangues prises en charge.
- Modèle de document d’ID prédéfini. Le modèle de document ID extrait à présent les éléments DateOfIssue, Height, Weight, EyeColor, HairColor et DocumentDiscriminator à partir des permis de conduire américains. ConsultezExtraction de champs.
- Le modèle de lecture prend désormais en charge les types de documents Microsoft Office courants. L’API Read prend désormais en charge les types de documents Word (docx), Excel (xlsx) et PowerPoint (pptx). Consultez Extraction de données avec Read.

Février 2022

Version 4.0.0-beta.3 (2022-02-10)

Journal des modifications/Historique des versions

Package (NuGet)

Documentation de référence du SDK

La préversion d’Intelligence documentaire v3.0 propose plusieurs nouvelles fonctionnalités et améliorations :
- Le Modèle neural personnalisé, ou modèle de document personnalisé, est un nouveau modèle personnalisé permettant d’extraire du texte et des marques de sélection de documents structurés, semi-structurés et non structurés.
- Le modèle prédéfini W-2 est un nouveau modèle prédéfini permettant d’extraire des champs des formulaires W-2 dans le cadre d’une déclaration fiscale et d’une vérification des revenus.
- L’API Read extrait les lignes de texte imprimé, les mots, les emplacements de texte, les langues détectées et le texte manuscrit, s’il détecté.
- Le modèle pré-entraîné Document général est maintenant mis à jour pour prendre en charge les marques de sélection, en plus du texte d’API, des tables, de la structure et des paires clé-valeur dans des formulaires et des documents.
- API de facture Le modèle prédéfini de facture étend la prise en charge aux factures en espagnol.
- Studio Intelligence documentaire ajoute de nouvelles démos pour Read, W2 et des exemples de reçus d’hôtel, ainsi que la prise en charge de l’entraînement de nouveaux modèles neuronaux personnalisés.
- Expansion de langues Les fonctionnalités Read, Disposition et Formulaire personnalisé de Intelligence documentaire prennent en charge 42 nouvelles langues, notamment l’arabe, l’hindi et d’autres langues utilisant des scripts arabes et dévanâgarîs, pour étendre la couverture à 164 langues. La prise en charge de la langue manuscrite s’étend au japonais et au coréen.
Commencez à utiliser la nouvelle API REST, le SDK Python ou .NET pour l’API v3.0 en préversion.

Extraction de données avec les modèles Intelligence documentaire :

Modèle	Extraction de texte	Paires clé-valeur	Marques de sélection	Tables	Signatures
Lire	✓
Document général	✓	✓	✓	✓
Layout	✓		✓	✓
Facture	✓	✓	✓	✓
Réception	✓	✓			✓
Document d’identité	✓	✓
Carte de visite	✓	✓
Modèle personnalisé	✓	✓	✓	✓	✓
Modèle neuronal personnalisé	✓	✓	✓	✓

Version préliminaire de la bêta du SDK Intelligence documentaire inclut les mises à jour suivantes :
- Modes et modèles de document personnalisés :
  - Modèle personnalisé (anciennement formulaire personnalisé).
  - Modèle neuronal personnalisé.
  - Modèle personnalisé : mode de génération.
- Modèle prédéfini W-2 (prebuilt-tax.us.w2).
- Modèle prédéfini de lecture (prebuilt-read).
- Modèle prédéfini de facture (Espagnol) (prebuilt-invoice).

Novembre 2021

Version 4.0.0-beta.2 (2021-11-09)

| Package (NuGet) | Journal des modifications/historique des mises en production | Documentation de référence sur les API

La version préliminaire du SDK (bêta.2) d’Intelligence documentaire v3.0 intègre des correctifs de bogues et des mises à jour de fonctionnalités mineures.

Octobre 2021

La nouvelle version préliminaire d’Intelligence documentaire v3.0 version 4.0.0-beta.1 (2021-10-07) introduit plusieurs nouvelles fonctionnalités :
- Le modèle Document général est une nouvelle API qui utilise un modèle pré-entraîné pour extraire du texte, des tables, une structure et des paires clé-valeur à partir de formulaires et de documents.
- Ajout du modèle Reçu d’hôtel au traitement des reçus prédéfini.
- Le modèle Champs étendus pour document d’identité prend en charge l’extraction des approbations, des restrictions et des classifications de véhicules à partir de permis de conduire américains.
- Le champ de signature est un nouveau type de champ dans les formulaires personnalisés pour détecter la présence d’une signature dans un champ de formulaire.
- Expansion de langue Prise en charge de 122 langues (impression) et de 7 langues (entrées manuscrites). Avec la préversion la plus récente, Intelligence documentaire Disposition et Formulaire personnalisé étendent les langues prises en charge désormais au nombre de 122. Cette préversion inclut l’extraction de texte pour le texte imprimé dans 49 nouvelles langues, dont le russe, le bulgare et d’autres langues cyrilliques et latines. En outre, l’extraction de texte manuscrit prend à présent en charge sept langues, notamment l’anglais, et de nouvelles préversions pour le chinois simplifié, le français, l’allemand, l’italien, le portugais et l’espagnol.
- La disposition Améliorations des tables et de l’extraction de texte prend à présent en charge l’extraction de tables à une seule ligne également appelées tables clé-valeur. Les améliorations apportées à l’extraction de texte incluent un meilleur traitement des fichiers PDF numériques et MRZ (Machine Readable Zone) dans les documents d’identité, ainsi que les performances générales.
- Document Intelligence Studio Pour simplifier l’utilisation du service, vous pouvez désormais accéder à Document Intelligence Studio pour tester les différents modèles prédéfinis ou étiqueter et entraîner un modèle personnalisé.
- Commencez à utiliser la nouvelle API REST, le SDK Python ou .NET pour l’API v3.0 en préversion.

Extraction de données de modèle Intelligence documentaire

Modèle	Extraction de texte	Paires clé-valeur	Marques de sélection	Tables
Document général	✓	✓	✓	✓
Layout	✓		✓	✓
Facture	✓	✓	✓	✓
Réception	✓	✓
Document d’identité	✓	✓
Carte de visite	✓	✓
Custom	✓	✓	✓	✓

Septembre 2021

Les fonctionnalités avancées de l’explorateur de métriques Azure sont disponibles sur la page de présentation des ressources Intelligence documentaire du portail Azure.
Menu Supervision :
Graphiques :
Mise à jour du modèle Document d’identité : les noms donnés incluant un suffixe, avec ou sans point (point final), sont traités correctement :

Texte d'entrée Résultat avec mise à jour

William Isaac Kirby Jr. Prénom: William Isaac

Nom: Kirby Jr.

Henry Caleb Ross Sr FirstName : Henry Caleb

LastName : Ross Sr.

Texte d'entrée	Résultat avec mise à jour
William Isaac Kirby Jr.	Prénom: William Isaac Nom: Kirby Jr.
Henry Caleb Ross Sr	FirstName : Henry Caleb LastName : Ross Sr.

Juillet 2021

Prise en charge des identités managées affectées par le système : vous pouvez désormais activer une identité managée affectée par le système pour accorder à Intelligence documentaire un accès limité aux comptes de stockage privés, y compris aux comptes protégés par un réseau virtuel ou un pare-feu, ou avec la fonctionnalité Apporter votre propre stockage (BYOS, Bring Your Own Storage) activée. ConsultezCréer et utiliser une identité managée pour votre ressource Intelligence documentaire pour en apprendre davantage.

Juin 2021

| Documentation de référence | Package NuGet version 3.1.1 |

Les conteneurs Intelligence documentaire v 2.1 publiés dans la version préliminaire contrôlée sont désormais prises en charge par six conteneurs de fonctionnalités : Disposition, Carte de visite, Document d’ID, Reçu, Facture et Personnalisé. Pour les utiliser, vous devez envoyer une demande en ligne et recevoir une approbation.
- ConsultezInstaller et exécuter des conteneurs Docker pour Intelligence documentaire et Configurer des conteneurs Intelligence documentaire
Connecteur Intelligence documentaire publié en préversion : Le connecteur Intelligence documentaire s’intègre à Azure Logic Apps, Microsoft Power Automate et Microsoft Power Apps. Le connecteur prend en charge les actions de workflow et les déclencheurs pour extraire et analyser les données de document et la structure de formulaires personnalisés et prédéfinis, de factures, de reçus, de cartes de visite et de documents d’identité.
SDK Intelligence documentaire v3.1.0 avec correctif v3.1.1 pour C#, Java et Python. Le correctif traite les factures qui n’ont pas de champs d’éléments de sous-lignes détectés, tels qu’un FormField avec Text mais sans informations BoundingBox ou Page.

Mai 2021

Version 3.1.0 (2021-05-26)

Journal des modifications/historique des mises en production | Documentation de référence | Package NuGet version 3.0.1 |

Intelligence documentaire 2.1 est en disponibilité générale. Cette version de disponibilité générale marque la stabilité des modifications introduites dans les versions précédentes du package 2.1 en préversion. Cette version vous permet de détecter et d’extraire des informations et des données dans les documents suivants :
Pour commencer, essayez l’exemple d’outil Intelligence documentaire et suivez le démarrage rapide.
La fonctionnalité de table de l’API Layout mise à jour ajoute à la reconnaissance des en-têtes les en-têtes de colonnes pouvant s’étendre sur plusieurs lignes. Chaque cellule de table possède un attribut qui indique si elle fait partie d’un en-tête ou non. Cette mise à jour peut servir à identifier les lignes qui composent l’en-tête de table.

Avril 2021

Package NuGet version 3.1.0-beta.4
Journal des modifications/Historique des versions.
Nouvelles méthodes pour analyser les données de documents d’identité :

StartRecognizeIdDocumentsFromUriAsync

StartRecognizeIdDocumentsAsync

Pour obtenir la liste des valeurs de champ, consultezChamps extraits dans notre documentation sur Intelligence documentaire.
Augmenté l’ensemble des langages de document qui peuvent être fournis à la méthode StartRecognizeContent .
Nouvelle propriété Pages prise en charge par les classes suivantes :

RecognizeBusinessCardsOptions
RecognizeCustomFormsOptions
RecognizeInvoicesOptions
RecognizeReceiptsOptions

La propriété Pages vous permet de sélectionner une ou plusieurs pages pour les documents PDF et TIFF multipages. Pour les pages individuelles, entrez le numéro de page, par exemple, 3. Pour une plage de pages (par exemple, page 2 et pages 5-7), entrez les numéros et les plages de page en les séparant par des virgules : 2, 5-7.
Nouvelle propriété ReadingOrder prise en charge par la classe suivante :

RecognizeContentOptions

La propriété ReadingOrder est un paramètre facultatif qui vous permet de spécifier l’algorithme d’ordre de lecture (basic ou natural) qui doit être appliqué pour ordonner l’extraction d’éléments de texte. Si elle n’est pas spécifiée, la valeur par défaut est basic.

Dépendance du package d’artefacts Maven version 3.1.0-beta.3

Nouvelles méthodes pour analyser les données de documents d’identité :

[beginRecognizeIdDocumentsFromUrl]

[beginRecognizeIdDocuments]

Pour obtenir la liste des valeurs de champ, consultezChamps extraits dans notre documentation sur Intelligence documentaire.
** Prise en charge du fichier image bitmap (.bmp) pour les formulaires personnalisés et les méthodes de formation dans lesFormContentType champs :
- image/bmp
- Nouvelle propriété Pages prise en charge par les classes suivantes :
RecognizeBusinessCardsOptions
RecognizeCustomFormOptions
RecognizeInvoicesOptions
RecognizeReceiptsOptions
- La propriété Pages vous permet de sélectionner une ou plusieurs pages pour les documents PDF et TIFF multipages. Pour les pages individuelles, entrez le numéro de page, par exemple, 3. Pour une plage de pages (par exemple, page 2 et pages 5-7), entrez les numéros et les plages de page en les séparant par des virgules : 2, 5-7.
Nouvel argument de mot clé ReadingOrder pris en charge pour les méthodes suivantes :
- beginRecognizeContent.
- beginRecognizeContentFromUrl.
- L’argument de mot clé ReadingOrder est un paramètre facultatif qui vous permet de spécifier l’algorithme d’ordre de lecture (basic ou natural) qui doit être appliqué pour ordonner l’extraction d’éléments de texte. Si elle n’est pas spécifiée, la valeur par défaut est basic.
Le client prend par défaut la dernière version du service pris en charge, qui est actuellement 2.1-preview.3.

Package npm version 3.1.0-beta.3

Nouvelles méthodes pour analyser les données de documents d’identité :

azure-ai-form-recognizer-formrecognizerclient-beginrecognizeidentitydocumentsfromurl

beginRecognizeIdDocuments

Pour obtenir la liste des valeurs de champ, consultezChamps extraits dans notre documentation sur Intelligence documentaire.
Nouvelles valeurs de champ ajoutées à l’interface FieldValue :

gender : les valeurs possibles sont MF ou X
country - les valeurs possibles suivent la chaîne de code du pays gender à trois lettres.
Nouvelle option pages prise en charge par toutes les méthodes Intelligence documentaire (formulaires personnalisés et tous les modèles prédéfinis). L’argument vous permet de sélectionner une ou plusieurs pages pour les documents PDF et TIFF multipages. Pour les pages individuelles, entrez le numéro de page, par exemple, 3. Pour une plage de pages (par exemple, page 2 et pages 5-7), entrez les numéros et les plages de page en les séparant par des virgules : 2, 5-7.
Ajout de la prise en charge d’un type ReadingOrder aux méthodes de reconnaissance du contenu. Cette option vous permet de contrôler l’algorithme utilisé par le service pour déterminer la façon dont les lignes de texte reconnues doivent être triées. Vous pouvez spécifier l’algorithme d’ordre de lecture (basic ou natural) à appliquer pour ordonner l’extraction d’éléments de texte. Si elle n’est pas spécifiée, la valeur par défaut est basic.
Fractionnez le type FormField en plusieurs interfaces différentes. Cette mise à jour ne devrait pas provoquer de problèmes de compatibilité d’API, sauf dans certains cas extrêmes (valueType non défini).
Migré vers le point de terminaison du service Intelligence documentaire 2.1-preview.3 pour tous les appels d’API REST.

Package pip version 3.1.0b4

Nouvelles méthodes pour analyser les données de documents d’identité :

begin_recognize_id_documents_from_url

begin_recognize_id_documents

Pour obtenir la liste des valeurs de champ, consultezChamps extraits dans notre documentation sur Intelligence documentaire.
Nouvelles valeurs de champ ajoutées à l’énumération FieldValueType :

gender : les valeurs possibles sont M, F ou X.

country : les valeurs possibles suivent les codes de pays ISO alpha-3.
Prise en charge du fichier image bitmap (.bmp) pour les formulaires personnalisés et les méthodes de formation dans l’énumération FormContentType :
Nouvel argument de mot clé pages pris en charge par les méthodes suivantes :

begin_recognize_receipts

begin_recognize_receipts_from_url

begin_recognize_business_cards

begin_recognize_business_cards_from_url

begin_recognize_invoices

begin_recognize_invoices_from_url

begin_recognize_content

begin_recognize_content_from_url

L’argument de mot clé pages vous permet de sélectionner une ou plusieurs pages pour les documents PDF et TIFF multipages. Pour les pages individuelles, entrez le numéro de page, par exemple, 3. Pour une plage de pages (par exemple, page 2 et pages 5-7), entrez les numéros et les plages de page en les séparant par des virgules : 2, 5-7.
Nouvel argument de mot clé readingOrder pris en charge pour les méthodes suivantes :

begin_recognize_content

begin_recognize_content_from_url

L’argument de mot clé readingOrder est un paramètre facultatif qui vous permet de spécifier l’algorithme d’ordre de lecture (basic ou natural) qui doit être appliqué pour ordonner l’extraction d’éléments de texte. Si elle n’est pas spécifiée, la valeur par défaut est basic.

Les mises à jour en préversion du KIT de développement logiciel (SDK) pour l’API version 2.1-preview.3 introduisent des mises à jour et améliorations de la fonctionnalité.

Mars 2021

La préversion publique v2.1-preview.3 Intelligence documentaire v2.1 a été publiée et comprend les fonctionnalités suivantes :

Nouveau modèle prédéfini de pièce d’identité : Le nouveau modèle prédéfini de pièce d’identité permet aux clients de prendre des pièces d’identité et de renvoyer des données structurées pour automatiser le traitement. Il combine nos puissantes capacités de reconnaissance optique de caractères (OCR) avec des modèles de reconnaissance des pièces d’identité pour extraire des informations clés des passeports internationaux et des licences des conducteurs américains.

En savoir plus sur le modèle prédéfini de pièce d’identité
Extraction d’éléments de ligne pour le modèle de facture : le modèle de facture prédéfini prend à présent en charge l’extraction d’éléments de ligne. Il extrait maintenant les éléments complets et leurs parties (description, montant, quantité, ID produit, date, etc.). Un simple appel à l’API/au SDK vous permet d’extraire des données utiles de vos factures (texte, tableau, paires clé-valeur et éléments de ligne).

En savoir plus sur le modèle de facture.
Étiquetage et formation supervisés de tableaux, étiquetage de valeurs vides : En plus des capacités de pointe d’extraction automatique de tableaux par Deep Learning d’Intelligence documentaire, il permet désormais aux clients d’étiqueter des tableaux et d’utiliser ces derniers pour la formation. Cette nouvelle version comprend la possibilité d’étiqueter des éléments de ligne/tableaux (dynamiques et fixes), de les utiliser pour la formation et d’effectuer l’apprentissage d’un modèle personnalisé pour extraire des paires clé-valeur et des éléments de ligne. Une fois qu’un modèle est entraîné, il extrait les éléments de ligne dans le cadre de la sortie JSON dans la section documentResults.

Outre l’étiquetage des tableaux, vous pouvez désormais étiqueter les valeurs vides et les régions. Si certains documents de votre jeu d’apprentissage n’ont pas de valeurs pour certains champs, vous pouvez les étiqueter pour que votre modèle sache extraire correctement les valeurs des documents analysés.
Prise en charge de 66 nouvelles langues : l’API Disposition et Modèles personnalisés pour Intelligence documentaire prennent désormais en charge 73 langues.

En savoir plus sur la prise en charge linguistique d’Intelligence documentaire.
Ordre de lecture naturel, classification de l’écriture manuscrite et sélection de page : Avec cette mise à jour, vous pouvez choisir d’afficher les sorties de lignes de texte dans l’ordre de lecture naturel plutôt que dans l’ordre par défaut de gauche à droite et de haut en bas. Utilisez le nouveau paramètre de requête readingOrder et attribuez-lui la valeur « natural » pour obtenir un ordre de lecture plus convivial. En outre, pour les langues latines, Intelligence documentaire classe les lignes de texte comme styles manuscrits ou non et donne un score de confiance.
Améliorations de la qualité du modèle de reçu prédéfini : Cette mise à jour comprend de nombreuses améliorations de la qualité pour le modèle de reçu prédéfini, notamment en ce qui concerne l’extraction d’éléments de ligne.

Novembre 2020

Intelligence documentaire v2.1-preview.2 a été publié et comprend les fonctionnalités suivantes :
- Nouveau modèle de facture prédéfini : le nouveau modèle de facture prédéfini permet aux clients de prendre des factures dans divers formats et de retourner des données structurées pour automatiser le traitement des factures. Il combine nos puissantes fonctionnalités de reconnaissance optique de caractères (OCR) avec des modèles de Deep Learning qui comprennent les factures dans le but d’extraire des informations clés de ces factures. Il extrait le texte clé, les tables et les informations comme le client, le fournisseur, le numéro de facture, la date d’échéance, le total, le montant dû, le montant des taxes, l’adresse d’expédition et l’adresse de facturation.
  
  En savoir plus sur le modèle de facture prédéfini
- Extraction de table améliorée : Intelligence documentaire propose à présent une extraction de table améliorée, qui combine nos puissantes fonctionnalités de reconnaissance optique de caractères (OCR) avec un modèle d’extraction de table en Deep Learning. Intelligence documentaire peut extraire des données de tables, y compris les tables complexes avec des colonnes ou lignes fusionnées, sans aucune bordure, etc.
  
  En savoir plus sur l’extraction de Dispositions.
- Mise à jour de la bibliothèque de client : les dernières versions des bibliothèques de client pour .NET, Python, Java et JavaScript prennent en charge l’API Intelligence documentaire 2.1.
- Nouvelle langue prise en charge : Japonais - Les nouvelles langues suivantes sont désormais prises en charge : pour AnalyzeLayout et AnalyzeCustomForm : Japonais (ja ). Prise en charge linguistique.
- Indication du style de ligne de texte (écriture manuscrite/autre) (langues latines uniquement) : Intelligence documentaire génère désormais un objet appearance qui détermine si chaque ligne de texte relève d’un style manuscrit ou non, ainsi qu’un score de confiance. Cette fonctionnalité est prise en charge uniquement pour les langues latines.
- Améliorations apportées à la qualité : l’extraction a été améliorée, notamment celle des chiffres uniques.
- Nouvelle fonctionnalité de test dans l’outil d’étiquetage des exemples d’Intelligence documentaire : possibilité de tester les modèles prédéfinis de facture, de ticket de caisse et de carte de visite, ainsi que l’API Disposition à l’aide de l’outil d’étiquetage des exemples d’Intelligence documentaire. Découvrez comment vos données sont extraites sans écrire de code.
- Essayer l’outil d’étiquetage d’exemple Intelligence documentaire
  - Boucle de commentaires : quand vous analysez des fichiers par le biais de l’outil d’étiquetage des exemples, vous pouvez maintenant l’ajouter au jeu d’apprentissage et ajuster les étiquettes au besoin pour effectuer l’apprentissage du modèle afin d’améliorer celui-ci.
  - Étiquetage automatique des documents : étiquetez automatiquement d’autres documents en fonction de documents précédemment étiquetés dans le projet.

Août 2020

**Intelligence documentaire v2.1-preview.1 comprend les fonctionnalités suivantes :
- Les informations de référence sur l’API REST sont disponibles : affichez v2.1-preview.1 reference.
- Nouvelles langues prises en charge Outre l'anglais, les langues suivantes sont désormais prises en charge : pour Layout et Train Custom Model : anglais (en ), chinois (simplifié) (zh-Hans ), néerlandais (nl ), français (fr ), allemand (de ), italien (it ), portugais (pt ) et espagnol (es).
- Détection de case à cocher/de marque de sélection : le service Intelligence documentaire prend en charge la détection et l’extraction de marques de sélection telles que les cases à cocher et les cases d’option. Les marques de sélection sont extraites dans Layout et vous pouvez désormais aussi les étiqueter et les entraîner dans Train Custom Model - Layout afin d’extraire les paires clé-valeur pour les marques de sélection.
- La fonctionnalité de composition de modèles permet de composer et d’appeler plusieurs modèles avec un ID de modèle unique. Lors de l’envoi d’un document pour analyse avec un ID de modèle composé, une étape de classification a d’abord lieu afin de le router vers le modèle personnalisé approprié. La composition de modèles est disponible pour Train Custom Model - Train Custom Model.
- Le Nom du modèle permet d’ajouter un nom convivial à vos modèles personnalisés afin d’en faciliter la gestion et le suivi.
- Nouveau modèle prédéfini pour les cartes de visite pour l’extraction de champs courants dans les cartes de visite en anglais.
- Nouveaux paramètres régionaux pour le modèle Reçus prédéfini en plus de EN-US, les paramètres régionaux EN-AU, EN-CA, EN-GB, EN-IN sont désormais pris en charge.
- Améliorations de la qualité pour Layout, Train Custom Model - Effectuer l’entraînement sans étiquettes et Effectuer l’entraînement avec des étiquettes.
La version v2.0 inclut la mise à jour suivante :
- Les bibliothèques de clients pour NET, Python, Java et JavaScript sont en disponibilité générale.
De nouveaux exemples sont disponibles sur GitHub.
- Le manuel Recettes d’extraction de connaissances – Playbook de formulaires recueille les meilleures pratiques d’engagement des clients d’Intelligence documentaire, et fournit des exemples de code utilisables, des listes de contrôle et des exemples de pipelines utilisés dans le développement de ces projets.
- L’exemple d’outil d’étiquetage est mis à jour pour prendre en charge les nouvelles fonctionnalités de la version 2.1. Consultez ce démarrage rapide pour bien démarrer avec l’outil.
- L’exemple d’Intelligence documentaire Kiosque intelligent montre comment intégrer Analyze Receipt et Train Custom Model - Effectuer l’entraînement sans étiquettes.

Juillet 2020

Référence Intelligence documentaire v2.0 disponible : consultez les informations de référence sur l’API v2.0 et les bibliothèques de clients mises à jour pour .NET, Python, Java et JavaScript.
- Les améliorations apportées aux tables et aux extractions incluent des améliorations au niveau de la précision et des extractions de tables, en particulier, la possibilité de faire l’apprentissage d’en-têtes et de structures de tables dans l’entraînement personnalisé sans étiquettes.
- Prise en charge des devises : détection et extraction des symboles monétaires du monde entier.
- Azure Gov : Intelligence documentaire est maintenant disponible dans Azure Gov.
- Fonctionnalités de sécurité améliorées :
  - Bring Your Own Key (BYOK) : Intelligence documentaire chiffre automatiquement vos données quand elles sont conservées dans le cloud afin de les protéger et de vous aider à répondre aux exigences de votre organisation concernant la sécurité et la conformité. Par défaut, votre abonnement utilise des clés de chiffrement gérées par Microsoft. Vous pouvez aussi maintenant gérer votre abonnement avec vos propres clés de chiffrement. Les clés gérées par le client, également appelées BYOK (Bring Your Own Key), offrent plus de flexibilité pour créer, permuter, désactiver et révoquer des contrôles d’accès. Vous pouvez également effectuer un audit sur les clés de chiffrement utilisées pour protéger vos données.
  - Points de terminaison privés : Sur un réseau virtuel, permettent d’accéder aux données de façon sécurisée via une liaison privée.

Juin 2020

API CopyModel ajoutée aux bibliothèques de clients : vous pouvez désormais utiliser les bibliothèques de clients pour copier des modèles d’un abonnement à un autre. Consultez Sauvegarder et récupérer des modèles pour obtenir des informations générales sur cette fonctionnalité.
Intégration à Azure Active Directory : vous pouvez désormais utiliser vos informations d’identification Azure AD pour authentifier vos objets clients Intelligence documentaire dans les bibliothèques de clients.
Modifications spécifiques au SDK : ces changements comprennent les ajouts de fonctionnalités mineures ainsi que les modifications importantes. Pour plus d’informations, consultez les journaux de modifications du SDK.

Avril 2020

Prise en charge du SDK pour la préversion publique de l’API Intelligence documentaire v 2.0 : ce mois-ci, nous avons étendu notre support technique pour inclure une préversion du SDK d’Intelligence documentaire v2.0. Utilisez ces liens pour bien démarrer avec le langage de votre choix :
Kit de développement logiciel (SDK) .NET
Kit SDK Java
Kit de développement logiciel (SDK) Python
Kit de développement logiciel (SDK) JavaScript

Le nouveau SDK prend en charge toutes les fonctionnalités de l’API REST v2.0 pour Intelligence documentaire. Vous pouvez partager vos commentaires sur les bibliothèques de clients à l’aide du formulaire de commentaires sur les SDK.

Copier un modèle personnalisé Vous pouvez désormais copier des modèles entre les régions et les abonnements à l’aide de la nouvelle fonctionnalité de copie de modèle personnalisé. Avant d’invoquer l’API Copy Custom Model, vous devez obtenir l’autorisation de copier dans la ressource cible. Cette autorisation est sécurisée en appelant l’opération d’autorisation de copie sur le point de terminaison de ressource cible.
API REST Générer une autorisation de copie.
API REST Copier un modèle personnalisé.
Améliorations de sécurité.
Les clés gérées par le client sont maintenant disponibles pour Form Recognizer. Pour plus d’informations, consultez Chiffrement des données au repos pour Intelligence documentaire.
Utilisez des identités managées pour accéder aux ressources Azure avec Azure Active Directory. Pour plus d’informations, consultez Autoriser l’accès aux identités managées.

Mars 2020

Types de valeurs pour l’étiquetage : vous pouvez maintenant spécifier les types de valeurs que vous étiquetez avec l’outil d’étiquetage des exemples Intelligence documentaire. Les types et variantes de valeurs suivants sont actuellement pris en charge :
string
- default, no-whitespaces, alphanumeric
number
- default, currency
date
- default, dmy, mdy, ymd
time
integer

Pour savoir comment utiliser cette fonctionnalité, consultez le guide de l’outil d’étiquetage des exemples.

Visualisation des tables : l’outil d’étiquetage des exemples affiche désormais les tables reconnues dans le document. Cette fonctionnalité vous permet de visualiser les tables reconnues et extraites du document avant l’étiquetage et l’analyse. Cette fonctionnalité peut être activée/désactivée à l'aide de l'option couches.
L’image suivante illustre la façon dont les tables sont reconnues et extraites :
Les tables extraites sont disponibles dans la sortie JSON sous "pageResults".

Important

L'étiquetage des tables n'est pas pris en charge. Si les tables ne sont pas reconnues et extraites automatiquement, vous ne pouvez les étiqueter qu'en tant que paires clé/valeur. Lorsque vous étiquetez des tables en tant que paires clé-valeur, étiquetez chaque cellule en tant que valeur unique.
Améliorations apportées à l'extraction.
Cette version comprend des améliorations en termes d'extraction et de précision, avec notamment la possibilité d'étiqueter et d'extraire plusieurs paires clé/valeur sur la même ligne de texte.
L’outil d’étiquetage des exemples est désormais open source.
L’outil d’étiquetage des exemples Intelligence documentaire est désormais disponible sous forme de projet open source. Vous pouvez l'intégrer à vos solutions et y apporter des modifications pour qu'il réponde à vos besoins.
Pour plus d’informations sur l’outil d’étiquetage des exemples Intelligence documentaire, consultez la documentation disponible sur GitHub.
Application de TLS 1.2.
TLS 1.2 est maintenant appliqué pour toutes les requêtes HTTP adressées à ce service. Pour plus d’informations, consultez sécurité Azure AI services.

Janvier 2020

Cette version présente Intelligence documentaire 2.0. Dans les sections suivantes, vous trouverez des informations supplémentaires sur les nouvelles fonctionnalités, les améliorations et les changements.

Nouvelles fonctionnalités
- Modèle personnalisé
  - Effectuer l'apprentissage avec les étiquettes Vous pouvez maintenant effectuer l'apprentissage d’un modèle personnalisé avec des données étiquetées manuellement. Cette méthode aboutit à des modèles plus performants et peut engendrer des modèles qui fonctionnent avec des formulaires complexes ou des formulaires contenant des valeurs sans clés.
  - API asynchrone Vous pouvez utiliser des appels d’API asynchrone pour effectuer l'apprentissage et analyser des fichiers et des ensembles de données volumineux.
  - Prise en charge du fichier TIFF Vous pouvez effectuer l'apprentissage et extraire des données de documents TIFF.
  - Améliorations de la précision d’extraction.
- Modèle de reçu préconstruit
  - Montants des pourboires Vous pouvez à présent extraire les montants des pourboires et d’autres valeurs écrites à la main.
  - Extraction d’élément de ligne Vous pouvez extraire des valeurs d’élément de ligne des reçus.
  - Valeurs de confiance Vous pouvez afficher la confiance du modèle pour chaque valeur extraite.
  - Améliorations de la précision d’extraction.
  - Extraction de la disposition Vous pouvez maintenant utiliser l’API de disposition pour extraire les données texte et les données de tableau à partir de vos formulaires.
Modifications de l’API du modèle personnalisé

Toutes les API pour l’entraînement et l’utilisation de modèles personnalisés sont renommées, et certaines méthodes synchrones sont maintenant asynchrones. Les modifications principales sont les suivantes :
- Le processus d’apprentissage d’un modèle est maintenant asynchrone. Vous initiez l’apprentissage via l’appel d'API /custom/models. Cet appel renvoie un ID d’opération, que vous pouvez passer dans custom/models/{modelID} pour revenir aux résultats de l’apprentissage.
- L’extraction de clé/valeur est maintenant initiée par l’appel d'API /custom/models/{modelID}/analyze. Cet appel renvoie un ID d’opération, que vous pouvez passer dans custom/models/{modelID}/analyzeResults/{resultID} pour renvoyer les résultats d’extraction.
- Les ID d’opération pour l’opération d’apprentissage se trouvent maintenant dans l’en-tête Location des réponses HTTP, non dans l’en-tête Operation-Location.
Modifications de l’API de reçu
- Les API pour lire les reçus sont renommées.
- L’extraction de données de reçu est maintenant initiée par l’appel d'API /prebuilt/receipt/analyze. Cet appel renvoie un ID d’opération, que vous pouvez passer dans /prebuilt/receipt/analyzeResults/{resultID} pour renvoyer les résultats d’extraction.
Modifications du format de sortie
- Les réponses JSON pour tous les appels d’API ont de nouveaux formats. Certaines clés et valeurs sont ajoutées, supprimées ou renommées. Consultez les démarrages rapides pour des exemples des formats JSON actuels.

Étapes suivantes

Essayez de traiter vos propres formulaires et documents avec Document Intelligence Studio.
Effectuez un démarrage rapide Intelligence Documentaire et commencez à créer une application de traitement de documents dans le langage de développement de votre choix.

Essayez de traiter vos propres formulaires et documents avec l’outil d’étiquetage d’échantillons Intelligence Documentaire.
Effectuez un démarrage rapide Intelligence Documentaire et commencez à créer une application de traitement de documents dans le langage de développement de votre choix.

Nouveautés d’Azure AI Intelligence documentaire

Février 2024

Décembre 2023

Novembre 2023

Juillet 2023

Mai 2023

Avril 2023

Mars 2023

Février 2023

Janvier 2023

Décembre 2022

Novembre 2022

Octobre 2022

Septembre 2022

Août 2022

Juin 2022

Février 2022

Novembre 2021

Octobre 2021

Septembre 2021

Juillet 2021

Juin 2021

Mai 2021

Avril 2021

Mars 2021

Novembre 2020

Août 2020

Juillet 2020

Juin 2020

Avril 2020

Mars 2020

Janvier 2020

Étapes suivantes

Ressources supplémentaires