Partage via


Actions PDF

Le groupe d’actions PDF vous permet d’extraire des images, du texte et des tables de fichiers PDF et organiser les pages pour créer de nouveaux documents.

Pour extraire du texte d’un fichier PDF, utilisez l’action Extraire le texte d’un PDF. L’exemple suivant extrait du texte d’une plage de pages spécifique dans un fichier protégé par un mot de passe. Le mot de passe est spécifié dans les paramètres Avancé.

Si vous souhaitez extraire des textes organisés sous forme de tableau, activez l’option Optimiser pour les données structurées pour améliorer le format et la précision des résultats.

Capture d’écran de l’action Extraire du texte du PDF.

Pour extraire des tableaux d’un fichier PDF, déployez l’action Extraire les tableaux du PDF, sélectionnez le fichier et spécifiez les pages à extraire.

L’action produit la variable nommée ExtractedPDFTables qui contient une liste d’informations de la table PDF. Pour trouver des informations sur ce type de liste, accédez à Types de données avancés.

Note

  • L’action Extraire les tables d’un fichier PDF n’utilise pas la reconnaissance optique de caractères (OCR), vous ne pouvez donc pas extraire de texte non copiable à partir de PDF numérisés.
  • La bibliothèque derrière l’action extrait occasionnellement des données PDF supplémentaires qui ne sont pas des tables. Cette fonctionnalité réduit le risque d’omettre accidentellement une vraie table.

Capture d’écran de l’action Extraire des tables du PDF.

Outre l’extraction d’informations à partir de fichiers PDF, vous pouvez créer un nouveau document PDF à partir d’un fichier existant à l’aide de l’outil Extraire les pages du fichier PDF vers un nouveau fichier PDF.

L’exemple suivant sélectionne une combinaison de pages spécifiques et d’une plage de pages.

Capture d’écran de l’action Extraire les pages du fichier PDF vers un nouveau fichier PDF.

Extraire le texte à partir d’un fichier PDF

Vous pouvez extraire le texte d’un fichier PDF en utilisant l’action « Extraire le texte du PDF ». Dans les propriétés de l’action, vous pouvez définir le fichier PDF source et les pages à partir desquelles le texte doit être extrait. Dans les propriétés avancées de l’action, vous pouvez définir un mot de passe au cas où le fichier PDF est protégé et si le moteur doit optimiser les données structurées ou non.

Paramètres d’entrée

Argument Facultatif Accepte Valeur par défaut Description
PDF file Non Fichier Le fichier PDF duquel extraire le texte. Entrer un chemin d’accès de fichier, une variable contenant un fichier ou un chemin d’accès textuel
Page(s) à extraire S.O. Tout, Unique, Plage Toutes Spécifie le nombre de pages à extraire : toutes les pages, une seule page ou une plage de pages
Single page number Non Valeur numérique Numéro de la page unique où extraire le texte
From page number Non Valeur numérique Numéro de la première page de la plage de pages sur laquelle extraire le texte
To page number Non Valeur numérique Numéro de la dernière page de la plage de pages sur laquelle extraire le texte
Password Oui Saisie directe chiffrée ou valeur de texte Mot de passe du fichier PDF. Ne pas renseigner ce champ si le fichier PDF n’est pas protégé par un mot de passe
Optimiser pour les données structurées S.O. Valeur booléenne False Spécifiez s’il faut détecter une disposition mise en forme dans le document et extraire le texte en conséquence

Variables produites

Argument Type Description
ExtractedPDFText Valeur de texte Texte extrait

Exceptions

Exception Description
Le fichier PDF n’existe pas. Le fichier n’existe pas sur le chemin d’accès donné.
Mot de passe non valide Le mot de passe spécifié n’est pas valide.
Impossible d’extraire le texte Erreur lors de la tentative d’extraction du texte

Extraire des tableaux à partir du PDF

Vous pouvez extraire les tables contenues dans un fichier PDF à l’aide de l’action Extraire les tables du PDF. Dans les propriétés de l’action, vous pouvez définir le fichier PDF et la plage de pages à partir desquelles les tables seront extraites. Dans les propriétés avancées de l’action, vous pouvez définir un mot de passe au cas où le fichier PDF est protégé, définir si la table a des en-têtes ou non et, enfin, si les tables qui traversent les marges de la page doivent être fusionnées ou non.

Paramètres d’entrée

Argument Facultatif Accepte Valeur par défaut Description
Fichier PDF Non Fichier Le fichier PDF duquel extraire les tables. Entrer un chemin d’accès de fichier, une variable contenant un fichier ou un chemin d’accès textuel
Page(s) à extraire S.O. Tout, Unique, Plage Toutes Spécifie le nombre de pages où extraire les tableaux : toutes les pages, une seule page ou une plage de pages.
Numéro de page unique Non Valeur numérique Numéro de la page unique où extraire les tableaux
Numéro de la page de début Non Valeur numérique Numéro de la première page de la plage de pages sur laquelle extraire les tableaux
Numéro de la page de fin Non Valeur numérique Numéro de la dernière page de la plage de pages où extraire les tableaux
Password Oui Saisie directe chiffrée ou valeur de texte Mot de passe du fichier PDF. Ne pas renseigner ce champ si le fichier PDF n’est pas protégé par un mot de passe
Fusionner les tableaux qui croisent les marges de page S.O. Valeur booléenne Vrai Spécifie s’il faut fusionner les tableaux sur plusieurs marges de page dans la plage de pages spécifiée
La première ligne contient les noms de colonne. S.O. Valeur booléenne Vrai Spécifie si la première ligne du tableau contient des noms de colonnes

Variables produites

Argument Type Description
ExtractedPDFTables Liste d’informations de la table PDF Tables extraites avec leurs informations comme liste

Exceptions

Exception Description
Le fichier PDF n’existe pas Le fichier n’existe pas sur le chemin d’accès donné.
Mot de passe non valide Le mot de passe spécifié n’est pas valide.
Échec de l’extraction des tableaux Erreur lors de la tentative d’extraction des tableaux

Extraire les images d’un PDF

Pour extraire les images d’un fichier PDF, vous pouvez utiliser l’action Extraire les images du PDF. Dans les paramètres de l’action, vous pouvez définir le fichier PDF et les pages à partir desquelles extraire les images, la convention d’affectation de noms des images extraites et l’emplacement cible des images enregistrées. Vous pouvez également définir un mot de passe si le fichier PDF est protégé dans les paramètres avancés.

Paramètres d’entrée

Argument Facultatif Accepte Valeur par défaut Description
PDF file Non Fichier Le fichier PDF duquel extraire les images. Entrer un chemin d’accès de fichier, une variable contenant un fichier ou un chemin d’accès textuel
Password Oui Saisie directe chiffrée ou valeur de texte Mot de passe du fichier PDF. Ne pas renseigner ce champ si le fichier PDF n’est pas protégé par un mot de passe
Page(s) to extract N/A Tout, Unique, Plage Tout Spécifie le nombre de pages à extraire : toutes les pages, une seule page ou une plage de pages.
Single page number Non Valeur numérique Numéro de la page unique où extraire les images
From page number Non Valeur numérique Numéro de la première page de la plage de pages sur laquelle extraire les images
To page number Non Valeur numérique Numéro de la dernière page de la plage de pages où extraire les images
Image(s) name Non Valeur de texte Début du nom de la ou des images. Exemple de nom d’images extraites : GivenName_1, GivenName_2
Save image(s) to Non Dossier Dossier où enregistrer les images extraites en tant que fichiers png

Variables produites

Cette action ne produit aucune variable.

Exceptions

Exception Description
Mot de passe non valide Le mot de passe spécifié n’est pas valide
Impossible d’extraire les images Indique qu’une erreur s’est produite lors de l’extraction des images à partir des pages données du PDF
Le dossier n’existe pas Indique que le dossier n’existe pas.
Le fichier PDF n’existe pas Le fichier n’existe pas sur le chemin d’accès donné

Extraire les pages d’un fichier PDF vers un nouveau fichier PDF

Vous pouvez créer un nouveau fichier PDF en extrayant les pages d’un fichier PDF existant à l’aide de l’action Extraire les pages du fichier PDF dans un nouveau fichier PDF. Dans les paramètres de l’action, vous pouvez définir le fichier PDF à partir duquel extraire les pages, les pages à extraire, l’emplacement du nouveau fichier PDF et ce qui doit se produire si un fichier avec le même nom et la même extension existe déjà. Enfin, dans les propriétés avancées, vous pouvez définir un mot de passe au cas où le PDF source est protégé.

Paramètres d’entrée

Argument Facultatif Accepte Valeur par défaut Description
PDF file Non Fichier Le fichier PDF duquel extraire les pages. Entrer un chemin d’accès de fichier, une variable contenant un fichier ou un chemin d’accès textuel
Password Oui Saisie directe chiffrée ou valeur de texte Mot de passe du fichier PDF. Ne pas renseigner ce champ si le fichier PDF n’est pas protégé par un mot de passe
Page selection Non Valeur de texte Les numéros d’index des pages à conserver (par exemple, 1, 3, 17-24)
Extracted PDF path Non Fichier Chemin d’accès où stocker le fichier PDF extrait
If file exists N/A Remplacer, Ne pas remplacer, Ajouter un suffixe séquentiel Ajouter un suffixe séquentiel Spécifie ce qui doit être fait au cas où le fichier PDF de sortie existe déjà.

Variables produites

Argument Type Description
ExtractedPDF Fichier Nouveau fichier PDF

Exceptions

Exception Description
Mot de passe non valide Le mot de passe spécifié n’est pas valide.
Le fichier PDF n’existe pas. Le fichier n’existe pas sur le chemin d’accès donné.
Page hors limites Indique qu’une ou plusieurs pages sont hors des limites du fichier PDF.
Sélection de la page non valide Indique que les pages données ne sont pas valides pour le fichier PDF
Impossible d’extraire le nouveau PDF Indique qu’une erreur s’est produite lors de la tentative d’extraction d’un nouveau PDF

Fusionner les fichiers PDF

Fusionner plusieurs fichiers PDF en un nouveau.

Vous pouvez utiliser l’action Fusionner les fichiers PDF pour prendre deux ou plusieurs fichiers PDF et les fusionner en un seul fichier. Les fichiers à fusionner peuvent être fournis sous la forme d’une liste, ou encadrés entre guillemets doubles et séparés par un délimiteur. Vous pouvez également fournir des mots de passe pour les fichiers PDF, au cas où ils seraient protégés par mot de passe.

Paramètres d’entrée

Argument Facultatif Accepte Valeur par défaut Description
PDF files Non Liste des fichiers Les fichiers à fusionner. Encadrer plusieurs fichiers entre guillemets doubles (") et les séparer par un séparateur ou utiliser une liste de fichiers
Merged PDF path Non Fichier Chemin d’accès où stocker le fichier PDF fusionné
If file exists N/A Remplacer, Ne pas remplacer, Ajouter un suffixe séquentiel Ajouter un suffixe séquentiel Spécifie ce qui doit être fait au cas où le fichier de destination existe déjà
Passwords Oui Saisie directe chiffrée ou valeur de texte Les mots de passe délimités. L’ordre doit être le même que l’ordre des fichiers PDF d’entrée. Ne renseignez pas ce champ si les fichiers PDF ne sont pas protégés par un mot de passe
Délimiteur Non Valeur de texte , Un délimiteur de mot de passe personnalisé. Ce délimiteur ne doit pas faire partie des mots de passe

Variables produites

Argument Type Description
MergedPDF Fichier Fichier PDF fusionné

Exceptions

Exception Description
Le fichier PDF n’existe pas. Le fichier n’existe pas sur le chemin d’accès donné.
Mot de passe non valide Le mot de passe spécifié n’est pas valide
Échec de la fusion des fichiers PDF Indique qu’une erreur s’est produite lors de la fusion des fichiers