Comment extraire et enregistrer des images à partir d'un fichier PDF sous Linux

Comment extraire et enregistrer des images à partir d'un fichier PDF sous Linux
Comment extraire et enregistrer des images à partir d'un fichier PDF sous Linux

Vidéo: Comment extraire et enregistrer des images à partir d'un fichier PDF sous Linux

Vidéo: Comment extraire et enregistrer des images à partir d'un fichier PDF sous Linux
Vidéo: Utiliser QuickTime pour lire, enregistrer des audios et des vidéos sur Mac gratuitement - YouTube 2024, Avril
Anonim
Vous pouvez facilement convertir des fichiers PDF en texte modifiable sous Linux à l'aide de l'outil de ligne de commande «pdftotext». Toutefois, si le fichier PDF d'origine contient des images, elles ne sont pas extraites. Pour extraire des images d'un fichier PDF, vous pouvez utiliser un autre outil en ligne de commande appelé «pdfimages».
Vous pouvez facilement convertir des fichiers PDF en texte modifiable sous Linux à l'aide de l'outil de ligne de commande «pdftotext». Toutefois, si le fichier PDF d'origine contient des images, elles ne sont pas extraites. Pour extraire des images d'un fichier PDF, vous pouvez utiliser un autre outil en ligne de commande appelé «pdfimages».

Remarque: lorsque nous disons quelque chose dans cet article et qu'il y a des guillemets autour du texte, ne tapez pas les guillemets, sauf indication contraire.

L'outil «pdfimages» fait partie du paquet poppler-utils. Vous pouvez vérifier s'il est installé sur votre système et l'installer si nécessaire en suivant les étapes décrites dans cet article.

Pour extraire des images d'un fichier PDF à l'aide de pdfimages, appuyez sur “Ctrl + Alt + T” pour ouvrir une fenêtre de terminal. Tapez la commande suivante à l'invite.

pdfimages /home/lori/Documents/SampleWithImages.pdf /home/lori/Documents/ExtractedImages/image

REMARQUE: pour toutes les commandes présentées dans cet article, remplacez le premier chemin de la commande et le nom de fichier PDF par le chemin et le nom de fichier de votre fichier PDF d'origine. Le deuxième chemin doit être le chemin du dossier racine dans lequel vous voulez enregistrer les images extraites. Le mot "image" à la fin du deuxième chemin représente tout ce que vous voulez préfacer avec votre nom de fichier. Les noms de fichiers des images sont numérotés automatiquement (000, 001, 002, 003, etc.). Si vous souhaitez ajouter du texte au début de chaque image, entrez ce texte à la fin du deuxième chemin. Dans notre exemple, chaque nom de fichier image commence par «image», tel que image-001.ppm, image-002.ppm, etc. Un tiret est ajouté entre le texte que vous spécifiez et le numéro.

Le format d'image par défaut est PPM (pixmap portable) pour les images non monochromes ou PBM (portable bitmap) pour les images monochromes. Ces formats sont conçus pour être facilement échangés entre plates-formes.
Le format d'image par défaut est PPM (pixmap portable) pour les images non monochromes ou PBM (portable bitmap) pour les images monochromes. Ces formats sont conçus pour être facilement échangés entre plates-formes.

REMARQUE: vous pouvez obtenir deux fichiers image pour chaque image de votre fichier PDF. La deuxième image de chaque image est vierge. Vous pourrez ainsi identifier les images contenant les images du fichier à l'aide de la vignette du fichier dans le Gestionnaire de fichiers.

Pour créer des fichiers d’image.jpg, ajoutez l’option “-j” à la commande, comme indiqué ci-dessous.
Pour créer des fichiers d’image.jpg, ajoutez l’option “-j” à la commande, comme indiqué ci-dessous.

pdfimages -j /home/lori/Documents/SampleWithImages.pdf /home/lori/Documents/ExtractedImages/image

REMARQUE: Vous pouvez également modifier la sortie par défaut sur PNG à l'aide de l'option «-png» ou TIFF à l'aide de l'option «-tiff».

Le fichier image principal de chaque image est enregistré en tant que fichier.jpg. La deuxième image vide est toujours un fichier.ppm ou.pbm.
Le fichier image principal de chaque image est enregistré en tant que fichier.jpg. La deuxième image vide est toujours un fichier.ppm ou.pbm.
Si vous souhaitez uniquement convertir des images sur et après une certaine page, utilisez l'option “-f” avec un numéro pour indiquer la première page à convertir, comme indiqué dans l'exemple de commande ci-dessous.
Si vous souhaitez uniquement convertir des images sur et après une certaine page, utilisez l'option “-f” avec un numéro pour indiquer la première page à convertir, comme indiqué dans l'exemple de commande ci-dessous.

pdfimages -f 2 -j /home/lori/Documents/SampleWithImages.pdf /home/lori/Documents/ExtractedImages/image

REMARQUE: Nous avons combiné l’option «-j» à l’option «-f» pour obtenir des images.jpg. Nous avons également procédé de la même manière avec l’option «-l» mentionnée ci-dessous.

Pour convertir toutes les images avant et sur une certaine page, utilisez l'option “-l” (une minuscule “L”, pas le nombre “1”) avec un numéro indiquant la dernière page à convertir, comme indiqué ci-dessous.
Pour convertir toutes les images avant et sur une certaine page, utilisez l'option “-l” (une minuscule “L”, pas le nombre “1”) avec un numéro indiquant la dernière page à convertir, comme indiqué ci-dessous.

pdfimages -l 1 -j /home/lori/Documents/SampleWithImages.pdf /home/lori/Documents/ExtractedImages/image

REMARQUE: vous pouvez utiliser les options “-f” et “-l” ensemble pour convertir des images d'une plage de pages spécifique au milieu de votre document.

S'il existe un mot de passe du propriétaire sur le fichier PDF, utilisez l'option “-opw” et le mot de passe entre guillemets, comme indiqué ci-dessous. Si le mot de passe du fichier PDF est un mot de passe utilisateur, utilisez l'option «-upw» à la place du mot de passe.
S'il existe un mot de passe du propriétaire sur le fichier PDF, utilisez l'option “-opw” et le mot de passe entre guillemets, comme indiqué ci-dessous. Si le mot de passe du fichier PDF est un mot de passe utilisateur, utilisez l'option «-upw» à la place du mot de passe.

REMARQUE: Assurez-vous qu'il y a des guillemets simples autour de votre mot de passe dans la commande.

pdfimages -opw ‘password’ -j /home/lori/Documents/SampleWithImages.pdf /home/lori/Documents/ExtractedImages/image

Conseillé: