Comment puis-je copier du texte d'un PDF tout en préservant la mise en forme?

Vidéo: Comment puis-je copier du texte d'un PDF tout en préservant la mise en forme?

Vidéo: Récupérer le contenu masqué, caché d'une clé usb sur Windows - YouTube 2024, Avril

2024 Auteur: Geoffrey Carr | [email protected]. Dernière modifié: 2023-12-17 11:01

PDF, le format de document omniprésent, est idéal pour partager des documents tout en préservant les polices, les images et la disposition générale sur toutes les plates-formes. Y a-t-il un moyen facile de conserver cette mise en forme lors de la copie et du collage de texte hors du document?

La séance de questions et réponses d’aujourd’hui nous est offerte par SuperUser, une sous-division de Stack Exchange, un groupe de sites Web de questions-réponses dirigé par la communauté.

La question

Lecteur SuperUser Colen recherche un moyen d’extraire du texte à partir de PDF tout en préservant le formatage:


When I copy text out of a PDF file and into a text editor, it ends up mangled in a variety of ways. Formatting like bold and italics are lost; soft line breaks within a paragraph of text are converted to hard line breaks; dashes to break a word over two lines are preserved even when they shouldn’t be; and single and double quotes are replaced with ? signs.
Ideally, I’d like to be able to copy text from a PDF and have formatting converted to HTML codes, “smart quotes” converted to” and ‘, and line breaks done properly. Is there any way to do this?

Existe-t-il un moyen simple et rapide pour Colen (et le reste d’entre nous) d’obtenir un texte instantané sans sacrifier la mise en forme?

La réponse

Contributeur de SuperUser, Frabjous propose une solution combinée avec une forte dose de prudence:


Firstly, you have to understand what a PDF is. PDFs are designed to mimic a printed page, and they are designed only as an output format, not an input format. a PDF is basically a map containing the exact location of characters (individual letters or punctuation, etc.) or images. In most cases, a PDF does not even store information about where one word ends and another begins, much less things like soft breaks vs. hard breaks for paragraph endings.
(A few recent PDFs do store some information about this stuff, but that’s a new technology, and you’d be lucky to find PDFs like that. Even if you did, your PDF viewer might not know about it.)
Anyway, it’s up to your software to implement some kind of “artificial intelligence” to extract merely from the locations of individual characters what is a word, what is a paragraph, and so on. Different software is going to do this better than others, and it’s also going to depend on how the PDF was made. In any case, you should never expect perfect results. Having the output PDF is not the same as having the source document. Far better to try to obtain that if you can.







The standard solution to your kind of problem is to use Adobe Acrobat Professional (the expensive one, not the free reader) to convert the PDF to HTML. Even that is not going to get perfect results.
There is free software that can be used to extract text from PDFs with some of formatting intact, but again, don’t expect perfect results. See, e.g., calibre (which can convert to RTF format), pdftohtml/pdfreflow, or the AbiWord word processor (with all import/export plugins enabled). There’s also a PDF import plugin for OpenOffice.
But please don’t expect perfection with any of these results. You’re going against the grain here. PDF just is not meant as an editable input format.

Si vous ne parvenez pas à choisir l'outil par lequel commencer, Calibre est un véritable couteau suisse de document. Vous pouvez également l'utiliser pour convertir des fichiers PDF à utiliser sur votre lecteur de livre électronique et organiser votre bibliothèque de livres / documents électroniques.

Avez-vous quelque chose à ajouter à l'explication? Sound off dans les commentaires. Voulez-vous lire plus de réponses d'autres utilisateurs de Stack Exchange doués en technologie? Découvrez le fil de discussion complet ici.

Conseillé:

Comment ajouter et mettre en forme du texte dans une forme dans Microsoft Word

Microsoft Word facilite l'ajout de formes géométriques (et bien plus encore) à votre document. Vous pouvez également ajouter du texte à ces formes, ce qui est pratique lorsque vous créez des organigrammes, des diagrammes de réseau, des cartes heuristiques, etc. Ceci étant Word, il existe de nombreuses options pour le faire, jetons donc un coup d’œil.

Comment coller du texte sans mise en forme sur macOS

Copier et coller du texte est l’une des choses que tout utilisateur d’ordinateur doit savoir, mais même si copier / coller est l’une des fonctions les plus simples que vous puissiez apprendre, il peut être accompagné d’un gros problème: le formatage spécial.

Comment coller du texte sans la mise en forme supplémentaire

La plupart du temps, nous mettons tout en œuvre pour conserver la mise en forme de notre texte et nous assurer qu'il correspond exactement à ce que nous souhaitons. Et si vous colliez fréquemment du texte et que vous vouliez supprimer la mise en forme au cours du processus? Continuez à lire alors que nous aidons un lecteur à ajuster son flux de travail pour qu’il soit plus rapide et plus simple.

Que sont les «clichés instantanés» et comment puis-je les utiliser pour copier des fichiers verrouillés?

Lorsque vous essayez de créer de simples sauvegardes de copie de fichiers sous Windows, les fichiers verrouillés sont un problème courant qui peut provoquer une interruption. Que le fichier soit actuellement ouvert par l'utilisateur ou verrouillé par le système d'exploitation lui-même, certains fichiers doivent être complètement inutilisés pour pouvoir être copiés. Heureusement, il existe une solution simple: les clichés instantanés.

Comment coller du texte brut uniquement sans la mise en forme dans Microsoft Word

Cet article montre comment coller du texte brut uniquement sans la mise en forme dans Microsoft Word. Si vous souhaitez toujours le faire, vous pouvez le définir comme paramètre par défaut en sélectionnant l'option Conserver uniquement le texte sous les paramètres Couper, Copier, Coller. Regardez comment.

Comment puis-je copier du texte d'un PDF tout en préservant la mise en forme?

Table des matières:

Vidéo: Comment puis-je copier du texte d'un PDF tout en préservant la mise en forme?

La question

La réponse

Conseillé:

Comment ajouter et mettre en forme du texte dans une forme dans Microsoft Word

Comment coller du texte sans mise en forme sur macOS

Comment coller du texte sans la mise en forme supplémentaire

Que sont les «clichés instantanés» et comment puis-je les utiliser pour copier des fichiers verrouillés?

Comment coller du texte brut uniquement sans la mise en forme dans Microsoft Word

Comment créer un message de vacances pour (presque) n'importe quel compte de messagerie

Comment faire une recherche Cortana avec Google et Chrome au lieu de Bing et Edge

Comment faire taire votre clavier mécanique avec des amortisseurs de commutation

Pouvez-vous jouer sur un Mac?

Comment maximiser la vie de la batterie de votre ordinateur portable Linux

Comment consulter des livres de bibliothèque sur votre Kindle gratuitement

Utiliser Gmail en tant que liste de tâches

Comment activer l'alarme sur le Schlage Connect Smart Lock

Comment arrêter automatiquement la connexion de votre Mac à un réseau Wi-Fi

Qu'est-ce que DirecTV maintenant et peut-il remplacer votre abonnement au câble?

File Association Fixer v2 pour Windows 10

Comment réinitialiser toutes les associations de fichiers par défaut dans Windows 10

Les succès Xbox n'apparaissent pas à l'écran

Microsoft's Laptop Scout - Vous aide à choisir l'ordinateur portable à acheter

Comment réinitialiser WEI ou Windows Experience Index