La bonne façon pour quiconque de convertir des PDF en texte
Il existe de nombreuses façons de convertir des fichiers PDF en texte, mais certaines méthodes ne vous donneront pas les résultats dont vous avez besoin.
Les moyens les plus faciles de convertir des PDF en texte sur Mac
Ici, nous allons vous montrer les bonnes façons de convertir des PDF en texte, et mettre en avant quelques applications de conversion de PDF en texte que nous aimons vraiment.
PDF en texte avec reconnaissance optique de caractères
Prizmo est un outil de scan et d'exportation de documents PDF très puissant pour Mac. Il excelle lorsque vous devez convertir des fichiers PDF numérisés en texte sur votre ordinateur, mais il fait tellement plus que ça !
Prizmo convertit également les fichiers PDF en texte en utilisant une reconnaissance optique de caractères avancée (OCR). Sa fonctionnalité de « reconnaissance » scanne vos fichiers PDF à la recherche de caractères, ce qui l'aide à savoir ce qui doit être converti dans un fichier texte, et ce qui pourrait être une image ou une mise en forme qui peut être omise.
Nous aimons Prizmo, car sa reconnaissance optique PDF vers texte est très intelligente, et laisse de côté la mise en forme, que d'autres convertisseurs conservent dans le fichier produit. Lors de nos essais comparatifs, nous avons remarqué qu'il produisait de meilleurs documents texte que de nombreux autres services.
Voici comment utiliser Prizmo pour convertir votre document PDF en fichier texte :
- Ouvrez Prizmo. Sélectionnez « Nouveau fichier ».
- Choisissez « Ouvrir un fichier image ».
- Sélectionnez le fichier PDF que vous voulez convertir en texte à partir de votre ordinateur.
- Sélectionnez « Reconnaître » dans le coin supérieur droit de l'écran.
- Dans la barre de menus, allez dans Fichier > Exporter.
- Dans le menu déroulant, sélectionnez « Texte riche ».
- Sélectionnez « Exporter vers un fichier ».
- Nommez votre nouveau fichier texte, et choisissez où vous souhaitez l'enregistrer.
Convertir PDF en texte avec recherche activée
Si vous avez d'énormes fichiers PDF que vous voulez convertir en documents texte, il y a de bonnes chances que vous souhaitiez que ces nouveaux fichiers soient aussi faciles à parcourir que votre PDF l'était. C'est particulièrement important pour les fichiers PDF verbeux, car les documents texte n'ont pas de mise en forme. Au lieu de repères visuels pour vous dire où chercher, vous aurez un mur de texte.
NitroPDF est une super application qui rend les fichiers PDF modifiables, ce qui est génial si vous avez besoin de signatures sur des documents ou que des personnes remplissent des formulaires. Mais c'est aussi un convertisseur PDF en texte vraiment puissant qui permet la conversion par lots si vous avez besoin de cette fonctionnalité.
Voici comment convertir un fichier PDF en texte avec NitroPDF :
- Ouvrez NitroPDF et sélectionnez le document que vous voulez convertir. Sélectionnez « Ouvrir ».
- Dans la barre de menus, allez dans Fichier > Exporter.
- Choisissez « Texte riche » dans le menu déroulant.
- Sélectionnez 'Exporter, et c'est fait !
C'est vraiment tout ce que vous avez à faire ! Maintenant, vous avez créé un document texte à partir de votre PDF.
Gardez quelques points à l'esprit lorsque vous utilisez NitroPDF pour transformer des documents PDF en fichiers texte. Il conserve une partie de la mise en forme, ce qui peut être utile dans certains cas. Bien qu'il y ait des moments où vous voudrez certainement dépouiller toute la mise en forme d'un fichier PDF, certains objets sont parfois des éléments d'information nécessaires.
Nous avons converti un document financier vantant des taux d'introduction à zéro pour cent pour une carte de crédit, et la plupart des convertisseurs de texte ont omis le « 0 » du document parce que c'était un objet, pas un caractère. NitroPDF n'a pas eu ce problème, mais a conservé une mise en forme après la conversion du PDF en document texte, ce qui n'est peut-être pas ce que vous cherchez.
Comment utiliser Automator pour convertir des PDF en texte : une solution native de macOS
Vous pouvez utiliser Aperçu pour enregistrer les fichiers texte en PDF, mais pas des fichiers PDF en texte. L'application intégrée Automator d'Apple est la solution que vous recherchez. Il suffit de garder à l'esprit qu'Automator est un outil « pro », donc suivez bien afin de ne rien rater :
- Ouvrez Automator sur votre Mac.
- Sélectionnez « Nouveau document ».
- Sélectionnez « Flux de travail » dans le menu qui apparaît.
- Dans le menu sur le côté gauche, sélectionnez « Fichiers et dossiers ».
- Dans le sous-menu à droite du menu principal, trouvez « Demandez des éléments du Finder. » Faites glisser vers l'espace ouvert sur le côté droit de la fenêtre.
- Sélectionnez « PDF » dans le menu.
- Sélectionnez « Extraire texte du PDF » dans le sous-menu qui apparaît. Faites-le glisser sur le côté droit de l'écran, sous la rubrique « Demander des éléments du Finder. »
- Dans « Extraire texte du PDF », sélectionnez « Texte riche » comme type de sortie.
Votre écran Automator devrait ressembler à ceci :
- Dans la barre de menus, sélectionnez Fichier > Enregistrer.
- Entrez le nom de votre nouvelle application.
- Choisissez l'emplacement où vous voulez enregistrer votre application.
- Sélectionnez « Application » comme format de fichier. (La valeur par défaut est « flux de travail ».)
C'est tout ce que vous avez à faire pour configurer votre nouvelle application Automator. Maintenant, nous allons l'exécuter et extraire le texte d'un PDF :
- Double-cliquez sur votre application.
- Choisissez le fichier PDF que vous souhaitez convertir et sélectionnez « Choisir » en bas à droite de la fenêtre.
Maintenant, votre PDF a été converti en document texte et enregistré sur votre bureau. Tout ce que vous avez à faire est de l'ouvrir et votre PDF sera lisible comme un document texte !
Quelques points à noter. Tout d'abord, votre PDF ne sera détruit ou modifié d'aucune façon. Cette application Automator extrait seulement le texte du PDF et enregistre ce texte dans un nouveau fichier.
Comme l'application ne fait que convertir les PDF en texte, aucune image ne sera convertie.
Comment convertir du texte en format PDF dans Adobe Acrobat
Vous pouvez utiliser la reconnaissance optique de caractères avec Adobe Acrobat, mais il y a certaines choses à garder à l'esprit. Acrobat est un outil professionnel, et peut être très difficile pour les débutants ou novices. Comme il a été conçu pour les professionnels, ceux qui n'ont pas besoin d'une visionneuse PDF puissante trouveront probablement Adobe Acrobat beaucoup trop pointilleux pour la plupart des cas d'utilisation.
Et rappelez-vous que si nous discutons du cas d'utilisation particulier de la conversion de fichiers PDF en documents texte, cela ne signifie pas que les choses doivent être difficiles. Voilà pourquoi nous vous proposons Prizmo et NitroPDF. Il est probable qu'une de ces applications réponde à vos besoins beaucoup mieux qu'Adobe Acrobat.
Mais si vous souhaitez utiliser la fonctionnalité de reconnaissance optique de caractères (OCR) d'Adobe Acrobat, voici comment le faire :
- Ouvrez un fichier PDF dans Acrobat.
- Sélectionnez « Outils » dans le coin supérieur droit de la fenêtre.
- Sélectionnez « Reconnaître le texte ».
- Sélectionnez « Dans ce fichier ».
- Sur l'écran suivant, choisissez le nombre de pages dans votre document que vous souhaitez scanner. Vous pouvez également apporter des modifications aux préférences de langue ou de sortie en cliquant sur « Modifier ».
C'est vraiment tout ce que vous avez à faire pour numériser le document, mais c'est beaucoup plus spécifique que d'autres applications.
Cela n'exporte pas votre document non plus, donc gardez cela à l'esprit. Tout ce que vous avez fait avec Adobe Acrobat est de rendre votre PDF navigable, et chaque caractère identifiable.
Quid des outils de reconnaissance optique de caractères (OCR) de PDF en ligne ?
Il existe plusieurs services en ligne uniques pour le scan PDF à l'aide d'une fonctionnalité OCR. Leurs fonctionnalités sont semblables : scannez tous vos fichiers PDF et transformez-les en documents texte à l'aide d'un service de reconnaissance optique de caractères, mais il y a certains points à considérer.
Tout d'abord, vous utilisez un service cloud, et il n'y a aucun moyen de savoir ce qui se passe en arrière-plan. Bien que nous ne doutons pas que la plupart de ces outils convertissent simplement des fichiers PDF en texte en tant que service, on peut se demander pourquoi ils le proposent gratuitement. Ils pourraient s'en servir pour former un algorithme d'apprentissage automatique en utilisant ce qui équivaut à des données de crowdsourcing, voire conserver des copies de vos fichiers PDF ou fichiers texte dans un but précis.
Les services en ligne sont parfois une vitrine pour capturer votre adresse e-mail à des fins de marketing. Ils peuvent aussi avoir un modèle où votre premier scan est gratuit, et les scans ultérieurs coûtent de l'argent ou vous forcent à vous abonner à un service. Beaucoup pourraient le faire juste pour obtenir quelques scans, mais si vous oubliez votre abonnement, le coût s'accumule au fil du temps.
Autrement dit, nous préférons utiliser des applications natives pour faire ce travail.
La conversion d'un fichier PDF en fichier texte est un de ces cas d'utilisation où vos besoins sont assez uniques pour qu'il puisse être difficile de trouver une solution, mais assez urgents pour que vous ayez besoin d'une solution rapidement.
Il est difficile de recommander Adobe Acrobat. Bien que cette application soit robuste, elle est généralement trop avancée pour la plupart d'entre nous. Adobe excelle dans les environnements des grandes entreprises qui ont besoin de la puissance qu'Acrobat fournit.
Automator est pratique et donne de bons résultats. Il conserve un peu trop de formatage à notre goût, et effectue le rendu de certains textes en couleur. Les documents texte ouverts dans l'application TextEdit sur Mac étaient difficiles à lire avec le texte fourni par Automator. Nous voulions un texte clair, concis et précis d'un PDF lisible et navigable.
C'est dans ce domaine que Prizmo et NitroPDF excellent. Nous aimons les deux, car ils vous aident à accomplir facilement vos tâches. Les deux sont forts dans leurs domaines respectifs : Prizmo possède un moteur de reconnaissance optique de caractères (OCR) beaucoup plus strict, alors que NitroPDF capture davantage d'informations de la page. Nous avons effectué des essais côte à côte sur trois documents, et découvert que cela était vrai à travers tous les documents PDF que nous avons utilisés.
Nous n'avons pas de recommandation particulière, et nous pensons que les deux sont assez faciles à utiliser pour ne pas avoir à faire la fine bouche. Si l'une de ces applications ne fonctionne pas, l'autre peut satisfaire vos besoins rapidement et facilement.
Et surtout, Prizmo et NitroPDF sont disponibles gratuitement dans le cadre d'un essai gratuit de Setapp, la suite la plus complète d'applications de productivité pour Mac.