Extraire du texte à partir d'images ou d'un PDF numérisé -

Qui suis-je
Pau Monfort
@paumonfort
Auteur et références

Les images (au format jpeg, jpg, bmp, gif, png, etc…) et les PDF scannés ont un point commun : ils ne permettent pas de sélectionner, copier et extraire le texte qui s'y trouve. Par conséquent, si vous avez un document numérisé ou une image contenant un texte très important que vous devez modifier ou copier, la seule solution possible est d'utiliser un programme OCR.

Un programme OCR est un outil doté d'une technologie interne de reconnaissance optique de caractères, une technologie très utile pour reconnaître et extraire du texte à partir d'images ou de PDF numérisés. L'un des meilleurs programmes dans ce domaine est certainement Elément PDF, que nous avons déjà vu à l'œuvre dans le guide sur comment extraire du texte d'un document PDF.



PDFElement est compatible avec les ordinateurs Windows et Mac et est disponible dans une version "professionnelle" qui inclut la technologie OCR, utile pour extraire du texte à partir d'images ou de documents numérisés. Voyons ci-dessous comment cela fonctionne et à quel point il est simple d'extraire du texte à partir d'images.

Comment extraire du texte à partir d'images ou de PDF numérisés

Étape 1. Téléchargez et installez PDFElement sur votre ordinateur

Voici les liens à partir desquels vous pouvez télécharger la version de démonstration entièrement gratuite :

 

Après avoir installé et démarré le programme, vous verrez l'écran de démarrage suivant :

Étape 2. Importer l'image numérisée ou le PDF

Cliquez en bas à gauche FICHIER OUVERT ... et sélectionnez l'image numérisée ou le fichier pdf. Pour nos tests et pour cet article, nous avons spécialement créé une image JPEG (via « Paint ») et y avons mis du texte. Une fois cette image chargée dans le programme, voici ce qui est apparu :



3 étape. Exécuter la fonction OCR

Comme vous pouvez le voir sur la figure ci-dessus, le programme détecte automatiquement qu'il s'agit d'une image et vous demande si vous souhaitez effectuer une OCR afin de reconnaître le texte dans l'image. En cliquant sur EXÉCUTER L'OCR vous devrez d'abord sélectionner la langue du texte puis lancer l'analyse. Pendant l'analyse, cette fenêtre contextuelle apparaîtra vous informant d'attendre la fin de la procédure :

4 étape. Extraction de texte


Après l'OCR comme par magie tout le texte contenu dans l'image (ou dans le PDF scanné) sera "modifiable". C'est-à-dire que vous pouvez le copier, le modifier, le supprimer, le surligner, etc...


À ce stade, vous pouvez tout enregistrer soit au format PDF, soit au format Word, Excel, Powerpoint (de la rubrique ACCUEIL cliquez simplement sur l'icône du format de sortie souhaité).

 

un outil en ligne gratuit ? je ne peux rien télécharger

  • Essayez ceci : https://pdftotext.com/
    Mais je ne sais pas s'il prend en charge les PDF scannés...

  • vous avez été très clair, je vais essayer le programme, plus tard je rendrai compte du résultat. Merci

  • je n'ai pas encore essayé je te dirai

  • Extraire du texte à partir d'images ou d'un PDF numérisé -

    Audio Video Extraire du texte à partir d'images ou d'un PDF numérisé -
    ajouter un commentaire de Extraire du texte à partir d'images ou d'un PDF numérisé -
    Commentaire envoyé avec succès ! Nous l'examinerons dans les prochaines heures.