Scan PDF, OCR et fichier Excel  (Lu 154 fois) Partager ce sujet Imprimer

1 B


Jimi4270  22 octobre 2020 : 12:56

Bonjour à tous,


voici ma problématique. Je dois traiter des fichiers similaires qui comportent plusieurs références.
J'aimerais extraire "à la volée" des informations du PDF en question. J'aimerais qu'une zone soit "scanné OCR" et que les résultats se mettent sur une colonne Excel et que cela s'applique pour toutes les pages du PDF.

Ayant un peu de mal à exprimer mon besoin, j'ai mis une photo.

Un grand merci pour votre aide :)


Bonne journée à vous


IP archivée


bebarth  22 octobre 2020 : 13:39

bonjour,
C'est possible si tu utilises Acrobat Pro. !
Les données à extraire se situent toujours au même endroit sur les pages ?
Il faudra partager quelques pages afin de déterminer exactement la zone.
@+
 :bonjour:

IP archivée


Jimi4270  22 octobre 2020 : 14:08

Merci pour ce retour rapide !
Oui c'est toujours dans la même zone, je télécharge acrobat pro illico.


IP archivée


Jimi4270  22 octobre 2020 : 18:01

Bon alors, j'ai téléchargé Adobe Pro. C'est génial !
Mais je ne trouve pas comment je peux:
- extraire plusieurs zones de textes dans une même page et que ce la s'applique sur les mêmes zones.
- affilier chacune des zones à une colonne excel.

Je cherche mais impossible :/

IP archivée


bebarth  22 octobre 2020 : 18:19

C'est normal, parce que c'est possible... mais avec un peu de programmation !!!
Une dernière remarque, si ce sont des scans, il faut qu'ils soient de bonne qualité pour que la fonction OCR reconnaisse bien tous les caractères, et qu'ils n'aient pas été scannés trop de travers.
Je peux t'aider, mais il faudra partager quelques pages et me donner quelques indications (ou se trouve la référence à récupérer, en 1 mot ou en plusieurs, s'il y a plusieurs variantes, etc.).
Si tu ne veux pas partager sur le forum, tu peux trouver mon adresse e-mail en cliquant sur mon pseudo.
Sinon, il faudra trouver une autre solution.
@+
 :bonjour:

IP archivée


Merlin  23 octobre 2020 : 11:22

Bonjour

Tabula est un utilitaire gratuit dédié à l'extraction de données dans des PDF et importation dans un tableur : https://tabula.technology/
Il en existe un autre à petit prix qui ne fonctionne que sur MacOS et certainement plus facile d'utilisation mais je ne me souviens plus de son nom.

Par-contre ces deux utilitaires ne font ni scan ni OCR, donc Acrobat Pro ne sera pas inutile.

IP archivée


gagalo  30 octobre 2020 : 08:01

OCR ???????????????????????????????
PDF ?????????????????????????????????
OCR ???????????????
PDF ?????
Excel ????
Renee PDF Aide

IP archivée


Merlin  30 octobre 2020 : 17:05

1000 excuses, je l'avais oublié.

IP archivée