Numérisation de documents

Je viens de commencer à numériser mon mémoire de maîtrise. C’était une idée que j’avais depuis longtemps, que je suis en train de mettre en oeuvre ; il y a des périodes dans la vie où l’on est plus enclin aux comportements néoténiques…

J’ai d’abord longuement séparé les feuilles d’un exemplaire de mon mémoire. Je suppose qu’il est possible d’utiliser un gros massicot pour faire un tel travail, mais n’en disposant pas, je me suis résolu à employer une règle plate en guise de coupe-papier.

L’étape suivante consistait à numériser les pages ainsi séparées. A ce point, j’ai été surpris : je m’attendais à un travail difficile, fastidieux et il n’en a rien été. Je pensais que le chargeur du scanner allait mal fonctionner, provoquer des bourrages sans nombre etc. mais cela ne s’est pas produit ; seule une page, que j’avais malencontreusement froissée pendant le transport, n’a pas pu passer automatiquement. En outre, ce traitement a été très rapide : il ne m’a guère fallu plus d’une demi-heure (en plusieurs fois) pour numériser l’ensemble des 240 pages du document.

Le “pilotage” du scanner était assuré par le logiciel XnView qui possède une fonction “Acquérir dans…” qui permet de scanner un ensemble de pages, en les numérotant et en les enregistrant automatiquement.

Cette rapidité de la numérisation a perturbé le processus de travail que j’avais envisagé : je pensais ne pouvoir numériser que 10 ou 15 pages par jour (je précise que je ne travaille pas à temps plein sur ce projet… j’exerce également une activité salariée ;-) Mon plan était donc de passer 15-20 minutes entre midi et 14 h pour numériser le document et 1 h ou 1 h 30 le soir pour faire la reconnaissance de caractères) que je pourrais, dans la soirée du même jour, transformer en texte (OCR et corrections manuelles). En réalité, au bout de deux jours l’ensemble était numérisé, mais il faut plus d’1 h 30 pour corriger 10-15 pages…

J’ai fait différents tests pour trouver le logiciel d’OCR le plus adapté et je dois dire que j’ai été déçu. Ma première idée était d’utiliser une ancienne version d’Omnipage Pro que j’avais eu jadis avec un scanner, mais comme l’ordinateur que j’utilise le plus est désormais sous Linux et que ce système m’est plus familier, j’ai cherché s’il n’y avait pas moyen de faire plutôt la reconnaissance de caractères avec lui. J’ai découvert cette page et ai testé plusieurs des logiciels qui y sont mentionnés. Ceux qui m’ont donné le plus de satisfaction sont Tesseract et Ocropus (qui dans son état actuel est une sorte de surcouche de Tesseract). Toutefois, aucun des deux n’est capable de restituer les caractères accentués, ce qui peut être rapidement fastidieux pour un texte en français. Au final, j’ai pris la résolution d’utiliser Omnipage, qui est celui qui donne les meilleurs résultats et j’ai ainsi “OCRisé” une vingtaine de pages, en utilisant la vérification interactive du logiciel, puis en reprenant les documents ainsi créés, en les regroupant logiquement et en les corrigeant dans OpenOffice.

Comme on peut s’y attendre, certains passages sont mal ou pas du tout reconnus par l’OCR, c’est le cas des passages en grec, c’est aussi le cas des chiffres (numéros de pages dans les références par exemple).

Pour fluidifier le processus et ne pas m’obliger à ne travailler à ce projet que quand je suis sur l’ordinateur sur lequel Omnipage est installé, j’ai “OCRisé” l’ensemble des pages et je vérifierai plus tard.

Je suis donc au tout début du travail d’édition de ce document. J’envisage de mettre en ligne une première version “image”, mais je ne sais pas si ça peut avoir un intérêt. En tout cas, je vous tiendrai au courant de l’évolution de ce projet et des raisons qui m’ont poussé à m’y lancer.

tags technorati: , ,

Le catalogue de ma bibliothèque…

J’adore les livres, les vrais livres, ceux en papier. J’ai envie d’en lire, j’ai envie d’en posséder, j’ai envie d’en toucher et j’ai envie de passer du temps dans ma bibliothèque, en particulier en ce moment.

Cela m’amène à fréquenter beaucoup le site d’Amazon, à lire des dizaines de blogs qui parlent de livres, de bibliophilie ou de lecture, mais aussi à vouloir faire un catalogue de mes livres. J’avais, naguère, évoqué sur ce blog le site LibraryThing pour cela, sans suffisamment prêter attention au fait que le compte gratuit ne permet pas d’insérer plus de 200 livres, autant dire rien…

[Entre le moment où ce billet a été écrit sur mon moleskine et le moment où il est dactylographié (n’est-ce pas un mot exquis ?), il s’est écoulé plusieurs semaines le contenu de ce billet a changé. Dans sa première version, il continuait ainsi : “et pour le dire comme je le pense, je ne suis pas disposé, au moins pour le moment, à payer ce service (je ne conteste pas qu’il soit légitime pour le créateur de ce site d’être rémunéré, je dis simplement que s’il n’est pas possible de profiter gratuitement d’un tel service, je préfère m’en passer, dans l’état actuel des choses”.

La nouvelle version est la suivante :]

J’expliquais dans ce billet pourquoi je n’étais pas disposé à payer pour ce service et comment j’en étais venu à tester d’autres services, dont la plupart ne m’avaient pas satisfait, et à choisir d’utiliser Listal. Je détaillais ensuite la procédure que j’envisageais d’adopter pour cataloguer mes livres avec Listal, que je peux résumer ainsi :

– Lecture des codes barres des livres ;

– Recherche du livre dans la base d’Amazon ;

– Importation des informations concernant le livre dans Listal.

Le code barre des livres (pour ceux qui en ont un) correspond à leur ISBN et permet donc de les identifier de façon assez précise.

J’ai fait quelques tests avec une petite application en Flash qui permet de lire des codes barres avec une webcam, avec l’API d’Amazon (ces derniers tests m’ont permis de comprendre pourquoi Listal ne recherche des livres que sur amazon.com et amazon.co.uk : la recherche par ISBN n’est pas possible, dans la version actuelle de l’API, sur les autres sites d’Amazon et notamment sur amazon.fr, même si cette possibilité existe avec des versions plus anciennes), avec les fonctionnalités d’importation de Listal…

Au final, ces tests ont révélé que cette solution serait trop compliquée : la lecture des codes barres, outre quelques petits bugs qui se sont révélés, est difficile et longue. L’utilisation de l’API d’Amazon ne permet pas de rechercher les ISBN sur le site français et l’importation dans Listal est malaisée (il n’est possible d’importer que des fichiers XML produits par l’application Mac de gestion de bibliothèque personnelle Delicious library, format qui n’est documenté nulle part).

Je suis donc retourné voir LibraryThing (d’ailleurs en partie pour préciser le nombre maximal de livres qu’on peut ajouter avec le compte gratuit) et, sur un coup de tête, j’ai pris un abonnement payant pour ce service (25 $ pour un abonnement à vie et, je l’ignorais, 25 $ représentent beaucoup moins que 25 € par les temps qui courent). Ici, l’importation est beaucoup plus simple : je peux téléverser un fichier texte contenant des ISBN, qui sont ajoutés automatiquement à ma bibliothèque (en utilisant amazon.fr qui reste une base à peu près inépuisable pour les livres en français).

J’avais aussi envisagé d’écrire quelques lignes de PHP pour saisir rapidement les ISBN et les inscrire dans un fichier texte, mais j’ai soudain songé que l’application qui permet de saisir un ISBN, puis de presser la touche “Entrée” avant d’en saisir un autre et finalement d’enregistrer tout cela dans un fichier texte, cette application, dis-je, existe déjà et elle s’appelle un éditeur de textes…

Je vais donc occuper une partie de mes congés (qui commencent demain soir) à saisir les livres de ma bibliothèque dans Notepad++ avant de les embougler dans LibraryThing… ce qui est assez différent du scénario initial. Je ne donne pas, pour le moment, l’adresse de ma bibliothèque sur LT, j’attends qu’elle soit plus à jour, mais les petits malins réussiront bien à la trouver.

En outre, je viens de découvrir chez Virginie Clayssen un autre service du même genre qui s’appelle Babelio et qui est nativement francophone, semble-t-il (LT est traduit en français, entre autres langues). Cependant, comme ce service repose sur le même business model que LT, je n’ai pas l’intention de reprendre un autre abonnement à vie (surtout que sur Babelio, il est à 30 €, soit presque le double de ce qu’il est sur LT). Cependant, je le testerai et, toujours fidèle à ma mission d’information de mes lecteurs, je vous dirai ce que j’en pense. ;-)

tags technorati: , , , ,