Scan des pages du livre

Sommaire

Retour à « Préparation du livre à numériser »

1-Préparation du scanner :

Pour Scanner vous avez deux solutions selon le matériel dont vous disposez. La première solution nécessite un scanner avec un chargeur de feuille comme celui-ci. L’inconvénient majeur de ces scanners est leurs prix exorbitant, sans compter que les changeurs sont prévus pour le format A4 peu adapté au format des livres de poches et le recto-verso ne fonctionne pas sur ces formats là.

La seconde solution consiste à utiliser un scanner classique mais en améliorant un peu le système pour gagner en rapidité. Le souci de ces scanners c’est qu’il faut pré-numériser avant chaque scan. La solution est de faire masque à la dimension d’une page.

    - Tracez sur une feuille A4 le contour de la couverture du livre. (placez la fenêtre le plus haut possible pour que le chariot fasse un minimum de trajet.)
    - Découpez le contour à l’aide d’un cutter et une régle.
    - Ensuite fixez le masque avec du ruban adhésif sur le scanner.

Pour Windows le logiciel de scan varie selon les constructeurs de scanner donc je ne pourrais pas tous les montrer ici. Sur linux la chose est plus simple, Xsane fonctionne avec tous les scanner donc je ferais mon tuto sur ce logiciel, et le principe doit rester sensiblement le même pour tous les logiciels.

Accéder au logiciel XSane sur l’environnement Gnome « Applications>Graphisme>Scanneur d’images Xsane« 

Il est important de traiter indépendamment le texte et l’image, la reconstitution se fera lors de la mise en forme.

Le paramétrage optimum pour le texte est le suivant :

    - Le scan du texte doit être enregistrer sous le format TIFF, c’est un format sans perte comme BMP mais compressé.
    - Le niveau de détail optimum est de 300 ppp (pixel par pouce) on peut rencontrer aussi l’unité anglaise équivalente « dpi« .
    - Le niveau de couleur doit être le Noir et Blanc, surtout ne pas utiliser le mode niveau de gris, l’OCR ne fonctionne bien qu’avec le noir et blanc.
    - Ne pas utilisé de détramage, souvent indiqué « mode magazine » dans les logiciels propriétaires.

Le paramétrage pour les images :

    - Le scan de la photo doit être enregistrer de préférence sous le format PNG, qui est un format sans perte compressé (contrairement au JPG qui provoque des pertes) supportant le codage en 24 bit (le GIF est limité à 8bit indexé).
    - Le niveau de détail peut aller de 300 ppp à 600 ppp selon le niveau de détail désiré. En sachant que plus de 600 ppp est inutile même pour des agrandissement car le tramage des imprimeries dépasse rarement les 400 ppp.
    - Le niveau de couleur doit être adapté à la photo, « niveau de gris » pour les photos en noir et blanc, et « couleur 24bit » pour les photos couleurs.
    - Si vous optenez des effets de moirage vous pouvez utilisez l’option de détramage tout en sachant que cela aura pour effet de flouter légèrement l’image. Parfois il vaut mieux baisser le niveau de détail pour supprimer le moirage tout en gardant la netteté.

NB: Si vous utilisez un logiciel de retouche d’image sur du PNG, préférez The Gimp à Photoshop. Ce n’est pas un conseil partisan mais le fait que photoshop (version 7.0 à CS3, je n’ai pas essayé sur CS4) donne des fichiers PNG anormalement volumineux une fois enregistré. Et même remarque pour fireworks à une moindre mesure.

XSane permet aussi une incrémentation automatique des noms de fichier au fur à mesure des scans. Le pas doit être réglé à « + 1 » ce qui permet de nommé le fichier en fonction du numéro de la page scannée.

Il est possible de changer le répertoire de destination des images scannées en cliquant sur la disquette à côté du chemin du fichier.

2-Numérisation des pages :

La partie numérisation demande de la patience car cela demande un certain temps qui dépend de la vitesse du scanner et de votre organisation. Pour donnez une idée le rythme de numérisation avec scanner Trust 19200 (c’est pas le plus rapide ^^) est de 43 secondes par page.

    - Effectuez le réglage pour les Photos.
    - Commencez par la première de couverture et la quatrième de couverture en PNG et les photos s’il y en a (numéroter les scans en fonction des numéros de page, la première de couverture sera numérotée 000).
    - Modifier les réglages pour le texte en TIFF.
    - Ensuite faite une prénumérisation sur une page contenant du texte sur toute la page. Effectuez le cadrage de façon précise. Le masque que vous avez fabriquez à la dimension de la page va vous servir ici à ne plus avoir besoin de prénumériser à chaque page.
    - Passez à la numérisation des pages en les plaçant dans le masque quand le chariot retourne à sa position initiale. Si tout se passe bien, le texte doit être bien centré, bien horizontal, et bien lisible. Ce n’est pas la partie la plus passionnante je vous l’accorde mais il faut en passer par là vous n’avez pas le choix.

Voici ci-dessous un exemple de cadrage dans la fenêtre aperçu de XSane:

Attention votre organisation vous permettra de gagner du temps lors de la numérisation:

09-12-12-02-dispositionscanner

    - Mettre le scanner devant vous au centre de votre bureau, les pages déjà scannées à gauche du scanner et celles qui restent à passer à doite. C’est rarement l’endroit habituel où on met son scanner mais au bout de 300 pages vous verrez que ce n’est pas du luxe.
    - Une petite astuce pour rendre la numérisation moins ennuyeuse, vous pouvez regarder un DVD ou un divx avec vlc sur une fenêtre en mode minimal dans un coin de l’écran.
    - Organisez vous sur votre écran pour n’avoir qu’à cliquer sur les boutons « enregistrer« , « fermer la fenêtre » et « numériser » dans la foulé.

Maintenant vous devez avoir toutes les pages numérotés dans un répertoire. Je vous conseil, pour ne pas avoir à refaire la numérisation, de les archiver sous zip ou rar, et de préférence sur un disque dur différent.

Maintenant passons à la reconnaissance optique de caractère (OCR).

Suivant – Passage des scan à l’OCR

Mithrandir79

2 commentaires

2 comments

  1. Cristian 14 novembre, 2010, à 17 h 12 min

    Il n’y a pas moyen d’utiliser Xsane en ligne de commande et de l’executer a interval regulier (15 ~20 sec) afin de ne plus avoir qu’a tourner les pages.

  2. mithrandir79 14 novembre, 2010, à 21 h 17 min

    @cristian

    Si c’est toujours possible de faire un script sh avec une boucle délai de 15 ou 20 seconde. Tu peux voir ici comment réaliser un script bash. Pour la réalisation de boucle c’est ici. Pour faire un delai d’attente en début de boucle tu utilises la commande « sleep 20″ pour 20 seconde. La commande pour utiliser Sane en ligne de commande c’est « scanimage » voir le manuel ici. Et ici vous trouverez quelques exemples de script avec scanimage.