Formscan : Itesoft et le traitement électronique de documents

Spécialisée dans la lecture et le traitement électroniques de documents, la société Itesoft figure dans le peloton de tête des fournisseurs spécialisés et compte à son actif plus de 70 installations sur le territoire national.

Fondée en 1984 par M. Didier Charpentier, Itesoft (Nîmes) s'est orientée au début des années 90 vers la conception et la fourniture de logiciels de lecture automatique de données dont elle s'est fait une spécialité. Son offre de base est le logiciel Formscan combinant plusieurs technologies d'acquisition/traitement d'images, de segmentation du contenu, de reconnaissance optique de caractères par OCR/ICR, de vérification par cohérence des résultats et de correction interactive. Formscan s'adapte à de nombreux contextes demandant un traitement automatique de documents, ce qui explique que plus de soixante dix sociétés et institutions l'aient choisi. Historiquement les premiers utilisateurs de Formscan ont été les mutuelles de différentes régions de France qui ont vite compris le parti qu'elles pouvaient en tirer pour mettre automatiquement à jour leurs bases et accélérer le traitement de leurs bordereaux. Aujourd'hui, ce logiciel tourne dans des URSSAF, des CAF, des caisses de retraites, des sociétés d'assurances ainsi que dans l'industrie et dans des sociétés de transports. S'y ajoute depuis peu la vente par correspondance avec une première application à la CAMIF pour saisir automatiquement les bonds de commande ainsi que les pièces de règlement associées.

Formscan fonctionne dans l'environnement MS-Windows sans matériel spécialisé. Il existe en version mono-poste ou en version pour réseau local avec répartition des tâches sur différents ordinateurs. Il se compose de plusieurs modules logiciels répondant à des tâches précises qui peuvent être réparties entre plusieurs postes. Le contrôle des traitements est géré par la partie appelée &laqno;supervision» tandis que le module &laqno;acquisition» regroupe tous les programmes d'acquisition des images. Le troisième module est chargé du traitement des images et de la reconnaissance optique des caractères. Enfin, un quatrième module contient les outils de vérification/correction, d'intégration ou de création des fichiers résultants et les outils d'archivage/transmission.

Formscan se paramètre en fonction du type de bordereau ou de formulaire à traiter. L'opération consiste à définir le champ de chaque zone qui doit être complétée puis à lui conférer des attributs. Comme nous le verrons par la suite, on peut mettre en place dès ce stade des calculs de cohérence qui permettent de vérifier l'exactitude de la reconnaissance ou du calcul effectué par celui qui a rempli le formulaire.

En matière de reconnaissance, Formscan est d'un grande souplesse. Selon que les caractères sont dactylographiés ou manuscrits, les ingénieurs d'Itesoft choisiront un module de reconnaissance optiques de caractères (OCR/ICR) plutôt qu'un autre afin d'optimiser le résultat. Le paramétrage est adapté à chaque type de document à traiter mais une fois ce travail fait, Formscan est opérationnel. L'acquisition des documents peut être faite soit par numérisation des originaux, soit par récupération de télécopies reçues par fax-modem ou encore à partir d'images numérisées d'un système GED.

lecture OCR/ICR avec Formscan

Quand il faut entreprendre une numérisation directe, Formscan supporte de nombreux scanners du marché, y compris les modèles de production capables de capturer plus de 50 originaux à la minute dans un traitement par lot. Si la configuration choisie s'y prête et que le nombre de documents à traiter quotidiennement n'est pas, trop important, plusieurs opérations pourront s'enchaîner sur la même station; sinon ces opérations devront être réparties entre plusieurs micro-ordinateurs compatibles PC. Par opérations, il faut entendre le pré-traitement avant reconnaissance optique de caractères. Il se fait de façon entièrement automatique sans l'intervention d'un opérateur et consiste à redresser, s'il y a lieu, l'image de l'original, à éliminer les informations graphiques sans signification, à augmenter le contraste entre le fond et les caractères, etc. Vient ensuite la segmentation de l'image en zones ou champs sur lesquels est appliquée la reconnaissance optique de caractères. Cette reconnaissance est elle aussi fonction du paramétrage effectué sur le formulaire, certains documents comme des bordereaux multiples pouvant être identifiés automatiquement et reconnus dans la foulée.

Itesoft n'a pas retenu un logiciel particulier de reconnaissance optique de caractères par OCR ou ICR. Formscan contient donc plusieurs modules que l'utilisateur sélectionne en fonction de leurs points forts dans une situation donnée. L'optimisation de la reconnaissance suppose d'ailleurs le passage de plusieurs logiciels sur le même document. Le choix et l'ordre d'application varient selon la nature de l'écriture à interpréter. Certains logiciels proviennent de l'offre internationale comme les produits Caere/Calera ou Nestor, pour n'en citer que deux; d'autres sont issus d'un développement mixte université/industrie et sont basés sur une technologie de réseaux de neurones. En combinant ainsi plusieurs outils, on parvient à lire et à interpréter avec un taux élevé de réussite des caractères dactylographiés, des caractères manuscrits numériques ou alphabétiques ou une combinaison des deux. Pour augmenter le rendement de la lecture automatique de documents, Itesoft recommande le précasage et la séparation des caractères manuscrits. La recommandation n'est pas de pure forme: les dirigeants d'Itesoft déclarent obtenir des résultats de 99,9% sur des informations imprimées ou dactylographiées correctement et de 99,5% sur des informations mal imprimées. Dans le cas de textes manuscrits précasés, le taux de reconnaissance oscille entre 96 et 98% pour les informations numériques et de 93 à 96% pour des caractères alphanumériques. Formscan ne reconnaît pas seulement les caractères ou les nombres; il est capable de relire et d'interpréter des cases à cocher et des codes à barres. Toutes ces opérations sont &laqno;transparentes» aux yeux des opérateurs et peuvent être programmées par lots pour se dérouler pendant les heures de disponibilité des ordinateurs, en général la nuit, comme c'est le cas pour l'application de la CAF de Montpellier présentée dans les pages précédentes.

Ce que l'OCR/ICR a extrait des zones d'image numérisée est converti en caractères ASCII et enregistré dans des champs séparés en fonction des attributs définis lors du paramétrage. Les champs contenant des caractères non reconnus sont marqués afin que l'opérateur puisse y revenir et les corriger en les comparant à l'image de l'original. Sur les champs où aucune anomalie n'est signalée, Formscan effectue des contrôles de cohérence des informations en fonction de paramètres prédéterminés. Il peut s'agir de simples vérifications d'addition ou de comparaison par rapport à des informations déjà stockées dans une base de données.

Pour faciliter les corrections, Formscan édite des rapports des opérations effectuées en indiquant les formulaires qui demandent à être contrôlés ou corrigés. Le mode de correction le plus courant consiste à afficher sur le moniteur d'un micro-ordinateur, côte à côte, l'image numérisée et le champ contenant les caractères interprétés ou non-reconnus par le logiciel. L'opérateur ou l'opératrice corrige les caractères ou les chiffres ou même éventuellement rejette le document. Pour les contrôles de cohérence des informations, il leur faut parfois se livrer à un calcul mental ou faire usage d'une calculette. Le logiciel permet d'afficher une page numérisée dans son ensemble puis, par effet de zoom, d'agrandir sélectivement une zone ou effectuer des rotations, etc.

Une fois corrigés, les fichiers d'informations ASCII peuvent être acheminés vers la base de données ou vers l'applicatif auquel ils sont destinés. Les images numérisées sont en général sauvegardées sur un support de stockage de masse dans le cadre d'un archivage classique ou sont importées dans un système de gestion électronique de documents. Si tel est le cas, Formscan assure la conservation du lien entre les images et le fichier extrait, fichier qui pourra être indexé puis exploité pour rechercher sélectivement les documents. Il est également possible de coupler un système LAD à base de Formscan avec un logiciel de workflow afin de distribuer des tâches administratives vers des postes de travail connectés au réseau local.

Selon les dirigeants d'Itesoft, un logiciel de lecture automatique de documents comme Formscan divise de quatre à dix fois le temps d'acquisition des informations par rapport à une méthode manuelle. L'expérience leur a aussi appris que la fiabilité des données est meilleure grâce aux contrôles automatiques de cohérence et à la régularité d'interprétation du logiciel.

Sur Itesoft, voir également l'interview de M. Charpentier

Francis Pelletier

Article publié dans le magazine MOS 148.

© MOS - ARCA 1996 - Tous droits réservés.