GED : simplification du développement des applications

par David Silver, président de Kofax Imaging
© Copyright 1994 MOSARCA
Cet article a été publié dans le magzine MOS 127- septembre 1994

La disponibilité de nouveaux logiciels de programmation rend possible l'intégration de la gestion électronique de documents à l'aide de modules apportant toutes les fonctions de la GED à des applicatifs ou à des bases de données.Cet article, écrit par l'un des pionniers de la GED et l'un des meilleurs spécialistes, détaille quelques unes de ces possibilités.

Ces dix dernières années, la profession de la gestion électronique de documents a vécu un parcours qui tient un peu des montagnes russes. A certains moments, elle a pu avoir l'impression pénible de gravir le flanc d'une montagne quand elle attendait que la principale composante du marché, celle des utilisateurs de PC, parvienne au niveau d'exigence de la gestion électronique de documents. Puis, soudain, elle est entrée dans une période plus facile, comme portée par une pente tranquille et régulière, quand la technologie dominante a été adoptée par le marché de la gestion électronique de documents. A ce titre, les applications de gestion de documents image ayant toujours fait intensément appel à l'unité centrale, l'apparition, à des prix très bas, de systèmes puissants basés sur les processeurs 486 a eu l'effet d'un coup de fouet sur l'industrie de la GED.

Aujourd'hui, l'industrie de la gestion électronique de documents est, une fois encore, à la veille d'une poussée de croissance due à une nouvelle technologie empruntée à la composante principale et que personne n'attendait: les environnements à programmation visuelle comme le Visual Basic de Microsoft. Ces environnements, qui ont fait florès dans le monde PC, ont favorisé l'épanouissement d'une nouvelle génération d'outils faciles à utiliser qui permettent aux développeurs de construire des applications de gestion électronique de documents sophistiquées en un temps bien plus court que celui qu'ils mettaient avec les outils traditionnels en langage &laqno;C». Grâce à ces outils, les petits développeurs, même ceux qui n'ont qu'une expérience limitée de la gestion électronique de documents, peuvent rivaliser avec de grands fournisseurs de gestion électronique de documents. Visual Basic est le plus répandu de ces nouveaux environnements à programmation visuelle mais le choix est vaste entre le PowerBuilder de Powersoft, le SQLWindows de Gupta, le C/C++4.0 de Borland et d'autres. Tous ces environnements possèdent des interfaces simplifiées de type &laqno;déplacer et lâcher» et sont compatibles avec des commandes personnalisées ou VBX.

Les commandes personnalisées sont des outils complémentaires qui découlent de Visual Basic mais qui sont rapidement devenus un standard pour boîtes à outils de développement. Aujourd'hui, plusieurs boîtes à outils spécialisées dans le traitement de l'image existent en tant que VBX englobant un code C pré-packagé correspondant à de nombreuses fonctions complexes de traitement d'image qui, auparavant, n'existaient que dans des systèmes haut de gamme onéreux. Pour inclure l'une de ces fonctions, le développeur n'a qu'à déplacer une icône représentant la fonction choisie, la reconnaissance de codes-barres par exemple, de la barre d'outils affichée à l'écran jusqu'à un &laqno;formulaire» de programmation VB, à l'y lâcher et à écrire quelques lignes de code. Le procédé est quasiment le même lorsque le développeur crée un nouveau système, introduit l'image dans une application dont il hérite ou dote une application de gestion électronique de documents existante de nouvelles fonctions.

Cet article décrit brièvement quelques-unes des commandes personnalisées qui existent pré-packagées dans des boîtes à outils et qui permettent aux développeurs de créer, facilement et rapidement, des systèmes sophistiqués de traitement de l'image où la capture des documents et la séparation par lots sont automatisées. Ces fonctions de caractère productif parmi lesquelles on peut citer le redressement de l'image, la détection des séparateurs de lot, la reconnaissance de codes-barres et l'annotation de textes, peuvent être configurées pour fonctionner de concert avec les principaux contrôleurs de périphériques, à une cadence synchrone avec la vitesse nominale de ces périphériques. Cet article expose également les principales caractéristiques à prendre en considération pour choisir une boîte à outils de programmation visuelle capable d'implémenter ces fonctions avancées de traitement des documents image.

Le redressement de l'image

Les documents de biais ou mal centrés lors de la numérisation posent un problème particulièrement préoccupant lorsque l'on brasse de grands volumes de papier dans des systèmes de gestion de documents image qui ont fini par se rendre indispensables. Les documents de biais réduisent la précision de la reconnaissance optique de caractères (OCR) car, en présence d'un texte déformé, le système est susceptible de faire une erreur d'interprétation ou de ne pas pouvoir l'identifier.
Avec le redressement de l'image, les documents sont numérisés, redressés puis traités au moyen d'un OCR qui marque un progrès par rapport aux applications OCR à la fois par zones et en texte intégral. Si la boîte à outils VB utilisée pour développer l'application de gestion électronique de documents est compatible avec un contrôleur matériel puissant, le redressement de l'image, tout comme la plupart des autres traitements de l'image, peut être déchargé du PC sur la carte. L'avantage d'utiliser un contrôleur est que le traitement est effectué en temps réel à la vitesse nominale du scanner.

La séparation des lots

La séparation des lots ou détection des codes de groupage, signale la fin d'un lot de documents pendant la numérisation. C'est un outil efficace pour automatiser l'indexation, l'acheminement et la classification des documents et des dossiers image pendant la numérisation.
Un code de groupage est une étiquette de code-barres attachée près du bord supérieur du premier document d'un lot. Pendant la numérisation, le module détermine si un code de groupage est présent puis identifie son type, et en même temps, détecte automatiquement la fin d'un lot à numériser.
Pour être utiles, les modules de détection de séparateurs de lots doivent effectuer la reconnaissance des codes de groupage en temps réel. Un module performant est capable d'identifier des séparateurs de lots même en présence d'un biais, de couleurs ou de &laqno;bruit», est indépendant du scanner et lit 200 à 400 points par pouce (dpi).

Reconnaissance de codes-barres

La reconnaissance de codes-barres automatise l'indexation et est très efficace si elle est effectuée en ligne pendant la numérisation. Les sociétés qui utilisent beaucoup de papier et qui ont adopté la reconnaissance optique de caractères ont indiqué qu'elles avaient accru leur productivité de 25 à 30 % et considérablement amélioré leur service à la clientèle. Ce module recherche un type spécifique de codes-barres dans une zone définie de la page, convertit ce code-barres en ASCII, effectue éventuellement une addition de vérification puis renvoie la chaîne ASCII à l'application.
La reconnaissance de codes-barres repose techniquement sur deux algorithmes de recherche fondamentaux. L'un part de la moitié basse de l'image et la balaye d'un bord à l'autre pour localiser des symboles soit horizontaux soit verticaux. L'autre part du bord supérieur gauche de l'image et la balaye soit vers le bas soit transversalement pour localiser les codes-barres. La capacité de localiser et de lire les codes-barres, qu'ils soient horizontaux ou verticaux, est un caractère essentiel de ce module. Il doit aussi pouvoir lire un nombre illimité de codes-barres par page et décoder des formats courants tels que le Code 39, l'entrelacé 2 ou 5, l'UPC, le Codabar et d'autres. Ces packages de reconnaissance de codes-barres qui proviennent pour la plupart des Etats-Unis doivent également pouvoir relire des types européens de codes-barres tels que les EAN 8 et 13. Un mode &laqno;apprentissage» permet au système de détecter automatiquement le type de codes-barres. Comme pour les autres modules, un filtrage du bruit et une tolérance au biais puissants peuvent améliorer les performances.

L'annotation de textes

L'annotation de textes permet aux utilisateurs d'associer des informations générales actualisées, telles qu'un numéro de page, une date ou des commentaires relatifs au travail, directement à une image, en éliminant complètement la source papier. Des modules sophistiqués stockent les annotations soit en surimposition n'apparaissant qu'à l'impression et à l'affichage, ce qui permet de conserver au document son intégrité, soit comme partie permanente du document accessible à chaque référence ultérieure. On peut annoter en différentes polices et résolutions. Les annotations peuvent être placées à n'importe quel endroit du document et subir une rotation selon n'importe quel angle. La plupart des modules d'annotation de textes fournissent également diverses options de fusion permettant de combiner texte et document. Par exemple, il est possible de remplacer la zone annotée de l'image par un nouveau texte, de recouvrir une image existante par le nouveau texte ou d'incruster le texte en contraste.

Sélection d'une boîte à outils de programmation visuelle

Les boîtes à outils sont devenues l'environnement préféré de ceux qui veulent développer des systèmes dotés des fonctions avancées de traitement de l'image décrites ici. En tant qu'outil de développement, la boîte à outils est souvent appelée à servir sur plusieurs années, soit au développement de nouveaux projets soit à l'adaptation des applications existantes. Une boîte à outils de programmation visuelle de traitement de l'image doit par conséquent contenir des commandes standard avancées assez souples pour répondre à des besoins encore inconnus mais qui vont apparaître. Au nombre de ces besoins figurent la prise en compte de fonctions de GED toujours plus sophistiquées, à caractère productif, ou encore de toute une gamme de périphériques.
Il faut qu'une boîte à outils supporte au moins les vitesses de numérisation actuelles, allant de 4 pages/minute à plus de 100 pages/minute; les scanners recto-verso et les moteurs logiciels de numérisation bas de gamme. Elle doit permettre l'impression en réseau à vitesse nominale et accepter toute une gamme de scanners, d'imprimantes et de dispositifs d'affichage, y compris des accélérateurs d'affichage. En outre, elle doit permettre le stockage et la recherche de fichiers dans plusieurs formats, dont CALS, PCX et TIFF ainsi que la compression et la décompression standard de l'image. Pour compenser l'une des faiblesses de Visual Basic, la lenteur de l'affichage de sa fenêtre de dialogue, certaines boîtes à outils contiennent des fenêtres de dialogue entièrement définies correspondant aux opérations standard telles que la sélection du scanner et la mise en place de codes-barres. Les boîtes à outils doivent également offrir un accès direct aux fichiers de ressources afin de simplifier le processus de localisation du langage.
Les développeurs doivent être conscients du fait que chacune des nouvelles boîtes à outils Visual Basic et Visual C++ actuellement sur le marché a une structure différente qui dépend de l'approche philosophique du vendeur en matière de gestion électronique de documents. Les meilleures boîtes à outils sont hautement intégrées et supportent toutes les fonctions de traitement de l'image en temps réel sans ralentir le scanner. Dans ce type d'approche, un seul fournisseur contrôle la boîte à outils dans son entier, ce qui empêche la dilution des responsabilités si une fonction de la boîte à outils n'opère pas correctement.

Une autre approche consiste à envelopper le code de différents fournisseurs dans une coquille VBX. Dans ce cas, on peut avoir, dans la même boîte à outils, un noyau de commandes de numérisation personnalisées provenant d'un fournisseur et la reconnaissance de codes-barres provenant d'une source différente, sans rapport avec la première. Il faut que les développeurs sachent que le fait de multiplier les commandes personnalisées demande un traitement supplémentaire pour coordonner les événements, ce qui nuit souvent aux performances du système. Sans compter qu'il faut généralement payer des droits séparés aux différents fournisseurs de chacune des commandes.
Les boîtes à outils se sont révélées efficaces à la fois pour développer des fonctions de gestion de documents image au sein de nouvelles applications et pour introduire l'image dans des applications en usage. Ces boîtes à outils offrent la possibilité d'ajouter des fonctions à caractère productif qui permettent aux utilisateurs de traiter les documents plus efficacement. Les développeurs peuvent améliorer les applications tout en réduisant considérablement le temps qu'ils y consacrent et, par la même occasion, les coûts de développement.

par David Silver

M.David Silver est cofondateur et président de la société Kofax Imaging spécialisée dans la conception et la commercialisation de cartes d'interface et de gestion d'images numérisées pour la GED.Kofax commercialise également des ensembles logiciels de conception et de développement d'applications GED disponibles pour de multiples environnements.Elle s'apprête à proposer une nouvelle ligne de logiciels appelés Ascent (MOSN°123, pages 31/32) pour NISde Novell.
Traduction : Nathalie Hamard

© Copyright 1994 MOSARCA
Cet article a été publié dans le magzine MOS 127- septembre 1994