Reconnaissance de documents sur un exemple privé - un aperçu des solutions payantes et gratuites disponibles

salut! C'est une situation typique dans l'entreprise où je travaille. En comptabilité, il y a une ruée éternelle, il n'y a pas assez de monde, tout le monde fait quelque chose d'absolument important, mais essentiellement inutile. Cet état de fait ne convenait pas à la direction.



Plus en détail, le problème est que les ressources comptables ne sont pas suffisantes pour les tâches actuelles et que personne ne veut attribuer des tarifs aux nouvelles personnes. Par conséquent, d'en haut, ils ont décidé de réduire certaines tâches et de libérer le temps des comptables pour des choses plus utiles. Des travaux tels que la numérisation et la reconnaissance de documents, la copie, leur ajout à d'autres joies de routine sont passés sous le bistouri.



Ainsi, en tant qu'analyste, j'ai été confronté à la tâche de trouver une solution pour reconnaître un document typique de mon entreprise - une facture - pour le structurer dans les stockages disponibles, ainsi qu'en 1C. Une solution qui sera pratique, compréhensible et ne coûtera pas un joli centime à l'entreprise.



L'expérience s'est avérée amusante, j'ai décidé de partager ce que j'ai réussi à collectionner. Peut-être ai-je manqué quelque chose, alors bienvenue dans les commentaires, s'il y a quelque chose à ajouter.





Les programmes de numérisation de documents, les programmes de reconnaissance de documents ne sont pas une nouvelle solution sur le marché, ils peuvent être trouvés à la fois dans des programmes gratuits et intégrés dans des systèmes.



J'ai commencé avec des programmes gratuits:



  • glmageReader
  • Formalités administratives
  • VietOCR
  • Cunéiforme.


Lors de la reconnaissance de notre facture par de tels programmes, j'ai vu ce qui suit:



  • Dans des programmes tels que VietOCR, Paperwork, glmageReader, vous pouvez configurer le stockage des documents numérisés dans des dossiers spécifiques, Paperwork peut même les trier en fonction des étiquettes.
  • Ils fonctionnent généralement bien avec le texte, et lorsque le texte n'est pas reconnu correctement, certains programmes peuvent modifier manuellement le contenu avant d'exporter le fichier.


image



Cependant, il y a aussi des problèmes:



  • Il y a une différence entre travailler avec des scans PDF et png. Il n'est pas toujours possible de convertir avec succès png en pdf.
  • La plupart de ces programmes sont difficiles à faire face à la reconnaissance des documents tabulaires, même au format le plus simple. En conséquence, nous obtenons le texte reconnu sans les champs marqués.



    image

  • Parfois, la police est déterminée de manière inexacte, ce qui fait que, lors de la conversion, tout le texte reconnu passe les uns sur les autres.
  • Dans le processus de reconnaissance, il est parfois nécessaire de faire un alignement par mots-clés, avec rotations et déplacement de coordonnées.
  • Dans certains programmes, le tableau a été reconnu comme une image et exporté vers un nouveau document Word également comme une image, très tronquée, ce qui est même difficile à voir.
  • Lors de la modification du contenu reconnu dans certains programmes, des problèmes sont survenus, la police ou le texte lui-même a changé.




image



La technologie fonctionnait assez bien et étant donné que les programmes sont gratuits, les problèmes décrits ci-dessus sont acceptables. Cependant, je cherchais une solution plus rationalisée.



Puis j'ai recherché la reconnaissance dans ABBYY FineReader 15 Corporate



Pendant la période d'essai de 7 jours, j'ai également étudié cette plateforme.



Ce qui a noté:



  • Lorsque j'ai ouvert le fichier png, il était parfaitement lu et, par conséquent, il a été converti avec succès en pdf sans perdre la qualité de l'image et du texte.
  • , . png , .
  • - pdf. .
  • , , .
  • OCR pdf -. - .



    image

  • , , . , , .



    image

  • Ici, vous pouvez configurer la conversion automatique des documents entrants qui seront régulièrement extraits du dossier spécifié, selon le calendrier spécifié.
  • Il vous permet de comparer des versions de documents, même si elles sont dans des formats différents. Avec un grand nombre de documents et de modifications, c'est très pratique.


J'ai eu une expérience agréable en utilisant ce logiciel. Cependant, lorsque je me suis tourné vers le prix de la solution système ABBYY Flexicapture (et j'ai juste besoin de la solution système), j'ai découvert que la solution, en particulier la solution personnalisée, coûte une somme assez ronde, environ 400000 roubles / mois. et plus pour 10 mille pages.



J'ai commencé à chercher une alternative. Comment libérer les mains d'un employé, obtenir une reconnaissance de documents de haute qualité et ne pas se soucier de la sécurité et de la structure des données.



Et puis j'ai décidé de jeter un meilleur regard sur ELMA RPA, que j'avais déjà étudié plus tôt .



Le fournisseur propose de transférer une partie importante du travail sur l'exportation de données vers l'ERP des épaules des comptables aux robots. En fait, c'est exactement ce qui résout le problème qui m'est posé. Pour me familiariser avec la reconnaissance dans ce système, j'ai pris une version d'essai du système du fournisseur.



Ici, j'ai découvert que la reconnaissance ne vise pas à convertir les données reçues en un nouveau fichier document.



Ici, l'objectif principal est de reconnaître les détails du document et de les transférer vers d'autres systèmes / sites / applications. De plus, les robots placent toutes les informations là où ils en ont besoin: ils trouvent automatiquement les dossiers nécessaires et les enregistrent dans les formats requis.



Quels types de reconnaissance dans le système ai-je examiné:



La reconnaissance de formes



Il nous est proposé de reconnaître le document chargé en fonction du modèle de document. Autant que je sache, ce type de reconnaissance est gratuit, le moteur Tesseract y est câblé.



Ce qui a noté:



  • Ce type de reconnaissance fonctionne avec des scans des formats jpg et png, il ne prend pas encore en compte le pdf. Mais le produit est encore jeune, je pense que tout est en avance.
  • Ce type de reconnaissance est inclus dans l'édition communautaire gratuite
  • Le texte est commodément balisé en blocs qui peuvent être mis en correspondance en fonction des variables que nous avons créées dans le contexte du robot. Ainsi, configurez manuellement ce que nous tirons exactement vers la reconnaissance.
  • Il a reconnu notre facture 50/50, a changé quelques mots à sa guise. :)



    image





Cependant, le vendeur de ce cas précise que ce type de reconnaissance est adapté pour des documents simples, avec une structure textuelle ou avec des formes légères. Et il a conseillé d'utiliser un autre type de reconnaissance pour reconnaître la facture - laboratoire intellectuel .



Le processus est le même, nous chargeons le modèle et le reconnaissons par lui. Mais ici, le modèle est envoyé au serveur cloud.



Nous recevons une réponse du serveur (qu'il reconnaisse ou non ce type de document), et s'il est reconnu, alors la structure du modèle (variables de mappage) est transmise pour correspondre aux variables qui devront être écrites dans le processus RPA.



Pendant le processus de lecture, nous envoyons déjà un document que nous aimerions reconnaître et recevons une réponse du serveur iLab concernant la reconnaissance.



Ce que j'ai noté à propos de cette reconnaissance:



  • pdf, jpg png.
  • . .
  • - .
  • , 1. , , , , .
  • Community Edition . , (, , .), , 100 500 . ( , , .)


Le processus de reconnaissance de document lui-même est assez difficile à afficher sur vidéo, comme cela se passe dans la boîte, et l'écran est vide pendant plusieurs secondes. Par conséquent, j'ai fait une entrée séparée des données reconnues dans un cahier pour la visualisation.



Reconnaître le document dans le bloc-notes



En conséquence, le robot écrit les mêmes données dans 1C, créant un nouveau document là-bas:



reconnaissance et création de documents en 1C



Ce que nous avons réussi à découvrir par les prix: Si, par exemple, nous voulons travailler à grande échelle avec la reconnaissance ilab, alors pour nos 10000 documents, nous devrons payer:



  • environ 180 000 roubles. à la fois,
  • plus, disons, 400 000 roubles. acheter un robot avec un orchestrateur
  • total: 580000 roubles.


Le robot est illimité et 10 000 documents suffiront pendant un certain temps. Cela s'avère assez rentable, du moins dans le fait que nous payons tout une fois.



Ce que nous avons aimé de la reconnaissance dans cette plateforme en général:



  • , , . .
  • , , , . .
  • . 15 , — . , .
  • , .


:



  • Les programmes gratuits s'acquittent mieux que prévu de la tâche de reconnaissance de documents, mais à cause d'eux, il ne sera pas possible d'accélérer considérablement le travail avec un volume important.
  • ABBYY FineReader gère bien le traitement et la reconnaissance des documents par la suite, cependant, pour obtenir une solution système, vous avez besoin de grandes capacités financières.
  • ELMA RPA a surpris par la qualité de la reconnaissance des documents, la variabilité, ainsi que les capacités de stockage et de transfert après reconnaissance, mais il faut garder à l'esprit que le produit est jeune.



All Articles