Une expérience de reconnaissance de textes manuscrits en cyrillique

introduction





La reconnaissance de texte manuscrit (HTR) est un moyen automatique de déchiffrer des enregistrements à l'aide d'un ordinateur. La forme numérisée de notes manuscrites automatiserait les processus commerciaux de nombreuses entreprises, facilitant ainsi le travail humain. Dans cet article, un modèle de reconnaissance de texte manuscrit en cyrillique basé sur un réseau neuronal artificiel est considéré. L'étude a utilisé le système SimpleHTR développé par Harald, ainsi que LineHTR , une version étendue du système  Simple HTR . Vous pouvez en savoir plus sur SimpleHTR ici .





Base de données





Dans cette section, je décrirai deux types d'ensembles de données: Le premier ensemble de données contient des citations manuscrites en cyrillique. Il contient 21 000 images provenant de divers échantillons d'écriture manuscrite (noms de pays et de villes). Nous avons augmenté cet ensemble de données de formation en collectant 207 438 images à partir de formes ou d'échantillons disponibles.





Le deuxième HKR pour la base de données manuscrite kazakh-russe se composait de mots simples (ou de phrases courtes) écrits en russe et en kazakh (environ 95% de mots / phrases en russe et 5% en kazakh, respectivement). Notez que les deux langues sont écrites en cyrillique et partagent les mêmes 33 caractères. En plus de ces symboles, il existe 9 symboles plus spécifiques dans l'alphabet kazakh. Quelques exemples de l'ensemble de données HKR sont présentés ci-dessous: 









Un exemple d'ensemble de données
Un exemple d'ensemble de données

(70%), (15%) (15%) . ( 7,5% ): TEST1 , ; TEST2 , , . TEST1 TEST2 , , .





SimpleHTR





ANN, CNN . RNN. RNN . RNN . RNN. CTC . . CTC ; RNN , . CTC . , , , . , , , , .





: CNN: CNN. . 55 33 . RELU , , . 2 , () , ( ) 32 256. RNN: 256 . . LSTM- RNN, , . RNN 3280.





CTC: RNN , . CTC . 32













Modèle SimpleHTR, où les icônes vertes sont des opérations et rose sont des flux de données
SimpleHTR, - , -

: : 128 32. , ( ) , 128 32 . 128 32 . , .









LineHTR

LineHTR - SimpleHTR, , ( ), , . LineHTR SimpleHTR, CNN RNN : 7 CNN 2 Bidirectinal LSTM (BLSTM) RNN. 





LineHTR:





  • 800 x 64 ( x ).





  • CNN 100 x 512.





  • BLSTM 512 100 x 205: 100 ( ) ; 205 )





  • CTC 2 : LOSS - ; -





  • 50









Python deep learning Tensorflow. Tensorflow Python. Python , . matplotlib Python, Inkscape- , Adobe Photoshop. 2- " Intel ® Xeon(R) E-5-2680”, 4x " NVIDIA Tesla k20x” 100 RAM. 3 , , .





SimpleHTR





SimpleHTR - , . , :









• DataLoader





• : 90% 10% . : -, , ; -, CNN ; -, ; -, , , , .





: SimpleHTR, 42 . 10 . : . , .





















CER





WAR





CER





WAR





bestpath





19.13





52.55





17.97





57.11





beamsearch





18.99





53.33





17.73





58.33





wordbeamsearch





16.38





73.55





15.78





75.11









SimpleHTR (bestpath, beamsearch, wordbeamsearch). NN , . NN, , , . character-LM , .





:





Résultats d'expérimentation avec SimpleHTR (lr = 0,01): précision du modèle.
SimpleHTR (lr=0,01): .
Résultats des expériences avec SimpleHTR (lr = 0,01): erreur de modèle.
SimpleHTR (lr=0,01): .

, , " ” 86 .









Un exemple d'image avec l'expression "Kazakhstan du Sud" en russe
" -”





Résultat de la reconnaissance

(HKR Dataset): SimpleHTR 20,13% (CER) 1,55% CER. SimpleHTR ( ). (WER) 58,97% 1 11,09% 2. TEST2 . TEST1 , , , .













LineHTR, 100 . CAR 29,86% 86,71% TEST1 TEST2 ( ). .









SimpleHTR LineHTR : 57,1% SimpleHTR CNN , 58,3% Beamsearch 75,1% wordbeamsearch. Wordbeamsearch, .








All Articles