Le recensement de populations est une importante source d’information pour les généalogistes. Afin de les exploiter pleinement, il faut les numériser. Pour y arriver, le format des lots de documents (triés par région) est analysé manuellement, puis des réseaux de neurones sont utilisés pour transcrire les noms dans les zones définies. Le but de notre intervention étant d’assurer la production des recensements, le travail était concentré sur la configuration manuelle préalable au lancement de la reconnaissance automatique. Cette configuration a été rendue plus robuste et facilement adaptable avec du traitement d’image, permettant le rendement et garantissant la qualité nécessaire au succès du projet.

Défis du projet

  • Pages les plus difficiles et dégradées traitées en fin de projet
  • Comportement des réseaux de neurones face à l’apparition des machines à écrire à l’époque
  • Variété des documents en terme de mise en page et de qualité

Solutions apportées

  • Système de filtrage des lignes des tableaux pour améliorer la précision sur les pages abîmées
  • Apprentissage de réseaux de neurones pour les spécialiser sur des caractères imprimés
  • Monitoring de la qualité des dictionnaires de noms et des résultats de reconnaissance
  • Amélioration de la détection de mise en page par keypoints et gestion des lots possédant plusieurs formats
  • Durant notre intervention, 550 000 pages ont été traitées

Technologies & outils

C++, Python / OpenCV, Keypoints, Hough, TensorFlow