Nouveau logiciel pour la reconnaissance optique de caractères (OCR)

Nautilus-OCR

La BnL vient de publier le logiciel Nautilus-OCR qui utilise les techniques de l’intelligence artificielle pour améliorer les résultats de la numérisation. La numérisation des journaux historiques avec reconnaissance optique de caractères (OCR) a commencé à la BnL en 2006. Souvent la mauvaise qualité du support papier, des imperfections de l'impression et la dégradation des originaux due à l'usure du temps font que l’OCR n’a pas pu identifier correctement toutes les lettres des originaux. Les lettres qui n’ont pas pu être identifiées correctement font que beaucoup de mots présents sur les supports papier ne peuvent pas être trouvés par le moteur de recherche de eluxemburgensia.lu.

Le logiciel Nautilus-OCR améliore cette reconnaissance de textes (OCR). Il propose plusieurs modules utilisant des techniques d'apprentissage automatique et permet de détecter automatiquement les lignes de texte, de classer des polices de caractères, d'estimer l'amélioration potentielle de la qualité, et de reconnaître des caractères individuels.

Un aspect important de Nautilus-OCR est qu’il travaille avec le format de données METS/ALTO qui est largement utilisé dans le domaine des bibliothèques pour les documents numérisés. Il prend comme entrée un jeu de données en METS/ALTO, améliore la qualité de l’OCR et produit un jeu de données METS/ALTO amélioré. Ainsi l’application de l’outil dans d’autres bibliothèques et institutions qui disposent d’un programme de numérisation est facilitée.

En plus du logiciel Nautilus-OCR lui-même, la BnL publie aussi :

  •  un jeu de données OCR transcrit à la main (« ground truth »), basé sur des articles de journaux du domaine public.
  •  des modèles d'apprentissage automatique qui ont été entraînés avec des algorithmes sur des données BnL.

La BnL a appliqué Nautilus-OCR sur l’entièreté de la collection de journaux historiques, numérisée entre 2006 et 2021. Ceci a entraîné une amélioration de 28 millions de lignes de texte. Le logiciel a été développé par la BnL avec le soutien de l’initiative gouvernementale AI4GOV. L’application sur les données existantes a pu être réalisée grâce aux serveurs « machine learning » mis à disposition par le Centre des Technologies de l’Information de l’Etat.

Dernière mise à jour