- This event has passed.
Digital Heritage Seminar: Layout Analysis and OCR with Deep Learning and Heuristics
Evénement en ligneDigital Heritage Seminar: Image Processing
KBR vous invite à participer à une nouvelle série de séminaires dédiés au patrimoine culturel numérique : le KBR Digital Heritage Seminar. Ces conférences sont organisées par le Digital Research Lab de KBR en collaboration avec l’Université libre de Bruxelles, la Vrije Universiteit Brussel, l’Université catholique de Louvain et l’Université de Gand.
Entre février et juin 2022, nous accueillerons virtuellement trois chercheurs qui présenteront leurs recherches relatives au patrimoine culturel et plus particulièrement au traitement des images.
Toutes les conférences se feront en anglais. Les questions-réponses se dérouleront en anglais, français et néerlandais.
Patrimoine et traitement des images
Selon l’expression, « le diable se cache dans les détails ». Quand on parle de patrimoine culturel numérique, on pourrait dire que « le diable se cache dans les images ». D’importants efforts ont déjà permis de numériser les collections du patrimoine culturel afin de les promouvoir et d’en faciliter leur accès au grand public (les images sont publiées sur des sites web comme, par exemple, dans notre bibliothèque numérique, Belgica). Cependant, les technologies doivent encore être développées afin de pouvoir utiliser pleinement les informations (les textes par exemple) qui se cachent derrière ces images numérisées.
Les intervenants ont une grande expertise dans l’analyse des images et plus particulièrement dans l’extraction d’informations à partir des collections numérisées.
Programme
Clemens Neudecker, Staatsbibliothek zu Berlin
“New Tools for Old Documents – Layout Analysis and OCR with Deep Learning and Heuristics”
This talk will discuss the main achievements and experiences of the QURATOR project at the Berlin State Library (SBB) for document layout analysis. Historical documents that are being digitized in large quantities by libraries and archives frequently exhibit a wide array of features that disturb layout analysis, such as complex layouts with multiple columns, drop capitals and illustrations, skewed or curved text lines, noise, annotations, etc.
In order to deal with these challenges and defects, a robust document layout analysis was developed that is implemented by pixel-wise segmentation using convolutional neural networks. In addition, heuristic methods are applied to detect columns or marginalia, and to determine the reading order of text regions. A key objective lies in feeding the resulting outputs to subsequent processes like a text recognition (OCR) engine or an image similarity search.
Voir les slides
Inscriptions
L’inscription est gratuite mais obligatoire. Le matin du jour de l’évènement, vous recevrez un lien vers la vidéoconférence. Si vous avez la moindre question, n’hésitez pas à envoyer un e-mail à gna.yh@xoe.or.
Durée : 1h30
Inscriptions
À propos du conférencier
Clemens Neudecker a étudié la philosophie, l’informatique et les sciences politiques à l’Université Ludwig Maximilian (LMU) de Munich. Pendant plus de 15 ans, il a travaillé dans la recherche et le développement (R&D) pour diverses bibliothèques numériques dont la Bayerische Staatsbibliothek et la Koninklijke Bibliotheek van Nederland. Aujourd’hui, Clemens Neudecker est chercheur et coordinateur de projet à la Staatsbibliothek zu Berlin. Il est également membre du conseil d’administration d’Europeana, la plateforme numérique du patrimoine culturel de l’Union européenne.