DATA-KBR-BE

Amélioration de l’accès en ligne des collections numérisées et nées numériques de KBR sous forme de données structurées pour la recherche en matière d’humanités numériques (digital humanities)

 

Le projet

DATA-KBR-BE est une collaboration interdisciplinaire entre experts du patrimoine culturel, chercheurs en humanités numériques (digital humanities) et experts en sciences des données (data scientists). L’objectif est de donner accès aux données structurées des collections numérisées et nées numériques de KBR, dans le cadre de Open Science. Le projet s’étend sur 24 mois (2020-2022). Il est financé par la Politique scientifique fédérale (BELSPO) dans le cadre du programme belge BRAIN 2.0.

DATA-KBR-BE optimisera l’infrastructure ICT existante de KBR. Ce projet favorisera un accès durable aux données structurées des collections numérisées, notamment dans le domaine de la recherche en humanités numériques (digital humanities). Il s’appuie sur une collaboration étroite entre des équipes de recherche des universités de Gand (GhentCDH en IDLab) et Anvers (ACDC) et les experts en numérisation, collections et ICT de KBR.

Ensemble, ils développeront trois scénarii de recherche interdisciplinaires qui extrairont des ensembles de données thématiques pertinents de BelgicaPress, la collection historique de journaux numérisés de KBR. L’objectif est d’utiliser ces données dans le cadre de la recherche en humanités numériques (digital humanities).

 

Les principaux objectifs de ce projet sont :

  1. installer un flux de travail durable pour l’extraction de données
  2. créer et implémenter une Open Data Platform pour KBR (data.kbr.be)
  3. dresser un inventaire des collections numériques de KBR
  4. publier des ensembles de données DATA-KBR-BE
  5. organiser un hackaton autour des ensembles de données DATA-KBR-BE

 

Les collections comme données (‘collection as data’)

L’accès aux données structurées des collections numériques constitue un défi important pour pouvoir effectuer des recherches en matière d’humanités numériques (digital humanities). Aux États-Unis, il existe des initiatives telles que ‘Always Already Computational: Collections as Dataen Collections as Data: Part to Whole.

Le concept y est défini comme suit : “conceptual orientation to collections that renders them as ordered information, stored digitally, so that they are inherently amenable to computation”. Leur initiative a pour but de pouvoir documenter, échanger des expériences et partager des connaissances afin d’encourager les institutions patrimoniales à implémenter les “collections comme données” (collection as data). DATA-KBR-BE constitue donc le coup d’envoi pour l’implémentation des “collections comme données” (collection as data) en Belgique.

 

L’accès aux données structurées des collections

Donner accès aux données structurées des collections numériques signifie donner accès aux fichiers de données sous-jacents du patrimoine numérisé.

Cet accès détaillé simplifie l’analyse des données au moyen d’instruments et de méthodes développés au sein du domaine de recherche des humanités numériques (digital humanities).

Il permettra de donner accès aux fichiers METS (Metadata Encoding and Transmission Standard) et ALTO (Analysed Layout and Text Object) (par ex. en XML ou JSON). Cela peut aussi concerner des PDF de pages de journaux scannées ou d’images en basse résolution (par ex. JPEG) ou haute résolution (par ex. TIFF).

 

 

 

La recherche en humanités numériques (digital humanities)

L’équipe du projet  DATA-KBR-BE élaborera trois scénarii de recherches interdisciplinaires qui extrairont des ensembles de données thématiques pertinents de BelgicaPress, la collection historique de journaux numérisés de KBR. L’objectif est d’utiliser ces données dans le cadre de la recherche en humanités numériques (digital humanities).

La recherche en matière d’humanités numériques (digital humanities) effectuée dans le cadre de ce projet se fera en étroite collaboration avec le KBR Digital Research Lab. Les scénarii de recherche sont des études de cas destinées à montrer le potentiel scientifique en matière d’accès aux données structurées des collections de KBR :

  • Collective Action Belgium, sous la direction de GhentCDH, axé sur l’histoire sociale durant l’entre-deux-guerres et la Deuxième Guerre mondiale. Il vise à retrouver la dynamique des différends, grèves, manifestations et autres actions syndicales en Belgique tels que rapportés dans les journaux belges.
  • The feuilleton in Belgium, sous la direction de ACDC, axé sur l’histoire de la littérature durant la période 1830-1930. Son objectif est d’identifier les publications littéraires dans les journaux belges durant le premier siècle de l’État-nation belge.
  • History of Belgian Journalism, sous la direction de l’ULB et de KBR, axé sur l’histoire des médias depuis 1886 jusqu’à aujourd’hui. Il vise à tracer l’histoire du journalisme belge, sous l’angle des argumentations critiques concernant le journalisme dans les journaux belges.

 

L’expertise en matière de sciences des données

Les experts en  sciences des données du IDLab de l’Université de Gand, qui font partie de l’équipe DATA-KBR-BE, effectueront une document lay-out analysis du corpus provenant de BelgicaPress afin d’appuyer les scénarii de recherche interdisciplinaires.

Pour ce faire, ils utiliseront différents éléments ;

  • Les caractéristiques de mise en page (lignes, espaces, décorations) ;
  • Les caractéristiques du texte (polices, majuscules) ;
  • Les similitudes de contenu (texte/texte, texte/image, image/image) ;
  • Les coordonnées des blocs de texte.

 

Dans une deuxième phase, des analyses plus poussées seront effectuées en vue de la classification automatique des articles par type (par ex. les feuilletons) ou reconnaissance du texte dans les images (par ex. la détection de slogans dans des annonces de journaux, affiches, publicité, etc.).

 

BelgicaPress sample structures for document layout analysis
Analyse des données dans BelgicaPress

 

 

La fondation de bases solides

Dans cette première phase, le projet DATA-KBR-BE donnera accès aux données structurées des collections numérisées de KBR, et plus spécialement aux journaux numérisés. Toutefois, l’objectif principal de ce projet est de poser des bases solides donnant accès à un plus large éventail de collections numérisées et de collections nées numériques comme les sites web archivés ou les médias sociaux.

 

Une collaboration internationale

Outre l’initiative Collections as Data initiative, DATA-KBR-BE s’inspire aussi de plateformes de données auprès d’autres institutions patrimoniales telles que les bibliothèques nationales du Luxembourg, des Pays-Bas et de la British Library.

L’équipe de projet de DATA-KBR-BE participe activement à la GLAM Labs Community internationale (« Galleries, Libraries, Archives and Museums ») et contribue à la rédaction du livre Open Access ‘Open a GLAM Lab.

illustration showing how GLAM labs work

L’équipe collabore aussi étroitement à des initiatives internationales telles que DARIAH, la « Digital Research Infrastructure for the Arts and Humanities », CLARIN, la « European Research Infrastructure for Language Resources and Technology » et le European Open Science Cloud (EOSCEOSC) y compris l’initiative Social Sciences and Humanities Open Cloud (SSHOC).

DATA-KBR-BE étudie également les possibilités de collaboration avec la Heritage Data Reuse Charter, la Europeana Research Community et d’autres initiatives pour les journaux numérisés comme NewsEye et Impresso.

 

Les partenaires

Ce projet est financé par le programme belge BRAIN 2.0, sous la direction du service Numérisation de KBR, en étroite collaboration avec le Digital Research Lab. Il est le fruit d’une collaboration interdisciplinaire entre KBR et les chercheurs en humanités numériques du  Ghent Centre for Digital Humanities, du Antwerp Centre for Digital Humanities and Literary Criticism et des experts en sciences des données de l’Internet Technology and Data Science Lab (IDLab) de l’Université de Gand.

 

Contact