Les avancées du projet Numapresse en 2019-2020 : des expérimentations aux infrastructures

Cette nouvelle année universitaire a marqué une évolution déterminante pour le projet Numapresse — malgré l’annulation de nombreux événements et travaux suite à la crise sanitaire.

Nous utilisons depuis 2017 de nouveaux outils en humanités numériques pour explorer de grands corpus d’archives de presse ancienne et « opérationnaliser » des concepts et des questionnements récurrents en histoire culturelle et littéraire tels que l’étude des genres, de la circulation et des transferts intertextuels. Ces expérimentations ont suffisamment muri pour laisser progressivement place à des infrastructures et des sous-projets pérennes dont la portée s’étend au-delà des terrains de prédilection du projet.

Ce bilan présente un petit panorama de ces infrastructures en formation dans deux domaines émergents et complémentaires : la classification de masse des genres journalistiques et des illustrations de presse.

Classer les genres journalistiques à grande échelle

Cette transition est particulièrement visible pour l’un des projets phares de Numapresse : la classification des genres journalistiques. À partir de 2018 nous avons commencé à créer des modèles supervisés pour catégoriser automatiquement l’ensemble des archives numérisées de certains quotidiens comme le Matin ou le Petit Parisien. Après plusieurs tests nous avons développé notre outil « maison », TidySupervise avec le langage d’analyse statistique R : TidySupervise simplifie la création des modèles et intègre d’emblée plusieurs pré-traitements qui facilitent leur interprétation (utilisation des métriques tf-idf plutôt que des occurrences « brutes »).

Répartition des mots les plus déterminants dans le modèle 1840-1860

Cette approche nous a notamment permis d’extraire de grands corpus de rubriques comme les suppléments hebdomadaires d’actualités sportives ou cinématographiques de la presse d’entre-deux-guerres : la parution des suppléments est visible sous la forme d’une série de « pics » réguliers.

Ampleur des textes classés comme du cinéma dans *Le Matin* de janvier 1928

Nous avons maintenant appliqué le modèle de la presse quotidienne de l’entre-deux-guerres à l’ensemble des archives de presse du corpus de Numapresse (soit la plupart des quotidiens numérisés par Gallica). La classification de masse permet de repérer la dynamique générale de développement d’un genre (ici la rubrique sportive) et de faire des comparaisons entre journaux.

Classification du sport dans 25 quotidiens de 1850 à 1940

L’élargissement de nos projets de classification rend possible l’exploration de corpus quasi-exhaustifs. Le projet « La Page de cinéma » contient 4000 suppléments cinéma hebdomadaires publiés dans 10 quotidiens différents de 1920 à 1939 : il est en train de s’imposer comme un outil de référence pour les recherches sur le journalisme de cinéma dans la presse généraliste d’entre-deux-guerres.

Vers une bibliothèque de modèles

Actuellement la classification des journaux antérieurs à 1920 est anachronique : elle s’appuie un modèle entraîné sur des journaux de l’entre-deux-guerres. Pour corriger ce biais nous allons entraîner des modèles « historicisés » pour chaque période de 20-30 ans de l’histoire de la presse quotidienne nationale française. Trois modèles ont été complètement finalisés :

Un modèle “1840-1860” avec 20 genres, à partir de 1,250 blocs de textes pris au hasard dans le Journal des débats, La Presse, Le Constitutionnel, Le Siècle, Le Pays, Le Courrier et La Démocratie pacifique.
Un modèle “1860-1880” avec 22 genres, à partir de 1250 blocs de textes pris au hasard dans le Journal des Débats, La Presse, Le Constitutionnel, Le Siècle, Le Pays, Le Temps, Le Petit Journal, Le Petit Parisien, La Liberté, Le Rappel, Le Gaulois, Le XIXe siècle, L’Intransigeant, La Justice et La Lanterne.
Un modèle “1920-1940” avec 20 genres, à partir de 20 exemplaires intégralement annotés de Le Petit Journal, L’Intransigeant, Le Matin et Le Petit Parisien.

Deux modèles supplémentaires sont actuellement en cours d’entraînement (“1820-1840” et “1880-1900”). Chaque génération de modèle se caractérise non seulement par des évolutions dans le vocabulaire mais aussi par l’émergence de nouveaux genres (ou la disparition de genres sur le déclin). Leur succession reflète ainsi la dynamique de développement historique des genres dans la presse française.

La multiplication des modèles et la complexification du processus d’apprentissage nous ont amené à élaborer un outil inédit de documentation et de diffusion : une Bibliothèque de modèles baptisée Générothèque. La Générothèque est une collection de modèles tout comme Gallica est une collection de livres numérisés : elle met à disposition les fichiers de paramètres créés par R (et bientôt Python) pour appliquer les modèles à de nouveaux corpus ainsi que les corpus d’entraînement (pour les archives dans le domaine public) pour entraîner de nouveaux modèles. Chaque fiche de modèle contient également des informations détaillées sur les choix effectués lors de la préparation du corpus d’apprentissage en terme de sélection des textes ou de définition des genres.

Exemple de fiche de modèle sur la Générothèque

La Générothèque est destinée à devenir un projet autonome. Elle n’est pas limitée aux modèles journalistiques mais peut accueillir toutes sortes de modèles en humanités et en histoire culturelle. En marge de nos grands projets de classification de journaux nous avons ainsi déjà développé des modèles de genres romanesques ou de grandes formes éditoriales (à partir des cotations de la BNF).

La générothèque est une plateforme collaborative basée sur Omeka : les modèles peuvent être librement partagés et rediffusés. Une série d’atelier était ainsi prévu pour initier des chercheuses et chercheurs de Numapresse aux outils de classification automatisée (même si ce programme a été prématurément interrompu par la crise du COVID).

De classification du texte à l’image

Les archives de presse que nous utilisons sont des fichiers numériques détaillés : ils ne contiennent pas seulement le texte mais de nombreuses métadonnées contextuelles dont… les coordonnées des illustrations. Par ailleurs, Gallica a depuis quelques années ouvert une interface de récupération automatisée de ses fonds iconographiques qui permet non seulement de récupérer des images entières mais aussi des portions d’image (en l’occurrence une illustration dans une page journalistique).

Il est ainsi possible de récupérer de grands corpus visuels. Nos projets-tests ont d’abord porté sur la rubrique cinématographique de l’entre-deux-guerres avec 26 000 images extraites des 3000 suppléments cinéma. Nous sommes actuellement en train d’initier des programmes plus ambitieux avec notamment l’extraction de 114 000 images de 7 hebdomadaires illustrés de 1850-1900 (Le Monde illustré, Le Tintamarre, L’Univers illustré, Le Voleur illustré, le Journal du dimanche et les suppléments illustré du Figaro et du Petit Parisien). De par son ampleur ce corpus contribue à retracer l’émergence des cultures visuelles médiatiques en France.

Il existe depuis quelques années des outils efficaces de classification d’image mais qui s’appuient sur des calculs plus complexes que nos outils de classifications textuels : les réseaux de neurones profonds (ou « deep learning »). Dans l’ensemble l’image est progressivement « simplifiée » jusqu’à correspondre à un concept-type. Pour utiliser efficacement ces outils beaucoup plus complexes, nous devons utiliser une infrastructure technique spéciale, des GPU, qui n’est pas accessible sur le R Studio d’Humanum. Les carnets de code Google Colab donnent accès aux GPU et permet de réutiliser facilement le code.

Les modèles existants présentent cependant un inconvénient majeur : ils sont classés à partir de catégorisations contemporaines souvent controversées (en partie parce que ce travail préparatoire essentiel n’est pas du tout reconnu). La galerie d’images ci-dessous donne une idée de cette classification anachronique : si certaines situations n’ont pas fondamentalement changé dans leur matérialité historique, les vêtements couvrants sont abusivement réinterprétés comme des habits militaires et, surtout, les formats de représentations (qui s’appuient encore en partie sur des gravures ou des techniques photographiques moins lisibles qu’aujourd’hui) sont assimilés à des « couvertures de livres » — probablement parce que les contours plus stylisés sont assimilés à des couverture de Pulp.

Statistiques de classification d’un modèle ImageNet sur plusieurs illustrations de la presse d’entre-deux-guerres.

Si la création d’un modèle de classification d’image est longue et coûteuse, il est heureusement possible de partir des modèles déjà existants, bien que anachroniques : c’est le transfert d’apprentissage (transfer learning). Dans l’ensemble nous allons rééduquer le modèle à partir d’un nouveau corpus en l’amenant à reconsidérer progressivement ses a priori. L’effet du réentraînement est très visible pour les normes de genre : dans la presse de l’entre-deux-guerres les visages masculins sont souvent maquillés et assimilés à des visages féminins. Le nouveau modèle s’accoutume graduellement à ces représentations historiques du genre :

Reconnaissance des visages masculins maquillés dans le modèle réentraîné

Notre premier modèle visait à étoffer le projet « La Page de cinéma ». Nous avons élaboré 19 catégories à partir d’un corpus de 2705 images prises au hasard des pages de cinéma de l’entre-deux-guerres. Les catégories retenues sont de nature variables et en partie arbitraires : elles mêlent des formats (publicités, textes, dessins), des formes de représentations (portraits, scènes généralement extraites de films, paysages…) et des motifs visuels (médaillons).

Les catégories du modèle visuel des illustrations dans la rubrique cinéma de l’entre-deux-guerres.

Le modèle a été ensuite appliqué à 26 000 images extraites des 3000 suppléments hebdomadaires collectés pour « La Page de cinéma ». Le résultat de la classification est accessible sur un mini-moteur de recherche.

Le modèle fonctionne assez bien sur ce corpus en grande partie parce qu’il est déjà largement imprégné de stéréotypes et de représentations normées : les images étaient codifiées mais pas selon nos codes actuels. Les résultats de la classification permettent aussi d’évaluer l’évolution temporelle de certaines représentations comme le portrait en médaillon. Format typique de la première rhétorique visuelle de la starification, le médaillon décline inévitablement après 1930. Dans les corpus de Paris-Match après-guerre, la forme ne sera plus que résiduelle.

Le déclin du portrait en médaillon dans la rubrique cinéma.

Un nouveau projet plus expérimental et plus ambitieux est actuellement élaboré selon les mêmes principes : l’émergence de la presse visuelle moderne (1850-1900) à partir d’un corpus de 114 000 images extraits des premiers magazines et hebdomadaires illustrés. On retrouve certaines catégories du corpus précédent comme les portraits en médaillon mais aussi d’autres formes de représentation qui semblent avoir progressivement disparu comme les représentation de statues. Inversement le corpus peut contribuer à tracer le développement progressif de certaines représentations comme la fascination pour la mer qui semble anticiper l’avènement du tourisme nautique.