Pierre-Carl Langlais: « Modéliser l’histoire culturelle avec l’intelligence artificielle : conférence-atelier du projet Numapresse »
Séminaire Numapresse, séance en ligne du 18 janvier 2021, 14h30 –
Lien vers la visioconférenceadresse: meet.google.com/ajt-dfpt-fha
Depuis 20 ans, les collections patrimoniales ont été massivement numérisées. Des millions de journaux, livres et images dans le domaine public, peuvent être consultés à distance. Au-delà de cet accès sans précédent, la numérisation change les conditions de la recherche, rend possibles des formes de lectures « à distance » capables d’analyser des transformations discursives et éditoriales sur de longues périodes et d’opérer des rapprochements structurels entre de vastes corpus. Cultural analytics, computational humanities, digital history : ces nouveaux concepts très discutés dans le monde anglo-saxon portent la promesse de nouveaux « horizons distants » (Underwood) à découvrir.
Cette conférence-atelier présente les outils et les méthodes de classification automatisée du projet ANR Numapresse. S’appuyant sur une expertise interdisciplinaire, le projet a développé des modèles de genres journalistiques « historicisés » pour différentes périodes de l’histoire de la presse française (1840-1860, 1860-1880…). Ces modèles permettent de constituer des sous-corpus à l’image de la « Page de cinéma », (http://www.numapresse.org/exploration/cinema_pages/presentation.php) un projet de Numapresse compilant l’ensemble des suppléments cinéma de la presse quotidienne de l’entre-deux-guerres. Ils rendent aussi possible l’identification de grandes tendances.
Les modèles de Numapresse sont aujourd’hui mis à disposition dans une bibliothèque de modèles en cours de développement, la Générothèque (http://www.numapresse.org/generotheque/). Ils peuvent être ainsi réutilisés pour classer d’autres corpus. La Générothèque met aussi à disposition des corpus test (pour les archives dans le domaine public) ce qui permet d’entraîner de nouveaux modèles. Cette approche peut être déclinée dans un grand nombre de corpus numérisés : littérature (comme le montre la petite application Romanrama : https://analytics.huma-num.fr/Pierre-Carl.Langlais/romans/), textes scientifiques, documents politiques… Les nouveaux modèles de deep learning permettent aussi d’élargir cette approche aux corpus visuels : Numapresse a ainsi créé des modèles d’images des hebdomadaires des années 1950 ou des premiers magazines illustrés du début du XXe siècle.
La conférence-atelier inclura une démonstration des outils utilisés par Numapresse pour entraîner et appliquer des modèles historicisés. Les participants sont invités à proposer des corpus et/ou des questions de recherche liés à la classification automatique en amont.