Le 18 janvier dernier, à l’occasion du premier séminaire Numapresse de l’année, Pierre-Carl Langlais présentait en visoconférence une communication intitulée « Modéliser l’histoire culturelle avec l’intelligence artificielle ». Si vous avez manqué ce rendez-vous, vous pouvez le visionner en replay sur notre chaîne Youtube :
Le séminaire Numapresse en ligne « Modéliser l’histoire culturelle avec l’intelligence artificielle » avec @Dorialexander est sur le point de commencer ! Rejoignez-nous sur Google meet : https://t.co/X4KorGQNe0
— Numapresse (@Numapresse) January 18, 2021
Depuis 20 ans, les collections patrimoniales ont été massivement numérisées. Des millions de journaux, livres et images dans le domaine public, peuvent être consultés à distance. Au-delà de cet accès sans précédent, la numérisation change les conditions de la recherche, rend possibles des formes de lectures « à distance » capables d’analyser des transformations discursives et éditoriales sur de longues périodes et d’opérer des rapprochements structurels entre de vastes corpus. Cultural analytics, computational humanities, digital history : ces nouveaux concepts très discutés dans le monde anglo-saxon portent la promesse de nouveaux « horizons distants » (Underwood) à découvrir. Cette conférence-atelier présente les outils et les méthodes de classification automatisée du projet ANR Numapresse. S’appuyant sur une expertise interdisciplinaire, le projet a développé des modèles de genres journalistiques « historicisés » pour différentes périodes de l’histoire de la presse française (1840-1860, 1860-1880…). Ces modèles permettent de constituer des sous-corpus à l’image de la « Page de cinéma », (http://www.numapresse.org/exploration…) un projet de Numapresse compilant l’ensemble des suppléments cinéma de la presse quotidienne de l’entre-deux-guerres. Ils rendent aussi possible l’identification de grandes tendances. Les modèles de Numapresse sont aujourd’hui mis à disposition dans une bibliothèque de modèles en cours de développement, la Générothèque (http://www.numapresse.org/generotheque/). Ils peuvent être ainsi réutilisés pour classer d’autres corpus. La Générothèque met aussi à disposition des corpus test (pour les archives dans le domaine public) ce qui permet d’entraîner de nouveaux modèles. Cette approche peut être déclinée dans un grand nombre de corpus numérisés : littérature (comme le montre la petite application Romanrama : https://analytics.huma-num.fr/Pierre-…), textes scientifiques, documents politiques… Les nouveaux modèles de deep learning permettent aussi d’élargir cette approche aux corpus visuels : Numapresse a ainsi créé des modèles d’images des hebdomadaires des années 1950 ou des premiers magazines illustrés du début du XXe siècle.