Avancement du projet Numapresse

Numapresse a été officiellement lancé en octobre 2017. Ce projet financé par l’agence nationale pour la recherche ambitionne de proposer une nouvelle histoire culturelle et littéraire de la presse depuis le XIXe siècle par l’emploi de nouvelles méthodes d’analyse sur les archives de presse numérisée. Le travail sur la presse numérisée permet de mettre en évidence des éléments de poétique médiatique analysés à grande échelle, que seules des méthodes automatisées de fouilles de données font apparaître : viralité, traits d’auctorialité, figures de rhétorique récurrentes, émergence et stabilisation de genres médiatiques.

Plusieurs chantiers importants ont été initiés depuis octobre 2017. Ils concernent trois axes fondamentaux du projet : la détection des reprises de textes, la constitution d’une base des acteurs médiatiques et la classification automatisée des formes journalistiques.

Cette première synthèse ne vise pas seulement à présenter les travaux du projet mais aussi à alimenter la réflexion sur les apports de méthodes encore expérimentales dans le champ des sciences humaines et sociales souvent réunies sous le label humanités numériques ou humanités computationnelles. Dans le cas de Numapresse, les problèmes spécifiques posés par la lecture « distante » de la presse ancienne ont en effet conduit au développement d’outils et de méthodes spécifiques ainsi qu’à l’exploitation de ressources encore peu connues (comme les fichiers enrichis de la numérisation sous format ALTO).

La détection des reprises de textes dans la presse

L’identification automatisée des copies de textes d’un journal à l’autre permet de faire émerger des réseaux de communications cachées et de modéliser la dissémination d’une publication dans un grand nombre de titres. Il s’agit d’un nouveau champ de recherche introduit notamment aux États-Unis par le projet Viral Text coordonné par Ryan Cordell. Les algorithmes utilisés reposent sur le même principe que les logiciels d’anti-plagiat : ils comparent les séquences de mots communes entre chaque document et en déduisent un certain degré de similitude. Avec cet outil les chercheurs de Viral Text sont parvenus à repérer les multiples réimpressions de poèmes « fugitifs » dans l’ensemble de la presse américaine des journaux à grands tirages de la côte est aux petits périodiques du Far West.

Nous avons présenté à co.hist en octobre un premier essai expérimental d’analyse “virale” franco-canadienne à partir d’un corpus croisé de 11 périodiques canadiens et de 4 quotidiens français parus en 1866. En appliquant cette méthode aux corpus de la Banq et d’Europeana avec des réglages suffisamment laxistes pour intégrer les erreurs d’OCR, nous avons pu identifier 108 reprises franco-canadiennes (entre un journal français et un journal canadien).

Réseau des reprises de textes entre périodiques français et canadiens

Ces reprises peuvent porter sur n’importe quelle forme de texte journalistique. L’actualité internationale est favorisée par la position particulière d’introducteur des nouvelles européennes qu’occupent les journaux français au Québec mais les formes littéraires sont également virales (à l’image d’un roman-feuilleton de Pierre-Jules Hetzel repris sans attribution dans la Gazette de Sorel) ainsi que les événements scientifiques et techniques (comme le premier voyage d’un prototype français d’automobile).

Un exemple de reprise en série : un article autrichien traduit dans un journal français et réimprimé au Canada.

Les circonstances de la reprise permettent de reconstituer un réseau régulier d’échange transatlantique entre la France et le Canada francophone. Au sein du Québec, les dynamiques de reprises suivent le cours du Saint-Laurent : initialement publiées à Québec, elles se disséminent ultérieurement jusqu’à Montréal. L’animation ci-dessous illustre cette dynamique de reprise (pour la lancer, il suffit d’appuyer sur le bouton « GIF »).

GIF

Le rythme des reprises n’est pas arbitraire. Celles-ci arrivent par “grappes” sous l’effet d’un conditionnement technique majeur : les traversées de steamers. En 1866, alors que le télégraphe s’installe tout juste, l’essentiel de la transmission des nouvelles se fait par l’entremise de quelques grandes lignes maritimes en une durée de 12 à 20 jours.

Rythme de la reprise de textes entre la France et le Canada : les « scansions » récurrentes correspondent vraisemblablement aux passage d’un steamer

Le travail sur l’analyse de la viralité se poursuit actuellement dans deux directions. Tout d’abord nous souhaitons développer un « panorama » global de la circulation des textes dans la presse francophone. Cette ambition se heurte à de nombreuses contraintes techniques et matérielles, aussi bien en matière de récupération des textes que d’infrastructures (les algorithmes actuellement utilisés peinent au-delà de quelques centaines de milliers de textes comparés).

Parallèlement, nous tentons de développer de nouveaux outils d’identification des reprises entre les langues. Un premier test a permis de repérer des textes similaires (mais pas encore des « reprises » au sens strict) entre les deux corpus mené sur un corpus franco-italien de revues de la Belle Epoque. Nous avons ici fait appel à des techniques expérimentales à base de vecteurs de mots, des séries de chiffres qui encodent la position contextuelle des mots les uns par rapport aux autres. L’illustration ci-dessous montre la convergence du vocabulaire français et italien de notre corpus de revue.

Pour l’instant, les résultats qu’on peut obtenir sont « bruts », et nécessitent une sélection, une vérification et une classification humaine pour comprendre les formes et raisons de ces reprises. Mais une des questions principales qui nous occupera dans ce projet est celle de la modélisation de ce phénomène: comment réduire ces pratiques culturelles à des variables dans une sorte de théorie de la communication virale ?

Une base de données de journalistes et d’acteurs médiatiques

Il n’existe en effet pas encore de recensement global des acteurs du système médiatique français (et a fortiori francophone) accessible en ligne. La future base Numapresse va toutefois rapidement pouvoir se développer en reprenant une base inédite de 53 000 noms et pseudonymes de journalistes constituée par Patrick Ramseyer pour la BNF.

Ce noyau initial sera rapidement complété par d’autres bases complémentaires :

    • De grandes bases généralistes en open data. Les fiches de Data BNF permettront notamment de récupérer les métadonnées bibliographiques des publications rédigées par les écrivains-journalistes. La « base de connaissance libre » Wikidata intègre des données plus générales liées notamment à l’activité sociale de la personne (ses parents et enfants, ses études, etc.) grâce à un très large éventail de propriétés (plus de 4000 à ce jour).
    • Des bases spécialisées créées et entretenues par des projets de recherche sur la presse. Ces bases portent sur un objet ou un champ précis qu’elles peuvent documenter avec une grande précision. La base Petite presse d’Alain Vaillant relie ainsi un grand nombre d’acteurs et de titres de la « la presse littéraire et peu ou prou satirique » française de 1815 à 1880.
    • Des données nouvelles extraites de documents patrimoniaux. Il s’agit d’un objectif de plus long terme : nous ferons appel à des méthodes d’extraction des connaissances (knowledge mining) pour identifier des informations  dans des sources d’époque comme les dictionnaires ou les almanachs.
Les périodiques francophones de 1866 localisés grâce aux données de Data BNF.

La base de données sera diffusée dans un site créé par Olivier Lapointe qui a été engagé pour cette mission par Numapresse. Elle comprendra plusieurs milliers de fiches sur des entités distinctes (journalistes, publications, journaux, entreprises…) étroitement liées les unes aux autres.

La base de données de journalistes contribuera à enrichir les métadonnées des archives numérisées et sera également un terrain de recherche privilégié pour analyser l’évolution historique du champ social du journalisme.

La classification automatisée des « formes » journalistiques

La diversité du journal n’est pas que sociale mais aussi stylistique et thématique : des formes très différentes sont amenées à cohabiter dans le même document et, bien souvent, dans la même page. Afin de reconstituer les « genres » journalistiques nous employons une méthode de classification utilisée dite « supervisée » (SVM) : nous constituons un corpus d’apprentissage où chaque texte est déjà étiqueté ; le modèle tente ensuite de déduire le genre à partir du lexique employé dans le texte. Nous avons développé un nouvel outil dans le langage R pour préparer le corpus avant la classification : la seule extension de référence, RTextTools, n’était plus mise à jour depuis plusieurs années et s’est avérée insuffisamment maniable. L’outil sera prochainement diffusé sous une licence libre.

L’acte de classification soulève de nombreux enjeux méthodologiques. Les premiers tests de Numapresse ont été menés sur la presse des années 1830 aux années 1850 à une époque où les genres journalistiques ne sont pas encore nettement fixés : si le roman-feuilleton ou la Bourse sont nettement délimités, de nombreuses autres formes (carnet du jour, actualité étrangère, faits divers…) sont présentées en vrac. La prise en compte des probabilités d’attribution s’avère indispensable pour ne pas trop « figer » une matière encore mouvante : certains textes peuvent être à cheval sur deux ou trois genres distincts. Cette approche « souple » de la classification s’inspire des recherches menées par Ted Underwood sur le « cycle de vie » des genres littéraires comme le policier ou la science-fiction. L’objectif n’est pas seulement de classifier des textes mais aussi d’évaluer dans quelle mesure une classification est possible, dans quelle mesure le « genre » s’est suffisamment sédimenté pour que le lexique employé devienne reconnaissable.

L’image ci-dessus présente un essai de classification de la première page du Journal des débats du 27 juillet 1837. Chaque « rectangle » correspond à un bloc de texte tel que localisé dans la page du journal. Chaque couleur correspond à un « genre » et l’ampleur de la coloration indique un degré de probabilité. Selon notre modèle, le bloc n°20 correspond ainsi peut-être à un roman-feuilleton alors que le bloc n°30 en est assurément un. Bien que notre classification soit encore très rudimentaire, elle parvient à repérer plusieurs caractéristiques formelles fondamentales, notamment que la partie du feuilleton en bas est presque entièrement occupée par le roman-feuilleton.

Pour ces essais de classifications automatisée, l’accès aux fichiers complets issus de la numérisation (ALTO) s’est avéré indispensable. Le format de texte brut ne conserve en effet aucune mémoire de la disposition initiale du journal et évacue certains objets essentiels (les images, les agencements typographiques…). Nous sommes actuellement en train de développer un programme en python pour maintenir les métadonnées générées par l’OCR (coordonnées, taille du texte, police…) et les enrichir de nouvelles métadonnées issues de traitement de text mining sous Spacy (syntaxe, entités nommées…).

La classification automatisée s’étendra dans un deuxième temps aux images de presse. Nous avons déjà pu procéder à l’extraction des illustrations et à un essai de catégorisation des relations entre le texte et l’image dans un périodique humoristique de la fin du XIXe siècle, Le Rire.

Essai de classification de l’articulation entre le texte et les images dans le Rire.

Cette visualisation présente ainsi un cluster d’images « commentées », où les illustrations sont systématiquement suivies d’un petit bloc de texte qui vient en réponse. Bien que très rudimentaire cette classification permet déjà d’explorer rapidement un corpus : il fait émerger des régularités dans la manière dont le texte s’articule avec l’image mais permet aussi de distinguer des cas hors-normes qui se trouveraient autrement perdus dans la masse.

Et ensuite…

Même s’il n’est encore qu’à ses débuts, le projet Numapresse se trouve confronté à des défis importants, en partie partagés par des projets similaires.

    • Comment « traduire » des concepts et notions  élaborés par les études historiques, littéraires, sociologiques, communicationnelles de la presse en outils informatiques opérationnels ? Et inversement, dans quelle mesure les relations et les objets mis à jour par des méthodes de lectures distantes peuvent être saisis par des approches qualitatives ? L’essai de classification automatisée implique ainsi de repenser l’histoire des genres journalistiques : certaines formes se distinguent déjà fortement alors qu’elles ne sont jamais nommées (comme le « fait divers » qui a déjà des codes spécifiques qui le rend reconnaissable dès les années 1840) ; d’autres formes restent encore mal distinguées et cohabitent au sein d’hybrides relativement indéfinis.
    • Comment articuler tous les apports des différents chantiers ? L’identification des reprises et la classification automatisée des rubriques engendrent des métadonnées nouvelles qui complètent et enrichissent les métadonnées existantes. L’intégration de ces éléments inédits implique cependant de repenser les modes de classification du journal, généralement structurés autour de l’exemplaire et non du contenu effectif (texte, image, tableau…).
    • Comment conserver la main sur son corpus ? Il s’agit d’un problème récurrent des projets en Humanités numériques qu’illustraient bien les ateliers Corpus menés conjointement par la BNF et un projet partenaire de Numapresse, Giranium. Le projet Numapresse se trouve non seulement confronté à l’expansion des corpus numérisés mais aussi à la sophistication croissante des données associées : les corpus traités n’incluent plus que le texte brut mais aussi des images, des métadonnées sur le texte, des liens entre les textes, des probabilités de classifications…Les grandes infrastructures de recherche comme Huma-num apparaissent d’emblée comme une ressource indispensable pour faire face à cette masse (les recherches présentées ici ont déjà grandement bénéficié de l’accès à une version en ligne de R studio). Néanmoins, les problématiques de structuration de données de plus en plus nombreuses, diverses et complexes ne peuvent pas être solutionnées uniquement par un accroissement de la mémoire disponible.

Ces points fondamentaux seront évoqués au cours du séminaire Numapresse coordonné par Julien Schuh et qui constitue le versant réflexif du projet. Quatre séances sont prévues au cours du prochain semestre avec une alternance entre un format « atelier » destiné à faire émerger des expérimentations nouvelles autour d’une question de recherche et un format « séminaire » présentant les résultats et apports de plusieurs expériences.

La prochaine synthèse générale du projet Numapresse aura lieu lors de la journée d’étude du 15 juin 2018. D’ici là, le site publiera régulièrement des analyses de certains aspects plus précis du projet.

Laisser un commentaire

Aller à la barre d’outils