Les avancées de Numapresse : pour une approche contextuelle du Text Mining

Les avancées de Numapresse : pour une approche contextuelle du Text Mining

Cet article est le premier d’une série de retours d’expériences sur les travaux menés par le projet Numapresse au cours de l’année 2018, sur l’analyse automatisée de grands corpus de presse numérisée du XIXe et du XXe siècle.

Depuis le précédent bilan publié il y a près d’un an, les projets se sont multipliés sur des corpus et dans des directions très variées : genres journalistiques (pages cinéma, reportages, roman-feuilletons), poétique de l’image de presse, identification des journalistes et, plus largement, du personnel de rédaction, circulation des textes médiatiques entre les publications journalistiques ou vers d’autres supports.

Surtout, nous sommes entrés dans une démarche systématique et non plus seulement expérimentale, qui s’est traduite par la classification automatisée en genres journalistiques de toutes les archives numérisées du Matin et du Petit Parisien de 1900 à 1940 ou par la réalisation d’explorateurs de la presse numérisés permettant de rééditorialiser et d’enrichir les archives autour d’objectifs précis.

Le bilan de janvier 2019 sera, comme un roman-feuilleton, découpé en quatre épisodes. Pour une approche contextuelle du text mining présente les choix méthodologiques du projet qui s’appuie sur la collecte de données textuelles « enrichies » (coordonnées des mots, taille du texte, qualité de la reconnaissance OCR) pour reconstituer des dispositifs éditoriaux complexes (feuilleton, signature, rubriques…). Les trois épisodes suivants reviendront sur la classification automatisée en genres journalistiques, l’analyse poétique de l’image de presse et sur la modélisation de l’écosystème médiatique.

Cet article a été également traduit en anglais par Simon Hengchen et Pierre-Carl Langlais

Représenter le texte dans l’espace

Pour les méthodes de lectures distantes,  le texte journalistique pose un défi fondamental : il ne peut pas être coupé de son contexte éditorial.

Au cours de son existence, un quotidien comme Le Matin a publié plusieurs centaines de milliers de pages agrégeant des textes hétérogènes relevant de genres radicalement différents. À la différence d’un livre, les pages ne contiennent pas un texte écrit au kilomètre mais dispersé dans l’espace de la page. Les cadres et les assemblements visuels non verbaux jouent un rôle déterminant dans la sémantique du journal et contribuent à délimiter des entités autonomes (« articles », illustrations légendées, publicités, tableaux) mais aussi des compositions plus ou moins complexes (les feuilletons, les suppléments thématiques, la couverture spéciale d’un événement déclinée en plusieurs articles).

La visualisation ci-dessous illustre le travail de recontextualisation mené par Numapresse. Elle représente la position de tous les mots publiés dans Le Matin au cours du mois de septembre 1935 sous la forme d’un nuage transparent. Certaines pages sont à peine visibles (par défaut le journal ne reste qu’à 8 pages : les p. 9 et 10 ne sont publiées qu’occasionnellement). Certaines structures récurrentes sont reconnaissables, telles que la division en colonne, le titre du journal, le feuilleton en bas de la deuxième page ou les espaces publicitaires pré-alloués de la p. 7.

Les « mots » du Matin en octobre 1935

Dans les archives des bibliothèques numériques, cet environnement éditorial complexe est reconstitué par tout un foisonnement de balises XML (par exemple sous la forme du format METS/ALTO). Elles enregistrent entre autres la hauteur et la largeur du texte (Height et Width) ainsi que la position absolue sur un axe horizontal (HPOS) ou vertical (VPOS) dans l’image numérisée.

Début du fichier ALTO de La Liberté du 18 juillet 1866. Chaque mot correspond à une balise appellée « String », documentée par de nombreuses métadonnées (notamment, les coordonnées), qui s’inscrit à son tour dans toute une architecture éditoriale composée de lignes ou de « blocs ».

Les outils de text mining utilisent généralement des fichiers de données « économes » de taille plus réduite que les corpus d’origine. Les tables d’occurrences comptent ainsi le nombre de fois où un terme apparaît dans un document. Par exemple, nous pouvons comparer le nombre d’occurrences des mots « Numapresse », « text mining » et « classification » entre ce texte et le précédent bilan de Numapresse paru l’année dernière. D’emblée, nous pouvons avoir un premier aperçu des thématiques abordées au sein du texte — sans trop de surprise la classification supervisée est beaucoup moins présente, vu qu’elle fera l’objet du billet suivant.

Cette représentation classique des données textuelles est toujours couramment utilisée pour des tâches parfois complexes, comme la classification automatisée par genres ou par thématiques. Des techniques plus récentes comme les vecteurs de mots (Word Embeddings) permettent également de « compresser » le texte d’origine en positionnant chaque mot les uns par rapport aux autres, en fonction des co-occurrences d’un terme avec un autre.

Afin d’analyser correctement les archives de presse, nous devons au contraire utiliser des données textuelles plus volumineuses que le corpus d’origine. Nous avons adopté une représentation historiquement privilégiée par les approches « linguistiques » du text mining et aujourd’hui mise en œuvre par de nouveaux outils de text mining comme Tidy Text (créé par Julia Silge et David Robinson pour le langage de programmation R) : les tableaux ne compressent pas le texte mais le restituent au kilomètre. L’inconvénient de cette approche c’est que les mots doivent être répétés autant de fois qu’ils apparaissent dans un texte, ce qui prend beaucoup plus de place. L’avantage c’est que l’unité de base n’est plus le mot mais l’occurrence : il est possible de distinguer les différents emplois d’un mot en fonction d’autres données contextuelles. Par exemple, nous pouvons numéroter les paragraphes ou indiquer les hyperliens associés à un terme.

Début du second paragraphe de cet article représenté par un tableau lexical continu (avec une colonne spécifique pour les hyperliens)

Dans le cas particulier de la presse ancienne, les tableaux continus par occurrences présentent un intérêt évident : ils conservent la mémoire de la spatialité du texte. Chaque mot peut être localisé à partir de ses coordonnées dans l’image numérisée de la page. Le projet Numapresse recourt ainsi à une forme de text mining contextuel qui s’attache à préserver autant que possible les informations contenues dans les fichiers de numérisation détaillés mis à disposition par les bibliothèques numériques : les coordonnées, mais aussi la taille du texte, la police et le style utilisés1)Il va sans dire que les indications ne correspondent pas exactement aux polices du XIXe siècle : la police la plus représentée serait Times New Roman qui n’apparaît que dans les années 1930. Néanmoins, les ruptures d’usage de la police peuvent correspondre à des changements dans les formes d’écritures, la localisation des illustrations, les délimitations entre les blocs de texte ainsi que la qualité de la reconnaissance des caractères (OCR).

L’illustration ci-dessous représente la répartition des erreurs probables de l’outil de reconnaissance des caractères pour chaque page du Journal de l’Empire du 16 juillet 1805. Manifestement, la qualité du texte numérisé varie fortement d’un article à l’autre au gré des aléas de la conservation (taches, détérioriation du papier…) et des limites intrinsèques de l’outil (qui peine à ré-identifier des assemblages typographiques trop complexes comme les tableaux ou les annonces publicitaires).

Les coordonnées du texte dans La Liberté du 16 juillet 1865 avec l’intervalle de confiance de l’OCR : d’optimal (en bleu) à faible (en rouge)
Chaque panel correspond à une page (de 1 à 4).

D’autres projets internationaux de presse ancienne mobilisent aujourd’hui une approche similaire comme Oceanic Exchange ou NewsEye. En raison des difficultés qu’elles soulèvent, les archives de presse encouragent le développement d’approches pionnières qui pourront ensuite être appliquées avec profit à d’autres corpus.

Le tableau d’occurrence continu rend ainsi possible la conversion des données XML (ou, plus précisément, METS/ALTO) en données tabulaires. Il ne permet pas que cela. La chaîne de traitement développée dans le cadre de Numapresse ajoute également des données nouvelles engendrées par un outil de traitement de langage naturel, Spacy : les racines lexicales (ou « lemmes » : par exemple l’infinitif pour les verbes conjugués), les propriétés grammaticales (par exemple, « verbe de la troisième personne conjugué à l’imparfait »), les fonctions syntaxiques (attribut, sujet de verbe, etc.) et les entités nommées (est-ce qu’un mot correspond à un nom de personne, de lieu ou d’organisation ?).

Tableau complet des données textuelles pour le Journal des débats du 13 juin 1855. Des tableaux complémentaires précisent les coordonnées des blocs de textes et des lignes, ainsi que la mise en forme du texte (gras, italique, etc.)

Un fichier de données textuelles-type utilisé par Numapresse pour un exemplaire de presse comprend plusieurs dizaines de milliers d’entrées (une par mot) déclinées en une vingtaine de colonnes compilant toutes les données issues du fichier de numérisation et toutes les données nouvelles. Sachant qu’un titre peut avoir publié des dizaines de milliers d’exemplaires, l’utilisation d’une approche contextuelle du text mining requiert des ressources computationnelles importantes aussi bien en temps (il faut environ une heure pour traiter un an de publication avec Spacy) et, surtout, dans l’espace : même compressées, les données textuelles extraites d’un seul titre représentent plusieurs dizaines de gigaoctets.

Une plateforme de programmation mise à disposition par la Très Grande Infrastructure de Recherche Humanum a levé la plupart des contraintes : une version serveur de R Studio qui permet d’exécuter des scripts sous R, mais aussi python, à distance depuis un navigateur web. Toutes les archives du projet sont actuellement déposées sur cette plateforme qui dispose de ressources bien plus importantes qu’un ordinateur classique.

Modéliser les structures éditoriales

Ces fichiers enrichis permettent déjà de mieux visualiser les corpus ou de formuler certaines requêtes élémentaires comme « récupérer  les noms de personnes dans Le Petit Journal en 1932 ». Ils rendent surtout possible la reconstitution et la modélisation de structures éditoriales complexes.

Le texte de presse a toujours été un texte fortement standardisé : des normes plus ou moins informelles régissent l’agencement des textes, la forme des titres ou le positionnement des signatures. Ces normes ont fortement évolué sur le long terme. La notion contemporaine d’article n’a pas vraiment d’équivalent jusqu’à la fin du XIXe siècle : la majorité des textes publiés prennent la forme de paragraphes « flottants », le plus souvent sans titre, librement repris d’un journaux à l’autre en l’absence de règles strictes sur le droit d’auteur. Bien que ces pratiques soient très différentes de celles qui caractérisent la presse imprimée aujourd’hui, elles étaient codifiées. La majeure partie de la presse française converge vers un dispositif éditorial commun marqué par l’emploi des mêmes rubriques (« Premier-Paris », nouvelles étrangères, feuilletons) et de règles similaires dans la disposition des textes. Ce modèle est en partie adopté par la presse francophone à l’international et par d’autres espaces linguistiques en Europe (en particulier, le « feuilleton » devient, sous son nom français, une rubrique régulière dans le monde germonaphone et sert, encore aujourd’hui, à désigner les suppléments culturels).

En combinant données éditoriales et données textuelles, il devient possible de réidentifier ces structures et normes récurrentes avec une marge d’erreur assez faible. Pendant les années 1850, les titres du Journal des débats sont systématiquement centrés et les signatures sont systématiquement justifiées à droite. Avec une régression linéaire robuste, nous pouvons retrouver les délimitations « normales » des colonnes, puis mesurer les écarts anormaux entre le début et la fin attendus du texte et le début et la fin effective. Une ligne avec une marge très importante à gauche est justifiée à droite ; une ligne avec des marges importantes des deux côtés est centrée.

Reconstitution des règles de placement du texte dans le Journal des débats du 13 juin 1855

Les données textuelles contribuent ensuite à affiner cette classification et à réduire les incertitudes occasionnelles. De nombreux titres sont déjà connus d’avance (« Feuilleton du Journal des débats », « Nouvelles étrangères », « Critique musicale », « Paris », « Londres », etc.) et ne varient pas en dehors des erreurs de la reconnaissance OCR 2)Même dans ce cas il est possible de reconstituer le texte d’origine à partir d’un soft matching intégrant la possibilité d’une différence limitée à une ou deux lettres, comme « Pqris » à la place Paris. La forme prise par certaines indications contextuelles est également normée. Les signatures des personnes s’écrivent toujours avec une initiale suivie du nom. Les signatures des agences de presses figurent entre parenthèses et en italique. Sur des corpus plus tardifs, les énonciateurs sont souvent identifiés par des formules consacrées (« de notre correspondant particulier », « Dépêche du New York Herald, envoyée par téléphone ») qui peuvent aussi faire l’objet d’une identification préalable.

Projection d’une future plateforme mettant en avant les formules consacrées des reportages et des dépêches.

L’existence de toutes ces règles induites montre la pertinence d’une lecture croisée qualitative et quantitative du journal. Nous ne pouvons pas recomposer ces modes de lecture informelle sans une connaissance préalable des archives de presse et de leurs spécificités. Inversement, l’utilisation des outils de text mining agit comme une contrainte créatrice en faisant émerger des régularités qui ne sont pas toujours correctement identifiées par l’œil humain, notamment parce qu’elles sont « trop évidentes » et relèvent de pratiques textuelles infra-ordinaires.

Avec cette approche composite, nous sommes parvenus à découper la quasi-totalité des  « romans-feuilletons » publiés dans le Journal des débats entre 1837 et 1845. Une plateforme expérimentale agrège en continu toutes les livraisons de titres célèbres et moins célèbres comme Le Comte de Monte-Cristo ou Les Mystères de Paris.

Un corpus en voie de diversification

Les premières analyses de Numapresse ont été menées à partir du corpus francophone numérisé dans le cadre du projet Europeana Newspaper. Ce corpus comprend les archives d’une dizaine de quotidiens publiés de 1800 à 1945.

Nous sommes partis de ce corpus pour deux raisons pratiques :

  • La BNF a mis à disposition les documents de numérisation complets en XML sous forme de très gros fichiers compressés ou dumps.  Par exemple, tout le Journal de débats se trouvent dans un seul fichier de 36 gigaoctets. Ces dumps peuvent être téléchargés en une seule fois. Par contraste, pour les autres journaux numérisés sur Gallica les fichiers XML doivent être récupérés page par page via une interface d’accès automatisée en ligne (ou « API »), ce qui peut prendre beaucoup de temps.
  • Surtout, le projet Europeana Newspaper a généralisé une innovation fondamentale pour les archives numérisées de presse ancienne : la reconnaissance des structures éditoriales (ou OLR pour Optical Layout Recognition). Concrètement, des fichiers complémentaires indiquent que les textes composent un article ou une publicité ou constituent la légende d’une illustration.

Le projet Numapresse a commencé à diversifier ses sources au-delà d’Europeana Newspaper grâce au développement toujours en cours de plusieurs outils.

Nous avons créé un programme (en python) pour extraire les données éditoriales enrichies à partir des fichiers PDF. Le PDF est un fichier plus riche qu’on ne pourrait le penser. Dans la mesure où elles sont indispensables à l’affichage des PDF, les coordonnées du textes sont systématiquement présentes. Selon la manière dont le fichier a été construit, certaines données complémentaires peuvent aussi être présentes (notamment le style et la police du texte mais généralement pas la qualité OCR). L’outil permet de s’affranchir de la nécessité d’obtenir des fichiers détaillés de numérisations en XML, encore rarement mis à disposition par les bibliothèques numériques, en dehors de la BNF. Par contre, les données nécessiteraient d’être retravaillées : la délimitation en colonne est parfois défaillante et le texte tend à se poursuivre sur toute la largeur de la page.

Structure recomposée d’une page sous format PDF d’un hebdomadaire français.

Nous travaillons actuellement au développement d’outil de reconnaissance des structures éditoriales. Le découpage des textes en entités cohérentes (« article », « dépêche », « illustration légendée », « paragraphe flottant ») s’est avéré en effet crucial pour identifier des informations de premier plan, comme la date et le lieu d’expédition des dépêches ou les signatures et délimiter des corpus cohérents. Les données textuelles déjà disponibles ne suffisent pas complètement pour effectuer ce découpage. Elles n’intègrent pas des éléments fondamentaux du « mode de lecture » induit du journal : les cadres, les démarcations et, plus largement, toutes les structures éditoriales non lexicales. À l’exception notable des illustrations, les outils de reconnaissance optique des caractères n’enregistrent aucune donnée non verbale, même s’ils peuvent les utiliser occasionnellement pour délimiter des ensembles textuels cohérents.

Essai de segmentation d’une page du Petit Journal à partir des cadres.

Enfin, Numapresse dispose depuis peu d’outils de numérisation de bonne qualité. La dernière version du logiciel libre Tesseract marque une amélioration substantielle de la qualité de la reconnaissance textuelle. L’utilisation de modèles de deep learning semble faciliter le traitement de documents relativement anciens qui ne se conforment pas parfaitement aux canons actuels en terme de polices et de formes du texte. Grâce à ces outils nous avons commencé à numériser des corpus de presse qui n’étaient pas encore disponibles en ligne.

(à suivre)

References   [ + ]

1. Il va sans dire que les indications ne correspondent pas exactement aux polices du XIXe siècle : la police la plus représentée serait Times New Roman qui n’apparaît que dans les années 1930. Néanmoins, les ruptures d’usage de la police peuvent correspondre à des changements dans les formes d’écritures
2. Même dans ce cas il est possible de reconstituer le texte d’origine à partir d’un soft matching intégrant la possibilité d’une différence limitée à une ou deux lettres, comme « Pqris » à la place Paris
Aller à la barre d’outils