Avancement du projet Numapresse

Numapresse a été officiellement lancé en octobre 2017. Ce projet financé par l’agence nationale pour la recherche ambitionne de proposer une nouvelle histoire culturelle et littéraire de la presse depuis le XIXe siècle par l’emploi de nouvelles méthodes d’analyse sur les archives de presse numérisée. Le travail sur la presse numérisée permet de mettre en évidence des éléments de poétique médiatique analysés à grande échelle, que seules des méthodes automatisées de fouilles de données font apparaître : viralité, traits d’auctorialité, figures de rhétorique récurrentes, émergence et stabilisation de genres médiatiques.

Plusieurs chantiers importants ont été initiés depuis octobre 2017. Ils concernent trois axes fondamentaux du projet : la détection des reprises de textes, la constitution d’une base des acteurs médiatiques et la classification automatisée des formes journalistiques.

Cette première synthèse ne vise pas seulement à présenter les travaux du projet mais aussi à alimenter la réflexion sur les apports de méthodes encore expérimentales dans le champ des sciences humaines et sociales souvent réunies sous le label humanités numériques ou humanités computationnelles. Dans le cas de Numapresse, les problèmes spécifiques posés par la lecture « distante » de la presse ancienne ont en effet conduit au développement d’outils et de méthodes spécifiques ainsi qu’à l’exploitation de ressources encore peu connues (comme les fichiers enrichis de la numérisation sous format ALTO).

La détection des reprises de textes dans la presse

L’identification automatisée des copies de textes d’un journal à l’autre permet de faire émerger des réseaux de communications cachées et de modéliser la dissémination d’une publication dans un grand nombre de titres. Il s’agit d’un nouveau champ de recherche introduit notamment aux États-Unis par le projet Viral Text coordonné par Ryan Cordell. Les algorithmes utilisés reposent sur le même principe que les logiciels d’anti-plagiat : ils comparent les séquences de mots communes entre chaque document et en déduisent un certain degré de similitude. Avec cet outil les chercheurs de Viral Text sont parvenus à repérer les multiples réimpressions de poèmes « fugitifs » dans l’ensemble de la presse américaine des journaux à grands tirages de la côte est aux petits périodiques du Far West.

Nous avons présenté à co.hist en octobre un premier essai expérimental d’analyse “virale” franco-canadienne à partir d’un corpus croisé de 11 périodiques canadiens et de 4 quotidiens français parus en 1866. En appliquant cette méthode aux corpus de la Banq et d’Europeana avec des réglages suffisamment laxistes pour intégrer les erreurs d’OCR, nous avons pu identifier 108 reprises franco-canadiennes (entre un journal français et un journal canadien).

Réseau des reprises de textes entre périodiques français et canadiens

Ces reprises peuvent porter sur n’importe quelle forme de texte journalistique. L’actualité internationale est favorisée par la position particulière d’introducteur des nouvelles européennes qu’occupent les journaux français au Québec mais les formes littéraires sont également virales (à l’image d’un roman-feuilleton de Pierre-Jules Hetzel repris sans attribution dans la Gazette de Sorel) ainsi que les événements scientifiques et techniques (comme le premier voyage d’un prototype français d’automobile).

Un exemple de reprise en série : un article autrichien traduit dans un journal français et réimprimé au Canada.

Les circonstances de la reprise permettent de reconstituer un réseau régulier d’échange transatlantique entre la France et le Canada francophone. Au sein du Québec, les dynamiques de reprises suivent le cours du Saint-Laurent : initialement publiées à Québec, elles se disséminent ultérieurement jusqu’à Montréal. L’animation ci-dessous illustre cette dynamique de reprise (pour la lancer, il suffit d’appuyer sur le bouton « GIF »).

GIF

Le rythme des reprises n’est pas arbitraire. Celles-ci arrivent par “grappes” sous l’effet d’un conditionnement technique majeur : les traversées de steamers. En 1866, alors que le télégraphe s’installe tout juste, l’essentiel de la transmission des nouvelles se fait par l’entremise de quelques grandes lignes maritimes en une durée de 12 à 20 jours.

Rythme de la reprise de textes entre la France et le Canada : les « scansions » récurrentes correspondent vraisemblablement aux passage d’un steamer

Le travail sur l’analyse de la viralité se poursuit actuellement dans deux directions. Tout d’abord nous souhaitons développer un « panorama » global de la circulation des textes dans la presse francophone. Cette ambition se heurte à de nombreuses contraintes techniques et matérielles, aussi bien en matière de récupération des textes que d’infrastructures (les algorithmes actuellement utilisés peinent au-delà de quelques centaines de milliers de textes comparés).

Parallèlement, nous tentons de développer de nouveaux outils d’identification des reprises entre les langues. Un premier test a permis de repérer des textes similaires (mais pas encore des « reprises » au sens strict) entre les deux corpus mené sur un corpus franco-italien de revues de la Belle Epoque. Nous avons ici fait appel à des techniques expérimentales à base de vecteurs de mots, des séries de chiffres qui encodent la position contextuelle des mots les uns par rapport aux autres. L’illustration ci-dessous montre la convergence du vocabulaire français et italien de notre corpus de revue.

Pour l’instant, les résultats qu’on peut obtenir sont « bruts », et nécessitent une sélection, une vérification et une classification humaine pour comprendre les formes et raisons de ces reprises. Mais une des questions principales qui nous occupera dans ce projet est celle de la modélisation de ce phénomène: comment réduire ces pratiques culturelles à des variables dans une sorte de théorie de la communication virale ?

Une base de données de journalistes et d’acteurs médiatiques

Il n’existe en effet pas encore de recensement global des acteurs du système médiatique français (et a fortiori francophone) accessible en ligne. La future base Numapresse va toutefois rapidement pouvoir se développer en reprenant une base inédite de 53 000 noms et pseudonymes de journalistes constituée par Patrick Ramseyer pour la BNF.

Ce noyau initial sera rapidement complété par d’autres bases complémentaires :

    • De grandes bases généralistes en open data. Les fiches de Data BNF permettront notamment de récupérer les métadonnées bibliographiques des publications rédigées par les écrivains-journalistes. La « base de connaissance libre » Wikidata intègre des données plus générales liées notamment à l’activité sociale de la personne (ses parents et enfants, ses études, etc.) grâce à un très large éventail de propriétés (plus de 4000 à ce jour).
    • Des bases spécialisées créées et entretenues par des projets de recherche sur la presse. Ces bases portent sur un objet ou un champ précis qu’elles peuvent documenter avec une grande précision. La base Petite presse d’Alain Vaillant relie ainsi un grand nombre d’acteurs et de titres de la « la presse littéraire et peu ou prou satirique » française de 1815 à 1880.
    • Des données nouvelles extraites de documents patrimoniaux. Il s’agit d’un objectif de plus long terme : nous ferons appel à des méthodes d’extraction des connaissances (knowledge mining) pour identifier des informations  dans des sources d’époque comme les dictionnaires ou les almanachs.
Les périodiques francophones de 1866 localisés grâce aux données de Data BNF.

La base de données sera diffusée dans un site créé par Olivier Lapointe qui a été engagé pour cette mission par Numapresse. Elle comprendra plusieurs milliers de fiches sur des entités distinctes (journalistes, publications, journaux, entreprises…) étroitement liées les unes aux autres.

La base de données de journalistes contribuera à enrichir les métadonnées des archives numérisées et sera également un terrain de recherche privilégié pour analyser l’évolution historique du champ social du journalisme.

La classification automatisée des « formes » journalistiques

La diversité du journal n’est pas que sociale mais aussi stylistique et thématique : des formes très différentes sont amenées à cohabiter dans le même document et, bien souvent, dans la même page. Afin de reconstituer les « genres » journalistiques nous employons une méthode de classification utilisée dite « supervisée » (SVM) : nous constituons un corpus d’apprentissage où chaque texte est déjà étiqueté ; le modèle tente ensuite de déduire le genre à partir du lexique employé dans le texte. Nous avons développé un nouvel outil dans le langage R pour préparer le corpus avant la classification : la seule extension de référence, RTextTools, n’était plus mise à jour depuis plusieurs années et s’est avérée insuffisamment maniable. L’outil sera prochainement diffusé sous une licence libre.

L’acte de classification soulève de nombreux enjeux méthodologiques. Les premiers tests de Numapresse ont été menés sur la presse des années 1830 aux années 1850 à une époque où les genres journalistiques ne sont pas encore nettement fixés : si le roman-feuilleton ou la Bourse sont nettement délimités, de nombreuses autres formes (carnet du jour, actualité étrangère, faits divers…) sont présentées en vrac. La prise en compte des probabilités d’attribution s’avère indispensable pour ne pas trop « figer » une matière encore mouvante : certains textes peuvent être à cheval sur deux ou trois genres distincts. Cette approche « souple » de la classification s’inspire des recherches menées par Ted Underwood sur le « cycle de vie » des genres littéraires comme le policier ou la science-fiction. L’objectif n’est pas seulement de classifier des textes mais aussi d’évaluer dans quelle mesure une classification est possible, dans quelle mesure le « genre » s’est suffisamment sédimenté pour que le lexique employé devienne reconnaissable.

L’image ci-dessus présente un essai de classification de la première page du Journal des débats du 27 juillet 1837. Chaque « rectangle » correspond à un bloc de texte tel que localisé dans la page du journal. Chaque couleur correspond à un « genre » et l’ampleur de la coloration indique un degré de probabilité. Selon notre modèle, le bloc n°20 correspond ainsi peut-être à un roman-feuilleton alors que le bloc n°30 en est assurément un. Bien que notre classification soit encore très rudimentaire, elle parvient à repérer plusieurs caractéristiques formelles fondamentales, notamment que la partie du feuilleton en bas est presque entièrement occupée par le roman-feuilleton.

Pour ces essais de classifications automatisée, l’accès aux fichiers complets issus de la numérisation (ALTO) s’est avéré indispensable. Le format de texte brut ne conserve en effet aucune mémoire de la disposition initiale du journal et évacue certains objets essentiels (les images, les agencements typographiques…). Nous sommes actuellement en train de développer un programme en python pour maintenir les métadonnées générées par l’OCR (coordonnées, taille du texte, police…) et les enrichir de nouvelles métadonnées issues de traitement de text mining sous Spacy (syntaxe, entités nommées…).

La classification automatisée s’étendra dans un deuxième temps aux images de presse. Nous avons déjà pu procéder à l’extraction des illustrations et à un essai de catégorisation des relations entre le texte et l’image dans un périodique humoristique de la fin du XIXe siècle, Le Rire.

Essai de classification de l’articulation entre le texte et les images dans le Rire.

Cette visualisation présente ainsi un cluster d’images « commentées », où les illustrations sont systématiquement suivies d’un petit bloc de texte qui vient en réponse. Bien que très rudimentaire cette classification permet déjà d’explorer rapidement un corpus : il fait émerger des régularités dans la manière dont le texte s’articule avec l’image mais permet aussi de distinguer des cas hors-normes qui se trouveraient autrement perdus dans la masse.

Et ensuite…

Même s’il n’est encore qu’à ses débuts, le projet Numapresse se trouve confronté à des défis importants, en partie partagés par des projets similaires.

    • Comment « traduire » des concepts et notions  élaborés par les études historiques, littéraires, sociologiques, communicationnelles de la presse en outils informatiques opérationnels ? Et inversement, dans quelle mesure les relations et les objets mis à jour par des méthodes de lectures distantes peuvent être saisis par des approches qualitatives ? L’essai de classification automatisée implique ainsi de repenser l’histoire des genres journalistiques : certaines formes se distinguent déjà fortement alors qu’elles ne sont jamais nommées (comme le « fait divers » qui a déjà des codes spécifiques qui le rend reconnaissable dès les années 1840) ; d’autres formes restent encore mal distinguées et cohabitent au sein d’hybrides relativement indéfinis.
    • Comment articuler tous les apports des différents chantiers ? L’identification des reprises et la classification automatisée des rubriques engendrent des métadonnées nouvelles qui complètent et enrichissent les métadonnées existantes. L’intégration de ces éléments inédits implique cependant de repenser les modes de classification du journal, généralement structurés autour de l’exemplaire et non du contenu effectif (texte, image, tableau…).
    • Comment conserver la main sur son corpus ? Il s’agit d’un problème récurrent des projets en Humanités numériques qu’illustraient bien les ateliers Corpus menés conjointement par la BNF et un projet partenaire de Numapresse, Giranium. Le projet Numapresse se trouve non seulement confronté à l’expansion des corpus numérisés mais aussi à la sophistication croissante des données associées : les corpus traités n’incluent plus que le texte brut mais aussi des images, des métadonnées sur le texte, des liens entre les textes, des probabilités de classifications…Les grandes infrastructures de recherche comme Huma-num apparaissent d’emblée comme une ressource indispensable pour faire face à cette masse (les recherches présentées ici ont déjà grandement bénéficié de l’accès à une version en ligne de R studio). Néanmoins, les problématiques de structuration de données de plus en plus nombreuses, diverses et complexes ne peuvent pas être solutionnées uniquement par un accroissement de la mémoire disponible.

Ces points fondamentaux seront évoqués au cours du séminaire Numapresse coordonné par Julien Schuh et qui constitue le versant réflexif du projet. Quatre séances sont prévues au cours du prochain semestre avec une alternance entre un format « atelier » destiné à faire émerger des expérimentations nouvelles autour d’une question de recherche et un format « séminaire » présentant les résultats et apports de plusieurs expériences.

La prochaine synthèse générale du projet Numapresse aura lieu lors de la journée d’étude du 15 juin 2018. D’ici là, le site publiera régulièrement des analyses de certains aspects plus précis du projet.

79 réflexions au sujet de “Avancement du projet Numapresse

  1. After going over a few of the articles on your web site, I honestly like your way of writing a blog. I book-marked it to my bookmark website list and will be checking back in the near future. Please check out my web site too and let me know how you feel.I simply needed to say thanks again. I am not sure the things I would’ve worked on without those secrets documented by you relating to this area of interest. Previously it was an absolute intimidating case in my position, but taking note of the specialized strategy you solved it took me to weep with contentment. I’m just happy for this information and have high hopes you comprehend what an amazing job you are always undertaking instructing people today through the use of your website. Probably you haven’t come across any of us.I’ve been browsing online more than 4 hours today, yet I never found any interesting article like yours.It’s pretty worth enough for me. Personally, if all siteowners and bloggers made good content as you did, the internet will be a lotmore useful than ever before.Simply wish to say your article is as astonishing.The clearness in your post is simply nice and icould assume you’re an expert on this subject. Well with your permission allow me tograb your RSS feed to keep updated with forthcoming post.Thanks a million and please carry on the enjoyable work.

  2. For my thesis, I consulted a lot of information, read your article made me feel a lot, benefited me a lot from it, thank you for your help. Thanks!

  3. Very nice post. I just stumbled upon your blog and wanted to say that I’ve really enjoyed browsing your blog posts. In any case I’ll be subscribing to your feed and I hope you write again soon!

  4. Do you mind if I quote a couple of your articles as long asI provide credit and sources back to your website?My blog site is in the very same niche as yours and my users would certainly benefit from some of the information you present here.Please let me know if this okay with you. Thanks!

  5. I am an investor of gate io, I have consulted a lot of information, I hope to upgrade my investment strategy with a new model. Your article creation ideas have given me a lot of inspiration, but I still have some doubts. I wonder if you can help me? Thanks.

  6. I am an investor of gate io, I have consulted a lot of information, I hope to upgrade my investment strategy with a new model. Your article creation ideas have given me a lot of inspiration, but I still have some doubts. I wonder if you can help me? Thanks.

  7. Your article made me suddenly realize that I am writing a thesis on gate.io. After reading your article, I have a different way of thinking, thank you. However, I still have some doubts, can you help me? Thanks.

  8. Your article made me suddenly realize that I am writing a thesis on gate.io. After reading your article, I have a different way of thinking, thank you. However, I still have some doubts, can you help me? Thanks.

  9. Your article made me suddenly realize that I am writing a thesis on gate.io. After reading your article, I have a different way of thinking, thank you. However, I still have some doubts, can you help me? Thanks.

  10. I am a student of BAK College. The recent paper competition gave me a lot of headaches, and I checked a lot of information. Finally, after reading your article, it suddenly dawned on me that I can still have such an idea. grateful. But I still have some questions, hope you can help me.

  11. I may need your help. I’ve been doing research on gate io recently, and I’ve tried a lot of different things. Later, I read your article, and I think your way of writing has given me some innovative ideas, thank you very much.

  12. Appreciating the commitment you put into your website and in depth information you provide. It’s great to come across a blog every once in a while that isn’t the same out of date rehashed material. Excellent read! I’ve saved your site and I’m including your RSS feeds to my Google account.

  13. I wanted to draft you this bit of word to finally thank you so much once again regarding the gorgeous strategies you’ve shown here. It is certainly pretty generous with people like you to make unhampered what exactly a number of people would have distributed for an e-book in making some money on their own, notably since you might have done it if you ever desired. The tactics also acted as the easy way to comprehend other people have a similar dream like my personal own to grasp a whole lot more with reference to this problem. I am certain there are thousands of more pleasurable situations ahead for individuals who read through your blog.

  14. I truly wanted to post a small comment in order to thank you for all the stunning tips and tricks you are placing on this website. My time-consuming internet research has finally been honored with really good ideas to talk about with my classmates and friends. I ‘d repeat that most of us website visitors actually are very much lucky to dwell in a great community with so many outstanding individuals with very beneficial guidelines. I feel somewhat fortunate to have encountered your entire site and look forward to so many more amazing times reading here. Thanks again for all the details.

  15. I needed to compose you one very small note so as to thank you very much over again with your fantastic advice you have featured on this site. This is simply pretty generous of people like you to supply extensively just what a number of us would’ve advertised for an e-book to generate some profit on their own, most importantly since you might well have done it if you wanted. The good tips also acted to be the great way to fully grasp that most people have similar fervor the same as mine to understand way more with regard to this matter. I know there are lots of more enjoyable situations up front for folks who look into your website.

  16. Thank you for all your hard work on this site. My mom loves setting aside time for internet research and it’s easy to understand why. Most people learn all of the lively mode you convey reliable ideas through your blog and even encourage participation from visitors on that concern so our own child is now becoming educated a lot of things. Take advantage of the remaining portion of the year. Your conducting a pretty cool job.

  17. Thank you so much for providing individuals with an exceptionally splendid possiblity to read in detail from this website. It’s usually very terrific and also jam-packed with amusement for me and my office fellow workers to visit your website on the least thrice weekly to find out the fresh stuff you have got. Not to mention, we’re certainly astounded with your impressive secrets served by you. Some 1 points in this article are basically the most suitable we’ve ever had.

  18. I definitely wanted to compose a quick word to be able to say thanks to you for these fantastic steps you are sharing on this website. My time consuming internet investigation has finally been rewarded with sensible concept to write about with my best friends. I ‘d assume that many of us site visitors are quite lucky to live in a good website with so many brilliant individuals with very helpful principles. I feel truly lucky to have seen the web page and look forward to plenty of more enjoyable minutes reading here. Thank you again for everything.

  19. I and my buddies were found to be reviewing the nice strategies found on your web blog and then I had an awful feeling I had not thanked the site owner for those secrets. My ladies ended up certainly excited to study all of them and have in effect absolutely been making the most of these things. I appreciate you for genuinely simply kind and also for making a decision on these kinds of exceptional guides millions of individuals are really eager to be informed on. Our own sincere regret for not expressing appreciation to earlier.

  20. I and also my guys happened to be following the nice suggestions located on your web page and then unexpectedly I got a horrible feeling I had not thanked the web site owner for those strategies. My ladies became as a consequence joyful to see them and have in effect simply been using those things. Appreciation for truly being considerably thoughtful and for deciding on certain awesome subject areas most people are really eager to be aware of. Our own honest apologies for not expressing gratitude to sooner.

  21. Thanks a lot for giving everyone remarkably special possiblity to check tips from this site. It is often so fantastic plus packed with a good time for me and my office colleagues to visit your website at a minimum three times in a week to find out the fresh guidance you have got. And of course, I’m usually fascinated with all the great pointers you serve. Certain 1 ideas on this page are unequivocally the simplest we have ever had.

  22. This web page is mostly a stroll-by for the entire data you wished about this and didn抰 know who to ask. Glimpse right here, and also you抣l definitely uncover it.

  23. This website is really a walk-by for all of the info you wished about this and didn抰 know who to ask. Glimpse right here, and you抣l undoubtedly discover it.

  24. A powerful share, I simply given this onto a colleague who was doing a bit of analysis on this. And he the truth is bought me breakfast as a result of I found it for him.. smile. So let me reword that: Thnx for the treat! However yeah Thnkx for spending the time to debate this, I really feel strongly about it and love studying more on this topic. If potential, as you turn into experience, would you thoughts updating your weblog with more details? It’s highly useful for me. Large thumb up for this weblog post!

  25. I抦 impressed, I need to say. Really rarely do I encounter a blog that抯 each educative and entertaining, and let me inform you, you will have hit the nail on the head. Your concept is excellent; the issue is one thing that not enough individuals are talking intelligently about. I’m very completely happy that I stumbled across this in my seek for something referring to this.

  26. Hey! I simply would like to give a huge thumbs up for the great data you’ve got here on this post. I shall be coming back to your weblog for extra soon.

  27. After I originally commented I clicked the -Notify me when new feedback are added- checkbox and now every time a comment is added I get 4 emails with the same comment. Is there any method you can remove me from that service? Thanks!

  28. It’s really a cool and useful piece of information. I am glad that you simply shared this useful information with us. Please stay us up to date like this. Thanks for sharing.

  29. Great paintings! This is the kind of information that are supposed to be shared across the internet. Shame on Google for no longer positioning this publish upper! Come on over and discuss with my website . Thank you =)

  30. Good day! This is my first visit to your blog! We are a team of volunteers and starting a new project in a community in the same niche. Your blog provided us beneficial information to work on. You have done a marvellous job!

  31. I am often to blogging and i really appreciate your content. The article has really peaks my interest. I am going to bookmark your site and keep checking for new information.

  32. obviously like your web-site however you need to take a look at the spelling on quite a few of your posts. Many of them are rife with spelling problems and I in finding it very troublesome to inform the truth then again I will certainly come back again.

  33. Great article and right to the point. I don’t know if this is truly the best place to ask but do you people have any ideea where to employ some professional writers? Thanks in advance 🙂

  34. After study a few of the blog posts on your website now, and I truly like your way of blogging. I bookmarked it to my bookmark website list and will be checking back soon. Pls check out my web site as well and let me know what you think.

  35. I do enjoy the way you have framed this particular challenge and it really does offer me some fodder for consideration. On the other hand, from just what I have seen, I simply hope as the remarks pack on that individuals keep on issue and not get started upon a tirade of the news of the day. All the same, thank you for this exceptional piece and while I do not really concur with this in totality, I respect your standpoint.

  36. hi!,I really like your writing so much! proportion we keep up a correspondence extra about your article on AOL? I need a specialist on this space to solve my problem. May be that is you! Having a look ahead to see you.

  37. I actually wanted to post a brief note to say thanks to you for the precious recommendations you are giving at this site. My time intensive internet lookup has at the end been recognized with useful suggestions to exchange with my relatives. I would assume that we visitors are very much fortunate to exist in a very good place with many awesome individuals with helpful secrets. I feel rather lucky to have discovered the web site and look forward to plenty of more excellent times reading here. Thanks a lot once again for everything.

  38. I really like what you guys tend to be up too. Such clever work and coverage! Keep up the excellent works guys I’ve incorporated you guys to my personal blogroll.

Laisser un commentaire

Aller à la barre d’outils