Compte rendu : Séminaire Numapresse « Fictions policières » (14 janvier 2019)

Compte rendu : Séminaire Numapresse « Fictions policières » (14 janvier 2019)

Le 14 janvier 2019 s’est tenu à l’université Paris-Ouest Nanterre le séminaire animé par Matthieu Letourneux et Pierre-Carl Langlais à propos des fictions policières. L’intervention cherchait à étudier des phénomènes de généricité au sein d’un corpus d’oeuvres analysées grâce à des outils de classification mis au point dans le cadre des recherches de l’ANR Numapresse. Pour celles et ceux qui ne pouvaient assister au séminaire, vous pouvez visionner ici la conférence dans son intégralité :

Après quelques mots d’introduction de Julien Schuh, organisateur de l’événement, Pierre-Carl Langlais et Matthieu Letourneux ont commencé par présenter leur méthode et résumer le travail effectué en collaboration avec l’ANR Anticipation, travail présenté lors de la journée d’étude organisée par Claire-Barel Moisan et Émilie Pézard L’anticipation au prisme des humanités numérique, qui s’est tenue le 22 novembre 2018 à à l’Université Paris-Sorbonne. Cette collaboration entre l’ANR Numapresse et l’ANR Anticipation a permis une exploration systématique d’une base de données de romans d’anticipation parus entre 1860 et 1940 grâce aux outils développés par Numapresse. L’objectif était d’y déceler, par l’identification d’un vocabulaire ou d’une syntaxe récurrente, des phénomènes de généricité et d’inter-discours sociaux.

La même approche a été appliquée dans ce séminaire à un corpus d’œuvres composé de romans policiers. A partir des catalogues de la BNF et de collections éditoriales numérisées, un corpus de 3269 romans policiers a été soumis à une classification systématique (vocabulaire, syntaxe, etc) afin de déceler des logiques de genre, de rapprochements éditoriaux, de proximité stylistique à une époque donnée ou entre des collections éditoriales précises.

Cette approche s’inspirait du travail mené par Ted Underwood dans « The Life Cycle of Genres », paru en 2016 dans le Journal of Cultural Analytics. Elle le mettait toutefois à distance en critiquant ses nombreux biais génériques. Ted Underwood a mené une étude cherchant à mettre au jour des phénomènes de récurrences stylistiques au sein de certains genres afin d’obtenir un modèle prédictif qui permettrait de reconnaître a priori si un texte relève d’un genre déterminé, comme la science-fiction ou le roman policier.

L’un des biais de cette étude, selon Pierre-Carl Langlais et Matthieu Letourneux, repose sur la constitution du corpus à l’origine du modèle prédictif. Cette constitution est fautive car elle sélectionne des romans à partir de catalogues de science-fiction fortement inspirés par la définition du genre tel qu’il est développé après la seconde guerre mondiale. Le risque principal est d’aboutir à une définition circulaire où le résultat de la recherche est déterminé par des présupposés génériques anachroniques.

L’approche proposée par Matthieu Letourneux et Pierre-Carl Langlais est plus inductive : des modèles sont générés automatiquement et permettent de faire apparaître, à partir des corpus numérisés, des phénomènes génériques entre plusieurs centaines de romans, choisis en partie aléatoirement.

Le travail mené en collaboration avec l’ANR Anticipation avait montré des écarts importants entre le vocabulaire attendu et celui qui ressortait du processus de classification automatisée. Là où notre représentation habituelle des œuvres d’anticipation laissait imaginer un vocabulaire technique et scientifique, la classification automatisée a démontré une proximité bien plus grande des œuvres avec le roman d’aventure, colonial et nationaliste. A partir du modèle ainsi généré, une recherche menée dans le catalogue de la BNF permettait alors de faire apparaître les romans proches de ceux identifiés par la classification comme ce qui relevait à l’origine de l’anticipation. Les romans trouvés ont montré une grande proximité avec le roman d’aventure populaire traditionnel, des œuvres qui parfois ne contiennent aucun élément scientifique ou technique.

Pour le roman policier, les corpus étudiés étaient les suivants :

  1. Un corpus global de 2500 romans policiers classés par auteur
  2. Un corpus plus spécifique de 1200 romans tirés de collections éditoriales bien définies (comme Fleuve noir),
  3. Plusieurs corpus thématiques (policier japonais, policier ésotérique)
  4. Un dernier corpus tiré de catégorisations effectuées à partir du site Babelio

L’étude de collections spécifiques permettait une classification automatisée plus efficace. En effet, le genre policier étant une littérature dite « de genre » qui se regroupe dans des collections spécifiques – à l’image de la science-fiction -, l’étude de ces collections permet de distinguer des cohérences stylistiques plus fortes, parfois assumées par les auteurs et les éditeurs. Neuf collections précises à l’identité éditoriale forte ont donc été sélectionnées pour faire cette étude : le Masque, la série noire « ancienne » (1940-1970), la série noire « moderne »/néopolar, Rivages Noirs, Actes Noirs, Fleuve Noir, Grands détectives, Pocket Thriller, et Thriller ésotérique.

Certaines collections sont plus vastes et développées que d’autres. Un enjeu statistique – pour éviter des résultats trop déséquilibrés – consiste à opérer des sélections au sein de ces collections éditoriales et à l’intérieur des romans eux-mêmes. Les résultats font apparaître des listes de vocabulaire par ordre de fréquence.

Si certains résultats semblent décevants, répétant les grands stéréotypes du genre policier (comme pour la Série Noire 1940-1960 avec des termes comme dollar ou revolver), d’autres au contraire révèlent une sélection de mots plus inattendue : c’est le cas pour la collection Thriller qui montre une importance considérable du vocabulaire lié à la communication. Cette proximité de termes identiques pourraient donner des informations sur les représentations collectives autour de la question de l’information dans nos sociétés modernes.

Le vocabulaire analysé et son évolution entre les collections pourraient être selon Matthieu Letourneux de puissants outils pour comprendre les imaginaires collectifs à une époque donnée. Il s’agit là, plus largement, d’un des enjeux importants de la classification automatisée.

L’établissement de modèles inductifs à partir de bases de données permet également d’étudier la proximité des collections éditoriales entre elles. Si certaines collections semblent pouvoir être reliées à un style en particulier, comme le polar japonais, d’autres comme Thriller ont des contours plus flous. Il est alors possible de cartographier schématiquement le réseau des collections éditoriales et leur proximité.

Parmi les possibilités créées par cette approche, l’étude d’autres genres est également possible, comme le récit de voyage ou le roman historique, en essayant de constituer des modèles pour des romans qui, contrairement aux romans policiers étudiés, ne relèvent pas d’une collection éditoriale précise.

Les perspectives d’une classification automatisée rigoureuse et consciente de ses limites sont très variées. Cette approche permettrait une meilleure situation et compréhension des genres littéraires en contexte, de façon historicisée. Par l’étude du cadre il pourrait être également possible d’identifier des lieux, des époques, dans les corpus de romans. A partir de la reconnaissance des genres, les outils ouvrent des perspectives d’études sur le plan des schémas narratifs. La traduction a également été abordée : est-il possible d’intégrer à l’étude des textes étrangers et leur traduction, afin de percevoir d’autres modèles, un vocabulaire différent ? Quels seraient les effets de proximité entre les pays, ou leurs différences ?

L’approfondissement de la classification automatisée et la prise de conscience de tous les biais possibles pourraient ouvrir de nouvelles pistes d’études et une meilleure connaissance des genres à toutes les échelles.

 

Aller à la barre d’outils