Genre journalistique "1920-1940"

Corpus d'entraînement

Le modèle a été entraîné avec Tidysupervise sur les archives numérisée de 22 exemplaires de journaux publiés entre 1924 et 1938 issus de quatre quotidiens : Le Matin (19 janvier 1925, 12 juin 1930, 1er mars 1932, 12 février 1934, 16 février 1934 et 9 septembre 1936), Le Petit Parisien (11 août 1924, 19 septembre 1927, 2 décembre 1930, 4 mars 1932, 30 mars 1934 et 17 juin 1937), L'Intransigeant (19 mai 1925, 7 mai 1930, 2 mars 1932, 6 mai 1934, 19 septembre 1935 et 13 février 1938) et le Petit Journal (26 septembre 1927, 3 mars 1931, 28 juin 1933 et 16 octobre 1936).

C'est le premier modèle entraîné par Numapresse à un moment où les corpus n'étaient pas complètement intégrés. Par conséquent la sélection a été effectuée à l'échelle d'exemplaires entiers plutôt qu'à partir d'un échantillon aléatoire de blocs de texte.

La plupart des exemplaires ont été sélectionné au hasard en privégiant une diversité chronologique à l'échelle de la semaine, de l'année et de l'ensemble de la période. Certains suppléments journalistiques ont été volontairement favorisés, comme la page de cinéma qui est l'un des principaux terrains de recherche du projet Numapresse.

Le corpus d'entraînement final contient 8 669 blocs de textes annotés.

Catégorisation

Après application des paramètres le modèle contient 20 "genres" journalistiques. La visualisation ci-dessous décrit les principaux mots associés à chaque genre à l'issue de l'entraînement du modèle.

Les genres suivants correspondent à des objets éditoriaux précis déjà étiquetés dans le dispositif éditorial de la presse française de l'entre-deux-guerres:
  • Bourse : chronique boursière quotidienne ou hebdomadaire généralement publiée en vis-à-vis des cours de la bourse sous les titres "La Vie financière", "Revue économique et financière"…
  • Cinéma : supplément cinéma hebdomadaire publié généralement le vendredi dans la plupart des quotidiens français entre 1927 et 1934. Il existe des sections plus restreintes type "Nouveaux films".
  • Roman-feuilleton : roman publié en plusieurs épisodes dans le bas de la page du journal (sous le simple titre "feuilleton"). La catégorie sert également à repérer d'autres formes de fictions non épisodiques comme les contes (par exemple présents dans la rubrique régulière du Matin "Les Mille et un Matins")
  • Théâtre : plusieurs quotidiens publient des suppléments théâtre hedbomadaire dans les années 1920. À défaut l'actualité théâtrale est couverte dans le "Courrier des spectacles".
  • Sport : supplément sportif hebdomadaire ou quotidien publié dans la plupart des quotidiens français sur la période ("la vie sportive"). Des articles d'actualité sportive apparaissent également en première page (avec peu d'ambiguïté).
  • Programme radio : annonce des programmes radiophonique sous forme de liste (par exemple sous le titre "programme de la tsf")
  • Critique littéraire et artistique : il existe plusieurs rubriques régulières couvrant l'actualité de l'édition ("dernières parutions", "livre") ou des musées ("l'art à Paris").
  • Petites annonces : sous ce titre les journaux réunissent un grand nombre de courtes annonces rédigées par des particuliers à des tarfis abordables.
Certains genres n'ont pas de rubriques dédiées mais sont fréquemment introduits par un paratexte précis qui laisse peu d'ambiguïté sur la nature du texte :
  • Reportage : récit journalistique documentant un événement directement observé. Dans le corpus les reportages sont généralement attribués à des correspondants ou reporter présentés selon des formules consacrés ("de notre envoyé spécial", "de notre correspondant"). Les grands reportages peuvent faire l'objet de grandes campagnes de promotion plusiuers jours à l'avance et sont signés par des reporters reconnus. Le reportage fait partie des genres "stylistiques" qui ne porte pas sur un thème précis et se distingue avant tout par l'emploi d'une écriture spécifique.
  • Négociations/relations internationales : descriptions des négociations diplomatiques entre État et/ou de l'actualté des organisations internationales (comme la SDN). Les textes de ce type sont quasi-exclusivement présents dans les actualités internationales ("dernière heure")
D'autres catégories enfin sont plus diffuses. Ils ont été distingués à partir de récurrences lexicales et/ou pour "aérer" le modèle en découpant des catégories trop vastes ou trop vagues :
  • Vie politique et Institutions politiques : L'actualité politique prédomine dans les premières pages du journal sans avoir de rubrique ou de sous-rubrique dédié. Par convention nous avons distingué l'actualité des institutions politiques (nouvelles loi, débat au parlement…) des autres formes d'actualité politique (élections, idées politiques, vie des partis…). La distinction s'appuie sur la pré-existence historiques de genres qui ne sont plus distingués pendant l'entre-deux-guerre (comme les "débats parlementaires" pendant tout le 19 siècle).
  • Publicité narrative et publicité informative.

Paramètres

Le modèle a été entraîné sur des textes normalisés de 100 mots. Concrètement tous les blocs de texte de moins de 100 mots ont été retiré et les blocs de texte d'une longueur supérieure à 100 mots ont été fractionnés.

La répartition finale des catégories a été définie et pondérée à partir d'une sélection aléatoire : au moins 50 textes par catégorie et pas plus de 150 textes pour une seule catégorie. Sans ce plafonnement, les modèles SVM sont potentiellement "sur-entraîné" sur les genres les plus fréquents.

Avec tidysupervise, l'application des paramètres correspond au code suivant :

corpus_to_classify %>%
tds_process(training = TRUE, lemmatization = "french", segment_size = 100) %>%
tds_model(min_label = 96, max_label = 200)

Évaluation

Le modèle a une fiabilité globale de 70-75% (selon les corpus tests). La fiabilité est très variable selon les genres. Dans l'ensemble les genres caractérisé par un jargon précis (sport, bourse, publicité, cinéma) sont plus facilement reconnaissables que des genres stylistiques abordant indifféremment plusieurs thématiques (reportage).

Corpus applicable

Le modèle a été appliqué avec succès à l'ensemble des archives de presse quotidienne nationale numérisées par la BNF sur la période 1920-1940. Certains quotidiens avec une identité éditoriale particulière ont été plus difficile à classer (des articles du Figaro sont régulièrement classés à tort en "critique littéraire" en raison de l'emploi d'un style plus académique).

Le modèle devrait pouvoir être réutilisé approximativement pour tous les corpus de presse quotidienne francophone de la même période. Au vu de l'évolution de longue durée des genres journalistiques, il reste globalement pertinent sur toute la première moitié du XXe siècle.

Des essais d'application à la presse magazine se sont avérés un peu moins concluants hormis quelque genres facilement reconnaissables (comme la rubrique cinéma ou la rubrique sportive).

Description

Le modèle 1920-1940 appartient à la série des modèles "générationnels" de Numapresse couvrant les genres journalistiques de la presse quotidienne nationale française du début du 19e siècle à la Seconde Guerre Mondiale.

Modèle

Télécharger le modèle au format R

Corpus

Télécharger le corpus d'entraînement

Format original

Modèle SVM enregistré avec R et Tidysupervise (format .RData)

Auteur

Pierre-Carl Langlais

Citer ce document

Pierre-Carl Langlais, “Genre journalistique "1920-1940",” Generotheque, consulté le 2 décembre 2024, http://www.numapresse.org/generotheque/items/show/1.