Grandes formes éditoriales dans Gallica au 19e siècle

Corpus d'entraînement

Catégorisation

Le modèle reprend des catégories documentaires et thématiques utilisées par la Bibliothèque Nationales pour structurer ses fonds (cotation Clément). Les catégories présentent l'intérêt d'être contemporaines de la publication des documents et de limiter le risque d'anachronisme. Les "romans" couvrent ainsi d'autres formes de créations en proses (nouvelles et contes).

Le modèle actuel a retenu 13 classifications :
  1. Droit (E)
  2. Géographie (G)
  3. Histoire (L sauf cotes de la Biographie et des Actualités politiques)
  4. Biographie (Ln27)
  5. Bibliographie (Q)
  6. Sciences philosophiques, morales et physiques (R)
  7. Sciences naturelles (S)
  8. Sciences médicales (T)
  9. Ingénierie et histoire de l'art (V)
  10. Linguistique et rhétorique (X)
  11. Poésie (Y)
  12. Roman (Y2)
  13. Théâtre (Yth)

Le modèle inclut également une catégorie reconstruite à partir d'ouvrages normalement inclus dans la catégorie histoire au titre de sources historiques mais qui constituent principalement des documents d'actualité politique (Lb43-Lb61)

Paramètres

Évaluation

Corpus applicable

Description

Modèle entraîné à partir de 13 grandes classifications documentaires établies par la Bibliothèque Nationale de France au 19e siècle (cotation Clément)

Modèle

Télécharger le modèle au format R

Corpus

Télécharger le corpus d'entraînement

Format original

Auteur

Citer ce document

“Grandes formes éditoriales dans Gallica au 19e siècle,” Generotheque, consulté le 15 octobre 2024, http://www.numapresse.org/generotheque/items/show/5.