La stylométrie est un domaine de la linguistique qui utilise la statistique pour décrire les propriétés stylistiques d'un texte. Elle est utilisée pour identifier le style d'un auteur, par exemple, celui de textes anciens ou un auteur anonyme dans le domaine judiciaire.
Histoire
La stylométrie a traversé les époques et les siècles. Peut-être inspirée par Pythagore (« Tout est nombre »), elle a véritablement débuté avec le logicien anglais Auguste de Morgan, avant de se développer grâce à l'informatique moderne. La première utilisation du terme stylométrie serait due à Wincenty Lutosławski,.
La stylométrie prend sa forme moderne en avec Frederick Mosteller de l’université de Harvard et David Wallace, de l’université de Chicago qui publient un article fondateur dans le journal de l’American Statistical Association,.
La stylométrie s'est également développée en France depuis, notamment avec Jean-Paul Benzécri, Charles Bernet, Étienne Brunet, Charles Muller et Jean-Marie Viprey. Elle est enseignée notamment à l'École des Chartes.
Méthodes
La stylométrie suit une approche quantitative. Elle recense les unités objectivées d’un texte. Selon le point de vue linguistique, ces unités varient : il peut s'agir du lexique, de la syntaxe ou encore de chaînes de caractères.
Le lexique, c'est-à-dire les mots utilisés par un auteur, est particulièrement étudié. Parmi les mots du lexique, les mots outils, comme les déterminants (la, un, etc.) ou les prépositions (à, de, etc.), jouent un rôle particulier, en raison de leur grande fréquence d'utilisation, qui facilite les analyses quantitatives, et du fait que leur utilisation est largement inconsciente chez les locuteurs et donc difficilement imitable.
En syntaxe, on examine les catégories grammaticales utilisées par un auteur, comme les verbes, les noms, les adjectifs, etc.. Ces catégories sont extraites d'un texte à l'aide d'un étiqueteur grammatical.
Les chaînes de caractères utilisées par un auteur, ou n-grammes, jouent également un rôle en stylométrie. Par exemple, dans une approche s'appuyant sur les séquences de deux caractères ou bigrammes, un mot comme beau sera analysé comme constitué des trois bigrammes suivants : be, ea, au. Les n-grammes permettent d'étudier l'utilisation de la morphologie par les auteurs, puisque les morphèmes sont des chaînes de caractères plus petites que le mot. On pourra par exemple identifier un auteur qui utiliserait fréquemment un suffixe spécifique. Les n-grammes présentent un avantage quantitatif par rapport aux unités plus larges comme le mot, en raison de leur nombre plus élévé d'occurrences dans un texte.
De ces unités, les statistiques textuelles retiennent traditionnellement les fréquences d’apparition, qu'il s'agisse des fréquences d'apparition de mots, de catégories syntaxiques ou des chaînes de caractères. L'idée est que chaque auteur utilise ces éléments avec une fréquence qui lui est propre.
Usages
Les Federalist Papers
En , Frederick Mosteller et David Wallace établissent qui, d'Alexander Hamilton et de James Madison, a précisément écrit les divers articles des Federalist Papers qui promouvaient la constitution américaine, et publiés conjointement sous le pseudonyme de « Publius ». Alors que la recherche sur les mots de contenu (par exemple : « guerre ») est un échec, l'usage de mots outils (tel que « et », « alors », « sur ») est révélateur : Hamilton utilise souvent « upon » (sur), Madison presque jamais, Hamilton se sert beaucoup de « to », Madison de « by », etc.,
QAnon
En , deux équipes mettent en œuvre différents algorithmes de stylométrie pour identifier de manière indépendante les mêmes deux auteurs à l'origine des textes anonymes de QAnon.
Paternité d'une oeuvre littéraire
La stylométrie a été utilisée pour identifier des textes d'Homère et de Platon, des pièces de Corneille et Molière, des poèmes de Shakespeare, le manuscrit de Voynich.
Les deux chartistes Florian Cafiero et Jean-Baptiste Camps confirment en 2019 la paternité des œuvres de Molière, dont le doute subsistait au profit de Corneille,,.
Petr Plecháč corrobore en 2020 que John Fletcher a aidé Shakespeare à écrire Henri VIII,,.
La stylométrie, en janvier 2023, a permis d'identifier l'Espagnol Lope de Vega comme étant l'auteur de l'œuvre La Francesa Laura à partir d'un manuscrit rédigé des années après sa mort.
Judiciaire
Dans la continuité de la linguistique forensique, les techniques de la stylométrie sont utilisées dans un contexte policier et judiciaire. Néanmoins, le recours à la stylométrie varie selon les pays.
En Suisse, la police scientifique utilise cette technique d'une manière complémentaire dans une enquête mais ne constitue pas une preuve probante.
En France, dans le cadre de l'Affaire Grégory, les conclusions en d'une expertise en stylométrie commandée par la juge Claire Barbier à la société suisse OrphAnalytics en resserrent les soupçons sur cinq corbeaux et une autrice principale. Les avocats et leurs parties demeurent divisés quant à l'emploi de cette technique.
Aux États-Unis, de telles analyses linguistiques se pratiquent dans les tribunaux depuis les travaux pionniers de Roger Shuy dans l'identification du Unabomber et de Patrick Juola (en) dans l'identification de l'auteur de The Cuckoo's Calling. Les deux chartistes Florian Cafiero et Jean-Baptiste Camps se positionnent en faveur de son usage dans les affaires judiciaires en France rappelant que la technique de la stylométrie n'est ni rare, ni étrangère, ni nouvelle, tout en admettant qu'elle n'est pas infaillible, et que les courts textes étudiés dans le cadre de l'affaire Grégory connus par les médias se prêtent mal à l'analyse statistique en raison de nombreux suspects, raison pour laquelle les résultats doivent en être scrutés avec attention. A contrario, Claude-Alain Rothen et sa société OrphAnalytics adoptent une approche génomique apte à analyser des textes courts.
Néanmoins,
Bibliographie
- Paul Tannery, « La stylométrie ses origines et son présent », Revue Philosophique de la France et de l'Étranger, vol. 47, , p. 159–169 (ISSN 0035-3833, lire en ligne, consulté le )
- Bernard Gicquel, Stylistique littéraire et informatique, Arras, Artois presses université, , 134 p. (ISBN 2-910663-31-0 et 978-2-910663-31-5, OCLC 41302243, lire en ligne)
- Wincenty Lutosławski, Principes de stylométrie appliqués à la chronologie des œuvres de Platon, E. Leroux,
- Valérie Beaudouin, « Contribution de la métrique à la stylométrie », JADT 2004 : 7es Journées internationales d’Analyse statistique des Données Textuelles, , p. 12 (lire en ligne)
- Andrei V. Zenkov, « A Method of Text Attribution Based on the Statistics of Numerals », Journal of Quantitative Linguistics, vol. 25, no 3, , p. 256–270 (ISSN 0929-6174, DOI 10.1080/09296174.2017.1371915, lire en ligne, consulté le )
- [Tribune] Florian Cafiero et Jean-Baptiste Camps, « L’irruption de la stylométrie dans l’affaire Grégory promet de sérieuses controverses », Le Monde.fr, (lire en ligne, consulté le ).
- Florian Cafiero, Jean-Baptiste Camps, Affaires de style : du cas Molière à l'affaire Grégory, la stylométrie mène l'enquête, 2022., Broché, (ISBN 978-2321017349)
Notes et références
Notes
Références
Voir aussi
- Paternité des œuvres de Molière
- Paternité des œuvres de Shakespeare
- Logométrie
- Linguistique quantitative
- Littérométrie
Liens externes
- « Lexicometrica », Revue électronique de l'Université de Paris
- Portail de la linguistique
- Portail des probabilités et de la statistique