Qui a écrit quoi ? La preuve par l’algorithme

L’intelligence artificielle se révèle une aide précieuse dans l’attribution de la paternité d’une œuvre, avec un degré de précision inédit. Exemple avec “Henry VIII”, pièce controversée de Shakespeare, et aussi le débat Molière/Corneille. Un extrait du mensuel de Sciences et Avenir n°876, daté février 2020.

La pièce "Henry VIII" est une collaboration entre William Shakespeare (en haut) et John Fletcher (en bas).

La pièce “Henry VIII” est une collaboration entre William Shakespeare (en haut) et John Fletcher (en bas).

ALE ET ALE POUR S. ET A.

“D’autant plus blanche et plus pure apparaîtra mon innocence, quand le roi connaîtra ma loyauté.” Ainsi s’adresse le cardinal Wolsey au comte de Surrey dans la scène 2 de l’acte III de la pièce Henry VIII de William Shakespeare (1564-1616). Or justement, à partir de cette 2200e ligne, l’œuvre ne serait plus exactement du célèbre dramaturge anglais… mais de son compatriote John Fletcher (1579-1625). Dans un article paru à l’automne 2019, Petr Plechác, chercheur en littérature de l’Académie tchèque des sciences, explique comment il a utilisé un algorithme dit d’apprentissage automatique pour confirmer et affiner une hypothèse remontant aux travaux du Britannique James Spedding en 1850 : Henry VIII est une collaboration entre les deux dramaturges. En revanche, Philip Massinger (1583-1640) ne serait pas intervenu, contrairement à ce qu’avançait un autre exégète littéraire. Surtout, la méthode a permis de déterminer – à la ligne près – les passages du texte où Shakespeare a passé le relais à Fletcher et inversement. De quoi clarifier des recherches remontant à plus d’un siècle et ouvrir des pistes pour l’analyse des textes à l’avenir.

Pour permettre à l’algorithme d’établir des comparaisons, Petr Plechác a commencé par extraire – sans l’aide de l’intelligence artificielle (IA) – les 500 mots et les 500 motifs rythmiques (accentuations de syllabes) les plus fréquemment utilisés dans 189 scènes tirées de quatre autres pièces de Shakespeare, quatre de Fletcher et trois de Massinger. Ce corpus a permis à l’algorithme de s’entraîner à reconnaître le style de chacun des trois auteurs. Puis le chercheur a passé le texte d’Henry VIII au filtre des trois modèles stylistiques établis, en sélectionnant dans chacun des cinq actes une trentaine de passages dans chaque scène. Résultat : James Spedding avait vu juste, Shakespeare et Fletcher ont bien travaillé de concert, l’algorithme attribuant cependant deux scènes complètes au seul dramaturge de Stratford-upon-Avon. En outre, Petr Plechác réussit à montrer que les deux auteurs ne se sont pas simplement réparti des scènes à écrire. L’acte IV relèverait d’un travail commun des deux plumes, ligne à ligne.

Automatiser des tâches fastidieuses

“Lorsque j’ai commencé à travailler sur ces problèmes d’attribution de textes, nous utilisions un procédé mathématique appelé “chaîne de Markov”. Aujourd’hui, les algorithmes d’apprentissage en sont une évolution logique”, estime Dominique Stutzmann, spécialiste en histoire de l’écriture à l’Institut de recherche et d’histoire des textes (IRHT) du CNRS, qui utilise l’intelligence artificielle pour décrypter des textes médiévaux (voir S. et A. n° 868). Ces techniques sont encore peu sollicitées. “Il y a beaucoup d’articles théoriques sur la manière d’utiliser efficacement l’IA, mais il existe encore peu de cas appliqués”, confirme Florian Cafiero, ingénieur en mathématiques appliquées au CNRS et spécialiste en humanités numériques. Fin novembre 2019, avec Jean-Baptiste Camps, maitre de conférences a l’Ecole nationale des chartes, il a signe un article de recherche réfutant la thèse “coriace” selon laquelle le dramaturge Pierre Corneille (1606- 1684) aurait écrit les pièces de Molière (1622-1673). Une thèse avancée par l’écrivain français Pierre Louÿs en 1919 et soutenue depuis par divers travaux. Mais dans ce travail, l’IA a servi d’une manière différente de celle de Petr Plecháč. “Nous avons utilisé l’apprentissage automatique pour la préparation du corpus de textes, consistant à repérer les natures grammaticales : noms communs, noms propres, adverbes, adjectifs qualificatifs, verbes conjugués, verbes à l’infinitif…”, explique Florian Cafiero. Les chercheurs ont entrainé un “réseau de neurones convolutionnels” (deep learning) sur des comédies en vers du 16e siècle, afin d’avoir un corpus homogène. Cela afin de réussir l’étape indispensable de la “lemmanisation” qui consiste à regrouper des formes occurrentes en revenant a leur racine commune : “L’IA est capable de repérer, par exemple, que les formes “ayez” ou “aurez” correspondent toutes deux au verbe “avoir””, poursuit l’expert. L’analyse a ensuite consiste en une comparaison de caractéristiques telles que les rimes, le lexique, la morphosyntaxe, ainsi que l’utilisation de “mots-outils” a priori anodins (et, des, ou, cela, voila…) mais dont l’emploi est propre a chaque auteur.

Résultat : pas la moindre trace de la plume de Corneille dans l’œuvre de Molière. Si les chercheurs n’ont pas procédé comme le chercheur tchèque ils l’ont envisagé. Mais le sujet Molière/Corneille est sensible. “Sur un terrain moins miné, l’utilisation de l’IA aurait été une option tout à fait défendable. Mais nous savions que la démarche nous aurait été reprochée car certains auraient contesté le choix de telle ou telle pièce dans le corpus d’entraînement”, confirme Florian Cafiero. En revanche, pour montrer la viabilité de l’emploi des algorithmes, les chercheurs utilisent la même méthode que Petr Plecháč pour Henry VIII dans une étude à venir sur la tragédie-ballet Psyché (1671). Commandée par Louis XIV, cette pièce est une collaboration avérée entre Molière, Pierre Corneille et Philippe Quinault. En construisant ses modèles, l’algorithme sera à même d’ici à quelques mois de déterminer précisément les passages écrits par chacun.

Identifier des auteurs de messages courts

Avec sa capacité à traiter d’énormes volumes de données, l’apprentissage automatique ne s’arrête pas aux polémiques littéraires. D’autres applications sont d’ores et déjà envisageables. Par exemple pour les textes médiévaux anonymes. En fonction de ses intuitions et de son expertise, un chercheur peut bâtir un modèle d’apprentissage à partir du corpus de tel ou tel auteur et y confronter un texte. “On ne pourra pas vérifier le résultat mais la technologie pourra ouvrir de nouvelles pistes de recherche, inciter à réviser un jugement précédent, si elle propose un auteur avec une probabilité de plus 80 %”, indique Dominique Stutzmann.

Dans un registre plus contemporain et judiciaire, la méthode pourrait mener à l’identification d’auteurs de formats courts tels des e-mails, des messages sur un forum, ou d’un article de recherche privé de sa référence, etc. Voire nommer, si nécessaire, un internaute intervenant sous pseudonyme ou à partir d’un compte piraté. Plusieurs articles scientifiques issus des universités américaines de Stanford ou de Houston explorent ces possibilités. Sans compter la détection de plagiats, piste étudiée par un chercheur de l’université d’Agder en Norvège. En effet s’il est devenu simple et rapide de copier en raison de la masse des documents accessibles en ligne, il sera peut-être tout aussi aisé, demain, de repérer les faussaires.

MUSIQUE
Lennon et McCartney passés au crible d’un modèle statistique

Pourtant bien documenté, le processus créatif de John Lennon et Paul McCartney souffre encore de zones d’ombre. Les auteurs-compositeurs principaux des Beatles, qui cosignaient toutes leurs chansons, n’ont jamais été d’accord sur certaines de leurs collaborations comme Eleanor Rigby ou In my Life. Pour résoudre l’énigme sur le plan musical, deux chercheurs canadien et américain ont isolé 149 caractéristiques (accords, enchaînement de notes…). Puis, se fondant sur 70 chansons pour lesquelles il n’existe aucune ambiguïté, ils ont entraîné un algorithme à reconnaître le style de chacun des deux musiciens. Ces modèles ont alors été confrontés aux œuvres faisant débat, pour fournir un score de probabilité que l’un ou l’autre en soit l’auteur (entre 0 et 1). Résultat : des titres connus pour être très “McCartney” – comme And I Love Her – porteraient pourtant la marque de Lennon. Et inversement avec The Word. L’exercice reste toutefois délicat. “En musique, il est très difficile de trouver des constructions analogues au texte, explique l’un des coauteurs de l’étude Mark Glickman, maître de conférences en statistiques à l’université Havard (États-Unis). Les notes prises isolément ne suffisent pas car plusieurs sont jouées en même temps dans un morceau.” De plus, “il est tout fait possible que McCartney ait écrit le pont de And I Love Her… dans le style de Lennon.”

“D’autant plus blanche et plus pure apparaîtra mon innocence, quand le roi connaîtra ma loyauté.” Ainsi s’adresse le cardinal Wolsey au comte de Surrey dans la scène 2 de l’acte III de la pièce Henry VIII de William Shakespeare (1564-1616). Or justement, à partir de cette 2200e ligne, l’œuvre ne serait plus exactement du célèbre dramaturge anglais… mais de son compatriote John Fletcher (1579-1625). Dans un article paru à l’automne 2019, Petr Plechác, chercheur en littérature de l’Académie tchèque des sciences, explique comment il a utilisé un algorithme dit d’apprentissage automatique pour confirmer et affiner une hypothèse remontant aux travaux du Britannique James Spedding en 1850 : Henry VIII est une collaboration entre les deux dramaturges. En revanche, Philip Massinger (1583-1640) ne serait pas intervenu, contrairement à ce qu’avançait un autre exégète littéraire. Surtout, la méthode a permis de déterminer – à la ligne près – les passages du texte où Shakespeare a passé le relais à Fletcher et inversement. De quoi clarifier des recherches remontant à plus d’un siècle et ouvrir des pistes pour l’analyse des textes à l’avenir.

Pour permettre à l’algorithme d’établir des comparaisons, Petr Plechác a commencé par extraire – sans l’aide de l’intelligence artificielle (IA) – les 500 mots et les 500 motifs rythmiques (accentuations de syllabes) les plus fréquemment utilisés dans 189 scènes tirées de quatre autres pièces de Shakespeare, quatre de Fletcher et trois de Massinger. Ce corpus a permis à l’algorithme de s’entraîner à reconnaître le style de chacun des trois auteurs. Puis le chercheur a passé le texte d’Henry VIII au filtre des trois modèles stylistiques établis, en sélectionnant dans chacun des cinq actes une trentaine de passages dans chaque scène. Résultat : James Spedding avait vu juste, Shakespeare et Fletcher ont bien travaillé de concert, l’algorithme attribuant cependant deux scènes complètes au seul dramaturge de Stratford-upon-Avon. En outre, Petr Plechác réussit à montrer que les deux auteurs ne se sont pas simplement réparti des scènes à écrire. L’acte IV relèverait d’un travail commun des deux plumes, ligne à ligne.

Automatiser des tâches fastidieuses

Source: Sciencesetavenir.fr

- Pub -

- Pub -

Ce site Web utilise des cookies pour améliorer votre expérience. Nous supposerons que vous êtes d'accord avec cela, mais vous pouvez vous désinscrire si vous le souhaitez. Accepter Voir Plus