Typologies textuelles et partitions musicales :
dissimilarit´es, classification et autocorr´elation.
Christelle Cocco
To cite this version:
Christelle Cocco. Typologies textuelles et partitions musicales : dissimilarit´es, classification
et autocorr´elation.. Methods and statistics. Universit´e de Lausanne, 2014. French.
HAL Id: tel-01074904
https://tel.archives-ouvertes.fr/tel-01074904
Submitted on 16 Oct 2014
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of scientific
research documents, whether they are published
or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destin´ee au d´epˆot et `a la diffusion de documents
scientifiques de niveau recherche, publi´es ou non,
´emanant des ´etablissements d’enseignement et de
recherche fran¸cais ou ´etrangers, des laboratoires
publics ou priv´es.FACULTÉ DES LETTRES
SECTION DES SCIENCES DU LANGAGE ET DE L’INFORMATION
Typologies textuelles et partitions musicales :
dissimilarités, classification et autocorrélation.
THÈSE DE DOCTORAT
présentée à la
Faculté des lettres
de l’Université de Lausanne
pour l’obtention du grade de
Docteur ès lettres
en Informatique et
Méthodes Mathématiques
par
Christelle Cocco
Directeur de thèse
François Bavaud
Jury
Frédéric Kaplan, EPFL
Ludovic Lebart, TELECOM-ParisTech
Aris Xanthos, UNIL
LAUSANNE
2014FACULTÉ DES LETTRES
SECTION DES SCIENCES DU LANGAGE ET DE L’INFORMATION
Typologies textuelles et partitions musicales :
dissimilarités, classification et autocorrélation.
THÈSE DE DOCTORAT
présentée à la
Faculté des lettres
de l’Université de Lausanne
pour l’obtention du grade de
Docteur ès lettres
en Informatique et
Méthodes Mathématiques
par
Christelle Cocco
Directeur de thèse
François Bavaud
Jury
Frédéric Kaplan, EPFL
Ludovic Lebart, TELECOM-ParisTech
Aris Xanthos, UNIL
LAUSANNE
2014Résumé
Axée dans un premier temps sur le formalisme et les méthodes, cette thèse est construite sur
trois concepts formalisés : une table de contingence, une matrice de dissimilarités euclidiennes
et une matrice d’échange. À partir de ces derniers, plusieurs méthodes d’Analyse des données
ou d’apprentissage automatique sont exprimées et développées : l’analyse factorielle des correspondances
(AFC), vue comme un cas particulier du multidimensional scaling ; la classification
supervisée, ou non, combinée aux transformations de Schoenberg ; et les indices d’autocorrélation
et d’autocorrélation croisée, adaptés à des analyses multivariées et permettant de considérer
diverses familles de voisinages. Ces méthodes débouchent dans un second temps sur une pratique
de l’analyse exploratoire de différentes données textuelles et musicales.
Pour les données textuelles, on s’intéresse à la classification automatique en types de discours
de propositions énoncées, en se basant sur les catégories morphosyntaxiques (CMS) qu’elles
contiennent. Bien que le lien statistique entre les CMS et les types de discours soit confirmé, les
résultats de la classification obtenus avec la méthode K-means, combinée à une transformation
de Schoenberg, ainsi qu’avec une variante floue de l’algorithme K-means, sont plus difficiles à
interpréter. On traite aussi de la classification supervisée multi-étiquette en actes de dialogue
de tours de parole, en se basant à nouveau sur les CMS qu’ils contiennent, mais aussi sur les
lemmes et le sens des verbes. Les résultats obtenus par l’intermédiaire de l’analyse discriminante
combinée à une transformation de Schoenberg sont prometteurs. Finalement, on examine
l’autocorrélation textuelle, sous l’angle des similarités entre diverses positions d’un texte, pensé
comme une séquence d’unités. En particulier, le phénomène d’alternance de la longueur des mots
dans un texte est observé pour des voisinages d’empan variable. On étudie aussi les similarités
en fonction de l’apparition, ou non, de certaines parties du discours, ainsi que les similarités
sémantiques des diverses positions d’un texte.
Concernant les données musicales, on propose une représentation d’une partition musicale
sous forme d’une table de contingence. On commence par utiliser l’AFC et l’indice d’autocorré-
lation pour découvrir les structures existant dans chaque partition. Ensuite, on opère le même
type d’approche sur les différentes voix d’une partition, grâce à l’analyse des correspondances
multiples, dans une variante floue, et à l’indice d’autocorrélation croisée. Qu’il s’agisse de la
partition complète ou des différentes voix qu’elle contient, des structures répétées sont effectivement
détectées, à condition qu’elles ne soient pas transposées. Finalement, on propose de
classer automatiquement vingt partitions de quatre compositeurs différents, chacune représentée
par une table de contingence, par l’intermédiaire d’un indice mesurant la similarité de deux
configurations. Les résultats ainsi obtenus permettent de regrouper avec succès la plupart des
œuvres selon leur compositeur.
iAbstract
Focused on formalism and methods in its first part, this thesis is constructed from three
basic formalised concepts, namely : a contingency table, an Euclidean dissimilarity matrix and
an exchange matrix. Those concepts permit the expression and development of several Data
Analysis or Machine Learning methods : Correspondence Analysis (CA), interpreted as a particular
case of Multidimensional Scaling ; classification and clustering, combined with Schoenberg
transformations ; and the autocorrelation and cross-autocorrelation indices, adapted to multivariate
analysis and allowing the consideration of various neighbourhood families. In the second
part of the thesis, these methods lead to an Exploratory Data Analysis of textual and musical
data of various types.
For textual data, we are interested in clustering clauses into discourse types, based upon the
distribution of part-of-speech (POS) tags in the clauses. Although the statistical link between
POS tags and discourse types is significant, the results obtained with the K-means algorithm or
a fuzzy variant of it, possibly combined with a Schoenberg transformation, remain difficult to
interpret. We also deal with multi-label classification into dialog acts of turns, again based on
the POS tags they contain, but also on lemmas and on the meaning of verbs. Results obtained
by means of discriminant analysis combined with a Schoenberg transformation are promising.
Finally, we examine the textual autocorrelation, in terms of similarities between various positions
in a text, thought as a sequence of localized units. In particular, the phenomenon of word
length alternation in a text is studied for a family of neighbourhoods of variable span. We also
consider presence-absence similarities, according to the apparition of specific POS, as well as
the semantic similarities between textual positions.
Regarding musical data, we propose to represent a musical score as a contingency table. We
begin by using CA and the autocorrelation index to discover underlying structures within each
score. Then, we apply the same approach on the different voices in a musical score, with a
procedure alike to a fuzzy variant of multiple correspondence analysis and making use of the
cross-autocorrelation index. Whether in the whole musical scores or in different voices they
contain, repeated structures are actually detected, provided they are not transposed. Finally,
we propose to cluster twenty musical scores by four different composers, each represented by
a contingency table, by introducing a similarity index between the pairs of configurations. A
majority of scores turn out to be thus successfully regrouped according to their composer.
iiiRemerciements
J’aimerais remercier tous les gens que j’ai rencontrés durant cette thèse, ceux avec qui j’ai
pu échanger, même brièvement, ainsi que ceux qui m’ont donné leur avis ou qui m’ont motivée.
Parmi toutes ces personnes, et j’espère que vous serez nombreux à vous reconnaître dans cette
description, un grand merci à ma famille et mes amis.
Pour rester succincte, je ne vais pas nommer tout le monde, mais simplement revenir sur
les gens sans qui cette thèse n’aurait pas pu exister. Pour commencer, j’aimerais remercier
Pathé Barry, un ami de longue date, et Jérémie Mariller, mon compagnon, sans qui je ne me
serais jamais lancée dans l’aventure d’une thèse. Ils m’ont tous deux encouragée à postuler pour
ce doctorat en informatique et méthodes mathématiques de la faculté des Lettres, domaine
relativement éloigné de mes études de master. J’aimerais particulièrement remercier Jérémie
pour m’avoir soutenue durant tout mon doctorat.
Merci encore à François Bavaud et Aris Xanthos sans qui rien n’aurait commencé. Ils ont tous
deux consacré beaucoup de temps à partager leurs expériences avec moi, ce qui m’a permis de
me familiariser avec ce nouveau domaine, la recherche et le monde académique. En particulier,
je remercie François pour sa disponibilité, ses conseils et ses nombreuses relectures.
J’aimerais aussi remercier tous les membres de l’ancienne section d’Informatique et Méthodes
Mathématiques, ainsi que tous ceux de la nouvelle section des Sciences du Langage et de l’Information.
Parmi eux, je voudrais en particulier remercier Jérôme Jacquin avec qui le projet qui
m’a permis d’écrire le chapitre 4 a débuté. Concernant ce même chapitre, mes remerciements
vont à Gilles Merminod pour ses conseils et nos discussions qui m’ont éclairée sur la dimension
linguistique de ce sujet. Merci aussi à Guillaume Guex et Théophile Emmanouilidis avec qui
nous avons non seulement partagé un bureau, mais aussi des idées, des avis et des discussions.
Concernant les chapitres 7 et 8, j’aimerais remercier Jamil Alioui, qui m’a aidée à me familiariser
avec les fichiers MIDI ; ainsi que le Dr. Daniel Müllensiefen, pour les différentes pistes de
départ à propos des recherches actuelles dans le domaine, et surtout des formats symboliques,
qu’il a proposées à François et dont j’ai bénéficié.
Merci aussi à l’équipe de la Formation Doctorale Interdisciplinaire de la faculté des Lettres,
et à l’équipe des Humanités Digitales de l’UNIL et l’EPFL, pour m’avoir donné l’occasion de
présenter mon travail et d’échanger des idées. Merci enfin, particulièrement, aux membres du
jury, dont les remarques, toutes pertinentes, m’ont permis de prendre du recul sur ma thèse,
d’améliorer différents points et d’aboutir à un ensemble plus clair et cohérent. J’espère que vous
aurez du plaisir à lire cette thèse.
vTable des matières
Introduction 1
I Méthodes et formalisme 7
1 Table de contingence et analyse factorielle des correspondances 9
1.1 Table de contingence et matrice documents-termes . . . . . . . . . . . . . 9
1.2 Lien entre deux variables catégorielles. . . . . . . . . . . . . . . . . . . 10
1.2.1 Test d’indépendance du khi2 . . . . . . . . . . . . . . . . . . . . 10
1.2.2 Cas des variables binaires . . . . . . . . . . . . . . . . . . . . . 10
1.3 Dissimilarité du χ
2
et dissimilarités euclidiennes carrées . . . . . . . . . . . . 12
1.3.1 Dissimilarité du χ
2
et dualité. . . . . . . . . . . . . . . . . . . . 12
1.3.2 Dissimilarités euclidiennes carrées . . . . . . . . . . . . . . . . . . 12
1.3.3 Principe de Huygens . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.4 Transformations de Schoenberg. . . . . . . . . . . . . . . . . . . 15
1.4 Analyse factorielle des correspondances . . . . . . . . . . . . . . . . . . 15
1.4.1 MDS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2 Classification supervisée et non supervisée 17
2.1 Classification non supervisée . . . . . . . . . . . . . . . . . . . . . . 17
2.1.1 Classification ascendante hiérarchique, critère de Ward . . . . . . . . . . 19
2.1.2 K-means sur les dissimilarités . . . . . . . . . . . . . . . . . . . 20
2.1.3 K-means flou sur les dissimilarités . . . . . . . . . . . . . . . . . . 21
2.2 Classification supervisée . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.1 Analyse discriminante sur les dissimilarités. . . . . . . . . . . . . . . 23
2.3 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3.1 Accord entre partitions . . . . . . . . . . . . . . . . . . . . . . 24
2.3.2 Précision, rappel et F-mesure . . . . . . . . . . . . . . . . . . . 25
3 Indices d’autocorrélation et d’autocorrélation croisée 29
3.1 Matrice d’échange . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.1.1 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2 Indice d’autocorrélation . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2.1 Test d’autocorrélation . . . . . . . . . . . . . . . . . . . . . . 32
3.3 Indice d’autocorrélation croisée . . . . . . . . . . . . . . . . . . . . . 32
viiviii TABLE DES MATIÈRES
II Applications textuelles 35
4 Classification non supervisée en types de discours 37
4.1 Données. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.1.1 Types de discours et annotation . . . . . . . . . . . . . . . . . . 38
4.1.2 Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.1.3 Prétraitement . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.1.4 Analyse préliminaire . . . . . . . . . . . . . . . . . . . . . . . 44
4.2 Visualisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.2.1 Propositions et CMS . . . . . . . . . . . . . . . . . . . . . . . 48
4.2.2 Types de discours et CMS avec bootstrap . . . . . . . . . . . . . . . 51
4.3 Classification non supervisée et résultats. . . . . . . . . . . . . . . . . . 55
4.3.1 K-means . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3.2 K-means flou. . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5 Classification supervisée multi-étiquette en actes de dialogue 67
5.1 Données. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.2 Liens entre étiquettes . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.2.1 Traitements . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.2.2 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.3 Classification supervisée . . . . . . . . . . . . . . . . . . . . . . . . 71
5.3.1 Prétraitements et caractéristiques . . . . . . . . . . . . . . . . . . 71
5.3.2 Traitements . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.3.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6 Autocorrélation textuelle 81
6.1 Longueur des mots. . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.1.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.1.2 Traitements et résultats. . . . . . . . . . . . . . . . . . . . . . 81
6.2 Parties du discours . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6.2.1 Dissimilarités binaires relatives à une partie du discours . . . . . . . . . . 84
6.2.2 Traitements et résultats. . . . . . . . . . . . . . . . . . . . . . 84
6.3 Sens des mots selon WordNet. . . . . . . . . . . . . . . . . . . . . . 85
6.3.1 Dissimilarités sémantiques . . . . . . . . . . . . . . . . . . . . . 85
6.3.2 Autocorrélation sémantique . . . . . . . . . . . . . . . . . . . . 87
6.3.3 MDS et autocorrélation sur les premiers facteurs . . . . . . . . . . . . 89
6.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
III Applications musicales 97
7 Formats symboliques de données musicales 99
7.1 Partitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
7.2 Format MIDI en bref . . . . . . . . . . . . . . . . . . . . . . . . . 101
7.3 Formats « textuels » . . . . . . . . . . . . . . . . . . . . . . . . . 101
7.3.1 Le format Melisma . . . . . . . . . . . . . . . . . . . . . . . 101
7.3.2 Le format ABC . . . . . . . . . . . . . . . . . . . . . . . . . 104
7.3.3 Le format Humdrum . . . . . . . . . . . . . . . . . . . . . . . 105
7.3.4 Comparaison de ces trois formats . . . . . . . . . . . . . . . . . . 107TABLE DES MATIÈRES ix
8 Analyse de données musicales 109
8.1 Représentation des données . . . . . . . . . . . . . . . . . . . . . . 109
8.1.1 Formalisme . . . . . . . . . . . . . . . . . . . . . . . . . . 109
8.1.2 Pré-traitement . . . . . . . . . . . . . . . . . . . . . . . . . 111
8.2 Analyses d’une partition . . . . . . . . . . . . . . . . . . . . . . . . 112
8.2.1 Traitements . . . . . . . . . . . . . . . . . . . . . . . . . . 112
8.2.2 Partition monophonique . . . . . . . . . . . . . . . . . . . . . 113
8.2.3 Partitions polyphoniques avec un seul instrument . . . . . . . . . . . . 115
8.2.4 Partition polyphonique avec plusieurs instruments . . . . . . . . . . . . 119
8.3 Analyses inter-voix . . . . . . . . . . . . . . . . . . . . . . . . . . 121
8.3.1 Traitements . . . . . . . . . . . . . . . . . . . . . . . . . . 121
8.3.2 Un canon . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
8.3.3 Un quatuor à cordes . . . . . . . . . . . . . . . . . . . . . . . 124
8.4 Analyses inter-partitions . . . . . . . . . . . . . . . . . . . . . . . . 126
8.4.1 Données . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
8.4.2 Traitement et résultat . . . . . . . . . . . . . . . . . . . . . . 127
8.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
Conclusion et discussion 131
Annexes 139
A Textes de Maupassant annotés 141
A.1 L’Orient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
A.2 Le Voleur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
A.3 Un Fou ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
A.4 Un Fou . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
B Liens entre types de discours et CMS 179
B.1 Tables des effectifs croisés . . . . . . . . . . . . . . . . . . . . . . . 180
B.2 Khi2 ponctuel. . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
C Classification non supervisée en types de discours 185
C.1 K-means. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
C.1.1 Indices d’accord entre partitions . . . . . . . . . . . . . . . . . . 186
C.1.2 V de Cramer . . . . . . . . . . . . . . . . . . . . . . . . . . 188
C.2 K-means flou . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
Bibliographie 202Introduction
Cette thèse se propose d’étudier et de révéler certaines structures existant dans des données de
type textuel ou musical, par l’intermédiaire de méthodes standard ou novatrices en Analyse des
données. En d’autres termes, elle adopte essentiellement l’approche de l’analyse exploratoire
des données, par opposition aux approches inférentielles ou basées sur des modèles a priori.
Alors que ces dernières sont basées sur des hypothèses ou des postulats a priori qu’il s’agira
de confirmer ou de rejeter, le but est ici de « laisser parler les données » à l’aide d’algorithmes
et d’ordinateurs, i.e. d’extraire la structure des données qui pourra être ensuite interprétée. En
d’autres termes :
[...] La notion de forme ou de modèle devrait émerger d’une mer de données, non par des
postulats nominalistes ou des axiomes a priori, ni par des mesures trop fragmentaires de
faits isolés, en eux-mêmes dénués de sens puisqu’ils dépendent du milieu ambiant et se ré-
organisent sans cesse, mais par la synthèse simultanée (synthèse pris au sens éthymologique
[sic] : mettre ensemble) d’un bon nombre de faits élémentaires qui nous aide à gravir les
échelons de la hiérarchie des causes. Mais un cerveau humain ne peut accomplir une synthèse
multidimensionnelle sans faire de nombreux choix arbitraires qui ôtent souvent toute
signification au résultat. Il faut donc l’aide d’une calculatrice pour appliquer aux données
préalablement rassemblées un ensemble de calculs ou plutôt de transformations telles qu’on
puisse lire avec sûreté à la sortie ce qui, à l’entrée, était indéchiffrable. (Benzécri et al.,
1973, pp. 15-16)
Dans le passage ci-dessus, extrait de Benzécri et al. (1973), on trouve une expression centrale
pour l’analyse des données : « synthèse multidimensionnelle ». Effectivement, le terme
d’Analyse des données regroupe plusieurs méthodes, toutes basées sur des statistiques multidimensionnelles
et descriptives, avec pour objectif de synthétiser l’information contenue dans les
données en réduisant le nombre de dimensions effectives, grâce à la redondance générée par les
relations entre les descripteurs. L’ensemble de ces méthodes peut être divisé en deux grandes
familles principales. La première famille de méthodes permet de représenter graphiquement
l’information synthétisée, en deux dimensions par exemple, ce qui la rend intelligible pour un
être humain. Quant à la seconde famille de méthodes, elle vise à classifier automatiquement
les observations en les regroupant de la manière la plus homogène possible, selon leurs profils.
Benzécri et al. (1973) les commentent ainsi lorsqu’ils abordent la question de la reconnaissance
de formes dans l’introduction générale du premier tome sur « L’Analyse des Données » :
[...] C’est le problème de la reconnaissance des formes : traiter mécaniquement des informations
qui ne soient ni réduites à une expression logique séquentielle et définie à l’avance
[...], ni représentées analogiquement par des grandeurs physiques [...], mais gardent la multidimensionnalité
présente presque partout dans la nature. [...]
La portée de telles recherches dépasse en fait l’objectif initial limité que nous leur avons
assigné : réussir dans une ambiance multidimensionnelle et d’abord confus [sic], des tâches
12 INTRODUCTION
de discrimination accessibles aux moins doués des hommes ou aux animaux. On ne résoudra
sur machine de tels problèmes qu’au moyen d’algorithmes de classification et de réduction
du nombre de dimensions, i.e. d’algorithmes qui à partir d’un vaste ensemble d’individus
(de nature quelconque...), chacun décrit par un grand nombre de mesures numériques ou de
relations, reconnaissent les propriétés structurellement importantes et les dimensions selon
lesquelles se répartissent continûment les membres de l’ensemble étudié : or, ces propriétés et
ces dimensions ne sont généralement aucune de celles que comportait la description initiale,
elles en sont des fonctions souvent complexes [...] (Benzécri et al., 1973, pp. 3-4)
Pour pouvoir exprimer les méthodes d’Analyse des données spécifiques qui seront utilisées
dans cette thèse, il est nécessaire de définir clairement un formalisme. Le formalisme mathématique
adopté ici est relativement succinct et repose sur trois concepts formalisés, à savoir :
— une table de contingence,
— une matrice de dissimilarités euclidiennes carrées et
— une matrice d’échange.
Techniquement, chaque objet est caractérisé par un certain nombre d’attributs (ou caracté-
ristiques). La table de contingence, connue aussi sous le terme de table documents-termes en
statistique textuelle, compte le nombre de chacun des attributs contenu dans chaque objet et
constitue ainsi le premier concept du formalisme. Le second concept consiste en une matrice de
similarités ou de dissimilarités construite entre les objets en fonction de leurs attributs. Concernant
la matrice d’échange, elle sert à modéliser le voisinage spatial ou temporel qui peut exister
entre les différents objets.
Partant de ces trois concepts, trois types de méthodes sont développés, les deux premiers
correspondant aux deux grandes familles de méthodes d’Analyse des données décrites ci-dessus.
Premièrement, pour visualiser l’information synthétisée que contient une table de contingence,
on utilisera l’analyse factorielle des correspondances qui permet de représenter simultanément
les objets (ou documents) et les attributs (ou termes) sur un graphique. Ainsi, il est possible
de visualiser les correspondances des objets par rapport aux attributs, et inversement.
Cette méthode, spécifique aux tables de contingence, est très connue et très populaire, comme
en témoignent Benzécri et al. (1980) qui y consacrent la totalité de leur deuxième tome sur
« L’Analyse des Données » et déclarent :
[...] l’analyse des correspondances, méthode qui bien mieux que toute autre nous a permis
de découvrir les faits de structure que recèle un tableau de données quel qu’il soit. (Benzécri
et al., 1980, p. VII)
Deuxièmement, on traitera de la classification en se basant sur la matrice de dissimilarités
euclidiennes carrées. Alors que l’Analyse des données vise, comme il a déjà été mentionné, à
faire émerger la structure des données sans a priori, ce qui correspond à ce que l’on appelle la
classification non supervisée, on traitera en plus de classification supervisée. Dans ce deuxième
cas, l’information contenue dans les données est également synthétisée, mais le but est alors
de créer un algorithme capable d’identifier l’appartenance à des groupes définis a priori, en se
basant sur un échantillon d’apprentissage.
Troisièmement, on s’intéressera à mesurer la proximité entre des objets, en fonction des attributs
qui les composent, du point de vue de leur voisinage spatial ou temporel. Pour ce faire,
on utilise deux des concepts formalisés présentés plus haut : la matrice de dissimilarités euclidiennes
carrées et la matrice d’échange. Leur interaction est à la base de la construction des
indices d’autocorrélation et d’autocorrélation croisée.
Si le formalisme et les méthodes associées sont centraux dans ce travail, leurs applications
textuelles et musicales le sont également. La suite de l’étude vise ainsi à extraire des structures
existant dans les données, structures qui peuvent être attendues, ou au contraire nouvelles,
justement découvertes grâce au formalisme. Dans certains cas, l’analyse a été poussée au-delà
de la phase exploratoire stricte : il s’agit alors de s’assurer que les structures révélées ne soient
pas le fruit du hasard en recourant alors à l’approche inférentielle.INTRODUCTION 3
Sans être spécialiste de l’étude des textes ou de la musique, on se positionne ici un peu
comme le microscope d’un biologiste qui lui permet d’observer un objet ou une substance de
plus près et différemment, donc d’un autre point de vue. Cette thèse n’ambitionne donc pas de
développer ou de proposer de nouvelles théories dans des domaines, tels que la littérature, la
linguistique, la musicologie ou encore la psychologie, mais plutôt d’offrir un nouveau point de
vue à l’une ou l’autre de ces disciplines. En effet, pour reprendre encore les mots de Benzécri
et ses collaborateurs dans l’avant-propos de leur premier tome :
[...] La puissance du calcul électronique permet au statisticien d’aborder d’un point de
vue unique les ensembles de faits les plus vastes et les plus divers. Aussi ne s’étonnera-t-on
pas qu’il doive être traité ici tant des sciences de la nature [...], que des sciences de l’homme :
Psychologie, Linguistique, Economie, Politique [...] ; cependant que la méthode même de la
connaissance est l’objet ultime de cette recherche.
Dans chaque volume, on s’efforcera de placer simultanément des exposés théoriques, des
programmes de calcul, des exemples d’application. Nous ne croyons pas devoir dissimuler
que c’est à ces exemples que va notre prédilection. Nous sommes en effet convaincu que
le statisticien a tout à apprendre de la nature et que la statistique, refrénant son vol mathématique,
doit s’honorer d’être une science expérimentale. Bien mieux qu’à des modèles
conjecturaux, c’est à l’observation qu’on doit demander quel est l’ordre de la réalité : le
mérite du calculateur étant de découvrir sans parti pris, sans a priori, quels courants de
lois traversent l’océan des faits. (Benzécri et al., 1973, p. V)
Ou encore, lorsque Lebart, Morineau et Piron (1995) expliquent la différence qu’il existe entre
statistique descriptive et statistique descriptive multidimensionnelle dans l’introduction de leur
ouvrage :
Mais le passage au multidimensionnel induit un changement qualitatif important. On ne
dit pas en effet que des microscopes ou des appareils radiographiques sont des instruments de
description, mais bien des instruments d’observation ou d’exploration, et aussi de recherche.
La réalité multidimensionnelle n’est pas seulement simplifiée parce que complexe, mais aussi
explorée parce que cachée.
Le travail de préparation et de codage des données, les règles d’interprétation et de
validation des représentations fournies par les techniques utilisées dans le cas multidimensionnel
n’ont pas la simplicité rencontrée avec la statistique descriptive élémentaire. Il ne
s’agit pas seulement de présenter, mais d’analyser, de découvrir, parfois de vérifier et prouver,
éventuellement de mettre à l’épreuve certaines hypothèses. (Lebart et al., 1995, p. 1)
En résumé, il s’agira donc de revisiter, à partir de leur définition de base, des méthodes bien
connues en Analyse des Données, tout en les combinant avec des éléments théoriques moins
balisés ou plus originaux ; et, aussi, de les appliquer sur de nouveaux types de données, c’est-
à-dire sur des données sur lesquelles ces analyses n’ont pas (ou peu) encore été pratiquées, à
notre connaissance.
En particulier, on s’intéressera, pour les applications textuelles, à la classification automatique
(ou non supervisée) de propositions énoncées en types de discours, à la classification supervisée
de tours de parole en actes de dialogue, ainsi qu’à la mesure de l’indice d’autocorrélation sur
différents textes, en considérant différents attributs et différents voisinages.
Concernant la musique, on se concentrera sur trois niveaux différents. Premièrement, on
observera la structure existant dans des partitions considérées séparément. Deuxièmement, on
s’intéressera à la structure des différentes voix qui composent une partition, ainsi qu’aux liens
qui existent entre elles. Troisièmement, on traitera plusieurs partitions que l’on regroupera à
l’aide d’une méthode de classification non supervisée.
Il faut remarquer que le nombre d’applications présenté ici est clairement restreint par rapport
aux possibilités du formalisme et des méthodes exposées. C’est pourquoi ces derniers ont volontairement
était présentés de manière systématique, avec un effort de clarté et de simplicité,
pour pouvoir être envisagés sur d’autres données. Plus précisément, ces méthodes se veulent
entièrement transparentes, tout à l’opposé des « boîtes noires ».4 INTRODUCTION
Afin de mener à bien ce programme, la thèse est structurée ainsi : la partie I présente les
méthodes principales utilisées dans ce travail, toutes basées sur des dissimilarités euclidiennes
carrées, extraites le plus souvent à partir d’une table de contingence. Ensuite, la partie II expose
plusieurs applications de ces méthodes sur diverses données textuelles. Finalement, la partie III
présente une exploration de ces méthodes sur des données musicales.
En particulier, la Partie I expose les définitions et le formalisme utilisés dans le reste de la
thèse. Bien que cette première partie expose des concepts généraux, elle n’a pas pour ambition
de donner une revue complète des méthodes existantes, mais plutôt de définir les méthodes
essentielles qui serviront de base aux applications présentées dans le reste de la thèse. Elle se
compose de trois chapitres.
Pour commencer, le chapitre 1 rappelle les notions relatives à une table de contingence,
telles que le quotient d’indépendance ou les dissimilarités du khi2. Plus précisément, les dissimilarités
du khi2 constituent des dissimilarités euclidiennes carrées, dont les propriétés fondamentales
qui en découlent sont rappelées, parmi lesquelles deux éléments essentiels : d’une part
la notion de transformations de Schoenberg, transformant des dissimilarités euclidiennes carrées
en d’autres dissimilarités euclidiennes carrées dans un espace de plus haute dimensionnalité ;
d’autre part l’analyse factorielle des correspondances, obtenue comme un cas particulier du
multi-dimensional scaling. Ces deux derniers points, sans être entièrement originaux, s’écartent
toutefois des exposés couramment rencontrés dans la littérature « ordinaire ».
Ensuite, le chapitre 2 expose différentes techniques de classification, supervisée ou non,
toutes basées sur les dissimilarités euclidiennes carrées présentées précédemment, ainsi que les
approches permettant d’évaluer ces différentes classifications. En particulier, un autre point
original de ce travail est qu’en exposant les différentes techniques de classification à partir du
concept formalisé de la matrice des dissimilarités, il est possible de les combiner aux transformations
de Schoenberg et donc d’en étendre la portée.
Finalement, le chapitre 3 introduit le concept de matrice d’échange, issue de la notion
de poids spatiaux en statistique spatiale et formalisant la notion de voisinage. Deux mesures
peuvent alors être définies, à savoir l’indice d’autocorrélation, basé sur la relation entre une
matrice de dissimilarités euclidiennes carrées et une matrice d’échange, ainsi que l’indice d’autocorrélation
croisée. Ces deux indices permettent, d’une part, d’étendre les notions d’autocorrélation
et de corrélation croisée des séries temporelles ordinaires à des séries multivariées ; et,
d’autre part, de généraliser la notion de décalage à une notion de voisinage. Bien que ces deux
indices ne soient pas complétement originaux, ils n’ont été que très peu utilisés sous cette forme
en analyse textuelle ou musicale multivariée.
Trois types d’applications textuelles sont étudiées dans la Partie II. Les chapitres 4 et 5
s’intéressent à la classification d’unités linguistiques. Plus exactement, le chapitre 4 traite de
la classification non supervisée de propositions énoncées en types de discours ; et le chapitre 5,
de la classification supervisée multi-étiquette de tours de parole en actes de dialogue. Dans ces
deux chapitres, les données sont représentées sous la forme de tables de contingence inédites.
Le chapitre 6 s’intéresse à mesurer les similarités entre diverses positions d’un texte, compris
comme une séquence d’unités, par l’intermédiaire de l’indice d’autocorrélation, ce qui semble
constituer un point de vue novateur.
Enfin, la Partie III comprend deux chapitres : le chapitre 7, qui présente différents formats
symboliques de données musicales, et le chapitre 8, qui propose une analyse exploratoire de
partitions musicales polyphoniques. Dans ce dernier, les partitions polyphoniques sont repré-
sentées, une fois de plus, par des tables de contingence (peu ou pas exploitées sous la forme
spécifique présentée dans le chapitre pour des données musicales symboliques), ce qui permet
d’utiliser le formalisme et les méthodes de la partie I. Spécifiquement, les partitions seront
d’abord étudiées dans leur ensemble, grâce à l’analyse factorielle des correspondances et à l’indice
d’autocorrélation, pour une unité temporelle donnée. Ensuite, les différentes voix d’une
même partition seront analysées, à l’aide de l’indice d’autocorrélation croisée et d’une varianteINTRODUCTION 5
de l’analyse des correspondances multiples. Finalement, à partir de la représentation en tables
de contingence, une approche originale de classification non supervisée de plusieurs partitions
est proposée.
Il faut encore préciser que le matériel exposé dans ce travail reprend, en bonne partie, du
matériel déjà publié ou en voie de l’être, à savoir :
— Cocco, C., Pittier, R., Bavaud, F. et Xanthos, A. (2011). Segmentation and Clustering
of Textual Sequences: a Typological Approach. In Proceedings of the International
Conference Recent Advances in Natural Language Processing 2011, pp. 427–433. Hissar,
Bulgaria: RANLP 2011 Organising Committee.
— Cocco, C. (2012a). Catégorisation automatique de propositions textuelles en types de
discours. In Lire demain : des manuscrits antiques à l’ère digitale = Reading tomorrow :
from ancient manuscripts to the digital era, pp. 689–707. Lausanne: PPUR.
— Cocco, C. (2012b). Discourse Type Clustering using POS n-gram Profiles and HighDimensional
Embeddings. In Proceedings of the Student Research Workshop at the 13th
Conference of the European Chapter of the Association for Computational Linguistics, pp.
55–63. Avignon, France: Association for Computational Linguistics.
— Bavaud, F., Cocco, C. et Xanthos, A. (2012). Textual autocorrelation: formalism and
illustrations. In JADT 2012: 11èmes Journées internationales d’Analyse statistique des
Données Textuelles, pp. 109–120.
— Cocco, C. (2014). Classification supervisée multi-étiquette en actes de dialogue : analyse
discriminante et transformations de schoenberg. In JADT 2014: 12èmes Journées
internationales d’Analyse statistique des Données Textuelles, pp. 147–160.
— Cocco, C. et Bavaud, F. (accepté pour publication). Correspondence Analysis, CrossAutocorrelation
and Clustering in Polyphonic Music. In Data Analysis, Learning by
Latent Structures, and Knowledge Discovery, Studies in Classification, Data Analysis,
and Knowledge Organization. Berlin; Heidelberg: Springer.
— Bavaud, F., Cocco, C. et Xanthos, A. (accepté pour publication). Textual navigation and
autocorrelation. In G. Mikros et J. Mačutek (Eds.), Sequences in Language and Text,
Quantitative Linguistics. Berlin: De Gruyter.
Bien qu’il ne soit que très peu exploité dans cette thèse, du matériel connexe aux méthodes
utilisées dans ce travail a également été développé :
— Bavaud, F. et Cocco, C. (accepté pour publication). Factor Analysis of Local Formalism.
In Data Analysis, Learning by Latent Structures, and Knowledge Discovery, Studies in
Classification, Data Analysis, and Knowledge Organization. Berlin; Heidelberg: SpringerPartie I
MÉTHODES ET FORMALISME
7CHAPITRE 1
Table de contingence et analyse factorielle des correspondances
Ce premier chapitre, dont le but est de fixer les notations, traite des tables de contingence et
de l’analyse factorielle des correspondances. Cette dernière permet d’analyser les dépendances
entre deux variables catégorielles tout en les visualisant. Alors que la plupart des ouvrages proposent
de pratiquer l’analyse des correspondances directement sur les tables de contingences, la
méthode exposée ici (section 1.4) se base sur un MDS (multi-dimensional scaling) pondéré des
dissimilarités du khi2 (section 1.3.1) obtenues sur la table de contingence (section 1.1). Bien
que ces deux méthodes aboutissent au même résultat, la seconde permettra d’introduire plus
simplement les concepts des prochains chapitres et d’exploiter les transformations de Schoenberg
(section 1.3.4). On reviendra aussi sur les différentes mesures possibles du lien entre deux
variables catégorielles (section 1.2) et sur les propriétés des dissimilarités du khi2 (section 1.3)
qui sont aussi euclidiennes carrées (section 1.3.2).
1.1 Table de contingence et matrice documents-termes
Soit deux variables catégorielles X et Y avec, respectivement, m1 et m2 modalités. La table
de contingence N = (njk) compte les effectifs njk de la modalité j = 1, . . . , m1 de X et de la
modalité k = 1, . . . , m2 de Y . Le profil marginal de la ligne j est défini comme nj• =
P
k njk ;
celui de la colonne k, comme n•k =
P
j njk ; et la taille de l’échantillon, comme n•• =
P
jk njk.
La table 1.1 propose un résumé de ces différentes notations.
Modalités de Y
1 . . . k . . . m2
Modalités
de
X
1 n11 . . . n1k . . . n1m2 n1•
. . . . . . . . . . . . . . . . . . . . .
j nj1 . . . njk . . . njm2 nj•
. . . . . . . . . . . . . . . . . . . . .
m1 nm11 . . . nm1k . . . nm1m2 nm1•
n•1 . . . n•k . . . n•m2 n••
Table 1.1 – Vue synthétique des notations d’une table de contingence N = (njk).
La matrice documents-termes, qui est souvent utilisée en analyse textuelle, est un cas particulier
de la table de contingence. Dans ce cas, les modalités j de X représentent différents
documents ; et les modalités k de Y , différents termes (voir par exemple Lebart et Salem, 1994,
910 1. TABLE DE CONTINGENCE ET AFC
section 2.4.5 sur les tableaux lexicaux et chapitre 3 sur l’analyse des correspondances des tableaux
lexicaux). Les njk représentent généralement les effectifs, soit le nombre d’occurences
de chaque terme dans chaque document. Cependant, en statistique textuelle, ils peuvent aussi
correspondre à la présence ou l’absence (1/0) de chaque terme dans chaque document ou encore
à différents poids de chaque terme dans chaque document, comme, par exemple, la fréquence
inverse de document (idf - inverse document frequency) (voir par exemple Salton et McGill,
1983, figure 1-12 et chapitre 3).
1.2 Lien entre deux variables catégorielles
A partir d’une table de contingence, il est possible de tester si les deux variables catégorielles
sont significativement liées. Le test le plus utilisé est celui du khi2 (section 1.2.1). Cependant,
il existe d’autres coefficients et tests, spécifiques à la quantification du lien entre deux variables
catégorielles binaires (section 1.2.2).
1.2.1 Test d’indépendance du khi2
Les effectifs de la table de contingence sous indépendance théorique sont définis comme n
th
jk =
nj•n•k
n••
. Ainsi, l’écart des effectifs observés à l’indépendance est mesuré par la variable de décision
du khi-carré :
khi2 =
Xm1
j=1
Xm2
k=1
(njk − n
th
jk)
2
n
th
jk
(1.1)
Pour en tester la significativité (hypothèse H0 : X et Y sont indépendantes) la variable de
décision est comparée à la valeur critique χ
2
1−α
[(m1 − 1)(m2 − 1)], c’est-à-dire au (1 − α)ème
quantile de la loi du χ
2 à (m1 − 1)(m2 − 1) degrés de liberté.
1.2.1.1 Quotient d’indépendance
Alors que le khi2 mesure le lien entre les variables X et Y , le quotient d’indépendance, aussi
connu sous le nom de quotient de localisation (location quotient) en géographie et en économie
(voir par exemple Hildebrand et Mace, 1950), permet de mesurer le lien entre deux modalités
j et k. Il se calcule comme :
qjk =
njk
n
th
jk
=
njkn••
nj•n•k
(1.2)
Les deux modalités sont en attraction mutuelle si qjk > 1, en répulsion mutuelle si qjk < 1 et
en neutralité mutuelle si qjk ∼= 1.
1.2.2 Cas des variables binaires
Les variables binaires (ou bimodales) sont des variables pour lesquelles il n’y a que deux
modalités possibles. Ceci engendre un tableau de contingence de taille 2 × 2. Fréquemment, on
utilise une variable binaire pour représenter une modalité et son complémentaire, i.e. l’ensemble
des autres modalités, et ce sera toujours le cas dans ce qui suit (table 1.2). Ainsi, chacune des
modalités de la table 1.1 peut être transformée en modalité binaire (cf. table 1.3).
Pour quantifier le lien entre deux variables binaires, il est possible d’utiliser les mêmes coeffi-
cients que ceux proposés ci-dessus. Alors que le quotient d’indépendance reste identique (pour
une formulation basée sur le principe de la table 1.2, voir Li, Luo et Chung, 2008, équation 6), le
khi2 peut être reformulé (section 1.2.2.1). Il existe aussi d’autres indices particulièrement adaptés
au calcul de l’accord entre deux partitions binaires (voir par exemple Warrens, 2008), dont
deux seront présentés ici : le coefficient phi (section 1.2.2.2) et le Q de Yule (section 1.2.2.3).1.2. Lien entre deux variables catégorielles 11
Y
Présence de k Absence de k
X
Présence de j n11 n10
Absence de j n01 n00
n••
Table 1.2 – Table de contingence pour deux variables binaires, avec n•• = n11+n00+n10+n01.
1.2.2.1 Khi2 ponctuel
En appliquant la formule du khi2 (1.1) à une table de contingence 2 × 2, on obtient, avec les
notations de la table 1.2, le khi2 ponctuel entre les paires de modalités j de X et k de Y (voir
par exemple Yang et Pedersen, 1997 ; Saporta, 2006, p.152 ; Li et al., 2008) :
χ
2
jk =
n••(n11n00 − n01n10)
2
(n11 + n01)(n10 + n00)(n11 + n10)(n01 + n00)
(1.3)
Ce dernier est significatif lorsqu’il est plus grand que χ
2
1−α
[1]. Par exemple : χ
2
1−0.001[1] = 10.83.
Pour pourvoir calculer ce khi2 ponctuel pour toutes les paires de modalités d’une table de
contingence et obtenir ainsi une matrice du khi2, les termes de (1.3) sont remplacés par ceux
de la table 1.3, ce qui permet finalement de trouver :
χ
2
jk =
n••(njk − n
th
jk)
2
n
th
jk(n•• − nj• − n•k + n
th
jk)
=
n••(qjkn
th
jk − n
th
jk)
2
n
th
jk(n•• − nj• − n•k + n
th
jk)
=
n••(qjk − 1)2 n
th
jk
n•• − nj• − n•k + n
th
jk
Y
Présence de k Absence de k
X
Présence de j njk nj• − njk nj•
Absence de j n•k − njk n•• − nj• − n•k + njk n•• − nj•
n•k n•• − n•k n••
Table 1.3 – Transformation d’une paire de modalités (j et k) de deux variables multimodales
en variables binaires (présence/absence). Les termes écrits en gras sont ceux identiques aux
termes de la table de contingence multimodale (table 1.1). Les autres termes se déduisent des
termes en gras.
1.2.2.2 Coefficient phi
Le coefficient phi équivaut à la corrélation de Pearson appliquée à deux variables binaires
(Yule, 1912). Cet indice, en rapport avec le chi carré (φ
2
jk =
χ
2
jk
n••
, voir (1.3) et (1.17)) se définit
comme :
φjk = p
n11n00 − n10n01
(n11 + n10)(n01 + n00)(n11 + n01)(n10 + n00)
(1.4)
φjk = 1 si et seulement si chaque élément présent (respectivement absent) dans X est présent
(respectivement absent) dans Y (n01 = 0 et n10 = 1). Inversement, φjk = −1, indique que les
éléments présents dans X ne le sont pas dans Y , et vice-versa (n11 = 0 et n00 = 1). Lorsque
φjk = 0, il n’y a pas de lien entre les deux variables X et Y . La significativité de ce coefficient
peut être testée en le comparant à q
χ
2
1− α
2
[1], qui vaut 0.059 pour α = 0.05.12 1. TABLE DE CONTINGENCE ET AFC
1.2.2.3 Q de Yule
Le Q de Yule et est défini comme (Yule, 1900) :
Qjk =
n11n00 − n10n01
n11n00 + n10n01
(1.5)
Si Qjk = 1, tous les éléments présents dans X sont présents dans Y ou/et inversement (n01 = 0
ou/et n10 = 1). Tandis que si Qjk = −1, soit aucun élément n’est simultanément présent dans
les deux variables X et Y (n11 = 0), soit tous les éléments sont présents dans au moins une des
deux variables (n00 = 0), ou les deux. Qjk = 0 a la même interprétation que φjk = 0.
1.3 Dissimilarité du χ
2
et dissimilarités euclidiennes carrées
En se basant sur une table de contingence (section 1.1), il est possible de calculer des dissimilarités
entre les modalités (section 1.3.1). Ces dissimilarités ont la propriété d’être des
dissimilarités euclidiennes carrées (section 1.3.2). Ce dernier point permet d’utiliser le principe
de Huygens (section 1.3.3) et d’appliquer les transformations de Schoenberg à ces dissimilarités
(section 1.3.4).
1.3.1 Dissimilarité du χ
2
et dualité
La dissimilarité du χ
2
entre les modalités i et j de X se calcule comme :
Dˆ χ
ij =
Xm2
k=1
ρk(qik − qjk)
2
(1.6)
avec ρk :=
n•k
n••
, le poids des colonnes. Par la dualité existant entre les lignes et les colonnes
d’une table de contingence, il est possible de calculer la dissimilarité du χ
2
entre les modalités
k et l de Y de manière analogue, soit :
Dˇ χ
kl =
Xm1
j=1
fj (qjk − qjl)
2
(1.7)
avec, cette fois, fj :=
nj•
n••
, le poids des lignes.
Dans la suite de ce chapitre, les équations en prise avec cette dualité seront toujours données
par paire, soit celle pour les lignes de la table de contingence et sa duale pour les colonnes.
1.3.2 Dissimilarités euclidiennes carrées
Soit un ensemble d’individus i = 1, . . . , n possédant des caractéristiques k = 1, . . . , p et dont
les coordonnées sont représentées par X = (xik). Les individus sont munis de poids fi positifs
(fi > 0) et normalisés (P
i
fi = 1)
1
; la pondération uniforme s’obtient avec fi = 1/n.
On définit la matrice D = (Dij ) des dissimilarités euclidiennes carrées entre des individus i
et j comme 2
:
Dij := X
p
k=1
(xik − xjk)
2 = kxi − xjk
2
(1.8)
1. Dans le cas particulier de la table de contingence, les poids, fj pour les lignes et ρk pour les colonnes, sont
définis selon les équations de la section 1.3.1.
2. Dans cette thèse, Dij désignera toujours une dissimilarité euclidienne carrée entre les objets i et j.1.3. Dissimilarité du χ
2
et dissimilarités euclidiennes carrées 13
La dissimilarité du khi2 est aussi une distance euclidienne carrée, car les équations (1.6) et
(1.7) peuvent être reformulées comme (voir par exemple Bavaud, 2004) :
Dˆ
ij =
Xm2
k=1
( x
∗
ik − x
∗
jk)
2 Dˇ
kl =
Xm1
j=1
( y
∗
jk − y
∗
jl)
2
(1.9)
où
x
∗
ik =
√
ρk(qik − 1) et y
∗
jk =
p
fj (qjk − 1) (1.10)
sont les coordonnées brutes ou de haute dimensionnalité. Celles-ci, directement calculées à partir
de la table de contingence, s’opposent aux coordonnées factorielles (1.25) qui ont la propriété
d’exprimer une proportion maximale d’inertie (1.17) dans les basses dimensions.
La matrice B = (bij ) des produits scalaires entre i et j, pour les dissimilarités euclidiennes
carrées (1.8) et relativement à la pondération f, se définit comme :
bij =
X
p
k=1
(xik − x¯
f
k
)(xjk − x¯
f
k
) avec x¯
f
k =
Xn
i=1
fixik (1.11)
Dans le cas particulier des dissimilarités du khi2, les produits scalaires entre les lignes Bˆ =
(bij ) et entre les colonnes Bˇ = (bkl) peuvent, par conséquent, s’écrire comme :
ˆbij =
Xm2
k=1
ρk(qik − 1)(qjk − 1) ˇbkl =
Xm1
j=1
fj (qjk − 1)(qjl − 1)
Aussi, il est possible de reformuler toute dissimilarité euclidienne carrée (1.8) en se basant
sur les produits scalaires correspondant (1.11) 3
:
Dij = bii + bjj − 2bij (1.12)
Cette dernière relation peut aussi s’obtenir à partir du théorème du cosinus. Ce denier peut
se reformuler, avec des distances et des produits scalaires, de la manière suivante (Young et
Householder, 1938) :
Dij = Dif + Djf − 2bij (1.13)
où Dif = Dix¯f =
P
k
(xik − x¯
f
k
)
2
est la dissimilarité euclidienne carrée entre un point i et la
moyenne pondérée des points x¯
f
k
(1.11). Comme Dif =
P
k
(xik−x¯
f
k
)
2 =
P
k
(xik−x¯
f
k
)(xik−x¯
f
k
) =
bii, alors (1.13) est équivalente à (1.12).
L’équation (1.13) permet aussi de déterminer les produits scalaires à partir des distances
(Young et Householder, 1938) :
bij =
1
2
(Dif + Djf − Dij ) (1.14)
Young et Householder (1938) montrent, en partant de l’équation (1.14), que la matrice D
représente des dissimilarités euclidiennes carrées si et seulement si la matrice B est semi-définie
positive.
3. Preuve pour des dissimilarités euclidiennes carrées entre i et j :
Dij =
Xp
k=1
(xik − xjk)
2 =
Xp
k=1
((xik − x¯
f
k
) − (xjk − x¯
f
k
))2
=
Xp
k=1
(xik − x¯
f
k
)
2 − 2
Xp
k=1
(xik − x¯
f
k
)(xjk − x¯
f
k
) +Xp
k=1
(xjk − x¯
f
k
)
2
= bii − 2bij + bjj14 1. TABLE DE CONTINGENCE ET AFC
1.3.3 Principe de Huygens
Étant donné que les distances du khi2 sont euclidiennes carrées (1.9), le principe de Huygens
s’applique.
Le principe (fort) de Huygens, également connu sous le nom de « théorème de Steiner » en
mécanique des solides, s’écrit, pour toute matrice de dissimilarités euclidiennes carrées (1.8) et
un formalisme pondéré, comme :
Xn
j
fjDij = ∆f + Dif (1.15)
En d’autres termes, la dispersion du nuage de points par rapport à un point i équivaut à la
dispersion du nuage de point (par rapport au centre) ∆f , additionné de la dissimilarité entre le
point i et le centre de gravité de l’ensemble des points.
À partir de ce premier principe, découle le principe (faible) de Huygens qui définit l’inertie
(ou la variance, ou la dispersion) de l’ensemble des individus comme :
∆ := ∆f =
1
2
X
ij
fifjDij =
X
i
fiDif (1.16)
Ainsi, la dispersion du nuage de points peut s’exprimer de manière équivalente comme la dissimilarité
moyenne entre toutes les paires de points ou comme la dissimilarité moyenne entre
chaque point et le centre de gravité de l’ensemble des points.
Dans le cas particulier du khi2, l’inertie est égale au khi2 divisé par l’effectif total de la table
de contingence n••, nommé φ
2
:
∆ = 1
2
X
ij
fifjDˆ
ij =
X
i
fiDˆ
if =
1
2
X
kl
ρkρlDˇ
kl =
X
k
ρkDˇ
kρ
=
1
n••
X
jk
(njk − n
th
jk)
2
n
th
jk
=
khi2
n••
= φ
2
(1.17)
où Dˆ
if est la dissimilarité du khi2 entre la modalité i et la moyenne des modalités de X, soit
x¯
∗ f
k =
P
i
fi x
∗
ik ; et Dˇ
kρ, la dissimilarité du khi2 entre la modalité k et la moyenne des modalités
de Y , soit x¯
∗ ρ
i =
P
k
ρk x
∗
ik.
Soit un groupe g et une matrice d’appartenance Z = (zig) qui détermine la probabilité 4
que l’individu i appartienne au groupe g, telle que P
g
zig = 1. Alors, le poids du groupe vaut
ρg =
P
i
fizig, tel que P
g
ρg = 1 ; et la distribution des individus i du groupe, f
g
i = fizig/ρg,
telle que P
i
f
g
i = 1. Avec x¯
g
k =
P
i
f
g
i
xik pour la moyenne du groupe et Dig = Dix¯
g , le principe
fort de Huygens (1.15) devient :
Xn
j
f
g
j Dij = Dig + ∆g (1.18)
et le principe faible de Huygens (1.16), pour l’inertie du groupe g :
∆g =
1
2
X
ij
f
g
i
f
g
j Dij =
X
i
f
g
i Dig (1.19)
Ce qui précède, et en particulier (1.15) et (1.16), permet de trouver que la dissimilarité euclidienne
carrée Df g entre les moyennes x¯
f
k =
P
i
fixik et x¯
g
k =
P
i
gixik de deux groupes ou deux
4. Dans le cas particulier d’un partitionnement dur des données, la matrice d’appartenance détermine la présence
zig = 1 ou l’absence zig = 0 d’un individu dans un groupe.1.4. Analyse factorielle des correspondances 15
distributions f et g peut se calculer uniquement grâce aux distributions et aux dissimilarités
entre les individus Dij , soit (Bavaud, 2011) :
Df g = Dx¯
f x¯
g = −
1
2
X
ij
(fi − gi)(fj − gj )Dij (1.20)
En remplaçant les termes de (1.14) par ceux des principes de Huygens (1.15) et (1.16), on
peut facilement montrer que, avec une matrice de dissimilarités euclidiennes carrées, la matrice
des produits scalaires, relativement à f, (1.11) peut aussi s’obtenir matriciellement par 5
:
B = −
1
2
HfD(Hf
)
0
avec Hf = (h
f
ij ) = I − 1f
0
(1.21)
1.3.4 Transformations de Schoenberg
Les transformations de Schoenberg (Schoenberg, 1938) transforment les dissimilarités euclidiennes
carrées originales, D, en d’autres dissimilarités euclidiennes carrées, D˜ = ϕ(D) (Bavaud,
2011, et références y incluses). Tout comme les méthodes à noyaux, les transformations
de Schoenberg s’appuient sur un plongement de haute dimensionnalité des objets de départ.
Une liste non exhaustive des diverses transformations de Schoenberg possibles se trouve dans
l’article de Bavaud (2011). Parmi ces possibilités, une seule est envisagée dans la suite de ce
travail, à savoir, la transformation de puissance (Schoenberg, 1937), telle que :
ϕ(D) = D˜ = Dq
(1.22)
où 0 < q ≤ 1.
Cette transformation permet de rappeler que toute distance euclidienne est aussi une dissimilarité
euclidienne carrée 6
, mais que l’inverse n’est pas toujours vrai.
1.4 Analyse factorielle des correspondances
Soit cik =
√
fi x
∗ c
ik =
√
fi( x
∗
ik − x¯
f
k
), avec x
∗
ik, les coordonnées de haute dimensionnalité,
telles que définies dans l’équation (1.10). Il existe alors deux méthodes afin de pratiquer l’analyse
factorielle des correspondances (AFC) permettant de visualiser simultanément les modalités de
X et de Y .
La première se base sur la décomposition spectrale de la matrice des variances-covariances,
soit Σ = C
0C. Cette technique est largement décrite dans la littérature (voir par exemple
Greenacre, 1984, en particulier le chapitre 4, pp. 83-125 ; Lebart et al., 1995, section 1.3, pp. 67-
107 ; Le Roux et Rouanet, 2004, chapitre 2, pp. 23-74 ; Saporta, 2006, chapitre 9, pp. 201-217).
En outre, dans le logiciel R (R Core Team, 2013), il existe plusieurs packages qui produisent
des AFC, tels que « ca » (Nenadic et Greenacre, 2007) ou « FactoMineR » (Husson, Josse, Le
et Mazet, 2013).
Une seconde méthode consiste à appliquer un MDS et se base alors sur la décomposition
spectrale de la matrice des produits scalaires pondérés K = CC0
. Elle sera exposée dans la
section suivante.
Les deux matrices Σ et K étant duales (Bavaud et Cocco, accepté pour publication), ces deux
méthodes produisent des résultats complètement équivalents. Cependant, la seconde a l’intérêt
d’être plus générale, car applicable à toute dissimilarité euclidienne carrée, et d’introduire des
quantités utiles dans la suite de ce travail.
5. Dans le cas des dissimilarités du khi2, la matrice des produits scalaires entre les modalités de X se calcule de
manière analogue comme Bˆ = −
1
2HfDˆ(Hf
)
0
. Par dualité, la matrice des produits scalaires entre les modalités
de Y est définie comme Bˇ = −
1
2HρDˇ(Hρ
)
0
, avec Hρ = I − 1ρ
0
, la matrice de centration.
6. Soit dij , la distance euclidienne entre deux individus i et j, alors dij =
p
(dij )
2 =
p
Dij = D
0.5
ij . Comme
ϕ(Dij ) = D˜ij = D
0.5
ij est aussi une dissimilarité euclidienne carrée, alors dij est une dissimilarité euclidienne
carrée.16 1. TABLE DE CONTINGENCE ET AFC
1.4.1 MDS
Le but du MDS est de reconstituer les coordonnées d’un nuage de points dont on connaît
les dissimilarités. Le MDS classique (ou métrique), contrairement au MDS ordinal (ou nonmétrique),
s’applique exclusivement à des dissimilarités euclidiennes carrées et va créer des
coordonnées qui reproduisent exactement ces dissimilarités. Pour pouvoir appliquer le MDS
classique, la matrice des produits scalaires B, calculée par exemple par (1.21), doit donc être
semi-définie positive (cf. section 1.3.2), ce qui est bien le cas des dissimilarités du khi2 (cf. 1.11),
étant donné qu’elles sont euclidiennes carrées (1.9).
Le MDS, dans sa version ordinaire, (voir par exemple Mardia, Kent et Bibby, 1979) se base
sur la décomposition spectrale de B = UΛU
0 dont découlent les nouvelles coordonnées de l’objet
j sur le facteur α, soit xjα =
√
λαujα.
Par extension, le MDS pondéré (voir par exemple Cuadras et Fortiana, 1996; Bavaud, 2010)
est effectué grâce à la matrice K = (kij ) des produits scalaires pondérés définis comme :
kij =
p
fifj bij (1.23)
La décomposition spectrale de K = UΛU
0
, qui est semi-définie positive ssi B l’est aussi, permet
alors de calculer les nouvelles coordonnées comme xjα =
√
√
λα
fj
ujα.
Dans le cas particulier des dissimilarités du khi2, les produits scalaires entre les modalités de
X, Kˆ = (ˆkij ), et ceux entre les modalités de Y , Kˇ = (ˇkkl), sont définis, de manière analogue à
(1.23), comme :
ˆkij =
p
fifj
ˆbij ˇkkl =
√
ρkρl
ˇbkl (1.24)
La décomposition spectrale de Kˆ (respectivement de Kˇ ) engendre les vecteurs propres ujα
(respectivement vkα) et les valeurs propres λα (identiques pour les deux matrices de produits
scalaires), où α = 1, . . . , r et r ≤ min(m1, m2)−1. Avec ces derniers, les coordonnées factorielles
des modalités de X et de Y sont reliées par des formules de transition et calculées comme :
ykα =
√
λα √ρk
vkα =
1
√
λα
Xm1
j=1
fjqjkxjα (1.25a)
xjα =
√
p
λα
fj
ujα =
1
√
λα
Xm2
k=1
ρkqjkykα (1.25b)
Avec les coordonnées factorielles, il est alors possible de réécrire les dissimilarités du χ
2
, (1.6)
et (1.7), comme les distances euclidiennes carrées entre ces nouvelles coordonnées :
Dij =
Xr
α=1
(xiα − xjα)
2 Dkl =
Xr
α=1
(ykα − ylα)
2CHAPITRE 2
Classification supervisée et non supervisée
Il existe de nombreuses méthodes de classification, supervisée ou non, et de nombreuses
distinctions entre ces méthodes. Plutôt que d’en donner une vue exhaustive, ce chapitre vise
à expliciter quelques méthodes de classification (section 2.1 et 2.2) ainsi que des méthodes
d’évaluation des résultats obtenus (section 2.3), toutes utilisées dans les applications des parties
II et III.
Les méthodes de classification peuvent se diviser en deux groupes principaux : les méthodes
dites supervisées (section 2.2) et celles dites non supervisées (section 2.1). Ces deux types de
méthodes se distinguent par le fait que les groupes (ou classes) sont connus a priori dans
le premier cas, alors qu’ils ne le sont pas pour le second. Ainsi, l’avantage de la méthode
supervisée est que les groupes de départ ont, par construction, un sens clair pour l’utilisateur,
ce qui n’est pas garanti avec les méthodes non supervisées. En contre-partie, l’inconvénient
principal de la méthode supervisée est la nécessité de disposer de données dont on connaît le
groupe. Cela implique, pour le traitement informatique des textes, de créer un corpus annoté
conséquent, tâche exigente en ressources. L’avantage de la seconde méthode est donc de pouvoir
être appliquée directement aux corpus avec un minimum de traitement.
Généralement, ces méthodes considèrent un jeu de données X = (xik) multivarié, donnant
les caractéristiques k = 1, . . . , p des individus i = 1, . . . , n. La classification supervisée contient
une colonne supplémentaire spécifiant le groupe g = 1, . . . , m auquel appartient l’individu i.
Dans ce chapitre, toutes les méthodes de classification seront présentées en utilisant une matrice
de dissimilarités euclidiennes carrées D = (Dij ) entre les individus. Cette dernière
peut, typiquement, être calculée par (1.8) si les données de départ sont sous la forme d’un
jeu de données numériques X, ou par (1.6) ou (1.7) si elles sont sous la forme d’une table de
contingence. Les données sous forme de table de contingence seront les plus courantes dans l’ensemble
de ce travail. Ce choix, consistant à travailler sur des dissimilarités euclidiennes carrées,
va permettre de combiner les méthodes de classification abordées ici avec les transformations
de Schoenberg présentées dans la section 1.3.4.
2.1 Classification non supervisée
Comme déjà mentionné, pour les méthodes de classification non supervisée (clustering),
les groupes ne sont pas connus a priori.
Il existe de nombreuses méthodes de classification non supervisée (voir par exemple Jain,
Murty et Flynn, 1999). Pour résumer celles qui sont utilisées dans cette thèse, on peut d’abord
1718 2. CLASSIFICATION (NON-)SUPERVISÉE
classification
non supervisée
✓
✓
✓
✓
✓
✓
✓
✓
partitionnement
hiérarchique
❙
❙
❙
❙
❙
❙
❙
❙
partitionnement
non hiérarchique
ascendant
❅
❅
❅
❅
descendant
K-means
(dur)
section 2.1.2
❅
❅
❅
❅
K-means
flou
section 2.1.3
❛❛❛❛❛❛❛❛❛❛
...
✚
✚
✚
✚
✚
✚
✚
✚
saut
maximal
✔
✔
✔
✔
✔
✔
saut
minimal
saut
moyen
❚
❚
❚
❚
❚
❚
...
❩
❩
❩
❩
❩
❩
❩
❩
critère
de Ward
section 2.1.1
Figure 2.1 – Principales méthodes de classification non supervisée, avec, en gras, les méthodes
traitées dans ce travail, et, en italique, celles qui ne le sont pas.
opposer les algorithmes de partitionnement hiérarchique à ceux de partitionnement non hiérarchique
(figure 2.1).
Parmi les méthodes de partitionnement hiérarchique, on peut distinguer deux grandes familles
: la classification ascendante hiérarchique et la classification descendante hiérarchique.
La première est agglomérative, c’est-à-dire que l’on commence avec les n individus qui sont
successivement regroupés à chaque étape jusqu’à n’obtenir finalement plus qu’un seul groupe.
À l’inverse, la seconde est divisive : l’ensemble des individus est successivement fractionné à
chaque étape, pour aboutir finalement à n groupes formés chacun d’un seul individu. Seule la
première de ces familles sera traitée ici, et plus particulièrement la classification ascendante
hiérarchique avec le critère de Ward (section 2.1.1).
Concernant le partionnement non hiérarchique, seules deux méthodes seront abordées ici :
la méthode K-means (section 2.1.2) et la méthode K-means flou (section 2.1.3). La différence
principale entre ces deux méthodes est que la première effectue un partitionnement dur des
individus i en groupes g, alors que la seconde effectue un partitionnement flou. Pour rappel (cf.
section 1.3.3), dans le cas d’une matrice d’appartenance Z = (zig) dure, zig vaut 1 ou 0 selon que
l’individu i appartient ou non au groupe g ; alternativement, pour une matrice d’appartenance
floue, zig est la probabilité que l’individu i appartienne au groupe g.
Il existe deux distinctions importantes entre la classification ascendante hiérarchique et la
méthode K-means (flou ou non). Premièrement, l’algorithme K-means implique de choisir un
nombre de groupes initial, contrairement à la classification ascendante hiérarchique. Deuxiè-
mement, la classification ascendante hiérarchique s’appuie avant tout sur une matrice de dissimilarités
entre paires d’objets, alors que pour la méthode K-means, c’est une matrice de
dissimilarités objet-groupe. Dans le premier cas, les données les plus similaires seront regroupées
dans les mêmes groupes et, par suite, les plus dissimilaires seront classées dans des groupes
différents (section 2.1.1). Pour les dissimilarités objet-groupe, un nombre de centroïdes (ou2.1. Classification non supervisée 19
centres de gravité), correspondant au nombre de groupes choisis initialement, sera sélectionné.
Ensuite, itérativement, les données seront attribuées au groupe le plus proche et les centroïdes
re-positionnés (sections 2.1.2 et 2.1.3).
Au final, le point commun de toutes ces méthodes est qu’elles ont pour but de minimiser
l’inertie intra-groupe (ou intra-classe), et donc de maximiser l’inertie inter-groupe (ou interclasse),
créant ainsi des groupes homogènes. L’inertie (1.16) s’écrit aussi :
∆ = ∆W + ∆B (2.1)
où ∆W , pour des groupes g = 1, . . . , m, est l’inertie intra-groupe :
∆W =
Xm
g=1
ρg∆g (2.2)
avec ∆g, l’inertie du groupe g, définie en (1.19) ; et ∆B est l’inertie inter-groupe, soit :
∆B =
Xm
g=1
ρgDgf (2.3)
Dans cette équation, Dgf est la dissimilarité euclidienne carrée entre le centroïde du groupe g,
x¯
g
k =
P
i
f
g
i
xik, et la moyenne pondérée de l’ensemble des individus, x¯
f
k =
P
i
fixik. De plus,
pour rappel (cf. section 1.3.3), ρg =
P
i
fizig est le poids du groupe g ; et f
g
i = fizig/ρg, la
distribution des individus i dans le groupe g.
2.1.1 Classification ascendante hiérarchique, critère de Ward
Soit une matrice de dissimilarités, euclidiennes ou non, de composantes dij . La classification
ascendante hiérarchique regroupe les individus (ou objets) les plus similaires, qui vont former
de nouveaux individus agrégés, dont les plus similaires sont à nouveau regroupés pour créer,
au final, un dendrogramme. Le point crucial consiste à définir la dissimilarité entre le nouvel
individu formé par le regroupement de deux individus a et b, et un autre individu i, noté
comme d((a, b), i). Plusieurs critères d’agrégation, bien connus, ont été proposés pour calculer
cette nouvelle dissimilarité, tels que le saut maximal, le saut minimal, la moyenne des distances,
etc. (voir par exemple Lebart et al., 1995, section 2.2 ; Jain et al., 1999, section 5.1 ; Le Roux
et Rouanet, 2004, section 3.6 ; Saporta, 2006, section 11.3). Toutes ces méthodes constituent
des cas particuliers de la formule de Lance et Williams généralisée (voir par exemple Saporta,
2006, section 11.3.2.2). Parmi ces dernières, seul le critère de Ward, utilisé dans le chapitre 8,
est présenté ici.
Étant donné une matrice de dissimilarités euclidiennes carrées D = (Dij ), le critère de Ward
consiste à minimiser l’inertie intra-groupe et donc à maximiser l’inertie inter-groupe à chaque
étape. À la première étape, tous les individus représentent un groupe, et donc l’inertie intragroupe
est nulle (∆0
W = 0) et l’inertie inter-groupe est égale à l’inertie totale (∆0
B = ∆). Après
la première agrégation, l’inertie intra-groupe ∆1
W augmente, et l’inter-groupe ∆1
B
diminue, et ce
jusqu’à la dernière étape, r, lorsque tous les individus ne forment plus qu’un groupe. L’inertie
intra-groupe est alors maximale (∆r
W = ∆) ; et l’inter-groupe, minimale (∆r
B = 0).
Plus précisément, si à la première étape, les individus a et b sont regroupés, alors la différence
d’inertie intra-groupe vaudra ∆1
W − ∆0
W qui, en vertu de (2.1), sera équivalente à ∆0
B − ∆1
B
.
Cette différence s’écrit, avec (2.3), comme :
∆0
B − ∆1
B = ρ1D1f + ρ2D2f + · · · + ρaDaf + ρbDbf
− ρ1D1f − ρ2D2f − · · · − (ρa + ρb)D(ab)f
= ρaDaf + ρbDbf − (ρa + ρb)D(ab)f
(2.4)20 2. CLASSIFICATION (NON-)SUPERVISÉE
Par le principe fort de Huygens (1.15), avec f = (f1, f2) =
ρa
ρa+ρb
,
ρb
ρa+ρb
, on obtient le
théorème de la médiane :
D(ab)f =
1
ρa + ρb
(ρaDaf + ρbDbf −
ρaρb
ρa + ρb
Dab)
En remplaçant D(ab)f dans (2.4), la perte d’inertie inter-groupe, qui s’exprime finalement
comme :
δ(a, b) = ρaρb
ρa + ρb
Dab (2.5)
constitue le critère d’agrégation de la méthode de Ward.
Pratiquement, à la première étape, la matrice des dissimilarités, D, est transformée en une
nouvelle matrice de pertes d’inertie inter-groupe, D0 = (δ(i, j)), qui donne, pour chaque paire
d’individus (i, j), la valeur du critère d’agrégation (2.5). Comme avec les autres critères, la paire
d’individus dont la valeur est la plus petite (a et b par exemple) sont regroupés pour former
un nouvel individu. Puis, pour recalculer D1
, on peut soit recalculer δ((a, b), i) par (2.5) en
obtenant D(ab)i par (1.20), soit utiliser la formule de Lance et Williams avec les paramètres
adéquats (voir par exemple Le Roux et Rouanet, 2004, équation 3.14 ; Saporta, 2006, p. 259 ;
Murtagh et Legendre, 2011).
Il existe de légères variantes de cette méthode (Murtagh et Legendre, 2011). Il faut noter
qu’avec la fonction « hclust » du logiciel R et l’option « method = "ward" », qui a été utilisée
dans ce travail, les dissimilarités transmises à la fonction doivent être euclidiennes carrées
(Murtagh et Legendre, 2011).
2.1.2 K-means sur les dissimilarités
La méthode K-means (ou méthode des centres mobiles), déjà brièvement présentée avec les
dissimilarités objet-groupe au début de cette section, est relativement intuitive et sa paternité
n’est pas clairement établie. Lebart et al. (1995) proposent cependant quelques pistes dans
l’introduction de leur section 2.1. On peut, entre autres, noter que l’algorithme K-means présenté
par MacQueen (1967) diffère de la procédure ci-dessous, car la position des centroïdes (ou
centres de gravité) est recalculée après chaque nouvelle attribution d’un individu, et non après
l’attribution de tous les individus à tous les centroïdes.
Généralement, l’algorithme K-means est proposé en travaillant directement sur la table des
coordonnées X = (xik) et se compose de quatre étapes (voir par exemple Lebart et al., 1995,
section 2.1 ; Manning et Schütze, 1999, section 14.2.1 ; Saporta, 2006, section 11.2.1).
La première opération, étape 0), consiste à choisir un nombre de groupes m. Ensuite, les
m centres provisoires sont positionnés aléatoirement, bien que souvent sélectionnés parmi les
individus. Puis, l’algorithme se poursuit itérativement :
1) les distances entre les individus et les centroïdes (ou centres provisoires lors du premier tour),
Dig, sont calculées,
2) chaque individu est attribué au centroïde le plus proche,
3) les positions des centroïdes (moyennes pondérées x¯
g
k =
P
i
f
g
i
xik ou non des individus attribués
à un groupe) sont recalculées.
L’itération se poursuit jusqu’à convergence de la solution. Pour une justification de l’algorithme
montrant que l’inertie intra-groupe diminue à chaque itération, voir, par exemple, la section
2.1.2 de Lebart et al. (1995).
Avec le formalisme choisi ici, qui se base sur D = (Dij ), une matrice de dissimilarités qui
doivent être euclidiennes carrées , les étapes sont un peu différentes. Lors de l’initialisation, soit
lors de l’étape 0), on commence par décider d’un nombre de groupes m, comme dans la version
« ordinaire » de l’algorithme. Puis, une matrice d’appartenance dure Z de taille n×m est créée,2.1. Classification non supervisée 21
où chaque individu est attribué aléatoirement à un des m groupes (d’autres variantes existent).
À ce stade, on décide d’opérer deux vérifications supplémentaires pour effectivement avoir m
groupes à la fin des itérations. Premièrement, on contrôle qu’aucun groupe ne soit vide et on
réinitialise la procédure avec une nouvelle matrice Z le cas échéant. Deuxièmement, on vérifie
qu’il n’y ait pas une configuration des positions des centroïdes particulière qui engendrerait la
disparition d’un ou plusieurs groupes au premier tour d’itération. Pour ce faire, une première
itération est exécutée et si l’un des groupes disparaît, la matrice Z est recréée. Pendant cette
étape d’initialisation, on calcule aussi la matrice des dissimilarités euclidiennes carrées D =
(Dij ) entre tous les individus.
Les dissimilarités euclidiennes carrées entre les individus et le centroïde d’un groupe de
l’étape 1) sont déduites indirectement des dissimilarités Dij et de l’inertie d’un groupe (1.19)
grâce au principe fort de Huygens (1.18) :
Dig =
X
j
f
g
j Dij − ∆g (2.6)
Ces valeurs sont calculées pour chaque groupe, produisant ainsi une matrice de taille n × m.
Puis, l’étape 2) consiste à actualiser la matrice d’appartenance comme :
zig =
1 si g = argmin
h
Dih
0 sinon
(2.7)
Quant à l’étape 3), elle n’est plus nécessaire dans ce formalisme, car la position des centroïdes
est indirectement déduite de (2.7) dans (2.6).
Pour terminer, on choisit d’arrêter l’algorithme soit quand la matrice Z n’est plus modifiée,
soit lorsqu’un certain nombre d’itérations Nmax est atteint. Il faut noter que la solution finale
dépend de la position initiale des centres à l’étape 0).
Finalement, il est possible de combiner simplement la méthode K-means avec les transfomations
de Schoenberg (cf. section 1.3.4) en remplaçant, lors de l’initalisation, D par D˜ = ϕ(D).
Comme déjà mentionné, la seule transformation utilisée dans ce travail est celle de la puissance
(1.22).
2.1.3 K-means flou sur les dissimilarités
Les étapes de l’algorithme K-means flou sont presque identiques à celles de l’algorithme Kmeans
présenté ci-dessus. Une première différence est qu’à l’étape 0), au lieu de créer une matrice
d’appartenance dure, on décide de créer un matrice d’appartenance Z floue. Pour ce faire, une
matrice de taille n × m est créée avec des valeurs aléatoires extraites d’une loi uniforme et
comprises entre 0 et 1. Puis, les lignes sont normalisées pour que P
g
zig = 1. Pour le reste,
cette étape est identique à celle de la méthode K-means, i.e. il faut aussi choisir un nombre de
groupes m et calculer les dissimilarités euclidiennes carrées Dij .
L’étape 1) est strictement identique à l’étape 1) décrite en 2.1.2.
Naturellement, à l’étape 2), l’actualisation de la matrice d’appartenance est différente, soit
(voir par exemple Rose, Gurewitz et Fox, 1990; Bavaud, 2009) :
zig =
ρg exp(−βDig)
Xm
h=1
ρh exp(−βDih)
(2.8)
où Dig est défini par (2.6), ρg est le poids relatif du groupe g (cf. section 1.3.3) et β s’interprète
comme une « température inverse » ou l’inverse d’une variance, paramétrée comme β := 1/(trel×
∆) (Bavaud, 2010). Pour cette dernière, ∆ représente l’inertie, telle que définie par (1.16) à partir22 2. CLASSIFICATION (NON-)SUPERVISÉE
des dissimilarités Dij ; et trel, la température relative qui doit être fixée par l’utilisateur en amont,
tout comme le nombre de groupes de départ m. Il se trouve que les valeurs « intéressantes » de
trel se situent dans un intervalle compris entre 0.02 et 0.3 environ (cf. section 4.3.2), des valeurs
plus basses de trel générant des instabilités numériques. À l’inverse, des valeurs plus élevées
ne produisent qu’un seul groupe final, suite à l’agrégation effectuée lors de l’étape 4) décrite
ci-dessous.
L’équation (2.8) découle de la minimisation de l’inertie intra-groupe ∆W (2.2), régularisée
par un terme d’entropie (Rose et al., 1990) ou d’information mutuelle (Bavaud, 2009). Elle peut
aussi être dérivée de l’algorithme d’espérance-maximisation (EM) associé au modèle gaussien
multivarié isotrope (Celeux et Govaert, 1992; McLachlan et Krishnan, 1997).
À nouveau, on choisit d’itérer les étapes 1) et 2) jusqu’à la convergence de la solution ou
jusqu’à ce qu’un nombre maximum d’itérations, Nmax, soit atteint.
Ensuite, une étape supplémentaire d’agrégation entre les groupes dont les profils sont assez
similaires est effectuée, soit l’étape 4), réduisant le nombre de groupes de m à M. En effet, la
valeur de β contrôle l’étendue moyenne de chaque groupe et donc le nombre de groupes final M.
Ainsi, avec m ≤ n choisi assez grand, le nombre de groupes est indirectement, mais entièrement,
déterminé par le choix de trel. Plus précisément, plus β sera élevé, plus M le sera aussi.
Concrètement, à l’étape 4), l’agrégation entre deux groupes similaires s’effectue en additionnant
les appartenances des individus, i.e. z
[g∪h]
i = z
g
i +z
h
i
. Pour déterminer si deux groupes sont
assez similaires, on peut utiliser, comme critère de fusion des groupes : θgh/
p
θggθhh ≥ 1−10−5
,
où θgh =
Pn
i=1 fiz
g
i
z
h
i mesure le chevauchement entre g et h (Bavaud, 2010). Cette approche
produit généralement de bons résultats, sans toutefois empêcher l’apparition d’instabilités numériques
pour quelques valeurs de trel (voir section 4.3.2).
Finalement, une dernière étape 5) consiste à attribuer chaque individu au groupe le plus
probable, soit argmin
g
zig.
Cette méthode floue, un peu plus complexe à implémenter que la méthode K-means (dur), est
plus robuste par rapport au choix de la partition initiale. Elle a de plus l’avantage de ramener
le problème épineux de la détermination du nombre de groupes à celui de la dispersion β de ces
mêmes groupes, un paramètre plus facile à interpréter et indépendant de la taille des données.
2.2 Classification supervisée
Pour la classification supervisée (classification en anglais), on dispose d’un ensemble de
données (échantillon d’objets ou d’individus) dont on connaît les profils ou caractéristiques,
ainsi que le groupe (ou classe ou étiquette) de chaque individu. Dans un premier temps (phase
d’apprentissage), l’algorithme « apprend » des règles sur l’ensemble des données. Ensuite (phase
de test), on soumet de nouvelles données à l’algorithme, sans lui spécifier les groupes auxquels
ces données appartiennent, et il attribue un groupe à chaque donnée selon les règles élaborées
durant la phase d’apprentissage. Puisque l’on connaît les groupes auxquels les nouvelles données
appartiennent, la phase de test permet de vérifier si l’algorithme fonctionne correctement ou,
en d’autres termes, sa capacité à produire des règles généralisables.
Parmi les nombreuses méthodes de classification supervisée existantes, telles que le « classi-
fieur Bayésien naïf », les « séparateurs à vastes marges » (Support Vector Machine), les arbres
de décisions, les réseaux de neurones, la méthode des k plus proches voisins (kNN ), etc. (voir
par exemple Yang, 1999; Sebastiani, 2002, et références y incluses), seule l’analyse discriminante
(Fisher, 1936) sera présentée ici.2.2. Classification supervisée 23
2.2.1 Analyse discriminante sur les dissimilarités
Soit, comme ensemble d’apprentissage, un jeu de données, X = (xik), donnant les caracté-
ristiques k = 1, ..., p des individus i = 1, ..., n. Alors les dissimilarités euclidiennes carrées, Dij ,
entre deux individus i et j peuvent être caculées par (1.8) .
L’ensemble de test est formé d’individus supplémentaires. Les dissimilarités euclidiennes carrées
Dxj entre un individu x de l’ensemble de test et un individu j de l’ensemble d’apprentissage
sont, à nouveau, calculées selon (1.8).
Dans le cas particulier d’une table de contingence, dont les modalités en lignes sont des
individus i = 1, ..., n ; et celles en colonnes, des caractéristiques k = 1, ..., p, les dissimilarités
du khi2 entre deux individus de l’ensemble d’apprentissage ou entre un individu de l’ensemble
de test et un autre de l’ensemble d’apprentissage sont calculées par (1.6). Il est important de
remarquer que, dans ces deux cas, les poids des caractéristiques, ρk, sont déterminés à partir de
l’ensemble d’apprentissage uniquement. Ainsi, les colonnes qui ne seraient présentes que dans
l’ensemble de test devraient être supprimées.
k
i,j
x
Dij Dxj
Figure 2.2 – Principe du calcul des dissimilarités entre deux individus de l’ensemble d’apprentissage,
Dij , et entre un individu de l’ensemble de test et un autre de l’ensemble d’apprentissage,
Dxj .
Il est possible d’utiliser deux critères d’analyse discriminante. Le premier (plus proches voisins)
attribue le nouvel individu x de l’ensemble de test au groupe contenant les individus
d’apprentissage les plus proches de x en moyenne (Cocco, 2014), i.e. :
argmin
g
Xng
j=1
f
g
j Dxj (2.9)
où f
g
j = 1(j ∈ g)/ng est la distribution des individus j dans le groupe g, contenant ng individus
1
.
Le second critère (plus proche centroïde) attribue l’individu test x au groupe d’apprentissage
dont le centroïde est le plus proche (Bavaud, 2011; Cocco, 2014), soit :
argmin
g
Dxg (2.10)
où g est le profil moyen des ng individus constituant le groupe g. Ces deux critères sont liés
par le théorème de Huygens (1.18) qui permet de calculer les dissimilarités Dxg à partir des
dissimilarités Dxj et de l’inertie du groupe ∆g, calculée sur l’ensemble d’apprentissage (Dij ) par
(1.19). Ainsi, si les inerties de tous les groupes sont égales, alors les critères (2.9) et (2.10) sont
identiques ; sinon, l’attribution d’un nouvel individu au groupe g dépend tant de la position
du centroïde que de l’inertie du groupe pour le critère des plus proches voisins, alors qu’il ne
dépend que de la position du centroïde pour le critère du plus proche centroïde
Comme pour l’algorithme K-means, les deux critères ci-dessus peuvent être étendus en considérant
des transformations de Schoenberg (section 1.3.4), et en particulier la transformation
1. 1(A) représente la fonction caractéristique de A qui vaut 1 si A est vrai, et 0 sinon.24 2. CLASSIFICATION (NON-)SUPERVISÉE
de puissance (1.22). Cette transformation est appliquée, pour le premier critère (2.9), sur Dxj
transformé en D˜
xj = ϕ(Dxj ); et pour le second critère (2.10), sur Dxj et Dij , transformés en
D˜
xj = ϕ(Dxj ) et D˜
ij = ϕ(Dij ). Il faut noter que D˜
ij := ϕ(Dij ), donc ∆˜
g := 1/2
P
ij f
g
i
f
g
j D˜
ij ,
mais que D˜
xg := P
j
f
g
j D˜
xj − ∆˜
g 6= ϕ(Dxg). En d’autres termes, appliquer la transformation
de Schoenberg sur Dij et sur Dxj , avant d’utiliser le principe de Huygens pour obtenir Dxg,
n’est pas équivalent à utiliser le principe de Huygens pour déterminer Dxg, puis à y appliquer
la transformation de Schoenberg.
2.3 Évaluation
Il est souvent nécessaire de pouvoir évaluer une classification, qu’elle soit supervisée ou non.
En général, dans le cas d’une classification non supervisée, les groupes auxquels appartiennent
les individus ne sont pas connus a priori et les méthodes d’évaluation, basées sur des critères
internes (internal criteria), consistent alors principalement à vérifier l’homogénéité des groupes
(voir par exemple Estivill-Castro, 2002; Halkidi, Batistakis et Vazirgiannis, 2002). Elles ne seront
pas présentées ici. Cependant, pour une des applications présentée dans ce travail (chapitre 4),
basée sur un corpus restreint, une classification non supervisée a été effectuée, bien que les
groupes soient connus a priori. Dans ce cas, les groupes créés par l’algorithme ne possèdent
pas de signification particulière et ne sont pas forcément de même nombre que les groupes
« recherchés », rendant toute comparaison directe difficile. On peut alors utiliser une mesure
d’accord entre partitions (section 2.3.1) pour comparer les résultats connus a priori avec ceux
obtenus par l’algorithme (external criteria).
Concernant la classification supervisée, la comparaison entre les groupes connus a priori et les
résultats de l’algorithme est plus directe et de nombreux indices d’évaluation ont été proposés
dans la littérature (voir par exemple Manning et Schütze, 1999, section 8.1 ; Sokolova et Lapalme,
2009). Seuls trois indices seront présentés ici : la précision, le rappel et la F-mesure (section
2.3.2).
2.3.1 Accord entre partitions
On considère deux partitions, X et Y , obtenues soit avec deux classifications non supervisées
différentes (deux méthodes différentes ou en changeant un paramètre par exemple), soit par une
classification non supervisée et une autre créée par un expert humain. On peut alors construire
une table de contingence (section 1.1), dont les composantes njk comptent le nombre d’objets
ou d’individus attribués simultanément au groupe j de la première partition X et au groupe k
de la seconde partition Y . Toutes les mesures d’accord entre partitions se basent sur cette table
de contingence.
Il existe de nombreux indices servant à mesurer l’accord entre deux partitions (voir par
exemple Pfitzner, Leibbrandt et Powers, 2009), tels que l’indice de Meilˇa (Meilˇa, 2003) ou, dans
le cas de deux partitions binaires, le coefficient phi ou le Q de Yule (sections 1.2.2.2 et 1.2.2.3).
Seul deux de ces indices seront présentés et utilisés dans ce travail, à savoir : l’indice de Jaccard
et l’indice de Rand corrigé.
L’indice de Jaccard (Youness et Saporta, 2004; Denœud et Guénoche, 2006), dont les valeurs
varient entre 0 et 1, se définit comme :
J =
r
r + u + v
(2.11)
où r =
1
2
P
jk njk(njk −1) est le nombre de paires simultanément dans un même groupe dans X
et dans Y , u =
1
2
(
P
k n
2
•k −
P
jk n
2
jk) est le nombre de paires qui sont dans des groupes distincts
dans X et dans un même groupe dans Y et v =
1
2
(
P
j n
2
j• −
P
jk n
2
jk) compte le nombre de
paires dans le même groupe de X, mais dans des groupes distincts de Y .2.3. Évaluation 25
Quant à l’indice de Rand corrigé (Adjusted Rand Index ) (Hubert et Arabie, 1985; Denœud
et Guénoche, 2006), il se calcule comme :
RC =
r − Exp(r)
Max(r) − Exp(r)
(2.12)
Dans cette équation, Exp(r) = 1
2n(n−1)
P
i ni•(ni• − 1)P
j n•j (n•j − 1) représente le nombre
attendu de paires d’individus, sous l’hypothèse du hasard, dans un même groupe de X et dans
un même groupe de Y et Max(r) = 1
4
P
i ni•(ni•−1)+P
j n•j (n•j−1) calcule la valeur maximum
de l’indice de Rand. Ainsi, l’indice de Rand corrigé possède une valeur maximale de 1. De plus, il
vaut 0 lorsque les similarités entre les deux partitions correspondent aux valeurs attendues sous
l’hypothèse du hasard. Cependant, cet indice peut aussi prendre des valeurs négatives lorsque
r < Exp(r), i.e. que l’accord entre les deux partitions est moins bon qu’un accord obtenu au
hasard.
2.3.2 Précision, rappel et F-mesure
Comme déjà expliqué dans la section 2.2 sur la classification supervisée, après la phase d’apprentissage,
vient la phase de test où l’algorithme attribue un groupe g à chaque individu i de
l’ensemble de test (jeu de données de référence). Pour mesurer la performance de l’algorithme,
il faut alors comparer, pour chaque individu, le groupe attribué par l’algorithme (décision) à
celui déjà connu (référence).
Il existe trois mesures très généralement utilisées qui permettent d’évaluer les méthodes de
classification supervisée : la précision, le rappel et la F-mesure, qui combine les deux premières
(voir par exemple Manning et Schütze, 1999, section 8.1 ; Sebastiani, 2002 ; Sokolova et Lapalme,
2009 ; Cocco, 2014, dont cette section reprend une partie de l’exposé).
Avant tout, précisons qu’il existe différents problèmes de classification supervisée, à savoir :
binaire Il existe un seul groupe et chaque individu appartient ou non à ce groupe.
multi-classe Il existe m groupes et chaque individu appartient à un de ces m groupes.
multi-étiquette Il existe m étiquettes et chaque individu peut se voir attribuer une ou plusieurs
étiquettes. Évidemment, si une seule étiquette est attribuée à chaque
individu, alors cette classification est complètement équivalente à la classifi-
cation multi-classe.
Dans le cas d’une classification binaire pour un groupe g, on peut construire une matrice de
confusion
Groupe g Référence
Décision OUI NON
OUI VPg FPg
NON FN g VN g
dont les composantes comptent :
— les vrais positifs, VPg, i.e. le nombre d’individus attribués au groupe g par la classification
supervisée et classés dans le groupe g dans le jeu de données de référence,
— les faux positifs, FPg, i.e. le nombre d’individus attribués au groupe g par la classification
supervisée et non classés dans le groupe g dans le corpus de référence ,
— les faux négatifs, FN g, i.e. le nombre d’individus non attribués au groupe g par la classi-
fication supervisée et classés dans le groupe g dans le corpus de référence et
— les vrais négatifs, VN g, i.e. le nombre d’individus non attribués au groupe g par la classification
supervisée et non classés dans le groupe g dans le corpus de référence.26 2. CLASSIFICATION (NON-)SUPERVISÉE
Alors, la précision détermine le rapport entre le nombre d’individus correctement classés
par le système dans le groupe g et le nombre total d’individus classés dans ce même groupe g,
correctement ou non, soit :
Pg =
VPg
VPg + FPg
(2.13)
Quant au rappel, il se définit comme le rapport entre le nombre d’individus correctement
classés par l’algorithme dans le groupe g et le nombre d’individus appartenant effectivement à
ce groupe dans le jeu de données de référence :
Rg =
VPg
VPg + FN g
(2.14)
Si la classification est parfaite, alors la précision et le rappel seront tous deux égaux à 1. Un
système performant exige des valeurs élevées pour ces deux mesures. En effet, il serait simple,
de construire un système qui renvoie tous les documents dans le même groupe. Dans ce cas, et
pour ce groupe, le rappel serait égal à 1, mais la précision très faible, d’où la nécessité d’étudier
ces deux valeurs simultanément.
Dans son chapitre 7, van Rijsbergen (1979) propose de mesurer la proportion de la différence
entre les éléments appartenant réellement au groupe g et ceux attribués à ce même groupe par
l’algorithme, comme :
E = 1 −
1
α(
1
Pg
) + (1 − α)
1
Rg
où α est un paramètre défini comme α =
1
(β2+1) , dans lequel le nouveau paramètre β permet
de spécifier différentes situations, telles que :
— l’utilisateur attache la même importance à la précision et au rappel (β = 1 et α = 1/2),
— l’utilisateur n’attache aucune importance à la précision (β → ∞ et α → 0) et
— l’utilisateur n’attache aucune importance au rappel (β → 0 et α → 1).
La fonction Fβ, communément utilisée, n’est autre que 1 − E (Manning et Schütze, 1999,
section 8.1), soit :
Fβ =
(β
2 + 1)PgRg
β
2Pg + Rg
La F-mesure, cas particulier de la fonction Fβ pour β = 1, constitue la moyenne harmonique
entre la précision et le rappel :
Fg =
2PgRg
Pg + Rg
(2.15)
Dans le cas d’une analyse multi-classe ou multi-étiquette, deux types de moyennes des
mesures (2.13), (2.14) et (2.15) peuvent être utilisées pour évaluer la performance de la classi-
fication sur l’ensemble des groupes (voir par exemple Sebastiani, 2002, section 7), à savoir, la
macro-moyenne :
Pmacro =
Pm
g=1 Pg
m
Rmacro =
Pm
g=1 Rg
m
Fmacro =
2PmacroRmacro
Pmacro + Rmacro
(2.16)
et la micro-moyenne :
Pmicro =
Pm
g=1 VPg
Pm
g=1(VPg + FPg)
Rmicro =
Pm
g=1 VPg
Pm
g=1(VPg + FN g)
Fmicro =
2PmicroRmicro
Pmicro + Rmicro
(2.17)
Dans la macro-moyenne, tous les groupes ont le même poids, alors que dans la micro-moyenne,
tous les individus ont le même poids. Ainsi, dans cette dernière, les groupes les plus fréquents2.3. Évaluation 27
auront plus d’importance (Yang, 1999). On peut aussi remarquer que dans le cas d’une analyse
multi-classe, Pm
g=1 FPg =
Pm
g=1 FN g, ce qui implique que Pmicro = Rmicro = Fmicro (Van Asch,
2012).CHAPITRE 3
Indices d’autocorrélation et d’autocorrélation croisée
En analyse des séries temporelles (voir par exemple Box et Jenkins, 1976), la corrélation
croisée mesure la corrélation entre deux signaux numériques univariés, dont un est décalé d’un
certain temps (lag) par rapport à l’autre. Quant à l’autocorrélation, elle mesure la corrélation
croisée entre un signal et lui-même.
Les indices d’autocorrélation et d’autocorrélation croisée présentés dans ce chapitre ont une
double visée : d’une part, étendre l’analyse des séries temporelles à des problèmes numériques
multivariés, ainsi qu’à des variables catégorielles multimodales (via la dissimilarité du khi2) ; et
d’autre part, généraliser la notion de décalage à une notion de voisinage.
Soit i, j = 1, . . . , n, des positions ordonnées, et D = (Dij ), la matrice des dissimilarités
euclidiennes carrées entre ces positions. Plus précisément, ces dissimilarités sont calculées par
rapport aux caractéristiques k des unités localisées sur ces positions. En définissant un voisinage
par l’intermédiaire d’une matrice d’échange E = (eij ) (section 3.1), l’indice d’autocorrélation
(section 3.2) va mesurer la différence entre la variabilité des dissimilarités sur l’ensemble des
positions et la variabilité locale dans un voisinage, tel que défini par E. L’indice d’autocorrélation
croisée (section 3.3) généralise celui d’autocorrélation en considérant deux jeux de données et
mesure la similarité entre les positions de ces deux jeux, par rapport aux caractéristiques k de
chacun de ces jeux, selon le voisinage défini par E.
3.1 Matrice d’échange
Les voisins j de la position i sont déterminés par une matrice d’échange E = (eij ), de taille
n × n, qui a pour propriétés d’être :
— non négative,
— symétrique,
— compatible avec le poids des individus ei• = e•i = fi
,
— et normalisée e•• = 1.
Ainsi, eij peut s’interpréter comme la probabilité jointe de sélectionner les positions i et j, sans
considération de l’ordre de ces positions ; et ei• = fi
, comme la probabilité de sélectionner la
position i. On peut aussi remarquer que wij =
eij
fi
correspond aux composantes de la matrice
W = (wij ) de transition d’une chaîne de Markov de distribution stationnaire f.
2930 3. INDICES D’AUTOCORRÉLATION ET D’AUTOCORRÉLATION CROISÉE
3.1.1 Exemples
En toute généralité, les « positions » i, j réfèrent à des objets (localisés dans l’espace, dans le
temps, ou plus généralement simplement identifiés par leurs indices i, j) exempts de relations
mutuelles particulières a priori, ces dernières étant précisément définies par la matrice d’échange
E.
Dans cette thèse, le cas particulier des séries temporelles est abordé, ce qui signifie que les
indices i et j peuvent être mis en correspondance au moyen de relations de la forme j = i + r,
où r est un entier relatif. Parmi les nombreuses matrices d’échange potentiellement pertinentes
dans ce contexte particulier, trois familles seront présentées ici et utilisées par la suite.
La première matrice d’échange E˚, qu’on appellera matrice d’échange itérée, considère des
voisinages à r itérations avec corrections dans les bords (Bavaud, Cocco et Xanthos, 2012).
Pour r = 1, la matrice d’échange vaut 1
:
˚e
(1)
ij :=
1
2n
[1(j = i ± 1) + 1(i = j = 1) + 1(i = j = n)] (3.1)
Puis, pour r > 1, on définit E˚(r) = ΠWr
, avec Π = diag(f). Étant donné que cette matrice
produit des poids uniformes, tels que fi = 1/n, alors wij = n˚eij , avec ˚eij = ˚e
(1)
ij , et donc
E˚(r) =
1
nWr = n
(r−1)E˚r
.
La deuxième est une matrice d’échange périodique, E˘, qui considère les voisins j à une distance
(lag) r (à gauche et à droite) de la position i (Cocco et Bavaud, accepté pour publication) :
e˘
(r)
ij =
1
2n
[1(j = (i ± r) mod n) + 1((i ± r) mod n = 0) · 1(j = n)] (3.2)
Comme la matrice d’échange itérée, cette matrice d’échange produit des poids uniformes. De
plus, comme le voisinage est périodique, alors E˘(r) = E˘(n−r)
.
Finalement, la matrice d’échange à fenêtres mobiles, E˙
, considère toutes les positions dans
deux fenêtres de largeur r, l’une à gauche et l’autre à droite (Bavaud et al., 2012) :
e˙
[r]
ij =
c
[r]
ij
c
[r]
••
c
[r]
ij := 1(|j − i| ≤ r) · 1(i 6= j) (3.3)
Contrairement aux deux autres matrices, les poids résultants ne sont pas uniformes, mais plus
petits pour les positions de bord que pour les autres.
Toutes ces matrices d’échange dépendent principalement de la différence |j − i| des positions
i et j (à des effets de bord près), et l’on s’attend à ce que leur utilisation permette de révéler
d’autant mieux un phénomène que la loi le gouvernant soit stationnaire, i.e. invariante par
translation |j − i|. Ce qui, on peut le préciser, n’affecte en rien la question de la légitimité
de leur utilisation dans le cadre d’une analyse exploratoire de données, telle qu’effectuée aux
chapitres 6 et 8.
Deux exemples (r = 1 et r = 2) de chacun de ces trois types de matrices d’échange sont
présentés dans la table 3.1 pour 5 positions ordonnées. Le réseau non pondéré et non orienté
correspondant à chacun de ces six exemples est exposé dans la table 3.2. On remarque que
les matrices d’échange périodique et à fenêtres mobiles sont assez similaires, cependant elles
présentent deux différences essentielles :
— premièrement, comme son nom l’indique, la matrice d’échange périodique considère que
les positions sont périodiques et donc que la position 1 se trouve après la position n,
contrairement à la matrice d’échange à fenêtres mobiles ;
1. Comme déjà mentionné (cf. chapitre 2, note 1), 1(A) représente la fonction caractéristique associée à l’évé-
nement A.3.2. Indice d’autocorrélation 31
— deuxièmement, avec la matrice d’échange à fenêtres mobiles toutes les positions des deux
fenêtres de largeur r sont considérées, à l’inverse de la matrice d’échange périodique pour
laquelle on ne considère que deux positions à une distance r d’une position donnée, sans
prendre en compte les positions intercalaires qui les séparent.
r E˚ (itérée) E˘ (périodique) E˙ (fenêtres mobiles)
r = 1 1
10
1 1 0 0 0
1 0 1 0 0
0 1 0 1 0
0 0 1 0 1
0 0 0 1 1
1
10
0 1 0 0 1
1 0 1 0 0
0 1 0 1 0
0 0 1 0 1
1 0 0 1 0
1
8
0 1 0 0 0
1 0 1 0 0
0 1 0 1 0
0 0 1 0 1
0 0 0 1 0
r = 2 1
20
2 1 1 0 0
1 2 0 1 0
1 0 2 0 1
0 1 0 2 1
0 0 1 1 2
1
10
0 0 1 1 0
0 0 0 1 1
1 0 0 0 1
1 1 0 0 0
0 1 1 0 0
1
14
0 1 1 0 0
1 0 1 1 0
1 1 0 1 1
0 1 1 0 1
0 0 1 1 0
Table 3.1 – Exemples pour les trois matrices d’échanges étudiées, avec n = 5.
1 2 3 4 5
r E˚ (itérée) E˘ (périodique) E˙ (fenêtres mobiles)
r = 1
r = 2
Table 3.2 – Réseau non pondéré et non orienté des trois matrices d’échange étudiées, repré-
sentant les liens non nuls (eij > 0) entre les n = 5 positions.
3.2 Indice d’autocorrélation
L’indice d’autocorrélation se définit comme (Bavaud et al., 2012) :
δ :=
∆ − ∆loc
∆
∈ [−1, 1] (3.4)
où ∆ est l’inertie (globale) qui se calcule, à partir de la matrice des dissimilarités euclidiennes
carrées entre les positions Dij , par (1.16) et ∆loc est l’inertie locale, telle que :
∆loc :=
1
2
X
ij
eijDij
Cet indice d’autocorrélation généralise le I de Moran (Moran, 1950), la mesure standard
de l’autocorrélation spatiale d’une variable numérique, ou son complémentaire, le c de Geary
(Geary, 1954; Lebart, 1969), au cas multivarié. Concernant l’interprétation, comme le montre
l’équation (3.4), δ sera élevé si les individus sont plus similaires dans le voisinage défini par E
qu’en prenant des positions choisies aléatoirement, et inversement.
Rappelons que la dissimilarité euclidienne carrée Dij est basée sur les caractéristiques des
unités apparaissant en i et j. Dans le cas de caractéristiques catégorielles, Dij ne sera autre32 3. INDICES D’AUTOCORRÉLATION ET D’AUTOCORRÉLATION CROISÉE
que la dissimilarité du khi2 entre les lignes (ou les colonnes) i et j de la table de contingence
associée, calculée par (1.6) (ou (1.7)), ou encore par (1.9) : voir le chapitre 8. Le chapitre 6 décrit
d’autres applications impliquant des dissimilarités euclidiennes carrées distinctes de celles du
khi2.
3.2.1 Test d’autocorrélation
L’espérance de l’indice d’autocorrélation sous l’hypothèse H0 d’absence d’autocorrélation vaut
(voir par exemple Bavaud, 2013) :
E0(δ) = trace(W) − 1
n − 1
(3.5)
avec W = (wij ), la matrice de transition de Markov, telle que définie dans la section 3.1. Concernant
les exemples de la section 3.1.1, l’espérance sous indépendance de la matrice d’échange
itérée est variable selon r et vaut E
(r)
0 = (trace(Wr
) − 1)/(n − 1), alors qu’elle a une valeur fixe
pour les deux autres matrices d’échange, soit E
(r)
0 = −1/(n − 1).
La variance correspondante s’écrit (voir par exemple Cliff et Ord, 1981) :
Var0(δ) = 2
n2−1
h
trace(W2
) − 1 −
(trace(W)−1)2
n−1
i
Sous approximation normale, on peut ainsi évaluer la significativité statistique de l’indice
d’autocorrélation au niveau α en effectuant le test suivant :
δ − E0(δ)
p
Var0(δ)
≥ u1−α/2
(3.6)
où u1−α/2 est le α-ème quantile de la loi normale standardisée.
3.3 Indice d’autocorrélation croisée
Soit deux jeux de coordonnées X = (xik) et Y = (yik) munis des mêmes positions i = 1, . . . , n
et des mêmes caractéristiques k = 1, . . . , p, mais dont les valeurs diffèrent 2
. Alors, on définit
l’indice d’autocorrélation croisée comme (Cocco et Bavaud, accepté pour publication) :
δ(X, Y ) := ∆(X, Y ) − ∆loc(X, Y )
p
∆(X)∆(Y )
∈ [−1, 1] (3.7)
Dans cette équation, ∆(X) représente l’inertie globale de X (1.16), identique à celle utilisée
dans (3.4). Puis, en définissant la dissimilarité croisée entre deux positions i et j des deux jeux
de coordonnées X et Y comme :
D
xy
ij =
X
k
(xik − xjk)(yik − yjk)
on peut définir l’inertie croisée entre X et Y comme :
∆(X, Y ) = 1
2
X
ij
fifjD
xy
ij =
X
i
fi
X
k
xikyik −
X
k
x¯ky¯k
et l’inertie croisée locale comme :
∆loc(X, Y ) = 1
2
X
ij
eijD
xy
ij =
X
i
fi
X
k
xikyik −
X
ij
eij X
k
xikyjk
2. Il pourrait s’agir, par exemple, de différents indices k concernant la population, tels que le taux de naissance
ou d’immigration, pour des régions i, à deux dates différentes, soit X et Y .3.3. Indice d’autocorrélation croisée 33
Étant donné que ∆(X, X) = ∆(X) et que ∆loc(X, X) = ∆loc(X), il apparaît que l’indice
d’autocorrélation croisée est une généralisation de l’indice d’autocorrélation, car δ(X, X) =
δ(X) = δ, tel que défini dans l’équation (3.4).
L’indice δ(X, Y ) (3.7) est applicable à deux jeux de coordonnées, X et Y , ssi, comme déjà
mentionné, les deux jeux de coordonnées sont munis des mêmes positions i et des mêmes caractéristiques
k, mais aussi ssi les poids des positions de X, f
x
i
, sont identiques à ceux de Y , f
y
i
,
soit f
x
i = f
y
i = fi
. L’autocorrélation croisée δ(X, Y ) peut aussi se concevoir comme une version
pondérée du coefficient de codispersion (voir par exemple Matheron, 1965; Rukhin et Vallejos,
2008) utilisé en Géostatistique.
Si les données de départ sont catégorielles, alors l’indice d’autocorrélation croisée entre deux
tables de contingence Nα et Nβ
est δ(
∗Xα, X∗ β
) (respectivement δ( Y
∗ α, Y∗ β
)), où x
∗ α
ik et
x
∗ β
ik (respectivement y
∗ α
ik et y
∗ β
ik) sont les coordonnées de haute dimensionnalité (1.10) des
lignes (respectivement des colonnes). Dans ce cas, l’indice d’autocorrélation croisée δ(
∗Xα, X∗ β
)
mesure la similarité entre la distribution des caractéristiques catégorielles k de la table de
contingence α et la distribution des caractéristiques de la table β dans un voisinage déterminé
par E. Il est ainsi utilisé dans le chapitre 8, section 8.3.Partie II
APPLICATIONS TEXTUELLES
35CHAPITRE 4
Classification non supervisée en types de discours
Le travail présenté dans ce chapitre est à la fois un résumé et une extension de trois articles
(Cocco, Pittier, Bavaud et Xanthos, 2011; Cocco, 2012a,b) et en reprend de larges extraits. Le
but de ce chapitre est de catégoriser automatiquement des propositions énoncées par rapport
à des séquences textuelles, comprises ici comme des types de discours, tels que le narratif,
l’argumentatif, l’explicatif, le descriptif, le dialogal et l’injonctif (section 4.1.1).
Pour ce faire, quatre contes de Maupassant ont d’abord été segmentés en propositions et
annotés par un expert humain (section 4.1). Ensuite, les propositions ont été représentées à
l’aide d’une AFC (section 4.2.1). Puis elles ont été classées automatiquement (classification non
supervisée) en se basant sur les catégories morphosyntaxiques (CMS) qu’elles contiennent, et
plus précisément sur les n-grammes de CMS et les résultats sont évalués par le biais d’indices
d’accords entre partitions (section 4.3).
Les CMS ont été choisies comme caractéristiques de cette classification non supervisée, car
elles ont déjà montré leur utilité dans des travaux connexes. En effet, les CMS ont été de
plus en plus exploitées, parmi d’autres caractéristiques, pour la catégorisation automatique de
textes depuis les travaux de Biber (1988), qui s’intéresse à la détection de types de textes. Par
exemple, Malrieu et Rastier (2001) travaillent sur la distinction, d’une part, et la classification
automatique, d’autre part, de textes selon les genres (comédie, tragédie, drame, etc.) et selon
les discours (littéraire, juridique, politique, etc.) en utilisant des variables majoritairement morphosyntaxiques.
Karlgren et Cutting (1994) s’intéressent à la classification supervisée en genres
de textes avec des CMS. On peut encore citer Palmer, Ponvert, Baldridge et Smith (2007) qui
travaillent, en utilisant des CMS parmi d’autres caractéristiques, sur la classification supervisée
de situation entities, un élément essentiel des modes de discours (modes of discourse) en
linguistique anglaise (Smith, 2003), concepts relativement similaires aux types de discours en
linguistique française. Pour déterminer si les CMS sont également utiles dans la détection des
types de discours traités ici, une analyse préliminaire visant à mesurer le lien entre les CMS et
les types de discours est effectuée dans la section 4.1.4. Finalement, la méthode et les résultats
obtenus sont discutés dans la section 4.4.
4.1 Données
Les données se composent de quatre contes de Maupassant, du 19ème siècle, annotées en
types de discours par un expert humain. Ce dernier a proposé de travailler sur des contes de
Maupassant pour trois raisons : les textes n’étaient pas trop longs et pouvaient être annotés
en un temps raisonnable, ils étaient susceptibles de contenir tous les types de discours et ils
3738 4. CLASSIFICATION NON SUPERVISÉE EN TYPES DE DISCOURS
étaient disponibles sur Internet. Aussi, un seul auteur et un seul genre sont considérés, car
comme déjà expliqué dans l’introduction, les CMS varient en fonction des genres, mais aussi en
fonction de l’auteur (voir par exemple Koppel et Schler, 2003). L’expert humain a utilisé des
balises XML pour annoter les textes, une pratique standard dans ce domaine (voir par exemple
Daoust, Marcoux et Viprey, 2010). Avant de pouvoir annoter les textes en types de discours, il a
commencé par segmenter le texte en propositions énoncées, car le niveau des phrases, composées
d’une ou plusieurs propositions énoncées, était trop grossier. C’est cette segmentation manuelle
qui va servir de base à la classification non supervisée.
Après avoir présenté les critères utilisés par l’expert humain pour l’annotation en types de
discours (section 4.1.1), le corpus, ainsi que quelques statistiques descriptives le caractérisant,
sont exposés dans la section 4.1.2. Ensuite, le prétraitement pour la création des tables de
contingence croisant les propositions et les CMS est expliqué (section 4.1.3). De plus, comme
déjà mentionné dans l’introduction de ce chapitre, une analyse préliminaire a été effectuée afin
de s’assurer que les CMS sont des caractéristiques utiles à la distinction des types de discours
et les résultats sont présentés dans la section 4.1.4.
4.1.1 Types de discours et annotation
Les types de discours retenus pour ce projet sont adaptés des travaux de Jean-Michel Adam,
spécialiste en linguistique textuelle et de Jean-Paul Bronckart, spécialiste en psycholinguistique
et didactique des langues.
En premier lieu, il faut noter que l’appellation « types de discours » est abusive, mais sera
généralement utilisée dans ce qui suit. En effet, même si elle est courante en Français (Filliettaz,
2001), le terme « types de séquences » est plus précis, car il fait référence à des passages de textes
et non à des textes entiers, et c’est celui utilisé par Adam (2008a,b) en général et par Bronckart
(1996) lorsqu’il aborde les types traités ici. De plus, lorsque Bronckart (1996, section 5.2) parle de
types de discours, il distingue quatre architypes psychologiques : le discours interactif, le discours
théorique, le récit interactif et la narration, qu’il différencie des séquences décrites par Adam
(2008a,b). Partant de cela, il définit ensuite des types linguistiques (Bronckart, 1996, section
5.3). Au chapitre suivant, il passe en revue les « Séquences et autres formes de planification »
qui sont les éléments traités dans ce projet, (Bronckart, 1996, p. 219, chapitre 6) :
Dans notre approche, les types de discours constituent les ingrédients fondamentaux de
l’infrastructure générale des textes, [...] L’infrastructure textuelle se caractérise cependant
aussi par une autre dimension, qui est celle de l’organisation séquentielle ou linéaire
de son contenu thématique.
De là, il reprend les séquences décrites par J.-M. Adam auxquelles il ajoute la séquence injonctive.
Les types de discours (ou séquences) considérés par Adam (2008a,b) sont le narratif, l’argumentatif,
l’explicatif, le dialogal et le descriptif. En plus de ces cinq types, on considérera ici le
type de discours (ou séquence) injonctif, suggéré par Bronckart (1996), qui, dans les textes traités
dans ce projet, est toujours un « sous-type » du type dialogal 1
. Il a été demandé à l’expert
humain, Raphaël Pittier, alors étudiant de master en sciences du langage et de la communication,
ainsi qu’en français moderne (orientation linguistique française), d’annoter des textes
selon ces six types de discours en se basant sur le travail de Adam (2008a,b) et Bronckart
(1996). Dans ce qui suit, les types sont définis selon ces théories, ainsi que selon les critères retenus
par l’expert humain, spécialiste dans ce domaine. De plus, il est fait mention des marques
linguistiques que ce dernier a trouvé pertinentes.
Il faut aussi noter que Adam (2008a,b) différencie les périodes et les séquences de chaque
type ; les séquences étant plus complexes et étendues que les périodes. Dans le cadre de ce
1. Pour l’anglais, l’appellation courante semble être Modes of discourse et selon Smith (2003), il y en a cinq :
narrative, description, report, information et argument.4.1. Données 39
travail, cette distinction n’a pas été retenue. C’est pourquoi, les parties de textes, annotées
comme étant d’un certain type, peuvent être des séquences ou des périodes ; voire même des
parties plus courtes que la période comme dans le cas du discours direct pour le type dialogal
(voir section 4.1.1.5). Néanmoins, il est important d’envisager les différences entre séquences et
périodes dans l’esposé théorique des types de discours.
4.1.1.1 Narratif
Le type de discours narratif correspond au récit raconté. Trois sortes de parties de textes ont
été annotées comme étant narratives :
1. la séquence narrative qui est composée d’étapes précises, dont certaines sont facultatives
(cf. Adam, 2008a, schéma 20, p. 147) :
— Pn0 : entrée-préface ou résumé : facultative,
— Pn1 : situation initiale (orientation),
— Pn2 : noeud (déclencheur),
— Pn3 : (ré-)action ou évaluation,
— Pn4 : dénouement (résolution),
— Pn5 : situation finale,
— PnΩ : chute ou évaluation finale (morale) : facultative.
Lorsque les étapes facultatives sont présentes, on ne parle plus de séquence narrative, mais
d’intrigue narrative.
2. la période narrative ou l’épisode narratif où un état de départ est suivi d’un événement
qui transforme cet état initial afin de parvenir à un autre état.
3. le narratif itératif qui correspond à une description d’actions répétées ou simplement à
des actions répétées, comme par exemple : « Tous les matins, il buvait du café... ». En
raison de la répétition, cette catégorie de texte, annotée comme narrative, tend vers le
type de discours descriptif.
Marques linguistiques : Pour la séquence narrative (point 1), tout comme pour la période
narrative (point 2), on note souvent la présence de passé simple, mais ce n’est pas un critère
absolu. En plus du passé simple, il peut exister des déclencheurs tels que la conjonction or ou
la locution adverbiale tout à coup. Une autre tendance est la juxtaposition d’actions, soit des
groupes qui se suivent dans l’ordre chronologique, comme par exemple : « Il alla à la bibliothèque,
prit un livre, lut trois pages... ». Pour le narratif itératif (point 3), l’imparfait est généralement
utilisé. Mais à nouveau, il s’agit plus d’une tendance que d’un critère absolu. Bronckart (1996,
pp. 179–181) propose une liste de marques linguistiques pour la narration, dont certaines, listées
ci-avant, correspondent à celles utilisées par l’expert humain.
4.1.1.2 Argumentatif
Le type de discours argumentatif correspond à des textes, ou parties de textes, ayant pour
but de convaincre l’autre de son argument, c’est-à-dire de démontrer, justifier ou réfuter une
thèse.
En résumé, la séquence argumentative se compose (cf. Adam, 2008a, schéma 21, p. 150) :
— de données (prémisses) ou fait(s), suivies
— d’un étayage qui mène à
— une assertion conclusive.
Une présentation plus complète de cette séquence est exposée dans Adam (2008a, schéma 22,
p. 151).
Concernant la période argumentative, il s’agit d’une « suite de propositions liées par des
connecteurs argumentatifs » (Adam, 2008a, p. 150). Pour ce projet, nous avons considéré que40 4. CLASSIFICATION NON SUPERVISÉE EN TYPES DE DISCOURS
lorsque les prémisses sont implicites ou déjà mentionnées en amont, ou que l’étayage est implicite
ou douteux, il s’agissait d’une période argumentative.
Marques linguistiques : Présence de connecteurs argumentatifs qui peuvent être (Adam,
2008a, p. 120) :
— argumentatifs et concessifs : mais, pourtant, cependant, certes, toutefois, quand même, ... ;
— explicatifs et justificatifs : car, parce que, puisque, si - c’est que, ... ;
— de simples marqueurs d’un argument : même, d’ailleurs, de plus, non seulement, ... ; et
— le si et le quand des phrases hypothétiques.
4.1.1.3 Explicatif
Le type explicatif se différencie du type argumentatif par sa fonction, qui n’est pas de
convaincre, mais d’expliquer quelque chose de non su. Il s’agit plutôt de délivrer un type de
savoir encyclopédique. L’explication répond à la question « Pourquoi ? » (Adam, 2008b, pp.
127–138).
La séquence explicative (cf. Adam, 2008a, schéma 26, p. 157) :
— commence par une schématisation initiale qui présente un objet complexe ;
— ensuite, par un premier opérateur pourquoi, passe à une schématisation qui construit
l’objet comme problématique ;
— enfin, par un second opérateur parce que, passe à une schématisation explicative.
Quant aux périodes explicatives, elles sont souvent composées d’une proposition qui pose
un problème et qui est introduite par si et d’une explication introduite par c’est que ou c’est
parce que (Adam, 2008a, p. 153).
Marques linguistiques : Présence de locutions phraséologiques telles que (Adam, 2008a,
section 4.5) : (Si)... c’est parce que/c’est pour (que)/c’est pourquoi/c’est que/c’est en raison
de/cela tient à..., voilà pourquoi..., etc.
4.1.1.4 Descriptif
Le type descriptif consiste en un arrêt sur image où le temps de l’histoire s’arrête. Ce type de
discours correspond donc à l’attribution des propriétés propres à un sujet, qu’il soit animé ou
non. Il peut s’agir, par exemple, d’un personnage, d’un objet, d’un lieu ou d’une action (pour
cette dernière, il s’agira plutôt, en général, de narratif itératif). Au plan de l’équilibre textuel,
on n’observe pas une forme de séquence, mais plutôt différentes opérations, à savoir (Adam,
2008a, section 4.2) les opérations :
— de thématisation,
— d’aspectualisation,
— de mise en relation et
— d’expansion par sous-thématisations.
Par exemple, dans les opérations d’aspectualisation, le sujet à décrire peut être fragmenté en
parties. Puis, ces parties peuvent être qualifiées par des adjectifs (Adam, 2008a, p. 142). En
d’autres termes, des propriétés sont attribuées (essentiellement des adjectifs) au substantif de la
description par l’intermédiaire, en général, d’un verbe d’état. Un substantif peut aussi remplacer
l’adjectif, comme dans la phrase : « Cette table est un chef-d’œuvre. ».
Il faut encore noter que la description n’est pas, en général, dominante, mais plutôt au service
d’un autre type (Bronckart, 1996, p. 238), notamment de la narration (Adam, 2008b, p. 100).
Marques linguistiques : Plusieurs marques linguistiques se retrouvent pour ce type :
— utilisation, en général, de verbes au passé et souvent à l’imparfait (cependant, lorsque la
narration ou le discours est au présent, la description sera aussi au présent) ;4.1. Données 41
— forte proportion d’adjectifs, en raison de l’attribution de propriétés par des groupes nominaux
de la forme nom + adjectif (Adam, 2008a, p. 142) ;
— présence d’organisateurs spatio-temporels : à gauche, à droite, hier, demain, en haut, en
bas, au premier plan, au second plan,... ;
— présence de verbes d’état : être, paraître, sembler,... ; et
— présence, parfois, de constructions analogiques par l’intermédiaire de mots, tels que comme,
tel, etc.
4.1.1.5 Dialogal
Le type dialogal se comprend comme la représentation d’un échange verbal se situant à un
niveau différent du reste du récit ; il peut aussi se trouver dans un système verbo-temporel
différent. Par exemple, un dialogue au présent peut être inclus dans une narration au passé.
Théoriquement, la séquence dialogale implique un échange. Typiquement, un texte conversationnel
se compose (cf. Adam, 2008a, schéma 29, p. 161) :
— d’un échange d’ouverture (séquence phatique) ;
— d’une séquence transactionnelle comprenant
— une question,
— une réponse et
— une évaluation ; et
— d’un échange de clôture (séquence phatique).
Notons que dans l’annotation utilisée pour ce travail, le discours direct a été considéré comme
étant de type dialogal.
Marques linguistiques : Présence de guillemets, changement de tiroir verbo-temporel et,
souvent, ponctuation forte, telle que le point d’interrogation ou d’exclamation. Parfois, on trouve
aussi les points de suspension qui indiquent un discours non terminé ou interrompu. De plus,
on note la présence de verbes introducteurs de discours direct tels que il dit, elle demanda, etc.
Bien que ces verbes n’appartiennent pas directement au discours direct, ils permettent de faire
la transition entre le récit principal et le discours direct.
4.1.1.6 Injonctif
Le type injonctif représente le fait d’ordonner quelque chose à quelqu’un. C’est une incitation
à l’action, dont les formes de textualisation varient selon le genre de cette incitation (Adam,
2008a, p. 133). En résumé, le but est de « faire agir le destinataire d’une certaine manière
ou dans une direction donnée » (Bronckart, 1996, p. 240). Ce type est considéré par Bronckart
(1996), mais rejeté par Adam qui reconnaît les propriétés d’incitation à l’action du discours
injonctif, mais qui se demande s’il ne s’agit pas d’« actualisations singulières d’un simple genre
de description » (Adam, 2008b, p. 95).
Il se trouve que, dans le corpus traité ici, le type de discours injonctif est toujours placé dans
une séquence dialogale (ou dans du discours direct).
Marques linguistiques : Verbes à l’impératif, points d’exclamation et verbes introducteurs
du dialogue tel que il lui ordonna.
Remarque : Ce type de discours étant constamment inclus dans le type de discours dialogal
dans nos textes, il serait possible de ne pas le considérer et d’attribuer tout ce qui le concerne
au type dialogal, réduisant ainsi le nombre de types de discours à cinq. S’il s’agissait d’un texte
correspondant à une recette de cuisine et annoté comme injonctif, il faudrait alors lui attribuer
le type descriptif selon les séquences décrites par (Adam, 2008b, p. 95), mais cette situation ne
se produit jamais dans les textes utilisés dans ce travail.42 4. CLASSIFICATION NON SUPERVISÉE EN TYPES DE DISCOURS
4.1.1.7 Structure hiérarchique et récursive
Il est clair que ces types de discours ne sont pas univoques et que leur interprétation pourrait
différer pour un autre expert. Il faut encore ajouter que ces périodes ou séquences sont
généralement imbriquées les unes dans les autres. Par exemple, dans un conte, on ne sera pas
surpris de trouver une longue séquence narrative, parfois le conte entier, qui contiendra d’autres
séquences, explicatives ou descriptives par exemple. Ces dernières pourront à leur tour contenir
d’autres séquences du même type ou d’un autre type. Comme déjà expliqué, l’annotateur
a utilisé des balises XML pour annoter le texte, ce qui a permis de prendre en compte cette
structure hiérarchique (cf. figure 4.1). Cependant, dans la suite de ce chapitre, la structure du
texte est considérée comme linéaire et seules les feuilles de l’arbre sont traitées.
4.1.2 Corpus
Comme déjà mentionné, l’expert humain a segmenté et annoté quatre textes de Maupassant
qu’il a obtenu sur internet :
— « L’Orient » (de Maupassant, 1883),
— « Le Voleur » (de Maupassant, 1882),
— « Un Fou ? » (de Maupassant, 1884) et
— « Un Fou » (de Maupassant, 1885).
Il a choisi de traiter des contes de Maupassant, car il estimait que ces textes étaient susceptibles
de contenir les six types de discours. Il faut aussi préciser que puisque l’annotation a été une
tâche difficile qui a nécessité beaucoup de temps, il n’a pu annoter que quatre textes.
Pour annoter ces quatre textes, l’expert a utilisé les balises XML suivantes :
. . . Balises ouvrantes et fermantes qui délimitent les propositions.
Balises vides qui marquent la fin des paragraphes (ou les retours chariot).
. . .
Balises ouvrantes et fermantes qui délimitent les différents types de discours
et contiennent un attribut, nommé type, indiquant le type de discours.
Une valeur supplémentaire, nommée date, a été ajoutée à cet attribut
pour le texte « Un Fou » ; ceci afin de délimiter les dates, ce texte
étant écrit sous la forme d’un journal intime.
Un exemple est présenté dans la figure 4.1 pour le texte « L’Orient » et l’ensemble des quatre
textes annotés se trouve dans l’annexe A.
Je le trouvai tantôt couché sur un divan,
en plein rêve d’opium.Il me tendit la main sans remuer le corps,et me dit :
Reste là, parle,
je te répondrai de temps en temps,
mais je ne bougerai point,car tu sais qu’une fois la drogue avaléeil faut demeurer sur le dos.
Figure 4.1 – Extrait annoté de « L’Orient » correspondant aux lignes 14 à 29 de l’annexe A.1.4.1. Données 43
Les statistiques descriptives concernant les quatre textes annotés par l’expert humain sont
données dans la table 4.1. Ces valeurs sont basées sur l’utilisation d’unigrammes. Pour les biet
les trigrammes, on a supprimé les propositions composées respectivement de moins de deux
ou trois occurrences selon TreeTagger (Schmid, 1994), l’outil utilisé pour annoter les textes en
CMS. Ainsi, pour « L’Orient », trois propositions ont été retirées pour l’analyse basée sur des
trigrammes. Concernant « Le Voleur », une proposition a été supprimée pour l’utilisation de
trigrammes. Pour le texte « Un Fou ? », treize propositions ont été soustraites, à nouveau pour
l’analyse avec des trigrammes. Pour le texte « Un Fou », une étape additionnelle a été effectuée.
Comme déjà mentionné, des balises supplémentaires entourant les dates ont été ajoutées, car ce
texte est écrit, majoritairement, sous la forme d’un journal intime et il est difficile d’attribuer
les dates à l’un des six types de discours proposés. Ces dates ont donc été retirées, réduisant
le nombre de proposition de 401 à 376. Finalement, deux propositions ont été retirées pour les
bigrammes et dix de plus pour les trigrammes.
Textes ] phrases ] prop.
] occurrences ] formes % de types de discours selon l’expert humain
ponct. s/ ponct. mot CMS nar arg expl descr dial inj
L’Orient 88 189 1’749 1’488 654 27 28.04 4.23 19.05 20.11 25.93 2.65
Le Voleur 102 208 1’918 1’582 667 29 61.54 4.81 4.81 12.02 13.94 2.88
Un Fou ? 150 314 2’625 2’185 764 28 33.76 18.15 14.65 10.51 14.65 8.28
Un Fou 242 376 3’065 2’548 828 29 42.55 17.82 11.70 13.83 1.86 12.23
Table 4.1 – Statistiques descriptives pour les quatre textes annotés de Maupassant. Pour le
texte « Un Fou », les dates ont préalablement été retirées du texte. Nombre de phrases telles que
considérées par TreeTagger (Schmid, 1994). Nombre de propositions telles que segmentées par
l’expert humain. Nombre d’occurrences (tokens) incluant les ponctuations et les mots composés
comme TreeTagger les a étiquetés. Nombre d’occurrences sans ponctuations, ni chiffres, et dont
les mots composés sont considérés comme des occurrences séparées. Nombre de formes (types) de
mots. Nombre de formes de CMS. Les dernières colonnes donnent le pourcentage de propositions
pour chaque type de discours (nar = narratif, arg = argumentatif, expl = explicatif, descr =
descriptif, dial = dialogal et inj = injonctif).
4.1.3 Prétraitement
Par l’intermédiaire d’un programme écrit en Perl, chacun des quatre textes est transformé
en trois tables de contingence, N = (nik), comptant, pour chaque proposition i délimitée par
l’annotateur, le nombre nik de chaque uni-, bi- ou tri-gramme de CMS de type k. De surcroît,
le type de discours de chaque proposition est extrait des textes annotés et ajouté comme une
colonne supplémentaire.
Dans le détail, le texte est d’abord étiqueté par TreeTagger (Schmid, 1994) à l’aide du module
Perl Lingua::TreeTagger 2
. Ce dernier permet d’obtenir, pour chaque mot ou balise XML
rencontrée dans le texte, respectivement la CMS du mot ou la balise XML originale, toutes
regroupées sous le terme d’étiquette dans la suite de ce paragraphe. Ensuite, pour chaque
étiquette, on vérifie si elle correspond, ou non, à une balise XML. S’il ne s’agit pas d’une balise
XML, l’étiquette correspond à une CMS et elle est stockée dans un tableau temporaire. Sinon,
l’étiquette correspond à une balise délimitant un type de discours ou une proposition. Étant
donné que seules les « feuilles » de la structure hiérarchique de l’annotation sont considérées (cf.
section 4.1.1.7), il n’est pas nécessaire de conserver l’entièreté de la structure de l’annotation
en types de discours. Ainsi, les types de discours peuvent être sauvegardés sous la forme d’une
pile (stack)
3
. Dès lors,
2. http://search.cpan.org/dist/Lingua-TreeTagger
3. Pour rappel, en informatique, une pile est une structure de données basée sur le principe de « dernier arrivé,
premier sorti » (LIFO : « Last-In-First-Out »).44 4. CLASSIFICATION NON SUPERVISÉE EN TYPES DE DISCOURS
— s’il s’agit d’une balise ouvrante délimitant un type de discours (
), alors
le type de discours est conservé dans la pile,
— s’il s’agit d’une balise ouvrante délimitant une proposition (), alors le type de discours
conservé dans la pile est attribué à cette proposition,
— s’il s’agit d’une balise fermante délimitant un type de discours (
), alors de dernier
type de discours entré dans la pile est retiré, et
— s’il s’agit d’une balise fermante délimitant une proposition (), alors les n-grammes de
CMS contenus dans le tableau temporaire sont comptés et attribués à cette proposition.
Cette procédure est exécutée trois fois pour chaque texte, soit une fois pour chaque longueur
de n-gramme de CMS.
4.1.4 Analyse préliminaire
Avant de passer à la classification non supervisée, il convient de s’assurer que la représentation
des données choisie est pertinente. Pour ce faire, il va être déterminé, d’une part, s’il existe
un lien général entre les types de discours et les CMS, et d’autre part, si certaines CMS sont
spécifiquement présentes dans chacun des types de discours. Ceci sera fait pour les quatre textes
regroupés, puis pour chaque texte pris séparément.
En premier lieu, des tables de contingence spécifiant le nombre de fois que chaque CMS
apparaît dans un des six types de discours sont construites pour chaque texte, puis pour les
quatre textes réunis. Ceci est fait en agrégeant les propositions appartenant à un même type
de discours dans les tables de contingence propositions - unigrammes de CMS préalablement
construites (cf. section 4.1.3). Les cinq tables ainsi créées sont exposées dans l’annexe B, section
B.1.
Pour vérifier s’il existe un lien général entre les CMS et les types de discours, un test du khi2
(1.1) est effectué sur chacune de ces cinq tables, conduisant aux résultats suivants :
Texte ddl khi2 valeur p
4 textes réunis 150 1100.18 < 2.2 × 10−16
L’Orient 130 304.15 5.46 × 10−16
Le Voleur 140 587.22 < 2.2 × 10−16
Un Fou ? 135 671.01 < 2.2 × 10−16
Un Fou 140 586.63 < 2.2 × 10−16
Les CMS et les types de discours sont donc significativement dépendants, que ce soit pour les
quatre textes réunis ou pour chaque texte étudié séparément. Ainsi, le choix d’utiliser les CMS
comme caractéristiques semble pertinent.
Ensuite, pour savoir s’il existe une attraction mutuelle entre certaines CMS et certains types
de discours, on calcule le quotient d’indépendance (1.2) et le khi2 ponctuel (1.3) sur les cinq
tables pour chaque paire de CMS - type de discours. Les résultats pour le khi2 ponctuel sont
présentés dans l’annexe B, section B.2. Quant aux quotients d’indépendance, les résultats pour
les quatre textes réunis sont exposés dans la table 4.2 ; et ceux pour chacun des quatre textes,
dans la table 4.3. De plus, dans ces tables, les valeurs significatives selon le khi2 ponctuel pour
α = 0.1% sont marquées par une étoile 4
. Une définition de toutes les abréviations de CMS
utilisées dans ces tables, ainsi que sur les figures de la section 4.2, se trouve dans l’annexe B.
En considérant les quatre textes réunis (table 4.2), on observe qu’il existe une attraction
mutuelle entre des CMS et des types de discours correspondant aux marques linguistiques
décrites dans la section 4.1.1. Par exemple, la ponctuation de citations (PUN:cit) est, comme
on pouvait s’y attendre, la CMS en attraction la plus forte avec le type dialogal. De plus,
ces deux modalités sont significativement dépendantes selon le khi2 ponctuel. On remarque
4. Naturellement, un traitement inférentiel rigoureux devrait tenir compte du problème des comparaisons multiples
non poursuivi ici.4.1. Données 45
nar arg expl descr dial inj
ABR 2.56 0.00 0.00 0.00 0.00 0.00
ADJ 0.82 0.87 1.06 1.57* 1.02 0.86
ADV 0.93 1.12 1.13 0.80 1.04 1.37
DET:ART 0.99 1.18 0.77 1.16 0.90 0.88
DET:POS 1.21 0.95 0.95 0.84 0.79 0.70
INT 1.12 1.07 1.16 0.00 1.56 1.04
KON 0.94 1.25 1.30 0.80 0.93 0.78
NAM 1.21 0.34 0.74 1.52 0.70 1.11
NOM 0.95 1.15 0.87 1.15 0.90 1.04
NUM 1.05 1.06 0.94 1.50 0.71 0.00
PRO 2.56 0.00 0.00 0.00 0.00 0.00
PRO:DEM 0.64* 1.49 1.52 1.03 1.18 0.58
PRO:IND 0.73 1.53 1.53 1.03 1.11 0.00
PRO:PER 1.24* 0.86 1.06 0.60* 1.02 0.64
PRO:REL 0.78 1.12 1.28 1.18 1.03 1.04
PRP 1.01 1.01 1.00 1.15 0.87 0.79
PRP:det 0.63* 1.18 0.68 1.28 1.51 1.83
PUN 1.03 0.96 0.82 1.12 0.86 1.27
PUN:cit 0.00* 0.20* 0.34 0.47 4.77* 4.24*
SENT 1.02 0.87 1.09 0.83 1.14 1.16
VER:cond 1.10 1.91 0.88 0.24 1.11 0.00
VER:futu 0.43 0.37 0.46 0.37 4.55* 1.44
VER:impe 0.00 0.00 0.00 0.00 0.00 17.33*
VER:impf 1.22 0.50 0.43 2.27* 0.36 0.10
VER:infi 0.98 0.94 1.52 0.93 0.96 0.50
VER:pper 1.21 0.75 0.97 1.07 0.82 0.51
VER:ppre 1.61* 0.25 0.61 0.85 0.72 0.64
VER:pres 0.68* 1.20 1.46* 0.71 1.18 2.05*
VER:simp 2.29* 0.25* 0.17* 0.28* 0.04* 0.00*
VER:subi 0.64 0.00 5.50* 0.55 0.00 0.00
VER:subp 0.26 1.34 1.65 0.00 3.12 1.73
Table 4.2 – Quotients d’indépendance entre les CMS et les types de discours pour les quatre
textes réunis. Les valeurs en gras désignent le quotient d’indépendance maximum pour chaque
CMS ; celles en italique, le quotient d’indépendance maximum pour chaque type de discours ;
et celles suivies d’une étoile, les valeurs significatives à α = 0.1% selon le khi2 ponctuel.
aussi qu’il existe une attraction mutuelle entre les interjections (INT) et le type dialogal, ce qui
semble cohérent, bien que ces CMS n’aient pas été considérées comme des marques linguistiques.
Cependant, la dépendance n’est ici pas significative.
Concernant le narratif, il existe une attraction mutuelle entre ce dernier et le passé simple
(VER:simp) et cette dépendance est significative, ce qui correspond aux marques linguistiques
retenues par l’expert humain. Il existe aussi une répulsion mutuelle entre le type narratif et la
ponctuation de citation, et il s’agit d’une dépendance significative. En effet, en observant les
effectifs des CMS dans les types de discours (table B.1), on remarque que c’est le seul type
de discours pour lequel la ponctuation de citation n’apparaît jamais. Plus surprenant, pour ce
type de discours, l’attraction mutuelle la plus importante a lieu avec les abréviations (ABR),
d’une part, et les pronoms (PRO), d’autre part. Néanmoins, aucune de ces deux CMS n’est
significativement dépendante de ce type de discours. En se référant à nouveau à la table B.1, on
remarque que bien que ces deux CMS n’apparaissent que dans le type narratif, elles sont rares,
soit une apparition pour les abréviations et deux, pour les pronoms. Ces deux pronoms apparaissent
dans le texte « Un Fou » (cf. table B.2) et correspondent à des pronoms interrogatifs.46 4. CLASSIFICATION NON SUPERVISÉE EN TYPES DE DISCOURS
Qui PRO qui
le PRO:PER le
croirait VER:cond croire
? SENT ?
Figure 4.2 – Extrait étiqueté par TreeTagger d’« Un Fou », correspondant à ligne 463 de
l’annexe A.4.
Un exemple est présenté dans la figure 4.2.
Pour l’injonctif, l’attraction mutuelle se produit, comme attendu d’après les marques linguistiques,
avec l’impératif (VER:impe) et cette dépendance est significative, bien que cette CMS
n’apparaisse que dans ce type de discours (table B.1). Concernant le descriptif, il est, sans
surprise, en attraction mutuelle avec les adjectifs (ADJ) et les verbes à l’imparfait (VER:impf).
Finalement, concernant l’argumentatif et l’explicatif, les résultats sont moins évidents à interpréter.
On peut simplement constater que l’argumentatif possède l’attraction mutuelle la plus
importante avec les verbes au conditionnel (VER:cond), sans que cette dépendance ne soit significative.
Pour l’explicatif, l’attraction mutuelle la plus élevée est avec les verbes à l’imparfait
du subjonctif (VER:subi) et il s’agit d’une dépendance significative. Néanmoins, uniquement
huit occurrences de cette CMS apparaissent dans l’ensemble des quatre textes (table B.1).
Au vu de ces premiers résultats, il est clair que le khi2 ponctuel et le quotient d’indépendance
donnent des informations différentes, mais complémentaires, qu’il pourrait être avantageux de
combiner, en particulier si l’on voulait faire une sélection de caractéristiques (feature selection).
À titre d’exemple, Li et al. (2008) proposent une telle combinaison qui ne sera pas utilisée ici.
Concernant les quatre textes étudiés séparément (table 4.3), une première constatation est
que malgré la présence de certains points communs, il existe des différences entre ces quatre
textes. En effet, on retrouve que le narratif est en attraction mutuelle avec le passé simple pour
les quatre textes, et le descriptif avec l’imparfait, même s’il ne s’agit pas systématiquement de
dépendances significatives. Cependant, les autres observations faites sur les quatre textes réunis
sont moins évidentes ici.
Par exemple, les adjectifs sont clairement en attraction mutuelle avec le descriptif pour les
textes « Un Fou ? » et « Un Fou », mais cette attraction est moins évidente pour le texte « Le
Voleur » et, inversement, pour le texte « L’Orient », il y a répulsion mutuelle entre les adjectifs
et le descriptif. Néanmoins, dans ces deux derniers textes, on remarque une attraction mutuelle
importante entre les adjectifs et l’injonctif.
Aussi, on constate que les interjections sont en attraction mutuelle avec le dialogal pour les
textes « L’Orient », « Le Voleur » et « Un Fou », mais avec l’injonctif pour le texte « Un Fou ? ».
Quant à la ponctuation de citation, elle est en attraction mutuelle avec le dialogal et l’injonctif
pour « L’Orient », mais cette attraction est plus élevée pour l’injonctif, alors qu’il existe une
dépendance significative selon le khi2 avec le dialogal. On retrouve une situation analogue pour
« Le Voleur », si ce n’est que dans ce texte, la dépendance entre la ponctuation de citation
est significative pour les deux types de discours. Cette même CMS est clairement en attraction
mutuelle avec l’injonctif pour « Un Fou ? » et avec le dialogal pour « Un Fou ». Il semble donc
que ces deux types de discours se confondent, ce qui peut certainement s’expliquer par le fait
que dans notre corpus, l’injonctif est, comme déjà mentionné, systématiquement inclus dans le
type dialogal.
Finalement, on peut remarquer que les conjonctions (KON) sont en attraction mutuelle avec
l’argumentatif pour « L’Orient » et « Un Fou », alors qu’elles sont en attraction mutuelle avec
l’explicatif pour « Le Voleur » et « Un Fou ? ».
Ces différences entre les quatre textes peuvent probablement s’expliquer par le fait que, bien
que les quatre textes soient des contes du même auteur, leur forme varie. Par exemple, comme
déjà mentionné plus haut, « Un Fou » est écrit sous la forme d’un journal intime et comporte4.1. Données 47
« L’Orient » « Le Voleur »
nar arg expl descr dial inj nar arg expl descr dial inj
ABR
ADJ 0.93 0.34 1.00 0.93 1.15 1.67 1.00 1.21 0.27 1.32 0.73 2.08
ADV 1.56 1.02 1.09 0.64 0.79 1.01 0.86 2.11 0.56 1.20 1.17 0.97
DET:ART 0.84 1.18 0.95 1.19 1.05 0.00 1.09 1.01 0.34 1.23 0.70 0.58
DET:POS 0.55 2.31 0.86 0.40 1.24 5.67* 1.03 1.35 2.40 0.45 0.93 0.00
INT 0.00 0.00 0.00 0.00 3.09 0.00 0.00 0.00 0.00 0.00 7.21* 0.00
KON 1.11 1.37 0.92 0.50 1.19 1.35 0.96 1.30 2.33 1.05 0.63 0.00
NAM 0.77 0.00 1.79 1.25 0.77 0.00 1.00 0.99 0.89 1.83 0.34 0.00
NOM 0.79 1.24 0.89 1.24 1.03 0.80 1.06 0.91 0.81 0.94 0.91 0.87
NUM 1.43 2.40 0.34 1.25 0.77 0.00 1.20 0.00 0.00 2.00 0.00 0.00
PRO
PRO:DEM 0.63 0.00 1.67 1.73 0.64 0.00 0.58 1.81 0.00 1.52 2.51 0.00
PRO:IND 0.26 0.00 1.49 0.84 1.55 0.00 1.01 4.17 1.86 0.70 0.00 0.00
PRO:PER 1.75* 0.94 0.89 0.61 0.83 0.58 1.06 1.08 1.23 0.66 1.05 0.45
PRO:REL 0.51 0.00 1.49 1.39 1.03 0.00 1.10 2.41 0.72 0.81 0.55 0.00
PRP 0.90 1.17 1.15 0.86 1.06 0.86 1.09 0.72 1.28 1.05 0.54 1.10
PRP:det 0.43 1.09 0.61 1.51 1.34 0.00 0.84 0.00 0.72 1.08 1.94 1.84
PUN 0.96 0.98 0.79 1.24 0.96 1.51 1.16 0.53 1.05 1.01 0.48 0.74
PUN:cit 0.00 1.83 0.00 0.48 2.21* 4.50 0.00* 0.43 1.52 0.14 5.15* 7.83*
SENT 1.15 0.87 1.16 1.03 0.77 1.61 0.84 0.82 0.73 0.96 1.77 1.88
VER:cond 1.53 0.00 3.59 0.00 0.00 0.00 0.56 0.00 0.00 2.33 2.40 0.00
VER:futu 0.00 0.92 0.26 0.24 2.65* 0.00 0.00 6.95 0.00 0.00 4.81 0.00
VER:impe 0.00 0.00 0.00 0.00 0.00 47.95*
VER:impf 1.53 0.00 0.90 1.67 0.52 0.00 0.73 0.87 1.16 2.92* 0.30 0.00
VER:infi 0.39 1.10 2.61* 0.72 0.71 0.00 0.77 1.25 1.49 1.12 1.73 0.00
VER:pper 1.00 1.20 0.84 0.78 1.26 0.00 1.01 0.39 1.76 1.45 0.54 0.00
VER:ppre 0.00 0.00 1.54 0.72 1.77 0.00 1.58 0.00 0.00 0.41 0.00 0.00
VER:pres 1.05 0.95 1.19 1.31 0.58* 2.32 0.26* 1.81 1.62 0.61 3.45* 5.21*
VER:simp 4.59* 0.00 0.00 0.00 0.00 0.00 1.51* 0.58 0.70 0.26 0.00* 0.00
VER:subi 1.68 0.00 0.00 0.00 0.00 0.00
VER:subp 0.00 0.00 0.00 0.00 3.09 0.00 0.00 20.85* 0.00 0.00 0.00 0.00
« Un Fou ? » « Un Fou »
nar arg expl descr dial inj nar arg expl descr dial inj
ABR 2.59 0.00 0.00 0.00 0.00 0.00
ADJ 0.93 1.11 1.08 1.90* 0.39 0.18 0.68 0.77 1.06 2.03* 1.37 0.93
ADV 0.77 1.13 1.43 0.60 1.31 0.95 0.94 0.92 0.86 0.86 1.74 1.56
DET:ART 1.02 1.36 0.45 1.35 0.77 0.78 0.90 1.17 1.11 0.96 0.50 1.04
DET:POS 1.70* 0.93 0.69 0.38 0.00 0.95 1.09 0.70 0.90 1.75 1.36 0.20
INT 0.23 1.22 1.09 0.00 2.06 5.56* 1.65 0.68 1.53 0.00 3.72 0.00
KON 0.92 1.21 1.51 0.69 0.83 0.17 0.89 1.22 0.91 0.99 0.50 1.09
NAM 1.55 0.61 0.00 0.56 1.03 2.78 0.32 0.00 1.26 2.27 0.00 3.33
NOM 1.06 1.23 0.76 1.18 0.56 1.04 0.86 1.16 0.98 1.12 0.64 1.06
NUM 1.38 1.46 0.00 1.79 0.00 0.00 0.71 0.82 3.68 1.10 0.00 0.00
PRO 2.59 0.00 0.00 0.00 0.00 0.00
PRO:DEM 0.20* 1.76 1.51 1.04 1.56 0.64 1.25 1.01 1.40 0.52 0.00 0.61
PRO:IND 1.01 1.03 1.71 0.94 0.43 0.00 0.68 1.96 0.88 1.32 0.00 0.00
PRO:PER 1.12 0.75 1.19 0.75 1.21 0.60 1.36* 0.94 0.89 0.46* 1.12 0.75
PRO:REL 0.74 1.31 1.27 0.44 1.61 0.54 0.77 0.99 1.11 1.42 0.00 1.25
PRP 1.22 0.93 0.94 0.93 0.78 0.50 0.81 1.15 0.79 1.54* 0.24 0.87
PRP:det 0.92 1.44 0.72 1.33 0.92 0.00 0.61 1.34 0.63 0.85 0.00 2.36*
PUN 1.01 1.11 0.81 0.96 0.88 1.50 0.90 0.87 0.79 1.25 1.96 1.26
PUN:cit 0.00* 0.00 0.00 1.49 2.06 12.98* 0.00 0.00 0.00 0.00 61.30* 0.00
SENT 0.72 0.88 1.00 1.13 1.60 1.93 1.29* 0.76 1.30 0.55 2.28 0.70
VER:cond 0.00 2.78 0.93 0.00 2.36 0.00 1.73 1.20 0.00 0.00 4.09 0.00
VER:futu 0.00 0.00 3.26 0.00 4.13 0.00 1.56 0.00 0.00 0.61 0.00 2.67
VER:impe
VER:impf 1.38 0.30 0.39 2.85* 0.50 0.00 1.30 0.59 0.19 1.91 1.14 0.16
VER:infi 1.34 0.30 1.22 0.78 1.44 0.00 0.95 1.17 1.35 1.03 0.00 0.63
VER:pper 0.90 0.11 1.51 2.08 1.54 0.00 1.40* 0.94 0.73 0.71 0.00 0.56
VER:ppre 2.10* 0.23 0.62 0.43 0.39 0.00 0.58 0.50 0.00 2.69 0.00 1.97
VER:pres 0.40* 1.23 1.42 0.30 1.97* 2.50* 1.02 1.00 1.46 0.46* 0.28 1.44
VER:simp 2.33* 0.33 0.00* 0.61 0.14 0.00 2.59 0.00 0.00 0.00 0.00 0.00
VER:subi 0.50 0.00 4.74* 0.81 0.00 0.00
VER:subp 0.00 0.00 0.00 0.00 8.25* 0.00 0.52 0.90 4.05 0.00 0.00 1.78
Table 4.3 – Quotients d’indépendance entre les CMS et les types de discours pour chaque
texte considéré séparément. Les valeurs en gras désignent le quotient d’indépendance maximum
pour chaque CMS ; celles en italique, le quotient d’indépendance maximum pour chaque type
de discours ; et celles suivies d’une étoile, les valeurs significatives à α = 0.1% selon le khi2
ponctuel.
donc un grand nombre de verbes au présent, aussi dans les types narratifs et descriptifs. Le
texte « L’Orient » contient aussi plusieurs longs monologues écrits au présent. Au vu de ces48 4. CLASSIFICATION NON SUPERVISÉE EN TYPES DE DISCOURS
différences, les quatre textes seront systématiquement étudiés séparément et non plus réunis
dans la suite de ce chapitre.
4.2 Visualisation
4.2.1 Propositions et CMS
Les données étant représentées sous la forme de tables de contingence croisant les propositions
et les n-grammes de CMS (ici seuls les unigrammes de CMS sont traités), il est possible d’y
appliquer l’analyse factorielle des correspondances (AFC) (cf. section 1.4). Pour ce faire, il
est possible de calculer les dissimilarités du khi2, puis d’effectuer un MDS sur ces dernières.
Il est aussi possible d’utiliser directement un logiciel dédié qui se base sur la décomposition
spectrale de la matrice des variances-covariances. La seconde solution a été adoptée ici, avec
le package « ca » de R (Nenadic et Greenacre, 2007). Plus précisément, afin d’obtenir des
résultats identiques à ceux qui seraient produits par le MDS, on utilise, pour créer les biplots, les
coordonnées dites principales, extraites grâce à la fonction « summary », au lieu des coordonnées
dites standardisées qui sont produites par défaut (Nenadic et Greenacre, 2007). Les résultats
ainsi obtenus sont présentés dans les figures 4.3 à 4.6.
-3000 -2000 -1000 0 1000
-2000 -1000
0 1000
Premier axe factoriel 10.07 %
Deuxième axe factoriel 8.09 %
argumentatif
descriptif
dialogal
explicatif
injonctif
narratif
-3000 -2000 -1000 0 1000
-2000 -1000
0 1000
Premier axe factoriel 10.07 %
Deuxième axe factoriel 8.09 %
PRO:IND VER:ppre
PUN:cit
VER:impf
VER:simp
NUM
SENT
VER:cond
VER:pper
PRO:PER
VER:futu
NAM
NOM PRP
PRP:det
ADV
DET:POS
INT
DET:ART
PRO:DEM
PRO:REL
ADJ
VER:pres
VER:infi
KON
VER:subp
PUN
-1000 -500 0 500
-1000 -500
0 500 1000
Premier axe factoriel 10.07 %
Deuxième axe factoriel 8.09 %
-1000 -500 0 500
-1000 -500
0 500 1000
Premier axe factoriel 10.07 %
Deuxième axe factoriel 8.09 %
PRO:IND VER:ppre
PUN:cit
VER:impf
NUM
SENT
VER:cond
VER:pper
PRO:PER
VER:futu
NAM
NOMPRP
PRP:det
ADV
DET:POS
INT
DET:ART
PRO:DEM
PRO:REL
ADJ
VER:pres
VER:infi
KON
VER:subp
PUN
Figure 4.3 – AFC sur « L’Orient ». Coordonnées factorielles des propositions (en haut à gauche)
et des unigrammes de CMS (en haut à droite). En bas : zoom sur le centre des figures du haut.4.2. Visualisation 49
Un premier constat est que l’inertie expliquée par les deux premiers facteurs est assez faible
pour les quatre textes, systématiquement inférieure à 20 % et il n’est donc pas évident d’interpréter
ces biplots. Il est tout de moins possible de remarquer quelques tendances.
La figure 4.3 montre le résultat de l’AFC sur le texte « L’Orient ». Bien qu’il soit difficile de
distinguer clairement des groupes, la vue d’ensemble (figures en haut) montre que les deux axes
différencient principalement le passé simple des autres CMS (figure droite). Le passé simple, qui
marque le narratif (cf. sections 4.1.1.1 et 4.1.4), est en attraction mutuelle avec les propositions
narratives (figure gauche, quadrant sud-ouest). Concernant, les AFC agrandies (figures en bas),
il est difficile de distinguer des groupes. Néanmoins, on remarque une concentration plus élevée
de propositions de type dialogal dans le quadrant sud-est (figure gauche) qui sont certainement
en attraction mutuelle avec la ponctuation de citation, les verbes au futur (VER:futu), les verbes
au participe présent (VER:ppre) et les verbes au subjonctif présent (VER:subp) (cf. table 4.3).
0 2000 4000 6000
0 5000 10000 15000
Premier axe factoriel 11.14 %
Deuxième axe factoriel 7.32 %
argumentatif
descriptif
dialogal
explicatif
injonctif
narratif
0 2000 4000 6000
0 5000 10000 15000
Premier axe factoriel 11.14 %
VER:ppre Deuxième axe factoriel 7.32 % VER:subi PRO:IND PUN:cit VER:impf VER:simp NUM
SENT
VER:cond
VER:pper PRO:PER NAM NOM
VER:futu
VER:impe
PRP PRP:det ADV
INT
DET:ART DET:POS
PRO:REL PRO:DEM
ADJ
VER:infi VER:pres KON VER:subp PUN
-500 0 500 1000 1500
-3000 -2000 -1000
0
Premier axe factoriel 11.14 %
Deuxième axe factoriel 7.32 %
-500 0 500 1000 1500
-3000 -2000 -1000
0
Premier axe factoriel 11.14 %
Deuxième axe factoriel 7.32 %
PRO:IND VER:ppre
VER:subi
VER:impf
VER:simp
NUM
SENT
VER:cond
VER:pper
PRO:PER
NAMNOM
VER:futu
PRP
PRP:det
ADV
DET:ART
DET:POS
PRO:DEM
PRO:REL
ADJ
VER:infi VER:pres
KON
PUN VER:subp
Figure 4.4 – AFC sur « Le Voleur ». Coordonnées factorielles des propositions (en haut à
gauche) et des unigrammes de CMS (en haut à droite). En bas : zoom sur le centre des figures
du haut.
Concernant le texte « Le Voleur » (figure 4.4), on observe, pour les CMS (figure en haut, à
droite), que le premier axe différencie les verbes à l’impératif, marque linguistique de l’injonctif
(cf. section 4.1.1.6) et les interjections, souvent présentes dans le type dialogal (cf. section 4.1.4),
des autres CMS. Quant au second axe, il différencie à nouveau les verbes à l’impératif des autres
CMS. Cependant, il est difficile de distinguer des groupes de types de discours (figure en haut, à50 4. CLASSIFICATION NON SUPERVISÉE EN TYPES DE DISCOURS
gauche). En observant le figure agrandie sur les propositions (en bas, à gauche), le premier axe
factoriel différencie les propositions dialogales et injonctives (à l’est) des propositions narratives
(à l’ouest). Ce contraste est certainement en relation avec la présence des interjections et de la
ponctuation de citation dans la zone est (figure en haut à droite). À nouveau, on constate que
le type injonctif et le type dialogal sont difficiles à distinguer dans notre corpus.
-4000 -3000 -2000 -1000 0
-2000
0 2000 4000 6000
Premier axe factoriel 9.76 %
Deuxième axe factoriel 8.71 %
argumentatif
descriptif
dialogal
explicatif
injonctif
narratif
-4000 -3000 -2000 -1000 0
-2000
0 2000 4000 6000
Premier axe factoriel 9.76 %
Deuxième axe factoriel 8.71 %
PRO:IND VER:ppre
PUN:cit
VER:subi NUM VER:impf VER:simp SENT VER:cond PRO:PER VER:pper VER:futu NOM
NAM
ADV PRP PRP:det
INT
DET:ART DET:POS
PRO:DEM PRO:RELADJ VER:pres
VER:subpPUN KONVER:infi
-1000 -500 0 500
-400 -200
0 200 400
Premier axe factoriel 9.76 %
Deuxième axe factoriel 8.71 %
-1000 -500 0 500
-400 -200
0 200 400
Premier axe factoriel 9.76 %
Deuxième axe factoriel 8.71 %
PRO:IND
VER:ppre
VER:subi
VER:impf
VER:simp
NUM
SENT
VER:cond
VER:pper PRO:PER
VER:futu
NOM
NAM
PRP
PRP:det ADV DET:POS
DET:ART
PRO:DEM
PRO:REL
ADJ
VER:pres
VER:infi
KON
VER:subp
PUN
Figure 4.5 – AFC sur « Un Fou ? ». Coordonnées factorielles des propositions (en haut à
gauche) et des unigrammes de CMS (en haut à droite). En bas : zoom sur le centre des figures
du haut.
Sur la figure 4.5, pour le texte « Un Fou ? », on observe sur la vue d’ensemble pour les propositions
(figure en haut à gauche) un détachement de propositions injonctives dans le quadrant
sud-ouest. On constate aussi la présence de ponctuation de citation dans ce même quadrant (fi-
gure en haut à droite), qui est en attraction mutuelle avec ce type dans ce texte (cf. table 4.3).
Sur la figure agrandie pour les propositions (figure en bas à gauche), les propositions narratives
se concentrent dans la zone est du graphique et sont certainement en attraction mutuelle avec
les verbes au passé simple dans le quadrant nord-est (figure en bas à droite).
Concernant le texte « Un Fou » (figure 4.6), il est nettement plus difficile de distinguer les six
types de discours que pour les autres textes. On peut tout de même remarquer (figure en haut
à droite) que le premier axe différencie les interjections des autres CMS ; et le second axe, les
pronoms (PRO), des autres CMS. Aussi, quelques CMS, soit les chiffres (NUM), la ponctuation
marquant la fin d’une phrase (SENT), la ponctuation de citation, les abréviations et les verbes4.2. Visualisation 51
-5000 -4000 -3000 -2000 -1000 0
0 5000 10000 15000
Premier axe factoriel 10.57 %
Deuxième axe factoriel 8.45 %
argumentatif
descriptif
dialogal
explicatif
injonctif
narratif
-5000 -4000 -3000 -2000 -1000 0
0 5000 10000 15000
Premier axe factoriel 10.57 %
Deuxième axe factoriel 8.45 %
PRO:IND
PRO
PUN:cit
VER:ppre VER:impf SENT NUMVER:simp
VER:cond
PRO:PER VER:pper VER:futu
NOM PRP PRP:det NAM
ADV
INT
DET:ART DET:POS
ABR
PRO:DEM PRO:REL ADJ KON VER:pres VER:infi VER:subp PUN
-600 -400 -200 0 200 400
-500
0 500 1000
Premier axe factoriel 10.57 %
Deuxième axe factoriel 8.45 %
-600 -400 -200 0 200 400
-500
0 500 1000
Premier axe factoriel 10.57 %
Deuxième axe factoriel 8.45 %
PRO:INDVER:ppre
VER:impf
VER:simp
NUM
PRO:PER
VER:pper
VER:futu
NAM
NOMPRP
PRP:det
ADV
DET:ART
DET:POS PRO:DEM
ADJ
PRO:REL
VER:pres
VER:infi KON
VER:subp
PUN
Figure 4.6 – AFC sur « Un Fou ». Coordonnées factorielles des propositions (en haut à gauche)
et des unigrammes de CMS (en haut à droite). En bas : zoom sur le centre des figures du haut.
au conditionnel, se distinguent du rassemblement compact des autres CMS au centre (figure
en bas à droite). Par conséquent (figure en haut à gauche), quelques propositions se détachent
du noyau central, mais n’étant pas toutes du même type, il est difficile d’en proposer une
interprétation.
En conclusion, cette section a permis de visualiser les observations déjà décrites numériquement
dans la section 4.1.4. Ainsi, on constate à nouveau des différences pour ces quatre textes
et on remarque, en utilisant uniquement les deux premières dimensions, qu’il n’est pas simple
de distinguer les six types de discours et que cette difficulté varie selon les textes, mais aussi
selon les types de discours.
Naturellement, il serait aussi possible, sur ces figures, de visualiser les résultats obtenus avec
les classifications automatiques présentées dans la section 4.3. Trois exemples de classification
non supervisée pour le texte « Un Fou ? » sont présentés dans les articles suivant : Cocco et al.
(2011) avec l’algorithme K-means flou et 8 groupes après agrégation, et Cocco (2012a) avec
l’algorithme K-means, dur et flou, et 6 groupes.
4.2.2 Types de discours et CMS avec bootstrap
Comme il a été possible de représenter les tables de contingence croisant les CMS et les propositions
grâce à l’AFC, il est aussi possible de le faire avec les tables de contingence croisant52 4. CLASSIFICATION NON SUPERVISÉE EN TYPES DE DISCOURS
les CMS et les types de discours, constitués de groupes de propositions, présentées dans l’annexe
B.1 et analysées dans la section 4.1.4. Les graphiques présentés dans cette section ont été
créés avec le logiciel Dtm-Vic 5 pour pouvoir valider les résultats par la technique du bootstrap
qui y est intégrée. Le bootstrap est une méthode empirique de validation d’un paramètre (ou
estimateur) basée sur le rééchantillonnage (voir par exemple Efron et Tibshirani, 1993). Le
principe consiste à créer plusieurs nouveaux échantillons de même taille que l’échantillon de
départ par un tirage avec remise dans cet échantillon de départ, puis de calculer le paramètre
sur ces nouveaux échantillons afin de simuler sa distribution. Il est alors possible de déterminer
l’intervalle de confiance dudit paramètre (voir par exemple Saporta, 2006, section 15.3.1 ;
Lebart et al., 1995, section 4.2.2). En particulier, pour l’AFC, plusieurs tables de contingence
sont créées en tirant n•• observations de la table de contingence initiale avec remise. Ceci est
équivalent à faire un tirage selon une loi multinomiale de probabilité pij = nij/n•• (Lebart
et al., 1995, section 4.2.3.a). Ensuite, pour construire des intervalles de confiance, qui seront ici
des ellipses de confiance, il existe deux possibilités : projeter les modalités des nouvelles tables
en tant que variables supplémentaires sur l’AFC produite avec la table initiale (bootstrap partiel)
; ou refaire une AFC pour chaque nouvelle table (bootstrap total) (voir par exemple Lebart,
2007; Dupuis et Lebart, 2009). La première solution a été adoptée ici en utilisant 30 réplications
de la table d’origine. Précisons encore que l’on n’a pas pratiqué le bootstrap sur les tables de
contingence propositions - CMS utilisées dans la section précédente, à cause du caractère creux
de ces dernières, susceptible de ne pas permettre le rééchantillonnage de certaines modalités qui
seraient alors supprimées avant l’application du bootstrap.
Figure 4.7 – AFC sur « L’Orient » entre les CMS et les types de discours avec validation par
bootstrap. Inertie expliquée par le premier axe factoriel : 46.73% ; et par le deuxième : 24.99%.
Les figures 4.7 à 4.10 présentent les résultats pour les quatre contes étudiés. À nouveau, les
5. Ce logiciel peut être librement téléchargé sur le site de Ludovic Lebart : http://www.dtmvic.com/.4.2. Visualisation 53
visualisations obtenues sont différentes pour chacun des textes. Aussi, étant donné que ces tables
de contingence comportent moins de modalités que celles utilisées dans la section 4.2.1, l’inertie
expliquée par les deux premiers facteurs est plus élevée, soit systématiquement supérieure à
70%.
Le résultat obtenu pour le texte « L’Orient » est présenté dans la figure 4.7. Pour commencer,
on constate que les CMS ont des positions relativement similaires à celles de la figure 4.3.
Rappelons que les tables utilisées dans cette section sont des agrégations des tables utilisées
dans la section 4.2.1 par rapport aux types de discours. En d’autres termes, les types de discours
représentés sur les figures de cette section sont les moyennes des propositions appartenant à ces
types de discours.
Concernant les types de discours de ce texte (figure 4.7, haut), la validation nous donne des
informations supplémentaires à celles que l’on aurait obtenues par une AFC simple d’une part ;
et à celles obtenues dans la section 4.1.4 d’autre part. Par exemple, on constate que les types de
discours argumentatif et injonctif ne sont pas significativement différents de l’origine, associée
au profil du « type de discours moyen ». Cela signifie que ces types de discours et les CMS
ne sont pas significativement dépendants. À l’inverse, les types narratif, explicatif, dialogal et
descriptif sont significativement différents de l’origine, et donc significativement dépendants des
CMS. De plus, on observe l’absence d’intersection entre les ellipses de confiance de ces types
qui sont donc bien différenciés selon les CMS qu’ils contiennent.
Les ellipses de confiance obtenues pour les CMS sont plus difficiles à distinguer, car elles sont
nombreuses (figure 4.7, bas). On peut néanmoins remarquer qu’elles ne sont jamais isolées et
qu’il existe donc une continuité entre elles. On constate aussi, par exemple, que la ponctuation
de citation et les verbes au futur sont significativement différents de l’origine.
Figure 4.8 – AFC sur « Le Voleur » entre les CMS et les types de discours avec validation par
bootstrap. Inertie expliquée par le premier axe factoriel : 65.29% ; et par le deuxième : 12.53%.54 4. CLASSIFICATION NON SUPERVISÉE EN TYPES DE DISCOURS
Les positions des CMS pour le texte « Le Voleur » de la figure 4.8 sont à nouveau assez
similaires à celles de la figure 4.4, quoique ce soit moins évident que pour le texte « L’Orient ».
Au sujet des types de discours (figure 4.8, haut), on observe que les types de discours injonctif,
dialogal, argumentatif, descriptif et narratif sont significativement différents de l’origine. Seul
le type explicatif ne l’est pas. Aussi, le type narratif est isolé des autres et il est stable, au
sens de faiblement variable. L’ellipse de confiance du type dialogal est quasiment incluse dans
l’ellipse de confiance du type injonctif, ce qui confirme à nouveau que ces deux types sont
relativement similaires. Les ellipses de confiance des types descriptif, argumentatif et explicatif
se chevauchent aussi et ne sont donc pas clairement distincts par rapport aux CMS. Concernant
les CMS (figure 4.8, bas), il est à nouveau difficile de les distinguer. Cependant, on remarque que
les verbes au présent (VER:pres) et la ponctuation de citation sont significativement différents
de l’origine et sont en attraction mutuelle avec les types injonctif et dialogal, ce que l’on pouvait
déjà observer dans la table 4.3.
Figure 4.9 – AFC sur « Un Fou ? » entre les CMS et les types de discours avec validation par
bootstrap. Inertie expliquée par le premier axe factoriel : 46.20% ; et par le deuxième : 25.00%.
À nouveau, on remarque que la configuration des CMS de la figure 4.9 partage des similitudes
avec celle de la figure 4.5, avec tout de même quelques différences importantes. Concernant les
types de discours (figure 4.9, haut), ils sont tous significativement différents de l’origine et donc
dépendants des CMS. De plus, il n’y a aucune intersection entre toutes les ellipses de confiance
de ces types de discours, ils sont donc clairement distincts. Concernant les CMS, on constate, par
exemple, que les interjections et la ponctuation de citation sont significativement différentes de
l’origine. Cependant, les ellipses de confiance sont étendues et donc ces CMS ne sont pas stables.
Quant aux verbes au présent et au conditionnel, ils sont aussi significativement différents de
l’origine, mais ils sont plus stables que les deux autres CMS.
Finalement, la figure 4.10 présente les résultats obtenus pour le texte « Un Fou ». Pour ce4.3. Classification non supervisée et résultats 55
Figure 4.10 – AFC sur « Un Fou » entre les CMS et les types de discours avec validation par
bootstrap. Inertie expliquée par le premier axe factoriel : 47.79% ; et par le deuxième : 27.06%.
dernier texte, le représentation des CMS est très différente à celle de la figure 4.6. Tous les
types de discours sont significativement différents de l’origine. La grande différence entre le
type dialogal et les autres types est que pour le premier, l’ellipse de confiance est très étendue
et donc que ce type n’est pas très stable. Concernant les CMS, on peut distinguer que les
interjections, les verbes au conditionnel et les les adjectifs sont significativement différents de
l’origine. De plus, ce dernier est en attraction mutuelle avec le type descriptif, comme il avait
déjà été observé dans la section 4.1.4.
4.3 Classification non supervisée et résultats
En premier lieu, les tables de contingence, croisant propositions et n-grammes de CMS (cf.
section 4.1.3), sont transformées par (1.6) en matrices de dissimilarités du khi2 entre les propositions
D = (Dij ). Cette étape est effectuée pour chacun des quatre textes et pour chaque
longueur de n-gramme de CMS, soit les uni-, bi- et trigrammes. Ensuite, deux méthodes de
classification non supervisée (présentées dans la section 2.1) sont utilisées : l’algorithme Kmeans
(section 4.3.1) et l’algorithme K-means flou (section 4.3.2). Leurs résultats sont évalués
au moyen d’indices d’accord entre partitions.
4.3.1 K-means
4.3.1.1 Choix des paramètres
Pour effectuer l’algorithme K-means, la matrice de dissimilarités du khi2 est utilisée avec l’algorithme
tel qu’il est décrit dans la section 2.1.2, en y incluant les transformations de puissance56 4. CLASSIFICATION NON SUPERVISÉE EN TYPES DE DISCOURS
de Schoenberg.
Plus particulièrement, l’algorithme K-means a été appliqué aux quatre textes, considérés
séparément, pour les uni-, bi- et trigrammes de CMS. La principale visée de cette classification
non supervisée étant de retrouver les 6 types de discours, on choisit un nombre de groupes m = 6.
Aussi, le nombre d’itérations maximal est fixé à Nmax = 400.
6 Concernant la transformation de
puissance (1.22), la puissance q varie de 0.1 à 1, avec des incréments de 0.05. Ainsi, la méthode
K-means est effectuée pour les 4 textes avec les 3 longueurs de n-gramme différentes, pour 19
valeurs de q, ce qui conduit à 228 cas différents.
Il faut encore noter que, puisque la solution de l’algorithme K-means dépend de la position
initiale des centres, déterminée ici par la matrice Z, générée aléatoirement, chaque cas est calculé
300 fois et l’on prend ensuite la moyenne des résultats obtenus pour chacun des cas.
Plus précisément, pour chacun des résultats, l’indice de Jaccard (2.11), J, et l’indice de Rand
corrigé (2.12), RC, sont calculés sur la table de contingence croisant les effectifs des propositions
catégorisées en 6 groupes par l’annotateur et classifiées en 6 groupes selon l’algorithme. Puis,
la moyenne de ces résultats, pour chaque cas, est calculée.
Une version de la méthode K-means, non pondérée, a aussi été testée en posant fi = 1/n
pour le calcul de f
g
j
dans (2.6). Les résultats ainsi obtenus sont exposés dans l’article de Cocco
et al. (2011).
4.3.1.2 Résultats
Les moyennes des résultats, obtenus pour J et RC en fonction de q avec l’algorithme K-means,
sont présentées dans les figures 4.11 à 4.14, sans les écarts-types. Les figures « complètes »,
avec les écarts-types des deux indices d’accord entre partitions, se trouvent dans l’annexe C,
section C.1.1.
1.0 0.8 0.6 0.4 0.2
0.00 0.01 0.02 0.03 0.04 0.05
Puissance (q)
Indice de Rand corrigé
1.0 0.8 0.6 0.4 0.2
0.11 0.12 0.13 0.14 0.15 0.16 0.17
Puissance (q)
Indice de Jaccard
Figure 4.11 – « L’Orient » avec l’algorithme K-means. Indice de Rand corrigé (gauche) et
de Jaccard (droite) en fonction de la puissance q. (◦ = unigrammes, 4 = bigrammes et × =
trigrammes). Pour rappel, q = 1 est équivalent à ne pas effectuer de transformation.
Deux premières constatations sont évidentes. Premièrement, les résultats obtenus pour les
quatre textes sont différents, comme le laisser supposer les liens entre les CMS et les types de
discours (cf. sections 4.1.4 et 4.2). Deuxièmement, les deux indices d’accord entre partitions
choisis produisent des résultats très différents. Cette différence entre les deux indices découle
6. Cette valeur n’est jamais atteinte, car la solution se stabilise rapidement (le nombre d’itérations maximum
observé sur l’ensemble des résultats jusqu’à stabilisation de la solution est de 46).4.3. Classification non supervisée et résultats 57
certainement du fait que l’indice de Jaccard ne considère pas le nombre de paires simultanément
séparées dans les deux partitions (Milligan et Cooper, 1986).
Cependant, on remarque aussi des régularités. Par exemple, concernant les textes « L’Orient »,
« Le Voleur » et « Un Fou ? », avec l’indice de Rand corrigé (graphiques de gauche des figures
4.11, 4.12 et 4.13), les unigrammes produisent les meilleurs résultats ; et les trigrammes, les
moins bons résultats en général. Pour le texte « Le Voleur » (figure 4.12, droite), avec l’indice
de Jaccard, les unigrammes révèlent aussi de meilleurs résultats.
1.0 0.8 0.6 0.4 0.2
-0.05 0.00 0.05 0.10 0.15
Puissance (q)
Indice de Rand corrigé
1.0 0.8 0.6 0.4 0.2
0.14 0.16 0.18 0.20 0.22
Puissance (q)
Indice de Jaccard
Figure 4.12 – « Le Voleur » avec l’algorithme K-means. Indice de Rand corrigé (gauche) et
de Jaccard (droite) en fonction de la puissance q. (◦ = unigrammes, 4 = bigrammes et × =
trigrammes).
Concernant l’indice de Jaccard avec les trois autres textes, soit « L’Orient », « Un Fou ? » et
« Un Fou » (graphiques de droite des figures 4.11, 4.13 et 4.14), on constate que les trigrammes
engendrent de meilleurs résultats pour des valeurs faibles de q et que la tendance s’inverse, avec
les meilleurs résultats pour les unigrammes, lorsque q > 0.65, respectivement 0.45 et 0.7.
1.0 0.8 0.6 0.4 0.2
-0.02 0.00 0.02 0.04 0.06 0.08
Puissance (q)
Indice de Rand corrigé
1.0 0.8 0.6 0.4 0.2
0.11 0.12 0.13 0.14 0.15 0.16 0.17
Puissance (q)
Indice de Jaccard
Figure 4.13 – « Un Fou ? » avec l’algorithme K-means. Indice de Rand corrigé (gauche) et
de Jaccard (droite) en fonction de la puissance q. (◦ = unigrammes, 4 = bigrammes et × =
trigrammes).
Avec l’indice de Rand corrigé, on observe aussi que les transformations de puissance semblent58 4. CLASSIFICATION NON SUPERVISÉE EN TYPES DE DISCOURS
améliorer les résultats. En effet, le meilleur résultat obtenu pour « L’Orient » (figure 4.11,
gauche), avec les unigrammes, est RC = 0.048 pour q = 0.55 ; pour « Le Voleur » (figure 4.12,
gauche), RC = 0.125 pour q = 0.95 ; pour « Un Fou ? » (figure 4.13, gauche), RC = 0.072 pour
q = 0.85 ; et pour « Un Fou » (figure 4.14, gauche), RC = 0.046 pour q = 0.25, mais cette fois
pour les trigrammes. De plus, que ce soit pour les uni-, les bi- ou les trigrammes de CMS dans
ce dernier texte, l’introduction de la transformation de puissance améliore systématiquement
les résultats au regard de l’indice de Rand corrigé.
1.0 0.8 0.6 0.4 0.2
0.00 0.01 0.02 0.03 0.04 0.05
Puissance (q)
Indice de Rand corrigé
1.0 0.8 0.6 0.4 0.2
0.12 0.14 0.16 0.18
Puissance (q)
Indice de Jaccard
Figure 4.14 – « Un Fou » avec l’algorithme K-means. Indice de Rand corrigé (gauche) et de
Jaccard (droite) en fonction de la puissance q. (◦ = unigrammes, 4 = bigrammes et × =
trigrammes).
Finalement, il est difficile de comparer les résultats et beaucoup de différences subsistent
entre les indices d’accord entre partitions. Cependant, malgré ces différences, les résultats sont
toujours meilleurs pour le texte « Le Voleur », et ce avec les deux indices utilisés. Comme déjà
mentionné (cf. section 2.3.1), il existe d’autres indices. À titre d’exemple, les mêmes essais ont
été faits en comparant les partitions par le biais du V de Cramer et les résultats sont présentés
dans la section C.1.2 de l’annexe. Derechef, les résultats les plus élevés sont obtenus, lorsque
l’on considère des unigrammes de CMS, pour le texte « Le Voleur ».
4.3.2 K-means flou
4.3.2.1 Choix de paramètres
Pour appliquer l’algorithme K-means flou, on utilise, à nouveau, pour chaque texte et pour
chaque longueur de n-gramme de CMS différente, la matrice des dissimilarités du khi2, D (cf.
introduction de cette section 4.3). L’algorithme K-means flou, tel qu’il est présenté dans la
section 2.1.3, est appliqué sur chacune de ces matrices D.
En particulier, pour chaque texte, le nombre de groupes de départ, m, est choisi égal au
nombre n de propositions présentes dans chacun des textes. Ainsi, le nombre de groupes final
après agrégation, M, est déterminé uniquement par la température relative, trel. Après plusieurs
essais, on choisit de faire varier cette dernière entre 0.022 et 0.3, avec des incréments de 0.001.
Concernant le texte « Un Fou », qui contient plus de propositions (table 4.1), on choisit de faire
varier trel entre 0.02 et 0.3, avec des incréments de 0.01, pour maintenir un temps de calcul
raisonnable.
À nouveau, le nombre d’itérations maximum a été fixé à Nmax = 400. Contrairement à la
méthode K-means (dur), cette valeur est parfois atteinte, car la solution semble se stabiliser4.3. Classification non supervisée et résultats 59
plus lentement, en particulier lorsque les valeurs de trel sont basses, mais pas forcément pour
les valeurs minimales choisies. Finalement, pour chaque trel, l’algorithme a été exécuté 20 fois,
puis les moyennes des indices d’accord entre partitions, J et RC, ont été calculées.
Il faut préciser que les 20 exécutions n’ont pas systématiquement abouti à un résultat, car
deux problèmes d’instabilités numériques différents ont été détectés. Le premier se produit lors
de la seconde itération si les valeurs de trel sont trop petites ; et le second, lors de l’agrégation des
m groupes en M groupes avec le critère de fusion des groupes (cf. section 2.1.3). Ces instabilités
numériques étant rares, les résultats ont simplement été supprimés, sans être recalculés.
4.3.2.2 Résultats
Les figures 4.15 à 4.22 présentent un résumé des résultats obtenus en appliquant l’algorithme
K-means flou sur les quatre textes. Sur toutes ces figures, les graphiques de droite présentent
un indice d’accord entre partitions en fonction du nombre de groupes final M. En réalité, il
s’agit d’une représentation paramétrique de la moyenne de l’indice d’accord entre partitions et
de la moyenne de M, sur les 20 exécutions, en fonction de la température relative trel. Aussi,
les résultats pour les moyennes de M et pour les moyennes des indices d’accord entre partitions
en fonction de trel sont présentés dans l’annexe C.2.
En premier lieu, on observe, sur les graphiques de gauche des figures 4.15 à 4.22, ainsi que
sur les graphiques du haut des figures de la section C.2, que, comme déjà annoncé dans la
section 2.1.3 présentant l’algorithme, le nombre de groupes final M, pour les trois longueurs
de n-gramme de CMS, diminue lorsque la température relative augmente. Aussi, comme pour
l’algorithme K-means (dur), on remarque que les résultats différent fortement selon l’indice
d’accord entre partitions utilisé et selon les textes.
0.05 0.10 0.15 0.20 0.25 0.30
0 20 40 60 80 100 120
-0.01 0.00 0.01 0.02 0.03
Température relative (trel
)
Nombre de groupes après agrégation
Indice de Rand corrigé
Nombre de groupes
Indice de Rand corrigé
0 20 40 60 80 100 120
-0.01 0.00 0.01 0.02
Nombre de groupes
Indice de Rand corrigé
Unigrammes
Bigrammes
Trigrammes
Figure 4.15 – « L’Orient » avec l’algorithme K-means flou. Moyenne (ligne épaisse) et écartstypes
(ligne fine) de l’indice de Rand corrigé, RC, et du nombre de groupes après agrégation, M,
en fonction de la température relative, trel, pour les unigrammes de CMS (gauche) et moyenne
de RC en fonction de la moyenne de M pour les uni-, bi- et trigrammes de CMS (droite).
La figure 4.15 montre que, pour « L’Orient » avec l’indice de Rand corrigé, les meilleurs ré-
sultats sont obtenus avec des unigrammes pour un nombre de groupe élevé, alors que pour un
nombre de groupes plus petit, en particulier pour M < 8 environ, les bigrammes engendrent
de meilleurs résultats. La valeur la plus élevée de l’indice, RC = 0.027, est obtenue avec les
unigrammes, lorsque M = 92.2, ce qui correspond à trel = 0.074. Ainsi, le meilleur résultat
s’obtient lorsqu’il y a environ 92 groupes pour 189 propositions (table 4.1), donc les groupes
contiennent 2 propositions en moyenne. Aussi, toujours pour les unigrammes, les résultats sont60 4. CLASSIFICATION NON SUPERVISÉE EN TYPES DE DISCOURS
0.05 0.10 0.15 0.20 0.25 0.30
0 20 40 60 80 100 120
0.05 0.10 0.15 0.20
Température relative (trel
)
Nombre de groupes après agrégation
Indice de Jaccard
Nombre de groupes
Indice de Jaccard
0 20 40 60 80 100 120
0.05 0.10 0.15 0.20
Nombre de groupes
Indice de Jaccard
Unigrammes
Bigrammes
Trigrammes
Figure 4.16 – « L’Orient » avec l’algorithme K-means flou. Moyenne (ligne épaisse) et écartstypes
(ligne fine) de l’indice de Jaccard, J, et du nombre de groupes après agrégation, M, en
fonction de la température relative, trel, pour les unigrammes de CMS (gauche) et moyenne de
J en fonction de la moyenne de M pour les uni-, bi- et trigrammes de CMS (droite).
parfois négatifs, ce qui signifie que l’accord entre la partition obtenue par l’algorithme et celle
créée par l’expert humain est moins bon qu’un accord qui serait obtenu au hasard (cf. section
2.3.1). Concernant les résultat obtenus avec l’indice de Jaccard (figure 4.16), on constate
un petit pic pour les bigrammes, J = 0.224, lorsque M = 1.9 (trel = 0.066), qui est le meilleur
résultat obtenu pour ce texte. À l’exception de ce pic, les meilleurs résultats sont obtenus avec
les trigrammes lorsque le nombre de groupes est petit (M < 54 environ). Pour un nombre de
groupes plus élevé, l’indice de Jaccard n’a pas pu être calculé en raison d’instabilités numériques
dues à des valeurs de trel (0.022 et 0.023) trop petites.
0.05 0.10 0.15 0.20 0.25 0.30
0 20 40 60 80 100 120
0.00 0.05 0.10 0.15 0.20 0.25 0.30
Température relative (trel
)
Nombre de groupes après agrégation
Indice de Rand corrigé
Nombre de groupes
Indice de Rand corrigé
0 20 40 60 80 100 120
0.00 0.05 0.10 0.15 0.20 0.25 0.30
Nombre de groupes
Indice de Rand corrigé
Unigrammes
Bigrammes
Trigrammes
Figure 4.17 – « Le Voleur » avec l’algorithme K-means flou. Moyenne (ligne épaisse) et écartstypes
(ligne fine) de RC et de M en fonction de trel, pour les unigrammes de CMS (gauche)
et moyenne de RC en fonction de la moyenne de M pour les uni-, bi- et trigrammes de CMS
(droite).
Concernant le texte « Le Voleur » (figures 4.17 et 4.18), les meilleurs résultats sont obtenus
avec les unigrammes pour les deux indices d’accord entre partitions. Aussi, il existe un pic4.3. Classification non supervisée et résultats 61
0.05 0.10 0.15 0.20 0.25 0.30
0 20 40 60 80 100 120
0.0 0.1 0.2 0.3 0.4 0.5
Température relative (trel
)
Nombre de groupes après agrégation
Indice de Jaccard
Nombre de groupes
Indice de Jaccard
0 20 40 60 80 100 120
0.0 0.1 0.2 0.3 0.4
Nombre de groupes
Indice de Jaccard
Unigrammes
Bigrammes
Trigrammes
Figure 4.18 – « Le Voleur » avec l’algorithme K-means flou. Moyenne (ligne épaisse) et écartstypes
(ligne fine) de J et de M en fonction de trel, pour les unigrammes de CMS (gauche) et
moyenne de J en fonction de la moyenne de M pour les uni-, bi- et trigrammes de CMS (droite).
remarquable sur chacune de ces deux figures, bien que plus important avec l’indice de Rand
corrigé. Pour l’indice de Rand corrigé (figure 4.17), il atteint une moyenne de RC = 0.305,
lorsque trel = 0.145, ce qui correspond à une moyenne de groupes M = 14.4. Quant à l’indice
de Jaccard (figure 4.18), sa valeur maximale est de J = 0.478, pour M = 13.4 (trel = 0.148). Il
semble donc que le nombre de groupes optimal soit plutôt de 14 que de 6. À titre d’exemple,
la table 4.4 présente une exécution typique de l’algorithme aboutissant à la génération de 14
groupes. En particulier, on constate que le groupe le groupe 1 est clairement dominant et qu’il
est associé au type de discours narratif, attribué à plus de 60% des propositions (cf. table 4.1).
Aussi, la majorité des propositions classées dans le groupe 11 par l’algorithme correspondent
à celles annotées comme descriptives par l’expert humain. Les propositions correspondant aux
différents groupes définis par l’algorithme sont fournies dans la table 4.5.
Effectifs
Algorithme K-means flou
Expert 1 2 3 4 5 6 7 8 9 10 11 12 13 14
argumentatif 7 0 0 0 1 1 0 0 1 0 0 0 0 0
descriptif 19 2 0 0 1 0 1 0 0 1 0 0 1 0
dialogal 7 0 1 0 0 0 0 2 2 1 15 0 0 1
explicatif 7 0 0 0 0 0 0 0 0 0 3 0 0 0
injonctif 2 0 0 1 0 0 0 0 0 0 2 0 0 1
narratif 116 1 0 0 2 0 3 0 0 1 0 4 1 0
Quotients d’indépendance
Algorithme K-means flou
Expert 1 2 3 4 5 6 7 8 9 10 11 12 13 14
argumentatif 0.92 0.00 0.00 0.00 5.20 20.80 0.00 0.00 6.93 0.00 0.00 0.00 0.00 0.00
descriptif 1.00 5.55 0.00 0.00 2.08 0.00 2.08 0.00 0.00 2.77 0.00 0.00 4.16 0.00
dialogal 0.32 0.00 7.17 0.00 0.00 0.00 0.00 7.17 4.78 2.39 5.38 0.00 0.00 3.59
explicatif 0.92 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 3.12 0.00 0.00 0.00
injonctif 0.44 0.00 0.00 34.67 0.00 0.00 0.00 0.00 0.00 0.00 3.47 0.00 0.00 17.33
narratif 1.19 0.54 0.00 0.00 0.81 0.00 1.22 0.00 0.00 0.54 0.00 1.62 0.81 0.00
Table 4.4 – Exemple d’un résultat obtenu avec l’algorithme K-mean flou sur le texte « Le
Voleur » avec trel = 0.146, aboutissant à la création de 14 groupes. Pour cet exemple : RC =
0.322 et J = 0.483.62 4. CLASSIFICATION NON SUPERVISÉE EN TYPES DE DISCOURS
Groupe Exemple Autres membres du groupe
1
Et le vieil artiste se mit à cheval sur une
chaise. 21
8, 11, 12, 13, 17, 23, 25, 28, 29, 32, 33, 35, 36, 37, 38, 39,
42, 43, 44, 46, 47, 49, 50, 51, 58, 59, 60, 61, 62, 63, 64, 65,
69, 70, 74, 76, 78,79, 80, 81, 82, 83, 85, 86, 87, 91, 92, 95,
96, 98, 99, 100, 101, 102, 103, 109, 111, 112, 114, 116, 117,
120, 121, 123, 124, 125, 126, 128, 129, 130, 131, 132, 133,
137, 139, 143, 144, 145, 147, 148, 149, 150, 151, 152, 153,
154, 159, 160, 161, 162, 167, 169, 170, 172, 173, 175, 176,
178, 179, 180, 184, 185, 186, 194, 198, 199, 200, 206, 207,
208, 209, 211, 215, 222, 224, 229, 230, 232, 233, 234, 235,
237, 238, 240, 241, 242, 244, 245, 246, 247, 248, 252, 253,
254, 255, 256, 264, 265, 266, 267, 268, 269, 270, 271, 273,
274, 275, 276, 283, 284, 285, 286, 287, 290, 295, 296, 297
2 Il était sombre et profond. 113 34, 158
3 celui-ci doit être livré au bourreau. 225 -
4 "Soyons prudents", 106 -
5 où l’esprit farceur sévissait si bien 16 97, 115, 146
6 qui ont connu cette époque 15 -
7 où il fut englouti. 48 84, 118, 210
8
"Eh bien, mon pauv’vieux, comment ça
va-t-il ?" 258 141
9
Les peintres seuls ne s’étonneront point,
surtout les vieux 14 6, 93
10 mais je n’oserais affirmer 30 136, 273
11 "Vous voulez rire, sans doute." 182 5, 53, 67, 72, 90, 135, 156, 164, 190, 192, 203, 213, 218,
226, 250
12 Puis il dit : 187 88, 166, 260
13 que c’était lui. 31 45
14 "Au secours !" 196 55
Table 4.5 – Propositions énoncées correspondant au résultat présenté dans la table 4.4 et
obtenu avec l’algorithme K-means flou. Les nombres dans cette table font référence aux lignes
de l’annexe A.2.
0.05 0.10 0.15 0.20 0.25 0.30
0 50 100 150
0.00 0.02 0.04 0.06
Température relative (trel
)
Nombre de groupes après agrégation
Indice de Rand corrigé
Nombre de groupes
Indice de Rand corrigé
0 50 100 150
0.00 0.01 0.02 0.03 0.04 0.05 0.06
Nombre de groupes
Indice de Rand corrigé
Unigrammes
Bigrammes
Trigrammes
Figure 4.19 – « Un Fou ? » avec l’algorithme K-means flou. Moyenne (ligne épaisse) et écartstypes
(ligne fine) de RC et de M en fonction de trel, pour les unigrammes de CMS (gauche)
et moyenne de RC en fonction de la moyenne de M pour les uni-, bi- et trigrammes de CMS
(droite).
Concernant le texte « Un Fou ? » (figures 4.19 et 4.20), à l’instar du texte « Le Voleur »,
les unigrammes produisent systématiquement les meilleurs résultats. En fait, pour les bi- et les
trigrammes, le nombre de groupes après agrégation M chute rapidement à 1, plus précisément
lorsque trel > 0.079 pour les bigrammes, et lorsque trel > 0.028 pour les trigrammes. De plus,
pour des valeurs basses de trel, des instabilités numériques se produisent. Ainsi, peu de résultas
sont exploitables. Avec l’indice de Rand corrigé (figure 4.19), deux pics apparaissent pour les
unigrammes. Le premier vaut RC = 0.051, lorsque M = 7.8 (trel = 0.158) ; et le second, plus
élevé, RC = 0.062, lorsque M = 24.5 (trel = 0.126). Avec l’indice de Jaccard (figure 4.20),4.3. Classification non supervisée et résultats 63
0.05 0.10 0.15 0.20 0.25 0.30
0 50 100 150
0.05 0.10 0.15 0.20
Température relative (trel
)
Nombre de groupes après agrégation
Indice de Jaccard
Nombre de groupes
Indice de Jaccard
0 50 100 150
0.05 0.10 0.15 0.20
Nombre de groupes
Indice de Jaccard
Unigrammes
Bigrammes
Trigrammes
Figure 4.20 – « Un Fou ? » avec l’algorithme K-means flou. Moyenne (ligne épaisse) et écartstypes
(ligne fine) de J et de M en fonction de trel, pour les unigrammes de CMS (gauche) et
moyenne de J en fonction de la moyenne de M pour les uni-, bi- et trigrammes de CMS (droite).
on observe un petit pic pour les unigrammes, J = 0.216, lorsque M = 7.1 (trel = 0.157),
donc pour un nombre de groupes proche de celui du premier pic observé avec l’indice de Rand
corrigé. Cependant, il ne correspond pas à la valeur maximale obtenue pour ce texte, qui est de
J = 0.217 pour M = 3.7 (trel = 0.202).
0.05 0.10 0.15 0.20 0.25 0.30
0 50 100 150
-0.04 -0.03 -0.02 -0.01 0.00
Température relative (trel
)
Nombre de groupes après agrégation
Indice de Rand corrigé
Nombre de groupes
Indice de Rand corrigé
0 50 100 150
-0.03 -0.02 -0.01 0.00
Nombre de groupes
Indice de Rand corrigé
Unigrammes
Bigrammes
Trigrammes
Figure 4.21 – « Un Fou » avec l’algorithme K-means flou. Moyenne (ligne épaisse) et écartstypes
(ligne fine) de RC et de M en fonction de trel, pour les unigrammes de CMS (gauche)
et moyenne de RC en fonction de la moyenne de M pour les uni-, bi- et trigrammes de CMS
(droite).
Comme pour « L’Orient », les résultats pour « Un Fou » prennent des valeurs négatives avec
l’indice de Rand corrigé (figure 4.21), mais sur une plus grande étendue pour ce texte, en
particulier avec les unigrammes. Il faut noter que peu de résultats obtenus avec les bigrammes
sont exploitables, et encore moins avec les trigrammes, car pour ces derniers tous les résultats,
indépendamment de la valeur de trel correspondent à M = 1 (cf. graphique du haut de la
figure C.12). Concernant les résultats obtenus avec l’indice de Jaccard (figure 4.22), ils sont
aussi très similaires à ceux obtenus pour le texte de « L’Orient », sans pics cependant.64 4. CLASSIFICATION NON SUPERVISÉE EN TYPES DE DISCOURS
0.05 0.10 0.15 0.20 0.25 0.30
0 50 100 150
0.05 0.10 0.15 0.20 0.25
Température relative (trel
)
Nombre de groupes après agrégation
Indice de Jaccard
Nombre de groupes
Indice de Jaccard
0 50 100 150
0.05 0.10 0.15 0.20 0.25
Nombre de groupes
Indice de Jaccard
Unigrammes
Bigrammes
Trigrammes
Figure 4.22 – « Un Fou » avec l’algorithme K-means flou. Moyenne (ligne épaisse) et écartstypes
(ligne fine) de J et de M en fonction de trel, pour les unigrammes de CMS (gauche) et
moyenne de J en fonction de la moyenne de M pour les uni-, bi- et trigrammes de CMS (droite).
Malgré l’hétérogénéité des résultats, on constate, comme avec l’algorithme K-means, plusieurs
régularités. En particulier, les unigrammes produisent généralement de meilleurs résultats avec
l’indice de Rand corrigé. On remarque aussi que le nombre de groupes semble évoluer différemment
en fonction de trel selon que les uni-, bi- ou trigrammes de CMS sont utilisés. Il pourrait
donc être intéressant de faire varier différemment trel pour les bi- et trigrammes, malgré les
résultats souvent moins bons pour ces derniers.
Aussi, les résultats obtenus pour le texte « Le Voleur », quel que soit l’indice d’accord entre
partitions utilisé, sont nettement meilleurs, tout comme avec l’algorithme K-means (dur). Les
résultats sont plus décevants pour les textes « L’Orient » et « Un Fou » qui, pour rappel (cf.
section 4.1.4), ont certainement une structure un peu différente des deux autres contes. On
note aussi que, par construction, l’indice de Jaccard (graphiques de droite des figures de la
section C.2) prend une valeur constante et positive lorsqu’il ne reste qu’un groupe (pour un
exemple de calcul avec « Le Voleur » voir Cocco, 2012b).
4.4 Discussion
Concernant la classification non supervisée, il est clair que les résultats sont difficiles à interpréter,
que les deux indices choisis ne fournissent pas la même information et que les différents
textes engendrent des résultats différents, et ce quelque soit l’algorithme choisi. Cependant,
plusieurs régularités ont été observées et permettent quelques conclusions. Premièrement, les
unigrammes de CMS donnent généralement de meilleurs résultats que les bi- et les trigrammes
de CMS. Cela s’explique peut-être par le fait que pour les bi- et les trigrammes, la table de
contingence est creuse, conduisant au problème du « fléau de la dimension » ou de « la malé-
diction de la dimension » (curse of dimensionality), en particulier dans le cadre la classification
(voir par exemple Houle, Kriegel, Kröger, Schubert et Zimek, 2010). Deuxièmement, l’introduction
de la transformation de puissance peut améliorer les résultats. Aussi, les résultats sont
systématiquement meilleurs pour le texte « Le Voleur », peu importe l’algorithme de classification
ou la méthode d’évaluation. Il faut noter que ces résultats sont à considérer avec précaution
en raison de deux limitations : la taille relativement courte des textes et le fait qu’il n’y ait qu’un
seul annotateur.
Au-delà de ces résultats intéressants, il reste de nombreuses pistes à explorer. Au niveau de la4.4. Discussion 65
méthode de classification, il est clair qu’il serait intéressant de combiner les transformations de
Schoenberg avec l’algorithme K-means flou. Pratiquement, pour ce faire, il suffirait, comme pour
l’algorithme K-means, de transformer D en D˜ = ϕ(D) lors de l’initialisation (cf. section 2.1.3).
Une toute autre voie serait d’utiliser des algorithmes de classification supervisée (cf. section 2.2)
qu’il serait avantageux d’associer avec des méthodes de sélection de caractéristiques (feature
selection) (voir par exemple Yang et Pedersen, 1997). Il s’agirait alors de les appliquer à des
textes plus longs pour se prémunir des risques de sur-paramétrisation.
Concernant le choix des caractéristiques, une première piste de recherche serait d’utiliser spé-
cifiquement les marques linguistiques de chaque type de discours décrites dans la section 4.1.1.
Aussi, on pourrait s’intéresser au fonctionnement du logiciel Tropes 7 qui permet, entre autres
choses, de classer l’ensemble d’un texte, à condition qu’il soit suffisamment long, dans un des
quatre « styles » suivants : argumentatif, narratif, énonciatif et descriptif (basés sur les modes
d’organisation du discours de Charaudeau, 1992, troisième partie, pp. 631-835). Bien que ces
modes de discours ne soient pas strictement identiques aux types de discours étudiés dans ce
travail, les caractéristiques retenues par le logiciel sont de même type que celles proposées dans
les marques linguistiques (cf. section 4.1.1), mais plus fines que les CMS obtenues avec TreeTagger.
Il pourrait ainsi être intéressant de se baser sur ces caractéristiques. Dans cette même
perspective, il serait possible d’utiliser un autre étiqueteur morpho-syntaxique, tel que Cordial
Analyseur 8
. Il serait aussi possible d’utiliser les lemmes, à la place de ou en combinaison avec
les CMS. La difficulté principale de toutes ces approches serait le risque d’obtenir des matrices
creuses et donc de rencontrer, à nouveau, le problème du fléau de la dimension. Il faudrait aussi,
dans la perspective d’obtenir un système totalement indépendant d’un annotateur, définir une
méthode de segmentation automatique du texte en propositions.
Une autre étape supplémentaire qu’il faudrait envisager est la prise en compte de la structure
hiérarchique des types de discours (cf. section 4.1.1.7), car seules les feuilles de la structure ont
été utilisées ici. Par exemple, il serait intéressant de déterminer le type de discours dominant
pour chaque proposition, ce qui devrait d’abord être défini par un expert humain. Ainsi, il serait
possible de travailler sur des unités plus longues que les propositions. Aussi, le type de discours
injonctif étant systématiquement inclus dans le type dialogal à l’intérieur de notre corpus, il
pourrait être supprimé pour obtenir un groupe dialogal plus important.
Finalement, il serait idéal d’obtenir plus de textes annotés, ce qui permettrait d’améliorer les
résultats et d’utiliser les méthodes proposées ci-dessus. Il faudrait aussi un second annotateur,
au minimum, pour pouvoir mesurer la difficulté de la tâche d’annotation pour un expert humain.
7. http://www.tropes.fr/
8. http://www.synapse-fr.com/Cordial_Analyseur/Presentation_Cordial_Analyseur.htmCHAPITRE 5
Classification supervisée multi-étiquette en actes de dialogue
Ce chapitre reprend, presque intégralement, l’article Cocco (2014), en présentant quelques
résultats supplémentaires. La visée de ce chapitre est la classification supervisée multi-étiquette
en actes de dialogue des tours de parole des contributeurs aux pages de discussion de Simple
English Wikipedia (Wikipédia en anglais simple).
Les articles de Wikipédia sont créés par ses contributeurs, qui partagent leurs informations
et leurs critiques sur des pages de discussion, chaque article étant lié à une page de discussion.
Ces discussions fournissent une base de données que Ferschke, Gurevych et Chebotar (2012) ont
segmentée, pour Simple English Wikipedia, en tours de parole, définis comme les interventions
successives des intervenants. Ils ont ensuite annoté ces tours de parole avec des actes de dialogue
(section 5.1).
De nombreux travaux (voir par exemple Stolcke et al., 2000) se sont intéressés à la classifi-
cation de dialogues écrits ou oraux en actes de dialogue (dialogue acts) ou en actes de langage
ou de discours (speech acts), servant à caractériser la fonction d’un énoncé dans un dialogue
(Austin, 1962; Searle, 1969). Les actes de dialogue peuvent être différents selon le but de la classification
(pour une comparaison des principaux actes de dialogue et de langage utilisés, voir par
exemple Goldstein et Sabin, 2006). Ferschke et al. (2012) utilisent leur propre jeu d’étiquettes
d’actes de dialogue avec pour but de comprendre les « efforts de coordination pour l’amélioration
d’un article ». Dans un second temps, ils ont procédé à une classification multi-étiquette.
En général, un acte de dialogue est attribué à chaque énoncé, ce qui conduit à une classification
ordinaire mono-étiquette. Dans ce jeu de données, les tours de parole, pouvant être composés
de plusieurs énoncés, sont étudiés et peuvent donc se voir attribuer un ou plusieurs actes de
dialogue, ce qui conduit à une classification multi-étiquette (cf. section 2.3.2 et 5.3.2.1) des
tours de paroles en actes de dialogue. Pour examiner la cohérence de ces annotations et pour
déterminer une méthode de classification, on commence ici par analyser les relations entre les
étiquettes (section 5.2).
Concernant les actes de dialogue, Colineau et Caelen (1995) distinguent quatre types de
marqueurs :
— linguistiques (morphologiques, syntaxiques et lexicaux),
— prosodiques,
— situationnels (phases du dialogue et règles d’enchaînement préférentiel) et
— du geste.
Ici, le jeu de données contient exclusivement des textes écrits, sans annotation des actions
qui découlent du dialogue ; ainsi seuls les marqueurs linguistiques et situationnels peuvent être
employés. Ferschke et al. (2012) utilisent les deux types de marqueurs, i.e. des uni-, des bi- et des
6768 5. CLASSIFICATION SUPERVISÉE MULTI-ÉTIQUETTE EN ACTES DE DIALOGUE
trigrammes (linguistiques), d’une part, et le temps entre les tours de parole, leur indentation,
etc. (situationnels), d’autre part, puis les combinent. Ce travail propose d’utiliser trois autres
caractéristiques (features), toutes de nature linguistique, et de les étudier séparément pour
mieux comprendre l’impact de chacune d’entre elles, sans visée de performance globale. Les
trois types de caractéristiques employées sont (section 5.3.1) :
— les lemmes (unigrammes), donnant des résultats légèrement meilleurs que les mots-formes
dans la classification en actes de dialogues de messages dans des chats (Kim, Cavedon et
Baldwin, 2010) ;
— les catégories morphosyntaxiques (CMS), dont l’intérêt pour la classification en actes
de dialogue est démontré dans plusieurs travaux (voir par exemple Cohen, Carvalho et
Mitchell, 2004; Boyer, Ha, Phillips, Wallis, Vouk et Lester, 2010) ; et
— le sens des verbes selon WordNet (Fellbaum, 1998). Deux articles, l’un étudiant la
classification de messages sur des forums (Qadir et Riloff, 2011), l’autre la classification
d’e-mails (Goldstein et Sabin, 2006), concluent que des classes de verbes (selon des listes
prédéfinies) aident à la reconnaissance de certains actes de langage. L’idée, un peu différente
ici, est de voir si les classes recréées à l’aide de WordNet permettent une telle
reconnaissance dans le jeu de données étudié.
Finalement, concernant la méthode de classification, alors que les auteurs du jeu de données
ont employé des approches classiques, telles que le classifieur Bayésien naïf ou les Séparateurs à
Vastes Marges (SVM), ce travail utilise l’analyse discriminante linéaire, étendue aux transformations
de Schoenberg. Les résultats ainsi obtenus sont exposés dans la section 5.3.3, puis les
extensions possibles de la méthode sont discutées dans la section 5.4.
5.1 Données
Les données utilisées dans ce projet sont celles de Ferschke et al. (2012) et mises librement
à disposition sur Internet (http://www.ukp.tu-darmstadt.de/data/wikidiscourse). Comme
déjà expliqué ci-dessus, elles concernent les pages de discussion de Wikipédia en anglais simple.
Une partie de ces pages de discussion ont été extraites, segmentées automatiquement en tours
de parole (1450 au total), puis classifiées en actes de dialogue. Pour cette dernière étape, deux
annotateurs ont classifié l’ensemble du corpus. Ensuite, dans les cas où les deux annotateurs
n’étaient pas d’accord, un troisième annotateur expert a pris la décision finale, ce qui a permis
constituer un corpus de référence (pour la structure des données et le détail, voir Ferschke et al.,
2012).
Les étiquettes qu’ils ont utilisées se divisent en quatre groupes principaux, lesquelles se subdivisent
en un jeu de 17 étiquettes, soit 1
:
— Les étiquettes interpersonnelles (Interpersonal) « décrivent l’attitude qui est exprimée
envers les autres participants dans la discussion et/ou les commentaires ». Ces étiquettes
se divisent en trois sous-étiquettes :
— « une approbation ou un rejet partiel » (ATTP),
— « une attitude négative envers un autre participant ou un rejet » (ATT-) et
— « une attitude positive envers un autre participant ou une approbation » (ATT+).
— Les étiquettes de critique d’articles (Article Criticism) « dénotent les commentaires
qui identifient des insuffisances dans l’article. La critique peut porter sur l’article entier
ou sur une partie de l’article ». Cet ensemble se subdivise en sept parties :
— « les insuffisances de langage ou de style » (CL),
— « un contenu incomplet ou un manque de détail » (CM),
— « d’autres sortes de critiques » (CO),
1. Les définitions de ce paragraphe sont une traduction personnelle des définitions proposées dans Ferschke et al.
(2012). Des exemples de tours de parole appartenant à chacune de ces 17 étiquettes et extraites du jeu de données
se trouvent dans leur article.5.2. Liens entre étiquettes 69
— « des problèmes objectifs » (COBJ),
— « des problèmes structurels » (CS),
— « un contenu inapproprié ou inutile » (CU) et
— « le manque de précision ou d’exactitude » (CW).
— Les étiquettes sur le contenu informationnel (Information Content) « décrivent la
direction de la communication ». Elles se divisent en trois catégories :
— « une correction de l’information » (IC),
— « un apport d’information » (IP) et
— « une demande d’information » (IS).
— Les étiquettes de performativité explicite (Explicit Performative) concernent « l’annonce,
le rapport ou la suggestion d’activités d’édition ». Elles se divisent en quatre souscatégories
:
— « un engagement à une action dans le futur » (PFC),
— « le rapport d’une action accomplie » (PPC),
— « une référence explicite ou un indicateur » (PREF) et
— « une suggestion, une recommandation ou une demande explicite » (PSR).
5.2 Liens entre étiquettes
Chaque tour de discussion pouvant avoir plusieurs étiquettes ou appartenir à plusieurs groupes
g = 1, . . . , m, il semblait pertinent de commencer par déterminer s’il existe des liens entre ces
étiquettes. En plus de permettre une meilleure compréhension de l’annotation et de sa cohérence,
cette première étude permet de choisir une méthode de classification multi-étiquette appropriée,
i.e. prenant en compte ou non le lien entre les étiquettes (cf. section 5.3.2.1).
5.2.1 Traitements
Pour mesurer le lien qui existe entre deux étiquettes (ou classes ou groupes) g et g
0
, on utilise
les indices présentés dans la section 1.2.2, et en particulier, le coefficient phi (cf. section 1.2.2.2)
et le Q de Yule (cf. section 1.2.2.3).
Pour ce faire, une table de contingence 2 × 2 a été créée pour chaque paire d’étiquettes,
représentant le nombre d’absences et de présences (codées 0 et 1) simultanées de chaque classe
pour chaque étiquette i = 1, . . . , n, comme présenté dans la table 1.2. Dans cette table, la
variable catégorielle X possède deux modalités, soit la présence et l’absence de g, et la variable
Y , la présence et l’absence de g
0
. Ceci nous permet de calculer φgg0 (1.4) et Qgg0 (1.5).
Dans un second temps, à partir de la matrice des corrélations entre toutes les classes Φ =
(φgg0) , une analyse en composantes principales (ACP) (voir par exemple Lebart et al., 1995,
section 1.2) a été effectuée afin de visualiser les relations entre les différentes étiquettes et étudier
la diversité de ces dernières. Pour pratiquer l’ACP, on utilise la fonction « PCA » du package
« FactoMineR » (Lê, Josse et Husson, 2008; Husson et al., 2013) de R.
5.2.2 Résultats
Les résultats pour le coefficient phi et le Q de Yule sont présentés dans la table 5.1. Pour les
coefficients phi, la valeur maximale de 0.358 est obtenue pour la paire d’étiquettes CS et PSR,
ce qui signifie que, souvent, les tours de parole classés comme parlant de problèmes structurels
sont aussi classés comme constituant une suggestion, une recommandation ou une demande
explicite, et inversement, ce qui semble cohérent. Quant à la valeur minimale de -0.306, elle se
produit entre les classes IP et PFC. Cela suggère qu’en général, si un tour de parole apporte de
l’information, il ne propose pas en même temps un engagement à une action dans le futur.
En ce qui concerne le Q de Yule, la valeur maximale de 0.925 est atteinte pour les classes IP
et IC, ce qui signifie qu’une des classes est presque incluse dans l’autre ; en fait, IC est presque70 5. CLASSIFICATION SUPERVISÉE MULTI-ÉTIQUETTE EN ACTES DE DIALOGUE
ATTP ATT- ATT+ CL CM CO COBJ CS CU
ATTP -0.039 -0.051 -0.051 -0.028 -0.028 0.047 -0.049 -0.026
ATT- -1 -0.055 -0.107* -0.053 -0.047 0.008 -0.071* -0.026
ATT+ -1 -0.527 -0.089* -0.013 -0.010 0.022 -0.051 -0.030
CL -0.707 -1 -0.532 0.018 -0.046 0.056 0.043 -0.004
CM -0.477 -0.590 -0.084 0.086 0.031 -0.003 0.123* 0.010
CO -1 -1 -0.099 -0.464 0.253 0.003 -0.020 -0.032
COBJ 0.564 0.115 0.229 0.415 -0.042 0.059 -0.009 0.067*
CS -1 -0.809 -0.364 0.183 0.503 -0.222 -0.130 0.001
CU -1 -0.455 -0.383 -0.034 0.098 -1 0.632 0.009
CW -1 -0.381 -0.301 -0.034 -0.064 -0.417 0.229 -0.271 0.473
IC 0.008 0.204 -0.670 0.817 -0.152 0.279 -0.105 -0.118 -0.333
IP 0.842 0.723 0.232 0.722 0.605 0.287 0.638 0.663 0.760
IS -0.288 -0.358 -0.534 0.132 0.284 0.410 -0.387 0.042 0.281
PFC 0.435 -0.424 0.584 -0.370 0.074 -1 0.180 -0.320 -0.059
PPC -0.196 -0.597 -0.144 -0.742 -0.736 -0.576 -0.311 -0.776 -0.523
PREF 0.347 0.058 -0.415 -0.594 -0.594 -0.207 -1 -0.648 -0.139
PSR -0.722 -0.562 -0.168 0.683 0.810 0.583 0.418 0.845 0.528
CW IC IP IS PFC PPC PREF PSR
ATTP -0.034 0.001 0.080* -0.026 0.046 -0.023 0.026 -0.075*
ATT- -0.030 0.033 0.118* -0.050 -0.034 -0.098* 0.005 -0.099*
ATT+ -0.032 -0.080* 0.056 -0.089* 0.137* -0.035 -0.033 -0.043
CL -0.005 0.353* 0.190* 0.036 -0.048 -0.188* -0.053 0.303*
CM -0.007 -0.021 0.118* 0.067* 0.010 -0.133* -0.038 0.309*
CO -0.024 0.036 0.040 0.072* -0.044 -0.070* -0.011 0.125*
COBJ 0.017 -0.008 0.059* -0.030 0.013 -0.032 -0.025 0.062*
CS -0.028 -0.018 0.138* 0.009 -0.034 -0.151* -0.044 0.358*
CU 0.057 -0.025 0.084* 0.042 -0.004 -0.061* -0.007 0.103*
CW 0.222* 0.120* 0.021 0.033 -0.084* 0.034 0.060*
IC 0.758 0.176* -0.072* -0.053 -0.124* 0.013 0.159*
IP 0.855 0.925 -0.115* 0.099* -0.306* 0.089* 0.295*
IS 0.128 -0.438 -0.322 -0.023 -0.149* -0.031 0.002
PFC 0.267 -0.588 0.632 -0.157 -0.064* -0.007 -0.024
PPC -0.570 -0.622 -0.627 -0.563 -0.389 -0.066* -0.293*
PREF 0.329 0.123 0.776 -0.301 -0.096 -0.551 -0.050
PSR 0.277 0.497 0.802 0.005 -0.127 -0.825 -0.366
Table 5.1 – Pour toutes les paires d’étiquettes, g et g
0
, coefficients φgg0, suivis d’une étoile pour
les valeurs significatives au niveau α = 5% (matrice triangulaire supérieure) et Qgg0 (matrice
triangulaire inférieure). Les valeurs maximales et minimales de chaque coefficient sont notées
en gras.
incluse dans IP, car cette dernière a été assignée à la grande majorité des tours de parole, soit
78,3 % (Ferschke et al., 2012). Ainsi, la plupart des tours de parole proposant une correction
de l’information, amènent aussi de l’information. Aussi, la majorité de cette classe IP devrait
impliquer que la plupart des autres classes soient, en parties, incluses dans celle-ci. En effet, on
observe que le Q de Yule est positif entre la classe IP et chaque autre classe, à l’exception des
classes IS et PPC.
Quant à la valeur minimale de -1, elle est obtenue pour plusieurs paires de classes. Cela signifie,
pour rappel (cf. section 1.2.2.3), que soit aucun tour de parole n’appartient simultanément aux
deux classes, soit tous les tours de parole appartiennent à au moins une des deux classes. En
fait, il s’agit du premier cas pour toutes les paires de classes. En particulier, on remarque qu’une
approbation ou un rejet partiel (ATTP) exclut une attitude négative (respectivement positive)
envers un autre participant ou un rejet (resp. une approbation) (ATT- resp. ATT+), diverses
critiques (CO), des problèmes structurels (CS), un contenu inapproprié (CU) ou la manque
d’exactitude (CW). Cependant, cette exclusion, qui pourrait sembler utile à la classification,
est certainement due au fait que l’étiquette ATTP est peu présente dans le corpus (elle est
attribuée à seulement 2.4 % des tours de parole selon Ferschke et al., 2012).
Finalement, comme il a été exposé dans la section précédente, une ACP a été effectuée5.3. Classification supervisée 71
5 10 15
0
2
4
6
8 10 12
Dimensions
Proportion de variance expliquée [%]
-1.0 -0.5 0.0 0.5 1.0
-1.0 -0.5 0.0 0.5 1.0
Variables factor map (PCA)
Dim 1 (12.95%)
Dim 2 (8.18%)
ATTP
ATTATT+
CL
CM
CO
COBJ
CS
CU
CW
IC
IP
IS
PFC
PPC
PREF
PSR
ATTP
ATTATT+
CL
CM
CO
COBJ
CS
CU
CW
IC
IP
IS
PFC
PPC
PREF
PSR
ATTP
ATTATT+
CL
CM
CO
COBJ
CS
CU
CW
IC
IP
IS
PFC
PPC
PREF
PSR
ATTP
ATTATT+
CL
CM
CO
COBJ
CS
CU
CW
IC
IP
IS
PFC
PPC
PREF
PSR
ATTP
ATTATT+
CL
CM
CO
COBJ
CS
CU
CW
IC
IP
IS
PFC
PPC
PREF
PSR
ATTP
ATTATT+
CL
CM
CO
COBJ
CS
CU
CW
IC
IP
IS
PFC
PPC
PREF
PSR
ATTP
ATTATT+
CL
CM
CO
COBJ
CS
CU
CW
IC
IP
IS
PFC
PPC
PREF
PSR
ATTP
ATTATT+
CL
CM
CO
COBJ
CS
CU
CW
IC
IP
IS
PFC
PPC
PREF
PSR
ATTP
ATTATT+
CL
CM
CO
COBJ
CS
CU
CW
IC
IP
IS
PFC
PPC
PREF
PSR
Figure 5.1 – ACP sur la matrice des corrélations Φ : proportion de variance expliquée par
chaque dimension (gauche) et cercle des corrélations (droite).
sur la matrice des corrélations Φ. Le diagramme des valeurs propres de la figure 5.1 (gauche)
montre qu’un faible pourcentage de la variance totale est expliqué par les deux premiers facteurs
(moins de 22%), ce qui signifie que les étiquettes sont diversifiées et que l’information qu’elles
contiennent peut difficilement être compressée. Le cercle des corrélations (figure 5.1 droite) est
difficilement interprétable, un phénomène attendu au vu de la non significativité d’un grand
nombre de coefficients phi.
5.3 Classification supervisée
5.3.1 Prétraitements et caractéristiques
Comme déjà mentionné dans l’introduction de ce chapitre, les caractéristiques utilisées dans
ce travail sont uniquement linguistiques. La première étape du prétraitement, exécuté à l’aide
d’un programme écrit en Perl, a consisté à « nettoyer » les données de Ferschke et al. (2012), pour
en enlever les balises HTML (concernant principalement la mise en forme) 2
, les ponctuations
découlant de la mise en forme du texte, les informations concernant les utilisateurs, l’heure à
laquelle le tour de parole a été posté, les symboles indiquant l’indentation du tour de parole
par rapport au premier tour de parole de la discussion, les éléments concernant les liens et les
tags dans Wikipédia et les divers symboles, tels que des coeurs ou des lettres grecques, car ces
derniers n’étaient pas compatibles avec la suite du prétraitement. Aussi, les caractères spéciaux
en code HTML ont été remplacés par les caractères correspondants en latin1.
Ensuite, trois types de caractéristiques ont été extraites pour chaque tour de parole : les
lemmes, les CMS, et le sens des verbes (selon WordNet). Les lemmes et les CMS ont été extraits
à l’aide de TreeTagger (Schmid, 1994) 3
, à l’aide du même module Perl que celui exposé dans
la section 4.1.3.
L’extraction du sens des verbes a été effectuée à l’aide de WordNet et TreeTagger. Dans
WordNet, les verbes sont organisés sous forme d’ontologie par des relations sémantiques, dont
2. Par conséquent, les quelques balises faisant partie d’une question ou d’une réponse sur leurs utilisations, par
exemple, ont aussi été supprimées.
3. À ce stade, quelques petites modifications ont été apportées au texte pour qu’il soit plus correctement étiqueté
par TreeTagger. En particulier, des espaces ont été ajoutés entre certains symboles et les mots qu’ils entouraient ;
les guillemets simples ont été remplacés par des guillemets doubles ; et les symboles, tels que « = », répétés deux
ou trois fois, ont été remplacés par une seule occurrence de ce même symbole.72 5. CLASSIFICATION SUPERVISÉE MULTI-ÉTIQUETTE EN ACTES DE DIALOGUE
l’hyperonymie (pour plus d’information, voir section 6.3.1). Aussi, l’ensemble des concepts de
verbes n’ont pas une seule racine commune, consistant en un seul plus petit hyperonyme commun.
Ainsi, pour chaque tour de parole, les lemmes des mots considérés comme des verbes par
TreeTagger ont été soumis à WordNet, par l’intermédiaire du module Perl WordNet::QueryData
(Rennie, 2000). En particulier, le premier sens du verbe proposé, pour des raisons d’automatisation,
a été retenu, puis l’hyperonyme le plus général a été conservé et ce dernier hyperonyme
est retenu comme caractéristique de ce tour de parole. Les verbes modaux ne sont pas traités
par WordNet. Cependant, au vu de leur importance supposée pour la classification en actes de
dialogue, il semblait intéressant de les ajouter explicitement au même titre que les hyperonymes
traités par WordNet.
À ce stade, trois tables de contingence sont créées : tours de parole - CMS, tours de parole
- lemmes et tours de paroles - verbes (hyperonyme le plus général ou un des verbe modaux),
comptant le nombre d’occurrences de chaque caractéristique par tour de parole. Les tours de
parole qui n’étaient pas étiquetés ont été supprimés ; il s’agissait généralement de tours de parole
soit trop longs et contenant toutes sortes d’informations, soit écrits en français ou encore mal
segmentés. Les tours de parole ne contenant aucune des caractéristiques décrites plus haut ont
également été supprimés. Au final, la base de données a été réduite de 1’450 à 1’324 tours de
parole, contenant 5’198 lemmes distincts, 57 CMS distinctes et 155 sens de verbes distincts.
5.3.2 Traitements
5.3.2.1 Classification multi-étiquette
Deux types d’approche sont couramment pratiqués pour la classification multi-étiquette
(Tsoumakas, Katakis et Vlahavas, 2010) : le premier (problem transformation) consiste à recoder
le jeu de données pour le transformer en problème de classification ordinaire, sans modification
des algorithmes de classification ; le second (algorithm adaptation) adapte les algorithmes pour
qu’ils puissent directement traiter des données multi-étiquette.
Pour ce travail, il a été choisi d’utiliser le premier traitement, i.e. le recodage des données.
Parmi les nombreux recodages possibles, celui du recodage binaire (Binary Relevance (BR))
a été choisi. Cela signifie que chaque tour de parole sera classé de façon binaire, i.e. comme
faisant partie ou non d’une classe donnée (avec un classifieur pour chaque étiquette). Bien que ce
recodage soit parfois critiqué, car il ne prend pas en compte les dépendances entre les étiquettes,
il a ici plusieurs avantages :
— il permet de rendre les résultats comparables à ceux de Ferschke et al. (2012) qui utilisent
le même principe ;
— il a le mérite, en plus d’avoir une complexité computationnelle faible, d’être simple, intuitif,
résistant au surapprentissage des combinaisons d’étiquettes et de pouvoir traiter les
étiquetages irréguliers (Read, Pfahringer, Holmes et Frank, 2011) ; et
— il est particulièrement adapté aux situations où il n’y a pas de dépendance entre les
étiquettes, ce qui semble être le cas ici (cf. section 5.2.2).
Par ailleurs, Luaces, Dìez, Barranquero, del Coz et Bahamonde (2012) proposent un indice qui
mesure la dépendance entre toutes les étiquettes comme la moyenne des corrélations φgg0 pour
chaque paire d’étiquettes g et g
0
, pondérée par le nombre d’individus (ici les tours de parole)
communs |g ∩ g
0
| :
dépendance =
P
g E0(δ)
pour r ≤ 226 avec les noms (respectivement r ≤ 370 avec les verbes), ce qui laisse supposer
qu’il y a une attraction sémantique entre les noms (respectivement les verbes) dans un large
voisinage. Plus particulièrement, on remarque que pour les noms, le résultat est opposé à celui
obtenu pour le texte de l’Atlantic Charter, avec une attraction sémantique relativement élevée
dans un proche voisinage, ce qui signifie peut-être qu’avec ce texte sous forme de nouvelle, le
champ lexical est plus similaire dans un proche voisinage.
6.3.3 MDS et autocorrélation sur les premiers facteurs
Les dissimilarités entre concepts (6.3) étant euclidiennes carrées, il est possible d’appliquer
un MDS, une approche originale à notre connaissance dans le cas sémantique. Les mots, que ce
soit les noms ou les verbes, n’ont pas été pondérés, ainsi le MDS ordinaire est utilisé, équivalent
à la version pondérée (1.25) en prenant des poids uniformes.
Dans un second temps, les coordonnées xjα (1.25b) des deux premiers facteurs (α = 1, 2)
ont été extraites et une nouvelle dissimilarité euclidienne carrée a été calculée, telle que Dα
ij =
(xiα−xjα)
2
. Avec ces dissimilarités et une matrice d’échange à fenêtre mobiles, l’autocorrélation
est à nouveau mesurée pour ces deux premières dimensions sémantiques.
6.3.3.1 Atlantic Charter
Le résultat obtenu en appliquant un MDS sur les dissimilarités sémantiques entre les noms
est exposé dans la figure 6.10. Malgré un pourcentage faible d’inertie expliquée par les deux
premiers facteurs (18.4%), on remarque trois groupes de noms clairement distincts. Dans le90 6. AUTOCORRÉLATION TEXTUELLE
0 20 40 60 80
0
2
4
6
8 10
Dimensions
Proportion d'inertie expliquée [%]
-2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0
-1.0 -0.5 0.0 0.5 1.0
premier axe factoriel 9.65 %
deuxième axe factoriel 8.78 %
majesty future
world
people
government
term advancement
tyranny
nation
boundary
life
freedom
hindrance
reason
air
frontier
security
disarmament
armament
Figure 6.10 – MDS sur le sens des noms de l’Atlantic Charter. Gauche : valeurs propres ;
droite : coordonnées pour les deux premiers axes factoriels.
quadrant nord-ouest, on trouve des noms tels que nation, government, country ou people, dont
le plus petit hyperonyme commun est le concept « group, grouping », défini dans WordNet
comme « any number of entities (members) considered as a unit ». Dans le quadrant nord-est
se trouvent des noms, tels que freedom, security ou majesty, qui sont englobés dans le concept
« attribute » qui est défini comme étant « an abstraction belonging to or characteristic of an
entity ». Finalement, le troisième groupe, dans la zone sud, est composé de tous les autres noms,
donc ceux qui ne sont pas englobés dans les concepts « group, grouping » ou « attribute ».
Ainsi, le premier axe différencie les noms concernant le « group, grouping » de ceux concernant
« attribute », et le deuxième oppose les noms englobés dans ces deux concepts aux autres.
0 5 10 15 20 25 30
-0.2 -0.1 0.0 0.1 0.2
matrice d'échange à fenêtres mobiles, r
indice d'autocorrélation
δ
0 5 10 15 20 25 30
-0.2 -0.1 0.0 0.1 0.2
matrice d'échange à fenêtres mobiles, r
indice d'autocorrélation
δ
Figure 6.11 – Sens des noms de l’Atlantic Charter : δ pour la première (gauche) et la deuxième
(droite) dimension sémantique en fonction de r = 1, . . . , 30, avec un matrice d’échange à fenêtres
mobiles.
L’autocorrélation mesurée sur la première dimension sémantique des noms (figure 6.11 gauche)
n’est jamais significative et inférieure à E0(δ) pour r ≤ 3. Ceci laisse penser que dans un voisinage
restreint, il peut y avoir alternance entre les noms relatifs au concept « group, grouping »
et ceux relatifs au concept « attribute ». Quant à la deuxième dimension sémantique (figure 6.116.3. Sens des mots selon WordNet 91
gauche), on remarque que l’autocorrélation n’est à nouveau pas significative, mais que les valeurs
négatives sont plus élevées, en valeur absolue, pour r petit, ce qui semble indiquer une
alternance entre les noms en relation avec les concepts « group, grouping » et « attribute » et
tous les autres noms.
0 10 20 30 40 50
0
2
4
6
8
Dimensions
Proportion d'inertie expliquée [%]
-0.5 0.0 0.5 1.0 1.5 2.0
-2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0
premier axe factoriel 8.71 %
deuxième axe factoriel 6.63 %
be
deem
seek
see
have
further
desire hope
afford
believe
aid
lighten
Figure 6.12 – MDS sur le sens des verbes de l’Atlantic Charter. Gauche : valeurs propres ;
droite : coordonnées pour les deux premiers axes factoriels.
0 5 10 15 20 25 30
-0.2 -0.1 0.0 0.1 0.2
matrice d'échange à fenêtres mobiles, r
indice d'autocorrélation
δ
0 5 10 15 20 25 30
-0.2 -0.1 0.0 0.1 0.2
matrice d'échange à fenêtres mobiles, r
indice d'autocorrélation
δ
Figure 6.13 – Sens des verbes de l’Atlantic Charter : δ pour la première (gauche) et la deuxième
(droite) dimension sémantique en fonction de r = 1, . . . , 30, avec un matrice d’échange à fenêtres
mobiles.
Comme pour les noms, avec un pourcentage d’inertie expliquée un peu plus faible pour les
deux premiers facteurs (15.3%), trois groupes apparaissent en appliquant le MDS sur les dissimilarités
sémantiques entre les verbes (figure 6.12). Le plus petit hyperonyme commun des
verbes présents dans le quadrant sud-est est le concept « desire, want », défini comme « feel
or have a desire for ; want strongly ». Dans le quadrant sud-ouest se trouvent des verbes tels
que lighten, deem ou respect, tous englobés dans le concept « think, cogitate, cerebrate », défini
comme « use or exercise the mind or one’s power of reason in order to make inferences, decisions,
or arrive at a solution or judgments ». Enfin, le troisième groupe, dans le quadrant nord-ouest,
est composé de verbes sémantiquement hétérogènes et ne possédant pas un hyperonyme com-92 6. AUTOCORRÉLATION TEXTUELLE
mun. Il semble donc que le premier facteur oppose les verbes englobés dans le concept « desire,
want » à ceux qui ne le sont pas. Pareillement, le second facteur différencie les verbes relatifs
au concept « think, cogitate, cerebrate » des autres.
Comme pour les noms, on remarque qu’en mesurant l’autocorrélation sur la première et la
deuxième dimension sémantique, elle n’est jamais significative (figure 6.13) (sauf pour r = 50
dans la seconde dimension). Cependant, elle est supérieure à E0(δ) pour r ≤ 2 avec la première
dimension, et inférieure à E0(δ) pour r ≤ 12. Il semblerait donc que, dans un voisinage restreint,
il y a peu d’alternance entre les verbes reliés au concept « desire, want » et les autres, et qu’il y
en a plus entre les verbes englobés dans le concept « think, cogitate, cerebrate » et les autres.
6.3.3.2 The Masque of the Red Death
Pour ce texte, plus long que le précédent, l’inertie expliquée par les deux premiers axes
factoriels dans le cas des noms est plus faible (14.9%) et les groupes sont plus nombreux (figure
6.14).
0 100 200 300 400 500
0
2
4
6
8 10
Dimensions
Proportion d'inertie expliquée [%]
-1.0 -0.5 0.0 0.5 1.0 1.5
-1.0 -0.5 0.0 0.5 1.0
premier axe factoriel 9.8 %
deuxième axe factoriel 5.08 %
body
progress
bolt
impulse
duke
turn
glass
ceiling
fold
candle
suite
part
none
gaiety
night visage
chamber
account
terror
shadow
Figure 6.14 – MDS sur le sens des noms de The Masque of the Red Death. Gauche : valeurs
propres ; droite : coordonnées pour les deux premiers axes factoriels.
Le groupe dans le quadrant nord-ouest est composé de noms (terror, gaiety, courage, magni-
ficence, etc.) englobés dans le concept « attribute » qui est « an abstraction belonging to or
characteristic of an entity », lui-même englobé dans le concept plus général de « abstraction,
abstract entity ». Dans le quadrant sud-ouest, on distingue deux groupes. Celui qui est plus
au sud et qui contient des noms tels que progress, impulse, sympathy ou creation, a pour plus
petit hyperonyme commun le concept « psychological feature », défini comme « a feature of the
mental life of a living organism » et est à nouveau hyponyme de « abstraction, abstract entity ».
L’autre groupe de ce quadrant contient tous les noms qui sont englobés dans le concept « abstraction,
abstract entity », soit « a general concept formed by extracting common features from
specific examples », mais qui ne sont pas des hyponymes de « attribute » ou de « psychological
feature », comme par exemple : night, part, music ou orchestra.
Les noms chamber, candle, minute hand, structure, etc. forment un groupe dans le quadrant
nord-est et ont comme plus petit hyperonyme commun le concept « artifact, artefact », soit « a
man-made object taken as a whole ». A l’est, entre les quadrants nord-est et sud-est, se trouve
un groupe composé de noms, tels que body, duke, mummer ou violet, englobés dans le concept
« whole, unit » qui désigne « an assemblage of parts that is regarded as a single entity », mais qui
ne sont pas un « artifact, artefact ». En effet, il faut préciser que le concept « artifact, artefact »
est un hyponyme de « whole, unit », lui-même hyponyme indirect de « physical entity ». Enfin,6.3. Sens des mots selon WordNet 93
le groupe dans le quadrant sud-est, proche du centre, contient tous les noms, tels que glass,
visage, flame ou stream, englobés dans le concept de « physical entity », mais qui ne sont pas
des hyponymes de « whole, unit ».
En conclusion, le premier axe s’interprète comme l’oppositions entre « abstraction, abstract
entity » et « physical entity », mais le second axe reste difficile à interpréter de manière univoque.
0 100 200 300 400 500
-0.05 0.00 0.05
matrice d'échange à fenêtres mobiles, r
indice d'autocorrélation
δ
0 100 200 300 400 500
-0.05 0.00 0.05
matrice d'échange à fenêtres mobiles, r
indice d'autocorrélation
δ
Figure 6.15 – Sens des noms de The Masque of the Red Death : δ pour la première (gauche)
et la deuxième (droite) dimension sémantique en fonction de r, qui varie de 1 à n = 491, avec
un matrice d’échange à fenêtres mobiles.
La mesure de δ sur le premier axe factoriel (figure 6.15 gauche) est positive et clairement
significative lorsque r ≤ 107 (sauf pour r = 2). Ainsi, de longs segments de textes doivent
contenir une majorité de noms relatifs à un seul des deux concepts : « abstraction, abstract entity
» ou « physical entity ». Le second axe factoriel étant difficile à interpréter, l’autocorrélation
mesurée sur celui-ci (figure 6.15 droite) l’est tout autant. On peut simplement constater que δ
n’est presque jamais significatif , qu’il est positif pour r = 1, puis négatif avant de rapidement
s’approcher de E0(δ).
0 100 200 300
0
2
4
6
8 10
Dimensions
Proportion d'inertie expliquée [%]
-1.5 -1.0 -0.5 0.0 0.5 1.0
-1.0 -0.5 0.0 0.5 1.0 1.5
premier axe factoriel 11.07 %
deuxième axe factoriel 6.55 %
have
be depend
emanate
stand
float
lie
fall
go
arrest excite
seem
exist
draw
summon
Figure 6.16 – MDS sur le sens des verbes de The Masque of the Red Death. Gauche : valeurs
propres ; droite : coordonnées pour les deux premiers axes factoriels.
Concernant les verbes (figure 6.16), l’inertie expliquée par les deux premiers facteurs est de94 6. AUTOCORRÉLATION TEXTUELLE
17.6%. On peut distinguer quatre groupes. Dans le quadrant nord-ouest se trouvent les verbes
d’état (seem, gleam, sound, etc.), tous englobés dans le concept « be », défini comme « have the
quality of being ; (copula, used with an adjective or a predicate noun) ». Seul le verbe have se
situe dans le quadrant nord-ouest. Finalement, on observe deux groupes dans le quadrant sudest
: celui plus au sud contient des verbes, tels que go, fall, approach ou rush, dont le plus petit
hyperonyme commun est le concept de « travel, go, move, locomote » défini comme « change
location ; move, travel, or proceed, also metaphorically » ; quant à celui plus proche du centre,
il contient tous les autres verbes qui n’ont pas d’hypernoyme commun. En résumé, le premier
axe factoriel oppose les verbes d’états aux autres ; et le second, le verbe have aux autres.
0 100 200 300
-0.10 -0.05 0.00 0.05 0.10
matrice d'échange à fenêtres mobiles, r
indice d'autocorrélation
δ
0 100 200 300
-0.10 -0.05 0.00 0.05 0.10
matrice d'échange à fenêtres mobiles, r
indice d'autocorrélation
δ
Figure 6.17 – Sens des verbes de The Masque of the Red Death : δ pour la première (gauche)
et la deuxième (droite) dimension sémantique en fonction de r, qui varie de 1 à n = 375, avec
un matrice d’échange à fenêtres mobiles.
L’autocorrélation mesurée sur la première dimension sémantique (figure 6.17 gauche) est
clairement positive pour l’ensemble des voisinages, même s’elle n’est pas significative pour r = 1
et quelques autres r, ce qui laisse supposer qu’il y a peu d’alternances entre les verbes d’état
et les verbes d’action. L’explication la plus plausible de ce phénomène est que les verbes d’état
sont peu nombreux et donc que, généralement, les verbes d’actions se suivent. Concernant la
deuxième dimension sémantique (figure 6.17 droite), bien que δ ne soit pas significatif, il est
clairement inférieur à E0(δ) pour r = 1, 2, ce qui est peut-être dû à l’utilisation de have comme
auxiliaire des temps composés.
6.4 Discussion
Ce chapitre a présenté l’application de l’indice d’autocorrélation, exposé dans la section 3.2, à
différents traitements textuels. Calculé sur la base de deux éléments, une matrice d’échange E et
une matrice de dissimilarités euclidiennes carrées D, cet indice, d’abord développé pour l’analyse
spatiale, dont les séries temporelles sont un cas particulier, permet de modéliser différentes
navigations séquentielles dans un texte, grâce à E, et de mesurer la variation de caractéristiques
mesurées sur les unités textuelles dans ces navigations, grâce à D.
Le premier exemple (section 6.1), assez simple, concernant la longueur des mots, a permis de
comparer les différentes matrices d’échange et de retrouver le résultat, présupposé, d’alternance
entre mots longs et mots courts. Puis, le second exemple (section 6.2), sur les parties du discours,
a mis en lumière certaines structures syntaxiques. Finalement, le troisième exemple (section
6.3), sur l’autocorrélation sémantique, a montré qu’il est possible de mesurer une sorte de6.4. Discussion 95
variabilité sémantique dans un voisinage donné. De plus, les dissimilarités sémantiques, qui sont
euclidiennes carrées, ont pu être, par le biais du MDS, visualisées et décomposées en dimensions
factorielles, sur lesquelles l’autocorrélation a pu être à nouveau mesurée. Pour une approche
comparable, quoique distincte, sur l’autocorrélation sémantique, voir Samsonovich (2014).
Seul un petit aperçu des applications textuelles possibles ont été présentées ici. Signalons
que l’on peut également mesurer, pour un texte, l’autocorrélation de la présence et l’absence
de termes. Concernant un dialogue ou une pièce de théâtre, il est possible de calculer l’autocorrélation
de la longueur d’une réplique, du sexe de l’interlocuteur ou du profil de catégories
morpho-syntaxiques d’une réplique par l’intermédiaire d’une table de contingence et de dissimilarités
du khi2. De surcroît, en plus de modéliser la navigation à l’intérieur d’un document,
on peut aussi modéliser la navigation hypertextuelle dans un réseau textuel (voir Bavaud et al.,
2012 ; Bavaud et al., accepté pour publication). Cet indice permet aussi de mesurer les variations
présentes dans les séquences musicales (voir section 8.2). En conclusion, cet indice, δ, permet
d’explorer une large palette de données textuelles en résumant l’information concernant une
dissimilarité et un voisinage à un seul indicateur.Partie III
APPLICATIONS MUSICALES
97CHAPITRE 7
Formats symboliques de données musicales
La musique se transmet principalement de deux manières : par le son ou par l’écriture (pour
une revue des sources de données musicales et de leur historique, voir par exemple Vatolkin, 2013,
section 2.1.2). Si l’on compare cela à la linguistique, le son représente la parole ; et l’écriture,
le texte qui retranscrit cette parole. Concernant le son, des fichiers audio sont utilisés (voir par
exemple Kriesel, 2013, section 2.2). Dans le cas de l’écriture, ce qui nous intéresse ici, on utilise
le plus souvent des partitions (section 7.1).
Cependant, pour traiter les partitions avec un ordinateur, il faudra les numériser et leur
donner un aspect « textuel ». Ceci est à peu près équivalent à utiliser, pour l’analyse textuelle,
un fichier en format .txt et non un .pdf. On parlera alors de partitions numériques (digital
scores) ou de formats symboliques (symbolic formats)
1
. Pour rappel, les données musicales
symboliques sont définies comme « La description détaillée de toutes les informations nécessaires
à l’affichage (ou gravure) précis d’une partition. » (Faget, 2011, p. 12).
Un format symbolique très connu pour la musique est le MIDI qui, de plus, produit du son
(section 7.2). Bien que ce ne soit pas fait dans ce travail, il est possible d’extraire l’information
d’un fichier MIDI pour pouvoir l’analyser de manière « textuelle ». Cependant, il existe
aussi d’autres formats qui reproduisent les partitions sous forme de texte et qui sont souvent
accompagnés de logiciels permettant de transformer des fichiers MIDI dans ce format et inversément.
Parmi les nombreux formats existants, uniquement trois seront présentés dans ce qui
suit (section 7.3) : Melisma, ABC et Humdrum.
7.1 Partitions
C ♯
4 ♩ ♩♩♩ ♩ ♩
Do « serrure »
♩♩
Chiffrage
4
Armature
Adagio (♩= 60 ) Tempo
Figure 7.1 – Principales informations transmises par une partition.
Les principales informations transmises par une partition (figure 7.1) sont :
1. Il faut éviter de parler de formats numériques, car ces derniers incluent aussi les fichiers audio.
99100 7. FORMATS SYMBOLIQUES DE DONNÉES MUSICALES
— les informations générales, telles que le titre, le nom du compositeur, etc. ;
— le tempo, indiqué par un mot ou un groupe des mots, comme par exemple lento, adagio,
allegretto, presto ou andante non troppo e con molta espressione ; ou indiqué par une
pulsation pas minute pour une durée ou une valeur de note donnée ;
— les instruments, lorsque la partition concerne plusieurs instruments ;
— l’armure ou l’armature, qui est l’ensemble d’altérations indiquant la tonalité du morceau
de musique ;
— le chiffrage ou la mesure, qui donne une information sur la rythmique ;
— les répétitions ;
— les notes, et en particulier :
— leur hauteur (do (C en anglais), ré (D), ..., la (A) et si (B), et au milieu d’un clavier
de piano, le do « serrure ») et
— leur durée ou leur valeur (croche (), noire (♩), blanche (), ronde (), etc.) ;
— les silences ;
— les nuances (ppp, pp, p, mp, mf, f, ff, fff, crescendo, diminuendo, appassionato, pesante,
etc.) ;
— etc.
Deux extraits de partitions, qui seront utilisés pour les exemples concernant les formats symboliques
dans la suite de ce chapitre, sont présentés dans les figures 7.2 et 7.3.
MINUETTO Allegretto
2 3 4 5 6 7
4
3
4
3
p
Figure 7.2 – Extrait de la « sonate pour piano n˚1 en fa mineur, op. 2 n˚1, 3ème mouvement »
de Beethoven.
Figure 7.3 – Extrait de « Für Elise » de Beethoven, en Angleterre [sic], résultant du code au
format ABC de la figure 7.7. Source : http://abcnotation.com/getResource/downloads/
image/fur-elise.png?a=trillian.mit.edu/~jc/music/abc/mirror/home.quicknet.nl/
england/1837.7.2. Format MIDI en bref 101
7.2 Format MIDI en bref
Le M.I.D.I (Musical Instrument Digital Interface = Interface numérique pour instrument
de musiques) est apparu en 1982-1983 (http://www.midi.org). À la base, c’est à la fois une
interface et un protocole qui permettent aux instruments de musique numérique ou électronique
de communiquer entre eux. Ce qui nous intéresse ici est le format de fichier MIDI qui est une
structure de données permettant de transcrire de la musique. Ce fichier ne contient pas des
sons, mais des instructions individuelles correspondant à des notes de musique pour chaque
instrument. Les principales instructions qu’on trouve dans un fichier MIDI sont :
— les informations générales, telles que le rythme, le chiffrage, la tonalité, etc. ; et
— des pistes contenant le début et la fin des notes, leur hauteur, leur volume, etc.
En particulier, la hauteur des notes est codée par des nombres compris entre 0 et 127, avec le
nombre 60 pour le do « serrure ».
7.3 Formats « textuels »
7.3.1 Le format Melisma
Le système The Melisma Music Analyzer (http://www.link.cs.cmu.edu/music-analysis/)
permet d’analyser de la musique et prend, en entrée, des fichiers que l’on appellera « fichiers
au format Melisma ». Ce système contient un programme, « mftext », qui permet de convertir
des fichiers MIDI en fichiers Melisma. L’extension de ces derniers est .notes. Ils contiennent,
dans l’ordre chronologique, les notes jouées avec leur hauteur en nombres, identiques à ceux
des fichiers MIDI, ainsi que les temps de début et de fin de ces notes en millisecondes. Il existe
deux types de formats Melisma : un dont chaque ligne représente une note (figures 7.4 et 7.5) ;
et un autre dont chaque note est écrite sur deux lignes, soit une ligne pour le début de la note
et l’autre pour la fin de la même note (figure 7.6).
Note 750 937 68
Note 1125 1500 61
Note 1125 1500 70
Note 1500 1875 58
Note 1500 1875 67
Note 2250 2625 60
Note 2250 2625 68
Note 2625 2906 56
Note 2625 2906 65
Note 3000 3375 60
Note 3000 3375 65
Note 3375 3750 60
Note 3375 3750 64
Note 3750 4125 60
Note 3750 4125 65
Note 4125 4500 60
Note 4125 4406 67
Note 4500 4875 70
Note 4500 5250 60
Note 4875 5156 68
Note 5250 5437 63
Note 5250 5437 72
Note 5625 6000 65
Note 5625 6000 73
Note 6000 6281 61
Note 6000 6281 70
Note 6750 7125 63
Note 6750 7125 72
Note 7125 7500 60
Note 7125 7500 68
Note 7500 7781 63
Note 7500 7781 68
Note 7875 8250 63
Note 7875 8250 67
Note 8250 8625 63
Note 8250 8625 68
Note 8625 9000 63
Note 8625 8906 70
Figure 7.4 – Format Melisma (une note par ligne) pour l’extrait de la partition de la figure 7.2.
Ce fichier est une retranscription de la partition, mais il semblerait qu’il ne contienne que la
première des deux portées, qu’il manque le premier do et que la durée d’une noire soit environ
égale à 375 ms. Source : http://www.link.cs.cmu.edu/link/ftp-site/music-analysis/
notefiles/misc/beet.fmison.III.q.notes. Il faut remarquer que dans cette figure, ainsi que
dans les suivantes de ce chapitre, les encadrés sont « empilés », c’est-à-dire qu’ils constituent
les parties successives d’un seul et même fichier.102 7. FORMATS SYMBOLIQUES DE DONNÉES MUSICALES
Reference COM: Beethoven, Ludwig van
Reference CDT: 1770///-1827///
Reference OTL: Piano Sonata no. 1, mvmt. 3
Reference OMD: Minuet: Allegretto
Reference OPS: Op. 2
Reference ONM: No. 1
Reference OMV: No. 3
Reference AGN: Minuet and Trio
Comment Minuetto: Allegretto
Info keysig 4 sharps
Info key F Minor
Info Tempo 118 MM per quarter note
Note 0 508 60
Note 0 508 68
Note 508 1017 61
Note 508 1017 70
Note 1017 1525 58
Note 1017 1525 67
Note 1525 2034 53
Note 2034 2542 60
Note 2034 2542 68
Note 2542 3051 56
Note 2542 3051 65
Note 3051 3559 53
Note 3051 3559 56
Note 3051 3559 60
Note 3051 3559 65
Note 3559 4068 55
Note 3559 4068 58
Note 3559 4068 60
Note 3559 4068 64
Note 4068 4576 53
Note 4068 4576 56
Note 4068 4576 60
Note 4068 4576 65
Note 4576 5085 52
Note 4576 5085 55
Note 4576 5085 60
Note 4576 5085 67
Note 5085 6102 53
Note 5085 6102 56
Note 5085 5593 70
Note 5085 6102 60
Note 5593 6102 68
Note 6102 6610 63
Note 6102 6610 72
Note 6610 7119 65
Note 6610 7119 73
Note 7119 7627 61
Note 7119 7627 70
Note 7627 8136 44
Note 7627 8136 56
Note 8136 8644 63
Note 8136 8644 72
Note 8644 9153 60
Note 8644 9153 68
Note 9153 9661 56
Note 9153 9661 60
Note 9153 9661 63
Note 9153 9661 68
Note 9661 10169 58
Note 9661 10169 61
Note 9661 10169 63
Note 9661 10169 67
Note 10169 10678 56
Note 10169 10678 60
Note 10169 10678 63
Note 10169 10678 68
Note 10678 11186 55
Note 10678 11186 58
Note 10678 11186 63
Note 10678 11186 70
Figure 7.5 – Format Melisma (une note par ligne) pour l’extrait de la partition de la fi-
gure 7.2, avec le même principe « d’empilement » des encadrés que dans la figure 7.4. Ce
fichier a été créé par une conversion automatique d’un fichier Humdrum (cf. section 7.3.3),
c’est pourquoi les premières lignes contiennent des informations générales supplémentaires. De
plus, le tempo indique 118 pulsations par minutes pour une noire, soit une durée d’environ
508.5 ms pour une noire. Source : http://kern.ccarh.org/cgi-bin/ksdata?l=users/craig/
classical/beethoven/piano/sonata&file=sonata01-3.krn&f=melisma.7.3. Formats « textuels » 103
Note-on 2326 60
Note-on 2327 68
Note-off 2395 68
Note-off 2462 60
Note-on 2687 70
Note-on 2704 61
Note-on 3020 58
Note-off 3025 61
Note-on 3037 67
Note-off 3038 70
Note-off 3158 67
Note-off 3213 58
Note-on 3384 53
Note-off 3517 53
Note-on 3739 68
Note-on 3747 60
Note-off 4027 68
Note-on 4055 56
Note-off 4063 60
Note-on 4078 65
Note-off 4157 56
Note-off 4172 65
Note-on 4422 65
Note-on 4443 60
Note-on 4446 56
Note-on 4477 53
Note-off 4698 60
Note-off 4707 53
Note-off 4739 56
Note-on 4772 55
Note-on 4779 64
Note-on 4780 58
Note-on 4784 60
Note-off 4833 65
Note-off 4990 60
Note-off 5037 58
Note-off 5097 55
Note-on 5134 60
Note-on 5135 56
Note-on 5138 53
Note-on 5139 65
Note-off 5178 64
Note-off 5333 60
Note-off 5408 56
Note-off 5437 53
Note-on 5460 67
Note-on 5468 55
Note-on 5470 60
Note-on 5476 52
Note-off 5493 65
Note-off 5718 60
Note-off 5795 55
Note-on 5812 53
Note-off 5817 52
Note-on 5827 70
Note-on 5828 60
Note-on 5839 56
Note-off 5840 67
Note-off 6108 70
Note-on 6156 68
Note-off 6169 53
Note-off 6199 60
Note-off 6221 56
Note-off 6235 68
Note-on 6521 63
Note-on 6538 72
Note-off 6628 72
Note-off 6672 63
Note-on 6888 65
Note-on 6900 73
Note-off 7221 73
Note-on 7231 61
Note-on 7237 70
Note-off 7281 65
Note-off 7356 70
Note-off 7400 61
Note-on 7579 44
Note-on 7598 56
Note-off 7697 44
Note-off 7769 56
Note-on 7941 63
Note-on 7951 72
Note-off 8244 72
Note-off 8253 63
Note-on 8264 60
Note-on 8277 68
Note-off 8370 60
Note-off 8416 68
Note-on 8604 63
Note-on 8614 68
Note-on 8617 56
Note-on 8628 60
Note-off 8847 63
Note-off 8907 56
Note-on 8946 58
Note-on 8962 63
Note-on 8966 61
Note-on 8967 67
Note-off 8969 60
Note-off 8995 68
Note-off 9167 63
Note-off 9243 61
Note-on 9295 63
Note-on 9304 60
Note-on 9310 68
Note-on 9317 56
Note-off 9352 67
Note-off 9355 58
Note-off 9504 63
Note-off 9565 60
Note-off 9590 56
Note-on 9640 58
Note-on 9649 63
Note-on 9652 70
Note-on 9672 55
Note-off 9695 68
Note-off 9878 63
Note-off 9982 55
Note-off 10004 70
Figure 7.6 – Format Melisma (deux lignes pour une note) pour l’extrait de la partition de la
figure 7.2, avec le même principe « d’empilement » des encadrés que dans la figure 7.4. Ce fichier
a été produit par la conversion automatique d’un fichier MIDI (cf. section 7.2), ainsi la durée
d’une noire peut varier selon l’interprétation du musicien. Source : http://www.link.cs.cmu.
edu/link/ftp-site/music-analysis/notefiles/misc/beet.fmison.III.p.notes.104 7. FORMATS SYMBOLIQUES DE DONNÉES MUSICALES
7.3.2 Le format ABC
X:1838
T:F\"ur Elise
T:Bagatelle No.25 in A, WoO.59
O:england
C:Ludwig van Beethoven
%http://www.musicaviva.com/beethoven-ludwig-van.abc
V:1 Program 1 0 %Piano
V:2 Program 1 0 bass %Piano
M:3/8
L:1/16
Q:3/8=40
K:Am
V:1
e^d|e^deB=dc|A2 z CEA|B2 z E^GB|c2 z Ee^d|
V:2
z2|z6|A,,E,A, z z2|E,,E,^G, z z2|A,,E,A, z z2|
%
V:1
e^deB=dc|A2 z CEA|B2 z EcB|[1A2 z2:|[2A2z Bcd|
V:2
z6|A,,E,A, z z2|E,,E,^G, z z2|[1A,,E,A, z :|[2A,,E,A, z z2|
Figure 7.7 – Format ABC pour l’extrait de la partition de la figure 7.3. Source :
http://abcnotation.com/tunePage?a=trillian.mit.edu/~jc/music/abc/mirror/home.
quicknet.nl/england/1837.
Un fichier au format ABC (http://abcnotation.com/) a comme extension : .abc. 2 Comme
pour le format Melisma, il existe un programme permettant de transformer un fichier MIDI en
fichier ABC. Il se compose d’un préambule et d’un corps (figures 7.7 et 7.8). Les principales
informations du préambule sont :
— un numéro de référence (X) ;
— un titre (T) ;
— le nom du compositeur (C) ;
— la durée de référence des notes (L), qui va servir de base pour indiquer la durée de chaque
note dans le corps du fichier, où 1/4 correspond à une noire, 1/8, à une croche, 1/16, à
une double croche, etc. ;
— le chiffrage (M) ;
— le tempo (Q), indiqué, comme pour les partitions (cf. section 7.1), avec un mot ou des
pulsations par minute pour une durée de note donnée ;
— la tonalité (K) ;
— etc.
L’ordre du préambule est strict concernant le numéro de référence et le titre, qui doivent toujours
être au début, et la tonalité, qui doit toujours être à la fin du préambule, contrairement aux
autres éléments.
Dans le corps, chaque ligne représente une portée telle qu’elle apparaît sur la partition. Lorsqu’il
s’agit d’un système de portées, toutes les portées du système sont représentées à la suite
et indiquées par « V » suivi d’un nombre. Les principales notations utilisées dans le corps sont
les suivantes :
2. Il existe une variante de ce format, très similaire, nommée « ABC Plus » (http://abcplus.sourceforge.
net/), dont un exemple est présenté dans la figure 7.8.7.3. Formats « textuels » 105
— des lettres pour la hauteur des notes, correspondant aux noms des notes en anglais, avec
« C » pour le do « serrure », « C, » pour le do une octave en-dessous, et pour chaque
octave plus basse, une virgule est ajoutée ; « c » représente le do une octave en-dessus du
do « serrure », « c’ », le do encore une octave au-dessus, et des apostrophes sont ajoutées
pour chaque octave plus haute ;
— la lettre « z » pour les silences ;
— des nombres, pour la durée des notes, relatifs à la durée de référence indiquée dans le
préambule (L) et précédés d’un « / » lorsque la durée est plus courte que celle de référence ;
— d’autres symboles pour les altérations : _ pour [ , = pour \ et ˆ pour ];
— des guillemets pour les accords écrits explicitement sur une partition, par exemple "Gm7" ;
— des crochets pour les notes jouées simultanément, ou en d’autres termes, les accords écrits
note par note sur une portée, par exemple [CEGc] ;
— divers symboles pour représenter les différentes barres de mesure, tels que | pour une barre
de mesure simple, || pour une barre de mesure double marquant une partie du morceau,
|] pour la barre de mesure indiquant la fin d’un morceau, :| pour la barre de mesure qui
indique une répétition, etc. ;
— etc.
En conclusion, ce format est particulièrement adapté pour la création de partitions.
X: 1
T: Piano Sonata no. 1, mvmt. 3
C: Ludwig van Beethoven
%%abc-version 2.0
%%abcx-abcm2ps-target-version 5.9.1 (29 Sep 2008)
%%abc-creator hum2abc beta
%%abcx-conversion-date 2012/04/13 12:40:19
%%abc-edited-by Craig Stuart Sapp
%%abcx-initial-encoding-date 2004/04/06/
%%gracespace 0 6 6
%%notespacingfactor 1.85
%%humdrum-veritas 3897117643
%%humdrum-veritas-data 871200473
%%continueall 1
%%barnumbers 0
F: http://kern.ccarh.org/cgi-bin/ksdata?l=users/craig/
classical/beethoven/piano/
sonata&file=sonata01-3.krn&f=abcplus
L: 1/4
M: 3/4
Q: "Minuet: Allegretto" 1/4=116
%%staves {1 2}
V: 1 clef=treble
V: 2 clef=bass
K: Ab
[V:1] .[CA] [I:setbarnb 1]|
[V:2] z |
[V:1] ([DB][B,G])z |
[V:2] zzF, |
[V:1] ([CA][A,F])([CF] |
[V:2] zz([F,A,] |
[V:1] [C=E][CF][CG]) |
[V:2] [G,B,][F,A,][=E,G,]) |
[V:1] (BA)[Ec] & C2z |
[V:2] [F,2A,2]z |
[V:1] ([Fd][DB])z |
[V:2] zz[A,,A,] |
[V:1] ([Ec][CA])([EA] |
[V:2] zz([A,C] |
[V:1] [EG][EA][EB]) |
[V:2] [B,D][A,C][G,B,]) |
Figure 7.8 – Format ABC Plus pour l’extrait de la partition de la figure 7.2, avec
le même principe « d’empilement » des encadrés que dans la figure 7.4. Ce fichier
a été créé par une conversion automatique d’un fichier Humdrum (cf. section 7.3.3).
Source : http://kern.ccarh.org/cgi-bin/ksdata?l=users/craig/classical/beethoven/
piano/sonata&file=sonata01-3.krn&f=abcplus.
7.3.3 Le format Humdrum
Les fichiers au format Humdrum (ou format **kern), disponibles sur le site http://kern.
ccarh.org/, ont été créés, le plus souvent avec un programme de reconnaissance optique de
musique, pour être traités avec le Humdrum Toolkit for Music Research 3
(Sapp, 2005). Ce
logiciel a été conçu pour assister les chercheurs en musique et offre de nombreuses possibilités
3. http://humdrum.org/Humdrum/install.html.106 7. FORMATS SYMBOLIQUES DE DONNÉES MUSICALES
(Huron, 1994, 1998). En plus de ce logiciel, il existe une série de programmes (Humdrum extras,
http://extra.humdrum.org/) qui permettent, comme le logiciel, la transposition de partitions
ou la sélection de différentes parties, mais aussi de de convertir les fichiers Humdrum en d’autres
formats, tels ceux présentés ci-dessus (figures 7.5 et 7.8). Cette série de programmes sera utilisée
pour les manipulations des fichiers dans le chapitre 8.
!!!COM: Beethoven, Ludwig van
!!!CDT: 1770///-1827///
!!!OTL: Piano Sonata no. 1, mvmt. 3
!!!OMD: Minuet: Allegretto
!!!OPS: Op. 2
!!!ONM: No. 1
!!!OMV: No. 3
!!!AGN: Minuet and Trio
**kern **dynam **kern **dynam
*Ipiano *Ipiano *Ipiano *Ipiano
*>[A,A,B,B,C,C,D,D,A,B] *>[A,A,B,B,C,C,D,D,A,B]
*>[A,A,B,B,C,C,D,D,A,B] *>[A,A,B,B,C,C,D,D,A,B]
*>norep[A,B,C,D,A,B] *>norep[A,B,C,D,A,B]
*>norep[A,B,C,D,A,B] *>norep[A,B,C,D,A,B]
!! Minuetto: Allegretto
*>A *>A *>A *>A
*clefF4 *clefF4 *clefG2 *clefG2
*k[b-e-a-d-] *k[b-e-a-d-] *k[b-e-a-d-] *k[b-e-a-d-]
*f: *f: *f: *f:
*M3/4 *M3/4 *M3/4 *M3/4
*MM118 *MM118 *MM118 *MM118
4r . 4c’/ 4a-’/ p
=1 =1 =1 =1
4r . (4d-/ 4b-/ .
4r . 4B-/) 4g/ .
4F\ . 4r .
=2 =2 =2 =2
4r . (4c/ 4a-/ .
4r . 4A-/) 4f/ .
4F\ (4A-\ . (4c/ 4f/ .
=3 =3 =3 =3
4G\ 4B-\ . 4c/ 4e/ .
4F\ 4A-\ . 4c/ 4f/ .
4E\ 4G\) . 4c/) 4g/ .
=4 =4 =4 =4
* * *^ *
2F\ 2A-\ . (4b-/ 2c\ .
. . 4a-/) . .
4r . 4e-/ 4cc/ 4r .
* * *v *v *
=5 =5 =5 =5
4r . (4f/ 4dd-/ .
4r . 4d-/) 4b-/ .
4AA-\ 4A-\ . 4r .
=6 =6 =6 =6
4r . (4e-/ 4cc/ .
4r . 4c/) 4a-/ .
4A-\ (4c\ . (4e-/ 4a-/ .
=7 =7 =7 =7
4B-\ 4d-\ . 4e-/ 4g/ .
4A-\ 4c\ . 4e-/ 4a-/ .
4G\ 4B-\) . 4e-/) 4b-/ .
=8 =8 =8 =8
etc.
==:|! ==:|! ==:|! ==:|!
*-*-*-*-
!!!ENC: Craig Stuart Sapp
!!!END: 2004/04/06/
!!!ONB: preliminary proof
reading done on 2008/10/20/
!!!hum2abc: --spacing 1.85
Figure 7.9 – Format Humdrum pour l’extrait de la partition de la figure 7.2,
avec le même principe « d’empilement » des encadrés que dans la figure 7.4.
Source : http://kern.ccarh.org/cgi-bin/ksdata?l=users/craig/classical/beethoven/
piano/sonata&file=sonata01-3.krn&f=kern.
L’extension utilisée pour ce format est : .krn. Comme pour le format ABC, il est composé
d’un préambule et d’un corps (figure 7.9). En plus, une série de commentaires est généralement
présente au début du fichier. La structure de ces fichiers est très différente de celle des fichiers
ABC, car ici chaque colonne représente une voix de la partition.
Les informations générales (comme le titre et le compositeur) se trouvent dans les commentaires
au début du fichier 4
. Le préambule est divisé en colonnes comme le corps. Chaque colonne
contient :
— le début, indiqué par l’expression : **kern ;
— une indication de la portée ou de l’instrument ;
4. Selon la littérature, les commentaires généraux sont indiqués par deux point d’exclamation (! !) et les commentaires
concernant une seule des voix, par un point d’exclamation (!). Cependant, il semblerait que dans les
fichiers disponibles sur http://kern.ccarh.org/, un point d’exclamation ait été ajouté à cette convention pour
les premiers et les derniers commentaires du fichier.7.3. Formats « textuels » 107
— la clé ;
— l’armature (k[...]) ;
— la tonalité ;
— le chiffrage (M) ;
— parfois, le tempo (MM) ;
— etc.
et chaque information commence par une étoile.
Dans le corps du fichier, chaque ligne représente un moment, apparaissant dans l’ordre chronologique.
Les principales notations utilisées sont les suivantes :
— des lettres pour la hauteur des notes, correspondant aux noms des notes en anglais, avec
« c » pour le = do « serrure », puis « cc » pour le do une octave en-dessus, puis « ccc »,
etc., et le même principe est appliqué avec des lettre majuscules pour les notes plus graves,
soit « C » pour le do une octave en-dessous de « c », puis « CC », etc. ;
— la lettre « r »pour les silences ;
— des nombres fixes pour la durée des notes, avec, par exemple, 1 pour la ronde, 4 pour la
noire et 2. pour la blanche pointée ;
— d’autres symboles pour les altérations : - pour [, n pour \ et # pour ]
5
;
— des signes d’égalité pour indiquer les barres de mesures, éventuellement suivis du numéro
de la mesure dans la partition.
7.3.4 Comparaison de ces trois formats
Le format ABC est particulièrement bien conçu pour conserver un maximum d’informations
et donc pour écrire des partitions (après transposition, ou autre changement), mais moins pour
le traitement informatique, ne serait-ce qu’en raison de sa flexibilité. Le format Melisma est
beaucoup plus simple, certainement le plus pratique pour l’analyse informatique, mais perd
beaucoup d’information. Entre les deux, le format **kern est suffisamment structuré et fixe
pour être traité informatiquement et conserve la grande majorité des informations contenues
sur la partition. De plus, comme il a déjà été mentionné, il existe une base de données dédiée
à ce format et il a l’avantage d’être lié à de nombreux programmes permettant, d’une part,
d’obtenir les autres formats les plus utilisés, dont les trois présentés dans ce chapitre et, d’autre
part, de transposer les partitions, d’extraire certaines informations, etc.
5. Contrairement au format ABC, ici les altérations sont notifiées pour chaque note, même lorsqu’elles sont déjà
mentionnées dans le préambule.CHAPITRE 8
Analyse de données musicales
Ce chapitre, qui reprend la structure, les méthodes, une partie du texte traduite et les résultats
présentés dans l’article Cocco et Bavaud (accepté pour publication) et ajoute de nombreux
résultats, présente une analyse exploratoire de données de musique polyphonique en format
symbolique.
À cet effet (section 8.1), on divise la partition en durées égales, puis on transforme des partitions
numériques (cf. chapitre 7) en tables de contingence qui comptent la durée de chaque
note pour chaque intervalle de temps. Cette représentation, très proche de la représentation sur
rouleau de piano pneumatique (piano-roll representation) et, pour les fichiers audio, de la repré-
sentation Chroma (voir par exemple Ellis et Poliner, 2007; Müller et Ewert, 2011; Kriesel, 2013,
section 2.4), a l’avantage de représenter de la musique polyphonique dans un format compatible
avec des méthodes d’analyse de données courantes, telles que l’AFC, et d’être invariante sous
agrégation (cf. section 8.1.1).
Pour commencer (section 8.2), des morceaux de musique complets sont analysés, par l’intermédiaire
de l’AFC et de l’indice d’autocorrélation. Ces deux méthodes permettent de découvrir
des structures intrinsèques dans des partitions de musique, ainsi que d’en visualiser les patterns.
Elles sont illustrées par un exemple monophonique et par plusieurs exemples polyphoniques.
Ensuite, dans la section 8.3, les différentes voix d’une même partition, ainsi que les liens qui
existent entre elles, sont analysés par l’intermédiaire d’une analyse des correspondances multiples
(ACM) floue et de l’indice d’autocorrélation croisée. Ces deux méthodes sont appliquées
à deux partitions polyphoniques composées pour plusieurs instruments.
Finalement, une mesure de similarité entre deux partitions, basée sur la représentation des
partitions de musique par des tables de contingence, est présentée dans la section 8.4. À partir
de cette mesure de similarité, des partitions écrites par plusieurs compositeurs sont regroupées
par une classification ascendante hiérarchique.
8.1 Représentation des données
8.1.1 Formalisme
Une partition musicale peut être représentée par une table de contingence brute X = (xtj )
qui croise les intervalles de temps (t = 1, . . . , n) et la hauteur des notes (j = 0, . . . , m). Cette
table compte la durée de chaque hauteur de note dans chaque intervalle de temps. Ainsi, la
répétition de notes de même hauteur dans un intervalle de temps n’est pas codée.
109110 8. ANALYSE DE DONNÉES MUSICALES
Aussi, toutes les hauteurs de note sont rapportées à l’octave et l’on attribue la valeur de
0 à do ; de 1 à do] ou ré[; de 2 à ré, etc. 1 Ensuite, un vrai silence, z, qui correspond à un
moment durant lequel aucune note n’est jouée, est ajouté. Au final, j peut prendre 13 valeurs
différentes : 0 à 11 et z. Concernant les intervalles de temps, ils ont une durée constante qui vaut
τ . Cette durée peut prendre n’importe quelle valeur, telle qu’un nombre de doubles croches, de
mesures ou de millisecondes. Par conséquent, la durée totale d’une partition (ou d’un extrait)
vaut τtot = nτ . Les figures 8.1 et 8.2 présentent deux exemples de la table de contingence
transposée, un pour l’extrait d’une partition de piano et un autre pour l’extrait d’une partition
pour un quatuor à cordes, chacune avec deux valeurs de τ .
11 12
4
3
4
3
p sfz
Intervalles de temps t avec τ = ♩
notes j 29 30 31 32 33 34 35 36 37
0 0 4 0 4 4 0 4 0 0
1 4 0 4 0 0 4 0 0 0
3 4 4 0 4 4 4 0 0 0
5 0 0 4 0 0 0 0 0 2
7 0 0 0 0 0 4 0 0 2
8 4 4 0 4 4 0 8 0 0
10 0 0 4 0 0 4 0 0 0
z 0 0 0 0 0 0 0 4 0
Intervalles de temps t avec τ = .
notes j 10 11 12
0 4 8 4
1 8 4 0
3 8 12 0
5 4 0 2
7 0 4 2
8 8 8 8
10 4 4 0
z 0 0 4
Figure 8.1 – Extrait de la « sonate pour piano n˚1 en fa mineur, op. 2 n˚1, 3ème mouvement » de
Beethoven. Table de contingence transposée X = (xtj ), qui donne la durée de chaque hauteur
de note en nombre de double-croches pour τ égal à une noire (haut) et à une blanche pointée
(bas).
En plus de permettre de traiter de la musique polyphonique, cette représentation a l’avantage
d’être invariante sous agrégation : ainsi doubler la valeur de τ revient à sommer les effectifs de
deux intervalles de temps successifs. Donc, si T représente un intervalle de temps composé
d’intervalles de temps plus petits t, alors les nouveaux effectifs deviennent :
x˜T j := X
t∈T
xtj
comme l’illustrent les figures 8.1 et 8.2. Lavrenko et Pickens (2003) et Morando (1981) utilisent
des représentations relativement similaires, à ceci près que les premiers ne considèrent ni la
durée des notes, ni celle entre les notes, et que le second base sa représentation sur la succession
des accords. De plus, ces représentations ne sont pas invariantes sous agrégation, à l’inverse de
celle présentée ici.
1. Si l’on décidait de ne pas reporter les notes à l’octave, le formalisme serait strictement identique, il suffirait
d’augmenter le nombre de modalités j.8.1. Représentation des données 111
9 10 11
4
3
4
3
4
3
4
3
f
f
f
f
Intervalles de temps t avec τ = ♩
notes j 22 23 24 25 26 27 28 29 30 31
0 6 6 8 0 0 0 16 0 0 0
4 0 0 4 0 0 8 0 0 0 0
5 4 4 0 16 12 8 0 0 0 16
7 0 0 4 0 4 0 0 0 0 0
9 4 4 0 0 0 0 0 0 0 0
11 2 2 0 0 0 0 0 0 0 0
z 0 0 0 0 0 0 0 4 4 0
Intervalles de temps t avec τ = .
notes j 8 9 10 11
0 20 0 16 0
4 4 8 0 0
5 8 36 0 16
7 4 4 0 0
9 8 0 0 0
11 4 0 0 0
z 0 0 8 0
Figure 8.2 – Extrait du « 1er mouvement « Allegro con brio » du Quatuor à cordes en fa
majeur, op. 18 no 1 » de Beethoven. Table de contingence transposée X = (xtj ), qui donne la
durée de chaque hauteur de note en nombre de double-croches pour τ égal à une noire (haut)
et à une blanche pointée (bas).
Dans un second temps, la table brute X = (xtj ) est normalisée à Ξ = (ξtj ), de façon à ce que
la somme de chaque ligne ξt• soit égale à 1 :
ξtj =
xtj
xt•
(8.1)
Par conséquent, la même importance est donnée à chaque intervalle de temps (ft = 1/n), quels
que soient la durée et le nombre de notes qu’il contient, ce qui implique que ξ•• = n.
Comme pour la table brute, il est possible d’agréger les intervalles de temps de la table
normalisée. La table normalisée agrégée Ξ˜ s’obtient soit par des moyennes pondérées :
˜ξT j =
P
t∈T
P
xt•ξtj
t∈T
xt•
soit directement à partir de la table brute :
˜ξT j =
P
t∈T
P
xtj
t∈T
xt•
=
x˜T j
x˜T•
8.1.2 Pré-traitement
Pour obtenir la représentation des données exposée ci-dessus, on commence par utiliser des
fichiers au format Humdrum, qui sont bien structurés, indépendants de l’interprétation d’un112 8. ANALYSE DE DONNÉES MUSICALES
musicien et disponibles sur Internet (cf. section 7.3.3). En particulier, pour conserver l’œuvre
dans sa version complète, on utilise les fichiers comportant toutes les répétitions, telles qu’elles
sont indiquées sur la partition. Lorsque des modifications sont nécessaires, telle qu’une transposition
ou l’extraction d’une voix, par exemple, la série de programmes Humdrum extras est
utilisée. Ensuite, ils sont transformés en format Melisma (cf. section 7.3.1), plus simple pour le
traitement informatique, à l’aide du programme « kern2melisma » de la série Humdrum extras.
Avant cette transformation, le tempo des fichiers Humdrum est fixé, arbitrairement et sans
conséquences sur les applications, à 100 pulsations par minute pour une noire (*MM100). Ainsi,
lors de la transformation en fichier Melisma, une noire aura une durée exacte de 600 ms. Finalement,
les fichiers Melisma sont transformés en tables de contingence brutes par l’intermédiaire
d’un programme en Perl.
Soit un fichier Melisma dont chaque ligne, l = 1, . . . , L, représente une note j, avec tdeb le
temps de début de la note et tfin le temps de fin de cette note. On choisit une durée τ , en
millisecondes 2
, puis, pour chaque ligne l, on obtient, pour les s entiers compris entre b
tdeb
τ
c
(inclus) et d
tfin
τ
e (non inclus), les éléments de la table de contingence (temporaire) comme :
X
temp
sj = min (tfin, τ (s + 1)) − max (tdeb, τs) (8.2)
On procède de la même manière pour les silences (j = z), soit lorsque le temps de début de la
note sur la ligne l, tdeb (l), est plus grand que les temps de fin des notes précédentes, soit des
lignes 1, . . . , l − 1, tfin (l − 1), en posant, dans (8.2), tdeb = tfin (l − 1) et tfin = tdeb (l). Pour
terminer, tous les effectifs de ces tables temporaires sont additionnés pour obtenir la table de
contingence brute X.
Lors de cette procédure, les silences présents sur la partition à la fin ou au début du morceau
de musique sont perdus. Ils sont alors ajoutés « manuellement » pour conserver toutes les
informations de la partition.
Dans un second temps, l’agrégation est exécutée dans R. Dans toutes les applications de
ce chapitre, à l’exception des figures 8.21 et 8.22, lorsque la durée τ est plus grande ou égale
à une mesure et que le morceau de musique commence avec une anacrouse (ou levée), cette
dernière est ajoutée à la première mesure lors de l’agrégation. Aussi, si le choix de la durée τ ne
permet pas d’obtenir des diviseurs entiers de τtot, alors le dernier intervalle de temps, n, sera
plus court lors de l’agrégation. Finalement, toujours dans R, les tables de contingence brutes
sont normalisées pour obtenir la table Ξ (8.1).
8.2 Analyses d’une partition
8.2.1 Traitements
Comme expliqué dans la section 1.4 et mis en œuvre dans la section 4.2, il est possible
de pratiquer une AFC pour visualiser des données représentées sous la forme d’une table de
contingence. Pour ce faire, on utilise le MDS (cf. section 1.4.1). En premier lieu, les dissimilarités
du khi2 entre les intervalles de temps Dˆ
st (respectivement entre les hauteurs de notes Dˇ
ij ) sont
calculées par (1.6) (resp. (1.7)) sur la table de contingence normalisée (8.1). Ensuite, par (1.24),
on obtient la matrice des produits scalaires pondérés entre les intervalles de temps Kˆ (resp.
entre les hauteurs de note Kˇ ), dont la décomposition spectrale va permettre de calculer les
coordonnées factorielles (1.25).
D’autre part, les intervalles de temps, ordonnés chronologiquement, peuvent s’interpréter
comme des positions. Ainsi, il est possible de mesurer la différence entre la variabilité de l’ensemble
des dissimilarités du khi2 entre les intervalles de temps (Dˆ
st) et la variabilité locale
2. Pour ne procéder qu’une fois à la transformation des fichiers Melisma en tables de contingence avant les
éventuelles agrégations, on choisit une valeur assez faible de τ , par exemple une croche.8.2. Analyses d’une partition 113
de ces dissimilarités dans un voisinage défini par E, grâce à l’indice d’autocorrélation δ (3.4),
comme il a été fait pour les textes dans le chapitre 6. Concernant la matrice d’échange, seule
la matrice périodique (3.2), déjà utilisée pour les textes dans la figure 6.2, sera adoptée. Pour
rappel, cette dernière, contrairement aux autres matrices d’échange, a l’avantage de permettre
de considérer deux positions (une à gauche et une à droite) à une distance r d’une position
donnée, sans considérer les positions qui les séparent. De plus, le voisinage est périodique, ce
qui correspond au cas d’un morceau de musique joué en continu.
8.2.2 Partition monophonique
Afin de mieux appréhender les résultats obtenus avec ces méthodes, le premier exemple traite
une chanson enfantine, dont la mélodie est connue et qui, en plus, a l’avantage d’être monophonique.
2 3 4
4
4
5 6 7 8
Figure 8.3 – Partition de « Frère Jacques » en do majeur.
La figure 8.3 présente la partition de Frère Jacques transposée en do majeur (le fichier Humdrum
original était en mi[ majeur) ; et la figure 8.4, l’AFC appliquée sur cette partition. Dans
cette dernière, lorsque τ est égal à une croche (graphiques du haut), alors une note, au maximum,
est jouée durant chaque intervalle de temps, ce qui signifie que la représentation est totalement
monophonique. Dans ce cas, les dissimilarités euclidiennes carrées entre les intervalles de temps
sont des dissimilarités en étoile, donc de la forme Dˆ
st = as + at (voir par exemple Critchley
et Fichet, 1994). Par conséquent, toutes les valeurs propres sont identiques et il est difficile
de compresser les données par l’intermédiaire d’une analyse factorielle. Aussi, sur le biplot, les
coordonnées des intervalles de temps coïncident exactement avec les coordonnées des hauteurs
de notes, il est donc possible de suivre visuellement la partition. En augmentant la valeur de
τ à une noire (graphique en bas, à gauche), le nombre d’intervalles de temps diminue et, ainsi,
l’inertie expliquée par les deux premières dimensions augmente. On remarque aussi que les coordonnées
factorielles dans les deux premières dimensions sont identiques pour trois notes, à
savoir fa (5), sol (7) et la (9). Finalement, avec τ égal à une mesure (graphique en bas, à droite),
la structure du morceau de musique apparaît, avec chaque mesure jouée deux fois. On remarque
aussi l’alignement de la succession des intervalles de temps en forme de « fer à cheval ». Cet
alignement est typique d’un effet de Guttman (arch ou horseshoe effect) se produisant lorsque
les modalités sont ordonnées, ce qui est le cas ici selon l’ordre chronologique (voir par exemple
Gauch, Whittaker et Wentworth, 1977; Camiz, 2005).
De plus, on observe sur la figure 8.4, comme déjà évoqué, que l’inertie expliquée par les deux
premiers facteurs varie en fonction de τ , car le nombre d’intervalles de temps diminue lorsque
la durée τ augmente et, par conséquent, le nombre de dimensions α (cf. section 1.4.1) décroît
aussi. Ainsi, l’inertie expliquée par les premiers facteurs augmente (graphique de gauche de la
figure 8.5) et l’inertie totale ∆ (1.17) diminue (graphique de droite de la figure 8.5) avec τ .
En particulier, dans ces deux figures, l’inertie reste constante lorsque τ est plus petit ou égal
à une croche, soit la plus petite durée d’une note dans la partition, et lorsque τ est compris
entre une ronde, donc une mesure, et deux rondes, car chaque mesure est répétée une fois. On
observe aussi, qu’à l’inverse des résultats obtenus avec les diviseurs entiers de τtot qui évoluent
régulièrement, les résultats calculés avec toutes les valeurs de τ sont plus fluctuants. En fait, lors114 8. ANALYSE DE DONNÉES MUSICALES
-3 -2 -1 0 1
-1
0 1 2
3
Premier axe factoriel 20 %
Deuxième axe factoriel 20 %
1
3
5
19
64 0
2
4
5
7
9
τ =
1 2 3 4 5
15 20 25
Dimensions
Proportion d'inertie expliquée [%]
τ =
-1.0 -0.5 0.0 0.5 1.0
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
Premier axe factoriel 23.76 %
Deuxième axe factoriel 23.76 %
1
2
3
11
32 0
2
4
5
7
9
τ = ♩
-1.0 -0.5 0.0 0.5 1.0
-1.0 -0.5 0.0 0.5
Premier axe factoriel 60.29 %
Deuxième axe factoriel 26.64 %
1
2
3
4
5 6
7
8
0
2
4
5
7
9
τ = mesure
Figure 8.4 – AFC sur « Frère Jacques ». En haut, à gauche : biplot avec τ égal à une croche.
Sur ce graphique et sur les suivants dans ce chapitre, les triangles, avec des nombres en italique
de grande taille, représentent les hauteurs de notes, la taille des triangles étant proportionnelle
au nombre de notes dans le morceau de musique ; et les cercles pleins, parfois étiquetés avec
des nombres de petite taille, les intervalles de temps. Ces derniers sont reliés dans l’ordre chronologique
selon la progression du temps. En haut, à droite : valeurs propres pour le biplot de
gauche. En bas à gauche : biplot avec τ égal à une noire. En bas à droite : biplot avec τ égal à
une mesure.
de l’agrégation des effectifs des tables de contingence dans ce second cas, comme déjà mentionné,
la durée du dernier intervalle de temps est plus courte et, par conséquent, le partitionnement
du morceau de musique n’est pas régulier. Finalement, on constate que la courbe de l’inertie
totale décroît de façon convexe, comme une hyperbole ou une exponentielle à exposant négatif.
La figure 8.6 présente l’indice d’autocorrélation calculé sur le morceau de musique « Frère
Jacques » avec deux valeurs de τ différentes. En premier lieu, comme déjà expliqué pour la
figure 6.2, on remarque que δ = 1 lorsque r = 0 et que le graphique est symétrique. Sur le
graphique de gauche, soit pour une valeur de τ égal à une noire, un pic significatif (δ = 0.495)
apparaît lorsque r = 4, soit pour une distance correspondant à une mesure. En fait, en raison de
la répétition systématique de chaque mesure, à chaque moment t, les mêmes notes sont jouées à
une distance r = 4, parfois à gauche, parfois à droite de t. Ce pic correspond à la durée τ d’une
mesure, soit celle qui permet d’obtenir la meilleure visualisation de la partition par l’AFC dans
cet exemple (graphique en bas à droite de la figure 8.4).
En posant τ égal à une mesure (graphique gauche de la figure 8.6), aucune valeur n’est
significative et aucun pic n’apparaît. Il semble donc que cette durée soit trop élevée et que, par
conséquent, trop d’information soit perdue. Cependant, il est tout de même possible d’observer
que l’autocorrélation est positive (δ = 0.382) lorsque r = 1, soit pour la répétition de chaque8.2. Analyses d’une partition 115
20 40 60 80 100
Durée des intervalles de temps τ [ronde]
Inertie expliquée par les premiers facteurs [%]
1/16 1/2 1 2 4
Premier facteur
Somme des deux premiers facteurs
0 1 2
3
4
5
Durée des intervalles de temps τ [ronde]
Inertie totale
Δ
1/16 1 2 4 8
Figure 8.5 – AFC sur « Frère Jacques ». Proportion d’inertie expliquée par les premiers facteurs
(gauche) et inertie totale (droite) en fonction de la valeur de τ . Dans ces deux graphiques, la
ligne pointillée représente les résultats pour toutes les durées et la ligne continue, les résultats
pour les diviseurs entiers de τtot.
0 5 10 15 20 25 30
-0.5 0.0 0.5 1.0
matrice d'échange périodique, r
indice d'autocorrélation
δ
τ = ♩
0 2 4 6 8
-1.0 -0.5 0.0 0.5 1.0
matrice d'échange périodique, r
indice d'autocorrélation
δ
τ = mesure
Figure 8.6 – Indice d’autocorrélation en fonction du décalage r variant entre 0 et n pour « Frère
Jacques », avec τ égal à une noire (gauche) et à une mesure (droite). Dans cette figure, ainsi
que dans les suivantes de ce chapitre, la ligne continue représente l’indice d’autocorrélation ; la
ligne traitillée, la valeur attendue E0(δ) (3.5) ; et les lignes pointillées, l’intervalle de confiance
à 95% (3.6).
mesure, et qu’elle est négative pour r compris entre 2 et 4, soit quand on compare des mesures
qui sont différentes, ce qui semble cohérent.
8.2.3 Partitions polyphoniques avec un seul instrument
Dans cette section, quatre partitions polyphoniques pour piano sont étudiées :
— la « Mazurka en fa] mineur, Op. 6, No1 » de Chopin :
— avec un chiffrage 3/4 et 112 mesures, passages répétés inclus ;
— le « Prélude No1 en do majeur, BWV 846 » de J. S. Bach :
— avec un chiffrage 4/4 et 35 mesures ;
— la « Sonate en ré majeur, Andante cantabile, L. 12 (K. 478) » de Scarlatti :
— avec un chiffrage 3/4 et 230 mesures, passages répétés inclus ;
— le 3e mouvement, « Minuetto e Trio », de la « Sonate pour piano No1 en fa mineur, Op.
2, No1 » de Beethoven :
— avec un chiffrage 3/4 et 186 mesures, passages répétés inclus.116 8. ANALYSE DE DONNÉES MUSICALES
-1.0 -0.5 0.0 0.5 1.0
-2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
Premier axe factoriel 17.55 %
Deuxième axe factoriel 15.46 %
1
337
0
1
2
3
4
5 6
7
8
9
10
11
τ = ♩
-1.0 -0.5 0.0 0.5
-0.5 0.0 0.5 1.0
Premier axe factoriel 27.62 %
Deuxième axe factoriel 22.11 %
1
2
3
4
5
112
0
1
2
3
4
5
6
7
8
9
10
11
τ = mesure
-0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4
-0.5 0.0 0.5 1.0
Premier axe factoriel 52.89 %
Deuxième axe factoriel 33.09 %
1
2
3
4
5
6
7
8
9
10
11
12
13
14
0
1
2
3
4
5
6
7
8 9
10
11
τ = 8 mesures
Figure 8.7 – AFC sur la « Mazurka en fa] mineur, Op. 6, No1 » de Chopin. Biplots avec τ égal
à une noire (gauche), à une mesure (centre) et à huit mesures (droite).
La figure 8.7 présente les résultats de l’AFC appliquée sur la Mazurka de Chopin, avec trois
valeurs différentes de τ . La structure de la partition de musique apparaît plus clairement pour
des valeurs de τ élevées. En particulier, le graphique de droite, lorsque τ est égal à huit mesures,
révèle les passages similaires (1, 3, 6, 9 et 13 d’une part ; 2, 4, 7, 10 et 14 d’autre part ; ainsi
que 5 et 8) et les passages différents (12 par rapport à 13 par exemple).
0 10 20 30 40 50
40 60 80 100
Durée des intervalles de temps τ [mesure]
Inertie expliquée par les premiers facteurs [%]
Premier facteur
Somme des deux premiers facteurs
0 20 40 60 80 100
0.0 0.2 0.4 0.6 0.8 1.0 1.2
Durée des intervalles de temps τ [mesure]
Inertie totale
Δ
Figure 8.8 – AFC sur la « Mazurka en fa] mineur, Op. 6, No1 » de Chopin. Proportion d’inertie
expliquée par les premiers facteurs (gauche) et inertie totale (droite) en fonction de la valeur
de τ .
Comme pour la partition musicale de « Frère Jacques », augmenter la valeur de τ implique
une augmentation de l’inertie expliquée par les premiers facteurs et une diminution de l’inertie
totale ∆ (figure 8.8). En particulier, pour l’inertie expliquée par le premier facteur, on constate
qu’elle est plus élevée lorsque τ est égal à 14 mesures, puis qu’elle ne varie que très peu entre
τ égal à 16 mesures et τ égal à 28 mesures, l’explication de ce phénomène restant à établir.
Concernant le graphique τ - ∆, il possède, à nouveau la même structure que celui pour « Frère
Jacques » (graphique de droite de la figure 8.5). Ceci se produisant pour toutes les partitions,
ce graphique sera donc omis dans les prochains exemples.
Le choix consistant à sélectionner τ égal à huit mesures dans le graphique de droite de la
figure 8.7, résulte, d’une part, de l’étude de la partition, et d’autre part, des résultats obtenus
pour l’indice d’autocorrélation (figure 8.9). En effet, on observe que des pics significatifs se
produisent toutes les 24 noires (graphique de gauche) ou toutes les 8 mesures (graphique de
droite), ce qui est équivalent. Les deux graphiques apportent donc une information semblable,
si ce n’est que dans le premier cas, les résultats sont plus détaillés. Ainsi, pour l’étude des trois
autres partitions de piano, on choisira systématiquement τ égal à une mesure pour les indices8.2. Analyses d’une partition 117
0 50 100 150 200 250 300 350
0.0 0.2 0.4 0.6 0.8 1.0
matrice d'échange périodique, r
indice d'autocorrélation
δ
τ = ♩
0 20 40 60 80 100
-0.2 0.0 0.2 0.4 0.6 0.8 1.0
matrice d'échange périodique, r
indice d'autocorrélation
δ
τ = mesure
Figure 8.9 – Indice d’autocorrélation en fonction du décalage r variant entre 0 et n pour la
« Mazurka en fa] mineur, Op. 6, No1 » de Chopin, avec τ égal à une noire (gauche) et à une
mesure (droite).
d’autocorrélation, car il semble être plus adapté à la mise en évidence de la structure globale
de ces partitions polyphoniques. On remarque aussi un pic plus élevé lorsque r = 72 avec τ égal
à une noire (respectivement r = 24 avec τ égal à une mesure), ce qui s’explique certainement
par le fait qu’un passage composé de 24 mesures se répète, donc que les proportions de notes
des intervalles de temps t = 33, . . . , 56 sont identiques aux proportions de notes des intervalles
t = 57, . . . , 80.
-1 0 1 2
-1
0 1 2
Premier axe factoriel 20.21 %
Deuxième axe factoriel 16.31 %
1 3
5
70
0
1
2
3
4
5
6
7
9 8
10
11
τ =
-2 -1 0 1
-1
0 1 2
Premier axe factoriel 20.21 %
Deuxième axe factoriel 16.32 %
1 2
3
35
0
1
2
3
4
5
6
7
8 9
10
11
τ = mesure
-0.5 0.0 0.5 1.0 1.5
-0.5 0.0 0.5 1.0 1.5
Premier axe factoriel 38.68 %
Deuxième axe factoriel 25.23 %
2 1
3
4
5
6
7
8
9
0
1
2
3
4 5
6
7
8
9
10
11
τ = 4 mesures
Figure 8.10 – AFC sur le « Prélude No1 en do majeur, BWV 846 » de J. S. Bach. Biplots avec
τ égal à une blanche (gauche), à une mesure (centre) et à quatre mesures (droite).
Concernant le prélude de Bach (figure 8.10), aucune structure claire n’apparaît dans les
biplots obtenus par l’AFC, excepté lorsque la durée τ est égale à quatre mesures. En observant
l’indice d’autocorrélation pour cette même partition (graphique de gauche de la figure 8.13),
on remarque un pic lorsque r = 4 mesures qui, bien qu’il ne soit pas significatif, semble donc
constituer une division intéressante de la partition. Il faut préciser que pour l’AFC, le morceau
comportant 35 mesures, le temps t = 9 n’est composé que des 3 dernières mesures. Aussi, en
observant les graphiques de gauche et du centre de la figure 8.10, on constate que les graphiques
pour τ égal à une blanche et τ égal à une mesure sont quasiment identiques (au signe du premier
facteur près). Cela s’explique par le fait que dans tout ce morceau de musique, à l’exception
des mesures 33 et 34, les deux derniers temps d’une mesure sont identiques aux deux premiers.
De plus, dans les mesures 33 et 34, il existe des différences entre les deux premiers et les deux
derniers temps, mais les hauteurs de note rapportées à l’octave sont identiques, bien que de
durées différentes. Évidemment, le même phénomène aurait pu être observé sur la partition de
« Frère Jacques » : exactement le même résultat (aux signes des facteurs près) aurait été obtenu118 8. ANALYSE DE DONNÉES MUSICALES
avec τ égal à deux mesures que celui qui est obtenu avec τ égal à une mesure (figure 8.4).
0 1 2 3 4 5 6
-3 -2 -1
0 1
Premier axe factoriel 31.15 %
Deuxième axe factoriel 12.46 %
1
230
0
1
2
3
4
5
6
7
8
9
10
11
z
-3 -2 -1 0 1
-1.5 -1.0 -0.5 0.0 0.5 1.0
Deuxième axe factoriel 12.46 %
Troisième axe factoriel 10.86 %
1
230 0
1 2
3
4
5
6
7
8 9
10
11 z
0 20 40 60 80 100
40 60 80 100
Durée des intervalles de temps τ [mesure]
Inertie expliquée par les premiers facteurs [%]
Premier facteur
Somme des deux premiers facteurs
Figure 8.11 – AFC sur la « Sonate en ré majeur, Andante cantabile, L. 12 (K. 478) » de
Scarlatti. Biplots avec τ égal à une mesure, 1re et 2e dimensions (gauche) et 2e et 3e dimensions
(centre). Proportion d’inertie expliquée par les premiers facteurs (droite).
Les résultats obtenus pour l’AFC sur la sonate de Scarlatti, avec τ égal à une mesure (graphique
de gauche et du centre de la figure 8.11) sont considérablement différents de ceux obtenus
pour les autres partitions de musique, en raison de la présence de vrais silences z. En fait, le
profil de z est opposé au profil des autres hauteurs de note et cette opposition est capturée par
le premier facteur. Par construction, le même phénomène se produit lorsque τ est plus petit
ou égal à une mesure. Ainsi, pour ce morceau de musique, on remarque que l’inertie expliquée
par le premier facteur (graphique de droite de la figure 8.11) n’augmente pas systématiquement
avec τ , mais qu’elle diminue lorsque τ est plus petit ou égal à cinq mesures.
Aussi, il n’a pas été trouvé de valeur de τ permettant de mettre clairement en évidence la
structure de la partition. En observant l’indice d’autocorrélation (graphique du centre de la
figure 8.13), deux pics significatifs apparaissent (δ = 0.251 et δ = 0.208) lorsque r = 54 et
r = 61 mesures. Cela s’explique par le fait que les 61 premières mesures sont répétées une fois,
puis les 54 mesures suivantes sont aussi répétées une fois et que ces deux parties constituent le
morceau entier. Évidemment, il aurait été possible de choisir τ égal à 54 mesures pour obtenir
un biplot plus simple à lire avec l’AFC, car dans ce cas, il n’y aurait eu que cinq intervalles
de temps qui auraient, comme pour la partition de « Frère Jacques », manifesté un effet de
Guttman.
-1.0 -0.5 0.0 0.5 1.0 1.5 2.0
-1.5 -1.0 -0.5 0.0 0.5 1.0
Premier axe factoriel 18.79 %
Deuxième axe factoriel 16.42 %
1
2
16
86 96
114137
186
0
1
3 2
4
5
6
7
8
9
10
11
z
τ = mesure
-0.5 0.0 0.5 1.0
-0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0
Premier axe factoriel 61.41 %
Deuxième axe factoriel 23.52 %
1
2
3
4
5 6
7
8
0
1
2
3
4 5
6
7 8
9 10 11
z τ = 26 mesures
0 20 40 60 80
20 40 60 80 100
Durée des intervalles de temps τ [mesure]
Inertie expliquée par les premiers facteurs [%]
Premier facteur
Somme des deux premiers facteurs
Figure 8.12 – AFC sur le 3e mouvement, « Minuetto e Trio », de la « Sonate pour piano No1 en
fa mineur, Op. 2, No1 » de Beethoven. Biplots avec τ égal à une mesure (gauche) et à vingt-six
mesures (centre). Proportion d’inertie expliquée par les premiers facteurs (droite).
Le biplot obtenu avec l’AFC sur le 3e mouvement de la sonate de Beethoven, avec τ égal à une
mesure (graphique de gauche de la figure 8.12) montre que de nombreux intervalles de temps
sont superposés (par exemple le 114 et le 137), ce qui est dû aux multiples répétitions présentes
dans ce morceau, mais aussi au fait que certaines mesures se composent exactement des mêmes8.2. Analyses d’une partition 119
hauteurs de note rapportées à l’octave (elles sont parfois sur des octaves différentes), avec les
mêmes durées. Si l’on avait produit le biplot pour τ égal à une noire, on aurait obtenu, comme
pour la partition de Scarlatti avec τ égal à une mesure, un premier axe différenciant les vrais
silences des autres notes, car la durée la plus longue d’un vrai silence dans ce morceau vaut une
noire.
Pour sélectionner une valeur de τ permettant de visualiser la structure de la partition, l’indice
d’autocorrélation, avec τ égal à une mesure, est examiné (graphique de droite de la figure 8.13).
Trois pics apparaissent clairement, soit lorsque r = 26, r = 54 et r = 80 mesures. Alors que le
premier pic s’explique certainement par le fait que la deuxième partie du morceau, qui est la plus
longue, s’étend sur 26 mesures qui sont répétées une fois, le troisième pic s’explique peut-être par
la présence des deux autres pics, puisque 26 + 54 = 80. Cependant, la signification du deuxième
pic reste encore à établir. Ainsi, le premier pic, soit le seul à être significatif, est sélectionné
comme valeur de τ pour le biplot présenté sur le graphique du centre de la figure 8.12. Bien que
peu d’intervalles de temps soient représentés sur ce graphique, il reste tout de même difficile de
l’interpréter. À noter que le dernier intervalle de temps t = 8 n’est composé que de 4 mesures,
car la division de τtot par 26 mesures ne donnait pas un nombre entier.
Finalement, on observe que bien que l’inertie expliquée par les premiers facteurs augmente
avec la durée τ , comme pour les autres partitions de musique, la courbe croît de manière concave,
sans paliers, ni pics (graphique de droite de la figure 8.12).
0 5 10 15 20 25 30 35
-0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0
matrice d'échange périodique, r
indice d'autocorrélation
δ
Bach
0 50 100 150 200
-0.2 0.0 0.2 0.4 0.6 0.8 1.0
matrice d'échange périodique, r
indice d'autocorrélation
δ
Scarlatti
0 50 100 150
-0.2 0.0 0.2 0.4 0.6 0.8 1.0
matrice d'échange périodique, r
indice d'autocorrélation
δ
Beethoven
Figure 8.13 – Indice d’autocorrélation en fonction du décalage r variant entre 0 et n, avec τ
égal à une mesure, pour le « Prélude No1 en do majeur, BWV 846 » de J. S. Bach (gauche),
pour la « Sonate en ré majeur, Andante cantabile, L. 12 (K. 478) » de Scarlatti (centre) et pour
le 3e mouvement, « Minuetto e Trio », de la « Sonate pour piano No1 en fa mineur, Op. 2, No1 »
de Beethoven (droite).
8.2.4 Partition polyphonique avec plusieurs instruments
Pour terminer cette analyse de partitions complètes, un morceau polyphonique composé pour
quatre instruments est étudié, à savoir le « Canon en ré majeur » de Pachelbel, qui comporte
57 mesures, avec un chiffrage 4/4.
La figure 8.14 présente les résultats obtenus avec l’AFC. Lorsque τ est égal à une noire
(graphique en haut à gauche), une structure du morceau de musique apparaît clairement, bien
qu’elle soit difficile à comprendre. En retirant les lignes qui relient les intervalles de temps et
en attribuant le même symbole aux intervalles de temps avec un même décalage de t mod 8
(graphique en haut à droite), on observe que la position d’un intervalle de temps chaque huit
noires ne varie que peu sur les deux premiers axes factoriels. En fait, le canon est joué par
quatre instruments : trois violons et un clavecin. Alors que le clavecin joue continuellement, le
premier violon commence à jouer la mélodie à la 3e mesure, puis le second violon reprend cette
mélodie à la 5e mesure et finalement, le troisième violon recommence la même mélodie à partir
de la 7e mesure. Ainsi, la structure de base de ce morceau de musique semble se baser sur deux120 8. ANALYSE DE DONNÉES MUSICALES
-1.0 -0.5 0.0 0.5 1.0 1.5
-0.5 0.0 0.5 1.0
Premier axe factoriel 45.19 %
Deuxième axe factoriel 26.49 %
τ = ♩
-1.0 -0.5 0.0 0.5 1.0 1.5
-0.5 0.0 0.5 1.0
Premier axe factoriel 45.19 %
Deuxième axe factoriel 26.49 %
0
1
2
4
6
7
9
11
Décalage
(modulo 8) de
1
2
3
4
5
6
7
8
τ = ♩
-0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4
0.0 0.5 1.0 1.5 2.0 2.5 3.0
Premier axe factoriel 66.04 %
Deuxième axe factoriel 15.62 %
1
57
0
1
7 11 42 9 6
τ = mesure
Figure 8.14 – AFC sur le « Canon en ré majeur » de Pachelbel. Biplots avec τ égal à une noire
(haut) et à une mesure (bas).
mesures, soit huit noires. En particulier, le clavecin, qui constitue la basse du morceau, joue
plus de notes simultanément et influence donc fortement le résultat obtenu.
Concernant le biplot obtenu lorsque τ est égal à une mesure (graphique du bas), il est plus
difficile de visualiser la structure du morceau de musique, car le second axe ne différencie que
le do naturel (0) des autres notes. Cela s’explique par le fait que ce do naturel n’apparaît que
dans quelques mesures.
Contrairement aux partitions de musique polyphoniques pour un seul instrument étudiées
dans la section 8.2.3, l’indice d’autocorrélation a été calculé avec τ égal à une noire (graphique
de gauche de la figure 8.15), car le résultat obtenu apporte des informations supplémentaires
à celles que l’on peut observer lorsque τ est égal à une mesure (graphique de droite de la
figure 8.15). En effet, lorsque τ vaut une noire, δ exhibe de nombreuses fluctuations régulières.
En particulier, des pics significativement positifs et plus élevés apparaissent toutes les huit
noires, ce qui semble cohérent avec l’AFC produite pour τ égal à une noire. Aussi, certaines
valeurs de δ, toujours à intervalles réguliers, sont significativement négatives, ce qui n’a jamais
été observé pour les autres partitions de musique étudiées. De plus, bien qu’ils soient moins
élevés que les premiers, d’autres pics significativement positifs apparaissent pour r = 8c + 2 et
pour r = 8c + 6 noires, où c ∈ N. Ces derniers correspondent probablement, en se basant sur
une structure de huit noires, aux distances entre les intervalles de temps similaires, soit le cinq8.3. Analyses inter-voix 121
0 50 100 150 200
-0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0
matrice d'échange périodique, r
indice d'autocorrélation
δ
τ = ♩
0 10 20 30 40 50
-0.5 0.0 0.5 1.0
matrice d'échange périodique, r
indice d'autocorrélation
δ
τ = mesure
Figure 8.15 – Indice d’autocorrélation en fonction du décalage r variant entre 0 et n pour le
« Canon en ré majeur » de Pachelbel, avec τ égal à une noire (gauche) et à une mesure (droite).
et le sept, pour le premier, et le deux et le huit, pour le second, selon le graphique en haut à
droite de la figure 8.14. En se basant sur ce même graphique, on pourrait s’attendre à trouver
des valeurs positives de δ aussi lorsque r = 8c + 5, en raison de la similarité des intervalles de
temps un et six. Cependant, ces valeurs sont négatives, car plusieurs positions s’opposent selon
le premier axe factoriel, dont l’inertie expliquée est élevée, comme par exemple les intervalles
deux et sept.
Lorsque τ est égal à une mesure, on constate que δ forme une courbe en dents de scie, oscillant
entre des valeurs positives et négatives. Ainsi, lorsque r est paire, δ est positif, et inversement,
ce qui, à nouveau, semble cohérent avec une structure de la partition de musique basée sur deux
mesures.
8.3 Analyses inter-voix
8.3.1 Traitements
Soit Ξ
v
, la table de contingence normalisée pour une des voix v = 1, . . . , V d’une partition de
musique. Alors, la table de contingence complète pour une partition s’obtient comme la matrice
concaténée Ξ
COMP = (Ξ1
|Ξ
2
|...|Ξ
V
). Une AFC est appliquée sur cette table de contingence, de
manière identique à celle expliquée dans la section 8.2.1. Alors qu’une analyse des correspondances
multiples (AMC) se pratique sur une table disjonctive (voir par exemple Lebart et al.,
1995, section 1.4 ; Saporta, 2006, chapitre 10 ; Le Roux et Rouanet, 2010), la procédure est
appliquée ici sur des lignes qui, en raison de la normalisation (8.1), contiennent les proportions
des hauteurs de note de chaque voix pour un t donné, ce qui constitue une variante « floue » de
l’AMC.
D’autre part, afin d’étendre l’indice d’autocorrélation à deux voix (α et β), l’indice d’autocorrélation
croisée, mesurant la similarité entre la distribution de la hauteur des notes de la
voix α et la distribution de la hauteur des notes de la voix β dans un voisinage fixé, est utilisé
(cf. section 3.3). Pour ce faire, les coordonnées de haute dimensionalité des lignes, ξ
∗ v
tj , sont
obtenues par (1.10), puis ces dernières permettent de calculer δ( Ξ∗ α, Ξ
∗ β
) (3.7). Comme pour
l’indice d’autocorrélation, on utilise la matrice d’échange périodique (3.2).
Pour rappel, plusieurs conditions sont nécessaires à l’application de l’indice d’autocorrélation
croisée, à savoir que les deux tables comparées comportent 1) le même nombre de positions,
ici les intervalles de temps t, 2) le même nombre de caractéristiques, ici les hauteurs de notes
j et que 3) les poids des lignes des deux tables, ft
, soient identiques. La condition 1) est
systématiquement remplie, car les partitions sont de même longueur pour toutes les voix ; et122 8. ANALYSE DE DONNÉES MUSICALES
la condition 3), car la table Ξ
v
est normalisée. Quant à la condition 2), elle n’est pas toujours
remplie, car une hauteur de note peut être présente dans une voix et non dans une autre. Le
cas échéant, la note absente dans une des voix est ajoutée avec une faible valeur (10−30) pour
chaque t (cf. section 8.3.2).
8.3.2 Un canon
Pour commencer, les méthodes décrites ci-dessus sont appliqués au Canon de Pachelbel déjà
traité lors de l’étude des partitions complètes (cf. section 8.2.4). En premier lieu, il faut préciser
que le fichier Humdrum comportait cinq voix, dont deux pour le clavecin. Néanmoins, pour ce
travail, on a choisi de ne considérer que quatre voix, soit une pour chaque instrument.
-1.0 -0.5 0.0 0.5 1.0
-2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0
Premier axe factoriel 11.71 %
Deuxième axe factoriel 11.1 %
V1_0
V1_1
V1_2
V1_4
V1_6
V1_7
V1_9
V1_11
V1_z
V2_0
V2_1
V2_2
V2_4
V2_6 V2_7
V2_9
V2_11
V2_z
V3_0
V3_1
V3_2
V3_4
V3_6 V3_7
V3_9
V3_11
V3_z
V4_0
V4_1
V4_2
V4_4
V4_6
V4_7
V4_9
V4_11
τ = ♩
-1.0 -0.5 0.0 0.5 1.0
-2.0 -1.5 -1.0 -0.5 0.0 0.5
Premier axe factoriel 11.71 %
Deuxième axe factoriel 11.1 %
1
228 2
10
15
21
24
25
30
31
102
114
119
192
τ = ♩
-2.0 -1.5 -1.0 -0.5 0.0 0.5
-1.5 -1.0 -0.5 0.0 0.5 1.0
Premier axe factoriel 29.38 %
Deuxième axe factoriel 10.8 %
V1_0
V1_1
V1_2 V1_4
V1_6
V1_7
V1_9
V1_11
V1_z
V2_0
V2_1
V2_2
V2_4
V2_6
V2_7
V2_9
V2_11
V2_z
V3_0
V3_1
V3_2
V3_4 V3_6
V3_7
V3_9
V3_11
V3_z
V4_0
V4_1
V4_2
V4_4
V4_6
V4_7
V4_9 V4_11
τ = mesure
-2.0 -1.5 -1.0 -0.5 0.0
-0.5 0.0 0.5
Premier axe factoriel 29.38 %
Deuxième axe factoriel 10.8 %
1
57
2
3
4
5
6
24
25
28
29
49
50
14
21
30
τ = mesure
Figure 8.16 – ACM floue sur le « Canon en ré majeur » de Pachelbel, avec τ égal à une noire
(haut) et à une mesure (bas). Gauche : coordonnées factorielles des hauteurs de note, dont les
noms sont précédés par V1 pour le violon I, V2 pour le violon II, V3 pour le violon III et V4
pour le clavecin. Droite : coordonnées factorielles des intervalles de temps.
En appliquant l’ACM sur le canon de Pachelbel (figure 8.16), on constate que lorsque τ est
égal à une noire (graphiques du haut), le premier et le second axe factoriel différencient les
silences des trois violons de toutes les autres notes, pour la même raison évoquée lorsque l’AFC
a été appliquée à la sonate de Scarlatti (cf. figure 8.11). Cela permet aussi de remarquer que des8.3. Analyses inter-voix 123
vrais silences existent pour les trois violons, mais non pour le clavecin 3
. Cette opposition entre
les vrais silences et les autres notes met en évidence la structure de la partition de musique
par l’intermédiaire de la représentation des intervalles de temps (graphique en haut à droite).
En effet, les huit premiers intervalles de temps sont regroupés dans l’extrémité sud-ouest du
quadrant sud-ouest, correspondant au début du morceau de musique, lorsque seul le clavecin
joue. Ensuite, on observe un regroupement des intervalles de temps neuf à seize, soit la durée
pendant laquelle le violon I a rejoint le clavecin. Puis, durant les intervalles de temps dix-sept
à vingt-quatre, les violons I et II jouent avec le clavecin. Et finalement, le plus grand groupe au
nord est constitué de la majorité des intervalles de temps pendant lesquels tous les instruments
jouent. On constate aussi qu’il existe un autre groupe, contenant, par exemple, les intervalles
de temps 114 ou 119, et qui correspond à des moments durant lesquels des silences, qui durent
une croche, se produisent pour l’un des violons.
Les graphiques du bas de la figure 8.16, obtenus avec τ égal à une mesure, ont une interpré-
tation similaire. En effet, dans ce cas, le premier axe factoriel (graphique de gauche) oppose
les silences aux autres notes et on retrouve (graphique de droite) les deux premières mesures
dans cette zone, puis les mesures trois et quatre plus proche du centre, etc. Ces graphiques
comportant moins de points que les précédents (graphiques du haut de la figure 8.16), il est
aussi possible de mieux observer les mesures contenant des silences lorsque tous les instruments
jouent, comme par exemple, les mesures vingt-quatre ou vingt-cinq. La principale différence
entre les résultats obtenus avec τ égal à une noire ou égal à une mesure réside dans le fait que
les mêmes notes jouées par des instruments différents sont regroupées dans le premier cas et
non dans le second (graphiques de gauche).
0 10 20 30 40 50
-0.1 0.0 0.1 0.2 0.3 0.4 0.5
matrice d'échange périodique, r
indice d'autocorrélation croisée
δ(*
Ξ
α,*
Ξβ
)
Violons I et II
Violons I et III
Violons II et III
0 10 20 30 40 50
-0.10 -0.05 0.00 0.05 0.10 0.15 0.20
matrice d'échange périodique, r
indice d'autocorrélation croisée
δ(*
Ξ
α,*
Ξβ
)
Violon I et Clavecin
Figure 8.17 – Indice d’autocorrélation croisée en fonction de la distance r variant entre 0 et n
pour le « Canon en ré majeur » de Pachelbel, avec τ égal à une mesure.
Sur le graphique de gauche de la figure 8.17, représentant l’indice d’autocorrélation entre les
trois violons avec τ égal à une mesure, on observe trois pics plus importants : le premier, entre
les violons I et II lorsque r = 2, le second entre les violons II et III aussi lorsque r = 2 et le
troisième entre les violons I et III lorsque r = 4 ; ce qui correspond bien aux décalages de deux
ou quatre mesures entre les départs de chaque violon.
Concernant l’autocorrélation croisée entre le violon I et le clavecin avec τ égal à une mesure,
on observe un comportement très similaire à celui de l’autocorrélation pour l’ensemble des instruments
avec la même durée τ (cf. figure 8.15), soit des valeurs positives lorsque r est paire et
3. Ainsi, pour calculer l’indice d’autocorrélation croisée entre le clavecin et un autre instrument, il faudra ajouter
le silence au premier avec de faibles valeurs, comme il est expliqué dans la section 8.3.1.124 8. ANALYSE DE DONNÉES MUSICALES
inversement. En fait, l’indice d’autocorrélation entre le clavecin et n’importe quel autre violon
suit toujours cette même alternance. Aussi, en prenant τ égal à une noire, l’autocorrélation croisée
entre l’un des violons et le clavecin est très similaire à l’indice d’autocorrélation obtenu avec
la même durée τ . Il semble donc que le clavecin comportant plus de notes influence totalement
l’indice d’autocorrélation croisée, à l’inverse de chacun des violons.
8.3.3 Un quatuor à cordes
Le second et dernier exemple étudié pour l’analyse inter-voix d’une partition est le 1er mouvement
« Allegro con brio » du « Quatuor à cordes No1 en fa majeur, Op. 18 No1 » de Beethoven,
avec un chiffrage 3/4 et 427 mesures, répétitions incluses.
-0.5 0.0 0.5 1.0 1.5
-0.5 0.0 0.5 1.0 1.5 2.0
Premier axe factoriel 5.93 %
Deuxième axe factoriel 4.89 %
V1_0
V1_1
V1_2
V1_3
V1_5V1_4
V1_6
V1_7
V1_8
V1_9
V1_10
V1_11
V1_z
V2_0
V2_1
V2_2
V2_3
V2_4
V2_5
V2_6
V2_7
V2_8
V2_9
V2_10
V2_11
V2_z
V3_0
V3_1
V3_2
V3_3
V3_4
V3_5
V3_6
V3_7
V3_8
V3_9
V3_10
V3_11 V3_z V4_0
V4_1
V4_2
V4_3
V4_4 V4_5
V4_6
V4_7
V4_8
V4_9
V4_10
V4_11
V4_z
τ = ♩
-0.5 0.0 0.5 1.0 1.5
-1
0 1 2
3
Premier axe factoriel 5.93 %
Deuxième axe factoriel 4.89 %
1
1281
τ = ♩
-0.5 0.0 0.5 1.0 1.5
-1
0 1 2
3
Premier axe factoriel 5.93 %
Deuxième axe factoriel 4.89 %
1
1281
116
181 195
748
854
925
947
1019
1030
1192
τ = ♩
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
-2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0
Premier axe factoriel 6.75 %
Deuxième axe factoriel 6.14 %
V1_0
V1_1
V1_2
V1_3
V1_4
V1_5
V1_6
V1_7
V1_8
V1_9
V1_10
V1_11
V1_z
V2_0
V2_1
V2_2
V2_3
V2_4
V2_5
V2_6
V2_7
V2_8
V2_9
V2_10
V2_11
V2_z
V3_0
V3_1
V3_2
V3_3
V3_4
V3_5
V3_6
V3_7
V3_8
V3_9
V3_10
V3_11
V3_z
V4_0
V4_1
V4_2
V4_3
V4_4
V4_5
V4_6
V4_7
V4_8
V4_9
V4_10
V4_11
V4_z
τ = mesure
-2 -1 0 1
-1.5 -1.0 -0.5 0.0 0.5 1.0
Premier axe factoriel 6.75 %
Deuxième axe factoriel 6.14 %
τ = mesure
-2 -1 0 1
-1.5 -1.0 -0.5 0.0 0.5 1.0
Premier axe factoriel 6.75 %
Deuxième axe factoriel 6.14 %
1
427
58
269 256
321
331
390
τ = mesure
Figure 8.18 – ACM floue sur le 1er mouvement du « Quatuor à cordes No1 en fa majeur, Op. 18
No1 » de Beethoven, avec τ égal à une noire (haut) et à une mesure (bas). Gauche : coordonnées
factorielles des hauteurs de note, dont les noms sont précédés par V1 pour le violoncelle, V2
pour l’alto, V3 pour le violon II et V4 pour le violon I. Centre : coordonnées factorielles des
intervalles de temps reliées dans l’ordre chronologique. Droite : coordonnées factorielles des
intervalles de temps non reliées.
Les résultats obtenus avec l’ACM « floue » sont présentés dans la figure 8.18. Lorsque τ est égal
à une noire (graphiques du haut), le premier axe oppose, comme pour le Canon de Pachelbel,
les silences aux autres hauteurs de note. Ne s’agissant pas d’un canon, il semble difficile de
déterminer des zones pour les intervalles de temps du graphique du centre. Cependant, en
supprimant les lignes qui relient les intervalles de temps (graphique de droite), plusieurs zones
distinctes apparaissent. À l’extrême est se trouvent les intervalles de temps durant lesquels
aucun instrument ne joue et à l’extrême ouest, ceux durant lesquels tous les instruments jouent.
Concernant les résultats obtenus en posant que τ est égal à une mesure (graphiques du bas),
les vrais silences des quatre instruments à cordes sont regroupés dans le quadrant sud-est, mais
il est difficile de visualiser la structure du morceau de musique.
La figure 8.19 présente l’indice d’autocorrélation croisée entre les différentes paires d’instruments.
On remarque diverses oscillations pour toutes les courbes, difficiles à interpréter.
Cependant, on retrouve un pic plus important, pour plusieurs des courbes, lorsque r = 1148.3. Analyses inter-voix 125
0 100 200 300 400
0.00 0.05 0.10 0.15 0.20
matrice d'échange périodique, r
indice d'autocorrélation croisée
δ(*
Ξ
α,*
Ξβ
)
Alto et Violoncelle
Violon I et Violon II
0 100 200 300 400
0.00 0.05 0.10 0.15 0.20
matrice d'échange périodique, r
indice d'autocorrélation croisée
δ(*
Ξ
α,*
Ξβ
)
Alto et Violoncelle
Violon I et Violoncelle
0 100 200 300 400
0.00 0.05 0.10 0.15
matrice d'échange périodique, r
indice d'autocorrélation croisée
δ(*
Ξ
α,*
Ξβ
)
Violon II et Alto
Violon I et Violoncelle
0 100 200 300 400
0.00 0.05 0.10 0.15
matrice d'échange périodique, r
indice d'autocorrélation croisée
δ(*
Ξ
α,*
Ξβ
)
Violon II et Violoncelle
Violon I et Alto
Figure 8.19 – Indice d’autocorrélation croisée en fonction de la distance r variant entre 0 et n
pour le 1er mouvement du « Quatuor à cordes No1 en fa majeur, Op. 18 No1 » de Beethoven,
avec τ égal à une mesure.
mesures, correspondant à la répétition de la première partie de la partition de musique. Deux
autres pics (r = 8 et r = 53 mesures) apparaissent pour l’autocorrélation croisée entre le violon
II et l’alto, probablement dus à des passages joués une première fois par l’un des instruments et
repris par l’autre, ou simplement des hauteurs de notes similaires ; le recours à l’interprétation
d’un expert serait ici nécessaire.
Aussi, lorsque r = 0, il n’existe pas de décalage entre les deux voix α et β, et l’indice
d’autocorrélation croisée δ( Ξ∗ α, Ξ
∗ β
)
(r=0) s’interprète alors comme une mesure de similarité
entre ces deux voix. Sur la figure 8.19, on constate que certaines paires de voix sont plus
similaires que d’autres.
La dissimilarité entre les deux voix s’obtient comme Dαβ = 1 − δ( Ξ∗ α, Ξ
∗ β
)
(r=0) qui se
trouve être une dissimilarité euclidienne carrée. Ainsi, il est possible d’utiliser la classification
ascendante hiérarchique, avec le critère de Ward, pour classifier les différents instruments (cf.
section 2.1.1). Le résultat obtenu, avec la fonction « hclust » de R, est présenté dans la figure 8.20.
Il en ressort que l’alto et le violoncelle, d’une part, et que le violon I et le violon II, d’autre
part, partagent plus de similarités mélodiques que les autres paires d’instruments.126 8. ANALYSE DE DONNÉES MUSICALES Violoncelle AltoViolon II Violon I
0.76 0.80 0.84 0.88
Cluster Dendrogram
hclust (*, "ward")
dist_hclust
Hauteur
Figure 8.20 – Classification ascendante hiérarchique des quatre voix du 1er mouvement du
« Quatuor à cordes No1 en fa majeur, Op. 18 No1 » de Beethoven selon δ( Ξ∗ α, Ξ
∗ β
)
(r=0), avec
τ égal à une mesure.
8.4 Analyses inter-partitions
Dans cette dernière section, on cherche à déterminer les similarités qui existent entre les
partitions de musique, de manière à pouvoir les classer selon leur compositeur. Pour ce faire, un
échantillon de vingt partitions de musique est constitué (section 8.4.1), puis, en se basant sur
une mesure de similarité, une classification ascendante hiérarchique de ces morceaux de musique
est effectuée (section 8.4.2).
8.4.1 Données
Le jeu de données comprend 20 morceaux de musique écrits par 4 compositeurs, à savoir :
— cinq sonates de Domenico Scarlatti (1685 - 1757) ayant toutes un chiffrage 2/2, soit :
— la « Sonate en do majeur, Allegro, L. 1 (K. 514) »,
— la « Sonate en mi bémol majeur, Allegro, L. 16 (K. 306) »,
— la « Sonate en sol mineur, Allegro, L. 336 (K. 93) »,
— la « Sonate en la majeur, Allegrissimo, L. 345 (K. 113) », et
— la « Sonate en si mineur, Allegro, L. 346 (K. 408) » ;
— le premier mouvement de cinq sonates pour piano de Wolfgang Amadeus Mozart (1756 -
1791), soit :
— la « Sonate pour piano N˚1 en do majeur, K1 279 / K6 189d, 1. Allegro »,
— la « Sonate pour piano N˚2 en fa majeur, K1 280 / K6 189e, 1. Allegro assai »,
— la « Sonate pour piano N˚3 en si bémol majeur, K1 281 / K6 189f, 1. Allegro »,
— la « Sonate pour piano N˚4 en mi bémol majeur, K1 282 / K6 189g, 1. Adagio », et
— la « Sonate pour piano N˚5 en sol majeur, K1 283 / K6 189h, 1. Allegro » ;
— le premier mouvement de cinq sonates pour piano de Ludwig van Beethoven (1770 - 1827),
soit :
— la « Sonate pour piano N˚1 en fa mineur, Op. 2, N˚1, 1. Allegro »,
— la « Sonate pour piano N˚2 en la majeur, Op. 2, N˚2, 1. Allegro vivace »,
— la « Sonate pour piano N˚3 en do majeur, Op. 2, N˚3, 1. Allegro con brio »,
— la « Sonate pour piano N˚4 en mi bémol majeur, Op. 7, 1. Allegro molto con brio », et
— la « Sonate pour piano N˚5 en do mineur, Op. 10, N˚1, 1. Allegro molto e con brio » ;
et
— cinq mazurkas de Frédéric François Chopin (1810 - 1849), soit :
— la « Mazurka en fa dièse mineur, Op. 6, N˚1 »,
— la « Mazurka en si bémol majeur, Op. 7, N˚1 »,
— la « Mazurka en si bémol majeur, Op. 17, N˚1 »,8.4. Analyses inter-partitions 127
— la « Mazurka en sol mineur, Op. 24, N˚1 »,
— la « Mazurka en do mineur, Op. 30, N˚1 ».
8.4.2 Traitement et résultat
Pour mesurer la similarité de la configuration (configuration similarity) entre deux partitions
a et b, on utilise une version duale pondérée du coefficient RV proposé par Robert et Escoufier
(1976), à savoir :
CSab =
Tr(Kˇ aKˇ b
)
q
Tr((Kˇ a)
2)Tr((Kˇ b)
2)
où Kˇ a
(respectivement Kˇ b
) sont les produits scalaires pondérés entre les hauteurs de notes de la
partition de musique a (resp. b), identiques à ceux calculés dans la section 8.2.1 par (1.24). Cela
implique que les deux partitions possèdent les mêmes hauteurs de note. Cependant, si une note
est présente dans une des partitions de musique et non dans l’autre, les composantes Kˇ a
(ou
Kˇ b
) sont nulles par définition. Ainsi, des composantes nulles ont simplement été ajoutées dans
les matrices le cas échéant. De plus, pour rendre les partitions comparables, elles ont toutes été
transposées en do.
Ensuite, on définit la dissimilarité entre deux partitions comme Dab = 1 − CSab. Cette dissimilarité,
tout comme la dissimilarité entre deux voix Dαβ, peut s’interpréter comme une géné-
ralisation de la distance du cosinus (voir par exemple Weihs, Ligges, Mörchen et Müllensiefen,
2007) et se trouve être une dissimilarité euclidienne carrée. Ainsi, les méthodes de classification
usuelles (cf. chapitre 2) peuvent être utilisées sur les dissimilarités Dab, et on utilise, à nouveau,
la classification ascendante hiérarchique avec le critère de Ward, par l’intermédiaire de la
fonction « hclust ».
50
100
150
50
100
0.2
0.4
0.6
0.8
Mazurka 6: τ [noire]
Mazurka 24: τ [noire]
1 −
C
S
2
4
6
8
10
12
14
2
4
6
8
10
12
0.0
0.1
0.2
0.3
0.4
0.5
0.6
Mazurka 6: τ
Mazurka 24:
[noire]
τ [noire]
1 −
C
S
Figure 8.21 – Dissimilarité entre la « Mazurka en fa dièse mineur, Op. 6, N˚1 » et la « Mazurka
en sol mineur, Op. 24, N˚1 » de Chopin en fonction de τ .
Avant de procéder à une classification, il faut noter qu’étant donné que Kˇ a
et Kˇ b dépendent
de la durée τ , il en sera de même pour la dissimilarité Dab. On observe, sur les deux exemples
présentés dans les figures 8.21 et 8.22, que la dissimilarité entre les deux partitions Dab augmente
de façon irrégulière lorsque la durée τ augmente 4
.
4. Il faut noter que pour créer ces figures, comme déjà mentionné dans la section 8.1.2, les éventuelles anacrouses
ont été supprimées pour pouvoir agréger les intervalles de temps de manière complètement automatique.128 8. ANALYSE DE DONNÉES MUSICALES
50
100
150
100
200
300
400
0.2
0.4
0.6
0.8
Chopin, Mazurka 6: τ [noire]
Mozart, Sonate 2: τ [noire]
1 −
C
S
2
4
6
8
10
12
14
2
4
6
8
10
12
0.0
0.1
0.2
0.3
0.4
0.5
0.6
Chopin, Mazurka 6: τ [noire]
Mozart, Sonate 2: τ [noire]
1 −
C
S
Figure 8.22 – Dissimilarité entre la « Mazurka en fa dièse mineur, Op. 6, N˚1 » de Chopin et
le 1er mouvement de la « Sonate pour piano N˚2 en fa majeur, K1 280 / K6 189e » de Mozart
en fonction de τ . Beethoven:sonata04-1 Beethoven:sonata02-1 Beethoven:sonata03-1 Beethoven:sonata01-1 Beethoven:sonata05-1
Mozart:sonata02-1
Mozart:sonata03-1
Mozart:sonata01-1
Mozart:sonata05-1
Scarlatti:L001K514
Chopin:mazurka17-1
Mozart:sonata04-1
Chopin:mazurka07-1
Chopin:mazurka30-1
Chopin:mazurka06-1
Chopin:mazurka24-1
Scarlatti:L016K306
Scarlatti:L336K093
Scarlatti:L345K113
Scarlatti:L346K408
0.0 0.2 0.4 0.6
Cluster Dendrogram
hclust (*, "ward")
dist_hclust
Hauteur
Figure 8.23 – Classification ascendante hiérarchique des 20 partitions de musique avec le critère
d’agrégation de Ward.
Ainsi, afin d’avoir une unité de durée commune à toutes les partitions de musique lors du
calcul des distances Dab, on pose τ égal à une mesure. Le résultat obtenu est présenté dans la
figure 8.23. Bien que le jeu de données soit restreint, ce premier résultat est encourageant, car
les morceaux de musique sont bien regroupés selon leur compositeur, en particulier en ce qui
concerne les partitions de Beethoven.8.5. Discussion 129
8.5 Discussion
Pour commencer, il faut se rappeler que seul l’aspect catégoriel des notes a été exploité, et
non les valeurs numériques des hauteurs. Ainsi, une transposition de l’ensemble de la partition
ne changerait pas les résultats et il en serait de même si deux hauteurs de notes étaient systé-
matiquement échangées. À l’inverse, un partie répétée mais transposée aura une représentation
différente de l’originale. En d’autres termes, la représentation choisie implique que, à l’intérieur
d’un intervalle de temps donné t, les notes forment « un sac de notes ». Néanmoins, l’ordre
temporel des notes est pris en compte lorsqu’elles n’apparaissent pas durant le même intervalle
de temps.
Concernant les analyses pratiquées sur les partitions complètes (section 8.2), l’AFC et l’autocorrélation
ont été utilisées, et ces deux méthodes ont permis de visualiser certains aspects
de la structure des partitions. En particulier, l’AFC a mis en évidence la structure du morceau
lorsqu’une valeur adéquate de τ était utilisée et que la partition contenait des motifs récurrents.
Les résultats sont plus difficiles à interpréter lorsqu’un motif est transposé ou lorsqu’un
vrai silence apparaît, car comme on l’a vu (figure 8.11), dans ce second cas, le premier facteur
n’exprime que l’opposition entre le silence et le son. Concernant l’indice d’autocorrélation, il
permet principalement de détecter les répétitions, qu’elles soient exactes ou approximatives,
mais à la condition qu’elles ne soient pas transposées. De plus, il est souvent un bon indicateur
des valeurs de τ pouvant donner lieu à des AFC intéressantes.
Au sujet des analyses inter-voix des partitions (section 8.3), l’ACM floue, tout comme l’AFC
dans le cas des partitions de musique complètes, a permis de visualiser des éléments structurels
des partitions, de manière plus ou moins évidente selon le choix de la valeur de τ . Quant à l’indice
d’autocorrélation croisée, il a permis de comparer les différentes voix d’une même partition en
mesurant leur similarité selon une distance r. Il est particulièrement adapté pour révéler les
passages similaires, mais dans deux voix distinctes. Cet indice pourrait aussi être utilisé pour
comparer deux variantes d’un même morceau de musique. Par exemple, Ellis et Poliner (2007)
utilisent l’auto-corrélation croisée pour comparer des variantes d’un même morceau dans des
fichiers audio. Finalement, l’analyse inter-partitions (section 8.4) a montré des premiers résultats
encourageants.
En conclusion, la représentation de la musique polyphonique en tables de contingence a permis
de visualiser certaines structures inhérentes des partitions, ainsi que d’obtenir une classification
non supervisée avec de bons résultats. Évidemment, de nombreuses pistes restent encore à
explorer.
En premier lieu, seul un petit nombre de partitions a été étudié dans l’ensemble de ce chapitre
et il serait assurément intéressant d’en analyser un plus grand nombre, afin de déterminer si
certains résultats sont systématiques. En particulier, il faudrait découvrir s’il est possible de
déterminer la valeur de τ idéale pour les analyses factorielles, et selon quel critère.
Concernant les différents choix opérés lors de la représentation des partitions, d’autres possibilités
pourraient être envisagées. Par exemple, les parties répétées et explicitement indiquées
comme telles sur la partition pourraient être omises (étape facile à réaliser à partir du format
Humdrum). Ainsi, ces parties répétées ne seraient plus détectées, ce qui permettrait peut-être
de voir émerger d’autres structures. Aussi, les anacrouses pourraient être retirées, ce qui permettrait
d’automatiser davantage la procédure pour la suite des opérations.
Pour terminer, concernant la classification des partitions de musique selon les compositeurs,
une prochaine étape pourrait consister à augmenter le jeu de données, puis à utiliser des mé-
thodes de classification supervisée, telles que l’analyse discriminante (cf. section 2.2.1).Conclusion et discussion
Comme il a été expliqué dans l’introduction, la première visée de ce travail était de pratiquer
une analyse exploratoire de données textuelles et musicales au moyen d’un formalisme et de
méthodes bien contrôlés et compatibles avec des unités de poids possiblement non-uniformes.
En particulier, le formalisme s’appuyait sur trois concepts fondamentaux : (i) une table de
contingence, (ii) une matrice de dissimilarités euclidiennes carrées et (iii) une matrice d’échange.
Grâce à ce formalisme, plusieurs méthodes ont pu être exprimées, à savoir : l’AFC, basée sur
(i) ou sur (ii), à condition que ces dernières soient produites sur (i) ; la classification supervisée
ou non, parfois combinée aux transformations de Schoenberg, de nouveau basée sur (ii) ; et les
indices d’autocorrélation et d’autocorrélation croisée, basés sur (ii) et (iii). Les dissimilarités
euclidiennes carrées sont donc au cœur de ces méthodes.
Ainsi la première question qu’on est en droit de se poser est « Quelles structures ont pu
être découvertes sur les données textuelles et musicales choisies par l’intermédiaire de ces mé-
thodes ? », ainsi que « Quelles conclusions peut-on en retirer le cas échéant ? ». Comme déjà
mentionné, on ne se positionne pas ici comme spécialiste de l’un ou l’autre des domaines spéci-
fiques aux données traitées, mais comme un observateur, ou même un explorateur, espérant que
l’une de ses découvertes puisse être utile et offrir un nouveau point de vue à des spécialistes.
Concernant la classification automatique de propositions énoncées en types de discours (chapitre
4), plusieurs conclusions émergent. En premier lieu, il faut se demander si le choix de
ne représenter les propositions énoncées que par les uni-, bi- et trigrammes de CMS qu’elles
contiennent constituait une bonne approche 1
. En d’autres termes, est-ce que le choix d’utiliser
des représentations si simples était suffisant pour un problème si complexe ? La littérature relative
à ce type de problèmes ne semblait pas aller à l’encontre de ce choix. Ensuite, une première
analyse inférentielle (test du khi2) et descriptive (quotient d’indépendance) sur les liens existant
entre les CMS et les types de discours, basés sur l’annotation des propositions énoncées par un
expert humain, a confirmé ce choix. De plus, les visualisations obtenues par l’AFC semblaient
encourageantes, bien que parfois atténuées par la validation par bootstrap.
Les résultats de la classification non supervisée pour chacun des quatre contes de Maupassant,
par l’intermédiaire de la méthode K-means, combinée à la transformation de puissance de
Schoenberg, ainsi que par l’algorithme K-means flou, n’ont finalement pas été aussi concluants
que l’on aurait pu l’espérer. Pour commencer, comme il avait déjà été remarqué lors de l’analyse
descriptive et de l’AFC, des tendances différentes sont obtenues pour les quatre contes. Qui plus
est, les deux indices d’accord entre partitions utilisés ont des comportements très différents et
il était donc difficile de parvenir à une conclusion générale pour un texte donné. Néanmoins,
1. On ne reviendra pas ici sur la capacité de TreeTagger à associer correctement, ou non, les CMS à chaque mot
(voir par exemple Dejean, Fortun, Massot, Pottier, Poulard et Vernier, 2010, pour le français).
131132 CONCLUSION ET DISCUSSION
sans pouvoir en élucider vraiment la raison, il est clair que cette représentation des textes par
les CMS a été plus performante pour retrouver les types de discours du conte « Le Voleur »
que pour les autres textes. Aussi, au regard des résultats obtenus avec la méthode K-means
flou avec laquelle on a fait varier le nombre de groupes construit par l’algorithme, il semble que
parfois la génération de plus de six groupes permette un meilleur accord avec les six types de
discours annotés. Sans pouvoir l’assurer, faute d’analyses à cet effet, on peut imaginer qu’un
autre niveau de structure entre en jeu, peut-être en lien avec la structure hiérarchique des types
de discours.
On pourrait aussi se demander s’il n’aurait pas été plus pertinent de faire usage de classification
supervisée, sortant ainsi du cadre strict de l’analyse exploratoire. Cependant, étant
donné qu’une classification supervisée nécessite un ensemble d’apprentissage, le nombre de propositions
de certains types de discours semblait trop faible lorsque l’on considère chaque texte
séparément. Une alternative pourrait consister à modifier la méthodologie de ce chapitre et
concaténer les quatre textes. Finalement, comme on aurait peut-être pu s’y attendre, n’utiliser
que les CMS fut un choix un peu trop drastique au vu de la complexité de la tâche à effectuer.
Comme il est vrai pour chacune des applications, le sujet reste ouvert et les pistes, nombreuses.
Dans le chapitre 5 qui traitait de la classification supervisée multi-étiquette des tours de
parole des pages de discussion de Simple English Wikipedia en actes de dialogue, la démarche
était clairement différente s’agissant d’un problème supervisé. À nouveau, la représentation des
données se voulait simple, intelligible et uniquement axée sur des caractéristiques linguistiques.
Pour rappel, les tours de parole étaient représentés par trois caractéristiques considérées séparé-
ment : les lemmes, les CMS et le sens des verbes selon WordNet. Ces trois caractéristiques, qui
semblaient en accord avec la littérature, ont été sélectionnées pour diverses raisons. Concernant
les lemmes, ils ont été pris en compte car il s’agit d’une unité souvent considérée dans ce type
d’approches, simple et généralement efficace. Quant aux CMS, elles ont été utilisées au vu des
liens qui avaient été déterminés entre ces dernières et les types de discours dans le chapitre
précédent. En effet, bien qu’un acte de dialogue ne soit pas un type de discours, il nous semblait,
en tant que néophyte dans ces domaines, que ces deux concepts devaient avoir des points
communs, choix qui s’avéra judicieux au vu des résultats obtenus. Finalement, l’idée d’utiliser
les hyperonymes les plus généraux naquit après avoir travaillé sur les dissimilarités sémantiques
présentées dans le chapitre 6. Il nous semblait en effet que certains verbes devaient souvent se
retrouver dans certains actes de dialogue et qu’il faudrait donc considérer des classes de verbes.
Ainsi, plutôt que de constituer manuellement des classes de verbes comme il avait déjà été
fait dans la littérature, on a décidé de les constituer automatiquement par l’intermédiaire de
WordNet 2
.
Concernant la méthode de classification multi-étiquette, il fallait commencer par décider si
les données devaient être transformées pour aboutir à une série de classifications binaires pour
chaque étiquette ; ou si au contraire il fallait opter pour une transformation de l’algorithme permettant
de traiter en une fois toutes les étiquettes pour chaque individu. Ainsi, une première
analyse consista à déterminer l’existence, ou non, de liens entre les étiquettes. Ces liens étant
faibles, le choix s’est porté sur la série de classifications binaires. Elle a été effectuée grâce à l’analyse
discriminante, encore une fois combinée à la transformation de puissance de Schoenberg.
Plusieurs conclusions émergent. En premier lieu, le critère du plus proche centroïde est souvent
plus efficace que le critère des plus proches voisins sur ces données. Deuxièmement, la transformation
de puissance améliore les résultats obtenus avec la classification selon la F-mesure.
Troisièmement, le meilleur résultat sur l’ensemble des étiquettes est obtenu en utilisant les CMS
comme caractéristiques. Finalement, bien que les CMS permettent une meilleure classification
de l’ensemble des étiquettes, certaines étiquettes sont mieux discriminées par une des deux
autres caractéristiques. Au final, il nous semble que l’intérêt de chacune des caractéristiques
2. Comme pour TreeTagger, on ne s’étendra pas ici sur les limitations de WordNet et sur le fait de sélectionner
systématiquement le premier sens des mots rencontrés (voir par exemple Hawker et Honnibal, 2006).CONCLUSION ET DISCUSSION 133
linguistiques a été mis en évidence.
Le chapitre 6 concernait la dernière application sur des textes, à savoir l’autocorrélation
textuelle. Dans ce chapitre, on s’est intéressé à différentes caractéristiques concernant les mots
d’un texte, pensé comme une séquence d’unités ordonnées. Pour rappel, les textes ont été choisis
pour des raisons techniques, l’accent étant davantage mis sur les propriétés génériques que
spécifiques à un texte. Pour commencer, l’indice d’autocorrélation a été mesuré en considérant
la longueur des mots, avec des voisinages définis par les trois matrices d’échange présentées
dans le chapitre 3, en fonction de r (itérations, distance ou largeur). Comme on l’espérait pour
le français, l’indice a correctement détecté une alternance entre des mots courts et des mots
longs, correspondant certainement aux mots outils et aux mots pleins lorsque l’on considère un
voisinage restreint.
Ensuite, l’apparition, ou non, de quatre parties du discours a été analysée avec la matrice
d’échange à fenêtres mobiles. Concernant les noms, on a observé qu’ils sont rarement suivis
(ou précédés) par un autre nom, ce qui est cohérent avec l’utilisation du français. Inversement,
les verbes sont souvent suivis par d’autres verbes, ce que l’on a attribué à l’emploi de temps
composés. Concernant les adjectifs et les adverbes, l’indice d’autocorrélation n’était jamais
significatif, et seule une tendance à ne pas avoir deux adjectifs (respectivement deux adverbes)
qui se suivent, mais à avoir deux adjectifs (respectivement deux adverbes) séparés par une autre
CMS, a été observée.
Pour terminer, des dissimilarités sémantiques, basées sur WordNet, ont été étudiées avec la
matrice d’échange à fenêtres mobiles sur deux textes différents, pour deux parties du discours :
les noms et les verbes. Bien qu’en général le choix des textes ait été arbitraire, ici le second
texte a été sélectionné avec l’espoir qu’une nouvelle contienne un matériel plus intéressant
et hétérogène du point de vue sémantique. En premier lieu, l’indice d’autocorrélation a été
mesuré pour chacun des textes et pour chacune des parties du discours, sur la matrice des
dissimilarités sémantiques. Dans les deux textes et pour les deux parties du discours, il n’était
jamais significatif et se comportait de façon assez régulière en fonction de la taille du voisinage
envisagé. On remarque cependant que pour la nouvelle, il est clairement positif et ce pour une
grande gamme de voisinages. On peut donc supposer l’existence d’un champ lexical cohérent
dans un proche voisinage. Après avoir représenté graphiquement ces dissimilarités au moyen du
Multidimensional Scaling (MDS), l’autocorrélation a été mesurée sur les deux premiers facteurs
extraits de ce MDS. Finalement, l’interprétation des résultats obtenus pour les deux textes était
différente, car les structures produites par le MDS étaient différentes. Premièrement, alors que
l’indice d’autoccorélation n’était jamais significatif pour le premier texte, il l’était pour le second
texte plus littéraire lorsque le premier facteur était considéré. En particulier, on a constaté que
de longs segments de textes contenaient des noms appartenant au même concept parmi les deux
concepts observés. Concernant les verbes, on a pu constater la coprésence des verbes d’action,
plus nombreux que les verbes d’état.
En résumé, même en se limitant à quelques applications, on peut déjà observer les possibilités
de cet indice dans une analyse exploratoire de textes. En plus des autres applications qui sont
présentées dans les articles cités dans ce chapitre, il en existe de nombreuses autres.
Comme dernière application, le chapitre 8 s’intéressait à l’analyse purement exploratoire de
partitions musicales. Dans une première partie, les partitions, représentées à l’aide de tables
de contingence selon différentes durées d’intervalles de temps, ont été analysées dans leur ensemble.
Pour ce faire, l’AFC et l’indice d’autocorrélation ont été utilisés. Notre espoir était
ici, d’une part, de pouvoir visualiser la structure d’une partition avec l’AFC et de percevoir
des groupements de notes selon les accords ; et d’autre part, de détecter des motifs avec l’indice
d’autocorrélation. L’analyse a d’abord été effectuée sur une partition monophonique, ce qui nous
a permis de mieux appréhender le genre de résultats que l’on était en droit d’attendre avec ces
analyses. Il a rapidement semblé évident que certaines structures pouvaient être visualisées par
l’AFC et mises en évidence par l’indice d’autocorrélation, mais qu’il serait difficile de détecter134 CONCLUSION ET DISCUSSION
des accords. L’analyse effectuée ensuite sur des partitions polyphoniques a confirmé qu’il était
possible de visualiser des structures présentes dans une partition, à condition de sélectionner
la « bonne » durée d’intervalles de temps. En revanche, l’indice d’autocorrélation a repéré les
structures partiellement répétées, à condition qu’il n’y ait pas de modulation, donc de transposition
à l’intérieur d’une partition. Finalement, on comprend qu’il est plus simple de synthétiser
l’information de morceaux de musique contenant des formes de répétition et qui correspondent
probablement à ceux que l’on retient facilement.
L’analyse s’est ensuite portée sur les différentes voix que comprend une partition. Dans ce
second cas, il n’y avait pas d’attentes particulières, l’idée étant plutôt d’étendre les analyses
effectuées dans la première partie de ce chapitre. Ainsi, une variante flou de l’analyse multiple
des correspondances, ainsi qu’un indice d’autocorrélation croisée, ont été utilisés. À nouveau,
il a été possible de visualiser certaines structures présentes dans une partition au moyen de
l’analyse factorielle et de repérer des répétitions (partielles ou complètes), cette fois entre les
différentes voix, grâce à l’indice d’autocorrélation croisée. Malgré ces résultats intéressants, on
est derechef confronté au problème de la détermination de la « bonne » durée d’intervalles de
temps, question qu’il reste à élucider.
Finalement, au vu des caractérisations particulières obtenues pour chaque partition dans la
première partie de l’analyse grâce à la représentation choisie, il semblait cohérent de comparer les
représentations de chacune des partitions pour examiner si des similitudes se dégageaient entre
certaines d’entre elles. Pour cela, une adaptation du coefficient RV permettant de mesurer la
similarité entre deux tables de contingence a été proposée. Après avoir transformé les similarités
entre 20 partitions en dissimilarités, une classification ascendante hiérarchique a permis de
constater qu’en général, les partitions d’un même compositeur étaient regroupées.
S’agissant d’une thèse, la recherche ne s’achève pas avec cette conclusion : plusieurs questions
restent ouvertes et un grand nombre de pistes concernant les suites possibles de ce travail
peuvent être explorées. Ainsi, la deuxième question sera : « Quelles pistes de recherche semblent
les plus pertinentes pour continuer cette recherche ? »
Pour reprendre la structure de la thèse, on se penchera d’abord sur les nouvelles possibilités à
envisager concernant les méthodes. La méthode de visualisation (AFC), ainsi que les méthodes
classiques de classification, supervisée ou non, ont été choisies pour leur compatibilité avec des
dissimilarités euclidiennes carrées. Ainsi, il a été possible de les utiliser avec des transformations
de Schoenberg. Dans cette thèse, seule la transformation de puissance a été envisagée. Bien
qu’elle permette des améliorations dans certaines des applications de classification proposées, il
serait sans nul doute judicieux d’en expérimenter d’autres, telles que, pour n’en citer qu’une, la
transformation gaussienne :
ϕ(D) = 1 − exp(−qD) où q ≥ 0
Aussi, comme il a été fait avec la classification non supervisée par l’algorithme K-means, et celle
supervisée, avec l’analyse discriminante, il serait possible de combiner facilement les transformations
de Schoenberg avec la méthode K-means flou. De plus, il serait également imaginable
de visualiser des dissimilarités du khi2 alliées aux transformations de Schoenberg par le MDS.
Finalement, une piste certainement pertinente serait, comme il a déjà été proposé dans la
discussion du chapitre 5 pour un cas restreint (5.1), de combiner différentes matrices de dissimilarités
euclidiennes carrées (correspondant à différentes caractéristiques mesurées sur des
données, éventuellement associées à des transformations de Schoenberg), avec des poids nonnégatifs
β et normalisés, ce qui permettrait d’obtenir une matrice de dissimilarités euclidiennes
carrées globale :
Dtot = β1D1 + β2D2 + . . . + βpDp où βk ≥ 0 et β1 + β2 + . . . + βp = 1CONCLUSION ET DISCUSSION 135
Cette nouvelle matrice pourrait alors être utilisée de manière analogue aux autres matrices de
dissimilarités avec les différentes méthodes proposées dans cette thèse. À l’extrême, il serait
toujours possible de l’associer à de nouvelles transformations de Schoenberg.
Pour revenir sur le choix des dissimilarités, seules les dissimilarités du khi2, ou les dissimilarités
euclidiennes carrées en général ont été utilisées, car ces dernières possédaient la forme
adéquate pour l’ensemble des méthodes expérimentées dans cette thèse. Cela étant, d’autres
distances auraient pu être utilisées pour faire de la classification. En particulier, il serait intéressant
de considérer des dissimilarités adaptées, pour autant qu’elles existent, aux matrices
creuses rencontrées dans certaines de nos applications, en particulier lors de la classification non
supervisée des types de discours.
À propos de la classification non supervisée : seule une partie des possibilités de la méthode
K-means flou a été exploitée dans ce travail. Il serait possible, en particulier, d’y implémenter
le principe du recuit-simulé. En bref, ce dernier consiste à démarrer l’itération de l’algorithme,
comme dans la version proposée ici, à partir d’une température élevée, puis, à abaisser lentement
la température à chaque itération, i.e. suffisamment lentement pour que la convergence soit
assurée à chaque étape. L’algorithme convergera alors vers une solution dure, dont on peut
espérer que la variance intra-groupe résultante sera plus faible que celle résultante de la méthode
K-means dur. Les itérations initiales à température élevée visent, en effet, à permettre au
système d’explorer plus efficacement l’ensemble des partitions floues possibles et d’éviter ainsi
d’être emprisonné dans une configuration locale dont la variance intra-groupe serait trop élevée
(voir par exemple Rose et al., 1990).
Au sujet des applications, divers axes de recherche qui nous semblent prometteurs pourraient
encore être exploités. Ils seront simplement résumés ici et en partie étendus, car ils ont déjà été
largement exposés dans la dernière section de chaque chapitre concernant les applications.
Concernant le chapitre 4, la question de la structure hiérarchique des types de discours a
simplement été éludée, bien qu’elle puisse, à première vue, déboucher sur différentes nouvelles
pistes d’étude. Par exemple, on pourrait analyser si certains types de discours tendent à être
systématiquement inclus dans d’autres. On le sait déjà pour le type injonctif qui est systématiquement
inclus dans le type dialogal dans les textes traités ici, mais il existe peut-être d’autres
inclusions significatives. Aussi, il semblerait que certains passages aient un type de discours
dominant. Il serait alors utile qu’un expert humain indique ces dominances dans la hiérarchie,
ce qui permettrait de travailler sur des segments plus longs et donc susceptibles de contenir
plus d’information à classer. Finalement, il serait certainement précieux de pouvoir disposer
d’un plus grand nombre de textes annotés.
Dans le chapitre 4, tout comme dans le chapitre 5, il pourrait aussi être intéressant de se
pencher sur une vision plus « ingénieure » du problème, c’est-à-dire clairement axée sur la
performance, en contraste avec le propos principal de la thèse, axé sur l’analyse exploratoire
des données. Il faudrait alors combiner un grand nombre de caractéristiques, y appliquer une
sélection de ces caractéristiques, puis combiner différentes méthodes. De plus, il faudrait disposer
de données plus étendues : la prise en compte d’un grand nombre de caractéristiques sur des
jeux de données relativement réduits étant particulièrement susceptible de produire des règles
surparamétrées.
Spécifiquement, au sujet du chapitre 5, il a été mis en évidence que certaines des caractéristiques
linguistiques utilisées étaient plus efficaces pour discriminer certains actes de dialogue et
que les transformations de Schoenberg s’avéraient utiles. En plus de combiner ces caractéristiques
et ces transformations comme proposé dans le chapitre ou ci-dessus, on pourrait étudier
l’intérêt des différentes caractéristiques pour chaque acte de dialogue. En d’autres termes, il faudrait
analyser le rapport entre ces actes et ces caractéristiques. Aussi, comme déjà mentionné
dans le chapitre, il pourrait s’avérer intéressant d’utiliser un algorithme qui permette d’attribuer
directement toutes les étiquettes à un tour de parole donné, plutôt que de procéder à une série
de classifications binaires pour chaque étiquette, malgré la faiblesse des liens statistiques entre136 CONCLUSION ET DISCUSSION
les différentes étiquettes.
Concernant le chapitre 6, on ne reviendra pas sur l’étendue des applications qui pourraient
être effectuée avec cet indice sur des textes, telles que la navigation hypertextuelle. Bien qu’il
ne s’agisse pas d’un point strictement central dans ce chapitre, on peut se rappeler que les dissimilarités
sémantiques ont pu être représentées grâce à un MDS sur des dissimilarités adéquates,
permettant l’émergence de différents groupes de mots. Bien que ces derniers étaient concentrés,
effectuer une validation expérimentale de ces groupes par le bootstrap aurait pu certifier
la présence desdits groupes. Aussi, ces dissimilarités sémantiques nous semblent particulièrement
fascinantes et il serait assurément profitable de les utiliser sur d’autres textes sur lesquels
les analyses proposées dans ce chapitre pourraient être effectuées. Un autre axe de recherche
pourrait se concentrer sur la définition de nouvelles matrices d’échange, alternatives aux trois
familles proposées dans cette thèse, et susceptibles de modéliser différents modes de lecture.
Finalement, le chapitre 8 reposait sur une représentation originale de la musique, exploitée
en partie seulement. Pour rappel, il resterait encore à définir systématiquement la durée de
l’intervalle de temps qui serait la mieux à même de faire émerger des structures intéressantes. Il
faudrait aussi étudier dans quelle mesure le problème des passages répétés transposés pourrait
être contourné. Effectuer les mêmes analyses que celles présentées dans cette thèse, mais sur
un plus grand nombre de partitions, semble une voie toute tracée pour favoriser l’apparition
de régularités robustes et de classifications susceptibles d’être interprétées de façon plus stable.
Dans le même esprit, il serait également possible d’appliquer le bootstrap pour vérifier la significativité
des représentations obtenues à l’aide de l’AFC et de l’analyse des correspondances
multiples, comme il a été fait dans le chapitre 4 pour les données textuelles.
En guise de conclusion ouverte à ce travail, on peut proposer quelques perspectives supplé-
mentaires, dont certaines se situent au-delà des théories ou des données considérées dans cette
thèse.
La musique et le texte ont clairement été étudiés séparément dans cette thèse, se voyant même
dédier deux parties différentes. Cependant, on aurait pu, par exemple, envisager le texte comme
une séquence d’unités ordonnées, tel qu’il l’a été fait pour la musique. On pourrait typiquement
s’intéresser à la suite des propositions de l’un des textes étudiés au chapitre 4 et, grâce à la
table de contingence propositions – CMS à disposition, on pourrait bien évidemment utiliser
l’indice d’autocorrélation pour étudier la similarité entre ces propositions (des applications de
ce type ont été produites dans les articles cités dans le chapitre 6). Cependant, il serait aussi
envisageable de représenter graphiquement ces propositions reliées selon le déroulement du texte
avec l’AFC, comme il a été fait pour la musique. On pourrait aussi imaginer de comparer des
textes représentés ainsi en mesurant la similarité des configurations avec la version pondérée du
coefficient RV utilisé pour la musique, à condition que les textes comportent le même nombre
de positions, ce qui est typiquement le cas de corpus parallèles.
Aussi, un indice d’autocorrélation croisée a été proposé et appliqué uniquement à la musique.
En particulier, il a servi à mesurer les similarités entre les différentes voix d’une même
partition. Dans ce contexte particulier, toutes les conditions d’utilisation de l’indice étaient à
peu près remplies, à savoir : le même nombre de positions (les intervalles de temps), le même
nombre de caractéristiques (les hauteurs de notes) et les mêmes poids en ligne (poids uniformes).
Cependant, on imagine l’intérêt que pourrait avoir cet indice pour les textes. Il serait
par exemple possible, selon certaines caractéristiques qu’il reste à préciser, de comparer un texte
et sa traduction dans une autre langue ou deux versions d’un même texte. Il faudrait alors soit
étudier s’il est possible de remplir les différentes conditions d’utilisation, soit généraliser l’indice
d’autocorrélation afin qu’il puisse être utilisé dans d’autres conditions.
Pour terminer, la musique est souvent accompagnée de texte. Il peut s’agir de métadonnées,
mais aussi des paroles d’une chanson ou d’un opéra. Il apparaît alors qu’un grand nombre
d’analyses, combinant les deux types de données, pourraient être effectuées. Pour n’en citerCONCLUSION ET DISCUSSION 137
que quelques unes : le rapport entre le texte et la musique, à un instant donné, pourrait être
examiné ; les textes associés à une partition pourraient constituer, en des termes qu’il resterait à
préciser, une caractéristique supplémentaire pour une classification ; ou encore il serait possible
de compléter les dissimilarités concernant la musique par celles caractérisant le texte, produisant
finalement de nouvelles mesures d’autocorrélation.ANNEXES
139ANNEXE A
Textes de Maupassant annotés
Cette annexe présente les textes de Maupassant annotés en types du discours, avec des balises
XML, par Raphaël Pittier, étudiant de master en sciences du langage et de la communication,
ainsi qu’en français moderne (orientation linguistique française), en 2011. Ces textes ont été
utilisés pour les analyses du chapitre 4. La définition des balises employées pour l’annotation,
ainsi que la description de ce corpus, se trouvent dans la section 4.1.2.
Les quatre contes annotés sont :
— « L’Orient » (section A.1),
— « Le Voleur » (section A.2),
— « Un Fou ? » (section A.3) et
— « Un Fou » (section A.4).
A.1 L’Orient
1 xml version =" 1.0 " encoding = " ISO -8859 -1 " ? >
2 < text source = " http: // un2sg4 . unige . ch / athena / selva / maupassant /
textes / orient . html " date = " 2011.03.05 " >
3 < title >L ’ Orient title >
4 < div type =" narratif ">
5 Voici l ’ automne !
6 Je ne puis sentir ce premier frisson d ’ hiver sans songer à
l ’ ami e >
7 qui vit là - bas sur la fronti è re de l ’ Asie . < cr />
8 La derni è re fois que j ’ entrai chez lui , e >
9 je compris e >
10 que je ne le reverrais plus . e >
11 < div type = " descriptif " >
12 C ’é tait vers la fin de septembre , voici trois ans .
13 div >
14 Je le trouvai tant ô t couch é sur un divan , en plein r ê ve d ’
opium . e >
15 Il me tendit la main sans remuer le corps ,
16 et me dit : < cr / >
17 < div type = " dialogal " >
141142 A. TEXTES DE MAUPASSANT ANNOTÉS
18 < div type =" injonctif " >
19 Reste là , parle , e >
20 div >
21 < div type =" argumentatif " >
22 je te ré pondrai de temps en temps , e >
23 < div type =" explicatif " >
24 mais je ne bougerai point ,
25 car tu sais qu ’ une fois la drogue aval ée
26 il faut demeurer sur le dos . < cr / >
27 div >
28 div >
29 div >
30 Je m ’ assis
31 et je lui racontai mille choses , des choses de Paris et du
boulevard . < cr / >
32 Il me dit : < cr / >
33 < div type =" dialogal " >
34 - Tu ne m ’ int é resses pas ;
35 je ne songe plus qu ’ aux pays clairs .
36 Oh ! comme ce pauvre Gautier devait souffrir , toujours
habit é par le d é sir de l ’ Orient .
37 Tu ne sais pas
38 ce que c ’est ,
39 comme il vous prend , ce pays , e >
40 vous captive , e >
41 vous pén è tre jusqu ’au coeur ,
42 et ne vous l â che plus .
43 Il entre en vous par l ’oeil , par la peau , par toutes ses
sé ductions invincibles , e >
44 et il vous tient par un invisible fil
45 qui vous tire sans cesse , en quelque lieu du monde
46 que le hasard vous ait jet é.
47 < div type =" explicatif " >
48 Je prends la drogue e >
49 pour y penser dans la d é licieuse torpeur de l ’ opium . < cr />
50 div >
51 div >
52 Il se tut e >
53 et ferma les yeux .
54 Je demandai : < cr / >
55 < div type =" dialogal " >
56 < div type =" explicatif ">
57 - Qu ’é prouves - tu de si agr é able à prendre ce poison ?
e >
58 Quel bonheur physique donne -t - il donc , e >
59 qu ’on en absorbe jusqu ’à la mort ? e >
60 div >
61 div >
62 Il ré pondit : < cr / >
63 < div type = " dialogal " >A.1. L’Orient 143
64 < div type =" explicatif " >
65 < div type =" descriptif " >
66 - Ce n ’ est point un bonheur physique ;
67 c ’ est mieux ,
68 c ’ est plus .
69 Je suis souvent triste ;
70 div >
71 je dé teste la vie ,
72 qui me blesse chaque jour par tous ses angles , par
toutes ses duret és .
73 L ’ opium console de tout , e >
74 fait prendre son parti de tout . e >
75 Connais - tu cet é tat de l ’âme e >
76 que je pourrais appeler l ’ irritation harcelante ? e >
77 Je vis ordinairement dans cet é tat .
78 Deux choses m ’en peuvent gu é rir : l ’ opium , ou l ’ Orient
.
79 < div type =" narratif " >
80 A peine ai - je pris l ’ opium
81 que je me couche , e >
82 et j ’ attends .
83 J ’ attends une heure , deux heures parfois . e >
84 Puis , je sens d ’ abord de l é gers fr é missements dans
les mains et dans les pieds , non pas une crampe , mais
un engourdissement vibrant .
85 Puis peu à peu j ’ ai l ’é trange et dé licieuse sensation
de la disparition de mes membres .
86 Il me semble e >
87 qu ’on me les ô te . e >
88 Cela gagne , e >
89 monte ,
90 m ’ envahit enti è rement .
91 Je n ’ ai plus de corps .
92 Je n ’ en garde plus qu ’ une sorte de souvenir agr é able .
e >
93 Ma tê te seule est là ,
94 et travaille . e >
95 Je pense .
96 Je pense avec une joie mat é rielle infinie , avec une
lucidit é sans é gale , avec une pé né tration surprenante
.
97 Je raisonne ,
98 je dé duis ,
99 je comprends tout ,
100 je dé couvre des id é es
101 qui ne m ’ avaient jamais effleur é ;
102 je descends en des profondeurs nouvelles ,
103 je monte à des hauteurs merveilleuses ;
104 je flotte dans un oc é an de pens ées ,
105 et je savoure l ’ incomparable bonheur , l ’ id é ale
jouissance de cette pure et sereine ivresse de la144 A. TEXTES DE MAUPASSANT ANNOTÉS
seule intelligence . < cr />
106 div >
107 div >
108 div >
109 Il se tut encore
110 et ferma de nouveau les yeux .
111 Je repris : < cr />
112 < div type =" dialogal ">
113 < div type =" explicatif ">
114 - Ton dé sir de l ’ Orient ne vient que de cette constante
ivresse .
115 Tu vis dans une hallucination . e >
116 Comment dé sirer ce pays barbare
117 où l ’ Esprit est mort ,
118 où la Pens é e st é rile ne sort point des é troites limites
de la vie ,
119 ne fait aucun effort pour s ’é lancer , grandir et conqu é
rir ? e >
120 div >
121 div >
122 Il ré pondit : < cr / >
123 < div type =" dialogal " >
124 < div type = " explicatif " >
125 - Qu ’ importe la pens ée pratique !
126 Je n ’ aime que le rê ve .
127 Lui seul est bon , e >
128 lui seul est doux .
129 La ré alit é implacable me conduirait au suicide
130 si le rê ve ne me permettait d ’ attendre . < cr />
131 div >
132 < div type =" argumentatif ">
133 " Mais tu as dit e >
134 < div type =" descriptif ">
135 que l ’ Orient é tait la terre des barbares ; e >
136 div >
137 < div type =" injonctif " >
138 tais - toi , malheureux e >
139 div >
140 < div type =" descriptif " >
141 c ’ est la terre des sages , la terre chaude e >
142 où on laisse couler la vie ,
143 où on arrondit les angles . < cr />
144 div >
145 < div type =" descriptif ">
146 Nous sommes les barbares , nous autres gens de l ’
Occident e >
147 qui nous disons civilis é s ;
148 nous sommes d ’ odieux barbares
149 qui vivons durement , comme des brutes . < cr />
150 div >
151 < div type =" injonctif " >A.1. L’Orient 145
152 " Regarde nos villes de pierres , nos meubles de bois
anguleux et durs .
153 div >
154 < div type =" explicatif ">
155 Nous montons en haletant des escaliers é troits et
rapides e >
156 pour entrer en des appartements é trangl és ,
157 où le vent glac é pén è tre en sifflant pour s ’ enfuir
aussit ô t par un tuyau de chemin ée en forme de pompe , <
/e >
158 qui é tablit des courants d ’ air mortels , forts à faire
tourner des moulins .
159 div >
160 < div type =" descriptif ">
161 Nos chaises sont dures ,
162 nos murs froids , couverts d ’un odieux papier ;
163 partout des angles nous blessent . e >
164 Angles des tables , des chemin é es , des portes , des
lits . e >
165 div >
166 < div type =" explicatif " >
167 Nous vivons debout ou assis , jamais couch és , sauf
pour dormir ,
168 ce qui est absurde ,
169 car on ne per ç oit plus dans le sommeil le bonheur d ’ê
tre é tendu . < cr />
170 div >
171 < div type =" injonctif " >
172 " Mais songe aussi à notre vie intellectuelle .
173 div >
174 < div type =" descriptif ">
175 C ’ est la lutte , la bataille incessante . e >
176 div >
177 Le souci plane sur nous ,
178 les pr é occupations nous harc è lent ; e >
179 nous n ’ avons plus le temps de chercher et de poursuivre
les deux ou trois bonnes choses à port é e de nos mains
. < cr />
180 < div type =" descriptif ">
181 " C ’ est le combat à outrance . e >
182 div >
183 Plus que nos meubles encore , notre caract è re a des
angles , toujours des angles ! < cr / >
184 "A peine lev és , nous courons au travail par la pluie ou
la gel ée .
185 Nous luttons contre les rivalit és , les comp é titions ,
les hostilit és .
186 < div type =" descriptif " >
187 Chaque homme est un ennemi e >
188 qu ’ il faut craindre et terrasser ,
189 avec qui il faut ruser . 146 A. TEXTES DE MAUPASSANT ANNOTÉS
190 div >
191 < div type =" descriptif " >
192 L ’ amour mê me a , chez nous , des aspects de victoire et
de dé faite : e >
193 c ’ est encore une lutte ."
194 div >
195 div >
196 div >
197 Il songea quelques secondes et reprit : e >
198 < div type =" dialogal " >
199 < div type = " descriptif " >
200 - La maison que je vais acheter , e >
201 je la connais . e >
202 Elle est carr ée , avec un toit plat et des dé coupures de
bois à la mode orientale . e >
203 De la terrasse , on voit la mer ,
204 où passent ces voiles blanches , en forme d ’ ailes
pointues , des bateaux grecs ou musulmans .
205 Les murs du dehors sont presque sans ouvertures .
206 Un grand jardin ,
207 où l ’ air est lourd sous le parasol des palmiers , e >
208 forme le milieu de cette demeure .
209 Un jet d ’ eau monte sous les arbres
210 et s ’é miette en retombant dans un large bassin de
marbre
211 dont le fond est sabl é de poudre d ’or .
212 Je m ’y baignerai à tout moment , entre deux pipes , deux
rê ves ou deux baisers . e >
213 div >
214 " Je n ’ aurai point la servante , la hideuse bonne au
tablier gras ,
215 et qui rel è ve en s ’ en allant , d ’ un coup de sa savate us ée
, le bas fangeux de sa jupe .
216 Oh ! ce coup de talon
217 qui montre la cheville jaune ,
218 il me remue le coeur de dé go ût ,
219 et je ne le puis é viter .
220 Elles l ’ ont toutes , les mis é rables ! < cr />
221 " Je n ’ entendrai plus le claquement de la semelle sur le
parquet , le battement des portes lanc é es à toute vol ée ,
le fracas de la vaisselle
222 qui tombe . < cr />
223 " J ’ aurai des esclaves noirs et beaux , drap és dans un
voile blanc
224 et qui courent , nu - pieds , sur les tapis sourds . e >
225 " Mes murs seront moelleux et rebondissants comme des
poitrines de femmes ,
226 et , sur mes divans en cercle autour de chaque appartement
, toutes les formes de coussins me permettront de me
coucher dans toutes les postures
227 qu ’ on peut prendre . < cr />A.1. L’Orient 147
228 " Puis ,
229 quand je serai las du repos d é licieux , las de jouir de l ’
immobilit é de mon rê ve é ternel , las du calme plaisir d ’ê
tre bien ,
230 je ferai amener devant ma porte un cheval blanc ou noir
e >
231 qui courra tr ès vite . < cr / >
232 " Et je partirai sur son dos , en buvant l ’ air e >
233 qui fouette e >
234 et grise ,
235 l ’ air sifflant des galops furieux . < cr / >
236 " Et j ’ irai comme une fl è che sur cette terre color ée e >
237 qui enivre le regard ,
238 dont la vue est savoureuse comme un vin . < cr />
239 " A l ’ heure calme du soir , j ’ irai , d ’ une course affol ée ,
vers le large horizon
240 que le soleil couchant teinte en rose .
241 < div type =" descriptif " >
242 Tout devient rose , là -bas , au cr é puscule : les
montagnes br û lées , le sable , les v ê tements des Arabes ,
la robe blanche des chevaux . e >
243 div >
244 " Les flamants roses s ’ envoleront des marais sur le ciel
rose ;
245 et je pousserai des cris de d é lire , noy é dans la roseur
illimit ée du monde . < cr />
246 " Je ne verrai plus , le long des trottoirs , assourdis par
le bruit dur des fiacres sur les pav és , des hommes v ê tus
de noir , assis sur des chaises incommodes , boire l ’
absinthe en parlant d ’ affaires . < cr / >
247 "J ’ ignorerai le cours de la Bourse , les fluctuations des
valeurs , toutes les inutiles bê tises
248 où nous gaspillons notre courte , mis é rable et trompeuse
existence .
249 < div type =" explicatif " >
250 Pourquoi ces peines , ces souffrances , ces luttes ?
251 div >
252 Je me reposerai à l ’ abri du vent dans ma somptueuse et
claire demeure . < cr />
253 " Et j ’ aurai quatre ou cinq é pouses en des appartements
moelleux , cinq é pouses venues des cinq parties du monde
,
254 et qui m ’ apporteront la saveur de la beaut é f é minine é
panouie dans toutes les races ." < cr / >
255 div >
256 Il se tut encore ,
257 puis pronon ça doucement : e > < cr />
258 < div type =" dialogal " >
259 < div type =" injonctif " >
260 - Laisse - moi . < cr />
261 div >148 A. TEXTES DE MAUPASSANT ANNOTÉS
262 div >
263 Je m ’ en allai .
264 Je ne le revis plus . < cr />
265 Deux mois plus tard , il m ’ é crivit ces trois mots seuls :
266 < div type =" dialogal " >
267 " Je suis heureux ."
268 div >
269 Sa lettre sentait l ’ encens et d ’ autres parfums tr è s doux .
e >< cr / >
270 div >
271 text >
A.2 Le Voleur
1 xml version =" 1.0 " encoding = " ISO -8859 -1 " ? >
2 < text source = " http: // un2sg4 . unige . ch / athena / selva / maupassant /
textes / voleur . html " date = " 2011.07.06 " date - origin =" 1882.06.21 " >
3 < title > LE VOLEUR title >
4 < div type = " dialogal " >
5 " Puisque je vous dis e >
6 qu ’ on ne la croira pas . < cr />
7 < div type =" injonctif " >
8 - Racontez tout de m ê me . < cr / >
9 div >
10 < div type =" argumentatif " >
11 - Je le veux bien .
12 Mais j ’ é prouve d ’ abord le besoin de vous affirmer
13 que mon histoire est vraie en tous points , quelque
invraisemblable qu ’ elle paraisse .
14 Les peintres seuls ne s ’ é tonneront point , surtout les
vieux
15 qui ont connu cette é poque e >
16 où l ’ esprit farceur s é vissait si bien
17 qu ’ il nous hantait encore dans les circonstances les
plus graves ." e >
18 div >
19 div >
20 < div type =" narratif " >
21 Et le vieil artiste se mit à cheval sur une chaise . < cr /
>
22 < div type =" descriptif " >
23 Ceci se passait dans la salle à manger d ’un hô tel de
Barbizon . < cr / >
24 div >
25 Il reprit :
26 < div type =" dialogal ">
27 < div type =" descriptif ">
28 " Donc nous avions d în é ce soir -là chez le pauvre
Sorieul , aujourd ’ hui mort , le plus enrag é de nous .
29 Nous é tions trois seulement : Sorieul , moi et LeA.2. Le Voleur 149
Poittevin , je crois ;
30 mais je n ’ oserais affirmer
31 que c ’é tait lui . e >
32 Je parle , bien entendu , du peintre de marine Eug è ne Le
Poittevin , mort aussi , et non du paysagiste , bien
vivant et plein de talent . < cr / >
33 Dire que nous avions d îné chez Sorieul , cela signifie
e >
34 que nous é tions gris .
35 Le Poittevin seul avait gard é sa raison , un peu noy ée
il est vrai , mais claire encore .
36 Nous é tions jeunes , en ce temps -l à.
37 Etendus sur des tapis , nous discourions extravagamment
dans la petite chambre qui touchait à l ’ atelier .
38 Sorieul , le dos à terre , les jambes sur une chaise ,
parlait bataille ,
39 discourait sur les uniformes de l ’ Empire , e >
40 div >
41 < div type =" narratif " >
42 et soudain se levant , il prit dans sa grande armoire
aux accessoires une tunique compl è te de hussard ,
43 et s ’en rev ê tit .
44 Apr è s quoi il contraignit Le Poittevin à se costumer
en grenadier .
45 Et comme celui - ci r é sistait ,
46 nous l ’ empoign â mes ,
47 et , apr ès l ’ avoir d é shabill é , nous l ’ introduis î mes
dans un uniforme immense
48 où il fut englouti . e >
49 Je me dé guisai moi - mê me en cuirassier . e >
50 Et Sorieul nous fit ex é cuter un mouvement compliqu é.
e >
51 Puis il s ’é cria : e >
52 < div type =" dialogal " >
53 " Puisque nous sommes ce soir des soudards ,
54 < div type =" injonctif " >
55 buvons comme des soudards ." e > < cr />
56 div >
57 div >
58 Un punch fut allum é , aval é ,
59 puis une seconde fois la flamme s ’é leva sur le bol
rempli de rhum .
60 Et nous chantions à pleine gueule des chansons
anciennes , des chansons e >
61 que braillaient jadis les vieux troupiers de la grande
arm é e. < cr / >
62 Tout à coup Le Poittevin , e >
63 qui restait , malgr é tout , presque ma î tre de lui ,
64 nous fit taire ,
65 puis , apr è s un silence de quelques secondes , il dit à
mi - voix : 150 A. TEXTES DE MAUPASSANT ANNOTÉS
66 < div type =" dialogal " >
67 " Je suis sû r qu ’ on a march é dans l ’ atelier ."
68 div >
69 Sorieul se leva comme il put ,
70 et s ’é cria : e >
71 < div type =" dialogal ">
72 " Un voleur ! quelle chance !" e >
73 div >
74 Puis , soudain , il entonna la Marseillaise : < cr / >
75 < div type =" dialogal ">
76 Aux armes , citoyens ! < cr / >
77 div >
78 Et , se pr é cipitant sur une panoplie , il nous é quipa ,
selon nos uniformes .
79 J ’ eus une sorte de mousquet et un sabre ; e >
80 Le Poittevin , un gigantesque fusil à ba ï onnette ,
81 et Sorieul , ne trouvant pas ce qu ’il fallait ,
82 s ’ empara d ’un pistolet d ’ar ç on e >
83 qu ’il glissa dans sa ceinture , et d ’ une hache d ’
abordage e >
84 qu ’il brandit .
85 Puis il ouvrit avec pr é caution la porte de l ’ atelier
,
86 et l ’ arm ée entra sur le territoire suspect . < cr / >
87 Quand nous fû mes au milieu de la vaste pi è ce encombr ée
de toiles immenses , de meubles , d ’ objets singuliers et
inattendus ,
88 Sorieul nous dit :
89 < div type =" dialogal ">
90 " Je me nomme g én é ral .
91 Tenons un conseil de guerre .
92 Toi , les cuirassiers , tu vas couper la retraite à l ’
ennemi , c ’est -à - dire donner un tour de clef à la
porte .
93 Toi , les grenadiers , tu seras mon escorte ." < cr / >
94 div >
95 J ’ex é cutai le mouvement command é ,
96 puis je rejoignis le gros des troupes e >
97 qui op é rait une reconnaissance . < cr / >
98 Au moment o ù j ’ allais le rattraper derri è re un grand
paravent ,
99 un bruit furieux é clata .
100 Je m ’é lan ç ai , portant toujours une bougie à la main .
e >
101 Le Poittevin venait de traverser d ’ un coup de ba ï
onnette la poitrine d ’un mannequin e >
102 dont Sorieul fendait la t ê te à coups de hache . e >
103 L ’ erreur reconnue , le gé né ral commanda :
104 < div type =" dialogal ">
105 < div type =" injonctif " >
106 " Soyons prudents " , A.2. Le Voleur 151
107 div >
108 div >
109 et les op é rations recommenc è rent . < cr / >
110 < div type =" descriptif ">
111 Depuis vingt minutes au moins on fouillait tous les
coins et recoins de l ’ atelier , sans succ ès , e >
112 quand Le Poittevin eut l ’id ée d ’ ouvrir un immense
placard .
113 Il é tait sombre et profond ,
114 j ’ avan ç ai mon bras
115 qui tenait la lumi è re ,
116 et je reculai stup é fait ;
117 un homme é tait l à , un homme vivant ,
118 qui m ’ avait regard é. < cr / >
119 div >
120 Imm é diatement , je refermai le placard à deux tours de
clef , e >
121 et on tint de nouveau conseil . < cr / >
122 < div type =" descriptif " >
123 Les avis é taient tr ès partag és .
124 Sorieul voulait enfumer le voleur .
125 Le Poittevin parlait de le prendre par la famine .
126 Je proposai de faire sauter le placard avec de la
poudre . e >
127 div >
128 L ’ avis de Le Poittevin pr é valut ;
129 et , pendant qu ’ il montait la garde avec son grand
fusil ,
130 nous all â mes chercher le reste du punch et nos pipes ;
e >
131 puis on s ’ installa devant la porte ferm ée ,
132 et on but au prisonnier . < cr / >
133 Au bout d ’ une demi - heure , Sorieul dit : e >
134 < div type =" dialogal " >
135 "C ’ est é gal ,
136 je voudrais bien le voir de pr è s .
137 Si nous nous emparions de lui par la force ?" < cr
/ >
138 div >
139 Je criai :
140 < div type =" dialogal " >
141 " Bravo !"
142 div >
143 Chacun s ’é lan ça sur ses armes ;
144 la porte du placard fut ouverte ,
145 et Sorieul , armant son pistolet e >
146 qui n ’é tait pas charg é ,
147 se pr é cipita le premier . e >
148 Nous le suiv î mes en hurlant . e >
149 Ce fut une bousculade effroyable dans l ’ ombre ; 152 A. TEXTES DE MAUPASSANT ANNOTÉS
150 et apr è s cinq minutes d ’ une lutte invraisemblable ,
nous ramen â mes au jour une sorte de vieux bandit à
cheveux blancs , sordide et dé guenill é .
151 On lui lia les pieds et les mains ,
152 puis on l ’ assit dans un fauteuil .
153 Il ne pronon ç a pas une parole . < cr / >
154 Alors Sorieul , p én é tr é d ’ une ivresse solennelle , se
tourna vers nous : < cr / >
155 < div type =" dialogal " >
156 " Maintenant nous allons juger ce mis é rable . "
157 div >
158 J ’é tais tellement gris e >
159 que cette proposition me parut toute naturelle . < cr
/>
160 Le Poittevin fut charg é de pr é senter la dé fense
161 et moi de soutenir l ’ accusation .
162 Il fut condamn é à mort à l ’ unanimit é moins une voix ,
celle de son dé fenseur . < cr />
163 < div type =" dialogal ">
164 " Nous allons l ’ ex é cuter "
165 div >
166 , dit Sorieul .
167 Mais un scrupule lui vint :
168 < div type =" dialogal " >
169 " Cet homme ne doit pas mourir priv é des secours de
la religion .
170 Si on allait chercher un pr ê tre ? "
171 div >
172 J ’ objectai e >
173 qu ’ il é tait tard .
174 < div type =" argumentatif " >
175 Alors Sorieul me proposa de remplir cet office ;
176 et il exhorta le criminel à se confesser dans mon
sein . < cr />
177 div >
178 L ’ homme , depuis cinq minutes , roulait des yeux é pouvant
és ,
179 se demandant à quel genre d ’ ê tres il avait affaire .
180 Alors il articula d ’ une voix creuse , br ûl ée par l ’
alcool
181 < div type =" dialogal " >
182 " Vous voulez rire , sans doute . "
183 div >
184 Mais Sorieul l ’ agenouilla de force ,
185 et , de crainte que ses parents eussent omis de le
faire baptiser ,
186 il lui versa sur le cr â ne un verre de rhum . < cr / >
187 Puis il dit : e > < cr />
188 < div type =" dialogal " >
189 < div type = " injonctif " >A.2. Le Voleur 153
190 " Confesse - toi à monsieur ;
191 div >
192 ta derni è re heure a sonn é ." < cr / >
193 div >
194 Eperdu , le vieux gredin se mit à crier : < cr / >
195 < div type =" dialogal " >
196 " Au secours ! "
197 div >
198 avec une telle force qu ’ on fut contraint de le b â
illonner pour ne pas ré veiller tous les voisins .
199 Alors il se roula par terre , ruant et se tordant ,
renversant les meubles , crevant les toiles .
200 A la fin , Sorieul , impatient é , cria : e >
201 < div type =" dialogal " >
202 < div type =" injonctif " >
203 " Finissons - en . "
204 div >
205 div >
206 Et visant le mis é rable é tendu par terre , il pressa la
dé tente de son pistolet .
207 Le chien tomba avec un bruit sec .
208 Emport é par l ’ exemple , je tirai à mon tour .
209 Mon fusil , qui é tait à pierre , lan ça une é tincelle
210 dont je fus surpris . < cr />
211 Alors Le Poittevin pronon ça gravement ces paroles : e >
212 < div type =" dialogal " >
213 " Avons - nous bien le droit de tuer cet homme ? " <
cr />
214 div >
215 Sorieul , stup é fait , r é pondit : e >
216 < div type =" dialogal " >
217 < div type = " explicatif " >
218 " Puisque nous l ’ avons condamn é à mort !" e > < cr />
219 div >
220 div >
221 < div type =" argumentatif ">
222 Mais Le Poittevin reprit : e >
223 < div type =" dialogal " >
224 " On ne fusille pas les civils ,
225 celui - ci doit ê tre livr é au bourreau .
226 Il faut le conduire au poste ." < cr / >
227 div >
228 div >
229 L ’ argument nous parut concluant . e >
230 On ramassa l ’ homme ,
231 < div type =" explicatif ">
232 et comme il ne pouvait marcher ,
233 il fut plac é sur une planche de table à mod èle ,
solidement attach é ,
234 et je l ’ emportai avec Le Poittevin ,
235 tandis que Sorieul , arm é jusqu ’ aux dents , fermait la154 A. TEXTES DE MAUPASSANT ANNOTÉS
marche . < cr />
236 div >
237 Devant le poste , la sentinelle nous arr ê ta .
238 Le chef de poste , mand é , nous reconnut ,
239 < div type =" explicatif ">
240 et , comme chaque jour il é tait té moin de nos farces ,
de nos scies , de nos inventions invraisemblables ,
241 il se contenta de rire
242 et refusa notre prisonnier . < cr />
243 div >
244 Sorieul insista : e >
245 alors le soldat nous invita sé vè rement à retourner
chez nous sans faire de bruit . < cr / >
246 La troupe se remit en route
247 et rentra dans l ’ atelier .
248 Je demandai :
249 < div type =" dialogal " >
250 "Qu ’ allons - nous faire du voleur ?" < cr / >
251 div >
252 Le Poittevin , attendri , affirma
253 qu ’il devait ê tre bien fatigu é , cet homme .
254 En effet , il avait l ’ air agonisant , ainsi ficel é , bâ
illonn é , ligatur é sur sa planche . e >
255 Je fus pris à mon tour d ’ une piti é violente , une piti é
d ’ ivrogne , e >
256 et , enlevant son bâ illon , je lui demandai :
257 < div type =" dialogal " >
258 " Eh bien , mon pauv ’ vieux , comment ç a va -t - il ?" e > <
cr / >
259 div >
260 Il gé mit :
261 < div type =" dialogal " >
262 "J ’ en ai assez , nom d ’ un chien !"
263 div >
264 Alors Sorieul devint paternel .
265 Il le dé livra de tous ses liens , e >
266 le fit asseoir ,
267 le tutoya , e >
268 et , pour le ré conforter , nous nous m î mes tous trois à
pr é parer bien vite un nouveau punch . e >
269 Le voleur , tranquille dans son fauteuil , nous
regardait .
270 Quand la boisson fut pr ête ,
271 on lui tendit un verre - e >
272 nous lui aurions volontiers soutenu la tê te , e >
273 et on trinqua . e >
274 Le prisonnier but autant qu ’un ré giment .
275 Mais , comme le jour commen ç ait à para î tre ,
276 il se leva , et , d ’un air fort calme :
277 < div type =" dialogal " >A.3. Un Fou ? 155
278 < div type =" explicatif " >
279 " Je vais ê tre oblig é de vous quitter ,
280 parce qu ’ il faut que je rentre chez moi ." < cr / >
281 div >
282 div >
283 Nous fû mes dé sol és ; e >
284 on voulut le retenir ,
285 mais il se refusa à rester plus longtemps . e >
286 Alors on se serra la main , e >
287 et Sorieul , avec sa bougie , l ’é claira dans le
vestibule . en criant :
288 < div type =" dialogal ">
289 < div type =" injonctif ">
290 " Prenez garde à la marche sous la porte coch è re
." < cr / >
291 div >
292 div >
293 div >
294 div >
295 On riait franchement autour du conteur .
296 Il se leva , alluma sa pipe ,
297 et il ajouta , en se campant en face de nous . < cr />
298 < div type =" dialogal ">
299 " Mais le plus dr ô le de mon histoire c ’ est qu ’ elle est
vraie ." e >< cr / >
300 div >
301 div >
302 text >
A.3 Un Fou ?
1 xml version =" 1.0 " encoding = " ISO -8859 -1 " ? >
2 < text source = " http: // un2sg4 . unige . ch / athena / maupassant / maup_fou .
html " date =" 2011.02.07 " >
3 < title > Un fou ? title >
4 < div type = " explicatif " >
5 < div type =" narratif " >
6 Quand on me dit:
7 < div type = " dialogal " >
8 " Vous savez e >
9 que Jacques Parent est mort fou dans une maison de sant
é" ,
10 div >
11 un frisson douloureux , un frisson de peur et d ’ angoisse
me courut le long des os ;
12 et je le revis brusquement , ce grand gar ç on é trange , fou
depuis longtemps peut -ê tre , maniaque inqui é tant ,
effrayant m ê me . < cr / >
13 < div type =" descriptif ">
14 C ’é tait un homme de quarante ans , haut , maigre , un peu
vo ûté , avec des yeux d ’ hallucin é , des yeux noirs , si156 A. TEXTES DE MAUPASSANT ANNOTÉS
noirs
15 qu ’on ne distinguait pas la pupille , e >
16 des yeux mobiles , r ô deurs , malades , hant é s.
17 Quel ê tre singulier , troublant e >
18 < div type =" narratif " >
19 qui apportait , qui jetait un malaise autour de lui ,
un malaise vague , de l ’âme , du corps , un de ces é
nervements incompr é hensibles
20 qui font croire à des influences surnaturelles . <
cr />
21 div >
22 Il avait un tic g ê nant: la manie de cacher ses mains .
e >
23 < div type =" narratif ">
24 Presque jamais il ne les laissait errer ,
25 comme nous faisons tous sur les objets , sur les
tables .
26 Jamais il ne maniait les choses tra î nantes avec ce
geste familier
27 qu ’ ont presque tous les hommes .
28 Jamais il ne les laissait nues , ses longues mains
osseuses , fines , un peu f é briles . e >
29 Il les enfon ç ait dans ses poches , sous les revers de
ses aisselles en croisant les bras .
30 < div type =" explicatif " >
31 On eû t dit
32 qu ’il avait peur
33 qu ’ elles ne fissent , malgr é lui , quelque besogne dé
fendue , e >
34 qu ’ elles n ’ accomplissent quelque action honteuse ou
ridicule e >
35 s ’il les laissait libres et ma î tresses de leurs
mouvements . < cr />
36 div >
37 Quand il é tait oblig é de s ’ en servir pour tous les
usages ordinaires de la vie ,
38 il le faisait par saccades brusques , par é lans
rapides du bras
39 < div type =" explicatif " >
40 comme s ’il n ’eût pas voulu leur laisser le temps d ’
agir par elles -m ê mes , de se refuser à sa volont é , d
’ex é cuter autre chose . e >
41 div >
42 A table , il saisissait son verre , sa fourchette ou
son couteau si vivement
43 qu ’on n ’ avait jamais le temps de pr é voir
44 ce qu ’il voulait faire
45 avant qu ’il ne l ’eû t accompli . < cr />
46 div >
47 div >
48 < div type =" argumentatif ">A.3. Un Fou ? 157
49 Or , j ’ eus un soir l ’ explication de la surprenante
maladie de son â me . < cr />
50 div >
51 II venait passer de temps en temps quelques jours chez
moi , à la campagne ,
52 < div type =" descriptif ">
53 et ce soir - là il me paraissait particuli è rement agit é
! < cr />
54 div >
55 < div type =" descriptif ">
56 Un orage montait dans le ciel , é touffant et noir , apr ès
une journ é e d ’ atroce chaleur . e >
57 Aucun souffle d ’ air ne remuait les feuilles .
58 Une vapeur chaude de four passait sur les visages ,
59 faisait haleter les poitrines .
60 div >
61 < div type =" descriptif ">
62 Je me sentais mal à l ’ aise , agit é , e >
63 div >
64 et je voulus gagner mon lit . < cr / >
65 Quand il me vit me lever pour partir ,
66 Jacques Parent me saisit le bras d ’un geste effar é . <
cr />
67 < div type =" dialogal ">
68 - Oh ! non ,
69 < div type =" injonctif ">
70 reste encore un peu ,
71 div >
72 div >
73 me dit - il . < cr / >
74 Je le regardai avec surprise en murmurant: e > < cr />
75 < div type =" dialogal ">
76 - C ’ est que cet orage me secoue les nerfs . < cr / >
77 div >
78 Il gé mit ,
79 ou plut ô t il cria:
80 < div type =" dialogal " >
81 - Et moi donc ! Oh ! e >
82 < div type = " injonctif " >
83 reste ,
84 je te prie ; e >
85 div >
86 je ne voudrais pas demeurer seul . e >
87 div >
88 < div type =" descriptif " >
89 Il avait l ’ air affol é . < cr />
90 div >
91 Je pronon ç ai: < cr />
92 < div type =" dialogal ">
93 - Qu ’est - ce que tu as ?
94 Perds - tu la t ê te ? 158 A. TEXTES DE MAUPASSANT ANNOTÉS
95 div >
96 Et il balbutia: < cr / >
97 < div type =" dialogal " >
98 < div type =" explicatif " >
99 - Oui , par moments , dans les soirs comme celui -ci ,
dans les soirs d ’é lectricit é ... j ’ ai ... j ’ ai ... j ’ai
peur ... j ’ ai peur de moi ... e >
100 tu ne me comprends pas ?
101 C ’ est que je suis dou é d ’ un pouvoir ... non ... d ’ une
puissance ... non ... d ’ une force ... e >
102 Enfin je ne sais pas dire
103 ce que c ’est ,
104 < div type =" argumentatif " >
105 mais j ’ ai en moi une action magn é tique si
extraordinaire
106 que j ’ai peur , oui , j ’ ai peur de moi ,
107 comme je te le disais tout à l ’ heure ! < cr / >
108 div >
109 div >
110 div >
111 Et il cachait , avec des frissons é perdus , ses mains
vibrantes sous les revers de sa jaquette .
112 < div type =" descriptif " >
113 Et moi -m ê me je me sentis soudain tout tremblant d ’ une
crainte confuse , puissante , horrible .
114 div >
115 J ’ avais envie de partir , de me sauver , de ne plus le voir
, de ne plus voir son oeil errant passer sur moi , puis s ’
enfuir , tourner autour du plafond , chercher quelque coin
sombre de la pi è ce pour s ’y fixer , e >
116 < div type =" explicatif " >
117 comme s ’il eû t voulu cacher aussi son regard redoutable
. < cr />
118 div >
119 Je balbutiai: < cr />
120 < div type =" dialogal " >
121 - Tu ne m ’ avais jamais dit ça !
122 div >
123 Il reprit: e >
124 < div type = " dialogal " >
125 - Est - ce que j ’en parle à personne ?
126 < div type =" injonctif " >
127 Tiens ,
128 é coute ,
129 div >
130 ce soir je ne puis me taire .
131 Et j ’ aime mieux
132 que tu saches tout ;
133 d ’ ailleurs , tu pourras me secourir . < cr />
134 < div type =" explicatif ">
135 < div type =" argumentatif ">A.3. Un Fou ? 159
136 Le magn é tisme !
137 Sais - tu ce que c ’ est ?
138 Non .
139 Personne ne sait .
140 On le constate pourtant .
141 On le reconna ît , e >
142 les m é decins eux -m ê mes le pratiquent ;
143 un des plus illustres , M. Charcot , le professe ;
144 donc , pas de doute , cela existe . < cr / >
145 Un homme , un ê tre a le pouvoir , effrayant et
incompr é hensible , d ’ endormir , par la force de sa
volont é , un autre ê tre , et ,
146 pendant qu ’il dort , e >
147 de lui voler sa pens ée
148 comme on volerait une bourse .
149 Il lui vole sa pens ée , c ’est -à - dire son âme , l ’â me ,
ce sanctuaire , ce secret du Moi , l ’âme , ce fond de
l ’ homme e >
150 qu ’on croyait imp é né trable ,
151 l ’âme , cet asile des inavouables id é es , e >
152 de tout ce qu ’on cache ,
153 de tout ce qu ’on aime ,
154 de tout ce qu ’on veut celer à tous les humains ,
155 il l ’ ouvre , e >
156 la viole ,
157 l ’é tale ,
158 la jette au public !
159 div >
160 N ’est - ce pas atroce , criminel , inf â me ? e >
161 Pourquoi , comment cela se fait - il ?
162 Le sait - on ?
163 Mais que sait - on ?
164 Tout est myst è re .
165 Nous ne communiquons avec les choses que par nos mis é
rables sens , incomplets , infirmes , si faibles
166 qu ’ ils ont à peine la puissance de constater
167 ce qui nous entoure .
168 Tout est myst è re .
169 < div type =" argumentatif ">
170 < div type =" injonctif " >
171 Songe à la musique , cet art divin , cet art
172 qui bouleverse l ’â me , e >
173 l ’ emporte ,
174 la grise ,
175 l ’ affole ,
176 div >
177 qu ’est - ce donc ?
178 Rien . < cr />
179 Tu ne me comprends pas ?
180 < div type =" injonctif " >
181 Ecoute . 160 A. TEXTES DE MAUPASSANT ANNOTÉS
182 div >
183 Deux corps se heurtent .
184 L ’ air vibre .
185 Ces vibrations sont plus ou moins nombreuses , plus
ou moins rapides , plus ou moins fortes , selon la
nature du choc .
186 Or nous avons dans l ’ oreille une petite peau
187 qui re ç oit ces vibrations de l ’ air e >
188 et les transmet au cerveau sous forme de son .
189 < div type =" injonctif " >
190 Imagine qu ’un verre d ’ eau se change en vin dans
ta bouche .
191 div >
192 Le tympan accomplit cette incroyable m é tamorphose ,
ce surprenant miracle de changer le mouvement en
son . e >
193 Voil à. < cr / >
194 La musique , cet art complexe et myst é rieux , pr é cis
comme l ’ alg è bre et vague comme un r êve , cet art
fait de math é matiques et de brise , ne vient donc
que de la propri été é trange d ’ une petite peau .
195 Elle n ’ existerait point , cette peau ,
196 que le son non plus n ’ existerait pas , e >
197 puisque par lui - mê me il n ’ est qu ’ une vibration . e >
198 Sans l ’ oreille , devinerait - on la musique ?
199 Non .
200 < div type =" explicatif ">
201 Eh bien ! nous sommes entour és de choses
202 que nous ne soup ç onnerons jamais ,
203 parce que les organes nous manquent
204 qui nous les r év é leraient . < cr / >
205 div >
206 div >
207 Le magn é tisme est de celles -là peut -ê tre .
208 Nous ne pouvons que pressentir cette puissance ,
209 que tenter en tremblant ce voisinage des esprits ,
210 qu ’ entrevoir ce nouveau secret de la nature , e >
211 parce que nous n ’ avons point en nous l ’ instrument rév
é lateur .
212 div >
213 Quant à moi ... Quant à moi , je suis dou é d ’ une
puissance affreuse .
214 On dirait un autre ê tre enferm é en moi ,
215 qui veut sans cesse s ’é chapper ,
216 agir malgr é moi , e >
217 qui s ’ agite ,
218 me ronge ,
219 m ’é puise .
220 Quel est - il ?
221 Je ne sais pas , e >
222 < div type =" argumentatif " >A.3. Un Fou ? 161
223 mais nous sommes deux dans mon pauvre corps ,
224 et c ’ est lui , l ’ autre , qui est souvent le plus fort ,
comme ce soir . < cr / >
225 div >
226 Je n ’ai qu ’à regarder les gens pour les engourdir
227 comme si je leur avais vers é de l ’ opium .
228 Je n ’ai qu ’à é tendre les mains pour produire des choses
... des choses ... terribles .
229 Si tu savais ?
230 Oui .
231 Si tu savais ?
232 < div type =" argumentatif ">
233 Mon pouvoir ne s ’é tend pas seulement sur les hommes ,
mais aussi sur les animaux et m ê me ... sur les objets
... < cr / >
234 div >
235 Cela me torture
236 et m ’é pouvante .
237 J ’ai eu envie souvent de me crever les yeux et de me
couper les poignets .
238 Mais je vais ...
239 je veux que tu saches tout .
240 < div type =" injonctif " >
241 Tiens .
242 div >
243 < div type =" argumentatif " >
244 Je vais te montrer cela ... non pas sur des cr é atures
humaines ,
245 c ’ est ce qu ’on fait partout , e >
246 mais sur ... sur ... des bê tes . < cr / >
247 div >
248 < div type =" injonctif " >
249 Appelle Mirza . < cr / >
250 div >
251 div >
252 Il marchait à grands pas avec des airs d ’ hallucin é ,
253 et il sortit ses mains cach é es dans sa poitrine .
254 < div type =" descriptif ">
255 Elles me sembl è rent effrayantes
256 comme s ’il eû t mis à nu deux é pé es . e >
257 div >
258 Et je lui ob é is machinalement , subjugu é , vibrant de
terreur et dé vor é d ’ une sorte de dé sir imp é tueux de voir
.
259 J ’ ouvris la porte
260 et je sifflai ma chienne
261 qui couchait dans le vestibule .
262 J ’ entendis aussit ôt le bruit pr é cipit é de ses ongles sur
les marches de l ’ escalier ,
263 et elle apparut , joyeuse , remuant la queue . < cr / >
264 Puis je lui fis signe de se coucher sur un fauteuil ; e >162 A. TEXTES DE MAUPASSANT ANNOTÉS
265 elle y sauta ,
266 et Jacques se mit à la caresser en la regardant . < cr / >
267 < div type =" descriptif " >
268 D ’ abord , elle sembla inqui è te ;
269 elle frissonnait ,
270 tournait la t ê te pour é viter l ’ oeil fixe de l ’ homme ,
271 semblait agit ée d ’ une crainte grandissante . e >
272 div >
273 Tout à coup , elle commen ç a à trembler ,
274 comme tremblent les chiens . e >
275 Tout son corps palpitait , secou é de longs frissons ,
276 et elle voulut s ’ enfuir .
277 < div type =" argumentatif ">
278 Mais il posa sa main sur le cr â ne de l ’ animal
279 qui poussa , sous ce toucher , un de ces longs hurlements
e >
280 qu ’on entend , la nuit , dans la campagne . < cr />
281 div >
282 < div type =" descriptif ">
283 Je me sentais moi -m ê me engourdi , é tourdi ,
284 ainsi qu ’on l ’est e >
285 lorsqu ’on monte en barque .
286 div >
287 Je voyais se pencher les meubles , remuer les murs .
288 Je balbutiai: e >
289 < div type = " dialogal " >
290 < div type =" injonctif " >
291 " Assez , Jacques , assez . " e >
292 div >
293 div >
294 < div type = " argumentatif " >
295 Mais il ne m ’é coutait plus ,
296 div >
297 il regardait Mirza d ’ une fa ç on continue , effrayante . e >
298 Elle fermait les yeux maintenant
299 et laissait tomber sa tê te
300 comme on fait en s ’ endormant .
301 Il se tourna vers moi . < cr / >
302 < div type =" dialogal " >
303 - C ’ est fait ,
304 div >
305 dit - il , e >
306 < div type = " dialogal " >
307 < div type =" injonctif " >
308 vois maintenant .
309 div >
310 div >
311 Et jetant son mouchoir de l ’ autre cô té de l ’ appartement ,
il cria:
312 < div type = " dialogal " >A.3. Un Fou ? 163
313 < div type =" injonctif " >
314 " Apporte ! " e >
315 div >
316 div >
317 La bê te alors se souleva
318 et chancelant , tr é buchant
319 comme si elle eût ét é aveugle , remuant ses pattes
320 comme les paralytiques remuent leurs jambes , e >
321 elle s ’ en alla vers le linge
322 qui faisait une tache blanche contre le mur .
323 Elle essaya plusieurs fois de le prendre dans sa gueule
,
324 mais elle mordait à cô té
325 < div type =" explicatif ">
326 comme si elle ne l ’e ût pas vu .
327 div >
328 Elle le saisit enfin ,
329 et revint de la m ê me allure ballott é e de chien somnambule
. < cr / >
330 < div type =" descriptif " >
331 C ’é tait une chose terrifiante à voir .
332 div >
333 Il commanda:
334 < div type =" dialogal ">
335 < div type =" injonctif " >
336 " Couche - toi ." e >
337 div >
338 div >
339 Elle se coucha .
340 Alors , lui touchant le front , il dit: e >
341 < div type =" dialogal ">
342 < div type =" injonctif " >
343 " Un li è vre , pille ,
344 pille ."
345 div >
346 div >
347 Et la bê te , toujours sur le flanc , essaya de courir ,
348 s ’ agita e >
349 comme font les chiens
350 qui r ê vent , e >
351 et poussa , sans ouvrir la gueule , des petits aboiements é
tranges , des aboiements de ventriloque . e >
352 < div type =" descriptif " >
353 Jacques semblait devenu fou .
354 div >
355 La sueur coulait de son front .
356 Il cria: e >
357 < div type =" dialogal " >
358 < div type =" injonctif " >
359 " Mords - le ,
360 mords ton ma î tre ." 164 A. TEXTES DE MAUPASSANT ANNOTÉS
361 div >
362 div >
363 Elle eut deux ou trois soubresauts terribles .
364 < div type =" explicatif " >
365 On eû t jur é e >
366 qu ’ elle ré sistait ,
367 qu ’ elle luttait . e >
368 div >
369 Il ré pé ta: e >
370 < div type = " dialogal " >
371 < div type =" injonctif " >
372 " Mords - le ."
373 div >
374 div >
375 Alors , se levant , ma chienne s ’en vint vers moi ,
376 et moi je reculais vers la muraille , fr é missant d ’é
pouvante , le pied lev é pour la frapper , pour la repousser
. < cr / >
377 Mais Jacques ordonna: e >
378 < div type = " dialogal " >
379 < div type =" injonctif " >
380 " Ici , tout de suite ."
381 div >
382 div >
383 Elle se retourna vers lui .
384 Alors , de ses deux grandes mains , il se mit à lui frotter
la tê te
385 < div type = " explicatif " >
386 comme s ’il l ’eût dé barrass é e de liens invisibles . e > <
cr / >
387 div >
388 Mirza rouvrit les yeux:
389 < div type = " dialogal " >
390 "C ’ est fini " , e >
391 div >
392 dit - il . e >
393 Je n ’ osais point la toucher
394 et je poussai la porte
395 < div type =" explicatif ">
396 pour qu ’ elle s ’ en all â t .
397 div >
398 Elle partit lentement , tremblante , é puis ée ,
399 et j ’ entendis de nouveau ses griffes frapper les marches .
e >
400 Mais Jacques revint vers moi:
401 < div type = " dialogal " >
402 " Ce n ’ est pas tout .
403 Ce qui m ’ effraie le plus ,
404 c ’ est ceci ,
405 < div type =" injonctif " >
406 tiens . A.3. Un Fou ? 165
407 div >
408 Les objets m ’ ob é issent . " e >
409 div >
410 < div type =" descriptif " >
411 Il y avait sur ma table une sorte de couteau - poignard
e >
412 dont je me servais pour couper les feuillets des livres
.
413 div >
414 Il allongea sa main vers lui . e >
415 < div type =" descriptif " >
416 Elle semblait ramper , e >
417 s ’ approchait lentement ;
418 div >
419 et tout d ’ un coup je vis , oui , je vis le couteau lui - mê me
tressaillir , e >
420 puis il remua , e >
421 puis il glissa doucement , tout seul , sur le bois vers la
main arr êt ée
422 qui l ’ attendait ,
423 et il vint se placer sous ses doigts . < cr / >
424 Je me mis à crier de terreur .
425 < div type =" argumentatif ">
426 Je crus
427 que je devenais fou moi -m ême ,
428 mais le son aigu de ma voix me calma soudain . < cr />
429 div >
430 Jacques reprit: < cr / >
431 < div type =" dialogal ">
432 - Tous les objets viennent ainsi vers moi .
433 < div type =" explicatif ">
434 C ’ est pour cela que je cache mes mains .
435 div >
436 Qu ’ est cela ?
437 Du magn é tisme , de l ’é lectricit é , de l ’ aimant ?
438 Je ne sais pas ,
439 < div type =" argumentatif ">
440 < div type =" descriptif ">
441 mais c ’ est horrible . < cr / >
442 div >
443 div >
444 < div type =" explicatif " >
445 Et comprends - tu e >
446 pourquoi c ’ est horrible ?
447 Quand je suis seul ,
448 aussit ô t que je suis seul ,
449 je ne puis m ’ emp ê cher d ’ attirer tout
450 ce qui m ’ entoure .
451 Et je passe des jours entiers à changer des choses de
place , ne me lassant jamais d ’ essayer ce pouvoir
abominable , 166 A. TEXTES DE MAUPASSANT ANNOTÉS
452 comme pour voir
453 s ’il ne m ’a pas quitt é . < cr />
454 div >
455 div >
456 Il avait enfoui ses grandes mains dans ses poches e >
457 et il regardait dans la nuit .
458 Un petit bruit , un fr é missement l é ger semblait passer
dans les arbres . < cr />
459 C ’é tait la pluie qui commen ç ait à tomber . < cr / >
460 Je murmurai:
461 < div type =" dialogal " >
462 < div type =" descriptif " >
463 "C ’ est effrayant !" e >
464 div >
465 div >
466 Il ré pé ta: e >
467 < div type = " dialogal " >
468 < div type =" descriptif " >
469 "C ’ est horrible ." < cr / >
470 div >
471 div >
472 < div type = " descriptif " >
473 Une rumeur accourut dans ce feuillage , comme un coup de
vent . e >
474 C ’é tait l ’ averse , l ’ ond ée é paisse , torrentielle . < cr
/>
475 div >
476 Jacques se mit à respirer par grands souffles
477 qui soulevaient sa poitrine . < cr / >
478 < div type =" dialogal " >
479 < div type =" injonctif " >
480 - Laisse - moi ,
481 div >
482 div >
483 dit - il ,
484 < div type =" dialogal " >
485 la pluie va me calmer .
486 Je dé sire ê tre seul à pr é sent . < cr / >
487 div >
488 div >
489 div >
490 text >
A.4 Un Fou
1 xml version =" 1.0 " encoding = " ISO -8859 -1 " ? >
2 < text source = " http: // un2sg4 . unige . ch / athena / selva / maupassant /
textes / unfou . html " date =" 2011.04.26 " >
3 < title > UN FOU title >
4 < div type = " narratif " >
5 < div type =" descriptif " >A.4. Un Fou 167
6 Il é tait mort chef d ’un haut tribunal , magistrat int è gre
7 dont la vie irr é prochable é tait cit ée dans toutes les
cours de France .
8 Les avocats , les jeunes conseillers , les juges saluaient
en s ’ inclinant tr ès bas , par marque d ’un profond respect
, sa grande figure blanche et maigre
9 qu ’é clairaient deux yeux brillants et profonds . < cr / >
10 < div type =" argumentatif " >
11 Il avait pass é sa vie à poursuivre le crime et à prot é
ger les faibles . e >
12 Les escrocs et les meurtriers n ’ avaient point eu d ’
ennemi plus redoutable , e >
13 car il semblait lire , au fond de leurs â mes , leurs
pens é es secr è tes , et d ém ê ler , d ’ un coup d ’oeil , tous
les myst è res de leurs intentions .
14 div >
15 Il é tait donc mort , à l ’â ge de quatre - vingt - deux ans ,
entour é d ’ hommages et poursuivi par les regrets de tout
un peuple .
16 Des soldats en culotte rouge l ’ avaient escort é jusqu ’à
sa tombe , e >
17 et des hommes en cravate blanche avaient r é pandu sur son
cercueil des paroles d é sol é es et des larmes
18 qui semblaient vraies .
19 div >
20 Or , voici l ’é trange papier que le notaire , é perdu , dé
couvrit dans le secr é taire
21 o ù il avait coutume de serrer les dossiers des grands
criminels . < cr / >
22 Cela portait pour titre : < cr />< cr />
23 < div type =" explicatif ">
24 POURQUOI ? < cr / >< cr / >
25 < div type =" date " >
26 20 juin 1851. e >
27 div >
28 - Je sors de la sé ance ?
29 J ’ai fait condamner Blondel à mort !
30 Pourquoi donc cet homme avait - il tu é ses cinq enfants ? <
/e >
31 Pourquoi ? e >
32 < div type =" argumentatif " >
33 Souvent , on rencontre de ces gens e >
34 chez qui d é truire la vie est une volupt é.
35 Oui , oui , ce doit ê tre une volupt é , la plus grande de
toutes peut - ê tre ; e >
36 car tuer n ’est - il pas ce qui ressemble le plus à cr é er
?
37 Faire et d é truire !
38 Ces deux mots enferment l ’ histoire des univers , toute
l ’ histoire des mondes , tout ce qui est , tout ! 168 A. TEXTES DE MAUPASSANT ANNOTÉS
39 div >
40 Pourquoi est - ce enivrant de tuer ? < cr />
41 div >
42 < div type =" date " >
43 25 juin .
44 div >
45 - Songer qu ’un ê tre est l à qui vit , e >
46 qui marche ,
47 qui court ...
48 Un ê tre ? e >
49 Qu ’est - ce qu ’un ê tre ? e >
50 Cette chose anim ée , e >
51 qui porte en elle le principe du mouvement et une volont é
ré glant ce mouvement ! e >
52 Elle ne tient à rien cette chose .
53 Ses pieds ne communiquent pas au sol . e >
54 C ’ est un grain de vie e >
55 qui remue sur la terre ;
56 et ce grain de vie , venu je ne sais d ’où , on peut le d é
truire comme on veut .
57 Alors rien , plus rien . e >
58 Ça pourrit ,
59 c ’ est fini . < cr />
60 < div type =" explicatif ">
61 < div type =" date " >
62 26 juin .
63 div >
64 - Pourquoi donc est - ce un crime de tuer ?
65 oui , pourquoi ?
66 C ’est , au contraire , la loi de la nature .
67 Tout ê tre a pour mission de tuer :
68 il tue pour vivre e >
69 et il tue pour tuer . e >
70 div >
71 < div type =" argumentatif " >
72 - Tuer est dans notre temp é rament ;
73 il faut tuer ! e >
74 La bê te tue sans cesse , tout le jour , à tout instant de
son existence .
75 - L ’ homme tue sans cesse pour se nourrir ,
76 mais comme il a besoin de tuer aussi , par volupt é ,
77 il a invent é la chasse !
78 L ’ enfant tue les insectes
79 qu ’ il trouve ,
80 les petits oiseaux , tous les petits animaux
81 qui lui tombent sous la main .
82 Mais cela ne suffisait pas à l ’ irr é sistible besoin de
massacre e >
83 qui est en nous .
84 Ce n ’ est point assez de tuer la bê te ;
85 nous avons besoin aussi de tuer l ’ homme . A.4. Un Fou 169
86 Autrefois , on satisfaisait ce besoin par des sacrifices
humains .
87 Aujourd ’ hui la n é cessit é de vivre en soci été a fait du
meurtre un crime .
88 On condamne e >
89 et on punit l ’ assassin !
90 Mais comme nous ne pouvons vivre
91 sans nous livrer à cet instinct naturel et imp é rieux de
mort , e >
92 nous nous soulageons de temps en temps , par des guerres <
/e >
93 où un peuple entier é gorge un autre peuple .
94 C ’ est alors une dé bauche de sang , une d é bauche
95 où s ’ affolent les arm é es e >
96 et dont se grisent encore les bourgeois , les femmes et
les enfants
97 qui lisent , le soir , sous la lampe , le r é cit exalt é des
massacres . < cr / >
98 Et on pourrait croire
99 qu ’on m é prise ceux destin é s à accomplir ces boucheries d
’ hommes ! e >
100 Non .
101 On les accable d ’ honneurs !
102 On les habille avec de l ’ or et des draps é clatants ; e >
103 ils portent des plumes sur la t ête , des ornements sur la
poitrine ;
104 et on leur donne des croix , des ré compenses , des titres
de toute nature .
105 Ils sont fiers , respect és , aim és des femmes , acclam é s
par la foule , e >
106 uniquement parce qu ’ ils ont pour mission de ré pandre le
sang humain !
107 Ils tra î nent par les rues leurs instruments de mort e >
108 que le passant v ê tu de noir regarde avec envie .
109 Car tuer est la grande loi jet é e par la nature au coeur
de l ’ê tre !
110 Il n ’ est rien de plus beau et de plus honorable que de
tuer ! < cr />
111 div >
112 < div type =" explicatif ">
113 < div type =" date " >
114 30 juin .
115 div >
116 - Tuer est la loi ;
117 parce que la nature aime l ’é ternelle jeunesse .
118 Elle semble crier par tous ses actes inconscients : e >
119 < div type =" dialogal " >
120 " Vite ! vite ! vite !"
121 div >
122 Plus elle d é truit ,
123 plus elle se renouvelle . e > 170 A. TEXTES DE MAUPASSANT ANNOTÉS
124 div >
125 < div type =" argumentatif " >
126 < div type =" date " >
127 2 juillet .
128 div >
129 - L ’ê tre - qu ’est - ce que l ’ê tre ?
130 Tout et rien .
131 Par la pens ée , il est le reflet de tout .
132 Par la m é moire et la science , il est un abr égé du monde
,
133 dont il porte l ’ histoire en lui .
134 Miroir des choses et miroir des faits , chaque ê tre
humain devient un petit univers dans l ’ univers ! < cr />
135 < div type =" injonctif ">
136 Mais voyagez ;
137 regardez grouiller les races ,
138 et l ’ homme n ’ est plus rien ! plus rien , rien !
139 Montez en barque ,
140 é loignez - vous du rivage couvert de foule ,
141 et vous n ’ apercevrez bient ôt plus rien que la cô te . e
>
142 L ’ê tre imperceptible dispara ît ,
143 tant il est petit , insignifiant .
144 Traverser l ’ Europe dans un train rapide ,
145 et regardez par la porti è re . e >
146 Des hommes , des hommes , toujours des hommes ,
innombrables , inconnus , e >
147 qui grouillent dans les champs ,
148 qui grouillent dans les rues ;
149 des paysans stupides sachant tout juste retourner la
terre ; e >
150 des femmes hideuses sachant tout juste faire la soupe
du mâ le et enfanter . e >
151