Modèle de comportement communicatif conventionnel pour un agent en interaction avec des humains : Approche par jeux de dialogue - Thèse Informatique
Modèle de comportement communicatif conventionnel pour un agent en interaction avec des humains : Approche par jeux de dialogue - thèse Informatique
- Revenir à l'accueil
Autres thèses en informatique :
APISENSE-a-distribut..> 05-Jan-2015 08:09 5.7M
APISENSE-terminaux-i..> 04-Jan-2015 21:53 5.4M
Addition-formulae-on..> 04-Jan-2015 21:26 3.0M
Architecture-de-comm..> 05-Jan-2015 08:04 4.4M
Catalogage-de-petits..> 05-Jan-2015 08:06 3.8M
Classification-et-ca..> 04-Jan-2015 11:58 1.3M
Collaboration-de-tec..> 04-Jan-2015 21:27 2.4M
Completion-combinato..> 05-Jan-2015 08:11 2.6M
Contributions-a-la-v..> 04-Jan-2015 21:51 5.4M
Cryptographie-sur-le..> 05-Jan-2015 08:01 3.4M
Detection-de-rails-m..> 05-Jan-2015 08:04 5.1M
Environnements-urbai..> 05-Jan-2015 08:03 6.3M
Equilibrage-de-charg..> 04-Jan-2015 21:25 3.2M
Evaluation-analytiqu..> 05-Jan-2015 08:07 3.5M
Faciliter-le-develop..> 04-Jan-2015 21:56 4.4M
Factorisation-matric..> 04-Jan-2015 11:59 2.7M
Generation-automatiq..> 03-Jan-2015 22:04 2.6M
Gestion-de-la-variab..> 04-Jan-2015 21:55 4.8M
Idéalisation-d-asse..> 04-Jan-2015 11:57 2.1M
Inference-d-invarian..> 04-Jan-2015 11:58 1.5M
Integration-de l-inf..> 04-Jan-2015 21:25 3.4M
Intelligence-en-essa..> 05-Jan-2015 08:03 5.6M
Interrogation-de-gra..> 03-Jan-2015 22:04 2.9M
La-gestion-du-trafic..> 03-Jan-2015 22:01 4.1M
Langage-de-mashup-Th..> 04-Jan-2015 21:24 4.1M
Les-logiciels-de-ges..> 03-Jan-2015 22:03 3.1M
Lh-rs-p2p-une-nouvel..> 04-Jan-2015 11:59 2.7M
Mesure-de-la-fragili..> 04-Jan-2015 21:24 3.8M
Meta-modelisation-du..> 04-Jan-2015 21:56 4.1M
Methode-de-classific..> 04-Jan-2015 11:58 1.3M
Methode-de-game-desi..> 05-Jan-2015 08:10 4.2M
Methodes-sequentiell..> 04-Jan-2015 21:27 2.2M
Mise-en-oeuvre-appli..> 04-Jan-2015 21:54 4.4M
Modele-et-experience..> 05-Jan-2015 08:01 3.8M
Modelisation-d-une-a..> 04-Jan-2015 21:53 5.0M
Modelisation-et-dete..> 04-Jan-2015 11:57 1.6M
Normalisation-et-App..> 03-Jan-2015 22:01 4.1M
Nouvelles-approches-..> 05-Jan-2015 08:09 2.3M
Planification-d-une-..> 05-Jan-2015 08:06 4.1M
Prise-en-compte-de-l..> 03-Jan-2015 22:04 2.8M
Qualification-system..> 04-Jan-2015 21:26 2.8M
Reconnaissance-de-co..> 03-Jan-2015 22:03 3.6M
Segmentation-supervi..> 04-Jan-2015 11:58 1.3M
Services-de-repartit..> 03-Jan-2015 21:59 4.7M
Techniques-visuelles..> 04-Jan-2015 21:27 2.7M
The-Emergence-of-Mul..> 03-Jan-2015 22:05 2.5M
Trigraphes-de-Berge-..> 03-Jan-2015 22:02 3.9M
Un-ilot-formel-pour-..> 05-Jan-2015 08:07 3.1M
Vers-une-capitalisat..> 03-Jan-2015 22:00 4.6M
Congrès d'informatique :
Application-Agnostic..> 03-Jan-2015 21:16 2.1M
Continuity-Editing-f..> 03-Jan-2015 17:35 4.0M
Double-WP-Vers-une-p..> 03-Jan-2015 17:36 4.0M
Effective-Reproducib..> 03-Jan-2015 21:18 2.0M
Enforcing-reuse-and-..> 03-Jan-2015 21:17 2.0M
Extracting-Bounded-s..> 03-Jan-2015 21:19 4.0M
Fingerprint-Quality-..> 03-Jan-2015 21:16 2.1M
GPU-Load-Balance-Gui..> 03-Jan-2015 21:18 4.0M
Minkowski-sum-of-pol..> 03-Jan-2015 21:17 2.0M
Quality-Assessment-o..> 03-Jan-2015 21:16 2.1M
Rester-statique-pour..> 03-Jan-2015 17:35 4.0M
The-Power-of-Polynom..> 03-Jan-2015 21:16 2.1M
Cours d'informatique :
Analyse-numerique-Co..> 03-Jan-2015 17:33 3.0M
Approches-m-k-firm-p..> 03-Jan-2015 17:27 3.7M
COURS-LA-CULTURE-INF..> 03-Jan-2015 17:25 3.8M
CRYPTANALYSE-DE-RSA-..> 03-Jan-2015 17:33 3.0M
Cours-Interconnexion..> 03-Jan-2015 17:34 3.0M
Cours-d-Analyse-et-C..> 03-Jan-2015 17:22 3.9M
Efficient-C++finite-..> 03-Jan-2015 17:30 3.5M
Efficient-C++finite-..> 03-Jan-2015 17:31 3.2M
Fondements-de-l-Info..> 03-Jan-2015 17:22 4.0M
INTRODUCTION-A-L-INF..> 03-Jan-2015 17:24 3.8M
Informatique-et-Ling..> 03-Jan-2015 17:24 3.8M
Initiation-a-l-infor..> 03-Jan-2015 17:26 3.8M
Intelligence-Artific..> 03-Jan-2015 15:16 2.5M
Introduction-a-l-ana..> 03-Jan-2015 17:27 3.7M
Introduction-a-la-ge..> 03-Jan-2015 17:26 3.8M
Le-routage-externe-B..> 03-Jan-2015 17:32 3.1M
Le-systeme-d-informa..> 03-Jan-2015 17:32 3.1M
Lecture1_Linear_SVM_..> 03-Jan-2015 14:57 2.4M
Lecture2_Linear_SVM_..> 03-Jan-2015 14:56 2.4M
Lecture3_Linear_SVM_..> 03-Jan-2015 14:56 2.4M
Lecture4_Kenrels_Fun..> 03-Jan-2015 14:55 2.4M
Lecture5_Kernel_SVM...> 03-Jan-2015 14:55 2.4M
Lecture6_SVDD.pdf.htm 03-Jan-2015 14:54 2.4M
Lecture7_Cross_Valid..> 03-Jan-2015 14:54 2.4M
Lecture8_Multi_Class..> 03-Jan-2015 14:57 2.4M
Lecture9_Multi_Kerne..> 03-Jan-2015 14:53 2.5M
Lecture10_Outilier_L..> 03-Jan-2015 14:53 2.5M
Les-reseaux-sans-fil..> 03-Jan-2015 15:17 2.5M
NooJ-pour-l-Intellig..> 03-Jan-2015 17:30 3.2M
Outils-Logiques-pour..> 03-Jan-2015 15:15 2.8M
Presentation-de-la-r..> 03-Jan-2015 17:33 3.0M
Projet-IP-SIG-Signal..> 03-Jan-2015 15:16 2.5M
Robotique-Mobile-PDF..> 03-Jan-2015 15:16 2.6M
Systeme-informatique..> 03-Jan-2015 15:17 2.5M
Systemes-Multi-Agent..> 03-Jan-2015 17:28 3.5M
Tutoriel-Android-TP-..> 03-Jan-2015 14:57 2.3M
Understanding-SVM-th..> 03-Jan-2015 14:57 2.4M
Une-histoire-de-la-m..> 03-Jan-2015 17:28 3.5M
Une-introduction-aux..> 03-Jan-2015 17:31 3.1M
Vers-une-signalisati..> 03-Jan-2015 17:25 3.8M
Mod`ele de comportement communicatif conventionnel
pour un agent en interaction avec des humains :
Approche par jeux de dialogue
Guillaume Dubuisson Duplessis
To cite this version:
Guillaume Dubuisson Duplessis. Mod`ele de comportement communicatif conventionnel pour un
agent en interaction avec des humains : Approche par jeux de dialogue. Artificial Intelligence.
INSA de Rouen, 2014. French. .
HAL Id: tel-01017542
https://tel.archives-ouvertes.fr/tel-01017542v2
Submitted on 8 Jul 2014
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of scientific
research documents, whether they are published
or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destin´ee au d´epˆot et `a la diffusion de documents
scientifiques de niveau recherche, publi´es ou non,
´emanant des ´etablissements d’enseignement et de
recherche fran¸cais ou ´etrangers, des laboratoires
publics ou priv´es.THÈSE
Présentée à :
L’Institut National des Sciences Appliquées de Rouen
En vue de l’obtention du grade de :
Docteur en Informatique
Par :
Guillaume DUBUISSON DUPLESSIS
Intitulée :
Modèle de comportement communicatif conventionnel pour un
agent en interaction avec des humains
Approche par jeux de dialogue
23 mai 2014
Devant le jury composé de :
Rapporteurs :
Frédéric Landragin - Chargé de Recherche CNRS, Laboratoire LATTICE
Nicolas Sabouret - Professeur, Université Paris-Sud
Examinateurs :
Catherine Pelachaud - Directrice de Recherche CNRS, TELECOM ParisTech
Jean-Christophe Routier - Professeur, Université Lille 1
Directeur :
Jean-Pierre Pécuchet - Professeur, INSA de Rouen
Encadrants scientifiques :
Nathalie Chaignaud - Maître de Conférences, INSA de Rouen
Jean-Philippe Kotowicz - Maître de Conférences, INSA de RouenPréambule
Résumé
Cette thèse a pour objectif l’amélioration des capacités communicatives des agents logiciels en interaction
avec des humains. Dans ce but, nous proposons une méthodologie basée sur l’étude d’un corpus
d’interactions Homme-Homme orientées vers la réalisation d’une tâche. Ce corpus est exploité en deux
étapes essentielles : son enrichissement via une phase d’annotation et l’extraction de régularités. Nos
travaux se concentrent sur les motifs d’interaction, c’est-à-dire les régularités observées au niveau de l’interaction
dialogique. Nous étudions les structures de haut niveau spécifiables à partir de ces motifs dans le
but de produire un modèle d’interaction pour un agent pouvant s’intégrer dans un processus délibératif.
Pour modéliser de tels motifs dialogiques, nous proposons un cadre qui s’appuie sur les jeux de dialogue.
Celui-ci se base sur les notions d’engagement social et de tableau de conversation qui permettent de
s’abstraire des dispositions privées des agents prenant part à l’interaction. Nous illustrons la spécification
de jeux de dialogue en appliquant l’ensemble des étapes de notre méthodologie à un corpus de dialogues
orientés tâche. Les jeux spécifiés sont validés en montrant qu’ils décrivent de façon appropriée les motifs
apparaissant dans le corpus de référence. Enfin, nous montrons l’intérêt interprétatif et génératif de notre
modèle pour le fondement du comportement communicatif conventionnel d’un agent interagissant avec
un humain. Nous implémentons ce modèle dans Dogma, un module exploitable par un agent afin de
réguler son comportement communicatif dans un dialogue impliquant deux interlocuteurs.
Abstract
This research work aims at improving the communicative behaviour of software agents interacting
with humans. To this purpose, we present a data-driven methodology based on the study of a taskoriented
corpus consisting of Human-Human interactions. This corpus is processed in two main steps :
its enrishment through an annotation phase and a regularity extraction phase. Our research work focuses
on interaction patterns, that is to say regularities observed at the level of dialogical interaction. We
study high-level structures that can be specified from these patterns. These structures form the basis
of the interaction model for an agent that can be integrated into a deliberative process. We present a
framework to specify dialogue games from these patterns based on the notion of social commitments
and conversational gameboard. This framework is independent of the private states of interacting agents.
We exemplify the specification of dialogue games by implementing all the steps of our methodology on
a task-oriented corpus. The produced games are validated by showing that they appropriately describe
the patterns appearing in a reference corpus. Eventually, we show that an agent can take advantage of
our model to regulate its conventional communicative behaviour on both interpretative and generative
levels. We implement this model into Dogma, a module that can be used by an agent to manage its
communicative behaviour in a two-interlocutor dialogue.ii
Remerciements
Je tiens à remercier en premier lieu les rapporteurs de cette thèse, Frédéric Landragin et
Nicolas Sabouret, pour l’intérêt porté à mes travaux et pour leurs remarques pertinentes et enrichissantes.
Je remercie également Catherine Pelachaud pour m’avoir fait l’honneur de présider
le jury et pour avoir éveillé ma curiosité sur la prise en compte de l’émotion dans la gestion du
dialogue, ainsi que Jean-Christophe Routier pour avoir accepté d’examiner mon travail et pour
avoir attiré mon regard sur les systèmes multiagent.
Je tiens à remercier mon directeur de thèse, Jean-Pierre Pécuchet, pour la confiance qu’il
m’a toujours accordée et pour m’avoir soutenu à chaque sollicitation.
Un grand merci à Nathalie Chaignaud et Jean-Philippe Kotowicz, mes directeurs scientifiques
qui m’ont suivi depuis mes débuts dans le département Génie Mathématique de l’INSA jusqu’à
l’aboutissement de ce travail. Merci d’avoir toujours été là pour moi quand j’en avais besoin, et de
m’avoir laissé une grande liberté dans mes travaux de recherche. Je tiens à souligner leur travail
exemplaire de relecture et de correction aussi bien pour le manuscrit que pour la soutenance.
Je souhaite tout particulièrement associer Alexandre Pauchet à mon encadrement scienti-
fique. Merci pour ton dynamisme, ta curiosité, ton regard critique toujours pertinent, les discussions
diverses et variées, les relectures, les corrections, et j’en passe ! Tu as permis de faire
avancer et aboutir ces travaux.
Merci à Philippe Mathieu de m’avoir accueilli au sein de l’équipe SMAC du Laboratoire
d’Informatique Fondamentale de Lille (LIFL) en tant qu’ATER pendant cette quatrième année
très enrichissante. J’en profite pour remercier tous les membres de cette équipe de recherche
d’une qualité et d’un dynamisme exemplaire. Un grand merci à Maxime Morge pour son intérêt
pour mon travail, pour ses remarques pertinentes et pour le concert d’Oldelaf !
Merci à Brigitte, Jean-François et Sandra pour leur gentillesse, leur compétence et l’aide
qu’ils m’ont accordée tout au long de ce périple au LITIS.
Merci à Nicolas Delestre, Nicolas Malandain, Romain Hérault et Laurent Vercouter pour les
discussions enrichissantes à propos de l’enseignement et de la recherche.
Merci à l’équipe ASI du midi avec qui j’ai passé des moments conviviaux, très plaisants et
remplis de trolls : Alain, Gilles, Nico D., Nico M., Pierrick, Romain, Elsa, . . .
Merci aux doctorants croisés tout au long de la thèse pour leur sympathie : Émilien, Amandine,
Florian, Louise, Amnir, Yadu, Damien, et les lillois Lisa et Fabien.
Merci à mes amis dont la présence compte beaucoup pour moi : Clément, Aurélie C., Nico,
Philippine, Arnaud, Emma, Zach, Diana, Polo, Cocaux, Vincent, Claire, Carlo, André, Julien,
Aurélie B., Rémi F., Ovidiu, Alina, Joseph, . . . Merci aux points de suspension qui représentent
les amis que j’ai oublié de citer et qui me pardonneront.
Merci à ma famille pour son soutien permanent : maman, papa, Aurélien, Justine, Romain,
et Paul ! Merci enfin à Virginie avec qui je partage ma vie et qui m’a soutenu dans cet accomplissement.Table
des matières
Introduction 1
I Positionnement 9
1 Fondements pour la modélisation du dialogue 11
1.1 Généralités sur le dialogue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.1.1 Le dialogue est une activité conjointe et opportuniste . . . . . . . . . . . . . 11
1.1.2 Gestion de la tâche sous-jacente et gestion de la communication . . . . . . . 14
1.2 Actes de langage et actes de dialogue . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2.1 Actes de langage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2.2 Des actes de langage aux actes de dialogue . . . . . . . . . . . . . . . . . . 19
1.3 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2 Modélisation du dialogue : intention versus convention 29
2.1 Approches intentionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1.1 Fondements des approches intentionnelles . . . . . . . . . . . . . . . . . . . 30
2.1.2 Approches par planification . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.1.3 Principales mises en œuvre . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.1.4 Avantages et limites des approches intentionnelles . . . . . . . . . . . . . . . 38
2.2 Approches conventionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.2.1 Fondements des approches conventionnelles . . . . . . . . . . . . . . . . . . 39
2.2.2 Modèles fondés sur la structuration . . . . . . . . . . . . . . . . . . . . . . . 42
2.2.3 Modèles fondés sur les questions en discussion . . . . . . . . . . . . . . . . . 46
2.2.4 Avantages et limites des approches conventionnelles . . . . . . . . . . . . . . 52
2.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3 Vers des modèles mixtes à base de jeux de dialogue 57
3.1 Fondements des jeux de dialogue . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.1.1 Les jeux de dialogue comme scripts partagés . . . . . . . . . . . . . . . . . . 58
3.1.2 Les jeux de dialogue comme recettes partagées . . . . . . . . . . . . . . . . 60
3.1.3 Les jeux de dialogue comme projet conjoint . . . . . . . . . . . . . . . . . . 62
3.1.4 Synthèse sur la métaphore des jeux de dialogue . . . . . . . . . . . . . . . . 64
3.2 Les jeux de dialogue pour l’interaction Homme-Machine . . . . . . . . . . . . . . . . 64
3.2.1 Les jeux comme réseau de transition récursif . . . . . . . . . . . . . . . . . . 65
3.2.2 Les jeux comme unités de type initiative-réponse cohérentes . . . . . . . . . 66
3.2.3 Les jeux comme structures pour l’engagement dans le dialogue . . . . . . . . 69
3.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.3.1 Vers un modèle normatif des jeux de dialogue basé sur les engagements . . . 74iv Table des matières
3.3.2 Avantages et limites des jeux de dialogue . . . . . . . . . . . . . . . . . . . 78
3.3.3 Vers des modèles mixtes fondés sur des jeux de dialogue . . . . . . . . . . . 81
II Analyse des interactions humaines 83
4 Corpus Cogni-CISMeF 85
4.1 Constitution du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.1.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.1.2 Recueil du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.1.3 Transcription . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.2 Processus de recherche d’information . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.2.1 Modèle standard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.2.2 Un processus opportuniste . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.2.3 Un processus stratégique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.3 Analyse des entretiens du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.3.1 Situation dialogique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.3.2 Structure globale des entretiens . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.3.3 Stratégies et tactiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.3.4 Rôles des participants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.4 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5 Annotation du corpus et extraction de motifs 105
5.1 Processus d’annotation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
5.1.1 Segmentation du dialogue . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
5.1.2 Configuration du processus d’annotation . . . . . . . . . . . . . . . . . . . . 108
5.1.3 Résultats du processus d’annotation . . . . . . . . . . . . . . . . . . . . . . 112
5.1.4 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
5.2 Processus d’extraction de motifs dialogiques . . . . . . . . . . . . . . . . . . . . . . 126
5.2.1 Configuration du processus d’extraction . . . . . . . . . . . . . . . . . . . . 127
5.2.2 Résultats du processus d’extraction . . . . . . . . . . . . . . . . . . . . . . . 128
5.2.3 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
5.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
III Modélisation des interactions humaines et mise en œuvre 143
6 Formalisation des motifs d’interaction 145
6.1 Modèle de l’engagement social et tableau de conversation . . . . . . . . . . . . . . . 145
6.1.1 Modèle de l’engagement social . . . . . . . . . . . . . . . . . . . . . . . . . 146
6.1.2 Tableau de conversation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
6.1.3 Interprétation des engagements du tableau de conversation . . . . . . . . . . 156
6.2 Jeux de dialogue et jeux de communication . . . . . . . . . . . . . . . . . . . . . . 158
6.2.1 Modèle de jeu de dialogue . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
6.2.2 Modèle de jeu de communication . . . . . . . . . . . . . . . . . . . . . . . . 161
6.2.3 Combinaisons et établissement de jeux de dialogue . . . . . . . . . . . . . . 161
6.2.4 Interprétation des jeux de dialogue dans le tableau de conversation . . . . . . 163Table des matières v
6.3 Spécification empirique de jeux depuis le corpus Cogni-CISMeF . . . . . . . . . . 163
6.3.1 Représentation du contenu sémantique . . . . . . . . . . . . . . . . . . . . . 164
6.3.2 Actes de dialogue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
6.3.3 Jeu de communication et jeux de dialogue . . . . . . . . . . . . . . . . . . . 169
6.3.4 Couverture du corpus par les jeux définis . . . . . . . . . . . . . . . . . . . . 176
6.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
7 Mise en œuvre du modèle 183
7.1 Dogma : « DialOgue Game MAnager » . . . . . . . . . . . . . . . . . . . . . . . . 183
7.1.1 Architecture d’un système de dialogue Homme-Machine . . . . . . . . . . . 184
7.1.2 Exploitation des jeux de dialogue par un gestionnaire de dialogue . . . . . . . 184
7.1.3 Présentation de Dogma . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
7.1.4 Implémentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
7.2 Traces de fonctionnement de Dogma . . . . . . . . . . . . . . . . . . . . . . . . . 189
7.2.1 Tableau de conversation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
7.2.2 Exemple de jeu de requête . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
7.2.3 Exemple de jeu de question à choix multiples . . . . . . . . . . . . . . . . . 194
7.2.4 Exemple d’emboîtement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
7.3 Vers une validation de Dogma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
7.3.1 Test « à la Turing » . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
7.3.2 Développement de systèmes de dialogue . . . . . . . . . . . . . . . . . . . . 207
7.4 Discussion : vers un agent dialogique utilisant les jeux . . . . . . . . . . . . . . . . . 207
Conclusion 211
Annexes 215
A Annexes de l’analyse du corpus Cogni-CISMeF 217
A.1 Le schéma XML d’annotation pour un acte de dialogue dans Gate . . . . . . . . . . 217
A.2 Alignement entre la taxonomie d’actes de dialogue de Loisel et DIT++ . . . . . . . 221
A.3 Annexes des résultats du processus d’annotation . . . . . . . . . . . . . . . . . . . . 223
A.3.1 Exemples de dialogues annotés du corpus Cogni-CISMeF . . . . . . . . . 223
A.3.2 Proportion des tours de parole annotés . . . . . . . . . . . . . . . . . . . . . 229
A.3.3 Accords inter-annotateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
A.3.4 Analyse au niveau des segments fonctionnels . . . . . . . . . . . . . . . . . . 233
A.3.5 Analyse au niveau des dimensions . . . . . . . . . . . . . . . . . . . . . . . 234
A.3.6 Co-occurrence des dimensions . . . . . . . . . . . . . . . . . . . . . . . . . 236
A.3.7 Analyse au niveau des fonctions communicatives . . . . . . . . . . . . . . . 237
A.4 Annexes du processus d’extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
A.4.1 Répartition entre le corpus d’extraction et le corpus de référence . . . . . . . 247
A.4.2 Cas de la fonction ExecNegativeAutoFB . . . . . . . . . . . . . . . . . . . . 248
A.4.3 Présence des motifs dans les entretiens du corpus d’extraction . . . . . . . . 248
A.4.4 Exemples supplémentaires d’instance de motif . . . . . . . . . . . . . . . . . 250vi Table des matières
B Annexes du modèle 261
B.1 Événéments internes issus des jeux de dialogue . . . . . . . . . . . . . . . . . . . . 261
B.2 Jeu de communication de contextualisation . . . . . . . . . . . . . . . . . . . . . . 261
B.3 Jeu de dialogue de question à choix multiples . . . . . . . . . . . . . . . . . . . . . 261
C Annexes de la mise en œuvre 265
C.1 Exemples de code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
C.2 Traces de fonctionnement du système . . . . . . . . . . . . . . . . . . . . . . . . . 268
C.2.1 Refus d’entrée dans le jeu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268
C.2.2 Échec d’un jeu de question/réponse . . . . . . . . . . . . . . . . . . . . . . 269
C.2.3 Jeu d’évaluation : exemple de correction . . . . . . . . . . . . . . . . . . . . 273
Liste des dialogues 275
Liste des codes sources 278
Liste des algorithmes 280
Bibliographie 283Liste des tableaux
1 Organisation préférentielle des paires adjacentes . . . . . . . . . . . . . . . . . . . 5
1.1 Niveaux de la gestion de l’interaction selon Clark . . . . . . . . . . . . . . . . . . 15
1.2 Actes conversationnels multi-niveaux . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1 Exemple de représentation d’un acte "Informer" comme une action de plan . . . . 33
2.2 Exemple de spécification d’une tâche dialogique de salutations dans DTask . . . 37
2.3 Gestion de feedbacks du système dans GoDiS . . . . . . . . . . . . . . . . . . . . 52
3.1 Exemple de jeu de dialogue d’aide dans l’approche de Levin et Moore . . . . . . 59
3.2 Exemples de jeux de dialogue dans l’approche de Mann . . . . . . . . . . . . . . 61
3.3 Exemple de macrojeu de présentation d’information dans l’approche de Mann . . 62
3.4 Exemple du jeu de dialogue d’explication dans l’approche de Maudet . . . . . . . 72
3.5 Jeu de communication d’évaluation dans l’approche de Maudet . . . . . . . . . . 73
4.1 Conventions de transcription du corpus Cogni-CISMeF . . . . . . . . . . . . . 88
4.2 Occurrences des différents types de verbalisation dans le corpus . . . . . . . . . . 93
4.3 Répartition des tactiques de réparation dans le corpus . . . . . . . . . . . . . . . 100
5.1 Segmentation et multifonctionnalité . . . . . . . . . . . . . . . . . . . . . . . . . 107
5.2 Répartition des dialogues par annotateur dans le processus d’annotation . . . . . 110
5.3 Nombre de fonctions communicatives annotées par corpus et par annotateur . . . 112
5.4 Proportion des tours de parole annotés dans le corpus . . . . . . . . . . . . . . . 113
5.5 Exemples de fonctions communicatives par dimension associées à un exemple
typique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
5.6 Accord inter-annotateur pour la tâche de segmentation . . . . . . . . . . . . . . . 115
5.7 Accord inter-annotateur pour les tâches de segmentation et d’étiquetage par dimension
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
5.8 Accord inter-annotateur pour les tâches de segmentation et d’étiquetage pour les
fonctions générales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
5.9 Nombre de fonctions par segment fonctionnel par annotateur, par corpus et au
total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
5.10 Répartition des segments fonctionnels en fonction du rôle . . . . . . . . . . . . . 118
5.11 Nombre d’actes de dialogue par tour en fonction du rôle . . . . . . . . . . . . . . 118
5.12 Proportions de fonctions annotées par dimension sur l’ensemble du corpus CogniCISMeF
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.13 Proportion de fonctions annotées par catégories . . . . . . . . . . . . . . . . . . . 121
5.14 Répartition des fonctions dans la dimension Task par catégorie pour l’expert et
le demandeur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121viii Liste des tableaux
5.15 Répartition des fonctions dans la dimension Task pour la catégorie des fonctions
fournissant de l’information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
5.16 Répartition des fonctions dans la dimension Task pour la catégorie des fonctions
de discussion d’actions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
5.17 Répartition des fonctions dans la dimension Task pour la catégorie des fonctions
de recherche d’information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
5.18 Synthèse des fonctions annotées dans la dimension Auto-feedback . . . . . . . . . 125
5.19 Extrait des motifs dialogiques de vérification (catégorie de recherche d’information)131
5.20 Motifs dialogiques de question ouverte et de question à choix multiples . . . . . . 134
5.21 Motifs dialogiques de discussion d’action . . . . . . . . . . . . . . . . . . . . . . . 135
5.22 Motif dialogique d’accord (catégorie de transfert d’information) . . . . . . . . . . 138
6.1 Événements et combinaisons d’événements pour les engagements dialogiques en
action . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
6.2 Fonctionnalités générales du tableau de conversation . . . . . . . . . . . . . . . . 150
6.3 Opérations générales sur les engagements en action et propositionnel (création,
suppression et annulation) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
6.4 Opérations sur les engagements en action (contextualisés ou non) . . . . . . . . . 151
6.5 Prédicats concernant les descriptions d’événement . . . . . . . . . . . . . . . . . 153
6.6 Relations entre un engagement en action dialogique et l’occurrence d’un événement154
6.7 Jeu de dialogue de requête . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
6.8 Opérations générales sur les engagements conjoints sur un jeu de dialogue . . . . 160
6.9 Fonctions des actes de dialogue de contextualisation . . . . . . . . . . . . . . . . 162
6.10 Exemples de propositions dans notre représentation sémantique . . . . . . . . . . 166
6.11 Exemples de question dans notre représentation sémantique . . . . . . . . . . . . 167
6.12 Relations de résolution et de pertinence . . . . . . . . . . . . . . . . . . . . . . . 167
6.13 Fonctions des actes de dialogue considérés dans notre formalisation . . . . . . . . 168
6.14 Type de contenu sémantique des actes de dialogue . . . . . . . . . . . . . . . . . 169
6.15 Jeu de communication d’évaluation : effets directs . . . . . . . . . . . . . . . . . 170
6.16 Jeu de communication d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . 171
6.17 Jeu de communication d’évaluation : cas de la correction . . . . . . . . . . . . . . 171
6.18 Conditions d’entrée, de succès et d’échec des jeux de vérification, de vérification
négative et de question oui/non . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
6.19 Jeu de dialogue de vérification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
6.20 Jeu de dialogue de vérification négative . . . . . . . . . . . . . . . . . . . . . . . 172
6.21 Jeu de dialogue d’interrogation polaire . . . . . . . . . . . . . . . . . . . . . . . . 173
6.22 Jeu de dialogue d’interrogation ouverte . . . . . . . . . . . . . . . . . . . . . . . . 174
6.23 Jeu de dialogue de suggestion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
6.24 Jeu de dialogue d’offre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
6.25 Jeux utilisables par un interlocuteur afin de modifier les états des engagements
extra-dialogiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
6.26 Résultats de l’étude de la couverture des jeux . . . . . . . . . . . . . . . . . . . . 178Table des figures
1 Vision schématique des usages d’un corpus de traces enrichies pour la conception
d’un agent interactif. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Étapes de notre méthodologie basée sur un corpus . . . . . . . . . . . . . . . . . 4
1.1 Fonctions générales de DIT++ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.2 Extraits des fonctions spécifiques à certaines dimensions de DIT++ . . . . . . . 26
2.1 Automate de l’initiateur pour la demande d’information dans l’approche de Pauchet 45
3.1 Jeu de dialogue de demande d’information dans l’approche de Lewin . . . . . . . 65
3.2 « Initiative-response units » . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.3 Structure générale d’un jeu de dialogue dans l’approche d’Hulstijn . . . . . . . . 67
3.4 Échange de recherche d’information dans l’approche d’Hulstijn . . . . . . . . . . 68
3.5 Séquencement de jeux dans l’approche d’Hulstijn . . . . . . . . . . . . . . . . . . 68
3.6 Exemple de séquencement de jeux de recherche d’information dans l’approche
d’Hulstijn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.1 Récolte et transcription de corpus dans notre méthodologie . . . . . . . . . . . . 85
4.2 Situation dialogique entre l’expert, l’utilisateur et CISMeF dans l’expérimentation 91
4.3 Structure des dialogues de recherche d’information collaborative observée . . . . 91
4.4 Enchaînement idéalisé des tactiques de réparation en fonction des résultats de la
requête . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.1 Annotation du corpus Cogni-CISMeF et extraction de régularités . . . . . . . . 105
5.2 Répartition observée des instances de motifs dialogiques par catégorie dans le
corpus d’extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
5.3 Répartition observée des instances de motifs dialogiques de recherche d’information
dans le corpus Cogni-CISMeF . . . . . . . . . . . . . . . . . . . . . . . . . 131
5.4 Répartition observée des instances de motifs dialogiques de discussion d’action
dans le corpus Cogni-CISMeF . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
5.5 Répartition observée des motifs dialogiques de transfert d’information dans le
corpus Cogni-CISMeF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
5.6 Motif dialogique de correction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
6.1 États d’un engagement propositionnel . . . . . . . . . . . . . . . . . . . . . . . . 146
6.2 États d’un engagement en action. . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
6.3 États d’un engagement conjoint sur un jeu de dialogue . . . . . . . . . . . . . . . 148
6.4 Principe de l’évolution du tableau de conversation en fonction de l’occurrence
d’événements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
6.5 Principe du jeu de communication de contextualisation pour un jeu de dialogue . 163x Table des figures
6.6 Structure sous-jacente commune aux jeux de dialogue d’interrogation ouverte et
d’interrogation à choix multiples . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
7.1 Architecture de Dogma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187Introduction
Des agents en interaction avec les humains, limités par leurs capacités
dialogiques
Les interactions entre des humains et des agents logiciels sont de plus en plus répandues,
bénéficiant du rapprochement entre l’Interaction Homme-Machine (IHM) et l’Intelligence Arti-
ficielle (IA) [Horvitz 1999a,Horvitz 2007,Lieberman 2009]. L’éventail des agents visant à offrir
des capacités d’interaction proche des capacités humaines est important. Nous pouvons citer
les agents interface [Lieberman 1997], les agents virtuels intelligents [Swartout 2006], les agents
conversationnels animés [Cassell 2000] et les agents assistants d’initiative mixte [Tecuci 2007]
1
.
Dans ce document, nous parlons plus généralement d’agent interactif pour désigner un agent
destiné à interagir avec un humain.
La conception d’agent interactif implique l’intégration de nombreux domaines de l’IA [Swartout
2006, Tecuci 2007] incluant la représentation des connaissances, la résolution de problème
et la planification, l’acquisition de connaissances et l’apprentissage, les systèmes multiagent, la
théorie du discours et l’interaction Homme-Machine. Sans surprise, la conception d’agents en
interaction directe avec les humains est une tâche réputée difficile (voir par exemple les problé-
matiques soulevées par l’interaction d’initiative mixte [Tecuci 2007] ou encore les environnements
mixtes [Swartout 2006]). Les humains utilisent des processus de communication et de raisonnement
complexes auxquels les agents doivent s’adapter. Un défi dans la conception des interactions
Homme-Machine se situe en particulier au niveau de la problématique de la communication. La
gestion du dialogue est vue comme un point clé car c’est un moyen de communication effi-
cace pour les humains qui requiert peu ou pas d’entraînement pour être utilisé [Tecuci 2007]. De
plus, c’est le moyen le plus à même de permettre la réalisation d’un véritable système collaboratif
d’initiative mixte [Ferguson 2007].
La gestion du dialogue reste cependant un point délicat pour les Agents Conversationnels
Animés (ACA) [Swartout 2006,Ales 2012]. Ainsi, la plupart des systèmes existants n’intègrent
que des modules de gestion de dialogue basiques (e.g., voir le projet SEMAINE [Schroder 2010]).
Une première approche consiste à rechercher des motifs textuels dans les énoncés de l’utilisateur
vus comme une séquence de mots (e.g., le célèbre ELIZA [Weizenbaum 1966] ou l’« Artificial
Intelligence Markup Language » (AIML) [Wallace 2003]). Des règles spécifient le motif textuel
recherché et la réponse à produire par le système. Elles permettent au système de produire sa
réponse en confrontant les règles à l’énoncé de l’utilisateur. Ce type d’approche ne donne que
l’illusion d’un dialogue cohérent. La deuxième approche est particulièrement répandue (voir, e.g.,
le cas des systèmes de dialogue dans le domaine médical [Bickmore 2006]). Elle consiste à repré-
senter la structure du dialogue via un automate fini (éventuellement hiérarchique) où chaque état
représente l’état du dialogue et chaque transition, étiquetée par un énoncé, conduit à un nouvel
1. Respectivement, traductions de : « Autonomous Interface Agent », « Intelligent Virtual Agents » (IVAs),
« Embodied Conversational Agents » (ECAs) et « Mixed-Initiative Assisting Agent » (MIAA)2 Introduction
état (voir, e.g., [McTear 2004]). Cette approche décrit la structure de l’ensemble du dialogue.
En pratique, elle s’avère rigide et limitée à des dialogues menés par le système. Enfin, l’approche
« par cadre » 2 voit le dialogue comme un processus de renseignement d’un formulaire contenant
un ensemble d’emplacements (cf., e.g., [Aust 1995] et le standard VoiceXML [Oshry 2007]). Les
emplacements correspondent généralement à des informations nécessaires au système. La rigidité
du modèle est réduite par l’algorithme de contrôle qui est chargé de déterminer les interventions
du système sur la base du cadre. Par exemple, l’utilisateur peut remplir plusieurs emplacements
avec un seul énoncé (ce qui était impossible avec l’approche précédente). Néanmoins, toutes ces
approches se limitent aux dialogues menés par le système et dont les contributions sont fixées
par avance. Elles ne laissent que peu de place à l’initiative de l’utilisateur.
Une méthodologie pour concevoir le comportement des agents interactifs
Notre point de vue sur la modélisation des interactions Homme-Machine se fonde sur le postulat
que la conception d’agents en interaction avec les humains peut être améliorée par l’étude
et l’analyse des interactions Homme-Homme et Homme-Machine. Dans ce but, nous adoptons
une démarche interdisciplinaire mêlant psychologie cognitive et intelligence artificielle [Chaignaud
1996,Pauchet 2006].
La modélisation de la cognition humaine passe selon nous par l’étude de corpus de traces
Homme-Homme [Chaignaud 1996,Pauchet 2006]. Dans cette perspective, nous laissons de côté
les approches qui visent à travailler sur des exemples artificiellement créés (comme les « donkey
sentences » [Geach 1962] ou bien des dialogues artificiels). Cette décision est motivée, d’une part,
par le fait que l’accord sur l’acceptabilité des exemples créés est difficile à obtenir. D’autre part,
ce genre d’approches conduit à la modélisation de phénomènes sans se préoccuper de savoir
s’ils apparaissent fréquemment dans l’usage. Au contraire, une approche par corpus permet
de se concentrer sur des phénomènes observables, attestés et quantifiables. De plus, l’accord
est plus facile à obtenir que sur des exemples artificiels. Néanmoins, il est nécessaire d’être
conscient des limites des approches par corpus. Premièrement, l’étude d’un corpus résulte d’une
construction élaborée dans un cadre précis. En tant que telle, la généricité des résultats obtenus
est à démontrer. Ensuite, un corpus ne fait pas apparaître de manière exhaustive l’ensemble
des phénomènes que l’on cherche à étudier. L’étude de corpus est une approche inductive qui
va de pair avec l’intervention de connaissances extérieures. Enfin, il faut bien garder à l’esprit
qu’un corpus est une source de connaissances à partir de laquelle il est possible d’élaborer des
modèles. Cependant, la quantité de phénomènes qui y occurrent est souvent loin de la quantité
des phénomènes in fine modélisés. En ce sens, et en particulier dans le cas du dialogue, il est
pour le moment illusoire de penser pouvoir modéliser l’ensemble des phénomènes observés car
ils impliquent les champs de la pragmatique et de la sémantique dont les frontières restent mal
connues [Maudet 2003b,Prévot 2004,Ginzburg 2010,Ginzburg 2012].
Nous prescrivons néanmoins l’usage de corpus de véritables dialogues Homme-Homme pour la
modélisation des interactions Homme-Machine. La principale motivation est que les interactions
Homme-Homme sont riches et naturelles. En conséquence, leur étude permet d’améliorer les
systèmes d’interaction Homme-Machine existants afin de tendre vers une interaction plus fluide
et plus naturelle. De plus, un certain nombre d’études met en évidence l’utilité de corpus Homme-
2. Traduction de « Frame-based approach »3
Homme pour la modélisation des interactions Homme-Machine [Bilange 1991a, Pauchet 2006,
Loisel 2008,Orkin 2013].
Notre méthodologie s’appuie sur un corpus de traces Homme-Homme. Ces traces sont récoltées
suite à une expérimentation conçue spécifiquement et mettant en interaction des participants.
Elles incluent généralement l’enregistrement [Chaignaud 2000,Pauchet 2006,Orkin 2013]
(i) des actions physiques liées à la tâche (e.g., ajout d’un mot clé à une requête d’un moteur
de recherche, envoi de la requête, etc.), (ii) des interactions dialogiques entre les participants.
Schématiquement (cf. figure 1), il est possible d’analyser sur deux niveaux ce corpus pour la
Figure 1: Vision schématique des usages d’un corpus de traces enrichies pour la conception d’un agent
interactif. Les cadres en trait plein représentent les points abordés dans cette thèse. Les cadres en pointillé
représentent les suites potentielles de cette thèse.
production du modèle d’un agent prenant le rôle d’un des participants [Chaignaud 2000,Pauchet
2006,Orkin 2013] : au niveau de la tâche (e.g., en terme de planification) et au niveau des
interactions entre les participants. Ces analyses se focalisent sur la recherche de régularités dans
les traces sous forme de motifs récurrents au niveau de la tâche et au niveau de l’interaction
dialogique [Chaignaud 2000,Pauchet 2006,Orkin 2013].
L’approche « Collective Artificial Intelligence » [Orkin 2009] est proche de notre démarche
aussi bien au niveau méthodologique (récolte de traces Homme-Homme et étude des motifs ré-
currents) que par l’objectif d’amélioration du comportement des agents interagissant avec des
humains. Elle se concentre sur les agents interagissant avec des humains dans des environnements
virtuels (EV) comme un jeu vidéo. Leur approche permet d’apprendre automatiquement
des scripts [Schank 1977] (connaissances socialement établies) sans intervention humaine depuis
un grand nombre de logs d’interaction Homme-Homme incluant des actions physiques dans un
EV et des énoncés saisis via un chat. Cette approche n’implique pas de structures de haut niveau
(e.g., des buts et sous-buts). Les plans d’actions automatiquement appris sont définis en terme
de séquences d’actions issues des logs. De même pour les instances de dialogue qui sont défi-
nies en terme de séquence de motifs textuels de surface. Plans d’action et instances de dialogue
sont stockés dans une mémoire collective, qui est exploitée par une architecture d’agent appelée
proposition-critique [Orkin 2009]. Dans cette architecture, l’agent réévalue les plans disponibles
dans la mémoire collective dès qu’il détecte une anomalie dans son plan courant (partie proposition)
pour sélectionner le plan qui dévie le moins de la norme (partie critique). La conclusion de
cette approche après expérimentation est que des agents basés sur ces structures de bas niveau
permettent d’assurer une faible cohérence locale au niveau de l’interaction mais pas de cohérence
globale [Orkin 2009]. Cette étude montre qu’il est nécessaire de considérer des structures de haut4 Introduction
niveau pour la tâche (e.g., hiérarchie de buts) et le dialogue (e.g., formaliser les énoncés en terme
de types de phrase et de contenu sémantique) pour atteindre une cohérence globale. Il est ainsi
nécessaire d’exploiter un corpus via des structures de haut niveau intégrables dans le processus
délibératif d’un agent interactif. Contrairement à leur objectif initial, elle montre la nécessité
d’intégrer l’humain dans le processus global afin d’enrichir les annotations avec de nouvelles
connaissances au niveau de la tâche et du dialogue. L’intervention humaine peut être directe de
façon manuelle ou semi-automatique (e.g., [Orkin 2010, Ales 2012]). Elle peut également être
indirecte via l’usage d’outils d’annotation automatique entraînés sur des annotations effectuées
par des humains (e.g., [Stolcke 2000] en annotation automatique d’actes de dialogue).
À la lumière de ces résultats, notre méthodologie vise à représenter un corpus de traces sous
forme matricielle via une étape d’enrichissement du corpus réalisée par intervention humaine directe
ou indirecte. Cette forme matricielle permet l’extraction de motifs récurrents définis comme
une séquence d’annotations dont l’arrangement se produit dans plusieurs traces [Ales 2012]. Ces
régularités doivent ensuite être exploitées pour spécifier des structures de plus haut niveau.
Ce document se focalise sur les interactions dialogiques entre les participants et vise la
production d’un modèle d’interaction pour un agent interactif capable de s’intégrer dans un
processus délibératif plus général intégrant le niveau de la tâche (représenté par les traits pleins
sur la figure 1). L’application de la méthodologie dans cette thèse se décompose en étapes pré-
sentées en figure 2 [Ales 2012]. Elle est fondée sur la collecte d’un corpus de dialogues à partir
Collecte
et
numérisation
signaux bruts
Transcription
et
codage
dialogues
bruts
dialogues
annotés
Extraction
de
régularités
modèle
Annotation
Figure 2: Étapes de notre méthodologie basée sur un corpus de dialogues [Ales 2012]
d’une expérimentation impliquant des utilisateurs visés par le futur système. La collecte peut
être effectuée en format audio, vidéo ou directement textuel (e.g., via un chat). Puisque notre
méthodologie est ascendante, les expérimentations doivent dépendre de la tâche visée par le futur
agent. Nous encourageons l’usage de corpus de dialogues finalisés (i.e., orientés vers la réalisation
d’une tâche précise). L’étape de transcription permet de transcoder les données brutes dans un
format exploitable pour l’analyse. Elle permet de conserver un certain niveau de détails (énoncé,
prosodie, pauses, etc.). Les caractéristiques à conserver dépendent des phénomènes que l’agent
doit exhiber. L’étape d’annotation est l’étape d’enrichissement du corpus réalisée de manière
directe ou indirecte par intervention humaine. Elle permet d’ajouter des connaissances en fonction
de critères définis par un schéma d’annotation prédéfini (e.g., actes de dialogue, émotion,
etc.). Cette étape inclut généralement une phase de segmentation visant à décomposer le corpus
en unités définies par le schéma d’annotation choisi. À l’issue de cette étape, une représentation
multidimensionnelle de chaque unité d’interaction est obtenue, conduisant à l’obtention
d’une représentation matricielle du corpus. Les motifs d’interaction sont extraits par la suite,
et constituent la base du modèle d’interaction de l’agent. Compte tenu de notre représentation
matricielle, un motif dialogique est défini comme une séquence d’annotations dont l’arrangement
se produit dans plusieurs dialogues.5
Motifs d’interaction et structure du dialogue
Notre étude se concentre sur l’extraction et la modélisation de motifs récurrents dans les
traces d’interaction dialogique appelés motif d’interaction ou motif dialogique. Allwood constate
trois types de régularités dans le dialogue [Allwood 1994] : (i) celles qui dépendent des relations
au sein d’un énoncé entre ses différentes parties, (ii) celles qui dépendent des relations entre
énoncés, (iii) et celles qui dépendent des relations entre des facteurs globaux et les énoncés. Ici,
énoncé est à prendre au sens d’unité de conversation. Les régularités qui nous intéressent sont
celles qui dépendent des relations entre les énoncés. Autrement dit, un motif dialogique est une
séquence ordonnée d’énoncés qui réapparaît fréquemment dans plusieurs dialogues (par exemple,
une paire question/réponse) [Hulstijn 2000a].
L’étude des corpus de dialogues Homme-Homme fait apparaître un certain nombre de motifs
dialogiques identifiables par des caractéristiques de surface des énoncés (voir, e.g., [Levin 1977,
Mann 1988, Hulstijn 2000b, Pauchet 2006]). Parmi ces études, les plus influentes proviennent
du champ de l’analyse de la conversation [Schegloff 1973, Sacks 1974]. Ce dernier se concentre
sur l’étude de corpus de conversations retranscrites, sans a priori théorique tel que des schémas
d’annotation. Le but est de produire une analyse objective issue de l’observation de régularités
dans les corpus. L’analyse conversationnelle a notamment mis en avant la notion de tour de parole
et a décrit précisément le processus de gestion de tour de parole entre les interlocuteurs. Ces
travaux sont généralement utilisés comme point de départ dans les systèmes de dialogue HommeMachine
(voir, e.g., [Kronlid 2008]). Ce champ a également montré que les énoncés ont tendance
à intervenir sous forme de paires dans une conversation : les paires adjacentes [Schegloff 1973].
L’exemple classique est la paire question/réponse. Selon [Schegloff 1973], les paires adjacentes
ont les propriétés suivantes : (i) Elles consistent en deux énoncés ordonnés : la première partie
et la seconde partie. (ii) Les deux parties sont produites par des locuteurs différents. (iii) Chaque
partie est typée de manière à spécifier quelle partie vient en premier et laquelle en second. (iv) La
forme et le contenu de la seconde partie dépendent du type de la première partie. (v) Étant
donnée la première partie, la seconde partie de la paire est conditionnellement pertinente –
i.e., pertinente et prévisible – en tant qu’énoncé suivant. Ces observations ont conduit certains
chercheurs à proposer l’idée plus large d’organisation préférentielle [Levinson 1983]. L’idée est
que les secondes parties des paires adjacentes peuvent être classées selon un ordre préférentiel.
Cet ordre est lié au caractère habituel de l’énoncé. Publiquement, les initiateurs d’une paire
préfèrent son accomplissement à sa modification, sa modification à son refus et son refus à
sa non-considération. Le tableau 1 présente quelques exemples d’organisation préférentielle de
paires adjacentes.
Première partie Question Requête Offre
Seconde partie
. . . préférée Réponse attendue Acceptation Acceptation
. . . non-préférée Réponse inattendue Refus Refus
Tableau 1: Organisation préférentielle des paires adjacentes
Le champ de l’analyse de la conversation est fécond. Il a produit de nombreux résultats dont
la mise en avant de la notion de paire adjacente, le motif d’interaction dialogique minimal. Il
a également montré la structuration de la conversation sous forme de combinaisons de paires
adjacentes (pré-séquence et emboîtement). Cette approche est descriptive et l’utilisation directe6 Introduction
de ces résultats est difficile. Elle montre néanmoins que le dialogue est un objet structuré sans
imposer pour autant une structure rigide. L’idée pour un modèle de dialogue est de produire des
structures qui vont expliquer l’émergence de structures telles que celles mises en avant par l’analyse
de la conversation. Localement, le dialogue est structuré au niveau des paires adjacentes.
Au niveau intermédiaire, le dialogue est structuré par les combinaisons de séquences. Globalement,
le dialogue est structuré par l’agencement des séquences (e.g., salutations/réalisation de
la tâche/clôture).
Notre problématique
Comme nous l’avons déjà dit, cette thèse vise à observer et modéliser les motifs d’interaction
dans l’objectif de leur intégration dans une architecture d’agent délibératif interagissant avec
un humain. En outre, les questions centrales de cette thèse sont : sur quelle base théorique
peut-on interpréter ces motifs d’interaction ? Ces motifs d’interaction ont-ils un intérêt pour la
modélisation du dialogue pour un agent interactif ? Si oui, quelles sont les structures adaptées à
la modélisation des motifs d’interaction pour produire un modèle de l’interaction pour un agent
en interaction avec un humain ?
Le point défendu est que les motifs récurrents sont les manifestations de conventions d’interactions
dialogiques observées dans et parfois au-delà du corpus. Les conventions d’interaction
dialogiques sont alors l’objet d’étude privilégié. Nous défendons l’intérêt de la modélisation de
ces motifs récurrents dans le cadre plus général de la modélisation des conventions dialogiques.
La gestion de l’interaction avec un utilisateur humain pour la réalisation d’une tâche est alors
conçue comme mêlant deux niveaux : un haut niveau constitué de raisonnements délibératifs, et
un bas niveau constitué de comportements réactifs guidés par les conventions dialogiques. Dans
cette optique, il est possible de concevoir un modèle conventionnel des interactions enrichi par
les motifs récurrents observés dans plusieurs corpus. Ce modèle peut être exploité par un agent
en interaction avec un humain pour gérer la part conventionnelle de l’interaction.
Plan de la thèse
Ce document est constitué de trois parties. La première partie présente notre positionnement
par rapport à certains travaux antérieurs. Nous y parcourons les différentes approches de
modélisation du dialogue pour parvenir à la conclusion de la nécessité d’aller vers des approches
mixtes. Nous nous intéressons en particulier à la métaphore des jeux de dialogue qui semble
prometteuse pour ce genre d’approche. La deuxième partie décrit les étapes de recueil, d’annotation
et d’extraction de motifs d’interaction de notre méthodologie appliquées à un corpus de
dialogues entre un expert et un utilisateur pour une tâche de recherche d’information dans le
domaine médical. La troisième partie présente le formalisme adopté pour modéliser les conventions
d’interaction dialogique basé sur les jeux de dialogue. Nous définissons les jeux de dialogue
correspondant aux motifs que nous avons extraits. Puis nous présentons la mise en œuvre de
Dogma 3
: un module normatif de l’interaction conventionnelle basé sur les jeux de dialogue et
utilisable par un agent interactif pour la gestion de la part conventionnelle du dialogue.
Ces trois parties se décomposent en les 7 chapitres suivants :
3. Dogma pour « DialOgue Game MAnager »7
— Le chapitre 1 introduit des notions indispensables à la modélisation du dialogue pour
l’interaction Homme-Machine. Il détaille les caractéristiques du dialogue Homme-Homme
qui entrent en jeu dans nos travaux. Nous nous intéressons à la théorie des actes de langage,
fondement des modèles de l’énoncé en intelligence artificielle. Nous soulignons l’intérêt de
passer à une approche contextuelle des actes de dialogue.
— Le chapitre 2 présente deux grandes catégories d’approche de modélisation du dialogue
qui diffèrent par leur interprétation des motifs d’interaction. Les approches intentionnelles
interprètent ces régularités comme la preuve d’un plan de la part des interlocuteurs tandis
que les approches conventionnelles les voient comme des conventions établies. Après
avoir exposé des exemples représentatifs de chacune de ces approches, nous soulignons les
arguments en faveur de leur complémentarité.
— Le chapitre 3 présente les approches mixtes qui cherchent à combiner les avantages des
approches intentionnelles et conventionnelles. Nous nous concentrons sur la métaphore
des jeux de dialogue qui vise à définir une structure permettant de formaliser les motifs
d’interaction observés dans des conversations humaines en vue de leur intégration dans un
processus délibératif. Nous défendons l’intérêt d’aller vers une architecture d’agent mixte
réactive/délibérative basée sur les jeux de dialogue vus comme structure d’engagements.
— Le chapitre 4 illustre les phases de récolte et de transcription de notre méthodologie sur
le corpus Cogni-CISMeF. Les entretiens du corpus sont décrits par l’exposition d’une
structure haut niveau commune, relative à la tâche de recherche d’information collaborative.
— Le chapitre 5 présente la réalisation des processus d’annotation du corpus Cogni-CISMeF
et d’extraction de motifs dialogiques sur le corpus annoté. Les résultats de chacun de ces
processus sont analysés et récapitulés. La réalisation de ces étapes conduit à la constitution
d’une bibliothèque de motifs d’interaction récurrents prenant majoritairement la forme de
paires adjacentes.
— Le chapitre 6 expose un cadre pour modéliser les motifs dialogiques observés dans le
corpus Cogni-CISMeF, basé sur l’approche des jeux de dialogue comme structure d’engagements.
La spécification des jeux de dialogue depuis les motifs dialogiques que nous
avons extraits est illustrée. Ces jeux forment la base du modèle d’interaction d’un agent
interactif. La couverture de ces jeux est validée face au corpus de référence conservé à cet
effet lors du processus d’extraction.
— Le chapitre 7 montre l’intérêt des jeux de dialogue pour la gestion du comportement
communicatif conventionnel d’un agent interactif. Il présente la mise en œuvre du modèle
dans Dogma, un module basé sur les jeux de dialogue exploitable par un agent interactif
afin de réguler son comportement communicatif. Des exemples illustrant le fonctionnement
du module sont exposés. Nous décrivons plusieurs scénarios d’évaluation pour Dogma à
moyen et long terme. Puis, nous donnons quelques pistes pour l’intégration de ce système
dans le processus délibératif d’un agent interactif.Première partie
PositionnementChapitre 1
Fondements pour la modélisation du
dialogue
Sommaire
1.1 Généralités sur le dialogue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.1.1 Le dialogue est une activité conjointe et opportuniste . . . . . . . . . . . . . . 11
1.1.2 Gestion de la tâche sous-jacente et gestion de la communication . . . . . . . . 14
1.2 Actes de langage et actes de dialogue . . . . . . . . . . . . . . . . . . . . . . . 16
1.2.1 Actes de langage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2.2 Des actes de langage aux actes de dialogue . . . . . . . . . . . . . . . . . . . 19
1.3 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Ce chapitre introduit les notions indispensables à la modélisation du dialogue pour l’interaction
Homme-Machine. La section 1.1 se concentre sur la présentation des caractéristiques
importantes du dialogue dans cette optique. Puis, nous abordons en section 1.2 la théorie des
actes de langage qui est à la base du modèle de l’énoncé dominant en intelligence artificielle.
Enfin, nous dressons une synthèse en section 1.3 qui apporte un regard critique sur la théorie
des actes de langage à la lumière des caractéristiques du dialogue que nous avons présentées.
1.1 Généralités sur le dialogue
Dans cette section, nous présentons les caractéristiques importantes du dialogue HommeHomme
pour la modélisation de l’interaction Homme-Machine à propos d’une tâche. Nous limitons
nos considérations au dialogue à deux participants. Le but de cette section est de présenter
un ensemble de notions utilisées dans la suite du manuscrit. Dans un premier temps, nous voyons
que le dialogue est une activité conjointe où les interlocuteurs cherchent à se coordonner (cf.
section 1.1.1). Nous soulignons la vision opportuniste du dialogue qui insiste sur le fait que le
dialogue est co-construit et co-contrôlé par les interlocuteurs. Puis, nous traitons de la multidimensionnalité
du dialogue (cf. section 1.1.2). Le dialogue sert à gérer la tâche sous-jacente
mais également l’interaction en elle-même. Conséquence de la multidimensionnalité du dialogue,
nous constatons que les énoncés des interlocuteurs sont souvent multifonctionnels et abordent
plusieurs dimensions de la gestion du dialogue simultanément.
1.1.1 Le dialogue est une activité conjointe et opportuniste
Les activités conjointes sont un type particulier d’activités collectives (une activité dans
laquelle plusieurs individus prennent part). Pour Clark [Clark 1996] (p. 37-38), une activité12 Chapitre 1 : Fondements pour la modélisation du dialogue
conjointe est une activité : (i) qui est effectuée par deux participants ou plus ; (ii) dans laquelle
les participants jouent un rôle public ; (iii) dans laquelle les participants essayent d’établir et
d’atteindre des buts publics ; (iv) dans laquelle les participants peuvent poursuivre des buts
privés ; (v) qui est composée d’actions ou d’activités conjointes ; (vi) dans laquelle les participants
sont susceptibles d’utiliser des procédures spécifiques pour atteindre leurs buts ; (vii) dans
laquelle les participants s’accordent sur un début et une fin ; (viii) qui peut être simultanée ou
séquencée. L’exemple classique d’une activité conjointe est celle d’un duo en musique.
Les activités conjointes se décomposent en actions conjointes. Ces dernières sont elles-même
constituées d’actions individuelles. Celles-ci peuvent se décomposer en deux sous-types qui se
différencient par la notion clé de coordination : les actions autonomes et les actions participatives.
L’individu qui réalise une action autonome ne cherche pas à se coordonner avec un autre
participant. Au contraire, une action conjointe requiert la coordination des actions individuelles
de deux personnes ou plus, i.e. répondre à la question « qui fait quoi et quand ? ». Une action
conjointe est donc plus que la somme des actions individuelles. Au-delà même de la coordination,
un individu qui agit conjointement doit prendre en compte les actions des autres participants et
les considérer comme faisant partie de l’action conjointe. Ces actions individuelles d’une action
conjointe sont les actions participatives.
[Clark 1996] suggère qu’une action conjointe peut être coordonnée parce qu’elle peut se
voir attribuer : (i) une entrée dans l’action conjointe, (ii) un corps, i.e. l’action conjointe en
elle-même, et (iii) une sortie de l’action conjointe. Autrement dit, les participants doivent aller
d’un état où ils ne sont pas engagés dans l’action conjointe, à un état où ils y sont engagés
puis de nouveau dans un état hors de l’action conjointe. Dans une telle action, les participants
doivent se coordonner sur ces trois caractéristiques. Pour assurer la synchronisation de leurs actions,
les participants doivent se coordonner sur l’entrée et la sortie de chaque action conjointe.
Selon [Clark 1996], les participants y arrivent en suivant des stratégies de coordination (cadence,
enchaînement, . . . ) qui sont caractérisées par le principe de synchronisation : dans les
activités conjointes, les participants synchronisent leurs processus principalement en coordonnant
les temps d’entrée et les actions participatives pour chaque action conjointe. Autrement
dit, les actions conjointes sont principalement organisées autour de leurs entrées et des actions
participatives attendues.
Clark avance l’idée de projet conjoint. Un projet conjoint est une action conjointe proposée
par un des participants qui peut être acceptée et réalisée par tous (ou bien refusée). Considérons
les deux énoncés du dialogue 1.1 qui forment une paire adjacente. Celle-ci peut être vue comme
la réalisation de l’activité conjointe suivante :
1. S et H participe à un échange d’information.
2. S participe à 1 en posant une question.
3. H participe à 1 en répondant à la question.
S1 : ca date de quand ça ?
H2 : oh il est de 82
Dialogue 1.1 – Un exemple de projet conjoint d’échange d’information (entretien VD06)
Selon Clark, la première partie de l’échange est une question qui forme une proposition
d’entrée dans un projet conjoint. Elle établit les participants (le locuteur et son interlocuteur),1.1. Généralités sur le dialogue 13
le temps d’entrée (marqué par la réalisation de la question) et enfin le contenu de l’action
conjointe. En outre, la question produite est également l’action participative de l’interlocuteur S
attendue dans l’action conjointe. La réponse à la question réalise l’acceptation du projet conjoint
en plus de la réalisation de l’action participative attendue. Les projets conjoints mettent en avant
le fait que le dialogue est contrôlé conjointement par les interlocuteurs : l’entrée dans un projet
commun requiert l’engagement des deux participants. L’auteur va même plus loin en posant
que les paires adjacentes sont les projets communs minimaux. L’idée est qu’une paire adjacente
établit avec un effort conjoint minimum les participants, le temps d’entrée et le contenu de
l’action conjointe. Les participants sont établis par l’initiateur de la première partie de la paire
et son destinataire. Le temps d’entrée est marqué par le déclenchement de la première partie
de la paire. Le contenu est déterminé par la première partie de la paire et la seconde partie
attendue.
Enfin, Clark défend une vision opportuniste du dialogue : les participants s’engagent dans une
activité conjointe complexe sans pouvoir connaître à l’avance ce qu’ils vont y faire. Le dialogue
est vu comme une activité dans laquelle les actions des participants sont locales et opportunistes.
Pour Clark, le dialogue est contrôlé conjointement par les interlocuteurs via des projets
conjoints. Il émerge alors sous la forme de projets communs étendus. Ces derniers sont obtenus
par combinaison de projets communs minimaux, i.e. les paires adjacentes. Le champ de l’analyse
de la conversation fait apparaître que la stricte adjacence n’est pas toujours respectée. Les paires
adjacentes sont en fait utilisées pour créer des séquences plus longues via des combinaisons de
séquences : la pré-séquence et l’emboîtement. Les pré-séquences sont des séquences qui préparent
une autre séquence en vérifiant que des conditions préparatoires sont vérifiées (e.g., pré-question,
pré-invitation, pré-requête). Le dialogue 1.2 présente un exemple de pré-séquence de clôture.
S1 : Est-ce que vous voudriez préciser quelque chose ?
H2 : Non c’est bon
S3 : donc on va s’arrêter là
H4 : Ok.
Dialogue 1.2 – Exemple de pré-séquence de clôture (entretien AL06). La séquence d’énoncés [1;2]
prépare la séquence d’énoncés [3;4].
Les séquences emboîtés 1
sont des exemples typiques qui ne respectent pas l’adjacence stricte.
Classiquement, elles prennent la forme d’une ou plusieurs séquences s’emboîtant entre deux parties
d’une paire adjacente (e.g., pour introduire une clarification, une explication, une reformulation).
Le dialogue 1.3 présente un exemple d’emboîtement de paires adjacentes.
S1 : Tu viens au cinéma avec nous ce soir ?
H2 : Vous allez voir quel film ?
S3 : On va voir « Holy Motors ».
H4 : OK, je viens.
Dialogue 1.3 – Exemple de séquences emboîtées. Entre la première partie de paire S1 et la seconde
partie H4 est emboîtée la séquence [2;3].
Enfin, Clark propose la notion d’enchaînement [Clark 1996]. L’idée est que la seconde partie
1. Traduction de « Side sequence ».14 Chapitre 1 : Fondements pour la modélisation du dialogue
d’une paire forme généralement la première partie d’une autre. Le dialogue 1.4 présente un
exemple de séquence en trois temps de type question/réponse/évaluation.
S1 : donc c’est des douleurs articulaires à quel niveau ?
H2 : au niveau des genoux et autres
S3 : d’accord
Dialogue 1.4 – Exemple de séquences enchaînées (entretien AL06) de type question/réponse/é-
valuation.
Ainsi, les projets communs minimaux jouent le rôle de briques minimales dans la construction
d’une interaction étendue.
En résumé, le dialogue peut être vu comme une activité conjointe opportuniste [Clark 1996].
Plus précisément, le dialogue implique la combinaison d’actions conjointes à différents niveaux.
1.1.2 Gestion de la tâche sous-jacente et gestion de la communication
Axe régissant et axe incident
La complexité de l’étude et de la modélisation du dialogue est due à l’une de ses grandes
forces : le dialogue sert à faire progresser la tâche qui le motive, mais surtout il est utilisé pour
la gestion des processus de communication. En d’autres termes, le dialogue sert à gérer la tâche
sous-jacente, et le dialogue en lui-même !
À ce sujet, Luzzati distingue deux axes de déroulement du dialogue [Luzzati 1989]. L’axe
régissant est dédié à la réalisation de la tâche tandis que l’axe incident est dédié à la gestion de
l’interaction (e.g., les sous-dialogues de clarification). En cas de problème de communication, le
dialogue change d’axe pour passer sur l’axe incident. On parle alors de dialogue incident (e.g., les
deux derniers tours de parole de : « Je m’appelle Guillaume. – Pardon ? – Je suis Guillaume. »).
Clark propose la notion de track qui affine la vision proposée par Luzzati [Clark 1996]. Soulignons
la présence de deux tracks : la première pour gérer la tâche sous-jacente (ce que Clark
nomme l’« official business »), et la deuxième pour gérer la communication qui a lieu sur la
track 1. Il précise que ces tracks sont récursives mais dépassent rarement les profondeurs 3 ou
4. Enfin, il note que la présence de meta-communication n’a pas pour unique but de corriger
des problèmes. Au contraire, les interventions meta-communicatives sont systématiques et essentielles
au bon déroulement de la communication. Il note la présence de signaux spécialement
dédiés à la meta-communication comme les « ok », « mmh mmh », les hochements de tête, les
sourires, etc. Ainsi, il ne faut pas réduire la meta-communication à une vision simpliste où
le dialogue se déroulerait en segment strictement sur un axe ou l’autre. Les signaux produits
recouvrent généralement les deux axes.
La dissociation entre les deux axes de déroulement du dialogue est une première étape vers la
considération de sa complexité. Mais la gestion de la communication intègre différents processus
qui peuvent intervenir sur plusieurs niveaux.
Processus de gestion de l’interaction et niveaux
La gestion de l’interaction fait apparaître différents processus. Allwood propose le concept
d’« Interactive Communication Management (ICM) » pour désigner la communication en rapport
avec la gestion de l’interaction dialogique [Allwood 1995]. Il distingue la gestion des tours1.1. Généralités sur le dialogue 15
de parole, la structuration du dialogue (comme l’introduction de sujet de discussion, e.g., « Abordons
la question de l’interopérabilité des systèmes ») et les feedbacks (signaux de retour). En
plus de l’ICM, il distingue une dimension de gestion de la communication personnelle 2 dé-
diée aux processus que le locuteur met en jeu lors de la production de son énoncé (e.g., des
auto-corrections). Bunt divise la gestion de l’interaction en plusieurs dimensions [Bunt 2009]. Il
considère les dimensions de feedbacks, de structuration du dialogue, de gestion de tour de parole
et de gestion de la communication personnelle envisagées par Allwood. Il ajoute la gestion du
temps (e.g., les pauses), la gestion du contact, la gestion de la communication du partenaire
(e.g., la complétion d’une réponse).
Plusieurs auteurs ont mis en évidence le fait que ces processus interviennent sur plusieurs niveaux.
Allwood liste quatre niveaux sur lesquels peut intervenir la gestion de la communication :
le contact (gestion de l’attention), la perception, la compréhension et le niveau de réaction [Allwood
1995]. De la même manière, Clark indique que l’usage du langage implique au moins quatre
niveaux différents d’actions conjointes [Clark 1996] présentés dans le tableau 1.1.
Niveau Action du locuteur (A) Action de l’allocutaire (B)
4 A propose un projet conjoint w à B B considère la proposition w de A
3 A signifie p à B B comprend p
2 A présente un signal s à B B identifie s
1 A exécute un comportement c pour B B est attentif à c
Tableau 1.1: Niveaux de la gestion de l’interaction selon Clark [Clark 1996]
Le niveau 1 est le niveau de gestion de l’attention. Les interlocuteurs s’assurent qu’ils sont en
mesure de percevoir les messages des participants du dialogue. Le niveau 2 peut être vu comme
le niveau de perception, tandis que le niveau 3 est celui de la compréhension. Enfin le dernier
niveau consiste en la proposition d’une action conjointe considérée par le partenaire. Selon
Clark, ces niveaux forment une échelle d’actions avec les propriétés de causalité ascendante, de
réalisation ascendante et d’évidence descendante. La causalité ascendante spécifie que les actions
d’un niveau inférieur sont exécutées afin de réaliser les actions du niveau supérieur. Ainsi, B est
attentif au comportement de A afin de pouvoir identifier le signal présenté par A, et ainsi de
suite jusqu’au niveau 4. Cette propriété conduit à celle de « réalisation ascendante » qui stipule
que les actions ne peuvent être réalisées que du niveau le plus bas vers un des niveaux supérieurs
dans l’échelle d’actions. Pour finir, cette dernière propriété implique l’évidence descendante :
dans une échelle d’actions, l’évidence de réussite d’un niveau est également la preuve de réussite
des niveaux qui lui sont inférieurs. Ainsi, comprendre une question (niveau 3) implique que la
question a été perçue (niveau 2) et que le contact a été établi (niveau 1). Cependant, la question
peut ne pas être acceptée (niveau 4).
Bunt affine ces niveaux et considère : l’attention, la perception, l’interprétation, l’évaluation
et l’exécution [Bunt 2009]. Selon nous, les niveaux d’interprétation et d’évaluation sont à rapprocher
du niveau de compréhension de Clark (niveau 3). Il s’agit de comprendre le signal d’un
point de vue sémantique (établir la fonction communicative et le contenu sémantique) et pragmatique
(e.g., la question a-t-elle déjà été répondue ?). Ces niveaux sont préparatoires au niveau
d’exécution qui correspond au niveau de considération chez Clark, et de réaction chez Allwood.
Le dialogue est multidimensionnel : il est utilisé pour faire progresser sa tâche sous-jacente et
2. Traduction de « Own Communication Management » (OCM)16 Chapitre 1 : Fondements pour la modélisation du dialogue
différents processus de gestion de l’interaction. La prochaine section traite de l’impact de cette
multidimensionnalité sur les signaux produits par les interlocuteurs.
Multifonctionnalité des énoncés
Les énoncés de dialogue sont souvent multifonctionnels [Allwood 1992, Traum 1992,
Bunt 2011b] : un énoncé aborde plusieurs dimensions du dialogue simultanément. Cela est
principalement dû à la multidimensionnalité du dialogue qui est lui-même utilisé afin de gérer
la tâche sous-jacente (obtenir une information, négocier un accord, etc.) mais aussi l’interaction
(gestion des tours de parole, du contact, de la compréhension, etc.). Une étude empirique sur des
corpus de dialogues Homme-Homme a montré dans le plus contraignant des cas qu’en moyenne
un énoncé sur trois aborde deux dimensions du dialogue [Bunt 2011b]. « Le plus contraignant
des cas » est à comprendre au sens où un énoncé est la plus précise des unités segmentables dans
le dialogue. Le dialogue 1.5 présente un exemple d’énoncé multifonctionnel.
S1 : [. . . ] on peut enlever analyse
H2 : alors enlevons analyse
S3 : et diagnostic
H4 : oui
Dialogue 1.5 – Exemple de dialogue entremêlant avancement de la tâche et gestion de l’interaction
(entretien VD06)
Il est tiré de notre corpus de réalisation d’une tâche de recherche d’information entre un utilisateur
et un expert du moteur de recherche CISMeF. L’énoncé S1 est une suggestion d’ajouter
le mot-clé « analyse » à la requête. Elle est acceptée par l’énoncé H2. Remarquons que cette
acceptation est réalisée en répétant une partie de l’énoncé de suggestion. Stricto sensu, cette
répétition n’est pas indispensable comme le démontre l’énoncé H4 qui est une acceptation par
un simple « oui » à une suggestion de suppression du mot-clé « diagnostic » (énoncée en S3).
L’énoncé H2 est en fait sur les deux axes de communication : sur l’axe régissant, c’est une
acceptation d’une suggestion et sur l’axe incident, c’est un feedback positif précisant que la
suggestion a été perçue et comprise. C’est un énoncé multifonctionnel. Nous approfondissons la
question de la multifonctionnalité des énoncés lors du processus d’annotation de notre corpus
(cf. section 5.1.1).
La modélisation du dialogue nécessite la considération de ses constituants : les énoncés
échangés par les interlocuteurs. Intéressons-nous maintenant aux modèles existants permettant
leur modélisation.
1.2 Actes de langage et actes de dialogue
Dans cette section, nous présentons le modèle de l’énoncé dominant en intelligence artificielle :
l’acte de langage (cf. section 1.2.1). Nous soulignons l’inadéquation du modèle de l’acte de
langage pour la modélisation du dialogue Homme-Homme au regard des propriétés présentées
dans la section 1.1 (cf. section 1.2.2). Nous présentons une alternative qui consiste à considérer
plus généralement des actes de dialogue (cf. section 1.2.2).1.2. Actes de langage et actes de dialogue 17
1.2.1 Actes de langage
La théorie des actes de langage [Austin 1962,Searle 1969] issue de la philosophie du langage
est à la base de nombreux travaux en intelligence artificielle sur la modélisation du dialogue et des
systèmes de dialogue. L’idée fondatrice de cette théorie peut se résumer à la célèbre expression
« Dire c’est faire » [Austin 1962]. L’intérêt de cette théorie pour l’intelligence artificielle est que
l’usage de la langue peut être vu comme la réalisation d’une action « classique ».
Notion d’acte de langage
Austin remarque que les énoncés performatifs contiennent l’action qu’ils dénotent. Par
exemple, dire « Je baptise ce bateau le Queen Elizabeth » c’est faire l’action du baptême à
condition qu’on ait la légitimité de le faire. Pour Austin, tout énoncé est un acte appelé acte de
langage contenant trois composantes [Austin 1962] :
— l’acte locutoire : acte physique d’énonciation (le dire).
— l’acte illocutoire : acte qui traduit les intentions du locuteur envers son ou ses interlocuteurs
(le faire). La reconnaissance de l’acte illocutoire est appelée effet illocutoire [Searle 1969].
Les question, affirmation, suggestion sont des actes illocutoires et leurs reconnaissances
des effets illocutoires.
— l’acte perlocutoire : acte par lequel le locuteur cherche à produire des effets perlocutoires
(ou perlocutions) sur son interlocuteur. Les effets perlocutoires peuvent être voulus (e.g., la
réalisation de l’ordre « Ferme la porte ! ») ou non (e.g., éclatement de rire du destinataire
suite à une menace).
Ainsi, ordonner « Haut les mains ! » à un interlocuteur, c’est réaliser :
1. l’acte locutoire par l’énonciation de l’énoncé ;
2. l’acte illocutoire d’ordre dont l’effet illocutoire est la reconnaissance de cet ordre par l’interlocuteur
;
3. l’acte perlocutoire qui est l’acte par lequel le locuteur cherche à obtenir l’effet perlocutoire
(ici le fait que l’interlocuteur lève les mains).
Notons que la réalisation de l’effet perlocutoire est postérieure à la reconnaissance de l’acte
illocutoire (effet illocutoire). Ainsi, le partenaire peut très bien avoir reconnu l’ordre et refuser
de s’y soumettre. D’autre part, signalons que l’expression « acte de langage » est souvent utilisée
abusivement pour désigner l’acte illocutoire.
Apport de la logique illocutoire
À la suite d’Austin, Searle replace la théorie des actes de langage dans une théorie des
intentions [Searle 1969]. Énoncer une proposition résulte de l’intention de la produire tandis que
la comprendre c’est interpréter l’intention sous-jacente, dans le contexte où elle a été produite.
Il pose la notation fonctionnelle F(p) où p représente le contenu propositionnel et F la force
illocutoire appliquée à p. Ces travaux ont été poursuivis dans la formalisation d’une logique
illocutoire du discours [Searle 1985,Vanderveken 1990].
Il propose une taxonomie de forces illocutoires des actes de langage basée sur la notion de but
illocutoire. Le but illocutoire d’un acte illocutoire peut être vu comme l’effet perlocutoire public
voulu (e.g., faire faire quelque chose, engager le locuteur sur la réalisation d’une action, etc.).18 Chapitre 1 : Fondements pour la modélisation du dialogue
Notons qu’un locuteur accomplissant un acte illocutoire peut avoir d’autres buts perlocutoires
en plus du but illocutoire. Par exemple, un locuteur peut vouloir embarrasser une personne tout
en poursuivant le but illocutoire de lui faire faire quelque chose. De plus, chaque but illocutoire
peut être associé à une direction d’ajustement. La taxonomie est la suivante :
— Les assertifs qui servent à décrire des faits (e.g., « Il pleut. »). Le but est de rendre le
contenu propositionnel conforme au monde (direction « mots vers monde »).
— Les directifs qui visent à faire faire quelque chose à l’interlocuteur (e.g., « Sers moi une tasse
de café ! »). Le but est de rendre le monde conforme au contenu propositionnel (direction
« monde vers mots »).
— Les promissifs qui obligent le locuteur à réaliser une action (e.g., « Je te promets que je
viendrai »). Le but est de rendre le monde conforme au contenu propositionnel (direction
« monde vers mots »).
— Les déclaratifs qui rendent vrais des faits par leur simple énonciation (e.g., « Je vous déclare
unis par les liens sacrés du mariage »). La direction d’ajustement est double : le monde
s’ajuste au contenu propositionnel et réciproquement.
— Les expressifs qui expriment l’état d’esprit du locuteur (e.g., « Je suis désolé »). La direction
d’ajustement est vide.
Deux notions principales sont associées à un acte de langage : son succès et sa satisfaction.
Les conditions de succès d’un acte sont déterminées par sa force illocutoire et son contenu
propositionnel. Elles précisent les circonstances dans lesquelles le locuteur a réalisé l’acte avec
succès. Elles incluent des conditions préparatoires et des conditions de sincérité. Par exemple,
un certain nombre de conditions doivent être remplies avant de réaliser la requête « Ferme la
porte ! ». Le locuteur doit être sincère : il veut que la porte soit fermée. En outre, d’autres
conditions doivent être vérifiées comme le fait qu’il doit y avoir une porte et un interlocuteur.
Les conditions de satisfaction déterminent les circonstances dans lesquelles l’acte de langage
est satisfait. Ces circonstances sont décrites dans le contenu propositionnel de l’acte. Ainsi, un
acte est satisfait si son contenu propositionnel est rendu vrai selon la direction d’ajustement au
monde déterminée par son but illocutoire. Par exemple, une requête est satisfaite quand son
destinataire produit la situation décrite dans le contenu propositionnel de l’acte (dans notre cas,
s’il ferme la porte).
Actes de langage indirects
Les actes de langage indirects remettent en cause l’hypothèse selon laquelle il est possible de
déterminer le type d’un acte en se basant uniquement sur la forme de surface de l’énoncé (i.e.,
la forme linguistique). Un acte indirect est un acte non littéral accompli au moyen d’un autre
acte, appelé acte littéral. Cela inclut des exemples comme :
— « Il fait froid ! » dont l’acte littéral est de type assertif et dont l’acte indirect peut être,
par exemple, une requête pour fermer la fenêtre.
— « Est-ce que tu peux me passer le sel ? » qui prend la forme d’une question mais est très
certainement une requête.
Une observation intéressante est qu’il est possible de répondre aussi bien à l’acte littéral,
l’acte indirect ou aux deux en même temps ! [Clark 1996] (pp. 216–218). Ainsi, il paraît tout
à fait possible d’acquiescer l’assertion « Il fait froid ! », d’acquiescer l’assertion et de fermer la1.2. Actes de langage et actes de dialogue 19
fenêtre, ou de simplement fermer la fenêtre. L’objet d’un modèle de dialogue incluant des actes
de langage indirect est de préciser sur quelle base ces inférences peuvent être faites.
1.2.2 Des actes de langage aux actes de dialogue
Dans cette section, nous présentons un regard critique sur les actes de langage classiques.
Face aux difficultés rencontrées par les actes de langage, nous présentons une vision alternative :
l’approche contextuelle. Nous voyons ensuite comment cette approche contextuelle est mise à
profit par les actes de dialogue.
Critique des actes de langage
La théorie des actes de langage est celle qui s’est imposée afin de représenter les unités
conversationnelles (i.e., les énoncés) en intelligence artificielle. Cependant, la prise en compte
du cadre dialogique soulève un certain nombre de problèmes. Nous soulignons en particulier les
point suivants :
— le caractère non monologique du dialogue : les interlocuteurs sont engagés dans une activité
conjointe complexe (cf. section 1.1.1). L’allocutaire n’est pas un auditeur passif (voir, e.g.,
la notion d’uptake [Austin 1962,Clark 1996]).
— le caractère multidimensionnel du dialogue : le dialogue sert à gérer la tâche sous-jacente
mais aussi l’interaction elle-même (cf. section 1.1.2).
— le caractère multifonctionnel des énoncés : dès que le caractère multidimensionnel du dialogue
est pris en compte, on constate que les énoncés peuvent réaliser plusieurs actes
communicatifs contrairement à ce que prétend la théorie des actes de langage (cf. section
1.1.2).
La prise en compte de la multidimensionnalité du dialogue et de la multifonctionnalité pose
problème aux approches traditionnelles des actes de langage. Ces approches se sont principalement
intéressées au cas idéalisé où les processus de gestion de l’interaction n’interviennent pas.
Cela a conduit certains chercheurs à s’orienter vers l’approche contextuelle des actes de langage
qui permet de prendre plus largement en compte le contexte du dialogue plutôt que de se limiter
aux intentions et croyances des interlocuteurs.
Contexte du dialogue
La notion de contexte du dialogue a été étudiée par différents auteurs (e.g., [Clark 1996,
Bunt 2000,Ginzburg 2012]). La définition qui nous semble la plus claire et la plus intéressante
pour notre travail est celle de Bunt [Bunt 1996, Bunt 2000, Bunt 2011a]. Elle est issue d’un
travail liant à la fois l’analyse de dialogue et la conception de système de dialogue. Bunt définit
le contexte du dialogue de la manière suivante :
« Le contexte du dialogue est la totalité des conditions qui influencent l’interprétation
ou la génération d’énoncés dans le dialogue. » [Bunt 2000]
Notons tout d’abord que cette notion de contexte dépasse amplement le cadre du contexte en
linguistique qui est généralement réduit au co-texte. Cette définition inclut un grand nombre
de facteurs généraux qui peuvent influencer le comportement communicatif d’un interlocuteur
comme sa fatigue ou son éventuelle animosité pour l’autre interlocuteur.20 Chapitre 1 : Fondements pour la modélisation du dialogue
Pour rendre cette notion plus tractable, Bunt différencie le contexte global (qui ne peut
pas être changé par le dialogue) du contexte local (qui peut être changé par le dialogue). Plus
précisément, le contexte local est défini de la manière suivante :
« Le contexte local est la totalité des conditions qui peuvent être changées par l’interprétation
d’énoncés du dialogue. » [Bunt 2011a]
Le temps qu’il fait (soleil, pluie, . . . ) fait partie du contexte global tout comme le fait que le
dialogue prenne place entre un médecin et un patient, que le dialogue soit un débat philosophique
ou un dialogue de réservation de billet de train, etc. En contrepartie, l’historique du dialogue
courant fait partie du contexte local puisqu’il est changé par le cours du dialogue.
Bunt propose de diviser le contexte en cinq catégories [Bunt 1996] : cognitif, physique et
perceptuel, social, sémantique et linguistique. Pour chaque catégorie, il faut distinguer l’aspect
global « figé » de l’aspect local « dynamique ».
D’un point de vue global, le contexte cognitif inclut le but qui a motivé l’entrée dans le
dialogue appelée la tâche sous-jacente. Il contient également un modèle des autres participants
au dialogue tels que leurs identités, leurs capacités communicatives (machine, enfant, adulte,
. . . ), leurs niveaux d’expertise vis-à-vis de la tâche sous-jacente (e.g., qui peuvent dépendre
de la relation patient/docteur, élève/professeur, client/vendeur, etc.). À un grain plus fin, ce
contexte inclut la représentation des croyances attribuées aux interlocuteurs relativement à la
tâche et aux processus de communication. Par exemple, il peut représenter les problèmes qui
peuvent intervenir à certains niveaux dans les processus de reconnaissance et de génération des
interlocuteurs du participant au dialogue. C’est ce contexte local qui indique la présence d’un
problème de perception du dernier énoncé.
Le contexte physique et perceptuel représente la situation de dialogue. Globalement, il s’agit
d’un ensemble de paramètres qui ont une influence directe sur la disponibilité des canaux communicatifs
et perceptuels. Certains paramètres comme la co-présence, la visibilité et l’audibilité
des partenaires, ont une influence sur les modalités de communication comme les gestes, les
regards, la parole. Ainsi, un dialogue face à face (en co-présence) permet aux interlocuteurs
de s’exprimer via des gestes, des regards, et bien sûr la parole. Tandis qu’un dialogue téléphonique
(médiatisé) réduit les moyens d’expression à la parole. Localement, ce contexte inclut
des informations comme la présence, l’attention et la disponibilité des partenaires de l’activité
dialogique.
Le contexte social représente les droits, obligations et contraintes relatifs aux aspects sociaux
du dialogue. Cela inclut des conventions dialogiques (e.g., « de rien » après un remerciement) et
aussi la relation sociale des participants (élève/professeur, client/vendeur, etc.).
Les contextes sémantique et linguistique regroupent des conditions principalement dynamiques.
Le contexte sémantique contient les informations relatives à l’état de la tâche sousjacente
au dialogue. Au niveau local, le contexte d’un individu représente sa perception de la
tâche en cours, ainsi que ses objectifs courants en rapport avec cette tâche. Enfin, le contexte
linguistique représente l’état du dialogue. C’est-à-dire qu’il inclut les événements communicatifs
passés (historique du dialogue) et les événements communicatifs en cours de réalisation (e.g., la
production d’un énoncé d’un participant du dialogue).
Approche contextuelle des actes de langage
L’approche contextuelle des actes de langage emprunte la vision de la théorie des actes de
langage selon laquelle l’usage de la langue peut être vu comme la réalisation d’actions commu-1.2. Actes de langage et actes de dialogue 21
nicatives. Cela a conduit aux approches contextuelles [Hamblin 1970,Bunt 1996,Bunt 2000] ou
« information-state approach » [Larsson 2000b,Traum 2003]. Ces approches envisagent les effets
des actes en terme de changement sur les états d’information ou contexte des participants. Autrement
dit, les actions communicatives sont des fonctions de contexte vers contexte [Bunt 1996].
L’idée est de se concentrer sur le contexte dans lequel l’acte est survenu en plus de sa forme
de surface. L’acte est ensuite utilisé pour mettre à jour le contexte. Ainsi, un énoncé comme
« Sais-tu quelle heure il est ? » peut en fonction du contexte être interprété comme une véritable
question ou une menace (le destinataire est en retard à son rendez-vous). S’il est interprété
comme une question, le destinataire met alors à jour son état d’information en incluant le fait
qu’une question demandant s’il connaît l’heure a été posée par son partenaire. Néanmoins, si le
locuteur a utilisé cet énoncé pour reprocher le retard de son interlocuteur, l’état d’information
sera mis à jour sur la base du reproche. Dans ce cas, il est possible que l’état d’information ne
contienne pas le fait qu’une question sur l’heure a été explicitement posée.
Selon Bunt [Bunt 1996, Bunt 2009], l’acte de langage est une fonction communicative (e.g.,
une question, un reproche, une requête) appliquée à un contenu sémantique. La fonction communicative
exprime ce que le locuteur tente de réaliser, et le contenu sémantique décrit l’information
qui est traitée. De manière plus formelle, un acte de dialogue est un opérateur de mise à jour
de l’état d’information produit par l’application d’une fonction communicative à un contenu
sémantique.
Il est intéressant de noter que ce qui différencie l’approche « classique » des actes de langage
et l’approche contextuelle tient au contenu de l’état d’information. Si celui-ci se résume aux
croyances et intentions de l’ensemble des interlocuteurs, l’approche contextuelle se transforme
en une reformulation de la théorie classique. L’approche contextuelle devient particulièrement
intéressante lorsque le contexte est plus large et englobe plusieurs aspects de la multidimensionnalité
du dialogue (cf. section 1.1.2). En fonction de ce que représente le « contexte », on parle
d’acte de langage ou bien d’acte de dialogue.
Actes de dialogue
Les actes de dialogue tentent de dépasser les limites des actes de langage en incluant la multidimensionnalité
du dialogue. Le contexte considéré va alors prendre en compte les états mentaux
des interlocuteurs et plus largement l’état du dialogue (e.g., l’historique du dialogue). De nouveaux
actes vont faire leur apparition pour gérer les processus d’interaction comme la gestion
des tours de parole, de la structuration du dialogue, etc. (cf. section 1.1.2). C’est le cas des actes
de feedbacks qui permettent de gérer l’établissement d’un énoncé à différents niveaux de communication
(contact, perception, compréhension, réaction). Par exemple, Larsson [Larsson 2003]
présente une mise en œuvre du concept d’« Interactive Communication Management » [Allwood
1995].
Nous distinguons deux principaux angles d’attaque pour la définition des actes de dialogue :
l’approche multi-niveaux qui se concentre sur les niveaux d’interaction et l’approche multidimensionnelle
qui se concentre sur les dimensions de la gestion de l’interaction.
Taxonomie multi-niveaux d’actes de dialogue Une première tentative de modélisation
d’actes de dialogue a été réalisée par les actes de conversation multi-niveaux [Traum 1992,
Poesio 1997]. Ils entendent généraliser les actes de langage en éliminant certaines hypothèses
non réalistes pour le dialogue comme le fait qu’un acte de langage est produit de manière isolée22 Chapitre 1 : Fondements pour la modélisation du dialogue
par un locuteur pour un allocutaire passif.
Ils se concentrent sur la notion de niveaux de l’interaction (cf. section 1.1.2). Ils distinguent
quatre niveaux reproduits dans le tableau 1.2 : sous-énonciation (Sub UU), énonciation (UU),
unité de discours (DU) et discours (Multiple DUs). À chaque niveau correspond un ensemble
d’actes : les actes de tour de parole au niveau sous-énonciation, les actes d’établissement 3 au
niveau énonciation, les actes noyaux au niveau unité de discours qui correspondent aux actes
illocutoires « classiques », et enfin les actes d’argumentation au niveau le plus élevé. Il faut
bien noter que les trois premiers niveaux représentent des processus différents et ne sont pas
réductibles les uns aux autres [Traum 1992] (p. 4). Le « niveau argumentation » ne semble
pas être un niveau au sens où nous les avons présentés. Ce niveau est en fait généré par des
séquences d’actes noyaux, contrairement aux autres niveaux qui sont eux générés par les actes
locutoires [Poesio 1997] (p. 318). Ce niveau inclut d’autres structures telles que les jeux de
dialogue [Poesio 1998b] (p. 2).
Niveau Type d’acte Exemples
Sub UU Tour de parole take-turn, keep-turn, release-turn,
assign-turn
UU Établissement initiate, continue, ack, repair, reqRepair,
reqAck, cancel
DU Actes « noyaux » inform, WHQ, YNQ, accept, request, reject,
suggest, offer, promise
Multiple DUs Argumentation Elaborate, Summarize, Clarify, Q&A,
Convince, Find-Plan
Tableau 1.2: Actes conversationnels multi-niveaux [Traum 1992,Poesio 1997]
Dans la suite de leurs travaux [Poesio 1997], le sous-niveau d’acte locutoire est ajouté. Il
consiste en un acte utter permettant la production d’énoncés. Précisons qu’un acte locutoire
peut générer plusieurs actes [Poesio 1997,Poesio 1998b]. Ainsi, un simple « ok » peut générer
les actes ack au niveau établissement et accept au niveau DU. Les énoncés deviennent alors
multifonctionnels (cf. section 1.1.2).
Pour comprendre les interactions entre ces niveaux, intéressons-nous au processus d’établissement
proposé. Celui-ci a été modélisée par Traum [Traum 1994a] en s’appuyant sur le modèle
de Clark et Schaefer [Clark 1989]. Il est vu comme la réalisation d’actes d’établissement. Un
DU comprend une phase initiale de présentation par le locuteur et une phase d’acceptation par
l’allocutaire (qui peut être implicite). Il correspond à une contribution au sens de [Clark 1989].
La phase de présentation peut s’étendre sur plusieurs énonciations (UU), par exemple via l’acte
continue. Le changement radical par rapport à la théorie classique des actes de langage est
qu’un acte de niveau noyau ne prend effet qu’une fois qu’il a été établi.
Le dialogue 1.6 est un exemple tiré de [Traum 1992] et présente l’établissement d’une suggestion.
Le tour M1 commence par un acte d’établissement initiate qui ouvre un nouveau DU.
Cet acte est poursuivi par une succession d’actes continue qui ajoutent des éléments au DU en
cours. La production d’un acte ack au tour S2 permet au contenu du DU d’intégrer le terrain
commun. À la suite de ce tour de parole, l’acte suggest a été établi. Néanmoins, les auteurs
3. Traduction du terme « grounding » [Clark 1989]1.2. Actes de langage et actes de dialogue 23
précisent que, dans ce cas particulier, le tour S2 n’est pas un accept au niveau DU. En d’autres
termes, la suggestion n’a pas été acceptée au niveau de la tâche sous-jacente au dialogue.
UU DU
M1 : um and hook up the boxcar to the engine, initiate
move it from Dansville to Corning, continue
load up some oranges into the boxcar, continue
and then move it on to Bath. continue suggest
S2 : okay ack
Dialogue 1.6 – Exemple de dialogue annoté avec des actes de niveaux UU et DU (tiré
de [Traum 1992]).
DIT++ Le cadre DIT++ [Bunt 2009] inclut une taxonomie multidimensionnelle de fonctions
communicatives qui étend la taxonomie de la théorie « Dynamic Interpretation Theory »
(DIT) [Bunt 1996]. Cette théorie propose une taxonomie de fonctions indépendantes de l’application
pour l’analyse du dialogue Homme-Homme et pour la conception de système de dialogue.
Elle adopte une approche multidimensionnelle de l’analyse du dialogue. La participation au dialogue
est vue comme la réalisation de plusieurs activités en parallèle de la part des interlocuteurs
(cf. section 1.1.2).
Acte de dialogue, fonction communicative et contenu sémantique Les interlocuteurs
prennent part à ces activités en réalisant des actes de dialogue. Dans la continuité des
approches contextuelles, un acte de dialogue est vu comme une opération de mise à jour de
l’état d’information des interlocuteurs. Un acte de dialogue est constitué d’une fonction communicative
et d’un contenu sémantique.
La fonction communicative exprime ce que le locuteur essaye de faire tandis que le contenu
sémantique décrit l’information traitée. En d’autres termes, la fonction communicative spécifie
la façon dont va être utilisé le contenu sémantique pour mettre à jour l’état d’information.
Plus précisément, l’opération de mise à jour de l’état d’information dépend du locuteur, de
l’interlocuteur et de la dimension [Bunt 2011c].
Notion de dimension Chacune des activités se déroule dans une dimension. Une dimension
est définie comme étant un aspect de la participation au dialogue [Bunt 2011b] :
1. dans lequel les interlocuteurs peuvent intervenir au moyen d’actes de dialogue ;
2. qui peut être traité indépendamment des autres aspects considérés.
La première condition spécifie que les aspects de la communication considérés doivent avoir une
existence empirique. La seconde condition précise que les dimensions doivent être orthogonales.
L’orthogonalité est entendue dans le sens de [Bunt 2011b] où les fonctions communicatives
attribuables à une dimension ne sont pas pleinement déterminées par les fonctions dans les
autres dimensions.
Chaque activité est concernée par un type d’information différent (e.g., la gestion des tours
de parole est concernée par l’attribution du tour de parole, le contenu des actes de gestion de
la tâche est spécifique à la tâche sous-jacente, etc.). Ainsi, le type de contenu sémantique d’un
acte de dialogue est déterminé par la dimension dans laquelle il intervient.24 Chapitre 1 : Fondements pour la modélisation du dialogue
Enfin, l’ensemble des fonctions communicatives pouvant être utilisées dans une dimension
respecte la contrainte suivante : pour chaque paire de fonctions communicatives qui peuvent être
utilisées dans une dimension, soit les deux fonctions sont mutuellement exclusives, soit l’une est
une spécialisation de l’autre (e.g., Confirm de Answer).
DIT++ propose l’utilisation de dix dimensions issues de l’étude d’un ensemble de corpus de
dialogue et respectant la définition précédente [Bunt 2009] :
Task/Activity Actes de dialogue qui contribuent à l’avancement de l’activité sous-jacente au
dialogue.
Auto-feedback Actes de dialogue par lesquels le locuteur fournit des informations sur son
traitement de l’énoncé précédent.
Allo-feedback Actes de dialogue par lesquels le locuteur exprime son avis concernant le traitement
de son précédent énoncé par l’autre interlocuteur, ou qu’il sollicite de l’information
à propos de ce traitement.
Contact Management Actes de dialogue afin d’établir ou de maintenir le contact.
Turn Management Actes de dialogue concernés par l’attribution du rôle de locuteur.
Time Management Actes de dialogue signalant que le locuteur a besoin d’un peu de temps
pour formuler sa contribution.
Discourse Structuring Actes de dialogue permettant de structurer explicitement la conversation
(e.g., en annonçant le prochain acte de dialogue ou en proposant un changement de
sujet).
Own Communication Management Actes de dialogue qui indiquent que le locuteur est en
train de modifier sa contribution courante.
Partner Communication Management Actes de dialogue produits par le participant
n’étant pas le locuteur afin de corriger ou d’assister le locuteur dans la formulation de
sa contribution au dialogue.
Social Obligations Management Actes de dialogue qui s’occupent des conventions sociales
telles que les salutations.
Les fonctions communicatives DIT++ propose une taxonomie de fonctions communicatives
influencée par des schémas d’annotation précédents (e.g., DAMSL [Allen 1997] et
TRAINS [Allen 1995]). Cette taxonomie inclut 88 fonctions communicatives et est constituée
de deux parties : les fonctions générales et les fonctions spécifiques à certaines dimensions (e.g.,
Apology, Turn Grab). Les fonctions générales sont représentées sur la figure 1.1. Un extrait des
fonctions spécifiques est représenté sur la figure 1.2.
Les fonctions générales sont divisées en quatre hiérarchies. Les deux premières sont les fonctions
de recherche d’information (qui incluent différents types de question) et les fonctions fournissant
de l’information (e.g., Inform, Agreement). Les fonctions de discussion d’action sont
classiquement décomposées entre les fonctions promissives (e.g., Promise, Offer) et les fonctions
directives (e.g., Request, Suggestion). Notons que chacune de ces catégories forme une
hiérarchie où les fonctions sont soit mutuellement exclusives (e.g., Confirm/Disconfirm, AcceptOffer/DeclineOffer),
soit des spécialisations (e.g., PosiCheck spécialise le type de question
oui/non représenté par l’acte PropositionalQuestion).
Au contraire d’une fonction générale, une fonction spécifique ne peut intervenir que dans
une dimension donnée. La figure 1.2 présente des exemples de fonctions spécifiques pour neuf1.2. Actes de langage et actes de dialogue 25 General-purpose functions Information-transfer functions Action-discussion functions Information-seeking functions Information-providing functions Question Inform Commissives Directives Offer Address Suggestion Suggestion Indirect Request Instruct Propositional Question Choice Question Set Question Answer Agreement Disagreement Check Question Posi-Check Nega-Check Disconfirm Confirm Correction Promise Accept Suggestion Decline Suggestion Threat Address Request Accept Request Decline Request Request Address Offer AcceptOffer DeclineOffer
Figure 1.1: Fonctions générales de DIT++ [Bunt 2009]26 Chapitre 1 : Fondements pour la modélisation du dialogue Dimension-specific functions Auto-Feedback Allo-Feedback Time Contact PCM Turn OCM DS SOM Turn-initial Turn Accept Turn Take Turn Grab Turn-final Turn Assign Turn Release Turn Keep Positive Pos. Attention Pos. Perception (...) Pos. Execution Negative Neg. Attention (...) Neg. Execution Positive Negative Elicitation (...) Stalling Pausing Contact Indication Contact Check Completion Correct- misspeaking Error sign. Retract Self- correction Opening Pre- closing (...) I-Greeting R-Greeting Self-Intro R-Self-Intro Apology Accept-Ap. Thanking Acc.-Thanking I-Goodbye R-Goodbye
Figure 1.2: Extraits des fonctions spécifiques à certaines dimensions de DIT++ [Bunt 2009]1.3. Synthèse 27
dimensions (Task exclue) comme la fonction Turn Accept dans la dimension Turn Management
et la fonction Thanking dans la dimension Social Obligation Management.
Segment fonctionnel Enfin, Bunt propose de segmenter le dialogue en segments fonctionnels,
un segment fonctionnel étant défini comme « . . . une portion minimale de comportement
communicatif qui a une fonction communicative. De telles portions n’ont pas besoin
d’être grammaticalement correctes ou contiguës et peuvent avoir plus d’une fonction communicative.
» [Bunt 2011b]. Notons qu’un segment possède au plus une fonction par dimension. En
conséquence, les « énoncés multifonctionnels » dans DIT++ sont des segments fonctionnels qui
peuvent être vus comme des combinaisons d’opérations de mise à jour de l’état d’information
correspondant à chaque acte de dialogue [Bunt 2009,Bunt 2011b].
Structuration de l’état d’information Une question qui se pose est le lien entre l’état
d’information et les dimensions présentées. En particulier, quel est le contenu de cet état d’information
et comment est-il structuré ? Comme nous l’avons déjà dit (cf. section 1.2.2), l’approche
contextuelle devient particulièrement intéressante dès le moment où le contexte intègre des notions
qui vont au-delà des états mentaux des interlocuteurs comme des informations sur le cadre
dialogique (e.g., historique du dialogue). Une première approche pourrait être de considérer un
état d’information contenant un composant par dimension afin de représenter les informations
indispensables à chaque aspect de l’activité dialogique. À ce propos, [Bunt 2011a] propose de
regrouper certaines dimensions dans une version de l’état d’information en cinq composants :
linguistique (historique du dialogue, . . . ), sémantique (état de la tâche sous-jacente, . . . ), cognitif
(état des processus d’interprétation et de génération des énoncés, . . . ), physique et perceptuel
(état de la situation interactive, . . . ) et social (gestion des aspects sociaux comme les salutations).
1.3 Synthèse
Dans un premier temps, ce chapitre a présenté le dialogue comme une activité conjointe
opportuniste où les interlocuteurs cherchent à coordonner leurs contributions de manière à coconstruire
et à co-contrôler le dialogue. Nous avons abordé la multidimensionnalité du dialogue
qui sert à gérer la tâche sous-jacente mais également l’interaction en elle-même. En conséquence,
les énoncés des interlocuteurs sont souvent multifonctionnels et abordent plusieurs dimensions
de la gestion du dialogue simultanément.
Puis, ce chapitre a été l’occasion de présenter le modèle de l’énoncé qui est à la base de
nombreux travaux en intelligence artificielle : l’acte de langage. Historiquement, l’étude des
énoncés par la théorie des actes de langage a précédé son intégration dans le cadre plus large de
la modélisation du dialogue. Seulement cette intégration a soulevé de nombreux problèmes parmi
lesquels nous avons souligné les aspects non-monologiques du dialogue, sa multidimensionnalité
et la multifonctionnalité des énoncés. Face à ces problèmes, l’alternative semble d’étendre la
portée des actes de langage à la prise en compte plus large du contexte du dialogue. Il s’agit alors
de considérer une approche contextuelle des actes de dialogue. Parmi les taxonomies existantes,
nous avons présenté les actes multiniveaux et DIT++ qui permettent de prendre en compte la
multidimensionnalité du dialogue et la multifonctionnalité des énoncés.
Notons que les actes de langage et de dialogue sont des modèles de l’énoncé et non du28 Chapitre 1 : Fondements pour la modélisation du dialogue
dialogue. Il est nécessaire d’expliquer comment les motifs dialogiques et des structures comme
celles mises en avant par l’analyse conversationnelle émergent.Chapitre 2
Modélisation du dialogue : intention
versus convention
Sommaire
2.1 Approches intentionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1.1 Fondements des approches intentionnelles . . . . . . . . . . . . . . . . . . . . 30
2.1.2 Approches par planification . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.1.3 Principales mises en œuvre . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.1.4 Avantages et limites des approches intentionnelles . . . . . . . . . . . . . . . . 38
2.2 Approches conventionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.2.1 Fondements des approches conventionnelles . . . . . . . . . . . . . . . . . . . 39
2.2.2 Modèles fondés sur la structuration . . . . . . . . . . . . . . . . . . . . . . . . 42
2.2.3 Modèles fondés sur les questions en discussion . . . . . . . . . . . . . . . . . . 46
2.2.4 Avantages et limites des approches conventionnelles . . . . . . . . . . . . . . . 52
2.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Dans ce chapitre, nous présentons deux grandes catégories d’approches de modélisation du
dialogue généralement perçues comme opposées. Nous débutons par un aperçu des approches
intentionnelles qui se focalisent sur les intentions des interlocuteurs pour expliquer la structure
du dialogue (cf. section 2.1). Nous poursuivons ensuite par la présentation des approches
conventionnelles qui délaissent les intentions pour se concentrer sur l’aspect conventionnel de
l’interaction dialogique (cf. section 2.2). Enfin, nous discutons la prétendue opposition de ces
approches (cf. section 2.3).
2.1 Approches intentionnelles
Dans cette section, nous effectuons un bref survol du vaste champ des approches intentionnelles
de la modélisation du dialogue. Dans ce type d’approche, les motifs d’interaction sont
interprétés comme la preuve d’un plan de la part des interlocuteurs [Hulstijn 2000a]. Les régularités
sont vues comme un épiphénomène des intentions sous-jacentes et de la rationalité des
interlocuteurs. Nous commençons cette section par une présentation des fondements théoriques
de ce type d’approche (cf. section 2.1.1). Nous présentons ensuite trois approches représentatives
(cf. section 2.1.2). Puis, nous abordons les principales mises en œuvre inspirées des modèles intentionnels
(cf. section 2.1.3). Enfin, nous discutons les avantages et limites de ce type de modèle
(cf. section 2.1.4).30 Chapitre 2 : Modélisation du dialogue : intention versus convention
2.1.1 Fondements des approches intentionnelles
Intention individuelle
Les travaux sur l’intentionnalité comme ceux de Bratman [Bratman 1987] ont donné naissance
au modèle BDI [Rao 1995], influant dans le champ de l’intelligence artificielle. Ce modèle
tire son nom des trois attitudes mentales qu’il considère pour fonder le comportement rationnel
d’un agent : les croyances (B pour « Belief »), les désirs (D pour « Desire ») et les intentions
(I).
Ces notions définissent une sémantique aux algorithmes de planification. Les croyances représentent
la vision que l’agent a du monde (environnement et autres agents). Ces croyances
peuvent être incorrectes, incomplètes ou incertaines. Elles évoluent au fur et à mesure des interactions
entre l’agent et le monde (notamment via sa perception du monde qui peut amener
à changer ses croyances). Les désirs représentent les états du monde souhaités par l’agent. Ils
peuvent être contradictoires ou irréalisables. Le processus de délibération est le processus par
lequel l’agent choisit les désirs qu’il va poursuivre (ses buts). Les intentions d’un agent sont
donc les désirs qu’un agent souhaite accomplir. En d’autres termes, une intention est un but que
l’agent s’engage à tenter de réaliser personnellement. Une architecture BDI permet d’assurer une
certaine stabilité à l’agent. Les intentions permettent à l’agent de ne pas reconsidérer ses actions
en permanence. En effet, une fois une intention adoptée, l’agent tente de la réaliser jusqu’à son
accomplissement ou jusqu’à ce qu’elle devienne irréalisable. D’autres critères d’abandon peuvent
bien entendu entrer en jeu. Notons que cette notion d’intention individuelle semble insuffisante
pour caractériser les intentions « collectives » qui surgissent lors d’activités conjointes. Cela
conduit à la considération de dérivé de l’intention comme l’« intention que » [Grosz 1996] (cf.
section 2.1.2).
Il est important de distinguer les plans des recettes [Pollack 1990]. Une recette est une suite
d’actions permettant de décomposer une action complexe en actions plus simples. Elle peut se
présenter sous une forme hiérarchique constituée de buts et de sous-buts : c’est un arbre appelé
graphe de recette. Elle correspond au savoir-faire de l’agent. Par exemple, je peux avoir une
recette pour aller de mon appartement à la gare de ma ville qui consiste en une suite d’actions :
aller à pied jusqu’à la station Joffre-Mutualité, prendre le métro direction Boulingrin, descendre
à la station Gare Rue Verte, etc. Néanmoins, ce n’est pas parce que je connais cette recette
que j’ai l’intention de la faire. La nuance est qu’un plan, version attitude mentale, réfère à
l’adoption d’une intention qui guide les actions futures de l’agent (une sorte d’« engagement »
à la réalisation d’une action future). Si je planifie d’aller à la gare de ma ville, j’ai alors cette
intention. J’ai donc le plan de le faire (en plus de la recette précédemment décrite). Précisons
que les premières approches par planification que nous présentons ne font pas la distinction (cf.
sections 2.1.2 et 2.1.2) et considèrent les plans sous l’angle de la recette.
Dans le dialogue, la notion d’intention intervient au moins au niveau de l’acte illocutoire d’un
acte de langage (cf. section 1.2.1). La notion d’intention communicative de Grice [Grice 1957]
peut également entrer en jeu. Néanmoins, la distinction entre la force illocutoire et l’intention
communicative ne fait pas consensus dans les approches intentionnelles [Maudet 2002a]. Dans
tous les cas, une fois l’intention sous-jacente à l’acte du locuteur reconnue, il est nécessaire
d’expliquer ce qui pousse l’interlocuteur à répondre.2.1. Approches intentionnelles 31
Hypothèses de coopération
La notion de coopération dans le dialogue a été définie par Grice [Grice 1975]. Selon cet auteur,
les interlocuteurs doivent se conformer au principe de coopération pour permettre l’échange
d’information :
« Que votre contribution conversationnelle corresponde à ce qui est exigé de vous,
au stade atteint par celle-ci, par le but ou la direction acceptée de l’échange dans
lequel vous êtes engagés. » [Grice 1975]
Les célèbres « maximes de Grice » sont issues de ce principe de coopération : les maximes de
quantité (faites que votre contribution soit aussi informative que requise par le but de l’échange
mais pas plus), de qualité (ne pas dire ce que vous pensez être faux, ou ce pour quoi vous
manquez de preuve), de pertinence (soyez pertinent), de manière (évitez de vous exprimer de
manière obscure, évitez l’ambiguïté, soyez brefs et ordonnés).
Ces maximes sont des règles « normatives » qui sont souvent transgressées. Leur transgression
amorce un processus d’inférence chez l’interlocuteur appelé implicature qui permet de dépasser
le sens littéral des énoncés. Prenons par exemple, un échange comme :
S1 : Tu viens à la soirée ce soir ?
H2 : J’ai du boulot.
Le deuxième énoncé viole la maxime de quantité. En reconnaissant cette transgression, S comprend
que H ne viendra pas en supposant qu’il est coopératif.
Sperber et Wilson réduisent les maximes de Grice au principe de présomption optimale de
pertinence [Sperber 1989]. La pertinence d’un énoncé est évaluée en fonction du rapport entre les
effets qu’il produit et les efforts que la production de ces effets demande. Les éléments permettant
d’évaluer cette pertinence sont néanmoins difficile à déterminer.
Structure intentionnelle
L’idée sous-jacente de toutes les approches intentionnelles est que la structure du dialogue
résulte des intentions et de la coopérativité des interlocuteurs [Maudet 2002a,Pasquier 2005]. La
structure intentionnelle a été exhibée et mise en relation avec deux autres structures par Grosz
et Sidner [Grosz 1986]. Pour ces auteurs, la structure d’un dialogue peut se décomposer de la
façon suivante :
— la structure linguistique (les énoncés agrégés en segments (DS pour Dialogue Segment)) ;
— la structure intentionnelle (ensemble des buts des segments du dialogue qui constituent
des sous-buts contribuant au but global du dialogue. Le but d’un DS est un DSP pour
Dialogue Segment Purpose) ;
— l’état attentionnel (focus dynamique du dialogue, i.e. les objets, propriétés et relations
qui sont saillants à un moment donné du dialogue, en connexion avec les deux autres
structures).
Les DSP sont vus comme des intentions au niveau du discours qui ont vocation à être
reconnues à l’instar des intentions au niveau des énoncés (cf. section 2.1.1). Des exemples sont
« avoir l’intention qu’un agent réalise une action », « avoir l’intention qu’un agent croie un fait »,
« avoir l’intention qu’un agent connaisse les propriétés d’un objet », etc.
Grosz et Sidner présentent deux relations possibles entre les DSP :
domination : DSP1 domine DSP2 si et seulement si la réalisation de DSP2 contribue à la
réalisation de DSP1.32 Chapitre 2 : Modélisation du dialogue : intention versus convention
satisfaction-précédence : DSP1 pré-satisfait DSP2 si et seulement si la satisfaction de DSP1
est une condition nécessaire à la réalisation de DSP2.
Le dialogue entre deux participants (ou plus) est motivé par une tâche sous-jacente. La variété
des tâches sous-jacentes au dialogue est importante. Elle peut être tout simplement « passer le
temps », négocier, réaliser une activité collaborative comme « monter un meuble ensemble », etc.
Le dialogue est alors utilisé pour l’activité [Clark 1996].
Nous pouvons nous interroger sur les liens entre la structure linguistique et la structure
intentionnelle ainsi qu’entre la structure intentionnelle et la structure de la tâche sous-jacente.
Pour Grosz et Sidner, la structure linguistique traduit la structure intentionnelle. Cette dernière
se reflète dans la structure linguistique tout particulièrement dans les imbrications entre DS qui
correspondent à des imbrications au niveau de la structure intentionelle. Quid des liens entre
le structure intentionnelle et la structure de l’activité sous-jacente ? Grosz et Sidner sont très
claires sur ce point : la structure intentionnelle n’est ni identique, ni isomorphe à la structure de
l’activité sous-jacente. La raison en est que la structure intentionnelle contient des DSP qui sont
particuliers à l’exécution de la tâche et du dialogue. Autrement dit, certains événements vont
survenir pendant le dialogue, qui trouveront leur écho dans la structure intentionnelle mais pas
dans la structure de la tâche (qui n’est pas capable de prévoir tous les cas). Un des exemples
proposés par Grosz et Sidner est un dialogue orienté tâche où un expert tente d’apprendre à un
apprenti à démonter un volant de voiture. Le plan de la tâche inclut des sous-plans pour trouver
les vis de fixation, les dévisser, trouver un tournevis, etc. Néanmoins, le plan ne peut pas inclure
des plans pour des évènements imprévus (que faire quand on ne trouve pas les vis ou que le seul
tournevis disponible n’est pas adéquat ?).
2.1.2 Approches par planification
La théorie des actes de langage (cf. section 1.2.1) a naturellement conduit à envisager les
actes de langage comme des actions dans un système de planification « classique ». En effet, elle
permet de faire le lien entre d’une part buts et intentions, et actions et dialogue d’autre part.
Nous avons choisi de nous restreindre à la présentation de trois approches intentionnelles qui
nous semblent représentatives : l’approche par plan « fondatrice » (cf. section 2.1.2), l’approche
par plan face à la gestion du dialogue (cf. section 2.1.2), et enfin, l’approche par plan partagé
(cf. section 2.1.2). En outre, toutes ces approches ont contribué à des systèmes interactifs avec
un utilisateur humain. Compte tenu de la masse importante de références bibliographiques sur
les approches intentionnelles, nous invitons le lecteur à se référer aux lectures suivantes s’il souhaite
de plus amples détails [Maudet 2002a,Pasquier 2005]. En particulier, nous n’abordons pas
les approches de la théorie de l’interaction rationnelle [Cohen 1990a, Sadek 1991]. Cette décision
est motivée par le fait que ces approches sont trop complexes pour être mises en œuvre
telles quelles dans des systèmes réels [Pasquier 2005]. En outre, les simplifications opérées pour
leur implémentation font tendre ces approches vers celles de la planification « classique » [Pasquier
2005,Ferguson 2007].
Approche par planification classique
Les approches par planification s’inspirent de la formalisation de STRIPS [Fikes 1972]. Il
s’agit de trouver le meilleur chemin dans un espace d’états pour passer d’un état initial à un
état final en appliquant des opérateurs (i.e. des actions) permettant de passer d’un état à un2.1. Approches intentionnelles 33
autre. Les états sont représentés par un ensemble de faits dans une représentation logique. Les
actions sont définies par des préconditions (qui doivent être vérifiées afin de pouvoir appliquer
l’action) et des effets (qui déterminent quels sont les faits qui sont ajoutés ou supprimés). À
cela s’ajoutent un entête (un nom et un ensemble de paramètres) et un corps qui permet de
décomposer une action en sous-action. Un plan est défini comme étant une séquence bien formée
d’actions de telle sorte que les préconditions des actions sont atteintes par les effets des actions
précédentes.
Le modèle pionnier de l’utilisation de la planification pour la modélisation du dialogue est
celui de Allen, Cohen et Perrault [Cohen 1979,Allen 1980]. Il se base sur la capacité du locuteur à
reconnaître le plan de son interlocuteur afin de produire la réponse la plus pertinente. Dans cette
approche, les interlocuteurs sont dotés d’états mentaux (buts, et différents types de croyances).
Les actes de langage sont formalisés comme n’importe quelle autre action. Le tableau 2.1 présente
un exemple de l’acte « Informer » présenté avec le formalisme d’une action de plan (L est le
locuteur, I l’interlocuteur et P la proposition).
INFORMER(L, I, P)
Préconditions : L VEUT INFORMER(L, I, P)
L SAIT P
Effets : I SAIT P
Corps : L DIRE P à I
Tableau 2.1: Exemple de représentation d’un acte "Informer" comme une action de plan. L est le locuteur,
I l’interlocuteur et P la proposition.
Dans cette approche, la reconnaissance du plan par l’interlocuteur peut être considérée
comme un processus de planification inversée. L’interlocuteur reconnaît le plan à partir de la
connaissance des opérateurs et des règles de construction de plan :
— L VEUT Action ⇒ L VEUT Effet
— L VEUT Préconditions ⇒ L VEUT Action
— L VEUT Corps ⇒ L VEUT Action
La reconnaissance du plan du locuteur inclut la reconnaissance à l’insu. Celle-ci implique
l’application de règles d’inférence basées sur ces règles de construction. Par exemple (où Pred
est une précondition de l’action Act) :
(I CROIT (L VEUT Pred)) ⇒ (I CROIT (L VEUT Act))
Cette règle d’inférence signifie que si L veut obtenir les préconditions de l’action Act, c’est qu’il
souhaite sans doute réaliser Act.
Une fois que le but et le plan du locuteur ont été inférés, l’interlocuteur peut construire un
plan permettant d’aider à la réalisation de ce but. La coopérativité de l’interlocuteur est ainsi
assimilée à l’adoption de but.
La reconnaissance de plan en cours de conversation permet de déterminer des réponses
coopératives. Par exemple, la question « À quelle heure est la prochaine séance pour le film
“Superman” ? » laisse supposer que le locuteur possède le but d’aller voir le film en question.
Pour cela, il possède un plan lui permettant de déterminer l’horaire de la prochaine séance mais
aussi le numéro de la salle. La reconnaissance de ce plan de la part de l’interlocuteur lui permet34 Chapitre 2 : Modélisation du dialogue : intention versus convention
de générer une réponse coopérative du type : « La prochaine séance est à 17h50. Le film sera
diffusé en salle 12. ».
Cette approche admet deux limites. La première est que la reconnaissance se limite à l’analyse
d’un seul énoncé. Or la reconnaissance de plan repose plus généralement sur plusieurs
énoncés [Carberry 1990]. Ensuite, la structure intentionnelle est identique à la structure de la
tâche sous-jacente. Cependant, nous avons vu que ces deux structures n’étaient pas isomorphes
(cf. section 2.1.1). Cette deuxième critique nous conduit à considérer l’approche de Litman et
Allen qui tente de différencier les apports du domaine et les apports spécifiques à la gestion du
dialogue.
Approche par plans du domaine et du discours
Afin de prendre en compte la non-isomorphie entre la structure de la tâche et la structure
intentionnelle (e.g., par l’intervention de dialogue de clarification), Litman et Allen proposent
de différencier deux types de plans [Litman 1990]. D’un côté, il s’agit de considérer les plans du
domaine qui modélisent la tâche sous-jacente. De l’autre côté, il s’agit de considérer les plans
du discours qui sont des meta-plans permettant de manipuler la structure des autres plans.
Les auteurs listent trois types de relation que peuvent entretenir les plans : la relation de
continuation (qui permet de commencer l’exécution du plan du domaine ou de poursuivre son
déroulement), la relation de clarification (qui permet d’identifier un paramètre du plan ou de
proposer une correction au plan courant), et la relation de changement de sujet (qui permet
d’introduire un nouveau plan). Ils proposent alors cinq meta-plans de dialogue issus de ces trois
relations : suivre-plan, identifier-paramètre, corriger-plan, introduire-plan et modifier-plan.
La structure du dialogue est modélisée par une pile de plans du domaine et de meta-plans. La
pile globale est composée de sous-piles pour chaque étape du plan du domaine. Chaque nouveau
plan introduit est soit un plan correspondant à un nouveau pas de plan du domaine, soit un
meta-plan relié au dernier plan introduit. De cette manière, il est possible de gérer les demandes
de clarification emboîtées.
Ce modèle permet de gérer des dialogues qui ne sont pas directement dans le plan du domaine.
Par exemple, via la relation de clarification, il est possible de gérer des dialogues comme :
S1 : Où peut-on assister à la projection de « Superman » ?
H2 : Dans la salle au fond à droite.
S3 : Quelle salle ?
H4 : La salle 12 située au fond à droite.
Les tours 3 et 4 constituent un sous-dialogue de clarification. Ce sous-dialogue ne fait pas partie
d’un plan du domaine. Il s’agit d’identifier un paramètre du plan en cours (ici la salle où le film
est projeté). Il s’agit donc d’un empilement d’un meta-plan identifier-parametre relié par une
relation de clarification au plan du domaine.
Il est cependant possible de trouver des interventions dialogiques de telle manière qu’elles ne
soient ni une étape de plan de domaine, ni reliée les unes aux autres par les relations proposées.
Par exemple :
S1 : Je désire voir un film. Quand commence la séance pour « Superman » ?
H2 : À 19h30.
S3 : Et pour « Batman » ?
H4 : À 19h50.
Ici l’interlocuteur souhaite évaluer plusieurs alternatives, i.e. plusieurs plans à sa disposition. Des2.1. Approches intentionnelles 35
extensions considérant un troisième niveau de résolution de problème ont été proposées [Lambert
1991].
Approches par planification collaborative
Grosz et Kraus ont présenté dans leur article « Collaborative plans for complex group action
» un formalisme de plans pour l’action d’un groupe d’agents collaboratifs [Grosz 1996]. En
partant des travaux de Pollack [Pollack 1990], ce formalisme spécifie deux types de plans défi-
nis en terme d’attitudes mentales (croyances et désirs) : les plans partagés et les plans partiels.
Elles introduisent la notion d’intention que qui permet de représenter l’engagement de chaque
participant envers le but commun.
Comme le nom le laisse à penser, les plans partagés sont des plans qui incorporent les actions
de plusieurs participants. Le processus de planification est rendu d’autant plus compliqué que
le nombre d’agents pris en compte dans le plan est important. Pour simplifier ce problème,
les agents ont généralement une base de données de plans pré-calculés, appelés recettes, dans
laquelle ils peuvent sélectionner des plans sans avoir besoin de tout recalculer. Certains aspects
ont besoin d’être établis avant la réalisation de l’activité conjointe par un plan partagé. Les
participants doivent :
1. se mettre d’accord sur le but conjoint à atteindre ;
2. se mettre d’accord sur l’ensemble des recettes possibles (i.e., le par quel moyen réaliser
l’action) ;
3. se mettre d’accord sur la répartition des tâches et l’ordonnancement de la réalisation (i.e.,
le qui va faire quoi quand) ;
4. et enfin, s’engager sur la réussite des actions des autres participants selon les paramètres
précédemment sélectionnés.
Cette approche permet de justifier les comportements coopératifs dans l’activité sans référer à
une notion d’intention collective [Searle 1990]. L’aspect collectif de l’activité est capturé par le
plan partagé et la notion d’intention que. Néanmoins, ces plans partagés doivent être adoptés
par les participants. Une hypothèse de coopération doit être faite : il est nécessaire de supposer
une entente pour élaborer un plan partagé.
Il est d’autant plus difficile de calculer à long terme des plans partagés que les actions
dépendent d’autres participants. Si on ajoute à cela un environnement dynamique, comme par
exemple le dialogue, il devient clair que les agents ne peuvent pas planifier « du premier coup »
à long terme. Cela a conduit à l’introduction de la notion de plans partiels qui vont permettre
de représenter partiellement les actions à entreprendre et qui ont vocation à être complétés au
fur et à mesure. De la même manière, les agents peuvent avoir des recettes partielles qui sont des
spécifications partielles pré-calculées de combinaisons d’actions pour atteindre un certain but.
Résumons la situation. L’approche par planification collaborative permet de distinguer les
habituels plans « individuels » des plans partagés. Ce sont ces plans partagés qui permettent de
capturer la dimension collective de l’activité. En d’autres termes, les participants collaborent sur
la mise en place d’un plan partagé qui forme alors l’activité conjointe. Néanmoins, les participants
ne sont pas contraints de tout prévoir à l’avance car ils peuvent manipuler des plans partiels,
i.e. des plans qui ne sont pas complètement spécifiés. Et pour le dialogue ? L’idée est que les
interlocuteurs s’embarquent dans une interaction avec un plan partiel, qu’il s’agit de préciser au
fur et à mesure de l’interaction.36 Chapitre 2 : Modélisation du dialogue : intention versus convention
L’application de cette théorie au dialogue a été étudiée par Lochbaum [Lochbaum 1994,
Lochbaum 1998]. Son point de vue est que les interlocuteurs dialoguent pour compléter des plans
partiels (individuels ou partagés, au niveau du discours ou au niveau de la tâche). Cette approche
considère l’intervention de sous-dialogues comme étant soit contributoire à un autre plan (e.g.,
un sous-dialogue pour s’accorder sur une recette), soit la satisfaction d’un plan est nécessaire à
l’exécution de l’autre (pré-satisfaction). Lochbaum considère notamment que les sous-dialogues
de clarification sont des sous-dialogues qui doivent être satisfaits afin de déterminer un paramètre
pour le plan suivant. Selon Lochbaum, les plans partagés modélisent exactement les DSP (cf.
section 2.1.1) en un seul et même formalisme.
Les modèles intentionnels sont à la source de la mise en œuvre de systèmes d’interaction
Homme-Machine sur lesquels nous allons maintenant nous pencher.
2.1.3 Principales mises en œuvre
Une grande force des approches intentionnelles est d’apporter une réponse globale unifiée
autour de la notion d’intention à plusieurs problématiques du dialogue. En schématisant, nous
pouvons résumer la situation de la manière suivante. Un énoncé est vu comme une action « classique
» grâce à la théorie des actes de langage. L’interprétation d’un énoncé est vue comme
l’inférence de son intention sous-jacente. Et la réponse est générée par un mécanisme de plani-
fication associé à des hypothèses de coopération. Ce cadre a permis la réalisation de nombreux
systèmes qui ont une forte influence dans le domaine de l’interaction Homme-Machine comme
les systèmes TRAINS [Ferguson 1996,Allen 2000] et Collagen [Rich 2001].
Les systèmes fondateurs
Le système TRAINS [Ferguson 1996,Allen 2000] a été l’un des premiers systèmes à gérer un
dialogue avec un humain dans le cadre de la résolution collaborative de problème. Il est issu d’un
travail important de récolte et d’analyse de corpus de dialogues oraux orientés tâche. Il a conduit
à la conception de plusieurs systèmes dénommés TRAINS servant à interroger en langue naturelle
une base de données contenant des horaires de trains. Le système TRIPS [Ferguson 1998],
successeur de TRAINS, est conçu pour assister un humain dans une tâche de gestion de situations
de crise. Le système et l’humain collaborent à la construction de plans d’évacuation. Ce système
ajoute au dialogue naturel l’utilisation de graphiques (cartes, tableaux, etc.) pour améliorer
la compréhension mutuelle. En se basant sur ces travaux, Ferguson et Allen ont récemment
proposé une approche pour la conception et la mise en œuvre d’agent assistant pour la résolution
collaborative de problèmes basée sur une architecture BDI [Ferguson 2007].
Les travaux sur la planification collaborative et son application à la modélisation du dialogue
(cf. section 2.1.2) ont conduit à la réalisation de Collagen (Collaborative Agent) [Rich 2001]. Ce
système inclut un modèle de la tâche basé sur la planification collaborative [Grosz 1996] ainsi
qu’un modèle de l’état de l’interaction référençant les croyances et intentions des interlocuteurs
(cf. état attentionnel du dialogue, section 2.1.1). Ces deux modèles sont ensuite exploités par les
algorithmes d’interprétation [Lochbaum 1998] et de génération de dialogue. Collagen est utilisé
en tant que middleware pour la réalisation de systèmes collaboratifs en interaction avec un
utilisateur humain. Par exemple, il a été utilisé pour la réalisation de DiamondHelp [Rich 2007],
un système collaboratif permettant d’assister un utilisateur sur une tâche. Ce système est illustré
sur des tâches d’assistance d’un utilisateur telles que la programmation d’une machine à laver
moderne ou la configuration d’un thermostat.2.1. Approches intentionnelles 37
L’émergence de nouveaux systèmes inspirés de l’approche par planification
Plus récemment, de nouveaux systèmes s’inspirant de l’approche par planification ont émergé.
Nous citons RavenClaw et DTask.
RavenClaw [Bohus 2009b] est un gestionnaire de dialogue indépendant de la tâche basé sur
une approche par planification. La gestion du dialogue est opérée de manière indépendante de
la tâche sur la base d’un réseau hiérarchique de tâches 1
. Les aspects spécifiques à la tâche sont
spécifiés via ce plan hiérarchique. Ce dernier inclut la planification des actions du système (e.g.,
informer l’utilisateur, rechercher dans une base de données, etc.) ou des actions bilatérales à
l’initiative du système telles qu’une demande d’information. RavenClaw intègre des processus
de gestion de l’interaction indépendant de la tâche sous-jacente au dialogue. Ces processus
sont principalement liés à la reconnaissance vocale. Par exemple, ils permettent au système de
demander des confirmations ou des reformulations, tandis que l’utilisateur peut demander au
système de répéter les derniers énoncés. En somme, RavenClaw permet de gérer des dialogues
fortement liés à une tâche pouvant être décrite simplement par un plan hiérarchique.
DTask [Bickmore 2009] est un gestionnaire de dialogue conçu pour modéliser et exécuter des
dialogues menés par le système fournissant des entrées à choix multiples pour saisir les contributions
de l’utilisateur humain. Dans le même esprit que RavenClaw, la structure du dialogue est
liée à la structure de la tâche sous-jacente décrite par un plan décomposant les buts et sous-buts
des participants. Le point qui nous intéresse particulièrement dans cette approche est que la plus
petite tâche conjointe dialogique est décrite sous la forme d’une paire adjacente. Celle-ci consiste
en un énoncé du système associé à une liste de réponses possibles de l’utilisateur humain. Le
tableau 2.2 présente un exemple de spécification d’une paire adjacente tirée de [Bickmore 2009].
Utilisateur Énoncé
Système How are you ?
Utilisateur
1. I am good. How are you ?
2. Good.
Tableau 2.2: Exemple de spécification d’une tâche dialogique de salutations dans DTask [Bickmore 2009]
Cette paire décrit un échange de salutations ritualisé entre les interlocuteurs. Elle consiste
en la production de l’énoncé initiatif « How are you ? » par le système. L’utilisateur est alors
confronté à un choix : il peut choisir de répondre par une des deux propositions présentées dans
le tableau 2.2. Notons que la réponse 1 (« I am good. How are you ? ») clôture la paire par l’énonciation
de « I am good. » et initie une nouvelle paire par « How are you ? » (bien que cela ne soit
pas explicitement modélisé de cette manière dans cette approche). Cette nouvelle initiation peut
être suivie par une réponse du système telle que « Great. Thanks for asking ! » [Bickmore 2009].
L’approche DTask a été récemment étendue dans Disco for Games (D4g) [Rich 2012], présenté
comme le successeur de Collagen. Dans cette dernière itération, le système ne se limite pas aux
paires adjacentes mais intègre des sous-dialogues complets spécifiques à l’application.
Maintenant que nous avons vu les principaux modèles intentionnels et leurs mises en œuvre
plus ou moins directes, intéressons-nous aux avantages et limites d’une telle approche.
1. De l’anglais « Hierarchical Task Network » (HTN).38 Chapitre 2 : Modélisation du dialogue : intention versus convention
2.1.4 Avantages et limites des approches intentionnelles
Les approches intentionnelles possèdent de nombreux avantages [Maudet 2002a, Pasquier
2005]. Tout d’abord, les approches intentionnelles ont la capacité de produire des réponses
coopératives qui devancent les attentes de l’interlocuteur en se basant sur la reconnaissance du
plan sous-jacent à l’interaction (e.g., « – Vendez-vous des billets de train pour Lille ? – Tout à
fait ! Ils coûtent 20 euros. »). Ensuite, en analysant la partie du plan de l’interlocuteur qui est
erronée, le système est capable d’établir une stratégie de reprise pertinente vis-à-vis du but de
l’interlocuteur [Pollack 1990] (e.g., « – Je vais voir “Superman”. Donnez moi un billet pour la
salle 10. – La salle 10 ne diffuse pas “Superman”. Vous devriez prendre un billet pour la salle
12. »). Enfin, ces approches ne dépendent pas de règles issues d’observations empiriques sur
la structuration des conversations qu’il est souvent facile de mettre en défaut. En ce sens, elle
dispose d’une grande flexibilité au prix peut-être d’une dépendance au domaine renforcée.
Un ensemble de critiques a été émis à l’encontre des approches intentionnelles [Traum 1994b,
Clark 1996, Maudet 2002a,Pasquier 2005]. Parmi toutes ces critiques, nous retenons celles qui
sont liées à un point de vue théorique et celles liées à un point de vue pratique.
D’un point de vue théorique, le rôle central de l’intention dans ces approches est à remettre
en cause. En effet, la plupart des dialogues présente des phases d’interaction ritualisée qui ont
été mises en avant par l’analyse de la conversation (e.g., remerciements, échange de salutations,
etc.). La reconnaissance de l’intention sous-jacente semble exagérée dans ces cas. Ceci soulève la
question de la pertinence des attitudes mentales considérées (croyances, désirs et intention) et de
leur adéquation pour modéliser complètement le comportement conversationnel d’un système.
Ces attitudes ne permettent pas de prendre convenablement en compte le caractère collectif et
social du dialogue. Ainsi, elles ne suffisent pas pour expliquer des réponses telles que « Je ne
sais pas. » à une question. Deux solutions principales sont considérées. D’une part, une stratégie
consiste à augmenter ces attitudes d’autres notions comme les pressions interactives [Bunt 1996]
ou les obligations [Traum 1994b]. D’autre part, il s’agit de considérer le dialogue comme une
activité conjointe [Lochbaum 1994, Grosz 1996]. Néanmoins, cette approche du problème est
sujette à controverse sur la notion d’intention collective et de l’introduction de dérivés de l’intention
[Searle 1990, Grosz 1996]. De plus, les formalismes proposés pour formaliser la notion
d’action conjointe (où l’action des participants est expliquée par la participation à l’activité
jointe) restent limités à la considération d’une activité collaborative. En conséquence, elles ne
permettent pas de prendre en compte les situations dialogiques conflictuelles comme le débat
où il n’y a pas de but commun établi entre les interlocuteurs [Traum 1994b]. Notons que doter
un système de dialogue coopératif de capacités lui permettant de rentrer dans un débat avec
un utilisateur peut avoir un intérêt. Par exemple, un agent assistant peut essayer de convaincre
son utilisateur que la date qu’il a choisi pour un rendez-vous n’est pas la plus adaptée. En
somme, les approches intentionnelles n’indiquent pas comment caractériser le fait que les interlocuteurs
prennent part à des activités conjointes (collaboratives ou non) dans lesquelles ils
peuvent compter sur certaines actions les uns des autres.
Enfin, la dernière critique tient en la nature opportuniste du dialogue [Clark 1996] (cf. section
1.1.1). La vision opportuniste défend l’idée selon laquelle le dialogue n’est pas une activité
planifiée : le dialogue ne semble planifié qu’a posteriori. Les participants s’engagent dans le dialogue
sans savoir à l’avance ce qu’ils vont y faire. Bien entendu, cela n’empêche pas le fait que
les participants entretiennent des objectifs préalables à la conversation. La raison principale de
la nature opportuniste du dialogue est qu’il est co-construit et co-géré par ses participants. En2.2. Approches conventionnelles 39
conséquence, un participant ne peut rien faire sans l’autre. Compte tenu du fait qu’un participant
ne peut pas savoir à l’avance ce que l’autre va faire, le dialogue ne peut pas être planifié.
Le dialogue semble donc être une activité conjointe nécessitant quasiment d’être replanifiée au
tour par tour, réduisant ainsi l’intérêt de la planification. Cette observation est corroborée par
l’observation que certaines séquences d’actes ne peuvent pas être planifiées [Pulman 1998] (typiquement,
les demandes de clarifications). Une réponse partielle à ce problème a été apportée
par les plans partagés [Lochbaum 1994, Grosz 1996] qui ont vocation à être complétés par les
participants.
D’un point de vue pratique, il est indispensable de préciser que les approches intentionnelles
sont difficiles à mettre en œuvre dans des systèmes réels. D’une part, le mécanisme de reconnaissance
de plans est très complexe et difficile à mettre en place [Cohen 1997]. Qui plus est,
les algorithmes de reconnaissance de plans sont combinatoirement intractables dans le pire des
cas et indécidables dans certains cas [Bylander 1991]. Enfin, les approches par plans sont dé-
pendantes du domaine. Il est indispensable de définir les recettes couvrant l’ensemble des cas
possibles.
2.2 Approches conventionnelles
Dans cette section, nous abordons l’aspect conventionnel de certaines approches de modélisation
du dialogue pour l’interaction Homme-Machine. Là où les approches intentionnelles
interprètent les motifs d’interaction comme un épiphénomène des intentions des interlocuteurs,
les approches conventionnelles les voient comme des conventions établies et ne se focalisent pas
sur les intentions sous-jacentes. Dans un premier temps, nous présentons les fondements des
approches conventionnelles (cf. section 2.2.1). Ensuite, nous abordons les approches étudiant
la structuration des motifs d’interaction et qui visent à produire des règles décrivant des sé-
quences admissibles de types d’énoncés (cf. section 2.2.2). Puis, nous voyons les modèles fondés
sur les questions en discussion qui illustrent l’ensemble des concepts des approches conventionnelles
(cf. section 2.2.3). Enfin, nous discutons les avantages et limites de ce type de modèle (cf.
section 2.2.4).
2.2.1 Fondements des approches conventionnelles
Alors que les approches intentionnelles se focalisent sur la « partie privée » en s’intéressant
aux attitudes mentales des interlocuteurs, les approches conventionnelles se concentrent sur
ce qui est partagé par les participants durant le dialogue. En d’autres termes, les approches
conventionnelles s’intéressent à la partie « publique ». C’est généralement ce dont il est question
lorsqu’on aborde la notion de fonds commun.
Fonds commun et tableau de conversation
La notion de fonds commun L’idée de fonds commun 2
remonte à Stalnaker [Stalnaker 1979]
et Lewis [Lewis 1979]. Stalnaker utilise le concept de fonds commun qui garde une trace de
l’état courant du dialogue. Il est vu comme un ensemble non structuré de propositions enrichi
par les assertions des interlocuteurs. Ainsi, un interlocuteur réalisant une assertion modifie le
fonds commun (e.g., en ajoutant la proposition). Lewis, quant à lui, dresse un parallèle entre
2. Traduction de l’anglais « common ground », également traduit « terrain commun »40 Chapitre 2 : Modélisation du dialogue : intention versus convention
le dialogue et le baseball. Il imagine le fonds commun (nommé « conversational scoreboard »
pour l’occasion) comme un tableau permettant de garder une trace de l’interaction dialogique
au même titre qu’un panneau d’affichage sur un terrain de sport.
Le fonds commun pour le dialogue est généralement vu comme incluant un fonds commun
général établi par le contexte global (cf. section 1.2.2) et un fonds commun conversationnel (en
lien avec le contexte local, cf. section 1.2.2) qui est établi au cours du dialogue par le processus
d’établissement (le grounding).
Plusieurs formalisations du fonds commun existent dont certaines sont sujettes à controverse
sur leur plausibilité cognitive [Clark 1996]. La formalisation communément établie est celle de
base partagée [Lewis 1969] :
p est une information commune pour les membres d’une communauté C si et seulement
si :
1. Chaque membre de C possède l’information que la base b est établie.
2. b indique à tous les membres de C que tous les membres de C possèdent
l’information que b est établie.
3. b indique à tous les membres de C que p.
La notion de base partagée doit être vue comme une situation commune à partir de laquelle il
est possible de dériver certaines informations, et que ces informations sont également partagées
avec les membres de la communauté C. Ainsi, si je me trouve à un concert de rock avec une
amie, et qu’un groupe s’installe sur la scène, je peux déduire de la situation que le fait « il y a
un groupe sur la scène » fait partie du fonds commun.
Soulignons que les informations contenues dans le fonds commun ne sont pas exactement
des informations partagées mais plutôt des informations supposées partagées. C’est pourquoi les
versions du tableau de conversation des interlocuteurs peuvent varier au cours du dialogue.
Tableau de conversation En terme de modélisation du dialogue par les approches conventionnelles,
il est plus courant de parler de tableau de conversation. C’est la partie du fonds
commun qui représente l’état du dialogue entre les participants. Le contenu du tableau de
conversation inclut des « éléments classiques » comme l’historique du dialogue (ce qui a été
dit). D’autres éléments peuvent y être inclus comme certains éléments du contexte local (cf.
section 1.2.2). Le contenu du tableau dépend des éléments pris en compte dans la modélisation
du dialogue.
Lewis avance l’idée d’accommodation pour décrire le principe selon lequel le tableau de
conversation peut évoluer de manière à rendre correct un coup dialogique (i.e., un acte contextuel).
Imaginons un tableau de conversation contenant une représentation des questions en cours
de discussion entre les interlocuteurs sous forme d’une pile. Il est possible qu’un interlocuteur
choisisse de répondre non pas à la dernière question posée (au sommet de la pile) mais à
l’avant dernière question. Une accommodation de tableau est alors effectuée afin de faire passer
l’avant dernière question en tête, de manière à l’interpréter comme la question répondue (cf.
section 2.2.3).
Contexte et tableau de conversation Les liens entre contexte dialogique (cf. section 1.2.2)
et tableau de conversation nécessitent d’être précisés. Le tableau de conversation réfère généralement
à la partie publique (ou partagée) de l’état d’information qui modélise le contexte dialogique.
À ce sujet, Ginzburg présente cinq types de structuration possibles du contexte dialogique2.2. Approches conventionnelles 41
en terme d’informations publiques et privées intervenant dans le comportement conversationnel
des interlocuteurs (A et B représentent les interlocuteurs) [Ginzburg 2012] (p. 64) 3
:
1. A : 〈A.private〉, B : 〈B.private〉
2. A : 〈public〉, B : 〈public〉
3. A : 〈A.private, A.B.private〉, B : 〈B.private, B.A.private〉
4. A : 〈public, A.private〉, B : 〈public, B.private〉
5. A : 〈A.public, A.private〉, B : 〈B.public, B.private〉
Ces modèles permettent de distinguer les éléments privés (e.g., attitudes privées) et publics
(e.g., tableau de conversation) pris en compte dans la modélisation du dialogue. Le modèle 1
renie l’existence d’une partie publique. C’est un extrême où le comportement dialogique des
agents n’est expliqué que par leurs propres attitudes privées. En conséquence, le tableau de
conversation n’existe pas. Le modèle 2 considère l’autre extrême : le comportement dialogique
est uniquement expliqué par des facteurs publics. Le contenu du tableau de conversation est entièrement
partagé entre les interlocuteurs. C’est ce dernier qui explique tous les comportements
dialogiques. Le modèle 3, comme le premier modèle, renie l’existence d’une partie publique. Les
agents ne considèrent que leurs attitudes privées et leur représentation des attitudes privées
de leur interlocuteur. Il s’agit de la vision communément admise dans les approches intentionnelles.
Le modèle 4 divise les facteurs jouant sur le comportement dialogique entre une partie
publique partagée entre les interlocuteurs et une partie privée. La partie publique représente le
« conversational scoreboard » de Lewis. Enfin, le dernier modèle relativise la partie publique du
point de vue de l’agent : le contenu du tableau de conversation peut admettre des variations.
Le comportement dialogique d’un agent est expliqué par sa représentation de la partie publique
et ses attitudes privées. La différence principale entre les approches 4 et 5 réside dans la posture
adoptée face à l’ajout d’une information incertaine dans le tableau conversationnel. Dans
la première approche, il s’agit de n’enregistrer que les informations établies. Dans la seconde, il
s’agit d’enregistrer toutes les informations en prévoyant des mécanismes de révision. Cela nous
amène à nous intéresser au mécanisme d’établissement de l’information (le grounding).
Mécanisme d’établissement
Le processus par lequel le fonds commun est établi et par lequel de nouvelles informations
intègrent le fonds commun est appelé grounding [Clark 1989]. L’objectif de ce processus est
d’établir ce qui a été dit comme étant public. Cela inclut la forme d’un énoncé, sa fonction, son
contenu et ses implications. Ce processus conduit les interlocuteurs à produire des feedbacks (cf.
section 1.1.2).
Dans ce processus, les interlocuteurs essayent d’atteindre un critère – le critère de grounding
[Clark 1989] – qui spécifie qu’ils doivent atteindre un niveau où le locuteur et l’allocutaire
croient que l’allocutaire a compris l’énoncé de manière suffisante pour le but courant. Pour cela,
les interlocuteurs réalisent des contributions qui se décomposent en deux phases (A et B sont
les interlocuteurs) :
Phase de présentation A produit un énoncé u vers son interlocuteur B. A attend alors un
indice de la part de B qui peut lui faire croire que B a compris ce qu’il voulait dire par u.
3. A.B.private est la représentation de A des attitudes privées de B (et réciproquement pour B.A.private).42 Chapitre 2 : Modélisation du dialogue : intention versus convention
Phase d’acceptation B accepte l’énoncé en montrant qu’il a compris (ou pas) ce que A veut
dire par u. B suppose alors qu’une fois que A enregistre l’indice, il croira que B a compris
(ou pas).
Ce n’est qu’après la phase d’acceptation que l’énoncé est ajouté dans le fonds commun. Pré-
cisons que la phase d’acceptation ne suit pas nécessairement de manière immédiate la phase
de présentation. Des contributions peuvent venir s’intercaler entre les deux phases. Les indices
produits peuvent être positifs ou négatifs. Concernant les indices positifs, Clark en propose une
liste hiérarchisée (du moins fort au plus fort) : (a) B montre qu’il continue d’être attentif. (b) B
produit un énoncé pertinent à la suite. (c) B acquiesce. (d) B reformule ou complète l’énoncé de
A. (e) B répète l’énoncé de A. De même pour les indices négatifs : (a) B engage un dialogue de
clarification. (b) B répète l’énoncé en faisant une erreur. (c) B n’est plus attentif. (d) B produit
un énoncé non pertinent à la suite. (e) B déclare ne pas comprendre. Notons que le processus
est récursif : une phase d’acceptation est elle-même une phase de présentation pour une nouvelle
contribution. Pour éviter une récursion infinie, les auteurs invoquent le principe selon lequel les
indices diminuent progressivement de force.
Ce modèle a reçu beaucoup d’attention en intelligence artificielle. Pour plus de détails,
voir [Traum 1992,Traum 1994a,Poesio 1998b,Traum 1999] dont nous avons présenté un aperçu
en section 1.2.2.
Le fonds commun permet l’établissement de régularités au sein d’une communauté généralement
désignées par le terme convention.
Conventions et motifs d’interaction
Une convention est une règle générale adoptée par une communauté pour la résolution d’un
problème de coordination [Lewis 1969]. Par exemple, se serrer la main est une solution conventionnelle
dans une communauté au problème récurrent de comment se saluer. En d’autres termes,
une convention est une régularité qui existe au sein d’une communauté, sans avoir nécessairement
fait l’objet d’un accord explicite. Ces régularités font partie du fonds commun des membres de
cette communauté [Clark 1996]. Les régularités qui nous intéressent sont les motifs d’interaction
définis en introduction de ce document.
Au contraire des approches intentionnelles où le lien provient de l’intention et des hypothèses
de coopération, on suppose ici l’existence d’un lien conventionnel entre les énoncés. Le problème
n’est pas de savoir comment ces régularités sont apparues. On suppose leur existence (i.e., leur
appartenance au fonds commun) et on suppose que les interlocuteurs sont prêts à s’y conformer.
Ces régularités présentent un intérêt simplificateur pour la modélisation du dialogue. Dans une
régularité de ce type, il n’est par exemple pas nécessaire de réaliser des analyses complexes sur
l’intention sous-jacente.
Nous nous intéressons en premier lieu aux approches qui se concentrent sur les propriétés
structurelles de ces régularités.
2.2.2 Modèles fondés sur la structuration
Nous débutons cette section par les grammaires de dialogue qui cherche à déterminer la
structure du dialogue en terme de constituants. Puis nous traitons des approches par protocole
qui sont généralement utilisées afin de modéliser les motifs d’interaction.2.2. Approches conventionnelles 43
Grammaires de dialogue
La modélisation du dialogue fondée sur la structuration cherche à déterminer la structure
sous-jacente du dialogue en terme de constituants. L’idée est alors de modéliser les liens que
ces constituants entretiennent. Cette idée est analogue à la décomposition grammaticale d’une
phrase (e.g., de type « Sujet + Verbe + Complément »). Ici, on cherche à faire la même chose
mais avec le dialogue. L’idée est donc de trouver des grammaires de dialogue [Polanyi 1984,
Roulet 1987].
Le modèle genevois est l’exemple par excellence du modèle structurel du dialogue humain
[Roulet 1987, Moeschler 1989]. Il définit un cadre strict d’analyse en constituants hié-
rarchiques et d’analyse fonctionnelle. Les constituants du dialogue considérés sont les suivants
(du plus simple au plus complexe) :
— L’acte est l’unité d’analyse minimale (cf. section 1.2.1).
— L’intervention est constituée d’au moins un acte. Elle est dite simple si elle ne contient
qu’un acte, sinon elle est dite composée.
— L’échange est la plus petite unité interactive. Il est constitué au maximum de trois interventions.
La première intervention possède la fonction initiative, la deuxième réactive et
l’éventuelle troisième évaluative.
— La séquence est constituée d’un ou plusieurs échanges reliés par un fort degré de cohérence
sémantique et/ou pragmatique.
— L’interaction est composée d’une ou plusieurs séquences. Elle est délimitée par la rencontre
et la séparation des deux interlocuteurs.
En plus des règles structurelles qui définissent les enchaînements possibles des constituants du
dialogue (e.g., sous forme de grammaire hors contexte), le modèle ajoute des fonctions illocutoires
(initiative, réactive, évaluative, . . . ).
Le système de dialogue Homme-Machine SUNDIAL [Bilange 1991b] exploite le modèle structurel
genevois. L’idée de ces travaux est d’utiliser les structures proposées pour construire un
contexte du dialogue. Ce contexte de dialogue est ensuite exploité pour prédire les actes qui
peuvent être joués par le système ou l’utilisateur à un moment donné de la conversation. Plus
précisément, une initiative ouvre un échange. L’interlocuteur est alors mis en situation de réaction.
Cela le pousse à produire une intervention réactive qui peut elle-même conduire l’initiateur
de l’échange à produire une intervention évaluative. C’est un modèle en trois temps initiatif/-
réactif/évaluatif. La force de ce système est d’isoler dans son architecture un module du dialogue,
qui représente la structure courante du dialogue, des autres modules (tâche, linguistique, etc.).
En tenant compte de la structure du dialogue, le module du dialogue produit des descriptions
des prochains énoncés possibles de la part du système et des prédictions à propos des prochains
énoncés possibles de la part de l’utilisateur. Néanmoins, le module de la tâche conserve un rôle
important dans ces étapes de prédictions et de générations. En outre, aucune contrainte sur le
contenu des actes de dialogue n’est représentée dans la structure du dialogue.
Protocoles de communication
Définition Un protocole de communication est un type de politique de conversation définie
comme un ensemble de « contraintes générales sur les séquences de messages sémantiquement
cohérents menant à un but » [Greaves 2000]. Un protocole spécifie des séquences d’actes communicatifs
attendus en fonction de l’état de la conversation pour la réalisation d’une tâche précise.44 Chapitre 2 : Modélisation du dialogue : intention versus convention
Le formalisme généralement adopté pour représenter un protocole est l’automate à états finis
(e.g., le célèbre « Request for Action » de Winograd et Flores [Winograd 1986]). Dans un tel
automate, les états représentent l’état de la conversation et les transitions représentent les actes
communicatifs réalisables.
Un protocole de communication peut être vu comme un projet conjoint conventionnel entre
les interlocuteurs [Pasquier 2005]. Un projet conjoint est une activité conjointe proposée par
l’un de ses participants et acceptée par le reste des participants (cf. section 1.1.1). Un tel projet
possède une phase d’entrée, un corps et une sortie. Chaque participant doit s’engager dans l’action
conjointe. Une fois que cela est fait, les participants exécutent leurs actions participatives.
Sous cet angle, un protocole peut être vu comme une spécification d’un enchaînement d’activités
participatives (ou d’autres actions conjointes). Notons que les phases d’engagement et de
désengagement de l’activité conjointe sont généralement contraintes par la tâche qui implique
l’usage du protocole.
Les protocoles de communication sont particulièrement utilisés dans le domaine de la communication
multiagent (voir, e.g., KQML [Finin 1994] et FIPA-ACL [FIPA 2000]). Certains
protocoles ont été utilisés pour la modélisation des interactions Homme-Homme. Nous présentons
l’une de ces approches.
Modéliser les communications humaines par des protocoles Dans le cadre de la modé-
lisation d’interactions humaines pour la planification multiagent, Pauchet a proposé un modèle
de l’interaction basé sur l’utilisation d’automate temporisé [Pauchet 2006]. Le modèle d’interaction
se base sur l’étude d’un corpus d’interactions Homme-Homme (constitué d’échanges de
mails pour une tâche de réservation de voyage). Cette étude a fait apparaître la présence de
motifs d’interactions appelées échanges qui se répartissent en quatre catégories : demande d’information,
proposition d’information, envoi spontané d’information et traitement des erreurs.
Ces échanges sont caractérisés par : (i) le rôle des participants : initiateur de l’échange ou partenaire,
(ii) un but de l’initiateur qui motive l’échange, (iii) un état de satisfaction (réalisation
ou non du but de l’initiateur), et (iv) un état de succès (établissement de l’échange entre les
interlocuteurs).
Pauchet propose une modélisation sous forme d’automates temporisés des échanges. Ainsi,
chaque échange admet une paire d’automates décrivant les règles conventionnelles pour l’initiateur
et l’autre participant de l’échange 4
. Les transitions dans les automates temporisés sont
associées à 3 éléments : (i) une garde portant sur les valeurs des chronomètres (aussi appelés
horloge), utilisée pour spécifier des contraintes de temps, (ii) une étiquette représentant une
action, et (iii) des actions de remise à zéro de certaines horloges. La notion de temps dans les
échanges (et donc dans les automates temporisés) a été introduite pour considérer la clôture des
échanges en cas d’inactivité en terme d’occurrence d’actes de langage au bout d’un certain délai
(cf. [Pauchet 2006], p. 109). Les actions des transitions sont des actions dialogiques d’envoi ou
de réception d’actes de langage. Une action d’envoi (send) dans l’automate de l’initiateur de
l’échange (Xini où X est une lettre identifiant l’échange) admet son action conjuguée (receive)
dans l’automate de l’interlocuteur de l’échange (Xint). La figure 2.1 (p. 45) présente l’automate
de l’initiateur pour l’échange de demande d’information. Ce dernier présente un motif
d’interaction permettant à l’initiateur de demander des informations à son interlocuteur. Cet
4. Comme le signale Pauchet, « Chaque échange aurait pu être représenté avec un automate. Cependant,
utiliser deux automates par échange permet de mettre en avant le point de vue de chaque interlocuteur. » [Pauchet
2006] (pp. 110-111).2.2. Approches conventionnelles 45
échange permet d’utiliser des performatives de demande d’information (query), de raffinement
de la demande (refine) ou d’annulation (cancel).
Figure 2.1: Automate de l’initiateur pour la demande d’information dans l’approche de Pauchet [Pauchet
2006]
L’approche de Pauchet dépasse le cadre conventionnel strict en proposant un lien avec les
attitudes mentales de l’agent. Dans l’esprit des approches intentionnelles, Pauchet présente une
sémantique mentaliste [Singh 1998] aux actes de langage utilisés. Ils sont vus comme des opé-
rateurs ayant des préconditions et des effets en terme d’états mentaux des participants. Par
exemple, les préconditions de l’acte inform spécifient que le locuteur croit la proposition P
(hypothèse de sincérité) et a le désir d’informer l’interlocuteur de cette proposition. L’envoi du
message conduit le locuteur à ajouter à ses croyances la proposition pSent(M) où M est le message.
La réception du message conduit le partenaire à ajouter dans ses croyances la proposition
P.
Pauchet note la présence de dialogues incidents dans le corpus étudié (cf. section 1.1.2).
Ceux-ci correspondent à des « énoncés non-attendus » dans le cours idéal de l’interaction. Le
principal type de dialogue incident est dû à une demande d’information sous spécifiée nécessitant
une clarification. Pour gérer ce cas, Pauchet a mis en place un acte de dialogue spécial refine
qui permet de compléter la demande (cf. états s1 et s7 de l’échange représenté figure 2.1). De
manière générale, « Il y a un dialogue incident à chaque émission d’une performative de type
refine » [Pauchet 2006] (p. 98). La solution proposée pour gérer ces digressions est donc sur
l’axe intra-échange plutôt que sur l’axe inter-échange. Le principal avantage de cette solution
est d’être simple et efficace. Néanmoins, on peut se demander si cette solution ne nuit pas à
la portée de l’échange qui semble être sur l’axe de la tâche sous-jacente du dialogue alors que
le refine semble agir sur l’axe interactionnel du dialogue. Pauchet note par ailleurs que cette46 Chapitre 2 : Modélisation du dialogue : intention versus convention
solution ne couvre pas l’ensemble des cas observés dans le corpus, à savoir une imbrication de
refine.
2.2.3 Modèles fondés sur les questions en discussion
Dans cette section, nous présentons la théorie « Question Under Discussion » (QUD) 5 du
linguiste Ginzburg. Puis, nous voyons comment cette théorie a été mise en œuvre dans le système
de dialogue implémenté GoDiS.
Questions en discussion
La théorie « Question Under Discussion » (QUD) est une théorie conventionnelle fondée sur
une sémantique formelle des questions [Ginzburg 1994,Ginzburg 1996,Ginzburg 2012]. Ce qui
fait l’originalité de ce modèle est que Ginzburg propose une version structurée d’un tableau de
conversation nommé « dialogue gameboard » (DGB) en plus de la sémantique des questions.
Ginzburg étudie les effets des couples question-réponse sur le tableau conversationnel. Le tableau
est enrichi par des coups dialogiques 6 qui sont des actes de dialogue contextuels (cf. section 1.2.2).
Nous allons maintenant aborder plus en détails cette théorie. Nous nous intéressons tout
d’abord à la sémantique des conditions de résolution de ces questions. Puis, nous voyons la
structure de la DGB inclue dans le cadre plus large du « State Of Affair » (SOA). Enfin, nous
présentons brièvement les effets des questions et assertions sur la DGB.
Relations entre questions et réponses Nous présentons de manière informelle les relations
entre les questions et les réponses déterminées par Ginzburg. Une présentation plus complète est
disponible dans [Ginzburg 1995a, Ginzburg 1995b, Ginzburg 1996]. Ginzburg propose une vue
théorique de la sémantique formelle sur la notion de question basée sur la théorie des situations
de Barwise et Perry [Barwise 1981]. Dans le modèle de Ginzburg, une question est vue comme
une expression en attente d’un ou plusieurs arguments (la ou les réponses à la question). La
réponse peut être une proposition ou une simple expression (une réponse courte). Une question
est représentée par une lambda expression typée. La réponse à cette question doit être du type
de la question. Ginzburg propose un ensemble de relations liant une question et ses réponses et
les questions entre elles que nous allons maintenant présenter.
Réponses à propos Les réponses à propos 7
sont des réponses qui sont liées à une question
indépendamment de leur exactitude ou du niveau de détails. L’avantage de considérer les questions
à propos est d’éliminer les réponses n’ayant aucun rapport avec la question. Considérons
l’exemple du dialogue 2.1.
5. Cette théorie est également appelée KoS [Ginzburg 2012].
6. Traduction de « dialogue move »
7. Traduit de l’anglais aboutness et about2.2. Approches conventionnelles 47
S1 : Est-ce que Paul vient demain ?
H2 : oui
H’2 : non
H”2 : peut-être
H”’2 : J’adore le chocolat.
Dialogue 2.1 – Exemple de réponses à propos dans l’approche de Ginzburg (réponses H’, H” et
H”’).
Dans le dialogue 2.1, les trois premières réponses de H sont à propos. Le dernier énoncé
abordant le chocolat n’est pas considéré comme étant une réponse.
Réponses résolvantes La notion de réponse résolvante à une question est définie par
Ginzburg comme permettant de capturer le point de vue relatif d’un agent qui estime que
sa question a été discutée suffisamment pour être considérée comme terminée et passer à un
autre sujet. Ce qui signifie que : (i) la réponse résout positivement ou négativement la question
sémantiquement, (ii) les inférences liées à cette réponse permettent de remplir les buts de l’agent
qui a posé la question. La notion de résolution est nécessairement relative à l’agent. En d’autres
termes, le fait qu’une réponse soit résolvante dépend des buts de l’agent.
S1 : Quelle heure est-il ?
H’2 : Pas loin de 19h !
H”2 : Il est 10h04min32sec.
Dialogue 2.2 – Exemples de la relativité de la notion de résolution dans l’approche de Ginzburg
Le dialogue 2.2 présente un exemple de deux réponses illustrant la relativité de la notion
de résolution. Le première réponse (H’2) est résolvante dans le contexte de deux collègues de
bureau s’interrogeant sur l’heure pour savoir s’il est temps de rentrer chez eux par exemple. La
deuxième réponse (H”2) est résolvante dans un contexte de deux chimistes tentant de mesurer
avec précision le temps d’exécution d’une réaction chimique. Dans le premier contexte, la
deuxième réponse (« Il est 10h04min32sec. ») semblerait trop précise. Alors que dans le deuxième
contexte, la première réponse (« Pas loin de 19h ! ») ne serait pas résolvante.
Relation de dépendance entre questions Ginzburg définit également une relation de
dépendance entre deux questions : q1 dépend de q2 si et seulement si q1 est résolue par un
fait τ seulement si q2 est aussi résolue par τ . L’exemple classique pour illustrer la relation de
dépendance entre questions est reporté dans le dialogue 2.3.
S1 : Qui a assassiné John ?
H2 : Qui était en ville hier ?
Dialogue 2.3 – Exemple de questions dépendantes dans l’approche de Ginzburg
Dans le dialogue 2.3, la question « Qui a assassiné John » dépend de « qui était en ville hier ».
De manière symétrique, il est possible de définir la relation d’influence. Ainsi, si q1 dépend de
q2 alors q2 influence q1.48 Chapitre 2 : Modélisation du dialogue : intention versus convention
Le tableau de conversation Afin de structurer le fonds commun conversationnel de chacun
des interlocuteurs au cours du dialogue, Ginzburg introduit la dialogue gameboard (DGB) [Ginzburg
1994,Ginzburg 1996,Ginzburg 2012]. Cet objet est dit quasi-partagé (cf. section 2.2.1). En
effet, chaque interlocuteur possède sa propre version de la DGB. Des différences peuvent apparaître
entre les DGB des participants du fait d’une communication imparfaite. Selon Ginzburg,
si les deux tableaux sont différents les agents vont chercher à identifier et corriger ces différences.
La DGB présente trois champs :
— FACTS : ensemble de faits mutuellement acceptés ;
— QUD (Question Under Discussion) : ensemble partiellement ordonné qui spécifie les questions
en cours de discussion. Si q est maximale dans QUD, il est possible de fournir une
information spécifique à q (notamment en passant par des réponses courtes comme des
ellipses). Ainsi, cette structure permet de mettre en avant les questions qui sont saillantes
dans la conversation. Larsson remarque que les questions dans QUD possèdent les caractéristiques
suivantes [Larsson 2002a] (p. 156) : (a) elles sont ouvertes à la discussion ;
(b) elles sont disponibles pour une résolution elliptique ; (c) elles sont explicitement posées ;
(d) elles sont non encore résolues.
— LATEST-MOVE : le ou les derniers coups dialogiques.
En outre, Ginzburg propose de représenter les buts de l’interlocuteur et ses capacités inférentielles.
Contrairement à la DGB qui est quasi-partagée, cette partie est privée. Elle est appelée
unpublicized mental situation (UNPUB-MS(DP)) 8
. Nous avons vu que le fait qu’une réponse
soit résolvante était relative à l’interlocuteur. Cela revient à dire que c’est relatif à UNPUBMS(DP).
L’ensemble DGB et UNPUB-MS(DP) est nommé State of Affair (SOA). Il forme une
structuration du contexte de type 5 vu en section 2.2.1 avec une partie publique relative au
point de vue de l’agent et une partie privée.
À chaque instant, un interlocuteur peut donc choisir entre ajouter quelque chose à la DGB
ou aborder une question du champ QUD. Les règles de mise à jour de la DGB s’appuient sur
la sémantique précédemment définie (cf. section 2.2.3). A priori, n’importe quelle question peut
être posée tant qu’elle n’est pas résolue (i.e., si une réponse résolvante a déjà été donnée ou bien
que cette réponse se trouve dans FACTS). Dès que le locuteur pose une question q, le locuteur et
son interlocuteur l’ajoute au champ QUD. L’allocutaire peut alors accepter la question. Dans ce
cas il doit produire une réponse spécifique à q. Les énoncés qui sont disponibles comme réponse
spécifique à une question sont les suivants : (a) une réponse résolvante ; (b) des réponses à
propos ; (c) une question influençant q ; (d) des réponses à propos des questions influençantes.
Enfin, la question maximale q dans QUD est dépilée lorsque que : (a) un fait résout q relativement
à UNPUB-MS(DP) (où DP est celui qui a produit la question) ; (b) aucune information
à propos de q ne peut être fournie.
L’avantage de QUD est de proposer une version structurée d’un tableau de conversation ainsi
que des protocoles de mises à jour. Cette théorie est le point de départ choisi par Larsson pour
le système GoDiS que nous allons maintenant aborder.
« Issue-based Dialogue Management »
GoDiS [Larsson 2000a] et son successeur IBiS [Larsson 2002a] sont des modèles de dialogue
basés sur QUD et implémentés en Prolog avec le framework trindikit [Larsson 2000b, Lars-
8. DP = « Dialogue Participant »2.2. Approches conventionnelles 49
son 2002b]. Nous référons à ces systèmes en utilisant le nom GoDiS. GoDiS est un exemple
complet de gestionnaire de dialogue basé sur une approche contextuelle (cf. section 1.2.2). La
génération et l’interprétation des énoncés sont perçus comme la mise à jour et l’exploitation d’un
état d’information représentant le contexte et l’état du dialogue à un instant donné. En outre,
GoDiS intègre des mécanismes d’accommodation de l’état d’information (cf. section 2.2.1). Pour
finir, GoDiS gère certains processus de gestion de la communication (cf. sections 1.1.2 et 2.2.1).
En somme, ce système est la parfaite illustration de l’approche contextuelle associée à la mise
en œuvre de mécanismes d’accommodation et de gestion du dialogue.
La présence de mécanismes de planification dans GoDiS peut interroger sur sa classification
en tant qu’approche conventionnelle de la modélisation du dialogue. GoDiS utilise des plans de
dialogue figés qui ont un double rôle : fonder le comportement coopératif du système et repré-
senter les relations de dépendance entre les questions. Ces plans de dialogue sont à différencier
des plans du domaine utilisés dans les approches intentionnelles. Les plans du domaine sont
utilisés comme base de raisonnement pour la production du comportement coopératif (éventuellement
dialogique) du système. Ainsi, les approches intentionnelles ne nécessitent pas de plan de
dialogue. Grossièrement, un plan dans GoDiS représente une décomposition d’une question en
un ensemble de questions influençantes. Pour répondre à une question sur le prix d’un voyage,
le plan représente le soulèvement d’autres questions (villes de départ et d’arrivée, moyen de
transport, . . . ). Ces plans sont figés et représentent une connaissance procédurale pour mener
le dialogue. GoDiS évite ainsi les processus de reconnaissance d’intention et d’inférence de
plan [Larsson 2002a] (pp. 33-34). En outre, les énoncés de l’utilisateur ne sont pas analysés en
terme d’intention sous-jacente. Un ou plusieurs coups dialogiques sont attribués à un énoncé
sur la base de marqueurs linguistiques de surface. En somme, GoDiS fonde son comportement
coopératif dialogique sur des connaissances procédurales conventionnelles. L’absence de plan du
domaine et de mécanisme de reconnaissance d’intention nous pousse à ranger GoDiS parmi les
approches conventionnelles.
L’état d’information GoDiS s’articule autour de l’état d’information (IS). C’est une repré-
sentation structurée du contexte et de l’état du dialogue à un instant donné. L’état d’information
de GoDiS se structure de la façon suivante :
PRIVATE :
AGENDA : OpenQueue(Action)
PLAN : OpenStack(PlanConstruct)
BEL : Set(Proposition)
TMP : "
USR : Tmp
SYS : Tmp #
NIM : OpenQueue(Pair(DP,Move))
SHARED :
COM : Set(Proposition)
ISSUES : OpenStack(Question)
QUD : OpenStack(Question)
ACTIONS : OpenStack(Action)
PM : OpenQueue(Move)
LU : "
SPEAKER : Participant
MOVES : Set(Move) #
L’état d’information suit le principe du State of Affair de Ginzburg. Ainsi, il est séparé en50 Chapitre 2 : Modélisation du dialogue : intention versus convention
deux parties : une privée et une partagée.
La partie privée (PRIVATE) équivaut au UNPUB-MS de Ginzburg. Elle est principalement
utilisée pour la gestion de la planification. Elle est constituée d’un champ PLAN qui stocke les plans
qui sont en train de se dérouler (les questions qui vont être posées, etc.). Ces plans définissent
des relations de dépendance entre les questions. Par exemple, une question pour connaître le
prix d’un voyage est dépendante de questions concernant la ville de départ, la ville d’arrivée et le
moyen de transport. Le champ PLAN a une portée sur le « long terme » contrairement au champ
AGENDA dont la portée est plus courte. Ce dernier va en effet gérer les actions à faire dans un
futur très proche (poser une question, répondre à une question, etc.). Le champ BEL (belief) est
un ensemble de propositions représentant les connaissances du système et qui ne sont pas encore
partagées (e.g., le prix du billet de train avant d’être communiqué à l’utilisateur). Le champ NIM
(non-integrated moves) est une structure permettant de stocker les coups dialogiques qui n’ont
pas encore été intégrés par le système. Il est utilisé lors des mécanismes de grounding. Enfin,
le champ TMP est une structure temporaire permettant de sauvegarder les champs importants
de l’IS afin de permettre un retour en arrière. En effet, le système suppose que l’utilisateur va
comprendre ce qu’il dit. Cependant, si l’utilisateur marque son incompréhension par un feedback
négatif (e.g., « Pardon ? »), le champ TMP/SYS permet de revenir en arrière. De la même manière,
le système va supposer qu’il comprend tout ce que lui dit l’utilisateur. Si ce n’est pas le cas,
c’est le champ TMP/USR qui va permettre de restaurer les champs et de fournir une réaction
appropriée.
La partie partagée (SHARED) est l’équivalent de la DGB de Ginzburg. C’est la représentation
des informations partagées par les interlocuteurs pendant le dialogue. Elle est constituée du
champ COM (commitments) qui est un ensemble de propositions qui ont été établies. Le champ
ISSUES représente les questions qui sont en cours, qui ne sont pas résolues et qui ne sont pas
QUD-maximales (ce qui revient à dire qu’elle ne sont pas disponibles pour une résolution par une
réponse courte). Le champ QUD, quant à lui, représente les questions qui ont les mêmes propriétés
que les précédentes mais qui sont QUD-maximales. Le champ ACTIONS regroupe les actions en
cours. Le champ PM (previous moves) contient l’ensemble des coups dialogiques associés aux
précédents énoncés qui ont été établis (i.e., l’historique du dialogue). Enfin, le champ LU (Last
Utterance) stocke l’interlocuteur et l’énoncé précédent qui a été intégré par le système.
Gestion du dialogue Le système est constitué d’un ensemble de modules et de ressources.
Les modules ont accès en lecture et/ou écriture à l’état d’information. Les ressources servent à
inclure les éléments spécifiques au domaine d’application. La gestion du dialogue dans GoDiS
est effectuée en fonction de l’état d’information et en mettant à jour l’état d’information à l’aide
de règles. Ces règles sont spécifiées dans les modules du « Dialogue Move Engine » (DME). Ces
dernières sont constituées d’un nom, d’une liste de préconditions et d’une liste d’effets. Si les
préconditions d’une règle sont vérifiées, alors les effets de la règle sont appliqués.
Le DME inclut deux modules principaux. Le premier est le module update qui regroupe un
ensemble de règles dont le rôle est de gérer le processus d’interprétation des coups dialogiques effectués
par les interlocuteurs. Il inclut les règles d’intégration qui permettent d’intégrer les coups
dialogiques (answer, ask, etc.) du système et de l’utilisateur dans l’IS. Le second module select
contient les règles permettant au système de (i) sélectionner les prochains coups dialogiques
qu’il va effectuer, et (ii) trouver une nouvelle action à effectuer (en fonction du plan courant
ou de l’état de l’IS). L’application des règles est coordonnée par des algorithmes de mise à jour
spécifiques à chaque module. Ces algorithmes contraignent l’ordre d’exécution des règles. Dans2.2. Approches conventionnelles 51
le cas des modules select et update, ces algorithmes vont appeler les règles de chaque module
dans un ordre fixé. L’étape de sélection permet au système de générer des actions dialogiques ou
de se mettre en attente d’une action de la part de l’utilisateur. Après chaque action dialogique,
l’algorithme de mise à jour de l’état d’information est appelé. Le système retourne alors à la
phase de sélection.
En sus, Larsson propose un ensemble de règles permettant d’accommoder l’état d’information
à un coup dialogique inattendu de l’utilisateur.
Gestion de l’accommodation Larsson propose un ensemble de mécanismes permettant de
gérer l’accommodation de l’état d’information en fonction des réponses données par l’utilisateur
[Larsson 2002a,Cooper 2010]. Ce mécanisme permet de prendre en compte des coups dialogiques
inattendus par l’état courant du dialogue.
Un premier type d’accommodation permet de répondre à une question qui n’a pas encore
été posée. L’accommodation de plan permet à l’utilisateur de répondre à une question qui n’est
pas en discussion. Le système infère alors la question et intègre sa réponse. L’accommodation
globale permet à l’utilisateur de répondre en avance à une question dès lors qu’elle fait partie du
plan courant. Cela permet de prendre en compte des « sur-réponses » comme dans l’exemple :
« – Où souhaitez-vous aller ? – À Paris, depuis Rouen, en train ». Au niveau de l’IS, cette
accommodation se déroule du champ /private/plan vers le champ /shared/issues.
Un second type d’accommodation permet à l’utilisateur de changer la réponse qu’il a donnée
à une question et cela à n’importe quel moment du dialogue. Ce mécanisme, appelé ré-
accommodation, permet de remplacer la réponse présente dans /shared/com par la nouvelle
réponse. Le système est capable de re-soulever (reraising) un plan. En effet, il est nécessaire de
re-considérer les réponses des questions qui sont dépendantes de la question dont la réponse a
été modifiée.
Gestion de la communication Larsson propose des mécanismes de gestion des feedbacks en
partant des niveaux de communication d’Allwood et de Clark (cf. section 1.1.2) [Larsson 2002a,
Larsson 2003]. Les feedbacks sont des coups dialogiques sur différents niveaux. Le système est
capable de produire des feedbacks positifs du niveau perception jusqu’au niveau acceptation. Il
est également capable de produire des feedbacks négatifs sur l’ensemble des niveaux. En outre,
le système peut produire des demandes explicites de clarification au niveau compréhension. Ces
feedbacks sont illustrés dans le tableau 2.3.
Les feedbacks utilisables par l’utilisateur et pouvant être traités par le système sont plus
réduits. Celui-ci peut produire des feedbacks négatifs au niveau perception. De plus, il peut
accepter ou rejeter des questions. Certains travaux ont étudié plus en détails les demandes de
clarification de l’utilisateur et leur intégration à GoDiS [Purver 2004].
Synthèse sur le système GoDiS
GoDiS est un exemple complet de système de dialogue implémenté basé sur la structuration
d’un contexte dialogique. La structuration et la sémantique des questions et des réponses sont
issues de la théorie QUD du linguiste Ginzburg. Il a été utilisé avec succès comme base pour
construire d’autres systèmes. Par exemple, il a permis de concevoir un système de dialogue pour
un lecteur multimédia [Hjelm 2005] ou encore un système d’interaction multimodale embarqué
dans une voiture [Larsson 2011]. Il est également à la base de Cogni-CISMeF, un prototype52 Chapitre 2 : Modélisation du dialogue : intention versus convention
Niveau Exemples
Contact - « I didn’t hear anything from you. »
Perception - « Pardon ? », « I didn’t hear what you said. »
+ « I heard “to Paris”. »
Compréhension - « I don’t understand. »
(sémantique) + « Paris. » (répétition/reformulation)
Compréhension - « I don’t quite understand. »
(pragmatique) n « To Paris, is that correct ? »
+ « To Paris. »
Réaction/Acceptation - « Sorry, Paris is not a valid destination. »
+ « Okay. »
Tableau 2.3: Gestion de feedbacks du système dans GoDiS [Larsson 2003]. « - » = feedback négatif,
« + » = feedback positif, « n » = feedback neutre.
d’agent assistant pour la recherche d’information auquel nous avons contribué [Loisel 2011,Loisel
2012]. Nous défendons l’idée que GoDiS est un système de dialogue proposant des mécanismes
de gestion de phénomènes dialogiques avancés indépendants de la tâche en s’appuyant sur un
état d’information. Il reste néanmoins limité à une tâche de recherche d’information simple tout
en étant difficile à étendre.
2.2.4 Avantages et limites des approches conventionnelles
Nous avons présenté certains aspects conventionnels représentatifs de modèles du dialogue
pour l’interaction Homme-Machine. Au contraire des approches intentionnelles qui se focalisent
sur les attitudes privées des agents, les approches conventionnelles se basent sur les notions de
fonds commun et de convention mettant en avant ce qui est partagé par les interlocuteurs. Les
approches conventionnelles supposent l’existence d’un lien conventionnel entre les énoncés qui
se concrétise par l’existence de régularités, les motifs d’interaction. Le problème n’est pas de
savoir comment ces régularités sont apparues. Leur existence est supposée, tout comme le fait
que les interlocuteurs sont socialement poussés à s’y conformer. Ce sont ces dernières suppositions
qui peuvent laisser penser que les approches conventionnelles ne feraient que décrire des
motifs expliqués par les approches intentionnelles. Nous revenons sur ce point en section 2.3.
De manière générale dans ces approches, un énoncé est cohérent s’il correspond à ce qui est
conventionnellement attendu au cours du dialogue.
Les approches conventionnelles structurelles étudient les motifs d’interaction sans se focaliser
sur les intentions sous-jacentes. Cela provient de l’observation qu’un grand nombre de types
d’énoncés ne semble pas être consciemment émis mais plutôt conventionnellement déclenché par
le contexte (l’exemple canonique étant les salutations). Ces études conduisent à la production
de règles décrivant les séquences admissibles de types d’énoncés (e.g., sous forme de protocoles
ou de grammaires de dialogue). La faiblesse la plus criante de ces approches structurelles est
très certainement leur manque de flexibilité. Elles sont souvent mises en défaut par un énoncé
non-attendu comme illustré par les problèmes de dynamique des échanges de Pauchet (cf. section
2.2.2). Cela nous amène à une critique plus générale des protocoles de communication [Maudet
2002b]. Nous avons pu voir que les protocoles manquaient de flexibilité. En particulier, il
est indispensable de préférer un ensemble de petits protocoles qu’il est possible de composer. En2.2. Approches conventionnelles 53
outre, les protocoles pour l’interaction Homme-Machine mêlent généralement la modélisation
de plusieurs niveaux de l’interaction (cf. section 1.1.2). Dans l’idéal, les protocoles devraient se
contenter de gérer les actions participatives propres au niveau sur lequel ils interviennent. Or,
nous constatons l’intégration dans leur modélisation d’autres préoccupations comme la gestion
des entrée/sortie de l’activité conjointe et des processus de gestion de l’interaction (voir, par
exemple, les actes cancel, refine et notUnderstood de l’approche de Pauchet). En tant qu’activité
conjointe, il est nécessaire d’étudier les mécanismes qui permettent aux participants du dialogue
d’établir le protocole en usage. Ensuite, le formalisme d’automate semble trop rigide. Il est en
particulier difficile de considérer des messages inattendus par le protocole. Enfin, les protocoles
représentent des projets conjoints conventionnels. À cet égard, l’approche de Pauchet (comme
bien d’autres approches) réserve un rôle ambigu aux protocoles. D’un côté, les protocoles sont
des dispositifs de coordination partagés par les interlocuteurs (i.e., faisant partie du fonds commun).
D’un autre côté, la sémantique mentaliste spécifie des conditions d’applicabilité des actes
de langage en terme d’attitudes privées. Le télescopage des niveaux public et privé brouille la
portée de tels protocoles. En tant que dispositif partagé de coordination, il semble nécessaire
de fournir des spécifications à un haut niveau d’abstraction et idéalement indépendantes des
spécificités des participants impliqués dans la communication (plus particulièrement, des dispositions
privées comme les croyances et les désirs qui correspondent davantage à un niveau lié à
l’intentionnalité et à la tâche sous-jacente). Une alternative consiste à spécifier une sémantique
publique [Singh 1991,Yolum 2004].
Nous avons également abordé l’approche QUD qui se focalise sur la formalisation du tableau
de conversation en terme de questions et de leurs réponses. En tant que telle, nous pouvons la
considérer comme une approche se focalisant sur l’étude du motif d’interaction question/réponse.
Un énoncé est cohérent en fonction du tableau de conversation s’il soulève une nouvelle question
ou s’il est spécifique à une question posée (réponse résolvante, à propos, question dépendante,
etc.). Notons à ce propos qu’elle envisage le cas d’une question adjacente à une autre dépassant
le strict motif question/réponse. Cette approche étudie finement le rôle des questions dans le
dialogue mais délaisse les autres types d’énoncés (requêtes, suggestions, salutations, assertions,
etc.). Enfin, l’approche de GoDiS basée sur QUD nous a permis d’illustrer des concepts comme
la structuration du tableau de conversation, une approche contextuelle des actes de dialogue,
l’accommodation, et la gestion de la communication. La force de ce système est de gérer de
nombreux phénomènes dialogiques de manière indépendante de la tâche. L’accommodation tire
partie des relations de dépendance entre les questions et de la partie publique de l’état d’information
représentant les questions en discussion. Elle permet de prendre en compte certains coups
dialogiques inattendus. La gestion de l’interaction intègre des coups dialogiques sur plusieurs
niveaux inspirés d’Allwood et de Clark. Cela permet au système et à l’utilisateur de gérer des
cas simples de problèmes de perception, compréhension et acceptation. L’interaction est gérée
de manière contextuelle sans avoir recours à des meta-plans. En outre, le modèle du dialogue se
concentre sur les questions en leur donnant un statut sémantique privilégié. Les plans de dialogue
se résument à des actions permettant de poser ou de répondre à des questions. Ainsi, l’intervention
du domaine se cantonne aux ressources qui spécifient des lexiques et des plans de dialogue
(i.e., les questions à poser et leurs relations de dépendance). Néanmoins, GoDiS se limite à
la modélisation des questions/réponses dans le dialogue en se basant sur QUD. La taxonomie
d’actes de dialogue liés à la tâche est fortement réduite. L’ajout de nouveaux actes de dialogue
est une tâche loin d’être triviale comme le démontre la tentative de Loisel d’intégration des actes
inform, suggest et offer [Loisel 2008]. Le défaut majeur de l’approche adoptée par GoDiS de54 Chapitre 2 : Modélisation du dialogue : intention versus convention
mise à jour de l’état d’information sous forme de règles est qu’il est difficile de prédire les effets
des règles et de leurs interactions lorsque leur nombre devient trop important. Ainsi, une règle
gère souvent plusieurs aspects du dialogue (mise à jour conventionnelle du tableau, gestion de
l’interaction et de l’accommodation, gestion des plans de dialogue). En conséquence, la système
est difficile à étendre. L’ajout de règles augmente la difficulté de prédire le comportement du
système.
Pour conclure, précisons que les approches conventionnelles capturent la cohérence locale
des énoncés. Il reste néanmoins nécessaire d’expliquer comment émerge une cohérence globale
sur l’ensemble du dialogue. En d’autres termes, il est nécessaire d’expliquer la structure sousjacente
à l’agencement des motifs d’interaction. Par exemple, Pauchet tente de dépasser le cadre
conventionnel strict en définissant un but de l’initiateur motivant l’échange. Ce but est relié à
l’intention générée par l’architecture BDI de l’agent utilisant les protocoles. Un germe d’idée
apparaît : les approches intentionnelles capturent la cohérence à haut niveau tandis que les protocoles
assurent la cohérence locale. Néanmoins, cette approche repose sur de fortes hypothèses
de coopération. En ne définissant qu’un but de l’initiateur motivant l’échange, cette approche
explique la participation du partenaire en terme d’adoption de but. Or, cette hypothèse n’est
pas tenable pour des dialogues où les buts des interlocuteurs divergent (e.g., argumentation).
Rappelons qu’il est possible d’entretenir des dialogues conflictuels tout en étant parfaitement coopératif
(cf. section 2.1.4). De manière générale, il est nécessaire d’expliquer le lien entre l’aspect
conventionnel local du dialogue (i.e., les motifs d’interaction), ce qui motive les interlocuteurs
à participer à ces activités locales et l’émergence de structure de plus haut niveau comme la
structure intentionnelle du dialogue.
2.3 Discussion
Les approches intentionnelles et conventionnelles de la modélisation du dialogue sont généralement
vues comme rivales [Pulman 1998,Hulstijn 2000a,Maudet 2001]. Alors que les approches
intentionnelles se concentrent sur l’agent et ses états mentaux, les approches conventionnelles se
focalisent sur la structure du contexte dialogique. D’autre part, les unités d’interaction utilisées
diffèrent dans leur définition. D’un côté, l’approche intentionnelle relie les actes de langage aux
intentions des agents via la force illocutoire. De l’autre côté, on parle plus volontiers de coups
dialogiques qui sont vus comme des fonctions modifiant le contexte dialogique au sens large 9
.
Enfin, les approches conventionnelles telles que les grammaires de dialogue sont généralement
perçues comme des approches descriptives à l’opposé des approches intentionnelles qui sont vues
comme génératives.
Pourtant, un certain nombre de chercheurs proposent de voir ces approches comme complémentaires
et d’aller vers des agents dialogiques délibératifs/réactifs [Traum 1997, Pulman
1998, Hulstijn 2000a, Lewin 2000, Maudet 2001]. Cette complémentarité vient du fait que
les processus de communication peuvent être considérés comme des actions conjointes entre un
locuteur et ses allocutaires [Clark 1996]. La caractéristique clé d’une action conjointe est la coordination
d’actions participatives par au moins deux personnes. En partant du constat que les
humains ne peuvent pas délibérer indéfiniment dans une activité opportuniste et dynamique telle
9. Comme nous l’avons vu (cf. section 1.2.2), ces approches diffèrent en fait en fonction de ce que représente le
contexte dialogique. Si celui-ci se résume aux états mentaux, alors les coups dialogiques correspondent aux actes
de langage classiques.2.3. Discussion 55
que le dialogue, on parvient à la conclusion que la coordination doit reposer sur des dispositifs
tels que les conventions.
De manière intéressante, les théories de l’action et de la planification conjointe
(e.g., [Grosz 1996]) font également apparaître ce besoin d’enchaînement stéréotypique d’actions
(appelé recettes) et de protocoles conventionnels de régulation de la coopération [Hulstijn 2000b].
Si les processus de communication sont eux-mêmes vus comme des actions conjointes, alors ils
doivent également admettre leurs propres recettes. Il est donc nécessaire de déterminer ces recettes
et les structures pour les manipuler. Comme le précise [Maudet 2001], ces modèles de
l’action conjointe pour la communication doivent capturer l’idée de coopération sur plusieurs
niveaux comme au jeu d’échec où il est possible de coopérer sur l’activité du jeu tout en poursuivant
des buts opposés (chaque joueur souhaite gagner la partie). Or, ces modèles sont pour le
moment limités aux actions conjointes strictement coopératives.
En outre, il est clair que les approches intentionnelles ne capturent pas tous les phénomènes
dialogiques dès lors que le dialogue est vu comme une activité opportuniste et sociale. Non seulement
certains énoncés sont susceptibles d’être déclenchés conventionnellement par la situation
mais en plus certaines séquences d’actes ne peuvent pas être planifiées [Pulman 1998] (typiquement
les demandes de clarification). Les approches conventionnelles ne se contentent donc pas
de décrire les motifs expliqués par les approches intentionnelles. Au contraire, elles permettent
de capturer d’autres phénomènes comme par exemple des phénomènes sociaux (e.g., répondre
« Je ne sais pas. » à une question).
Enfin, il semble excessif que nous planifions toutes nos interventions comme des salutations,
des remerciements (e.g., « de rien ! ») ou même nos réponses à des questions (sauf lorsqu’on
souhaite être coopératif). D’un point de vue pratique, la prise en compte d’une partie conventionnelle
permet de simplifier la gestion du dialogue.Chapitre 3
Vers des modèles mixtes à base de jeux
de dialogue
Sommaire
3.1 Fondements des jeux de dialogue . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.1.1 Les jeux de dialogue comme scripts partagés . . . . . . . . . . . . . . . . . . . 58
3.1.2 Les jeux de dialogue comme recettes partagées . . . . . . . . . . . . . . . . . 60
3.1.3 Les jeux de dialogue comme projet conjoint . . . . . . . . . . . . . . . . . . . 62
3.1.4 Synthèse sur la métaphore des jeux de dialogue . . . . . . . . . . . . . . . . . 64
3.2 Les jeux de dialogue pour l’interaction Homme-Machine . . . . . . . . . . . . 64
3.2.1 Les jeux comme réseau de transition récursif . . . . . . . . . . . . . . . . . . . 65
3.2.2 Les jeux comme unités de type initiative-réponse cohérentes . . . . . . . . . . 66
3.2.3 Les jeux comme structures pour l’engagement dans le dialogue . . . . . . . . . 69
3.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.3.1 Vers un modèle normatif des jeux de dialogue basé sur les engagements . . . . 74
3.3.2 Avantages et limites des jeux de dialogue . . . . . . . . . . . . . . . . . . . . 78
3.3.3 Vers des modèles mixtes fondés sur des jeux de dialogue . . . . . . . . . . . . 81
Parmi les approches mixtes, nous pouvons distinguer celles qui cherchent à adapter les approches
intentionnelles en y ajoutant de nouvelles attitudes comme les obligations [Traum 1994b]
ou les pressions interactives [Bunt 1996] de celles qui s’intéressent à capturer dans des structures
spécifiques les motifs d’interaction apparaissant au cours du dialogue telles que les jeux de
dialogue. L’approche par jeux de dialogue a été défendue de manière convaincante comme étant
une structure à considérer pour lier approche intentionnelle et approche conventionnelle [Hulstijn
2000a,Maudet 2001]. C’est donc naturellement que nous nous intéressons à cette approche
en particulier.
La section 3.1 parcourt les fondements de la notion de jeux de dialogue pour l’interaction
Homme-Machine. La section 3.2 présente plusieurs formalisations envisagées afin de capturer
cette notion. La section 3.3 souligne les avantages des jeux de dialogue pour la modélisation
des interactions Homme-Machine, et montre l’intérêt du formalisme basé sur les engagements
sociaux.
3.1 Fondements des jeux de dialogue
L’intuition des jeux de dialogue provient des jeux de langage de Wittgenstein qui conçoit la
communication dans son activité sociale [Wittgenstein 1958] : les énoncés sont des coups dans
une activité qui la font progresser et celle-ci contraint les coups possibles en retour.58 Chapitre 3 : Vers des modèles mixtes à base de jeux de dialogue
Les jeux de dialogue ont reçu beaucoup d’attention dans le domaine de la dialectique
formelle [Hamblin 1970, Walton 1995] et dans le domaine des systèmes multiagent [Maudet
2002b,Pasquier 2005]. Pour notre part, nous nous intéressons aux jeux de dialogue utilisés
pour expliquer le dialogue humain et pour générer des dialogues artificiels à destination des
humains. L’idée de ces jeux est de fournir une structure permettant de formaliser les motifs
d’interaction observés dans des conversations humaines.
La section 3.1.1 présente les jeux de dialogue comme scripts partagés. Puis, la section 3.1.2
précise les jeux de dialogue en les envisageant comme recettes partagées. La section 3.1.3 af-
fine cette dernière vision en présentant les jeux de dialogue comme projets conjoints. Enfin, la
section 3.1.4 synthétise les caractéristiques essentielles des jeux de dialogue.
3.1.1 Les jeux de dialogue comme scripts partagés
Une des premières études de corpus de dialogues Homme-Homme qui a conduit à la structuration
de jeux de dialogue dans un but computationnel a été présentée par Levin et Moore [Levin
1977]. L’analyse d’une soixantaine de transcriptions de communications Homme-Homme via
un chat a permis de mettre en avant la présence de nombreuses régularités dans les échanges
sous la forme de motifs récurrents s’étendant sur plusieurs tours de parole. Les efforts se sont
concentrés sur les caractéristiques essentielles de ces motifs sous la forme d’une structure appelée
jeu de dialogue.
La structure d’un jeu de dialogue est composée de 3 champs :
— Paramètres : ils représentent les éléments qui varient dans les instances d’un jeu de dialogue.
Ici, il s’agit des participants et du sujet de l’interaction.
— Spécifications des paramètres : elles consistent en un ensemble de prédicats sur les paramètres
permettant d’expliciter les buts des participants ainsi que leurs connaissances. Ces
aspects restent constants lors de l’interaction.
— Composants : ils représentent les aspects qui évoluent lors de l’interaction. Il s’agit d’un ensemble
de sous-buts des participants, partiellement ordonnés dans le temps. Ils contiennent
aussi bien des actions dialogiques que des actions physiques sur le monde.
Les auteurs illustrent leur propos avec le jeu de dialogue d’aide reproduit dans le tableau 3.1.
Ce jeu de dialogue d’aide possède en paramètres les participants (assistant et demandeur) et
l’objet du jeu qui est la tâche t. La spécification des paramètres précise le contexte d’occurrence
de ce motif d’interaction. Elle indique que le demandeur d souhaite réaliser la tâche t et qu’il
en a le droit. Cependant, il n’est pas en mesure de la réaliser seul. L’assistant souhaite aider d à
réaliser t et en a la capacité. Les composants présentent une décomposition en sous-buts. Dans
ce cas, d doit décrire la situation (quel événement attendu a été observé) et le problème (quel
événement attendu n’a pas été observé). a doit ensuite lui proposer la solution sous la forme d’une
action qui permet de déclencher l’événement voulu. Le dialogue 3.1 présente une instanciation
d’un tel jeu (énoncés [5;6]). Les auteurs ont également défini d’autres jeux de dialogue : demande
d’action, demande d’information, investigation, instruction, mécontentement. Ces jeux sont tous
collaboratifs dans le sens où ils présentent des sous-buts des participants complémentaires les
uns aux autres.
En plus de la structuration des jeux de dialogue, Levin et Moore se sont intéressés à l’entrée
et à la sortie des jeux de dialogue par les interlocuteurs. L’entrée s’effectue par une phase de
proposition du jeu (bid). Elle permet d’identifier le jeu, d’indiquer l’intérêt de l’initiateur à3.1. Fondements des jeux de dialogue 59
Paramètres
a : Assistant
d : Demandeur
t : Tâche
Spécifications
des
paramètres
d est une personne a est une personne
d veut réaliser la tâche t a veut rendre d capable de réaliser t
d est autorisé à réaliser la
tâche t
a est capable de permettre à d de réaliser
t
d n’est pas en mesure de réaliser
t
Composants
d veut que a sache quel événement attendu a été observé
d veut que a sache quel événement attendu e1 n’est pas survenu
a veut que d connaisse l’action act1 qui va lui permettre de réaliser e1
a veut que d réalise cette action act1
Tableau 3.1: Exemple de jeu de dialogue d’aide dans l’approche de Levin et Moore
poursuivre ce jeu et d’en identifier les paramètres. La caractéristique de cette phase est qu’elle
peut être effectuée de plusieurs manières qui sont souvent brèves, voir complètement implicites.
Le dialogue 3.1 présente un exemple d’entrée explicite. Une phase de bid (S1) est suivie d’une
phase d’acceptation (H2) qui permet de reconnaître que le bid a été fait, d’identifier le jeu proposé
et ses paramètres et d’accepter de poursuivre le jeu ainsi paramétré. Les auteurs soulignent que
la fin d’un jeu peut prendre la même forme que son entrée : une phase de bid suivie d’une phase
d’acceptation. Ils notent la présence de trois autres possibilités : l’interruption ou la terminaison
spontanée causée soit par la satisfaction des buts du jeu, soit par l’impossibilité de la satisfaction
de ces buts.
S1 : Je peux te poser une question ?
H2 : OK
S3 : Tu connais bien les systèmes GNU/Linux ?
H4 : Oui !
S5 : Je me suis connecté en SSH sur mon serveur web. J’ai voulu lancer Firefox
mais il ne s’est pas affiché. Ça m’a mis : « Error : no display specified ».
H6 : Il faut que tu actives la redirection du serveur X. Fais un « ssh -X » [. . . ]
Dialogue 3.1 – Jeux de dialogue de demande d’information puis d’aide, bid explicite avec les
énoncés 1 et 2
Au-delà de la structuration intra-jeu, les auteurs abordent deux agencements possibles entre
les jeux (i.e. structuration inter-jeu) : le pré-séquencement et l’imbrication des jeux de dialogue.
Deux jeux de dialogue peuvent s’articuler sous forme d’une séquence. Le premier jeu sert à
initier l’autre jeu. Par exemple, le dialogue 3.1 présente un pré-séquencement de deux jeux
(énoncés [1;2] et [3;4]). Le premier permet d’effectuer un bid pour entrer dans le second. Le
jeu de recherche d’information dans les énoncés [3;4] sert à vérifier certains paramètres du jeu
de dialogue d’aide dans les deux derniers énoncés [5;6]. Ce dernier a pour but de résoudre un
problème sur un système GNU/Linux avec la commande SSH. Les auteurs précisent que les jeux
peuvent s’imbriquer les uns dans les autres. Ils ajoutent que l’imbrication stricte des jeux n’est60 Chapitre 3 : Vers des modèles mixtes à base de jeux de dialogue
pas nécessaire, et qu’en fait les participants passent souvent d’un jeu à un autre.
Cette première approche des jeux de dialogue, fondée sur l’étude d’un corpus de dialogue
Homme-Homme, permet de dresser les contours de la structure sous-jacente. Levin et Moore
ont mis en évidence des éléments de la structure intra-jeu et de la dynamique inter-jeu. Cette
approche admet plusieurs limites. Les jeux de dialogue sont structurés en terme de buts et sousbuts
sous forme de scripts partagés [Schank 1977]. Ils consistent en une liste – partagée entre
les interlocuteurs – d’actions à réaliser, aussi bien physiques que dialogiques. C’est ce genre de
structure que cherche à apprendre automatiquement l’approche de [Orkin 2013]. Ici, les jeux de
dialogue ne capturent pas uniquement les conventions des interactions dialogiques. Ils sont une
anticipation des modèles de l’action et de la planification conjointe [Grosz 1996]. Enfin, ils sont
tous collaboratifs puisque les buts décrits sont complémentaires. Ils ne permettent pas en l’état
de prendre en compte des situations dialogiques conflictuelles comme une dispute ou un débat.
3.1.2 Les jeux de dialogue comme recettes partagées
Mann (collègue de Levin et Moore) a ensuite formalisé plus clairement la notion de jeu de
dialogue [Mann 1988]
1
. Sa formalisation présente quelques variations par rapport à la version
de Levin et Moore que nous allons souligner.
Les participants ont des rôles à l’intérieur d’un jeu de dialogue : I pour Initiateur, et R pour
Responder que nous traduisons par Partenaire. Un jeu de dialogue est vu comme un triplet
(IP, GR, CC) :
— IP (Illocutionary Point) : le but de l’initiateur du jeu
— GR (Goal Responder) : ensemble non vide de buts du partenaire
— CC (Conventional Conditions) : ensemble de descriptions du monde du point de vue de I
appelé conditions conventionnelles du jeu.
Un jeu de dialogue entre deux participants est vu comme un moment particulier de l’interaction
où : (i) les rôles des participants sont fixés (initiateur ou partenaire), (ii) chacun des participants
poursuit ses propres buts à travers la réalisation de ce jeu (pas nécessairement compatibles), et
(iii) un ensemble de conditions conventionnelles sont adoptées pendant la durée du jeu. Mann
propose des exemples de jeu de dialogue (non exhaustifs) [Mann 1988] (p. 515), reportés dans le
tableau 3.2. En plus des conditions conventionnelles spécifiques à chaque jeu de dialogue, Mann
a extrait un ensemble de conditions conventionnelles communes à tous les jeux :
1. I poursuit l’IP comme but.
2. I croit que réaliser l’IP est possible.
3. I croit que réaliser les GR est possible pour R.
4. I a le droit de réaliser l’IP.
5. I a le droit d’utiliser le jeu de dialogue.
6. L’IP n’a pas déjà été réalisé.
7. R a le désir de réaliser les GR.
De la même manière que Levin et Moore, Mann décompose l’entrée dans un jeu de dialogue en
deux phases : une proposition d’entrée (un bid) et son acceptation (souvent implicites). Proposer
1. Le papier a été publié en 1978 dans un livre qui n’est jamais paru, il a été re-publié en 1988 après avoir
circulé librement dans les laboratoires.3.1. Fondements des jeux de dialogue 61
Jeu IP GR CC
Investigation I sait si R sait Q R informe I de sa
connaissance de Q
I sait Q
Aide I est capable d’effectuer
A
I est capable d’effectuer
A
R est capable d’aider
I à effectuer A
I a le droit d’effectuer
A
Demande d’information
I sait Q I sait Q R sait Q
Dispute R croit P R justifie que I I croit P
ne devrait pas croire P R ne croit pas P
Demande de permission
I sait que R approuve
que I réalise A.
R choisit si I a le droit
d’effectuer A
I n’a pas le droit
de réaliser A sans
la permission de R
I sait ce choix I veut réaliser A
Demande d’action R effectue A R effectue A R n’effectuerait
pas A sinon.
Présentation d’information
R sait P R sait P Les connaissances
de R et P peuvent
être réconciliées.
I sait P
Tableau 3.2: Exemples de jeux de dialogue selon Mann. I est l’initiateur du jeu, R le partenaire.
Q représente une information. A représente une action. P représente une proposition. IP = but de
l’initiateur, GR = buts du partenaire, CC = conditions conventionnelles du jeu.
l’entrée d’un jeu consiste notamment à : (i) consentir à poursuivre l’IP du jeu, (ii) demander à
ce que R poursuive les GR, et (iii) proposer d’adopter les CC du jeu pendant toute sa durée (ou
jusqu’à ce que d’autres conditions les remplacent). Mann signale que plusieurs jeux peuvent être
ouverts en même temps. En conséquence, une proposition de clôture d’un jeu peut concerner
un jeu (ouvert) différent du dernier jeu ouvert. De plus, il note que la fermeture d’un jeu peut
entraîner des fermetures en cascade des autres jeux ouverts. C’est le cas des jeux imbriqués
où les participants peuvent se rendre compte dans un jeu fils que l’IP du jeu parent n’est pas
atteignable, ce qui peut provoquer la clôture de jeux fils en chaîne.
Mann s’intéresse principalement à l’imbrication des jeux de dialogue en définissant la notion
de compatibilité d’une proposition d’entrée dans un jeu avec son contexte. En somme, une
proposition d’emboîtement de jeu est valide si l’IP de ce nouveau jeu contribue à un jeu déjà
ouvert.
Les jeux de dialogue formalisés par Mann présentent de nouvelles caractéristiques intéressantes
par rapport à la version de Levin et Moore. La première différence de taille est que les
structures définies ne représentent que des actions dialogiques des interlocuteurs. Les jeux de
dialogue voient ainsi leur cadre recentré : ils passent de scripts partagés (mêlant actions nondialogiques
et dialogiques) à des « recettes » qui cristallisent les caractéristiques essentielles des
échanges dialogiques récurrents. Mann a exhibé une partie générique des jeux sous la forme de
conditions conventionnelles standards qui peuvent être complétées par des conditions conventionnelles
spécifiques à chaque jeu. Enfin, en dissociant IP et GR, Mann permet d’appréhender62 Chapitre 3 : Vers des modèles mixtes à base de jeux de dialogue
des jeux qui ne sont pas collaboratifs. C’est-à-dire des jeux dont les buts des participants ne sont
pas compatibles (voir compétitifs) comme le jeu de dispute ou de demande de permission.
3.1.3 Les jeux de dialogue comme projet conjoint
Mann a proposé plus récemment une généralisation de la théorie des jeux de dialogue sous
le nom de « Dialogue Macrogame Theory » [Mann 2002] pour modéliser des dialogues naturels
Homme-Homme. Cette généralisation raffine la vision du jeu de dialogue précédemment pré-
senté : il est vu comme une activité conjointe impliquant la poursuite d’un but conjoint (au sens
de [Clark 1996]). En conséquence, cela amène Mann à revoir sous cette perspective les notions
d’établissement du jeu et les actions qu’il qualifie d’« unilatérales ».
Un macrojeu de dialogue est vu comme une activité conjointe, groupant les intentions des
participants du dialogue pour la coordination de leur activité. Plus précisément, un macrojeu
est une convention définie comme un ensemble de trois buts :
1. le but de l’initiateur,
2. le but du partenaire,
3. et un but conjoint.
Mann précise que ces trois buts n’ont pas de rapport hiérarchique. Néanmoins, il est attendu
des joueurs qu’ils maintiennent une structure hiérarchique de leurs propres buts (en particulier
dans les emboîtements de jeu). 19 jeux ont ainsi été définis parmi lesquels le jeu de présentation
d’information (cf. tableau 3.3) tiré de [Mann 2002]. Les buts des jeux ne sont pas figés et incluent
des arguments non spécifiés tels que l’« information particulière » du macrojeu de présentation
d’information. De plus, Mann précise que les macrojeux sont voués à décrire des dialogues
généraux et pas uniquement des dialogues orientés tâche. Ainsi, les buts d’une instance d’un
macrojeu peuvent être des buts d’une tâche particulière, mais pas nécessairement.
But de l’initiateur fournir une information particulière au destinataire
But du partenaire identifier et recevoir l’information particulière fournie
But conjoint le partenaire vient à posséder l’information particulière
Tableau 3.3: Exemple de macrojeu de présentation d’information dans l’approche de Mann [Mann 2002]
Lorsque le jeu est joué, les participants vont maintenir dans leur mémoire deux buts : leur
but propre et le but conjoint. De manière générale, le cours du dialogue est sous le contrôle des
deux participants. L’établissement, l’abandon et la clôture des jeux sont réalisés conjointement
et en coordination à l’aide d’actions particulières. Mann propose de voir ces mécanismes sous
la forme de négociation : un jeu est proposé par l’initiateur, et le partenaire peut refuser ou
accepter cette proposition. L’acceptation conduit à l’ouverture du jeu. De la même manière, la
fermeture du jeu est proposée par un des deux participants. Cette fermeture peut être acceptée
ou refusée. Mann souligne que la phase d’entrée dans le jeu est la plupart du temps implicite.
Néanmoins, certaines situations d’incompréhension peuvent les rendre explicites. Dans le cas
où la proposition d’entrée dans le jeu est rejetée, le but conjoint n’est pas établi. Cela peut
intervenir dans la situation où une personne fournit une information qui n’est pas nécessaire à
son destinataire. De la même manière, Mann précise que les jeux se terminent le plus souvent
par l’accomplissement apparent du but conjoint du jeu. Ainsi, répondre correctement à une
question sera généralement perçu comme le moment où poursuivre la recherche d’une réponse3.1. Fondements des jeux de dialogue 63
à la question prend fin. Le dialogue 3.2 présente un exemple de phases d’entrée et de sortie
implicites.
S1 : As-tu faim ?
H2 : Oui !
Dialogue 3.2 – Jeu de dialogue de demande d’information, phase d’entrée et de sortie implicite
Afin de synthétiser ces éléments, nous proposons d’analyser le dialogue 3.2 selon [Mann 2002].
L’énonce S1 réalise les deux actions suivantes :
1. la proposition d’entrée dans le jeu, et
2. la poursuite du but conjoint proposé.
Tandis que l’énoncé H2 réalise trois actions :
1. l’acceptation d’entrée dans le jeu,
2. la poursuite du but conjoint établi, et
3. une proposition de sortie du jeu par satisfaction.
Les jeux de dialogue ainsi définis sont des projets conjoints au sens de Clark (cf. section 1.1.1).
Mann précise que les jeux peuvent s’imbriquer les uns dans les autres. Néanmoins, cette
imbrication n’est qu’une affaire de portée du macrojeu : un jeu est imbriqué dans un autre
si son ouverture et sa fermeture sont situées entre l’ouverture et la fermeture du jeu parent.
Contrairement à sa précédente théorie [Mann 1988], cette définition n’intègre pas la notion
de buts. La définition est alors généralisée par rapport à la théorie des jeux de dialogue. En
contrepartie, les macrojeux ne représentent qu’une vue partielle de la structure du dialogue.
Mann note la présence dans les dialogues d’une classe d’actions qui n’impliquent pas la
poursuite de buts conjoints et qui tiennent généralement en un tour de parole. Il les nomme
actions unilatérales et les regroupe en 3 catégories : « Media Management », « Politeness »,
« Acknowledgement ». Il s’agit d’actions telles que des actions de gestion de l’interaction comme
l’établissement du contact illustré dans l’exemple suivant : « – Apollo 13, Houston. – Go ahead
– Roger. » (tiré de [Mann 2002], p. 9). Dans ce dernier exemple, chaque énoncé réalise une action
de la catégorie « Media Management ».
Mann propose la théorie des macrojeux de dialogue destinée à la représentation des dialogues
naturels Homme-Homme. Il indique que la théorie des macrojeux présentée se limite à
un dialogue bipartite (i.e. à deux participants). En tant que telle, elle est insuffisante à la représentation
d’un dialogue multipartite et nécessite un travail d’adaptation. Les macrojeux de
dialogue proposés par Mann apportent des éléments intéressants supplémentaires aux précé-
dentes théories. Tout d’abord, notons que ces nouveaux jeux englobent la définition qu’il avait
précédemment présenté. Mann adopte une vision des jeux de dialogue comme étant un projet
conjoint, le conduisant ainsi à définir un jeu en associant un but conjoint aux participants à un
ensemble de buts spécifiques à chaque participant. Cette vision a deux grandes conséquences.
La première est que le contrôle du dialogue est coordonné dans le cas général par les deux participants.
L’établissement du jeu est vu comme étant une négociation : les buts constituants les
jeux sont acceptés et rejetés de manière conjointe plutôt que de manière individuelle. Ensuite,
Mann dégage lors de son analyse l’existence d’actions unilatérales qui, selon lui, ne participent
pas à la poursuite d’un but conjoint. Enfin, cette nouvelle vision des jeux de dialogue couvre
des dialogues qui ne sont pas nécessairement orientés tâche. Néanmoins, les buts décrits dans la64 Chapitre 3 : Vers des modèles mixtes à base de jeux de dialogue
définition du jeu peuvent recouper des buts liés à la tâche. En conséquence, les buts décrits par la
structure intentionnelle sont inclus dans les buts des macrojeux. En outre, ces jeux permettent
de représenter la cohérence du dialogue d’une manière indépendante de la tâche. Cependant,
Mann précise que ces jeux n’ont pas vocation à expliquer la cohérence de tout dialogue naturel
et qu’un ensemble de théories sera nécessaire afin d’y parvenir.
3.1.4 Synthèse sur la métaphore des jeux de dialogue
Dans cette section, nous avons étudié les travaux fondateurs des jeux de dialogue pour
l’analyse et la modélisation du dialogue humain. Ces travaux se basent sur l’étude de corpus de
dialogues Homme-Homme, et plus particulièrement sur l’étude des conventions émergeant sous
forme de motifs d’interaction identifiables au niveau de surface des énoncés. À la lumière de ces
travaux, nous dressons le bilan des caractéristiques essentielles des jeux de dialogue.
La métaphore du jeu de dialogue est essentiellement normative (à l’opposé d’une recette).
C’est une structure permettant de décrire les droits et obligations ainsi que les buts et les actions
dialogiques possibles des participants en fonction de l’avancement d’une activité d’un certain
type. Cette métaphore permet de voir l’aspect opportuniste du dialogue comme la combinaison
d’activités vues par la métaphore des jeux.
Par raffinement successif, les propriétés suivantes ont émergées. Un jeu de dialogue est une
activité conjointe bornée avec un début, un corps et une fin [Clark 1996]. Deux participants
prennent part à cette activité en endossant un rôle (initiateur du jeu ou partenaire). L’initiateur
projette l’exécution du jeu qui doit être acceptée par le partenaire. Autrement dit, le jeu
est établi conjointement (c’est un projet commun). Dans le cas général, le contrôle du dialogue
est coordonné par les deux participants. Les règles du jeu spécifient les coups dialogiques autorisés
(les actions participatives) pour chaque participant. Les règles ne se limitent pas à la
spécification de séquences de coups et peuvent également spécifier le contenu des coups dialogiques
[Hulstijn 2000a] ou des interdictions [Maudet 2001]. Les participants sont appelés à jouer
leurs rôles en réalisant les coups attendus par l’état courant du jeu. L’occurrence d’un coup détermine
en retour un nouvel état du jeu. Les participants poursuivent des buts non nécessairement
compatibles. Certains jeux non-collaboratifs peuvent faire intervenir un aspect gagnant/perdant.
En outre, les jeux sont des structures combinables (e.g., pré-séquence, emboîtement 2
, . . . ). Dans
leur dernière évolution, les jeux de dialogue permettent de représenter des conventions d’une manière
indépendante de la tâche. Enfin, les jeux de dialogue nécessitent d’être associés à d’autres
théories, notamment pour assurer la cohérence de la structure intentionnelle du dialogue.
3.2 Les jeux de dialogue pour l’interaction Homme-Machine
Dans cette partie, nous voyons comment la métaphore des jeux de dialogue a été utilisée pour
produire des modèles de dialogue pour l’interaction Homme-Machine. La section 3.2.1 présente la
formalisation des jeux de dialogue comme réseau de transition récursif. La section 3.2.2 s’intéresse
à la formalisation des jeux de dialogue par des unités de type initiative-réponse cohérentes. Enfin,
la section 3.2.3 décrit une formalisation des jeux en tant que structures capturant les engagements
des interlocuteurs.
2. Nous utilisons de manière interchangeable « emboîtement » et « imbrication »3.2. Les jeux de dialogue pour l’interaction Homme-Machine 65
3.2.1 Les jeux comme réseau de transition récursif
Nous présentons dans cette partie l’approche formalisée et implémentée des jeux de dialogue
de Lewin [Lewin 2000] dans le cadre du projet TRINDI [Larsson 2000b].
Dans l’approche de Lewin [Lewin 2000], le contexte dialogique inclut un tableau d’engagements
(qui se résume à un ensemble de propositions) et un ensemble de « Proposition Under
Discussion » (PUD).
Les actes de dialogue sont des actes contextuels constitués d’une fonction et d’un contenu
sémantique. La fonction détermine comment mettre à jour les PUD et le contenu sémantique
définit avec quoi mettre à jour cet ensemble.
Les jeux de dialogue ont un type (e.g., information, salutations, interrogation, . . . ) et un
contenu sous forme de proposition. Les règles du jeu sont formalisées sous la forme d’un réseau
de transition récursif. Les états du réseau de transition représentent l’état du jeu. Les arcs
sont étiquetés par un coup dialogique ou par un autre jeu de dialogue qui sera alors emboîté.
L’emboîtement de jeux n’est pas limité. La figure 3.1 présente un exemple de jeu de demande
d’information. Ce jeu peut être ouvert par deux coups dialogiques – qw (pour query) ou qw-r
(pour restricted-query) – suivis d’une réponse (rw). Le demandeur peut alors terminer le jeu par
un coup de reconnaissance (ack) ou demander une confirmation (cnf). Les réponses possibles à
une demande de confirmation sont des confirmations positives (ryes) ou négatives (rno), ou une
correction de réponses (rmod). Les couples confirmation/correction de réponse envisagés sont
du type : « Tu rentres à Reims ce week-end ? – Non, à Rouen ! ».
QW game
1 2
qw
qw-r
3
rw
4
cnf
5
ack
Ryes|Rno|Rmod
Figure 3.1: Jeu de dialogue de demande d’information dans l’approche de Lewin [Lewin 2000]
Les jeux de dialogue mettent à jour les engagements lorsqu’ils se terminent. Ils sont sémantiquement
vus comme des structures permettant de prendre des engagements dans le dialogue.
Enfin, une séquence d’énoncés réalise une instance d’un jeu si la séquence des types de coup
générée est acceptée par le réseau de transition. Notons que le premier coup dialogique d’un jeu
établit le jeu et son contenu.
Cette approche se concentre sur la formalisation des règles du jeu de dialogue sous la forme
d’un réseau de transition récursif qui définit les enchaînements d’actes. La dynamique des jeux
de dialogue considérée est celle de l’emboîtement de jeux. Elle permet de distinguer deux niveaux
de gestion du dialogue pour l’agent : le niveau des actes de dialogue et le niveau des jeux de
dialogue. Enfin, bien qu’il considère des jeux avec un nombre d’états assez important, Lewin
conclut que, de son point de vue, les jeux sont essentiellement des structures planifiées de la
forme initiative-réponse ou initiative-réponse-feedback.
Ce point de vue est illustré dans les travaux de [Morge 2013]. Ils envisagent la régulation de
la communication entre un agent virtuel vendeur et un humain par des échanges, formalisés par
des automates à états finis. Ils proposent un échange de recherche d’information (une question66 Chapitre 3 : Vers des modèles mixtes à base de jeux de dialogue
pouvant être suivie d’une réponse ou d’une admission d’ignorance) et un échange de délibération
(une proposition qui peut être acceptée ou refusée). Ces échanges sont combinés en phase qui
les enchaîne séquentiellement et dynamiquement. Une phase de recherche d’information est par
exemple constituée de plusieurs échanges de recherche d’information. Le comportement de l’agent
consiste à détecter les besoins de l’utilisateur via une phase de recherche d’information, puis à
proposer des produits via une phase de délibération.
3.2.2 Les jeux comme unités de type initiative-réponse cohérentes
Hulstijn a proposé de modéliser les motifs récurrents d’actes de dialogue par des jeux de
dialogue (suivant la définition de Mann) [Hulstijn 2000a]. Ses travaux sont mis en application
par [Dastani 2001] qui propose une méthodologie pour construire des protocoles de négociation
flexibles basés sur les jeux de dialogue. Le framework proposé est prétendu assez générique pour
être applicable à d’autres types de dialogue (cf. [Hulstijn 2000a,Hulstijn 2000b]).
Les agents considérés peuvent avoir des intérêts concurrents, mais ils partagent au moins
un but commun qui est de coordonner leurs actions. Pour représenter les actions coordonnées,
les auteurs utilisent des représentations partielles sous forme de recettes [Grosz 1996]. Un type
particulier de ces recettes sont les jeux de dialogue.
Un dialogue est vu comme une suite cohérente d’énoncés. Les énoncés peuvent être décomposés
en actes de dialogue comprenant une fonction communicative appliquée à un contenu
sémantique. La fonction communicative de l’acte de dialogue peut avoir un effet sur la tâche
(activité sous-jacente qui motive le dialogue) et/ou sur les processus d’interaction (comme les
feedbacks). L’échange d’énoncés entre les participants enrichit un tableau conversationnel qui
garde les traces des déclarations faites et des engagements pris. L’objectif d’un modèle du dialogue
est alors de combiner les actes de dialogue en des échanges cohérents et utiles. Les auteurs
définissent la notion clé de cohérence. Un acte de dialogue dans un dialogue de négociation est
cohérent avec le contexte du dialogue si [Dastani 2001] :
1. la fonction relative à la tâche de l’acte correspond à un plan de la tâche qui peut permettre
à l’agent d’atteindre ses buts apparents, et
2. la fonction relative à l’interaction de l’acte se conforme aux règles de l’interaction courante.
En fonction de l’attitude de l’agent et de qui a l’initiative, 1 ou 2 prime.
La cohérence est donc décomposée en deux niveaux, celui de la tâche et celui de l’interaction.
La cohérence au niveau de la tâche peut impliquer des inférences complexes relatives
à la planification tenant compte du contexte du dialogue. Mais comme le fait remarquer Hulstijn
[Hulstijn 2000b], le niveau de l’acte de dialogue n’est pas celui qui est intéressant au niveau
de la planification. Par exemple, l’effet escompté d’une question est d’obtenir la réponse. Dans
la théorie des actes de langage, cela signifie que la condition de succès de l’acte de question
implique sa réponse (un autre acte de langage). Autrement dit, une question n’a d’intérêt que
dans un échange de type question-réponse. Hulstijn en conclut que les actes de dialogue n’ont
de sens pour la planification que comme partie d’un échange et plus particulièrement d’une
unité initiative-réponse. Il ajoute que ces unités sont les plus petites actions qui peuvent être
encore appelées conjointes. Ce qui conduit à la conclusion suivante : la cohérence au niveau de
l’interaction peut être cernée par des recettes pré-compilées modélisées par les jeux de dialogue.
La fonction communicative liée à l’interaction est un coup dans un jeu de dialogue. Ce coup
peut être initiatif ou réactif. Les auteurs notent que les initiatives et les réponses sont souvent
reliées par une structure en triangle (figure 3.2) composée d’une initiative suivie d’une réponse3.2. Les jeux de dialogue pour l’interaction Homme-Machine 67
qui peut être positive ou négative, ou sinon d’un nouvel essai. Par exemple, une proposition
est une initiative, une acceptation de cette proposition correspond à une réponse positive, un
refus à une réponse négative et une contre-proposition peut être vue comme un nouvel essai.
L’exécution par les interlocuteurs d’une IR-unit conduit à un ajout d’information dans leur
fonds commun (modélisé par le tableau conversationnel). Ainsi, une réponse positive a un effet
de grounding [Clark 1989]. Par exemple, bien répondre à une question est un feedback fort et
implicite indiquant la bonne attention, perception, interprétation et compréhension de cette
dernière.
Initiative
Unité IR
Nouvelle
tentative Réponse positive
Response négative
Réparation
Figure 3.2: « Initiative-response units » tiré de [Hulstijn 2000a]
Les jeux de dialogue pour la négociation
La structure générale d’un jeu de dialogue suit cette structure en triangle. Elle est présentée
en figure 3.3.
exchange(a, b, ζ) = initiative(a, b, η); (pos_response(b, a, ζ)
| neg_response(b, a, ζ)
| retry(a, b, ξ)),
where Ma,b coherent(η, ζ)
Figure 3.3: Structure générale d’un jeu de dialogue dans l’approche d’Hulstijn tirée de [Dastani 2001].
Le « ; » symbolise la séquentialité.
Un échange entre deux interlocuteurs a et b, initié par a, est suivi par une réponse de b soit
positive, soit négative ou d’un nouvel essai de a. η, ζ et ξ représentent les contenus sémantiques.
Ma,b représente le contexte (partagé) du dialogue. En plus des enchaînements d’actes, les jeux
de dialogue spécifient des contraintes sémantiques sur les contenus. Ainsi, un échange est permis
si la contrainte de cohérence entre les contenus sémantiques des initiatives et des réponses est
remplie (ce qui est représenté par Ma,b coherent(η, ζ) dans la figure 3.3).
La figure 3.4 présente un exemple d’échange basé sur la structure décrite en figure 3.3. Cet
exemple décrit un échange de demande d’information. La relation de cohérence porte dans ce68 Chapitre 3 : Vers des modèles mixtes à base de jeux de dialogue
information_seeking(a, b, ψ) =question(a, b, ?φ); (answer(b, a, ψ)
| clarification_question(b, a, ?χ)),
where Ma,b 2 ¬ψ (consistent)
where Ma,b 2 ψ (informative)
where Ma,b relevant(?φ, ψ)
where Ma,b licensed(?φ, ψ)
Figure 3.4: Échange de recherche d’information dans l’approche d’Hulstijn tiré de [Dastani 2001]
cas sur le contenu sémantique de la réponse. Celui-ci doit être consistant, informatif, pertinent
et suffisant par rapport à la question.
Les jeux de dialogue peuvent être combinés dynamiquement et statiquement
La structure en triangle des IR-units peut laisser à penser qu’une réponse doit intervenir
immédiatement après une initiative. Les auteurs précisent que ce n’est pas le cas : plusieurs jeux
peuvent être ouverts en même temps. Ainsi, une structure présentant des emboîtements de type
(I(IR)(IR)R) est possible. Aucune contrainte de cohérence n’est clairement explicitée pour ce
type de combinaison. Notons que ce type de combinaison est dynamique.
Les jeux peuvent également être statiquement séquencés ou chaînés. De la même manière
que pour les actes de dialogue, des relations de cohérence vont permettre d’expliciter la façon
dont les jeux peuvent être combinés.
game(a, b,(η.ζ)) =exchange(a, b, η); game(a, b, ζ);
where Ma,b coherent(η, ζ)
Figure 3.5: Séquencement de jeux dans l’approche d’Hulstijn tiré de [Dastani 2001]. Le résultat d’un tel
échange est la combinaison des résultats exprimée par le « . ».
La figure 3.5 présente la définition du séquencement dans cette approche. Les jeux peuvent
ainsi être séquencés autant de fois que nécessaire pourvu que la relation de cohérence soit
respectée.
information_exchange(a, b, φ ∧ ψ) =
information_seeking(a, b, φ);information_exchange(a, b, ψ)
where Ma,b ?χ such that
Ma,b relevant(?χ, φ) and Ma,b relevant(?χ, ψ)
Figure 3.6: Exemple de séquencement de jeux de recherche d’information dans l’approche d’Hulstijn tiré
de [Dastani 2001]3.2. Les jeux de dialogue pour l’interaction Homme-Machine 69
S1 : Est-ce que j’ai besoin d’un visa pour voyager ?
H2 : Tu pars d’où ?
S3 : De France.
H4 : Tu vas où ?
S5 : En Chine.
H6 : Alors oui !
Dialogue 3.3 – Exemple de dialogue de séquencement de jeux de recherche d’information aux
énoncés [2;3] et [4;5] par rapport à la question de plus haut niveau posée au
tour 1
La figure 3.6 présente un exemple qui spécifie que des échanges de demande d’information
peuvent être séquencés quand ils continuent d’être pertinents (via la relation « relevant ») par
rapport à une question de plus haut niveau (des questions dépendantes dans la terminologie
de Ginzburg, cf. section 2.2.3). Le dialogue 3.3 illustre informellement le type de séquencement
capturé par cette définition. Une question sur la nécessité d’un visa est soulevée au tour de
parole S1. Pour y répondre, deux jeux de recherche d’information sont séquencés (énoncés [2;3]
et [4;5]) dont les réponses sont pertinentes par rapport à la question initialement posée.
Les échanges peuvent également être chaînés. Deux jeux J1 et J2 sont chaînés si et seulement
si l’acte de dialogue réponse du jeu J1 est l’acte initiatif du jeu J2. L’exemple le plus
démonstratif de cette combinaison est l’enchaînement proposition/contre-proposition/. . . où la
contre-proposition joue le rôle à la fois de réponse négative dans l’échange n, et le rôle initiatif
(en tant que proposition) dans l’échange n + 1.
3.2.3 Les jeux comme structures pour l’engagement dans le dialogue
Sur le modèle des systèmes dialectiques [Hamblin 1970, Walton 1995], Maudet envisage
les jeux de dialogue comme des structures capturant les engagements que les interlocuteurs
contractent pendant le dialogue [Maudet 2001].
Notion d’engagement social
Les engagements sociaux sont à distinguer des états privés des agents tels que croyance
et désir. Les engagements sociaux sont des engagements qui lient un agent à une communauté
[Singh 1991, Castelfranchi 1995]. Les caractéristiques des engagements sociaux sont les
suivantes (reprises et adaptées de [Walton 1995,Singh 1999,Maudet 2001,Pasquier 2005]).
Les engagements sont sociaux. Ils sont contractés envers d’autres membres d’une communauté
(à distinguer des engagements d’un agent envers lui-même [Cohen 1990b]. Dans le cas
du dialogue, les engagements sont pris envers les autres interlocuteurs. On appelle débiteur la
personne qui s’engage et créditeur la personne envers qui l’engagement est pris.
Les engagements sont publics et accessibles aux membres de la communauté. Ils sont géné-
ralement stockés dans un tableau appelé commitment store qui a pour vocation de faire partie
de la zone publique de l’état d’information d’un système de dialogue.
Les engagements sont propositionnels ou en action. Usuellement, les engagements sont distingués
entre ceux dirigés vers le présent (les engagements propositionnels) et ceux dirigés vers
le futur (les engagements en action). Les engagements propositionnels portent sur l’état du70 Chapitre 3 : Vers des modèles mixtes à base de jeux de dialogue
monde (e.g., « Paris est la capitale de France ») tandis que les engagements en action portent
sur des actions à réaliser dans le futur (« Demain, j’irai nager. »). Cette vision est toutefois
simplificatrice puisqu’il est tout à fait possible de contracter des engagements propositionnels
dirigés vers le futur, i.e., décrivant un état du monde futur (« La vaisselle sera faite avant
midi. »). Il existe une tendance à aller vers une uniformisation du traitement de ces deux types
d’engagements [Singh 2008].
Les engagements peuvent être conditionnels. À l’instar d’une règle (« si tu me payes, je te
livre la commande »), un engagement peut être conditionnel. Un engagement conditionnel tient
si sa condition est remplie. La considération de ces types d’engagements peut être effectuée via
des engagements d’ordre supérieur (e.g., des engagements permettant de créer de nouveaux engagements)
[Singh 1999,Maudet 2001,Pasquier 2005], ou en envisageant les engagements conditionnels
comme fondamentaux [Singh 2008].
Les engagements sont dialogiques ou extra-dialogiques. Dans le dialogue, on distingue les
engagements dialogiques qui sont pris dans un contexte local particulier (e.g., un jeu de dialogue),
des engagements extra-dialogiques qui sont pris dans le contexte de la tâche sous-jacente du
dialogue.
Les engagements sont explicites ou implicites. Les engagements explicites sont créés par
l’occurrence d’actes communicatifs. Les engagements implicites sont associés à une connaissance
partagée de la communauté qui n’a pas été explicitée (e.g., les règles d’un cadre dialogique
comme un protocole).
Les engagements sont datés, i.e., pris à un moment donné.
Enfin, les engagements peuvent être ordonnés. Certains engagements en action sont prioritaires
sur d’autres car ils doivent être satisfaits en priorité. Par exemple, on répond généralement
à la dernière question qui a été posée, remplissant l’engagement de réponse créé par la question,
avant de considérer la suivante.
Le tableau de conversation et les engagements sociaux
Dans l’approche de Maudet, l’état du dialogue est représenté par un tableau de conversation
qui enregistre les engagements sociaux pris par les interlocuteurs à un instant du dialogue.
Maudet distingue les engagements sociaux pour deux interlocuteurs entre ceux qui sont
propositionnels et ceux qui sont en action. Les engagements en proposition C(x, p) expriment
qu’un agent x s’engage dans le présent sur une proposition p envers y (non précisé pour alléger
l’écriture). Par exemple, si x dit à y : « Paris est la capitale de la France », il contracte l’engagement
C(x, capital(france, paris)) signifiant que x est engagé envers y sur la proposition
capital(france, paris). Les engagements en action sont contextualisés par le jeu j dans lequel
ils sont pris. Ils peuvent prendre les formes suivantes :
— Cj (x, α) : exprime que x s’engage à ce que α survienne : « Je vais en Roumanie l’été
prochain. »
— Cj (x, α1|α2) : exprime que x s’engage à ce que l’événement α1 ou α2 survienne.
— Cj (x,¬α) : exprime que x s’engage à ce que l’événement α ne survienne pas.
La formalisation considère les engagements conditionnels utilisés pour modéliser la consé-
quence (contextualisés par le jeu j dans lequel ils sont pris) :
— Cj (x, α ⇒ β) : x s’engage à ce que, si l’événement α se produit, l’opération β est réalisée
sur le tableau.3.2. Les jeux de dialogue pour l’interaction Homme-Machine 71
— Cj (x, α
∗⇒ β) : x s’engage à ce que, à chaque fois que l’événement α se produit, l’opération
β est réalisée sur le tableau.
Enfin, les engagements conjoints sont utilisés pour engager les interlocuteurs sur un jeu j :
C({x, y}, j).
Le tableau d’engagements évolue grâce à un ensemble d’opérations (création, satisfaction,
annulation, prioritarisation) qui permettent de créer, supprimer, annuler et ordonner les engagements.
Les actes de dialogues
Les actes de dialogues considérés par Maudet sont des actes contextuels multiniveaux constitués
d’une fonction et d’un contenu sémantique. Les niveaux considérés sont le niveau informationnel
et le niveau de contextualisation. Le premier niveau permet aux interlocuteurs d’échanger
de l’information et leur contenu est propositionnel. Par exemple, affirme(x, beau) est l’acte par
lequel x affirme la proposition « Il fait beau. ». Le deuxième niveau permet aux interlocuteurs
de modifier le jeu de dialogue courant (i.e. le contexte local de l’interaction). Par exemple,
prop.entrée(y, interrogation(p)) est l’acte par lequel y propose d’entrer dans un jeu d’interrogation.
Les jeux de dialogue sont des structures qui capturent les engagements créés durant
le dialogue
Les jeux représentent des conventions entre des interlocuteurs et sont des structures partagées
et bilatérales. Maudet propose la distinction de deux types de jeux : les jeux de dialogue
et les jeux de communication. Un jeu de dialogue est un cas particulier d’activité conjointe activée
temporairement pendant le dialogue dans un but spécifique (e.g., pour l’obtention d’une
information, pour la demande de réalisation d’une action, etc.). Certains représentent un motif
d’interaction local dans le dialogue. Ils doivent être établis par les participants du dialogue (les
jeux de dialogue peuvent être ouverts, fermés ou proposés). Les jeux de communication sont
dédiés à des processus de gestion de l’interaction plus généraux (comme la contextualisation, la
compréhension mutuelle, la gestion des tours de parole, etc.) et sont toujours activés.
Les jeux de dialogue sont définis par des conditions objectives qui portent sur des engagements
sociaux, et non sur des dispositions subjectives des interlocuteurs comme des états mentaux.
Celles-ci sont de trois types :
entrée définit l’état du tableau de conversation afin de permettre l’entrée dans le jeu.
succès définit l’état du tableau qui correspond au succès du jeu.
échec définit l’état du tableau qui correspond à l’échec d’un jeu. Maudet adopte une hypothèse
simplificatrice concernant les conditions d’échec : elle consiste en l’énonciation d’un coup
dialogique vide [Maudet 2001] (p. 125).
Les jeux sont également définis par des règles qui précisent les engagements conversationnels
que les interlocuteurs contractent lorsqu’ils entrent dans le jeu. Par exemple, ces engagements
précisent les actes attendus ou interdits dans le cadre du jeu. Ils vont guider le comportement
dialogique des interlocuteurs.
Cette définition permet de distinguer deux propriétés des jeux. Un jeu est collaboratif si
et seulement si les conditions de succès pour l’initiateur et le partenaire sont identiques. Il est
symétrique si et seulement les règles qui s’appliquent aux deux joueurs sont identiques.72 Chapitre 3 : Vers des modèles mixtes à base de jeux de dialogue
Le tableau 3.4 présente l’exemple du jeu d’explication. Ce jeu est collaboratif et asymétrique.
Il permet à l’initiateur de demander une explication au partenaire sur une proposition p. Les
conditions d’entrée se résument à ce que le partenaire soit engagé sur la proposition p. Celle-ci
traduit le fait qu’on ne peut pas demander une explication sur une proposition à quelqu’un s’il
n’est pas engagé sur celle-ci. Les règles peuvent se lire comme suit. L’initiateur s’engage à jouer
un défi sur la proposition. Le partenaire s’engage à jouer une explication (sous la forme d’un
affirme) ou à retirer son engagement si le défi est joué. Ce jeu incorpore une règle différente
d’une règle de production d’actes de dialogue. Ici, il s’agit d’une interdiction. Le partenaire ne
peut pas justifier la proposition sur laquelle il est engagé en affirmant cette même proposition.
Le jeu est un succès lorsque le partenaire est engagé sur un ensemble de propositions qui permet
de supporter la proposition p.
initiateur (x) partenaire (y)
entrée C(y, p)
succès C(y, s) tq. s p C(y, s) tq. s p
règles défi(x, p) défi(x, p) ⇒ créer(y, Cj (y, affirme(y, s)|retrait(y, p)|vide(y)))
¬affirmer(y, p)
Tableau 3.4: Exemple du jeu de dialogue d’explication dans l’approche de Maudet [Maudet 2001].
j = explication(p).
Les jeux de dialogue constituent des contextes dialogiques au sein desquels les interlocuteurs
contractent des engagements conversationnels les uns envers les autres. Ces engagements vont
guider leurs comportements dialogiques. Notons que la différenciation des conditions de succès
entre l’initiateur et le partenaire du jeu permet de considérer des jeux collaboratif ou non. Cette
formalisation admet l’avantage de pouvoir spécifier les jeux à plusieurs niveaux de granularité.
Les engagements peuvent être utilisés pour spécifier précisément des enchaînements d’actes
attendus comme dans les approches de Lewin (cf. section 3.2.1) ou d’Hulstijn (cf. section 3.2.2).
Mais ils peuvent également spécifier des prérogatives générales qui devront être suivies (e.g., ne
pas se contredire dans un jeu d’argumentation).
Les jeux de communication
Les jeux de communication sont spécifiés sous la forme d’engagements conditionnels persistants
(Cj (−, α
∗⇒ β)). Notons que les jeux de communication n’ont ni condition d’entrée
ni condition de sortie puisqu’ils sont activés en permanence. Maudet propose deux jeux de
communication, celui de contextualisation et celui d’évaluation, tout en précisant que d’autres
phénomènes comme l’établissement (cf. section 2.2.1) ont vocation à être spécifiés sous cette
forme.
Le jeu d’évaluation permet de capturer l’idée que les interlocuteurs tentent de s’accorder
sur l’état du monde durant le dialogue. Les interlocuteurs ont donc tendance à évaluer ce
qui est dit en concédant ou contredisant. Le tableau 3.5 présente la spécification de ce jeu de
communication. À chaque affirmation (par l’acte affirme), l’allocutaire contracte l’engagement
d’évaluer positivement (via l’acte concède) ou négativement (via l’acte contredit) la proposition.
Un interlocuteur contredit contracte l’engagement lui permettant de retirer son engagement sur
la proposition affirmée (via l’acte retrait).3.2. Les jeux de dialogue pour l’interaction Homme-Machine 73
Événements (α) Opérations (β)
affirme(x, p) créer(x, Cev(y, concède(y, p)|contredit(y, p)))
créer(x, C(x, p))
concède(x, p) créer(x, C(x, p))
retrait(x, p) annuler(x, C(x, p))
contredit(x, p) créer(x, Cev(y,retrait(y, p)))
créer(x, C(x,¬p))
Tableau 3.5: Jeu de communication d’évaluation dans l’approche de Maudet [Maudet 2001]
L’approche de Maudet est la seule à considérer explicitement l’établissement du jeu de dialogue
via le jeu de contextualisation [Maudet 2003a]. Le jeu correspond au mécanisme de négociation
proposé par Mann (cf. section 3.1.3). Il traduit le fait que les interlocuteurs négocient
l’entrée et la sortie du jeu sous la forme d’une proposition suivie d’une acceptation ou d’un refus.
Pour ce faire, les interlocuteurs peuvent produire des actes de contextualisation pour ouvrir
un jeu (prop.entrée, acc.entrée, ref.entrée) ou pour fermer un jeu ouvert (prop.sortie, acc.sortie,
ref.sortie).
La dynamique des jeux de dialogue
Maudet envisage deux possibilités de combinaison de jeux de dialogue : le pré-séquencement
et l’emboîtement.
La notion de pré-séquencement traduit le fait que le premier jeu prépare la réalisation du
second. La difficulté de ce type de combinaison est que la pré-séquence est souvent observée
a posteriori, une fois que le deuxième jeu a été joué. Maudet s’intéresse à un type particulier
(et plus simple) de pré-séquence qu’il nomme pré-séquence informée. Il s’agit du cas où le jeu
préparé est connu à l’avance, i.e., j1 pré-séquence j2 si j1 est ouvert alors que j2 est proposé. Une
telle combinaison est envisageable pour s’assurer que les conditions d’entrée du jeu sont vérifiées.
C’est la cas où une proposition d’entrée dans un jeu a été jouée de manière sous-spécifiée (les
conditions d’entrées ne sont pas toutes vérifiées) et où un second jeu a été ouvert pour établir
les conditions d’entrée manquantes.
Nous avons rencontré les emboîtements de jeux dans l’ensemble des approches que nous
avons présentées. L’idée peut se résumer ainsi : un jeu j2 est emboîté dans j1 si le jeu j2 est
ouvert alors que le jeu j1 était déjà ouvert. Quelles sont les conséquences d’un emboîtement de
jeux ? Maudet en liste trois. Premièrement, les engagements contractés dans le jeu emboîté sont
prioritaires sur les engagements du jeu parent. Cela traduit l’idée que le contexte dialogique le
plus spécifique est aussi le plus saillant. Généralement, on répond à la dernière question qui a
été posée avant de répondre aux autres (cet exemple devient contre-exemple quand on parle de
questions coordonnées). Ensuite, le jeu parent domine ses jeux emboîtés. La conséquence de cette
observation est que l’annulation du jeu parent conduit à l’annulation de ses jeux emboîtés. Enfin,
les engagements du jeu emboîté peuvent être contradictoires avec les engagements du jeu parent.
Dans ce cas, la règle de priorité s’applique. Un acte de dialogue peut violer un engagement d’un
jeu j uniquement dans le cas où cela lui permet de satisfaire un engagement d’un jeu emboîté
dans j.74 Chapitre 3 : Vers des modèles mixtes à base de jeux de dialogue
3.3 Discussion
Dans cette discussion, nous défendons l’intérêt d’aller vers une architecture d’agent mixte
réactive/délibérative basée sur les jeux de dialogue vus comme des structures d’engagements.
Nous montrons dans la section 3.3.1 l’intérêt du formalisme basé sur les engagements. Puis nous
soulignons les avantages qui font des jeux de dialogue une structure à considérer pour des agents
interactifs (cf. section 3.3.2). Enfin, nous synthétisons notre point de vue sur les modèles mixtes
à base de jeux de dialogue (cf. section 3.3.3).
3.3.1 Vers un modèle normatif des jeux de dialogue basé sur les engagements
Dans cette section, nous explorons les liens entre les formalisations de jeux de dialogue
présentées et la structure intentionnelle. Deux points de vue sur le lien entre structure du dialogue
et jeux de dialogue se dégagent. Ensuite, nous comparons les approches présentées sur certaines
caractéristiques générales des jeux de dialogue (vues en section 3.1) : les phases de vie d’un jeu,
la structuration intra et inter-jeu et la prise en compte de l’axe de l’interaction. Enfin, nous
soulignons l’intérêt de concevoir les jeux de dialogue comme structures pour l’engagement dans
le dialogue.
Jeux de dialogue et structure intentionnelle du dialogue
Lewin, Hulstijn et Maudet abordent explicitement le problème des jeux de dialogue et des
liens avec les processus de délibération des agents. Deux points de vue semblent se distinguer. Le
premier est partagé par Lewin et Hulstijn : les jeux de dialogue sont essentiellement des unités
de type initiative-réponse planifiées par les agents. Le second point de vue est celui de Maudet :
certains jeux sont planifiés et trouvent pleinement leur ancrage dans la structure intentionnelle
du dialogue, et certains jeux et certaines combinaisons de jeux s’ancrent dans une structure
intermédiaire motivée dialogiquement (plutôt qu’intentionnellement).
Nous allons présenter plus précisément ces deux visions.
« Dialogue games are recipes for joint action » La vision des jeux de dialogue de Hulstijn
[Hulstijn 2000b, Hulstijn 2000a] provient de la réponse à la question suivante : si l’on
considère les processus de communication eux-mêmes comme des actions conjointes représentées
dans un formalisme de l’action et de la planification conjointe, alors quelles sont les recettes
partielles ? Pour Hulstijn la structuration du dialogue est fondamentalement sur deux niveaux :
Structure locale : Ensemble de règles utilisées localement de manière réactive par les agents
(par exemple, les règles à l’intérieur des jeux).
Structure globale : Donnée par la structure inter-jeu issue de la structure intentionnelle.
Pour résumer, le dialogue est vu comme une activité conjointe entre les interlocuteurs. Le
dialogue est une activité extrêmement dynamique, il paraît donc peu plausible que les interlocuteurs
puissent délibérer à l’infini. La coordination de cette activité doit reposer sur un précédent
établi ou sur certaines conventions. Comme dans toute activité répétitive, certaines situations
sont récurrentes et deviennent par conséquent familières. La coordination des actes de dialogue
peut se baser sur des motifs d’interaction conventionnels formalisés par les jeux de dialogue.
Pour Hulstijn, les jeux de dialogue (tels que définis section 3.2.2) sont les recettes pour l’action
conjointe.3.3. Discussion 75
L’idée est que les agents planifient au niveau des jeux. Notons que ce point de vue est
également partagé par Lewin (cf. section 3.2.1). Le modèle DTask (cf. section 2.1.3) peut être
vu comme une mise en œuvre simplifiée de cette approche au niveau de surface des énoncés.
Néanmoins, la vision des jeux de dialogue comme recettes pour l’action jointe est réductrice
[Maudet 2001]. Le premier point concerne le statut des jeux. Si ces derniers sont vus comme
des prêt-à-planifier, ils ne permettent pas de prendre en compte une variété de sous-dialogues qui
ne peuvent pas être planifiés comme les dialogues de clarification (e.g., dialogue 3.5, p. 76). Et
de manière plus générale, les jeux de la version d’Hulstijn sont des structures qui ne fournissent
finalement que la part conventionnelle des plans des modèles de l’action conjointe collaborative.
De cette dernière remarque naît la seconde critique. Certains types de dialogue ne peuvent pas
trouver leur place dans un modèle de l’action conjointe collaborative. Il suffit de prendre le cas
du débat où il semble difficile de soutenir qu’il y a effectivement collaboration entre les interlocuteurs.
Ceux-ci coopèrent effectivement sur une activité commune qui va les contraindre, sans
pourtant que cette activité ne soit un plan partagé.
De prêt-à-planifier à guide de comportement Le mécanisme sous-jacent des jeux de
dialogue doit être plus flexible tout en contraignant les actions dialogiques. C’est tout l’objet de
la formalisation des jeux de dialogue comme des structures pour l’engagement de Maudet (cf.
section 3.2.3). Les jeux de dialogue ne sont plus vus comme des recettes à inclure dans les plans
partagés. Ils sont vus comme des guides pour le comportement communicatif que les agents
peuvent décider de suivre ou pas. Le comportement des agents est guidé par les engagements
qu’ils contractent au fur et à mesure de la conversation. Cette vision permet de gagner en
flexibilité puisque des jeux opportunistes (clarification, évaluation, etc.) peuvent être ouverts à
tout moment.
Que devient alors la relation entre les jeux de dialogue et la structure intentionnelle ?
La réponse la plus aboutie à notre connaissance est apportée par Maudet [Maudet 2001].
Il souligne que les jeux peuvent être combinés pour former une structure plus complexe sans
besoin de se référer à la structure intentionnelle, par exemple par des emboîtements ou des pré-
séquences (éventuellement informées). La rupture avec la vision précédente tient donc en cette
idée qu’au cours d’un dialogue certains jeux sont planifiés et d’autres sont ouverts de manière
plus réactive.
Le dialogue 3.4 présente une structure d’emboîtement dominé par les buts. L’enchaînement
des jeux est alors expliqué par la structure intentionnelle. La motivation à jouer au jeu j2 est
dominée au niveau de la structure intentionnelle par la motivation à jouer au jeu j1.
J1 : Est-ce que Diana vient avec nous au cinéma ?
G2 : Est-ce que Zach vient ?
J3 : Non !
G4 : Diana ne viendra pas alors.
Dialogue 3.4 – Emboîtement intentionnellement fonctionnel : j2 ([2;3]) est dominé par j1 ([1;4])
Les jeux ouverts de manière réactive incluent les dialogues incidents. Il s’agit par exemple de
dialogues de clarification, correction, d’évaluation, etc. Le dialogue 3.5 présente un tel exemple.
Ce type d’emboîtement consiste en un changement d’axe dans le dialogue pour passer dans la
gestion de l’interaction. Il s’agit d’un emboîtement réactif d’un jeu de communication.
Pour synthétiser, Maudet distingue trois niveaux de structuration [Maudet 2001] :76 Chapitre 3 : Vers des modèles mixtes à base de jeux de dialogue
S1 : Comment t’appelles-tu ?
G2 : GDD
S3 : Pardon ?
G4 : Je m’appelle Guillaume !
Dialogue 3.5 – Emboîtement interactionnellement fonctionnel : le jeu de communication ([2;4])
est emboîté dans le jeu de dialogue ([1;4]).
Structure locale : Elle provient des règles contractées lors des jeux de dialogue.
Structure intermédiaire : Elle est issue de règles et contraintes qui n’ont pas besoin de se
référer au niveau intentionnel. Elle traduit l’occurrence de dialogues incidents.
Structure globale : Elle provient de la structure intentionnelle, il s’agit des jeux planifiés par
des structures de délibération discursive.
Comparaison des approches présentées
Nous analysons désormais les points communs et les divergences des formalismes de jeu de
dialogue au regard de la métaphore décrite en section 3.1.4. Nous comparons les approches
sur la prise en compte des « phases de vie » d’un jeu identifiées par Levin, Moore et Mann :
entrée/pratique/sortie (cf. section 3.1). Puis nous étudions le pouvoir expressif des formalismes
concernant les règles de jeu (i.e., la structure intra-jeu). Nous constatons ensuite les différentes
combinaisons de jeux proposées par les formalismes. Pour finir, nous examinons la prise en
compte des axes du dialogue (tâche et gestion de l’interaction, cf. section 1.1.2) dans les jeux de
dialogue.
Les phases de vie d’un jeu de dialogue Des trois approches que nous avons considérées,
la seule à modéliser les phases d’ouverture, pratique et fermeture d’un jeu est l’approche de
Maudet via le jeu de communication de contextualisation (cf. section 3.2.3).
La structuration intra-jeu (règles) Les trois versions apportent des contraintes structurelles
plus ou moins forte. La version automate permet de spécifier facilement des enchaînements
d’actes attendus. En contrepartie, il est nécessaire de spécifier les jeux de la manière la plus complète
possible, le risque étant de perdre en flexibilité et réutilisabilité. La version unité IR part
d’un a priori fort, à savoir la structure triangulaire générique. La partie spécifique des jeux s’appuie
sur les actes de dialogue initiatifs et réactifs ainsi que sur les contraintes sémantiques. C’est
la seule approche présentée à considérer ce genre de contraintes. Enfin, la version engagement
semble être celle qui offre la plus grande souplesse structurelle car elle permet de spécifier très
localement et partiellement les séquences attendues tout en permettant une plus grande variété
de règles (e.g., les interdictions de coup dialogique). De plus, c’est le tableau de conversation
qui est plus largement pris en compte dans la version engagement pour déterminer les prochains
coups possibles. Cela inclut le dernier coup dialogique joué mais également d’autres informations
comme les engagements contractés au cours du dialogue. Cette richesse peut être un avantage
par rapport à la version automate au contexte beaucoup plus réduit.3.3. Discussion 77
La structuration inter-jeu Trois types de structuration inter-jeu sont évoqués : (i) emboî-
tement (ou imbrication), (ii) pré-séquence, et (iii) enchaînement. Le dernier n’est abordé que
par la formalisation d’Hulstijn.
Comme dans la structuration intra-jeu, Lewin et Maudet ne s’intéressent qu’aux contraintes
structurelles qui pèsent sur les structures inter-jeu. La formalisation de Lewin permet d’emboî-
ter des jeux de manière infinie grâce aux réseaux de transition récursifs. Selon ce dernier, les
contraintes sur la profondeur de l’emboîtement proviennent de la structure intentionnelle qui
permet de combiner les jeux.
La formalisation de Maudet précise les contraintes structurelles dans le jeu de contextualisation.
Celles-ci permettent de gérer les intercalements de jeu (c’est un type de négociation entre
jeu), les pré-séquences et les emboîtements. Il s’agit de contracter des engagements adéquats qui
vont permettre d’accepter l’entrée des jeux dès l’atteinte des conditions de succès du jeu intercalé
ou des conditions d’entrée du jeu pré-séquencé dans le cas du pré-séquencement. Ce dernier
précise qu’il est nécessaire de définir des contraintes de cohérence au niveau des types de jeux et
des sujets des jeux. Ces aspects peuvent nécessiter de se référer aux structures intentionnelles
des interlocuteurs.
Enfin, la formalisation d’Hulstijn permet aux jeux de s’emboîter dynamiquement (par
exemple (I(IR)(IR)R)). De la même manière que Lewin, cette structuration dynamique provient
de la structure intentionnelle des interlocuteurs (i.e., comment les jeux sont planifiés).
Similairement à la structuration intra-jeu, Hulstijn définit récursivement le séquencement de
jeu de manière générique : il consiste en une séquence d’un échange (IR) suivi d’un jeu (qui
peut lui même être une séquence). Le séquencement doit respecter une contrainte sémantique
sur les contenus sémantiques des actes. La structuration d’enchaînement est un cas limite des
séquences : c’est le cas où l’acte réponse d’un échange est également initiatif de l’échange qui
suit. Typiquement, les structures enchaînées sont de type question/réponse/évaluation ou de
type proposition/contre-proposition/etc. Ces deux dernières structurations sont statiques (les
structurations doivent être prédéfinies avant l’utilisation).
Axes de dialogue et jeux de dialogue Le dialogue est une activité complexe, notamment
parce qu’elle évolue sur deux axes, celui de la tâche et celui de l’interaction, et que le dernier axe
peut lui-même être décomposé en dimensions et niveaux (cf. section 1.1.2). Quel est l’impact de
ces observations sur les différentes approches de formalisation des jeux de dialogue ?
Seule l’approche de Maudet fait apparaître explicitement le niveau de la gestion de l’interaction
via les jeux de communication. Ces derniers modélisent les conventions implicites présentes
dans tout type de conversation comme la fonction évaluative, le grounding, la gestion des tours
de parole, etc. Maudet ne présente pas explicitement des jeux de communication pour le grounding
ou la gestion des tours de parole, mais signale que l’alliance entre les engagements et les
actes multi-niveaux paraît suffisante pour modéliser ces processus.
Les autres approches mêlent ces deux axes. C’est le cas par exemple des automates présentés
par Lewin, et plus particulièrement de celui de demande d’information (figure 3.1, p. 65). En effet,
les transitions entre les états 3 et 4 sont en fait un mécanisme minimal de feedback permettant de
gérer des couples confirmation/correction via les actes cnf, Ryes, Rno, Rmod (cf. section 3.2.1).
En conclusion, sur les 4 approches présentées, seule l’approche de Maudet distingue jeux
de communication et jeux de dialogue dans le but de modéliser les processus de gestion de
l’interaction. Cette distinction est motivée par la généricité des jeux de communication qui sont
présents dans toute conversation.78 Chapitre 3 : Vers des modèles mixtes à base de jeux de dialogue
Vers un modèle normatif des jeux de dialogue basé sur les engagements
De l’ensemble des formalisations présentées, celle de Maudet semble sortir du lot. Cette approche
est plus complète dans la formalisation de la métaphore des jeux de dialogue par sa
considération explicite de l’établissement de jeux, sa considération explicite de l’axe de l’interaction
du dialogue et son pouvoir expressif plus grand dans les règles (e.g., via les interdictions).
En outre, cette approche affine les liens entre la structure du dialogue, la structure intentionnelle
et les jeux de dialogue en faisant apparaître un niveau intermédiaire (cf. section 3.3.1). Au-delà
de ces caractéristiques, c’est une approche qui propose une structure tractable pour des agents
dialogiques via la notion d’engagement traduisant l’aspect normatif de la métaphore des jeux
de dialogue. Nous rejoignons le point de vue de Maudet et proposons d’aller vers des jeux de
dialogue vus comme des structures capturant les engagements que les interlocuteurs contractent
pendant le dialogue.
3.3.2 Avantages et limites des jeux de dialogue
Dans cette partie, nous présentons les limites générales des jeux de dialogue et leurs avantages
pour la modélisation du dialogue pour un agent interagissant avec un humain. Puis nous nous
intéressons aux avantages et limites spécifiques de la vision des jeux de dialogue comme structures
pour l’engagement.
Limites des jeux de dialogue
Avant d’aborder les avantages, notons tout d’abord quelques limites de la structure de jeu
de dialogue. La métaphore des jeux de dialogue est essentiellement normative et conduit à
des modèles comme ceux de Maudet (cf. section 3.2.3) motivant les agents à se conformer
à un comportement plutôt que de les contraindre (comme les protocoles). La problématique
de l’intégration de notions sociales dans le processus délibératif d’un agent interactif est une
question ouverte. Le comportement des agents doit être normatif pour prendre en compte les
jeux de dialogue en cours et agir en fonction des engagements qu’ils ont contractés, et délibératif
pour prendre en compte leurs désirs et intentions. Cependant, il est possible de spécifier de
manière procédurale la balance entre le comportement réactif et le comportement délibératif
dans le cas particulier de certains systèmes [Traum 1997,Larsson 2002a,Orkin 2013].
En outre, les agents interactifs sont de plus en plus amenés à interagir dans des environnements
ouverts [Bohus 2009a] et multipartites [Traum 2004, Kronlid 2008]. À cet égard, la
métaphore des jeux de dialogue nécessite un travail d’adaptation non trivial [Mann 2002].
Avantages des jeux de dialogue
Dans cette partie, nous recensons les avantages des jeux de dialogue en complétant des
observations antérieures [Hulstijn 2000b, Maudet 2001, Pasquier 2005]. De solides arguments
permettent de supporter le fait que les jeux de dialogue sont les structures à considérer pour
modéliser le dialogue à partir de motifs d’interaction, et en particulier le dialogue HommeMachine.
Les jeux ont une réalité empirique Les jeux peuvent être analysés à partir de caractéristiques
de surface des énoncés [Kowtko 1991, Carletta 1997]. Des expériences d’annotations sur3.3. Discussion 79
le corpus de dialogues d’orientation MAPTASK ont permis de montrer qu’il y avait peu d’erreurs
entre des annotateurs novices et des annotateurs experts quand il s’agissait de classifier
un énoncé en terme de coups dialogiques et de jeux [Carletta 1997]. Les jeux sont donc perçus
de manière intuitive par les interlocuteurs. Néanmoins, cette étude a mis en avant le fait que la
notion d’emboîtement était difficile à cerner pour les annotateurs novices [Lewin 2000].
Les jeux peuvent être spécifiés à partir des motifs dialogiques L’idée des jeux de
dialogue est de proposer une structure afin de répertorier les conventions d’interactions dialogiques.
L’étude des corpus de dialogues Homme-Homme fait apparaître un certain nombre de
motifs dialogiques identifiables par des caractéristiques de surface des énoncés (voir, e.g., [Levin
1977,Mann 1988,Hulstijn 2000b,Pauchet 2006]). Ces motifs prennent notamment la forme
de paires adjacentes [Sacks 1974, Hulstijn 2000a] (e.g., question/réponse, suggestion/acceptation)
voire de motifs en trois temps initiatif/réactif/évaluatif [Bilange 1991b, Clark 1996] (e.g.,
question/réponse/évaluation).
Une métaphore utile pour modéliser ces motifs d’interaction est celle des jeux de dialogue telle
que définie en section 3.1 [Hulstijn 2000b,Maudet 2001]. Celle-ci permet de lier ingénieusement
les buts des interlocuteurs (non-nécessairement compatibles) aux attentes que les interlocuteurs
peuvent avoir les uns envers les autres en terme de participation à l’activité (i.e., les actions
participatives). En somme, les jeux de dialogue permettent de capturer des activités dialogiques
similaires à une partie d’échec et qui font défaut aux modèles de l’action et de la planification
conjointe actuels limités aux activités strictement collaboratives.
L’idée est donc de formaliser des jeux de dialogue à partir de ces motifs d’interaction [Hulstijn
2000b,Hulstijn 2000a]. Ces derniers peuvent être vus comme une manifestation des règles du
jeu de dialogue. En outre, il semble possible d’extraire des jeux indépendants du domaine [Hulstijn
2000b, Mann 2002]. Il devient alors envisageable de constituer une bibliothèque de jeux
pour modéliser et construire des systèmes de dialogue, ou comme le présente Hulstijn :
« If we are looking for a library with tools to model and build dialogue systems for
different applications, the level of these games are the right level. » 3
[Hulstijn 2000b]
(p. 198)
Les jeux sont utiles pour la gestion du dialogue Les jeux sont des structures prédictives
qui spécifient entre autres les actions participatives autorisées des interlocuteurs en fonction
de l’état du jeu. Une étude sur le corpus MAPTASK démontre à ce propos que prendre en
compte la structure de jeu permet d’améliorer significativement les prédictions sur les actes de
dialogue [Poesio 1998a].
En outre, les structures de jeux de dialogue peuvent être utilisées par un gestionnaire de
dialogue sur deux niveaux [Maudet 2002a] : l’interprétation d’actes de dialogue et leur géné-
ration. Au niveau interprétatif, les jeux rendent possible la production d’un ensemble d’actes
conventionnellement attendus, et permettent éventuellement de simplifier le processus de reconnaissance
d’intentions. Au niveau génératif, les jeux donnent une motivation conventionnelle à
la production de certains actes.
Les jeux permettent de décomposer plus finement la structure du dialogue Enfin,
comme nous l’avons vu en section 3.3.1, les jeux de dialogue permettent de décomposer plus fine-
3. L’expression « these games » réfère aux jeux de dialogue tels que définis par Mann [Mann 1988]80 Chapitre 3 : Vers des modèles mixtes à base de jeux de dialogue
ment la structure du dialogue. En particulier, ils permettent d’expliquer certains enchaînements
de jeux sans avoir besoin de référer à la structure intentionnelle. En outre, ils permettent de raf-
finer la coopération dialogique avec le mécanisme d’établissement du jeu de dialogue. Dans le cas
général, le contrôle du dialogue est coordonné par les deux participants : l’entrée et la sortie des
jeux de dialogue sont gérées par un mécanisme de négociation (bien que souvent implicite). Cette
caractéristique prend tout son intérêt dans des dialogues d’initiative mixte [Horvitz 1999a, Allen
1999] où les interlocuteurs se partagent l’initiative en fonction de leur expertise (voir par
exemple les agents assistants d’initiative mixte [Tecuci 2007]).
Avantages et limites de jeux de dialogue vus comme structure d’engagements
En sus des avantages généraux des jeux de dialogue, l’approche par engagements admet
certains avantages spécifiques [Maudet 2002b,Pasquier 2005].
L’adoption d’une sémantique publique et d’un tableau de conversation permet de ne pas
contraindre de manière directe les attitudes mentales utilisées par les agents dialogiques. Théoriquement,
les jeux ainsi définis peuvent être utilisés dans une grande variété d’architectures
d’agents. Par exemple, les jeux peuvent être utilisés de manière procédurale « à la GoDiS » [Larsson
2002a] ou dans une architecture BDI adaptée aux notions sociales. En outre, le tableau de
conversation conserve une trace plus riche du dialogue sur laquelle le système peut fonder sa
réponse. La contrepartie est que ce niveau public ne dispense pas de la nécessité d’un niveau
privé [Pasquier 2005]. Les jeux doivent être utilisés par un agent capable de raisonner sur cette
partie publique afin de l’intégrer à leur processus délibératif [Pasquier 2003].
Les approches par engagements sont plus flexibles. Les engagements motivent les agents
dialogiques à se conformer aux conventions sans les contraindre. Elles permettent de gérer plus
facilement des messages inattendus qui peuvent s’intégrer dans un autre jeu. À ce sujet, les jeux
de dialogue sont des structures combinables favorisant la gestion du dialogue par un ensemble
de jeux plutôt que par une seule et même structure rigide comme un protocole. Néanmoins, il
est nécessaire de spécifier d’une façon ou d’une autre les combinaisons possibles entre les jeux.
Cette tâche est d’autant plus ardue que les combinaisons peuvent provenir de sources différentes
(structure intentionnelle ou raisons conventionnelles). Des éclaircissements sont nécessaires sur
ces notions.
Enfin, la notion d’engagement permet de spécifier des jeux à plusieurs niveaux de granularité
(e.g., enchaînements précis d’actes ou prérogatives générales). Elle permet de s’adapter à une
grande variété de motifs. En outre, l’adoption d’une sémantique publique permet de spécifier les
jeux de dialogue de manière déclarative accroissant leur clarté.
L’approche des jeux de dialogue par les engagements sociaux de Maudet admet des limites.
Premièrement, la notion d’engagement social nécessite d’être approfondie [Pasquier 2005]. En
particulier, il est nécessaire de spécifier clairement le cycle de vie des engagements (création,
satisfaction, violation, etc.) [Chaib-Draa 2006]. Deuxièmement, la structure de jeux proposée
par Maudet est limitée. Les conditions d’échec ne sont pas pleinement exploitées (et se résument
à la production d’un coup dialogique vide). Ensuite, Hulstijn précise que la cohérence au niveau
interactionnel est aussi bien une question de fonctions des actes de dialogue que de contraintes
sémantiques sur le contenu des actes (cf. section 3.2.2). Dans la version engagement, les règles
des jeux permettent de spécifier des coups attendus (via un engagement en action) ou des enchaînements
de coups (via un engagement conditionnel). En l’état, elles ne permettent pas de
prendre en compte des contraintes sémantiques. Troisièmement, la contextualisation des jeux3.3. Discussion 81
est limitée et ne permet pas de proposer une entrée dans un jeu sans en spécifier son but (e.g.,
« Je peux te poser une question ? ») [Maudet 2001]. Enfin, cette formalisation perçoit le tableau
de conversation comme étant strictement partagé entre les interlocuteurs (cf. modèle 4, section
2.2.1). Or, la gestion de mécanismes de communication comme le grounding peut nécessiter
la relativisation de cette partie publique du point de vue de l’agent [Larsson 2003].
3.3.3 Vers des modèles mixtes fondés sur des jeux de dialogue
Nous avons parcouru les approches des jeux de dialogue pour la modélisation du dialogue
Homme-Homme et Homme-Machine qui nous paraissent les plus pertinentes.
Les motifs d’interaction observables lors de l’analyse des corpus semblent clairement être
des manifestations de conventions, nécessaires à la coordination de l’activité dialogique vue
comme une activité conjointe. Nous avons vu que les motifs d’interaction étaient les parties
émergées de l’iceberg qui ne rendent pas clairement compte de la contextualisation des jeux, de
l’agencement inter-jeu et de la séparation entre les deux axes du dialogue (tâche et interaction).
En conséquence, l’analyse des motifs d’interaction peut conduire à plusieurs formalisations de
granularités différentes.
Cette étude nous a permis de nous rendre compte que le véritable intérêt des jeux était de
cristalliser les conventions dialogiques dans une structure pouvant être intégrée à un processus
délibératif. Nous avons vu que les jeux étaient plus que des recettes pour l’action conjointe
directement intégrable dans des plans partagés. Une vision plus juste semble de les voir comme
des guides pour l’activité dialogique qu’il est possible de suivre, ou de transgresser. En d’autres
termes, les jeux de dialogue sont essentiellement normatifs.
Pour finir, la formalisation de Maudet semble la plus complète et offre le plus de souplesse.
Elle nécessite encore du travail aussi bien sur les relations de cohérence sémantique, le jeu de
contextualisation et l’intégration des jeux de dialogue dans un agent délibératif implémenté.
Comme [Hulstijn 2000b, Maudet 2001], nous proposons d’aller vers une architecture hybride
réactive/délibérative où une théorie de l’action conjointe servira de sémantique aux motifs d’interaction
décrits comme des jeux de dialogue. Nous rejoignons le point de vue de Maudet et
considérons les jeux de dialogue comme des structures d’engagements [Maudet 2001].Deuxième partie
Analyse des interactions humainesChapitre 4
Corpus Cogni-CISMeF
Sommaire
4.1 Constitution du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.1.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.1.2 Recueil du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.1.3 Transcription . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.2 Processus de recherche d’information . . . . . . . . . . . . . . . . . . . . . . . 88
4.2.1 Modèle standard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.2.2 Un processus opportuniste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.2.3 Un processus stratégique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.3 Analyse des entretiens du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.3.1 Situation dialogique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.3.2 Structure globale des entretiens . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.3.3 Stratégies et tactiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.3.4 Rôles des participants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.4 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
Dans ce chapitre, nous illustrons les phases de récolte de corpus et de transcription de notre
méthodologie (cf. figure 4.1). Nous présentons le corpus que nous utilisons pour illustrer notre
démarche méthodologique. Nous abordons sa constitution (cf. section 4.1). Puis nous nous intéressons
à la tâche de recherche d’information (RI) (cf. section 4.2). Enfin, nous présentons
les entretiens de notre corpus en étudiant la tâche de RI collaborative sous-jacente dans la
perspective à long terme de réalisation d’un agent assistant d’initiative mixte (cf. section 4.3).
Collecte
et
numérisation
signaux bruts
Transcription
et
codage
dialogues
bruts
dialogues
annotés
Extraction
de
régularités
modèle
Annotation
Figure 4.1: Récolte et transcription de corpus dans notre méthodologie. Le fond coloré indique les étapes
traitées dans ce chapitre.
4.1 Constitution du corpus
Notre méthodologie encourage l’usage de corpus de dialogues finalisés (i.e., orientés vers la
réalisation d’une tâche précise). Il est indispensable de préciser que ces dialogues possèdent des86 Chapitre 4 : Corpus Cogni-CISMeF
caractéristiques simplifiant leur étude au regard de « conversations libres » (même si certains
chercheurs considèrent que tout dialogue possède une tâche sous-jacente, e.g., [Clark 1996]).
Lorsque la tâche sous-jacente est bien définie (e.g., plus précise qu’une tâche comme « passer
le temps »), les dialogues sont moins complexes qu’une communication humaine en général. Ils
fournissent un cadre contraint plus aisément formalisable. Certains travaux ont ainsi montré
empiriquement que le vocabulaire employé par les interlocuteurs dans un dialogue est très dé-
pendant de sa tâche sous-jacente et qu’il y a peu de recoupement entre les différentes tâches [Allwood
2001]. En outre, la tâche influence la structure du dialogue [Grosz 1986]. Nous avons vu
que c’était cette caractéristique qui était exploitée par les approches intentionnelles (cf. section
2.1). Le lien entre le dialogue et la tâche permet de caractériser plus facilement les rôles des
participants et leurs buts que lors d’une conversation libre. Enfin, la variété des interactions est
également moindre dans des dialogues finalisés.
Cette section détaille les objectifs à long terme qui ont motivé la constitution du corpus
Cogni-CISMeF de dialogues finalisés (section 4.1.1). Elle décrit le recueil du corpus (section
4.1.2) et sa transcription (section 4.1.3).
4.1.1 Objectifs
Notre objectif à long terme est la construction d’un agent assistant d’initiative mixte [Tecuci
2007] pour la recherche d’information (RI) avec le système CISMeF [Darmoni 2000].
CISMeF 1
est un moteur de recherche spécialisé dans l’indexation de ressources médicales
en langue française. Il propose une interface graphique et un langage de requête permettant de
décomposer une requête en éléments issus d’un lexique contrôlé (le MeSH, « Medical Subject
Headings »). La terminologie CISMeF comporte des mots-clés, des qualificatifs (symptômes,
traitements, etc.), des méta-termes (spécialités médicales) et des types de ressources (base de
données, périodique, images, . . . ). Le système s’est étoffé en offrant la possibilité d’effectuer des
requêtes étendues. Or, l’utilisateur est souvent peu enclin à l’utilisation de requêtes complexes
pourtant plus efficaces.
CISMeF présente des difficultés d’utilisation qui justifient la conception d’un agent assistant
[Loisel 2008]. En synthèse, CISMeF propose des fonctionnalités avancées qui ne sont pas à la
portée de l’utilisateur lambda sans un apprentissage important. Ce système propose un langage
de requête complet (connecteurs booléens, recherche en mots-clés majeurs, recherche limitée,
etc.) mais difficile d’utilisation. En outre, l’utilisateur doit connaître la terminologie CISMeF,
i.e. le vocabulaire contrôlé utilisé pour indexer les ressources dans le moteur de recherche. En
d’autres mots, l’utilisateur doit connaître les rouages du système pour pouvoir l’utiliser à son
potentiel maximum. Par exemple, une demande comme « médicaments pour le paludisme » peut
être traduite dans une requête constituée du mot-clé « paludisme », du qualificatif « thérapeutique
» et du type de ressources « patient ». Un ensemble de fonctionnalités avancées est accessible
à l’utilisateur pour mener à bien sa recherche, mais est rarement utilisé en pratique. CISMeF
est victime de la crise de l’utilisabilité [Rich 2007] : au-delà des fonctionnalités basiques, les
utilisateurs sont perdus. Cette observation est appuyée par les expérimentations de [Loisel 2008]
qui montrent que même des étudiants de médecine en 2ème année formés à CISMeF ne sont pas
capables d’utiliser les fonctionnalités avancées du moteur de recherche.
Le prototype Cogni-CISMeF basé sur GoDiS [Larsson 2002a] a constitué une première
tentative de développer un agent assistant pour une tâche de RI sur CISMeF [Loisel 2008].
1. « Catalogue et Index des Sites Médicaux de langue Française », disponible à l’URL www.cismef.org4.1. Constitution du corpus 87
Cogni-CISMeF est sujet aux limites de GoDiS, qui est difficile à étendre pour une tâche
complexe et pour l’ajout de nouveaux coups dialogiques. Cogni-CISMeF a été victime du
passage à l’échelle et n’a pas pu dépasser le stade de prototype [Loisel 2012]. Cette expérience
a en partie motivé la mise en place de la méthodologie sur laquelle se base cette thèse.
4.1.2 Recueil du corpus
Nous utilisons dans cette thèse le corpus constitué lors du projet Cogni-CISMeF 2
[Loisel
2008]. Il est constitué de dialogues d’assistance sur une tâche de RI médicale entre un expert
CISMeF et un utilisateur. Le recueil de corpus a été effectué par raffinage successif sur plusieurs
expérimentations [Loisel 2008]. Lors de ces expérimentations, un expert du système CISMeF se
retrouve en tête à tête avec un demandeur qui apporte une formulation de son besoin d’information
d’ordre médical. Celui qui occupe la fonction d’expert dispose d’un accès à CISMeF et
est chargé de mener la recherche en coopération avec le demandeur. L’expert doit dans le même
temps verbaliser tout ce qu’il est en train de faire. Les dialogues sont enregistrés afin d’être
retranscrits et les logs des requêtes sont récupérés par le système. L’entretien se clôt lorsque la
réponse satisfait le demandeur, ou qu’il semble qu’aucune réponse ne puisse être trouvée. Deux
membres du projet Cogni-CISMeF ont joué les rôles d’expert. Pour éviter toute connivence
entre personnes, les membres du projet les moins familiers avec le laboratoire ont réalisé cette
expérimentation en jouant le rôle d’expert. Les demandeurs sont des membres du laboratoire
LITIS (secrétaires, administrateur réseau, doctorants, enseignants-chercheurs). Les utilisateurs
sont représentatifs de l’audience visée par le futur système puisqu’ils ne sont pas spécialistes du
domaine médical et qu’ils souhaitent obtenir des réponses à des interrogations d’ordre médical.
L’intervention des deux experts a permis de contraster les démarches.
Le corpus est constitué des retranscriptions des 21 dialogues enregistrés entre les 2 experts
et les 21 volontaires. Il contient environ 37 000 mots. Il est constitué de deux sous-corpus
caractérisés par la personne qui a joué le rôle d’expert : le corpus AL (12 entretiens) et le corpus
VD (9 entretiens). Nous référons aux dialogues du corpus en précisant l’identifiant du corpus
suivi du numéro de l’entretien (par exemple, VD05 réfère à l’entretien no 5 du corpus VD).
4.1.3 Transcription
Les entretiens ont été manuellement retranscrits par Irina Lenka, étudiante en sociolinguistique
chevronnée sur les tâches de retranscription. Des conventions de transcription ont
été définies (cf. tableau 4.1). Ces dernières permettent de marquer certaines intonations (af-
firmative, interrogative, exclamative) et des phénomènes courants dans le dialogue oral (faux
départ, pause, insistance). La prosodie détaillée (intonation, rythme, accentuations, etc.) n’a pas
été annotée car elle nécessite un effort long et important ainsi que des compétences spécifiques.
Une limite notable de ce travail réside dans le fait qu’il se limite à la transcription de la partie
verbale d’une interaction en co-présence. Il est important de préciser que l’interaction via
d’autres modalités n’a pas été annotée (mouvements de la tête, expressions faciales, . . . ). Nous
revenons sur ce point dans les limites de notre processus d’annotation.
2. Projet financé par le Programme Interdisciplinaire TCAN du CNRS 2004-200788 Chapitre 4 : Corpus Cogni-CISMeF
Symbole Description Exemple
? Intonation interrogative « alors ensuite c’est des crises / crises d’angoisse
/ dans le sens banal ? »
! Intonation exclamative « Ah ! »
- Faux départ « donc là on est un syno- / l’épilepsie ça doit
être représenté par synonyme »
/ Pause « Les symptômes / qu’est-ce que c’est exactement
le symptômes »
: Insistance « Euh : : »
xxx Mot ou passage non reconnu « efficacité de la xxx xxx et des interventions
concernant le style de vie »
(. . . ) Phénomènes non verbaux (rires)
<. . . > Transcription incertaine « ah on a trois choses / enregistrement
du sommeil »
“. . . ” Lecture à l’écran « alors le cinq on a “le diagnostic est pris en
charge du trouble anxieux généralisé” »
Tableau 4.1: Conventions de transcription du corpus Cogni-CISMeF
4.2 Processus de recherche d’information
Notre corpus de dialogues est centré sur la réalisation d’une tâche de RI réalisée collaborativement
entre un expert du moteur de recherche et un demandeur. Dans cette section, nous
présentons quelques modèles du processus de RI réalisé par un individu isolé. Nous insistons sur
les caractéristiques essentielles de ce processus. Le lecteur intéressé par le domaine de la RI peut
trouver de plus amples informations dans [Hearst 2009].
4.2.1 Modèle standard
Le processus de RI est généralement perçu comme une instance particulière d’un processus
de résolution de problème [Marchionini 1989]. Ce processus implique un chercheur ayant un
besoin d’information identifié. Le problème est alors de combler ce manque d’information. Une
fois le besoin d’information spécifié, le chercheur établit un plan de recherche qu’il exécute
au travers de la recherche en elle-même. Il évalue les résultats trouvés pour éventuellement
réitérer le processus entier. La RI est vue comme un processus itératif décomposable en une
succession d’étapes [Sutcliffe 1998,Broder 2002,Marchionini 2008] : (i) identification d’un besoin
d’information, (ii) spécification de la requête (formulation du besoin d’information, expression
de ce besoin dans le moteur de recherche, etc.), (iii) exécution de la requête, (iv) évaluation des
ressources obtenues, (v) reformulation de la requête si nécessaire et répétition du cycle jusqu’à
obtention de résultats satisfaisants ou abandon de la recherche.
4.2.2 Un processus opportuniste
Le modèle standard est limité sur deux aspects. D’un côté, le processus est vu comme impliquant
un besoin d’information statique. De l’autre, l’individu est vu comme raffinant successivement
sa requête jusqu’à tomber sur un ensemble de documents répondant à son besoin
d’information initial. Certaines études ont démontré justement que le besoin d’information dans4.2. Processus de recherche d’information 89
ce processus n’est pas statique et que l’objectif n’est pas de déterminer une unique requête retournant
un ensemble de documents répondant au besoin d’information [Bates 1989, O’Day 1993].
[Bates 1989] propose le modèle de « berry-picking » 3 qui insiste sur deux points. Le premier
est que le besoin d’information du chercheur évolue en fonction des ressources trouvées lors de
la recherche. Une information rencontrée à un moment peut conduire la recherche dans une
direction nouvelle et imprévue. Le second est que le besoin d’information n’est pas satisfait par
un unique ensemble de documents obtenu à la fin de la recherche, mais par une sélection de
ressources récoltées tout au long du processus. En synthèse, le processus de RI est un processus
fondamentalement opportuniste dont le cheminement est prégnant face au résultat final.
4.2.3 Un processus stratégique
Coup, tactique, stratagème et stratégie
Le comportement d’un individu dans un processus de recherche peut être analysé comme
un processus stratégique [Bates 1979, Bates 1990]. Ce point de vue a pour but de caractériser
aussi bien le comportement d’expert de la RI mettant en œuvre des stratégies planifiées et
délibérées, que le comportement plus réactif d’un chercheur lambda. Il s’agit de caractériser
la base sur laquelle sont choisies les actions pour passer à l’étape suivante de la recherche.
[Bates 1990] décompose l’activité de recherche en niveaux en s’appuyant sur son précédent travail
sur les tactiques de recherche [Bates 1979]. Le premier niveau est celui des coups. Un coup est
l’unité minimale d’analyse. Il s’agit d’une action qui prend part à l’activité de recherche (e.g.,
« saisir la formulation de la recherche », « saisir un opérateur booléen ET », . . . ). Le deuxième
niveau est celui des tactiques. Il s’agit d’un ou plusieurs coups ayant pour but de poursuivre la
recherche en prenant en compte l’état courant (e.g., changer un terme en un plus général comme
« cholestérol HDL » par « cholestérol », produire une première requête incluant la plupart des
termes de la formulation du besoin d’information, ou au contraire produire une première requête
en minimisant sa taille). Le troisième niveau est celui des stratagèmes. Il s’agit d’un ensemble de
coups et/ou tactiques conçu pour exploiter un domaine particulier de la RI par une procédure
systématique. Par exemple, le domaine peut être un index de citation et le stratagème peut
consister à partir d’une citation pour déterminer l’ensemble des travaux l’ayant citée. Un autre
stratagème peut consister à chercher tous les travaux d’un auteur traitant d’un sujet particulier.
Enfin, une stratégie est un plan global pour la recherche entière pouvant contenir coups, tactiques
et/ou stratagèmes. Un plan global est difficile à spécifier de par la nature opportuniste du
processus de recherche [Bates 1990]. Il faut noter que ces activités représentent des niveaux
différents non réductibles les uns aux autres (une stratégie n’est pas une simple succession de
stratagèmes, eux-mêmes succession de tactiques). Chacun de ces niveaux sont conceptuellement
différents. En outre, [Bates 1990] précise que les tactiques et les stratagèmes ne sont pas les
uniques niveaux envisageables au dessus des coups.
Stratégies incrémentales
Deux principaux types de stratégies incrémentales ont été observés lors du processus de
RI [Hearst 2009]. Ils peuvent être envisagés comme des stratégies partielles complétées de
manière opportuniste pendant le processus. La première stratégie est nommée « orientee-
3. « Berry-picking » peut être traduit par « cueillette de baies »90 Chapitre 4 : Corpus Cogni-CISMeF
ring » 4
[O’Day 1993]. À l’image d’une course d’orientation, cette stratégie vise à partir d’une
requête générale pour la raffiner progressivement suite aux indices accumulés. Elle est constituée
de trois grandes étapes : (i) spécifier une courte requête générale, (ii) évaluer et inspecter les
ressources obtenues, et (iii) modifier la requête en conséquence pour itérer le processus. Cette
stratégie est généralement opposée à la stratégie de téléportation [Teevan 2004]. Contrairement
à l’« orienteering », cette dernière vise à spécifier une requête le plus précisément possible afin
de se « téléporter » directement aux ressources répondant au besoin d’information.
4.3 Analyse des entretiens du corpus
Dans cette section, nous analysons la tâche de RI qui motive le dialogue. Comme précédemment
évoqué, la tâche sous-jacente contribue à restreindre la complexité des conversations. En
outre, elle influence la structure globale du dialogue [Grosz 1986] (voir, e.g., la structure globale
d’un dialogue de réservation de billet d’avion [Bilange 1991a] ou de transaction [Hulstijn 2000b]).
Nous étudions l’influence de la tâche de RI sur les entretiens du corpus et en particulier sur la
structure globale du dialogue.
À notre connaissance, peu de travaux existent sur la tâche de RI en situation de co-présence
entre un utilisateur et un expert du moteur de recherche en dehors des travaux de Loisel [Loisel
2008]. Les travaux les plus proches se situent au niveau de la définition de la RI collaborative
qui s’inspire du web social [Golovchinsky 2008,Shah 2008]. Dans la suite de cette section, nous
présentons une étude originale du processus de RI en situation de co-présence.
Elle se base sur un rapport technique qui décortique les dialogues des entretiens en dé-
taillant les différentes phases et l’évolution de la requête [Dubuisson Duplessis 2013]. Dans la
section 4.3.1, nous précisons la situation dialogique entre l’expert et le demandeur. Nous présentons
ensuite la structure globale du dialogue que nous avons observée (cf. section 4.3.2). Puis,
nous synthétisons les stratégies et les tactiques employées par les interlocuteurs (cf. section 4.3.3).
Enfin, nous abordons les rôles des participants dans cette interaction (cf. section 4.3.4).
4.3.1 Situation dialogique
La situation de collaboration entre l’expert et le demandeur est représentée en figure 4.2.
Les deux partenaires font face au mode avancé du moteur de recherche CISMeF. Ils dialoguent
pour faire avancer la tâche de RI. L’expert manipule l’ordinateur et l’enquêté l’observe.
[Golovchinsky 2008] propose de caractériser la situation de collaboration entre des partenaires
sur une tâche de RI selon trois dimensions pertinentes : intention, simultanéité et situation.
L’intention caractérise la façon dont le besoin d’information est établi entre les partenaires.
Elle peut être explicite (le besoin d’information est explicitement établi par les partenaires) ou
implicite (le besoin d’information est inféré par un des collaborateurs, e.g., via les actions de
l’utilisateur). La collaboration peut être synchrone (les collaborateurs s’influencent en temps
réel) ou asynchrone. Enfin, les collaborateurs peuvent être en situation de co-présence ou non.
Dans notre cas, la situation de collaboration sur la tâche de RI est explicite, synchrone et en
situation de co-présence.
4. « Orienteering » peut être traduit par « course d’orientation »4.3. Analyse des entretiens du corpus 91
Expert
Application
observe
communique
interagit
(CISMeF)
Utilisateur
Figure 4.2: Situation dialogique entre l’expert, le demandeur et CISMeF dans l’expérimentation (adaptée
de [Rich 2001])
4.3.2 Structure globale des entretiens
Les dialogues de notre corpus montrent une même structure globale. Le dialogue se dé-
coupe en phases qui jouent chacune un rôle dans l’avancement de la tâche. Nous présentons
cette décomposition d’une manière générale puis nous décrivons plus précisément chacune des
étapes. L’enchaînement des phases est représenté sur la figure 4.3. Les dialogues commencent
généralement par une phase d’ouverture qui consiste en des salutations.
Ouverture Verbalisation Construction de
la requête
Lancement de
la requête
Présentation des résultats
et évaluation
Réparation
Clôture
Figure 4.3: Structure des dialogues de recherche d’information collaborative observée. Les phases colorées
représentent une séquence de recherche d’information.
Le dialogue de recherche commence réellement à la phase de verbalisation du besoin d’information
qui est toujours présente. Cette dernière rend explicite le besoin d’information du
demandeur entre les interlocuteurs. Ce besoin n’est pas figé et peut être raffiné par la suite
(e.g., dans les phases d’évaluation et de réparation). La verbalisation est suivie d’une phase de
construction de la première requête qui va dépendre du besoin explicité. Une fois cette première
requête construite, elle est lancée. Il s’ensuit une phase de présentation des ressources trouvées
et d’évaluation des résultats. Suite à cette phase d’évaluation, deux possibilités se présentent :
(i) les résultats sont complètement satisfaisants, ou bien (ii) les résultats sont partiellement satisfaisants
ou non satisfaisants. Dans le premier cas, le dialogue de recherche se termine par une
phase de clôture. Cette phase de clôture peut déboucher sur l’arrêt de la RI ou sur l’exécution
d’une recherche sur un nouveau sujet. Par exemple, l’entretien AL09 fait apparaître deux sé-
quences de recherche : une sur des problèmes d’articulation, l’autre sur des problèmes d’eczéma
athopique. Dans le deuxième cas, l’expert et le demandeur entrent dans une phase de réparation
de la requête qui va dépendre des résultats obtenus. La réparation conduit au lancement
d’une nouvelle requête et à une nouvelle évaluation des résultats. Il est important de noter la
présence du cycle de modification de la requête constitué des phases de lancement de la requête,92 Chapitre 4 : Corpus Cogni-CISMeF
de présentation et d’évaluation des résultats, et de réparation de la requête. Ceci est le cœur
du dialogue de RI collaborative et met en avant la nature itérative du processus. Tous les dialogues
du corpus présentent au moins une fois la réalisation de ce cycle de réparation. La phase
de clôture est atteinte après la phase de présentation et d’évaluation des résultats soit parce
que les résultats obtenus sont satisfaisants, soit parce que la recherche est abandonnée car les
interlocuteurs jugent qu’aucun résultat ne pourra être obtenu. Cependant, nous ne pouvons pas
exclure le fait que le dialogue puisse se terminer à n’importe quel moment (même si cela n’a pas
été observé).
Nous définissons une séquence de recherche comme la succession des étapes de verbalisation,
de construction de la requête et du cycle de modification de la requête. Les dialogues de RI
peuvent inclure plusieurs séquences situées entre les phases d’ouverture et de clôture.
Phases d’ouverture et de clôture
La phase d’ouverture consiste en de simples salutations. Cette phase est facultative. Pré-
cisons que les entretiens du corpus Cogni-CISMeF commence par une phase de demande
d’informations sur le demandeur spécifique à l’expérimentation (nom, prénom, âge, etc.).
La phase de clôture fait apparaître des propositions de lancement d’une nouvelle séquence
(e.g., « est-ce que vous avez une question sur un autre domaine ? » (AL09)) ou d’arrêts (e.g.,
« donc je crois qu’on va en rester là non ? – d’accord ça marche » (AL04)).
Phase de verbalisation
La phase de verbalisation permet d’établir le sujet de la recherche entre les interlocuteurs
(i.e., les thématiques de la recherche). La suite de la tâche de construction/réparation de la
requête se base sur ce besoin d’information identifié et établi. Nous avons relevé trois principales
formes de verbalisation à la suite de la sollicitation de l’expert. La première forme est constituée
d’une étape de formulation du demandeur suivie d’un éventuel feedback de l’expert. Par exemple,
la phase de verbalisation dans l’entretien AL01 est la suivante :
— Formulation (demandeur) : « donc j’ai une amie qui est épileptique et je voudrais savoir
quel est le risque pour la grossesse »
— Évaluation (expert) : « ok, donc la question est suffisamment précise »
La deuxième forme consiste en une formulation du demandeur reprise et reformulée par l’expert.
Cette reformulation peut être suivie de précisions spontanées du demandeur. Par exemple, la
phase de verbalisation dans l’entretien AL03 est la suivante :
— Formulation (demandeur) : « donc il a toujours la périarthrite ».
— Reformulation (expert) : « donc vous voulez des informations sur la périarthrite ».
— Précisions spontanées (demandeur) : « les soins et puis pour savoir l’évolution ».
Enfin, la troisième forme consiste en une formulation du demandeur suivie de demandes de
précisions de l’expert. Celle-ci est illustrée dans l’entretien VD02 :
— Formulation (demandeur) : « enfin je voudrais parler de leucémie en fait »
— Demande de précisions (expert) : « alors des choses un petit peu plus précises sur la leucémie
»4.3. Analyse des entretiens du corpus 93
— Précisions (demandeur) : « les symptômes / qu’est-ce que c’est exactement ? les symptômes
»
Le tableau 4.2 présente les proportions observées de ces formes de verbalisation dans le corpus.
On observe une majorité de formulation « simple » (57%) suivie par la formulation conduisant
à des demandes de précisions (24%). Enfin, le dernier type (formulation/reformulation) est
observé dans 19% des cas.
Forme VD AL Total
Formulation1 4 8 12 (57%)
Formulation/Reformulation1 1 3 4 (19%)
Formulation/Demande de précisions/Précisions 4 1 5 (24%)
Tableau 4.2: Occurrences des différents types de verbalisation dans le corpus
Phase de construction de la requête
De manière générale, la problématique de cette phase est de trouver les termes de la terminologie
CISMeF adaptés à la verbalisation de l’enquêté. Dans le meilleur des cas, il existe des
termes dans la terminologie identiques aux termes de la verbalisation de l’enquêté (e.g., « leucé-
mie », VD02). Dans le pire des cas, le terme est absent de la terminologie. L’expert et l’enquêté
doivent donc collaborer pour trouver des termes de la terminologie approchant la verbalisation
de l’utilisateur. Nous revenons sur cette problématique dans la section 4.3.3.
Phase de lancement de la requête
La phase de lancement de la requête consiste à exécuter la requête élaborée par les partenaires.
Cette phase est souvent implicite. Cependant, il arrive qu’elle soit explicite dans certaines
situations, par exemple : « ok / alors on lance la recherche avec uniquement néphrite [. . . ] »
(VD08).
Phase d’évaluation
La phase de présentation et d’évaluation des résultats est l’une des plus importantes du
dialogue de recherche. C’est dans cette phase que l’enquêté et l’expert jugent la qualité des
ressources obtenues. De manière générale, l’expert présente les résultats au demandeur. Il le
sollicite pour juger l’adéquation des ressources obtenues par rapport à ses attentes (e.g., « vous
allez me dire si ça vous convient ou pas et pourquoi » (VD02), « Est-ce que le document no x
vous intéresse ? » (VD03)). Les résultats obtenus peuvent être : (i) satisfaisant, (ii) partiellement
satisfaisant, i.e. pas adapté au profil de l’utilisateur (ressources pour médecin) ou n’abordant
pas l’ensemble des thèmes de la requête, ou (iii) pas satisfaisant, i.e. document hors sujet ou déjà
obtenu par une précédente requête. L’objet de cette phase est également d’envisager la poursuite
de la recherche ou son arrêt.
1. Éventuellement suivie d’une phase de précisions spontanées du demandeur94 Chapitre 4 : Corpus Cogni-CISMeF
Phase de réparation
Enfin, les phases de réparation de la requête montrent que l’expert et le demandeur mettent
en place un ensemble de tactiques permettant de modifier la requête pour récolter des ressources
répondant au besoin d’information. Nous les étudions plus en détails dans la section 4.3.3. Dans
cette phase, les partenaires proposent des coups ou des tactiques afin d’établir un plan de
modification de la requête. Les dialogues 4.1 et 4.2 sont des exemples de réparation de requête.
Dans le dialogue 4.1, l’expert propose une tactique de reformulation de la requête
(énoncé A1). Il suggère au demandeur d’ajouter « néphrite » à la nouvelle requête. Ce dernier
l’accepte (énoncé B2). Ensuite, la proposition de l’expert d’enlever le terme « membres
inférieurs » (énoncé A3) est acceptée par le demandeur (énoncé B4). Finalement, l’expert suggère
de ne pas enlever « membres inférieurs » mais de le conserver en mot-clé (énoncé A5).
Cette suggestion n’est pas considérée par l’enquêté qui demande l’exécution de la requête avec
« néphrite », i.e. l’exécution du plan de modification précédemment établi (énoncé B6). L’expert
exécute alors ce plan de modification (énoncé A7). En synthèse, les interlocuteurs s’engagent
dans une tactique de reformulation. Ils co-construisent un plan constitué de coups modifiant la
requête. Le plan élaboré est finalement exécuté.
A1 : les pistes qu’on a prises ne fonctionnent pas donc on va essayer de partir
sur autre chose / on parle d’une néphrite tout à l’heure / vous voulez qu’on
essaie de ce côté là
B2 : on peut essayer
A3 : donc j’enlève membres inférieurs
B4 : ouais
A5 : ou je le rajoute en mot clé
B6 : bon allons y sur néphrite voir un peu ce qu’il y a
A7 : en mot clé cismef je tape néphrite après avoir enlevé membres inférieures
Dialogue 4.1 – Exemple de dialogue de réparation de requête (VD08). A est l’expert, B est le
demandeur.
Dans le dialogue 4.2, l’expert propose une tactique d’élargissement de la recherche
(énoncé A1). Comme dans le précédent dialogue, les partenaires élaborent conjointement un
plan de modification de la requête. Ici, c’est principalement le demandeur qui propose les coups
à effectuer (énoncés B4 et B6) et qui sont validés par l’expert (énoncés A5 et A7). Dans la suite
de l’élaboration du plan, l’expert propose de rajouter le qualificatif « diagnostic » (énoncé A8)
bien que sa suppression ait été précédemment validée (énoncé A7). Le demandeur accepte et propose
l’exécution du plan (énoncé B9). L’exécution du plan est acceptée et effectuée par l’expert
(énoncé A10).
4.3.3 Stratégies et tactiques
Nous présentons maintenant la stratégie menée par l’expert observée dans le corpus. Nous
appelons tactique initiale une tactique qui apparaît dans la phase de construction de la requête
et tactique de réparation une tactique qui apparaît dans la phase de réparation. De manière
générale, nous avons observé que l’expert met en place un processus de recherche incrémental.4.3. Analyse des entretiens du corpus 95
A1 : [. . . ] bah peut-être qu’on peut essayer d’élargir la recherche dans ce cas là si
on regarde un petit peu les mots qu’on a mis /
B2 : on a quand même pas mis grand chose
A3 : bah non alors
B4 : pourquoi enlever / on peut enlever analyse
A5 : alors enlevons analyse
B6 : et diagnostic
A7 : oui
[. . . ]
A8 : [. . . ] j’aurais presque envie de mettre diagnostic quand même parce que /
parce que on va voir ce que ça donne
B9 : oui normalement c’est un diagnostic / ok / essayons comme ça
A10 : on va essayer comme ça sinon on enlèvera encore des choses pour arriver à
avoir des / donc je relance la recherche avec l’accès thématique cancéro le
mot clé cismef colon et puis le qualificatif diagnostic sans précision du type
de ressource qu’on recherche
Dialogue 4.2 – Exemple de dialogue de réparation de requête (VD06). A est l’expert, B est le
demandeur.
Stratégie globale
Une stratégie globale débute par une tactique initiale suivie d’une série de tactiques de ré-
paration de la requête permettant de collecter des documents. Les tactiques sont élaborées en
collaboration avec le demandeur. Nous avons observé deux types de stratégie globale correspondant
aux deux experts. La première consiste à partir d’une requête précise pour ensuite la
généraliser au fur et à mesure (corpus VD). C’est une stratégie de téléportation. La seconde
consiste à partir d’une requête vague pour la préciser successivement ensuite (corpus AL). C’est
une stratégie d’orienteering. La stratégie globale influence les tactiques de réparation utilisées
comme nous le détaillons en fin de section.
Tactiques initiales
Tactique de téléportation L’expert du corpus VD mène une tactique initiale principalement
directive et stéréotypée. Elle consiste à remplir un maximum de champs du formulaire de
recherche avancée en collaboration avec l’enquêté. Elle se décompose de la manière suivante :
1. Préciser la requête en utilisant l’accès thématique de CISMeF i.e. préciser un thème général
(e.g. « Anatomie », « Biologie », « cardiologie », etc.).
2. Préciser le ou les mots-clés (généralement extrait de la phase de verbalisation).
3. Préciser des qualificatifs associés aux mots-clés (e.g. « épidémiologie » associé au mot-clé
« paludisme »).
4. Préciser le type de ressources (e.g. « article de périodique », « bande dessinée »).
Cette tactique est une tentative de téléportation aux ressources répondant aux besoins d’information.
Le dialogue 4.3 présente un exemple complet d’élaboration d’une première requête
entre l’expert et le demandeur. Cette phase est dirigée par l’expert. Les partenaires déterminent96 Chapitre 4 : Corpus Cogni-CISMeF
l’accès thématique (énoncés A1 à A5). Puis, ils fixent le mot-clé (énoncés A5 à A7). Enfin, ils
précisent des qualificatifs (énoncés A7 à A17) et un type de ressources (énoncés A17 à A19).
Tactique d’orienteering Contrairement au corpus VD, la tactique initiale de l’expert du
corpus AL ne semble pas clairement figée. On observe néanmoins un certain nombre de caractéristiques.
L’expert ne cherche pas à créer une requête précise mais au contraire, une plutôt
générale. Dans ce but, il semble avoir une préférence pour préciser dans un premier temps uniquement
une spécialité médicale dans laquelle s’insère la recherche. Cette tactique est une mise
en œuvre de l’orienteering. Le dialogue 4.4 présente un exemple de spécification d’une requête
générale entre l’expert et le demandeur.
Tactiques de réparation
Une fois la première requête lancée, les interlocuteurs vont évaluer les résultats. Nous avons
pu observer dans le corpus les tactiques mises en place par les interlocuteurs pour trouver des
ressources adéquates. L’élément central est la phase d’évaluation qui va conduire à choisir entre
trois types de tactiques : la précision, la généralisation et la reformulation que nous mettons en
relation avec les tactiques initiales de téléportation et d’« orienteering » en fin de section.
Tactiques de précision L’idée des tactiques de précision est d’augmenter l’adéquation entre
les ressources obtenues et les attentes de l’enquêté. Généralement, la précision d’une requête
conduit à obtenir moins de documents. Ces tactiques sont utilisées quand (i) des résultats
sont obtenus (quelque soit le nombre), et (ii) les ressources observées sont partiellement satisfaisantes
5
. Ce type de tactiques dépend du critère qui rend les ressources partiellement satisfaisantes.
Nous avons observé deux critères qui motivent les réparations de la requête. Le premier
critère dépend de la spécificité des résultats par rapport à ce qu’attend le demandeur. Ce point
est clairement connecté à son profil. Les résultats peuvent être trop spécialisés (i.e., les ressources
abordent des notions trop spécifiques). Au contraire, les résultats peuvent être insuffisamment
précis (i.e., les ressources abordent des notions trop générales). Le second critère dépend des
thèmes de la recherche. Si la requête est incomplète (i.e. elle ne recouvre pas tous les thèmes
de la recherche) alors les interlocuteurs vont essayer de la préciser. Les tactiques de précisions
visent généralement à ajouter un élément à la requête (ajout d’un mot-clé, d’un qualificatif, d’un
type de ressources, d’une spécialité médicale, etc.). C’est par exemple le cas de l’entretien AL02
où l’expert propose de préciser avec le type de ressources « patient » : « on va voir on lance
la recherche/ ce qu’on obtient/ voilà ah / on a beaucoup plus de documents / cinquante-et-une
ressources / donc on a peut-être même trop / [. . . ] on peut lancer sur les documents qui sont
spécifiques pour les patients ». Néanmoins, d’autres précisions peuvent exister comme substituer
un terme de la requête par un plus précis (e.g., les partenaires substituent « cholestérol » par
« cholestérol HDL » lors de l’entretien AL12).
Tactiques de généralisation L’idée des tactiques de généralisation est de tenter d’obtenir
une requête qui retourne des résultats pour ensuite utiliser des tactiques de précision/reformulation.
Ces tactiques sont utilisées quand (i) aucun résultat n’est obtenu, et (ii) la requête est
composée (i.e., il est possible de la simplifier en lui soustrayant des éléments). Dans le cas où il
5. Intuitivement, la précision d’une requête si peu de ressources sont obtenues semble inutile. Cependant
quelques cas ont été recensés dans notre corpus.4.3. Analyse des entretiens du corpus 97
A1 : donc on va y aller / alors accès thématique on va dire que c’est grosso modo
l’ensemble des spécialités médicales [. . . ] est-ce que vous voyez des choses
dans lesquelles vous auriez envie de classer votre demande sur la leucémie /
je fais défiler donc
B2 : le menu déroulant
A3 : le menu déroulant [. . . ] si vous ne trouvez rien c’est pas grave on mettra rien
/ peut-être que
B4 : jusque là j’ai pas vu
A5 : D’accord / ok je continue à faire dérouler / y’a rien / donc nous ne mettons
rien en accès thématique / en mot clé bah écoutez je vous propose de mettre
leucémie
B6 : leucémie
A7 : leucémie / D’ailleurs il me le propose / on va le mettre directement
et le qualificatif permet de préciser un tout petit peu ce mot clé / donc par
rapport à votre question / de la même façon je vais faire dérouler le menu et
vous allez me dire si vous voyez des choses
B8 : chimiothérapie
A9 : alors chimiothérapie ok / alors vous souhaitez mettre d’autres qualificatifs
B10 : oui
A11 : D’autres précisions / alors on va aller chercher [. . . ]
B12 : diagnostic
A13 : diagnostic ok [. . . ] ok je continue à faire dérouler le menu de qualificatifs
B14 : effets indésirables
A15 : effets indésirables / ok / alors effets indésirables / donc je continue à faire
dérouler [. . . ] le menu déroulant
B16 : sang
A17 : allons-y / sang et de toute façon là je pense que ça va être à peu près tout
[. . . ]
alors souhaitez-vous qu’on aille regarder dans un type de ressource particulier
relatif aux associations / base de données / bibliothèque médicale / etc / ou
quelque chose qui soit spécifique pour les patients
B18 : ouais
A19 : oui / alors je mets type de ressource : patient / bon on va le lancer comme
ça [. . . ]
Dialogue 4.3 – Exemple de dialogue de construction de requête initiale avec la tactique de télé-
portation (VD02). A est l’expert, B est le demandeur.98 Chapitre 4 : Corpus Cogni-CISMeF
A1 : [. . . ] alors donc on a plusieurs domaines / alors déjà on va commencer par
l’accès thématique / ça nous permet d’avoir accès à différentes branches mé-
dicales // donc pour le dos euh : // alors je regarde s’il y a quelque chose qui
va convenir sinon on va faire autrement [. . . ]
B2 : c’est peut-être un truc osthéo
A3 : oui c’est ça / alors donc ostéopathie merci /euh : // non ils ont pas ça dans
l’annuaire /
B4 : rhumatologue / rhumatologie dans la première /
A5 : d’accord / euh : donc on va essayer ça / avec rhumatologie / donc je lance
la recherche comme ça
Dialogue 4.4 – Exemple de dialogue de construction de requête initiale avec la tactique d’orienteering
(AL05). A est l’expert, B est le demandeur.
n’est pas possible de généraliser la requête, les interlocuteurs vont soit reformuler un des termes
(ou plusieurs), soit abandonner la requête. Les tactiques de généralisation conduisent généralement
à supprimer un élément de la requête (mot-clé, qualificatif, etc.) ou à substituer un terme
par un plus général. Le dialogue 4.2 (p. 95) présente un exemple de tactique de généralisation.
Tactiques de reformulation Les tactiques de reformulation interviennent lorsque les ressources
obtenues sont directement rejetées par les interlocuteurs. Il s’agit du cas où les ressources
sont clairement non satisfaisantes. Le constat d’inadéquation entre la requête et ce qui
est attendu par le demandeur est généralement explicité (e.g., « les pistes qu’on a prises ne
fonctionnent pas donc on va essayer de partir sur autre chose » (VD08), cf. dialogue 4.1). En
outre, les tactiques de reformulation sont choisies dès le moment où les partenaires n’ont pas
la possibilité d’appliquer les tactiques de généralisation et de précision. La reformulation de la
requête peut reposer sur des termes précédemment énoncés durant la discussion et qui n’ont pas
encore servi à construire une requête. Les tactiques de reformulation conduisent généralement à
altérer ou substituer un élément de la requête (e.g., par l’utilisation de synonyme) ou à utiliser
une nouvelle combinaison de termes précédemment évoqués. Le dialogue 4.1 (p. 94) présente un
exemple de tactique de reformulation.
Synthèse de l’usage des tactiques La figure 4.4 représente l’enchaînement idéalisé des
tactiques en fonction des résultats de la requête (nombre de résultats et satisfaction). Les phases
du dialogue sont représentées sur la figure par des rectangles, les décisions par des losanges et
les tactiques par des ellipses. Le premier critère sur lequel se base le choix de la tactique est
le nombre de résultats obtenus après le lancement de la requête. Si le nombre de résultat est
nul, la tactique à choisir dépend de la requête. Si elle est généralisable, la tactique choisie est la
généralisation sinon la reformulation. Si le nombre de résultats est strictement positif, le choix de
tactique dépend de l’adéquation des résultats avec les attentes de l’enquêté. Si les résultats sont
satisfaisants, le dialogue de recherche passe à la phase de clôture. Cela signifie que la recherche
est un succès et que les interlocuteurs soit interrompent leur collaboration, soit passent à une
nouvelle séquence. Si les résultats récoltés jusqu’alors sont partiellement satisfaisants, la tactique
choisie sera la précision. Sinon, si les résultats ne sont pas satisfaisants (i.e. hors sujet), la tactique
choisie est la reformulation.4.3. Analyse des entretiens du corpus 99
Ce schéma présente une tendance dans le choix des tactiques qui n’est pas toujours respectée.
Marginalement, nous avons observé des modifications de requête issues de l’inspiration du
moment d’un des collaborateurs. Par exemple, deux entretiens de notre corpus (AL01 et VD06)
font apparaître des modifications de requête combinant une tactique de généralisation et l’ajout
spontané d’un terme (motivé par « on va essayer contre-indications [. . . ] à tout hasard » dans
AL01, et la volonté du demandeur dans VD06).
Réparation
Évaluation
Première requête
Lancement de la requête
Résultat ?
Clôture Préciser Reformuler Généraliser
Généralisable ?
Non Oui
0 résultat
Satisfaction ?
Résultat
Satisfaisant Partiellement
satisfaisant Non satisfaisant
Figure 4.4: Enchaînement idéalisé des tactiques de réparation en fonction des résultats de la requête.
Les phases du dialogue sont représentées par des rectangles, les décisions par des losanges et les tactiques
par des ellipses.
Le tableau 4.3 présente la répartition des tactiques dans le corpus. Globalement, nous constatons
que les trois types sont répartis uniformément (approx. 30 instances de tactiques recensées
pour chaque type). Dans le détail, nous observons qu’une grande majorité des tactiques de réparation
utilisées dans la stratégie globale de téléportation sont des généralisations (53% du total,
expert VD). Ceci s’explique par le fait que les requêtes trop précises retournent rarement des
résultats dans CISMeF. Au contraire, la stratégie globale d’orienteering ne conduit qu’à très
peu de tactiques de généralisation (8% du total, expert AL). Elle implique principalement des
tactiques de précisions (48%) et de reformulation (44%). Ceci s’explique par le fait que la stratégie
d’orienteering consiste à adapter la requête en fonction des résultats obtenus. En synthèse,
la stratégie globale influence les tactiques de réparation utilisées dans le processus de recherche.
La téléportation conduit à l’utilisation de tactiques de généralisation tandis que l’orienteering
conduit à préciser ou reformuler la requête.
4.3.4 Rôles des participants
Dans cette section, nous nous intéressons aux rôles des participants dans la situation de RI
collaborative. Dans un premier temps, nous présentons brièvement l’initiative mixte dans un100 Chapitre 4 : Corpus Cogni-CISMeF
Tactiques VD AL Total
Précisions 11 (23,4%) 23 (47,9%) 34 (35,8%)
Généralisation 25 (53,2%) 4 (8,3%) 29 (30,5%)
Reformulation 11 (23,4%) 21 (43,8%) 32 (33,7%)
47 48 95
Tableau 4.3: Répartition des tactiques de réparation dans le corpus
contexte de résolution collaborative de problème. Puis nous abordons le type d’interaction majoritairement
observé dans le corpus. Enfin, nous présentons quelques éléments clés des processus
mis en jeu par l’expert dans ce corpus.
Initiative mixte dans un contexte de résolution collaborative de problème
En interaction Homme-Machine, on différencie généralement trois grands types d’interaction
du point de vue du système [Allen 1999]. Le système peut être réactif. Il s’agit de systèmes qui
se contentent de réagir aux ordres de l’utilisateur. L’initiative est conservée par l’humain. Typiquement,
l’application se présente sous la forme d’une interface graphique qui va être manipulée
par un utilisateur (e.g., un éditeur de texte, navigateur web, etc.). À l’autre extrême, on observe
les systèmes directifs. Il s’agit de systèmes qui contrôlent rigidement le flot de l’interaction.
C’est alors l’utilisateur qui réagit aux sollicitations du système. Les meilleurs exemples sont les
centres d’appel où l’utilisateur doit appuyer sur des touches pour naviguer dans le menu. Entre
les deux se situe l’initiative mixte dans un contexte de résolution de problème entre un humain
et des agents qui a émergé de différents travaux [Horvitz 1999b, Allen 1999, Horvitz 2007, Tecuci
2007]. L’initiative mixte suppose un entrelacement naturel et efficient des contributions
des utilisateurs et des agents déterminé par leurs connaissances relatives, leurs compétences, et
par le contexte de résolution du problème plutôt que par des rôles fixés. Ceci permet à chaque
participant de contribuer à ce qu’il fait le mieux au moment approprié. L’idée de l’interaction
d’initiative mixte est résumée dans [Allen 1999] (p. 14) : « L’interaction d’initiative mixte laisse
les agents travailler de manière plus efficiente en équipe – c’est la clé. Le secret est de laisser
les agents qui connaissent sur le moment la meilleure façon de procéder coordonner les autres
agents. ». L’initiative mixte se manifeste généralement dans les systèmes de dialogue capables
d’avoir à la fois l’initiative (« Quel type de document souhaitez-vous ? ») et de permettre à
l’utilisateur de prendre l’initiative (« En fait, je voudrais modifier le mot-clé dans la requête. »).
Néanmoins, l’interaction d’initiative mixte va au-delà en incluant plus largement la résolution
de problème collaborative. L’initiative mixte dans ce contexte est illustrée par un entrelacement
de contributions de ses différents participants.
Rôles de l’expert et du demandeur
Le rôle des interlocuteurs dans la situation de collaboration de notre expérimentation peut se
caractériser par les degrés de familiarité avec l’outil CISMeF et le domaine de la médecine [Golovchinsky
2008]. Dans notre expérimentation, l’expert possède l’expertise de l’outil et est novice
du domaine tandis que l’utilisateur est novice de l’outil et novice du domaine.
Nous avons constaté que ces rôles d’expert et de demandeur donnent des responsabilités différentes.
Le demandeur est à l’origine du besoin d’information d’ordre médical qui motive la RI.4.3. Analyse des entretiens du corpus 101
En outre, il est capable de juger de l’intérêt des ressources retournées par le moteur de recherche.
L’expert possède les connaissances et les compétences lui permettant d’utiliser efficacement le
moteur de recherche CISMeF et de répondre à des questions à propos de CISMeF (e.g., terminologie,
fonctionnement, types de ressources indexées, etc.). Il possède un ensemble de stratégies
et de tactiques afin de mener la recherche et de récolter des ressources satisfaisantes pour le demandeur.
En outre, il a la responsabilité de mener la RI en collaboration avec le demandeur.
Il l’aide à construire sa première requête. Il lui présente un ensemble de ressources résultant de
l’exécution de la requête. Il évalue, en collaboration avec le demandeur, l’adéquation entre les
ressources et le besoin d’information. Enfin, les partenaires modifient conjointement la requête
afin de récolter des ressources satisfaisant le besoin d’information du demandeur.
La situation place l’expert en initiateur puisqu’il est chargé de mener la recherche en guidant
le demandeur. En outre, c’est lui qui manipule le moteur de recherche. Néanmoins, les différentes
phases de la tâche donnent l’initiative à l’un ou l’autre des participants en fonction de leurs capacités.
Les phases de verbalisation et de construction de la première requête sont principalement
menées par l’expert (cf. dialogue 4.3, p. 97). La phase d’évaluation donne l’initiative au demandeur
qui sait le type d’information qu’il souhaite obtenir. La phase de réparation de la requête
est clairement d’initiative mixte (cf. dialogue 4.2, p. 95). En outre, certains dialogues présentent
des prises d’initiative spontanées du demandeur dans les phases normalement dirigées par l’expert
(cf. dialogue 4.4, p. 98). Par exemple, bien que présentant une procédure systématique pour
la conception d’une première requête, l’expert VD accepte les prises d’initiative des demandeurs
qui souhaitent lancer la requête avec un unique mot-clé. En somme, l’interaction observée est
radicalement d’initiative mixte.
Capacités de l’expert mises en jeu
En sus des capacités dialogiques et interactives dont l’expert doit faire preuve, nous notons la
présence de capacités spécifiques à la tâche de RI. Dans cette partie, nous synthétisons certaines
capacités de l’expert pour proposer des termes complétant la requête. Nous nous intéressons
aux critères qui entrent en jeu dans l’évaluation des ressources. Enfin, nous soulignons son
expertise vis-à-vis du moteur CISMeF ainsi que sa coopérativité envers les buts proposés par
le demandeur.
Proposition de termes Nous avons noté un certain nombre de sources utilisées par l’expert
pour proposer des termes au demandeur. La première source est les termes extraits de la verbalisation
du besoin d’information. L’expert est capable de proposer des termes en utilisant la
terminologie CISMeF. Par exemple, il est capable de proposer « donneur de tissus » à partir
du terme « don » dans l’entretien VD01.
L’expert extrait des termes des notices des ressources retournées par une requête. Ces termes
sont ceux qui indexent la ressource. L’extraction est souvent explicite, comme par exemple : « on
parle apparemment des ’troubles anxieux’ » (AL02). Elle intervient dans les phases d’évaluation
et de réparation de la requête.
L’expert est capable de proposer l’ajout de termes à la requête en se basant sur le profil de
l’enquêté. Dans notre corpus, il s’agit principalement pour l’expert de proposer l’ajout du type
de ressources « patient ».
L’expert re-propose des termes évoqués pendant l’interaction comme des termes de la verbalisation
ou des expressions soulevées lors de l’analyse des ressources dans la phase d’évaluation.102 Chapitre 4 : Corpus Cogni-CISMeF
Enfin, l’expert utilise ses connaissances sur le domaine pour proposer spontanément des
termes au demandeur. C’est notamment le cas dans l’entretien VD09 où l’enquêté recherche
des documents sur la prévention du glaucome. L’expert propose alors spontanément d’ajouter
la spécialité médicale « ophtalmologie » compte-tenu du fait qu’il sait que le glaucome est une
maladie dégénérative du nerf optique.
Évaluation des ressources L’expert est capable d’évaluer les ressources dans certains cas.
Les critères « simples » se basent sur (i) le nombre de ressources retournées par la requête
(trop ou pas assez de documents), et (ii) sur le fait que les résultats obtenus ont déjà été
présentés au demandeur. D’autres critères impliquant un raisonnement plus avancé de l’expert
peuvent intervenir. Il peut ainsi déterminer que les résultats sont manifestement hors sujet. Dans
l’entretien VD04, l’expert est capable de juger les résultats retournés comme inadéquats car ils
abordent des maladies rares et non un problème de calvitie. Ensuite, l’expert se base sur le
fait que les ressources ne recouvrent qu’un sous-ensemble des thèmes de la recherche (e.g., les
ressources parlent de « sport » mais pas des « inconvénients du sport »). L’expert peut également
évaluer que les résultats sont en inadéquation avec le profil de l’enquêté (e.g., les documents sont
pour des spécialistes). Les autres critères impliquent des raisonnements plus poussés sur les
attentes de l’enquêté. Il est cependant intéressant de remarquer des cas particuliers spécifiques
au moteur de recherche CISMeF. Par exemple, l’expert est capable de juger un document comme
étant trop général dans l’entretien AL05 car il est indexé par un grand nombre de mots-clés de
domaines différents.
Expertise vis-à-vis de CISMeF L’expertise de l’expert se manifeste proactivement et ré-
activement. L’expert propose proactivement des explications sur les éléments de la terminologie
à chaque fois qu’il en introduit un. Il définit par exemple ce qu’est un accès thématique (e.g.,
« alors accès thématique on va dire que c’est grosso modo l’ensemble des spécialités médicales »
(VD02)), un qualificatif (e.g., « le qualificatif permet de préciser un tout petit peu ce mot-clé »
(VD02)) ou le fonctionnement de CISMeF (e.g., « bon on va lancer comme ça [. . . ] il va aller
chercher donc sur internet l’ensemble des sites que cismef a répertorié » (VD02)).
En outre, l’expert apporte son expertise sur la requête et la terminologie qui font la spécificité
de CISMeF. Ses compétences et connaissances spécifiques à CISMeF lui permettent de mettre
à portée du demandeur des fonctionnalités qu’il ne connaît pas (e.g., « on va essayer au lieu de
mettre en mot-clé, mettre en plein texte genou / pour voir les articles de la médecine du sport
où intervient le mot genou » (AL06)).
Enfin, l’expert est disponible pour répondre aux demandes opportunistes du demandeur sur
CISMeF. C’est le cas dans l’entretien AL10 où le demandeur interroge l’expert après la première
requête : « donc document c’est / c’est des documents qui / c’est quel type de document parce
que je ne sais pas où se fait la recherche en fait / ». Il s’ensuit un sous-dialogue de 9 tours de
parole entre les interlocuteurs pour répondre aux questions sur CISMeF.
Adoption de but Enfin, l’expert n’hésite pas à adopter les buts du demandeur en laissant de
côté le but conjoint courant. Par exemple, le demandeur de l’entretien VD03 indique à l’expert
qu’il cherche un terme dont une définition est « l’idée qu’un médicament perde son efficacité
quand on l’utilise ». L’expert adopte alors le but du demandeur et lui propose de regarder la
liste des mots-clés CISMeF pour essayer de trouver un terme correspondant à la définition.4.4. Synthèse 103
4.4 Synthèse
Dans ce chapitre, nous avons présenté les étapes de collecte et de transcription du corpus
Cogni-CISMeF. Ce dernier est au cœur de l’extraction de motifs d’interaction dialogique que
nous souhaitons modéliser dans cette thèse. Nous avons donné une description des dialogues du
corpus. Nous avons caractérisé leur tâche sous-jacente qui consiste en la réalisation collaborative
d’une recherche d’information sur CISMeF entre un expert et un utilisateur. Cette caractérisation
s’est appuyée sur l’étude du processus de RI dans le cas individuel. Nous avons vu que la
tâche de RI collaborative met en jeu un processus itératif, opportuniste, stratégique et interactif
entre les participants. La structure globale des dialogues dans une situation de collaboration
entre un expert CISMeF et un demandeur suit des étapes similaires à celles d’un processus
de RI individuel : identification du besoin d’information, spécification de la requête, évaluation
des résultats puis réitération du processus entier. Chaque phase implique une interaction entre
les participants. La phase de verbalisation permet de rendre la collaboration sur la RI explicite.
La RI est menée stratégiquement par les partenaires. La stratégie globale est caractérisée par
la tactique initiale (orienteering ou téléportation). La phase d’évaluation conduit à la reconsidération
du besoin d’information sur la base des résultats observés. La requête est modifiée
par l’élaboration conjointe d’une tactique de réparation. En outre, les participants possèdent
un rôle définissant leurs compétences complémentaires vis-à-vis de la collaboration. Ces résultats
complètent le travail de [Loisel 2008] qui s’était focalisé sur l’étude des questions/réponses
apparaissant dans le corpus.
Nous avons souligné un certain nombre d’indices tout au long de notre étude de la tâche qui
pourront être utilisés dans l’objectif plus global de conception d’un agent assistant d’initiative
mixte pour la RI dans CISMeF. Nous laissons en suspens la question de l’élaboration d’un
tel agent. Le reste de notre travail de thèse se concentre plus généralement sur les capacités
dialogiques des agents interactifs. Nous soulignons néanmoins que la conception d’un agent
assistant pour la RI s’inscrit dans la problématique plus large de la collaboration sur une tâche de
RI. Un des objectifs qui en découle est la réalisation de systèmes qui vont collaborer explicitement
avec l’utilisateur. À l’opposé des systèmes en boîte noire comme le célèbre Google, l’idée est de
permettre à l’utilisateur de diriger sa recherche [Bates 1990]. Il est alors nécessaire de casser la
supposition selon laquelle le système et ses concepteurs savent mieux que l’utilisateur. Il s’agit de
rendre le contrôle à l’utilisateur en lui cachant le moins de détails (e.g., rendre explicite la façon
dont l’information est recherchée par le système, quels documents ont été rejetés et pourquoi,
etc.) tout en lui fournissant une assistance automatique améliorant la réalisation de sa tâche.Chapitre 5
Annotation du corpus et extraction de
motifs
Sommaire
5.1 Processus d’annotation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
5.1.1 Segmentation du dialogue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
5.1.2 Configuration du processus d’annotation . . . . . . . . . . . . . . . . . . . . . 108
5.1.3 Résultats du processus d’annotation . . . . . . . . . . . . . . . . . . . . . . . 112
5.1.4 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
5.2 Processus d’extraction de motifs dialogiques . . . . . . . . . . . . . . . . . . . 126
5.2.1 Configuration du processus d’extraction . . . . . . . . . . . . . . . . . . . . . 127
5.2.2 Résultats du processus d’extraction . . . . . . . . . . . . . . . . . . . . . . . . 128
5.2.3 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
5.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
Dans ce chapitre, nous illustrons les phases d’annotation du corpus et d’extraction de ré-
gularités de notre méthodologie en les appliquant au corpus Cogni-CISMeF (cf. figure 5.1).
La section 5.1 présente l’étape d’annotation du corpus. Cette étape réalise l’enrichissement du
Collecte
et
numérisation
signaux bruts
Transcription
et
codage
dialogues
bruts
dialogues
annotés
Extraction
de
régularités
modèle
Annotation
Figure 5.1: Annotation du corpus Cogni-CISMeF et extraction de régularités. Le fond coloré indique
les étapes traitées dans ce chapitre.
corpus en s’appuyant sur le schéma d’annotation DIT++. Elle consiste en la segmentation du
corpus en unités et à leur annotation avec des fonctions communicatives. À l’issue de ce processus,
une représentation multidimensionnelle de chaque unité d’interaction est obtenue. Cette
représentation est exploitée afin d’extraire des motifs dialogiques, c’est-à-dire des séquences
d’unité d’interaction récurrentes. Le processus d’extraction de motifs dialogiques est développé
en section 5.2. Enfin, nous concluons ce chapitre en commentant les évolutions envisageables de
notre méthodologie (cf. section 5.3).106 Chapitre 5 : Annotation du corpus et extraction de motifs
5.1 Processus d’annotation
Cette section présente la tâche d’annotation du corpus Cogni-CISMeF. Nous nous intéressons
dans un premier temps à la définition de l’unité de sens dans le dialogue humain désignée
par le terme « énoncé » (section 5.1.1). Ensuite, nous abordons la mise en place du processus
d’annotation (section 5.1.2). Après avoir abordé le schéma d’annotation et les moyens utilisés
pour réaliser cette tâche, nous présentons une analyse des résultats obtenus (section 5.1.3). Enfin,
nous synthétisons l’essentiel des conclusions de ce processus d’annotation (section 5.1.4).
5.1.1 Segmentation du dialogue
L’étude du dialogue sous l’angle de la réalisation d’actions communicatives présuppose un
moyen de déterminer les portions de comportement communicatif réalisant ces actions. Intuitivement,
l’énoncé est vu comme l’unité réalisant au moins une action communicative (voire
plus pour un énoncé multifonctionnel, cf. section 1.1.2). L’identification de ces unités est appelée
la segmentation du dialogue. Cette opération est loin d’être triviale dès lors que l’on considère
la multidimensionnalité et la multifonctionnalité du dialogue [Larsson 1998,Bunt 2011b]. Dans
cette section, nous nous intéressons à la définition de cette unité de sens dans le dialogue.
Bunt apporte un éclairage enrichissant sur cette question [Bunt 2011b] en s’appuyant sur
les apports d’Allwood [Allwood 1992]. Il distingue plusieurs formes de multifonctionnalité : sé-
quentielle, discontinue, chevauchante, entrelacée et simultanée. Les quatre premiers types sont
illustrés dans le tableau 5.1 et concernent des cas de multifonctionnalité liés à la segmentation
du dialogue. La multifonctionnalité séquentielle consiste en un tour de parole composé d’une
séquence de parties distinctes ayant chacune une fonction communicative différente. L’exemple
du tableau 5.1 peut être analysé comme la succession suivante : feedback (« Donc ce que c’est
exactement les symptômes »), feedback (« OK »), suggestion (« Donc on y va aller »), affirmation
(« Alors accès thématique on va dire que c’est grosso modo l’ensemble des spécialités
médicales ») et question (« Est-ce que vous voyez des choses »). Il s’agit du cas le plus simple où
le tour peut être décomposé en une succession d’unités réalisant chacune un acte différent. La
multifonctionnalité discontinue consiste en un énoncé interrompu par l’occurrence d’un autre.
L’énoncé « on va voir [. . . ] ce qu’on obtient » est un énoncé discontinu par l’intervention de
l’unité « on lance la recherche ». Le type « chevauchant » consiste en une partie d’un énoncé qui
a une fonction communicative propre différente de l’énoncé complet. C’est le cas du feedback
positif « on peut mettre de côté un des documents » dans la réponse complète « mais bien sûr on
peut mettre de côté un des documents ». Enfin, il est possible que deux énoncés soient entrelacés.
La segmentation des unités de sens dans le dialogue a une influence sur l’attribution de leurs
fonctions communicatives. Ces unités doivent être définies de manière à prendre en compte les
formes de multifonctionnalité liées à la segmentation du dialogue.
Contrairement aux formes que nous venons d’aborder, la multifonctionnalité simultanée n’est
pas connectée à la segmentation. Elle réfère au fait qu’un énoncé réalise simultanément plusieurs
fonctions. Dans l’exemple « – Quelle est la capitale de France ? – Paris », la réponse « Paris »
est simultanément une réponse et un feedback fort de compréhension. Cette simultanéité peut
s’expliquer de deux façons [Bunt 2011b] : (i) soit parce que l’énoncé contient des indicateurs
de surface démontrant la réalisation de fonctions dans des dimensions différentes (appelée multifonctionnalité
indépendante), (ii) soit parce que l’énoncé réalise une fonction en impliquant
d’autres (comme dans l’exemple précédent).5.1. Processus d’annotation 107
Type Exemple
Séquentielle « Donc ce que c’est exactement les symptômes / OK / Donc on y
va aller / Alors accès thématique on va dire que c’est grosso modo
l’ensemble des spécialités médicales / Est-ce que vous voyez des choses »
(VD02)
Discontinue « on va voir on lance la recherche/ ce qu’on obtient » (AL02)
Chevauchante
S1 : on peut mettre de côté un des documents là ?
H2 : mais bien sûr on peut mettre de côté un des documents
(VD06)
Entrelacée « Trente euros pour une clé USB
. . . est-ce que Paul n’en aurait pas une à te prêter. . . c’est un peu
cher ! . . . ou peut-être Coralie ? »
Tableau 5.1: Segmentation et multifonctionnalité
Nous pouvons nous interroger sur le sens à accorder au terme « énoncé ». En effet, la manière
de segmenter a un impact direct sur la multifonctionnalité des unités choisies. Intuitivement,
il semble nécessaire d’adopter une définition permettant d’éliminer les formes de multifonctionnalité
séquentielle, discontinue, chevauchante et entrelacée. Pourtant, l’état de l’art foisonne
de définitions très différentes. L’unité parfois employée en tant qu’énoncé est le tour de parole.
Un tour de parole est « une unité dans le dialogue oral qui correspond à une portion de
l’élocution d’un locuteur, délimitée par une absence d’activité ou par l’activité d’un autre interlocuteur
» [Allwood 1992]. Cette définition d’énoncé offre une unité d’étude grossière et ignore
de fait les formes de multifonctionnalité précédemment présentée. Il est courant de segmenter
un tour de parole en unité plus fine étant soit une forme nominale, soit une unité grammaticale
bien formée pouvant être vue comme la réalisation linguistique d’un acte de langage (voir, e.g.,
la notion de « c-unit » [Weisser 2003]). Ces unités sont alors prises pour énoncé. Cette dernière
définition permet d’envisager la multifonctionnalité séquentielle mais échoue à considérer les
trois autres formes. Alternativement, Bunt propose de voir l’énoncé sous l’angle du segment
fonctionnel défini comme étant « . . . une portion minimale de comportement communicatif qui
a une fonction communicative. De telles portions n’ont pas besoin d’être grammaticalement
correctes ou contiguës et peuvent avoir plus d’une fonction communicative. » [Bunt 2011b] (cf.
section 1.2.2). Le dialogue 5.1 présente un exemple de segment fonctionnel sur plusieurs tours
(tours 1, 3, 5) clôturé par une complétion du partenaire (tour 6), et coupé par des interventions
du partenaire (tours 2 et 4). Chacun des autres tours forme également son propre segment fonctionnel
(tours 2, 4, 6, 7). Ce dialogue est présenté annoté avec les fonctions communicatives de
DIT++ en annexe A.3.1.
Le segment fonctionnel est une unité d’analyse intéressante pour le dialogue. Il permet d’éliminer
de par sa définition les formes de multifonctionnalité séquentielle, discontinue, chevauchante
et entrelacée. Seule persiste la multifonctionnalité simultanée. Cette dernière est en partie
gérée par le fait qu’un segment fonctionnel dans DIT++ peut être annoté par une fonction
communicative par dimension (cf. section 1.2.2). Notons qu’un segment fonctionnel peut être
très court (« euh : ») ou très long, et s’étaler sur plusieurs tours de parole. C’est l’unité d’analyse
que nous adoptons pour notre tâche d’annotation.108 Chapitre 5 : Annotation du corpus et extraction de motifs
Expert1 : [. . . ]donc on a dit qu’on mettait
Enquêté2 : attention
Expert3 : néphrite
Enquêté4 : ouais
Expert5 : et qu’on gardait
Enquêté6 : membres inférieurs
Expert7 : D’accord [. . . ]
Dialogue 5.1 – Exemple de segment sur plusieurs tours de parole (entretien VD08).
5.1.2 Configuration du processus d’annotation
Dans cette section, nous présentons les paramètres d’annotation du corpus Cogni-CISMeF.
Dans un premier temps, nous décrivons le schéma d’annotation choisi et nous fournissons les dé-
tails sur les moyens (humains et autres) mis en œuvre pour l’annotation. Enfin, nous décrivons la
stratégie d’annotation choisie. Pour finir, nous soulignons les limites du processus d’annotation.
Schéma d’annotation
Nous avons choisi le cadre DIT++ qui fournit un schéma d’annotation multidimensionnel associé
à une taxonomie de fonctions communicatives (cf. section 1.2.2). Le framework DIT++ est
attractif pour la conception du comportement communicatif d’un agent interactif pour plusieurs
raisons [Bunt 2009].
Il propose une taxonomie de fonctions indépendante de l’application pour l’analyse du dialogue
Homme-Homme et pour la conception de système de dialogue (et plus particulièrement du
gestionnaire de dialogue). Tout d’abord, DIT++ propose une taxonomie riche de fonctions communicatives.
Sa force est de clarifier la portée des fonctions communicatives en les regroupant
dans les aspects du dialogue auxquels elles prennent part (i.e., les dimensions). L’existence et la
pertinence des dix dimensions proposées ont été validées empiriquement [Petukhova 2009a,Petukhova
2009b]. Ensuite, une approche multidimensionnelle de l’annotation du dialogue permet
une analyse plus précise de la communication Homme-Homme. Malgré sa richesse, une telle approche
facilite l’annotation [Petukhova 2007, Bunt 2009]. Ceci est permis grâce à la distinction
de dimensions chacune relative à un aspect de la communication bien défini. Le travail de l’annotateur
peut alors se décomposer en deux étapes. Premièrement, il s’agit de considérer les aspects
de la communication abordés par l’unité de comportement communicatif. Cela consiste à choisir
la ou les dimensions traitées par le segment. Ensuite, l’annotateur détermine à un grain plus fin
la ou les fonctions communicatives réalisées. En outre, le choix de la fonction est simplifiée par la
structure taxonomique de DIT++ qui met en avant des fonctions incompatibles ou spécialisées
(cf. section 1.2.2). La taxonomie permet d’éviter à l’annotateur la considération de fonctions
non pertinentes. De plus, les dimensions telles que définies dans DIT++ permettent au schéma
d’être utilisé partiellement. L’annotation ou l’analyse d’un corpus de dialogues peut n’utiliser
qu’un sous-ensemble des dimensions proposées. Enfin, DIT++ est accompagné d’une documentation
précise en ligne [Bunt 2010]
1
comprenant (i) l’ensemble de la taxonomie de fonctions
communicatives associées à des descriptions détaillées, (ii) un guide complet de conseils pour
les tâches d’annotation, et (iii) des exemples de dialogues Homme-Homme et Homme-Machine
1. Disponible à l’URL http://dit.uvt.nl/5.1. Processus d’annotation 109
annotés.
Au-delà de l’étude de corpus, DIT++ semble attrayant pour la réalisation effective d’un agent
interactif. Tout d’abord, l’utilisation de techniques d’apprentissage pour la reconnaissance automatique
des fonctions communicatives de DIT++ semble encourageante [Geertzen 2007,Geertzen
2009a, Bunt 2009]. Tout comme l’annotation humaine, elle peut bénéficier des avantages
fournis par la décomposition en dimensions et la structure taxonomique des fonctions communicatives.
Ensuite, DIT++ est très prometteur pour les agents interactifs tels que les agents
conversationnels animés par son extensibilité [Petukhova 2007] et son support de la multifonctionnalité.
En effet, il est possible d’étendre DIT++ par l’ajout de nouvelles dimensions proprement
définies pour inclure d’autres aspects tels que les émotions [Ekman 1999]. DIT++ peut
aussi être utile pour l’interprétation de comportements communicatifs non verbaux (e.g., mouvements
de la tête, expressions faciales) [Bunt 2009]. Une étude réalisée dans le projet AMI 2 a
montré que l’ensemble des fonctions communicatives réalisées par un comportement non verbal
a pu être adéquatement décrit par les fonctions de DIT++ [Bunt 2009]. Pour finir, l’utilisation
du schéma DIT++ dans un système de dialogue permet d’envisager la génération d’énoncés
multifonctionnels [Keizer 2006] qui peuvent être réalisés de manière multimodale par un ACA
(via la combinaison d’expressions faciales et de langage parlé).
Dans son travail sur le corpus Cogni-CISMeF, Loisel avait dressé une taxonomie d’actes
de langage lors de son analyse [Loisel 2008] en partant de celle de [Weisser 2003]. Notons que
cette taxonomie est incluse dans DIT++. L’annexe A.2 présente l’alignement entre les fonctions
de la taxonomie de Loisel et DIT++.
Moyens et corpus
Quatre annotateurs ont réalisé cette tâche d’annotation, notés A, G, J et N. Les annotateurs
ont déjà réalisé une telle tâche d’annotation mais ne sont pas experts du schéma DIT++. J’ai
donc mis en place une formation à la taxonomie. Cette formation a présenté de manière détaillée
les concepts et la taxonomie de DIT++, des exemples de dialogue Homme-Homme annotés et
la stratégie d’annotation (présentée dans la suite du document). Les annotateurs étaient ensuite
invités à réaliser une série d’exercices d’annotations basés sur les exemples fournis dans la documentation
de DIT++ [Bunt 2010]. Ces exercices leur ont permis de confronter leurs annotations
à celles de référence. Pour cette tâche, les annotateurs avaient à leur disposition les ressources
suivantes : (i) la description générale des concepts de DIT++ [Bunt 2009], (ii) la documentation
du schéma incluant la description de l’ensemble des dimensions et des fonctions [Bunt 2010],
(iii) les hiérarchies de fonctions (cf. figures 1.1 et 1.2), (iv) des exemples de dialogues annotés 3
,
et (v) le guide d’annotation 4
.
Nous avons retiré de l’analyse deux entretiens : AL01 et VD01. Pour une raison inconnue,
l’entretien AL01 ne comporte qu’un tour de parole de la part du demandeur et ne présente
donc pas d’intérêt pour l’étude du comportement communicatif. L’entretien VD01 fait apparaître
un expert rencontrant des difficultés pour mener de front la recherche avec le demandeur
et la manipulation de l’interface. Cet entretien a permis à l’expert de s’approprier l’environnement
d’expérimentation. En tout, un total de 18 entretiens a été considéré dans le processus
2. AMI=Augmented Multi-party Interaction (http://www.amiproject.org)
3. Disponibles aux URL : http://dit.uvt.nl/is-examples.html et http://dit.uvt.nl/
annotated-examples.html
4. Disponible à l’URL : http://dit.uvt.nl/AnnoGuide.html110 Chapitre 5 : Annotation du corpus et extraction de motifs
d’annotation. Le corpus AL contient 10 entretiens tandis que le corpus VD en possède 8.
Le tableau 5.2 présente la répartition des entretiens entre les annotateurs. Chaque dialogue
a été annoté par deux personnes. L’annotateur G (moi-même) a annoté l’ensemble du corpus
tandis que les trois autres ont chacun annoté un tiers du corpus.
AL02 AL03 AL04 AL05 AL06 AL07 AL09 AL10 AL11 AL12
Annot. 01 G G G G G G G G G G
Annot. 02 N J N J A N A J A N
VD02 VD03 VD04 VD05 VD06 VD07 VD08 VD09
Annot. 01 G G G G G G G G
Annot. 02 N N J J A J A A
Tableau 5.2: Répartition des dialogues par annotateur dans le processus d’annotation. A, G, N et J sont
les identifiants des annotateurs.
L’annotation a été réalisée au moyen de l’outil d’annotation Gate [Cunningham 2011] (« General
Architecture for Text Engineering » 5
) en version 6.1. Nous y avons créé un schéma d’annotation
qui permet de standardiser les annotations manuelles réalisées dans les dialogues. Ce
schéma d’annotation sous forme XML est disponible dans le listing A.1 en annexe A.1. Il définit
le type d’annotation « acte de dialogue » comme étant constitué de trois features : (i) le locuteur
qui peut prendre la valeur « Expert » ou « Enquêté », (ii) la dimension qui peut prendre comme
valeur l’une des dimensions de DIT++, et (iii) la fonction communicative qui peut prendre
comme valeur une des fonctions communicatives de DIT++. L’annotation d’un segment fonctionnel
consiste en l’annotation de plusieurs « actes de dialogue » sur la même zone de texte (en
respectant la contrainte d’au plus une fonction communicative par dimension).
Stratégie d’annotation
Le processus d’annotation est constitué de deux parties : (i) la segmentation des tours de
parole en segments fonctionnels (cf. section 5.1.1), et (ii) l’étiquetage de segments fonctionnels
avec zéro ou une fonction communicative par dimension. Comme nous l’avons vu en section 5.1.1,
un segment fonctionnel peut avoir simultanément plusieurs fonctions soit parce que l’énoncé
contient des indicateurs de surface démontrant la réalisation de fonctions dans des dimensions
différentes, soit parce que l’énoncé réalise une fonction en impliquant d’autres. Nous avons choisi
la stratégie d’annotation « strictement basée sur des indicateurs » [Bunt 2011b]. Il a été demandé
aux annotateurs de marquer les fonctions communicatives directement reconnaissables depuis
les caractéristiques linguistiques du segment fonctionnel, tout en tenant compte du passé du
dialogue. Les indicateurs explicites fournissent une base claire sur laquelle justifier l’attribution
d’une fonction communicative. Il est en revanche plus difficile de spécifier sur quelle base une
fonction en implique une autre (voir à ce sujet [Bunt 2011b]).
En outre, il a été conseillé aux annotateurs d’annoter les segments en se mettant à la place de
l’allocutaire essayant de comprendre ce que le locuteur veut dire. L’idée est d’inférer le contexte
dialogique dans lequel est l’allocutaire afin d’interpréter le comportement communicatif du locuteur.
Dans l’esprit des approches contextuelles, il a été demandé aux annotateurs de se méfier de
la forme linguistique de l’énoncé. L’annotation ne doit pas porter sur ce que le locuteur dit mais
5. Site web de Gate : http://gate.ac.uk/5.1. Processus d’annotation 111
sur ce qu’il veut dire. Ainsi, un énoncé comme « On y va ? » est très certainement une suggestion
plutôt qu’une question. Enfin, il a été demandé aux annotateurs d’assigner des fonctions communicatives
aussi précises que possible pourvu qu’ils aient des preuves (contexte, linguistique,
etc.) pour justifier le choix d’une fonction plus spécifique. Par exemple, une CheckQuestion est
plus spécifique qu’une PropositionalQuestion (oui/non) dans le sens où elle attend une réponse
positive. Dans le doute, les annotateurs ont été invités à sélectionner la fonction parente de la
fonction spécifique.
Enfin, il a été demandé aux annotateurs de n’annoter que les segments pour lesquels ils
avaient assez d’indices pour déterminer une fonction communicative, ainsi que les parties du
dialogue relatives à la tâche de recherche d’information collaborative sur CISMeF.
Limites du processus d’annotation
Notre annotation admet des limites. Tout d’abord, nous prenons la liberté d’amoindrir la
clause de minimalité dans la définition de segment fonctionnel en accord avec le guide d’annotation
[Bunt 2010]. Ensuite, nous faisons abstraction de tout comportement non-verbal dans le
corpus Cogni-CISMeF. Enfin, ce processus se limite à l’annotation de fonctions communicatives
et délaisse les aspects sémantiques.
Segmentation Les segments fonctionnels que nous avons générés depuis les annotations ne
respectent pas strictement la contrainte de minimalité afin de simplifier la segmentation du
dialogue, en accord avec le guide d’annotation [Bunt 2010]. Nous avons enfreint la règle de minimalité
des segments fonctionnels pour les courtes interventions dans les dimensions de Own
Communication Management (OCM) (e.g., hésitations, auto-corrections, . . . ) et de Time Management
(e.g., « euh : »). Lorsqu’un segment fonctionnel contenant une fonction communicative
de ces dimensions est inclus dans un autre segment fonctionnel, alors les fonctions sont automatiquement
attribuées au segment fonctionnel englobant en post-traitement (et le petit segment
fonctionnel est supprimé). Ensuite, les segments fonctionnels chevauchants (cf. section 5.1.1)
ont été fusionnés pour ne former qu’un seul segment. En outre, un segment fonctionnel peut
intervenir sur plusieurs tours de parole (cf. dialogue 5.1, p. 108). Or, les annotations dans Gate
sont nécessairement continues. Nous adoptons la convention du guide d’annotation qui indique
de décomposer le segment fonctionnel multi-tour en autant de segments que de tours possédant
les mêmes actes de dialogue.
Transcription Nous annotons la partie verbale retranscrite d’une interaction multimodale
(cf. section 4.1.3). Nous n’avons donc pas en notre possession des indices non-verbaux tels que
des mouvements de tête ou des expressions faciales. [Bunt 2009] précise que les comportements
non-verbaux interviennent pour quatre buts principaux : (i) insister ou articuler le contenu sé-
mantique des actes de dialogue, (ii) insister ou supporter les fonctions communicatives exprimées
verbalement, (iii) réaliser un ou plusieurs actes de dialogue en parallèle de la contribution dialogique
courante du partenaire (sans prise de tour de parole), ou (iv) exprimer une autre fonction
communicative en parallèle de ce que le locuteur exprime verbalement. [Bunt 2009] précise que
le dernier point intervient beaucoup plus rarement que les trois autres. Les points (i) et (ii) nous
permettent de prendre conscience que nous perdons des indices permettant de choisir les fonctions
communicatives. Tandis que les deux derniers points montrent que nous n’annotons pas112 Chapitre 5 : Annotation du corpus et extraction de motifs
l’ensemble des fonctions communicatives exprimées, en particulier celles concernant la gestion
de l’interaction (point (iii)).
Sémantique Le processus d’annotation se limite à l’attribution de fonctions communicatives
à des segments fonctionnels. De ce fait, nous laissons de côté l’aspect sémantique qui nécessite
à lui seul un travail hors de portée de cette thèse (voir les conclusions de [Loisel 2008] et le
travail de [Prévot 2004]). Ainsi, le contenu sémantique des actes n’est pas annoté. De la même
manière, nous n’annotons pas de relations entre les segments fonctionnels. Ce genre de relation
a été mis en avant par les grammaires de dialogue [Polanyi 1984] ou encore par les relations
rhétoriques de la SDRT [Asher 2003] (e.g., narration, conséquence, explication, justification,
élaboration). La raison de cette éviction est que nous ne disposons pas de base tractable sur
laquelle fonder l’annotation de relations. Par exemple, le schéma DIT++ ne propose actuellement
aucune taxonomie claire des relations entre les segments.
5.1.3 Résultats du processus d’annotation
Cette section s’intéresse aux résultats chiffrés et commentés du processus d’annotation. Elle
débute par une présentation de chiffres permettant de quantifier globalement le processus. Puis,
elle présente les résultats de la confrontation des annotations réalisées par les deux annotateurs.
Le calcul de l’accord inter-annotateur et ses résultats sont discutés. Ensuite, la constitution des
tours de parole et des segments fonctionnels en terme de fonction communicative est étudiée.
Puis, l’importance relative des dimensions observées dans le corpus est analysée. Enfin, nous
entrons dans le détail des segments en étudiant les fonctions les plus courantes dans les principales
dimensions.
Généralités
Les résultats ont été produits à l’aide de plugins Gate qui ont été développés pour l’occasion.
Ces derniers se basent sur les annotations manuelles. Le tableau 5.3 présente le détail du nombre
de fonctions communicatives annotées par corpus et par annotateur. Ce processus a conduit à
l’annotation de 6343 fonctions communicatives par les couples d’annotateurs. L’annotateur 1 a
annoté légèrement plus de fonction que l’annotateur 2 (51% du total). Le corpus VD regroupe
approximativement 59% des annotations. Cela s’explique par le fait que les entretiens de ce
corpus sont plus longs en terme de tours de parole.
Corpus AL (10) Corpus VD (8) Total
G 1340 (51%) 1904 (51%) 3244 (51%)
A, J ou N 1285 (49%) 1814 (49%) 3099 (49%)
Total 2625 3718 6343
Tableau 5.3: Nombre de fonctions communicatives annotées par corpus et par annotateur
Le tableau 5.4 présente le nombre de tours de parole total par corpus ainsi que le nombre de
tours de parole finalement annotés. Suite à la stratégie choisie (cf. section 5.1.2), les annotateurs
avaient pour indication de ne pas considérer un tour de parole soit par manque d’indice rendant
l’intervention d’un interlocuteur difficilement interprétable en dehors du contexte (9% du total
des tours de parole n’ont pu être étiquetés pour cette raison), soit si les tours de parole n’étaient5.1. Processus d’annotation 113
pas en rapport avec l’utilisation de CISMeF (18% des tours de parole). Cette situation est
principalement intervenue à la fin des dialogues du corpus VD. Le détail de ces comptes par
entretien est disponible en annexe A.3.2. En somme, un total de 1056 tours de parole a été
annoté par chaque annotateur représentant 73% du corpus initial. La majorité des tours non
annotés a été volontairement exclue de par leur intervention dans une conversation libre hors
du cadre CISMeF.
Nombre de tours Tours annotés Hors CISMeF Incompréhensible
Corpus AL 271 269 (99%) 0 2 (1%)
Corpus VD 1174 787 (67%) 266 (23%) 121 (10%)
Total 1445 1056 (73%) 266 (18%) 123 (9%)
Tableau 5.4: Proportion des tours de parole annotés dans le corpus. La colonne « Hors CISMeF »
dénombre les tours non-annotés car ne faisant pas partie de la tâche de RI sur CISMeF. La colonne
« Incompréhensible » décompte les tours de parole dont les indices étaient insuffisants pour déterminer
des fonctions communicatives.
Le tableau 5.5 présente quelques exemples de fonctions représentatives du corpus. Il indique
la fonction communicative, la dimension dans laquelle elle intervient et un exemple illustratif tiré
du corpus. L’annexe A.3.1 présente cinq extraits de dialogue annotés. Ces exemples commentés
illustrent les six dimensions suivantes : Task, Auto-feedback, Allo-feedback, Time Management,
Turn Management et Partner Communication Management.
Accords inter-annotateur
Calcul de l’accord inter-annotateur Nous avons effectué une analyse de l’accord interannotateur
(IAA) en terme de précision, rappel et F-mesure (F1 score) [Rijsbergen 1979,Manning
1999]. Nous délaissons le coefficient Kappa (κ) [Cohen 1960, Carletta 1996] limité à une
tâche d’annotation où le corpus a été pré-segmenté. L’annexe A.3.3 présente le détail des calculs
de précision, rappel et F-mesure. Les résultats du calcul de l’IAA se divisent en trois catégories :
strict, lenient et average. Celles-ci varient par leur façon de considérer les annotations qui se chevauchent
sans se confondre : le mode strict considère les annotations qui se chevauchent comme
incorrectes alors que le mode lenient les considère correctes. Le mode average est une moyenne
des deux modes précédents. Le calcul de l’IAA pour la phase d’étiquetage ne prend pas en
compte la taxonomie de DIT++ : une fonction Check Question et une fonction Yes/No Question
sont considérées comme étant aussi différentes qu’un Thanking et une Yes/No Question. Des mé-
triques taxonomiques ont été proposées pour DIT++ mais prennent uniquement en compte la
phase d’étiquetage sans considérer la phase de segmentation [Geertzen 2009b]. En conclusion, les
IAAs présentés ici peuvent être considérés comme ceux du pire des cas, sauf indication contraire.
Tous les IAA ont été calculés en prenant les annotations de l’annotateur 1 comme l’ensemble
de référence et les annotations de l’annotateur 2 comme l’ensemble de comparaison. Intervertir
ces deux ensembles conduit à échanger précision et rappel. Ce calcul est réalisé par le plugin
« Inter-Annotator Agreement » 6 préexistant dans Gate.
Nous nous intéressons dans un premier temps à l’IAA sur la tâche de segmentation seule. Puis,
nous abordons le cas de l’IAA pour la combinaison des tâches de segmentation et d’étiquetage.
6. Documentation du plugin « Inter-Annotator Agreement » de Gate disponible à l’URL suivante : http:
//gate.ac.uk/sale/tao/splitch10.html#sec:eval:iaaplugin.114 Chapitre 5 : Annotation du corpus et extraction de motifs Dimension Fonction communicative Exemples Task Inform « on a 115 articles » (AL07), « on cherche mais on ne trouve pas toujours » (VD05) Agreement « exactement c’est tout à fait ça » (VD05) Suggestion « donc ce que je vous propose c’est qu’on remette effort du coup » (VD05) Offer « vous avez une autre question ? » (AL07) (ici, il s’agit d’une offre pour réaliser une nou- velle recherche) Request « essayez avec clairance » (VD07) SetQuestion « comment on fait pour garder les documents ? » (VD06) PropositionalQuestion « il y a pas un synonyme de cette maladie ? » (AL03) CheckQuestion « vous voulez savoir les traitements de manière générale finalement ? » (AL12) ChoiceQuestion « alors on a créatinine quinaz ou créatinine ? » (VD07) Time Management Stalling « euh », « bah » Auto-feedback AutoPositive « OK », « oui », « mmhm mmhm » PerceptNegativeAutoFB « pardon ? » (VD07) ExecNegativeAutoFB « J’en sais rien » (VD04) OCM Retraction « là on trouve de nombreux / beaucoup plus de choses » (AL06) Self-correction « il me semble que c’était / ah non peut-être pas non » (AL07) Turn Management Turn Grab « S : je me couche tôt et je suis dans mon lit et je dors pas et A : d’accord » (AL04) Turn Assign « donc je vous écoute » (AL03), « allez-y » (VD03) Allo-feedback EvalFBElicitation « . . . non ? » (VD04), « . . . c’est ça ? » (VD05), « . . . on est bien d’accord ? » (VD05) SOM Apology « excusez-moi » (VD05) Thanking « je vous remercie beaucoup » (VD02) Thanking-downplay « nickel c’est moi » (VD02) PCM Completion « S : si on fait ça je crois que ça va nous donner A : un document spécifique » (AL10) Tableau 5.5: Exemples de fonctions communicatives par dimension associées à un exemple typique. OCM = Own Communication Management, SOM = Social Obligation Management, PCM = Partner Communication Management.5.1. Processus d’annotation 115
Accord inter-annotateur sur la segmentation L’IAA sur la phase de segmentation est
présenté dans le tableau 5.6. L’accord obtenu sur la phase de segmentation est fort. Nous obtenons
en effet des scores supérieurs ou égaux à 0.93 dans chaque mode. Les IAA par corpus sont
disponibles en annexe A.3.3. L’IAA sur la segmentation est légèrement meilleur sur le corpus
VD (F-mesure à 0.97 en mode average) que sur le corpus AL (F-mesure à 0.94 en mode average).
Cette différence peut s’expliquer par la longueur des tours de parole de l’expert AL, plus difficile
à segmenter (cf. section 5.1.3).
Strict Lenient Average
R P F R P F R P F
0.93 0.94 0.94 0.97 0.98 0.98 0.95 0.96 0.96
Tableau 5.6: Accord inter-annotateur pour la tâche de segmentation. R = Rappel, P = Précision, F =
F-mesure (F1 score).
Ces résultats nous permettent d’approfondir l’étude de l’accord en ajoutant la phase d’étiquetage.
Accord inter-annotateur sur la segmentation et l’étiquetage par dimension Le tableau
5.7 présente l’IAA par dimension pour l’étiquetage des fonctions communicatives. Les
proportions de fonction par dimension sont également fournies. Nous revenons sur les dimensions
en section 5.1.3. Notons que les dimensions sont ordonnées dans le tableau de résultats par
proportion de fonction décroissante.
Strict Lenient Average
Dimension R P F R P F R P F Prop.
Task 0.84 0.85 0.84 0.86 0.87 0.87 0.85 0.86 0.86 68.30%
Time Management 0.75 0.8 0.77 0.81 0.86 0.83 0.78 0.83 0.8 9.93%
Auto-Feedback 0.77 0.8 0.79 0.8 0.83 0.81 0.79 0.81 0.8 9.44%
OCM 0.43 0.49 0.46 0.47 0.54 0.5 0.45 0.52 0.48 5.31%
Turn Management 0.37 0.73 0.49 0.41 0.8 0.54 0.39 0.76 0.51 2.76%
Allo-Feedback 0.63 0.54 0.58 0.66 0.56 0.61 0.64 0.55 0.59 1.19%
SOM 0.43 0.69 0.53 0.48 0.76 0.59 0.46 0.72 0.56 1.18%
PCM 0.86 0.91 0.89 0.86 0.91 0.89 0.86 0.91 0.89 1.09%
Discourse Structuring 0.67 0.57 0.62 0.75 0.64 0.69 0.71 0.61 0.65 0.41%
Contact Management 0.67 0.46 0.55 0.89 0.62 0.73 0.78 0.54 0.64 0.35%
Global 0.77 0.81 0.79 0.81 0.84 0.82 0.79 0.83 0.81
Tableau 5.7: Accord inter-annotateur pour les tâches de segmentation et d’étiquetage par dimension. R
= Rappel, P = Précision, F = F-mesure (F1 score). OCM = Own Communication Management, PCM
= Partner Communication Management, SOM = Social Obligation Management.
Quatre dimensions se distinguent en terme de proportion de fonctions annotées : la dimension
Task (68.30%), la dimension Time Management (9.93%), la dimension Auto-Feedback (9.44%) et
celle de Own Communication Management (OCM, 5.31%). Nous obtenons un accord fort pour
la dimension Task dont les scores dépassent 0.84 dans tous les modes. La F-mesure pour les
autres dimensions (exceptée OCM) dépasse 0.8 (mode average) ce que nous qualifions d’accord116 Chapitre 5 : Annotation du corpus et extraction de motifs
fiable. En outre, les scores en terme de rappel, précision et F-mesure de ces dimensions sont
supérieurs à 0.75 dans tous les modes. Nous revenons sur le cas de la dimension OCM dans la
suite de cette section.
Les accords sur les autres dimensions sont plus variés. Les dimensions Allo-feedback, Contact
Management et Discourse Structuring entretiennent des F-mesures comprises entre 0.59 et 0.65
(mode average). Les accords dans ces dimensions sont modérés. Ils sont pénalisés par des scores
de précision relativement faibles (compris entre 0.55 et 0.61 en mode average). Les dimensions
Social Obligation Management (SOM) et Turn Management possèdent des F-mesures situées
entre 0.51 et 0.56 (mode average). Les accords dans ces dimensions sont modérés bas. Notons
que ces dimensions possèdent une forte précision (supérieure à 0.69 dans tous les modes) et
sont pénalisées par un faible rappel (0.39 et 0.46 en mode average). Enfin, notons l’accord
fort obtenu par la dimension Partner Communication Management (PCM) dont la principale
fonction communicative est la complétion de la locution du partenaire (cf. dialogue 5.1, p. 108).
Les scores de cette dimension dépassent 0.86 dans tous les modes.
Il reste la dimension OCM dont les scores démontrent un accord faible équilibré entre rappel
et précision.
Impact de la propriété taxonomique de DIT++ Comme nous l’avons précédemment
évoqué, le calcul de l’IAA ne prend pas en compte les propriétés taxonomiques de DIT++. Pour
étudier l’impact de ces propriétés, nous avons re-calculé l’IAA en considérant que toutes les
fonctions partageant la même racine sont équivalentes (cf. figures 1.1 et 1.2, p. 25). Notons que
cette méthode réalise des équivalences abusives. Une fonction Correction est ainsi équivalente
à un Answer. Cependant, les fonctions de la dimension OCM forment une branche taxonomique
de trois fonctions se spécialisant. Les considérer comme équivalentes revient à ne donner aucune
importance au degré de spécificité choisi lors de l’étiquetage de ces fonctions. Les résultats de
ce nouveau calcul sont présentés en annexe A.9. Trois dimensions voient leur score augmenter
(les autres restant inchangées). La dimension Task et Allo-feedback augmentent légèrement leur
F-mesure de 0.02 point (en mode average). La dimension OCM voit ses scores considérablement
croître. En mode average, sa précision passe à 0.62, son rappel à 0.72 et sa F-mesure à 0.67 atteignant
ainsi un accord modéré haut. L’accord faible initialement obtenu est donc principalement
dû au degré de spécificité choisi dans l’étiquetage des fonctions.
Accord inter-annotateur sur les fonctions générales Rappelons que les fonctions géné-
rales peuvent intervenir dans toutes les dimensions et en particulier dans la dimension Task. Le
calcul de cet accord permet de vérifier l’uniformité de l’IAA de la dimension Task par rapport
aux catégories de fonctions y intervenant. Le tableau 5.8 présente le calcul de l’IAA en ne prenant
en compte que les fonctions générales de DIT++. Nous avons regroupé ces fonctions dans
les catégories initiales de la taxonomie : fonctions de recherche d’information (« informationseeking
»), fonctions fournissant de l’information (« information-providing ») et fonctions de
discussion d’actions (« action-discussion »). L’accord sur les fonctions fournissant de l’information
est fort. Les scores sont tous supérieurs à 0.84 et la F-mesure en mode average est de 0.87.
Les deux autres catégories présentent un accord fiable avec des scores globalement supérieurs à
0.75. En outre, la F-mesure est de 0.81 pour les fonctions de discussion d’action et de 0.77 pour
les fonctions de recherche d’information.5.1. Processus d’annotation 117
Strict Lenient Average
Catégories R P F R P F R P F
Action-discussion 0.8 0.79 0.8 0.83 0.82 0.83 0.82 0.8 0.81
Information-providing 0.84 0.88 0.86 0.87 0.9 0.88 0.85 0.89 0.87
Information-seeking 0.75 0.75 0.75 0.78 0.78 0.78 0.77 0.76 0.77
Tableau 5.8: Accord inter-annotateur pour les tâches de segmentation et d’étiquetage pour les fonctions
générales. R = Rappel, P = Précision, F = F-mesure (F1 score).
Accord inter-annotateur sur les corpus AL et VD Nous avons également souhaité savoir
si des disparités existaient entre l’annotation du corpus AL et celle du corpus VD. L’annexe A.3.3
présente les tableaux de l’IAA par dimension pour le corpus AL et pour le corpus VD. L’accord
global sur le corpus VD est fiable. La F-mesure en mode average est de 0.82 et les scores sont tous
supérieurs à 0.8. De même, l’accord sur le corpus AL est fiable. La F-mesure en mode average
est de 0.77 et les scores sont tous supérieurs à 0.72. Les accords sur les deux corpus sont fiables
avec un léger avantage au corpus VD.
Analyse au niveau des tours de parole et des segments fonctionnels
Dans cette section, nous analysons les résultats du processus d’annotation en terme d’unités
d’interaction produites, i.e. en terme de segments fonctionnels. Puis nous tentons de faire
ressortir les caractéristiques du corpus qui apparaissent au niveau des tours de parole.
Analyse au niveau des segments fonctionnels 5486 segments fonctionnels ont été annotés
dans le corpus Cogni-CISMeF dont 58.9% appartiennent au corpus VD (3232), et 41.1% au
corpus AL (2254). Nous avons cherché à connaître le nombre moyen de fonctions communicatives
par segment fonctionnel pour la stratégie choisie et la définition de segment fonctionnel choisie
(cf. section 5.1.2). Le tableau 5.9 présente la synthèse des résultats par annotateur et par corpus
ainsi que le résultat global. L’annexe A.3.4 présente le détail des données et des calculs par
annotateur, par corpus et par entretiens. Un segment fonctionnel est en moyenne constitué de
1.16 fonctions communicatives sans réelle différence entre le corpus AL et VD. Nous pouvons
noter que l’annotateur 1 possède un ratio légèrement supérieur à celui de l’annotateur 2. Cela
est cohérent avec la différence observée dans le nombre de fonctions annotées. Ces résultats
sont légèrement inférieurs à ceux obtenus par [Bunt 2011b] pour la même stratégie. Le ratio
obtenu est de 1.3. La principale explication de la différence est que nous manquons la partie
non-verbale, absente dans le cas de [Bunt 2011b] (leurs dialogues ne sont pas en situation de
co-présence). Néanmoins, ces résultats restent très proches. En outre, un tour de parole est
en moyenne constitué de 2.60 segments fonctionnels dans notre corpus. Ceci nous permet de
confirmer l’hypothèse de multifonctionnalité défendue dans [Bunt 2011b].
Annotateur 1 2 Total
Corpus AL 1.19 1.14 1.16
Corpus VD 1.17 1.13 1.15
Total 1.16
Tableau 5.9: Nombre de fonctions par segment fonctionnel par annotateur, par corpus et au total118 Chapitre 5 : Annotation du corpus et extraction de motifs
Nous nous sommes ensuite intéressés à la répartition des segments fonctionnels entre l’expert
et le demandeur. Le tableau 5.10 présente la répartition des segments fonctionnels entre les
interlocuteurs pour chaque corpus et au total. Sur l’ensemble du corpus, l’activité communicative
de l’expert est plus intense que l’activité du demandeur (trois quarts des segments fonctionnels).
Dans le détail, on note une différence claire entre le corpus AL et le corpus VD. L’expert du
corpus AL produit un peu plus de 80% des segments fonctionnels alors que celui du corpus VD
n’en produit que les deux tiers. La différence entre l’expert et le demandeur s’explique par le fait
que l’expert est chargé de mener la recherche tout en verbalisant ses actions. La différence entre
les deux experts s’explique, quant à elle, par le fait que l’expert AL est beaucoup plus directif
que l’expert VD.
Rôle AL VD Total
Demandeur 17.10% 31.40% 25.50%
Expert 82.90% 68.60% 74.50%
Tableau 5.10: Répartition des segments fonctionnels en fonction du rôle
Analyse au niveau des tours de parole Comme précédemment évoqué, 1056 tours de
parole ont été annotés dans ce processus par chaque annotateur (1 et 2). 269 tours ont été
annotés dans le corpus AL contre 787 dans le corpus VD. Les entretiens du corpus AL sont
constitués en moyenne de 26.9 tours de parole (écart type de 11.5). Les entretiens du corpus VD
sont constitués en moyenne de 98.4 tours de parole (écart type de 45.6). Le détail du nombre de
tours de parole par entretien est donné en annexe A.3.2. Les entretiens du corpus AL sont en
moyenne plus court que les entretiens du corpus VD.
Afin de caractériser plus précisément l’activité communicative de l’expert et du demandeur,
nous avons étudié le nombre d’actes de dialogue en moyenne par tour et par corpus. Le
tableau 5.11 présente le nombre d’actes de dialogue par tour en fonction du corpus, de l’annotateur
et du rôle. Les tours de parole de l’expert AL contiennent en moyenne beaucoup plus
d’actes avec un fort écart type (6.88 actes en moyenne pour un écart type de 7.26). Les tours
de parole de l’expert VD contiennent en moyenne moins d’actes que l’expert AL (2.80) avec un
écart type plus faible (2.68). Le nombre d’actes par tour pour le demandeur est dans le même
ordre de grandeur dans les deux corpus et se situe entre 1 et 1.5 actes en moyenne pour un faible
écart type.
(a) Corpus AL
Annotateur 1 2 Total
Expert (m) 6.88 6.87 6.88
Demandeur (m) 1.46 1.47 1.47
Expert (∆) 7.20 7.33 7.26
Demandeur (∆) 0.87 1.00 0.94
(b) Corpus VD
Annotateur 1 2 Total
Expert (m) 2.83 2.77 2.80
Demandeur (m) 1.30 1.28 1.29
Expert (∆) 2.71 2.65 2.68
Demandeur (∆) 0.69 0.7 0.69
Tableau 5.11: Nombre d’actes de dialogue par tour en fonction du rôle. m = moyenne, ∆ = écart type.5.1. Processus d’annotation 119
Analyse au niveau des dimensions
Le tableau 5.12 présente la proportion de fonctions annotées par dimension sur l’ensemble du
corpus Cogni-CISMeF. Quatre dimensions se distinguent en terme de proportion de fonctions
annotées : la dimension Task (68.30%), la dimension Time Management (9.93%), la dimension
Auto-Feedback (9.44%) et celle de Own Communication Management (OCM, 5.31%). Deux tiers
des fonctions ont pour but d’avancer la tâche sous-jacente au dialogue tandis qu’un tiers concerne
la gestion des processus d’interaction. Sur ces quatre dimensions, deux sont liées à des activités
monologiques concernant les processus d’élocution du locuteur. Il s’agit des dimensions OCM
(e.g., auto-corrections, hésitations) et Time Management (e.g., pauses). La dimension Autofeedback
a pour vocation de gérer les retours sur les processus de compréhension des énoncés à
différents niveaux (attention, perception, interprétation, évaluation, exécution).
Dimension Proportion
Task 68.30%
Time Management 9.93%
Auto-Feedback 9.44%
OCM 5.31%
Turn Management 2.76%
Allo-Feedback 1.19%
SOM 1.18%
PCM 1.09%
Discourse Structuring 0.41%
Contact Management 0.35%
Tableau 5.12: Proportions de fonctions annotées par dimension sur l’ensemble du corpus CogniCISMeF.
OCM = Own Communication Management, PCM = Partner Communication Management,
SOM = Social Obligation Management.
L’annexe A.3.5 contient les données sur la proportion de fonctions annotées par dimension,
par corpus et par annotateur, desquelles est issu le tableau 5.12. Les corpus AL et VD font
ressortir les quatre mêmes dimensions majoritaires sans variation significative entre les annotateurs.
Une différence notable entre les deux corpus concerne la dimension Time Management.
Cette dernière est nettement plus présente dans le corpus AL (17.29%) que dans le corpus VD
(4.74%). Ce phénomène s’explique par les longs tours de parole de l’expert AL qui impose l’usage
de segments pour combler les temps d’attente (e.g., « euh », « alors »). En outre, le corpus VD
possède proportionnellement plus de fonctions dans la dimension Auto-feedback (11.83%) que le
corpus AL (6.07%). Cela s’explique par les interventions plus fréquentes du demandeur dans ce
corpus qui nécessitent l’usage de feedbacks afin d’assurer la compréhension mutuelle. Les deux
autres dimensions principales (Task et OCM) interviennent dans les mêmes proportions.
Nous nous sommes intéressés à la co-occurrence des dimensions dans le corpus CogniCISMeF.
Le tableau A.16 en annexe A.3.6 présente la matrice de co-occurrence des dimensions.
Pour les cinq dimensions principales, nous obtenons les co-occurrences suivantes (ordonnées par
proportion d’occurrence décroissante) :
Task : Own Communication Management, Time Management, Auto-feedback, Turn Management.120
Chapitre 5 : Annotation du corpus et extraction de motifs
Time Management : Task, Turn Management, Own Communication Management, Autofeedback.
Auto-feedback : Task, Partner Communication Management, Turn Management, Time Management.
Own Communication Management : Task, Time Management, Turn Management.
Turn Management : Task, Time Management, Own Communication Management, Partner
Communication Management.
Une fonction de la dimension Task co-occurre principalement avec des fonctions permettant
de gérer l’élocution ou le tour de parole. Il s’agit des dimensions OCM, Time Management et
Turn Management. Elle co-occurre également avec la production de feedback (dimension Autofeedback).
Un élément notable est la co-occurrence des dimensions Auto-feedback et Turn Management
avec la dimension PCM. Cette dernière dimension contient des fonctions permettant de
récupérer le tour de parole en aidant un partenaire à conclure son élocution. Les interlocuteurs
saisissent cette occasion pour produire des feedbacks (i.e., compléter pour montrer la compré-
hension). De manière intéressante, nous obtenons des co-occurrences de dimensions similaires
au corpus AMI [Bunt 2009] (voir annexe A.3.6).
Analyse au niveau des fonctions communicatives
Dans cette section, nous nous intéressons aux fonctions intervenant dans les dimensions principales
(Task, Time Management, Auto-feedback et OCM). L’annexe A.3.7 présente les données
pour les autres dimensions.
Le tableau 5.13 présente les proportions de fonctions annotées par catégorie de la taxonomie
DIT++. Sans surprise, nous retrouvons en tête les catégories de fonctions générales fournissant
de l’information, de discussion d’action et, en cinquième position, de demande d’information. Ces
fonctions interviennent en grande majorité dans la dimension Task qui est la dimension la plus
représentée. Ensuite, nous retrouvons en bonne place les fonctions spécifiques aux dimensions
principales observées en section 5.1.3. Il s’agit des catégories de Time Management, d’Autofeedback,
d’OCM et de Turn Management. En queue de tableau, nous observons les fonctions
des dimensions minoritaires. Sur les 88 fonctions communicatives disponibles dans DIT++, 64
fonctions ont été utilisées dans notre annotation. Une grande partie des fonctions non-utilisées
sont les fonctions dans les dimensions Auto- et Allo-feedback (que nous traitons dans la suite du
document).
Dimension Task La dimension Task représente approximativement deux tiers du total des
fonctions communicatives annotées. En tout, 4333 fonctions ont été annotées dans cette dimension.
Sur ce total, 3180 ont été produites par l’expert et 1153 par le demandeur.
Nous analysons les fonctions produites par les interlocuteurs au regard des trois catégories
de fonctions générales : les fonctions fournissant de l’information (« information-providing »),
les fonctions de recherche d’information (« information-seeking ») et les fonctions de discussion
d’action (« action-discussion »). Le tableau 5.14 présente les proportions de fonctions par caté-
gorie pour l’expert et pour le demandeur. Les catégories affichent des proportions semblables
pour les deux rôles. La catégorie des fonctions fournissant de l’information arrive en tête avec
un peu plus de 60% des fonctions. Elle est suivie par la catégorie de discussion d’action qui5.1. Processus d’annotation 121
Catégorie Proportion
Information-providing 44.00%
Action-discussion 20.90%
Time management 9.80%
Auto-feedback 8.80%
Information-seeking 5.50%
OCM 5.30%
Turn management 2.80%
PCM 1.10%
Allo-feedback 0.60%
SOM 0.60%
Contact management 0.30%
Discourse Structure 0.30%
Tableau 5.13: Proportion de fonctions annotées par catégories
(a) Expert
Catégorie Proportion
Information-providing 61.23%
Action-discussion 31.60%
Information-seeking 7.17%
(b) Demandeur
Catégorie Proportion
Information-providing 65.74%
Action-discussion 27.06%
Information-seeking 7.20%
Tableau 5.14: Répartition des fonctions dans la dimension Task par catégorie pour l’expert et le demandeur.122
Chapitre 5 : Annotation du corpus et extraction de motifs
s’établit alentour des 30%. Enfin, la catégorie de recherche d’information affiche une proportion
de fonctions autour des 7%.
Les tableaux 5.15 présentent les fonctions fournissant de l’information apparaissant dans la
dimension Task pour l’expert et le demandeur. Tout d’abord, les mêmes fonctions interviennent
dans un ordre identique entre l’expert et le demandeur. La catégorie est dominée par la fonction
Inform. S’ensuit la fonction Agreement permettant d’affirmer un accord. On trouve par la suite
les fonctions de réponses aux questions (Answer, Confirm, Disconfirm). Enfin, la queue de
la catégorie est constituée des fonctions de désaccord (Correction et Disagreement) dont la
proportion est faible.
(a) Expert
Fonction Prop. rel. Prop. abs.
Inform 91.53% 38.20%
Agreement 3.85% 1.60%
Answer 2.16% 0.90%
Disconfirm 1.03% 0.40%
Confirm 0.87% 0.40%
Correction 0.51% 0.20%
Disagreement 0.05% 0.00%
(b) Demandeur
Fonction Prop. rel. Prop. abs.
Inform 65.96% 29.80%
Agreement 11.21% 5.10%
Answer 10.16% 4.60%
Confirm 7.65% 3.50%
Disconfirm 3.30% 1.50%
Disagreement 0.92% 0.40%
Correction 0.79% 0.40%
Tableau 5.15: Répartition des fonctions dans la dimension Task pour la catégorie des fonctions fournissant
de l’information. La proportion relative (« Prop. rel. ») désigne la proportion de la fonction dans
la catégorie à laquelle elle appartient. La proportion absolue (« Prop. abs. ») désigne la proportion de la
fonction dans l’ensemble des fonctions observées produites en fonction du rôle (expert ou demandeur).
Le nombre élevé d’Inform aussi bien pour l’expert que pour le demandeur mérite un éclaircissement.
Plusieurs raisons expliquent ce résultat. La première raison provient de la segmentation.
Nous avons choisi comme unité le segment fonctionnel dont une des propriétés est la minimalité.
Ainsi, une longue assertion est souvent ségmentée en plusieurs unités informatives (e.g.,
l’assertion « j’aimerais savoir enfin par rapport au sommeil / donc je suis régulièrement fatigué
et je n’arrive pas forcément à dormir par rapport à cette fatigue / je me couche tôt et je suis
dans mon lit et je dors pas » (AL04) conduit à l’obtention de quatre segments avec une fonction
Inform). Ce point fait débat dans la communauté [Larsson 1998]. Nous avons choisi de respecter
la minimalité des segments pour notre tâche. Ensuite, l’expert doit verbaliser le déroulement
de l’expérimentation. Cela le conduit à informer de la requête en cours et des opérations qu’il
réalise. Enfin, de nombreuses phases de la recherche d’information contiennent des interventions
informatives. C’est le cas des phases de verbalisation et d’évaluation des ressources. En outre,
l’expert a un rôle informatif envers le demandeur au regard de l’outil CISMeF. Toutes ces
raisons contribuent à la proportion élevée d’actes Inform.
Les tableaux 5.16 présentent les fonctions de discussion d’action pour l’expert et le demandeur.
Ils mettent en évidence la prédominance de la fonction Suggestion pour les deux rôles.
C’est une fonction directive permettant d’engager l’allocutaire ou les deux interlocuteurs sur
la réalisation d’une action (e.g., « On y va ? »). Cette fonction est utilisée pour proposer des
tactiques de modification de la requête (e.g., « on va rentrer comme mot-clé troubles de l’alimentation
» (AL07)). Elle est particulièrement marquée au niveau de surface des énoncés par
l’usage du « on » et du « nous ».5.1. Processus d’annotation 123
(a) Expert
Fonction Prop. rel. Prop. abs.
Suggestion 61.99% 13.40%
Offer 14.03% 3.00%
AcceptSuggestion 7.06% 1.50%
Request 4.88% 1.10%
AcceptRequest 4.28% 0.90%
Instruct 3.58% 0.80%
Promise 3.08% 0.70%
DeclineSuggestion 0.70% 0.20%
AcceptOffer 0.20% 0.00%
AddressRequest 0.10% 0.00%
DeclineRequest 0.10% 0.00%
(b) Demandeur
Fonction Prop. rel. Prop. abs.
Suggestion 34.29% 6.40%
AcceptSuggestion 25.00% 4.60%
Request 18.27% 3.40%
AcceptOffer 8.01% 1.50%
DeclineOffer 4.81% 0.90%
AcceptRequest 3.21% 0.60%
DeclineSuggestion 1.92% 0.40%
AddressSuggestion 1.28% 0.20%
AddressOffer 0.96% 0.20%
AddressRequest 0.96% 0.20%
Offer 0.64% 0.10%
DeclineRequest 0.32% 0.10%
Instruct 0.32% 0.10%
Tableau 5.16: Répartition des fonctions dans la dimension Task pour la catégorie des fonctions de
discussion d’actions. La proportion relative (« Prop. rel. ») désigne la proportion de la fonction dans la
catégorie à laquelle elle appartient. La proportion absolue (« Prop. abs. ») désigne la proportion de la
fonction dans l’ensemble des fonctions observées produites en fonction du rôle (expert ou demandeur).
Les fonctions de discussion d’action utilisées par l’expert sont majoritairement des initiatives
(Suggestion, Offer, Request, Instruct et Promise) aussi bien pour l’expert AL que VD.
Elles représentent 87.56% des usages dans cette catégorie. Dans une minorité de cas (12.44%),
l’expert emploie des fonctions réactives (AcceptSuggestion, DeclineSuggestion, AcceptOffer, Accept/Decline/Address
Request). En somme, l’expert est principalement une force de proposition
d’action.
On pourrait s’attendre à un demandeur principalement réactif à la vue des résultats de l’expert.
Ce n’est pas ce que nous avons observé. Le demandeur équilibre ses contributions entre
fonctions initiatives (53.52%) et réactives (47.43%). Ainsi, le demandeur propose approximativement
autant qu’il réagit. En outre, son comportement réactif est caractérisé par une large
variété de fonctions réactives (Accept/Decline/Address Suggestion, Accept/Decline/Address Request,
Accept/Decline/Address Offer). Soulignons néanmoins la très faible présence des fonctions
AddressSuggestion, AddressRequest et AddressOffer qui représentent moins de 1% des fonctions
du demandeur. Son comportement initiatif est caractérisé par l’usage de suggestions et de requêtes
(via les fonctions Suggestion et Request).
Toutes les suggestions d’action ne sont pas verbalement validées. Ainsi, le corpus fait intervenir
plus de fonctions initiatives Suggestion que de fonctions réactives (Accept/Decline/Address
Suggestion). Le tableau A.19 en annexe A.3.7 présente le détail des fonctions considérées par
l’expert et le demandeur. Sur les 623 suggestions de l’expert, seules 88 sont verbalement considérées.
Ce faible nombre peut s’expliquer par (i) l’absence des indices non verbaux (e.g., la
suggestion est acceptée ou refusée par un mouvement de la tête) (ii) la position dominante de
l’expert dans l’expérimentation qui suggère une action et la réalise en supposant l’accord du
demandeur. Au contraire, il est intéressant de remarquer que les suggestions du demandeur sont
verbalement considérées par l’expert dans 73% des cas. Cette proportion monte à 79% des cas124 Chapitre 5 : Annotation du corpus et extraction de motifs
pour les requêtes.
Les tableaux 5.17 présentent les fonctions de recherche d’information pour l’expert et le
demandeur. Ils font apparaître dans les deux cas une majorité de questions à réponse déterminée.
En premier lieu arrivent les questions de vérification (CheckQuestion, PosiCheck et NegaCheck)
suivies des questions à choix multiples et des questions oui/non. Les questions ouvertes (qui,
que, quoi, où, quand, comment, etc.) constituent un peu plus de 25% des questions de l’expert
et 31% des questions du demandeur.
(a) Expert
Fonction Prop. rel. Prop. abs.
Check Question 48.25% 2.40%
Set Question 25.88% 1.26%
Choice Question 8.77% 0.40%
Nega-check 6.58% 0.30%
Propositional Q. 6.58% 0.30%
Posi-check 3.95% 0.20%
(b) Enquêté
Fonction Prop. rel. Prop. abs.
Check Question 57.83% 2.90%
Set Question 31.33% 1.55%
Choice Question 3.61% 0.20%
Propositional Q. 4.82% 0.20%
Posi-check 2.41% 0.10%
Tableau 5.17: Répartition des fonctions dans la dimension Task pour la catégorie des fonctions de
recherche d’information. La proportion relative (« Prop. rel. ») désigne la proportion de la fonction dans
la catégorie à laquelle elle appartient. La proportion absolue (« Prop. abs. ») désigne la proportion de la
fonction dans l’ensemble des fonctions observées produites en fonction du rôle (expert ou demandeur).
Dimension Auto-feedback L’annotation de fonctions dans la dimension Auto-feedback a mis
en avant la difficulté d’analyse des niveaux des processus impliqués (attention, perception, compréhension,
évaluation, exécution) à partir des indices de surface des énoncés. Il est en effet
difficile de dire à quel niveau agissent exactement des interventions comme « ok », « oui », ou
encore « mmh ».
Le tableau 5.18 présente une synthèse pour la dimension Auto-feedback dont les détails sont
donnés en annexe A.3.7. Il regroupe en quatre catégories les fonctions intervenant dans cette
dimension : la catégorie AutoPositive (représentant la fonction du même nom), les fonctions
générales, les fonctions négatives (fonctions spécifiques de la dimension exprimant un problème
de communication) et les fonctions positives (fonctions spécifiques de la dimension témoignant
d’un succès de compréhension, AutoPositive exclu). Sur l’ensemble du corpus, 90% des fonctions
annotées dans cette dimension sont des AutoPositive. Cette fonction prévue dans la taxonomie
DIT++ est un feedback positif sous-spécifié ne précisant pas le niveau de retour. Ce résultat
implique deux conclusions. La première est que l’existence des niveaux de communication ne
peut pas être empiriquement démontrée depuis l’annotation de notre corpus. Notons néanmoins
la présence de signaux négatifs aisément identifiables comme un « Je ne sais pas » après une
question (ExecNegativeAutoFB) ou un « Pardon ? » (PerceptNegativeAutoFB). Dans tous les cas,
nos résultats attestent de l’existence de signaux de retour. Ensuite, notre corpus fait apparaître
une communication de bonne qualité entre nos interlocuteurs comme noté par [Loisel 2008]. Les
retours négatifs ne recouvrent en effet que 2.7% des fonctions de la dimension Auto-feedback et
0.2% des fonctions totales (contre 8.4% pour les AutoPositive). Cette observation est supportée
par le faible nombre de fonctions annotées dans la dimension Allo-feedback qui va de pair avec
la dimension Auto-feedback lors de mauvaise compréhension. À ces signaux négatifs peuvent5.1. Processus d’annotation 125
s’ajouter les fonctions générales qui consistent en des questions de vérification. L’un dans l’autre,
les retours négatifs n’atteignent que 0.70% du total de fonctions.
Fonction Prop. relative Prop. absolue
AutoPositive 89.86% 8.40%
Fonctions générales 5.74% 0.50%
Fonctions négatives 2.70% 0.20%
Autres fonctions positives 1.69% 0.10%
Tableau 5.18: Synthèse des fonctions annotées dans la dimension Auto-feedback. La proportion relative
désigne la proportion de la fonction dans la catégorie à laquelle elle appartient. La proportion absolue
désigne la proportion de la fonction dans l’ensemble des fonctions observées produites.
Autres dimensions principales Le cas des dimensions Time Management et Own Communication
Management sont plus simples car elles n’impliquent que peu de fonctions. L’annexe
A.3.7 présente les données en détail pour chacune de ces dimensions.
La dimension Time Management fait apparaître un usage massif de la fonction Stalling qui
permet au locuteur de gagner du temps pour formuler sa contribution.
La dimension Own Communication Management met en avant deux fonctions : Retraction
et sa spécialisation Self-correction. La première permet au locuteur de retirer une partie de ce
qu’il a dit dans le même tour de parole (e.g., hésitations). La seconde permet au locuteur de
corriger une erreur faite dans le même tour (e.g., auto-correction).
5.1.4 Synthèse
Nous avons étudié notre corpus en terme d’unités d’interaction multifonctionnelles : les segments
fonctionnels. Ces derniers ont émergé d’une tentative de doter l’expression « énoncé »
d’une définition rigoureuse [Bunt 2011b]. La production de segments fonctionnels dans notre
corpus est réalisée au travers du processus d’annotation. Celui-ci est constitué de deux parties
: la segmentation (i.e., l’identification des unités d’interaction dans les tours de parole)
et l’étiquetage (i.e., l’attribution d’une ou plusieurs fonctions communicatives aux segments).
Nous avons adopté la stratégie d’étiquetage de fonctions communicatives strictement basée sur
des indicateurs (marqueurs de surface, historique du dialogue, etc.). L’annotation a été réalisée
en utilisant la taxonomie DIT++ au moyen de l’outil d’annotation Gate [Cunningham 2011].
Quatre annotateurs ont travaillé sur cette tâche. Les 18 entretiens de notre corpus ont chacun
été annotés par deux annotateurs.
Ce processus a conduit à l’étiquetage de fonctions communicatives par les deux annotateurs
sur les segments fonctionnels couvrant 73% du corpus initial. La majorité des tours non annotés
a été volontairement exclue de par son intervention dans une conversation libre hors du
cadre CISMeF. Compte tenu de la décomposition en segmentation et étiquetage de la tâche
d’annotation, nous avons exploré la mesure de l’accord entre les annotateurs (IAA) en terme de
précision, rappel et F-mesure (F1 score). Globalement, l’accord obtenu entre les annotateurs est
fiable. En particulier, l’accord sur la segmentation est fort. L’IAA par dimension sur la tâche
d’étiquetage révèle un accord fiable pour les dimensions principales 7 qui représentent 93% des
fonctions communicatives annotées. La dimension Task, qui représente deux tiers des fonctions
7. Il s’agit des dimensions Task, Time Management, Auto-feedback, Own Communication Management.126 Chapitre 5 : Annotation du corpus et extraction de motifs
annotées, s’illustre avec un accord fort. Ce dernier est uniformément réparti sur l’ensemble des
catégories de fonctions communicatives intervenant dans cette dimension.
Globalement, les résultats de notre tâche d’annotation permettent de confirmer la multifonctionnalité
des énoncés aussi bien pris au sens de segment fonctionnel qu’au sens de tour de parole.
L’analyse en terme de dimension permet d’affirmer que deux tiers des fonctions ont pour but
d’avancer la tâche sous-jacente du dialogue tandis qu’un tiers concerne la gestion des processus
d’interaction. En outre, quatre dimensions se distinguent en terme de proportion de fonctions annotées
: la dimension Task, la dimension Time Management, la dimension Auto-Feedback et celle
de Own Communication Management. Une étude de la co-occurrence des dimensions a montré
qu’une fonction de la dimension Task co-occurre principalement avec des fonctions permettant
de gérer l’élocution du locuteur, de produire des feedback ou de gérer les tours de parole. Enfin,
l’annotation de fonctions dans la dimension Auto-feedback a mis en avant la difficulté d’analyse
des niveaux des processus impliqués (attention, perception, compréhension, évaluation, exécution)
à partir des indices de surface des énoncés. La quasi-totalité des fonctions annotées dans
cette dimension sont des feedbacks positifs sous-spécifiés. Notre étude atteste néanmoins l’existence
de signaux de retour et souligne la difficulté d’y attribuer un niveau. Notre corpus comporte
majoritairement des signaux de retour positif confortant l’observation de [Loisel 2008].
Notre analyse a permis de souligner des différences entre le corpus AL et le corpus VD. La
première différence concerne la longueur des entretiens. Ceux du corpus AL sont en moyenne
trois à quatre fois plus courts que les entretiens du corpus VD en terme de tours de parole.
La seconde différence provient des experts. L’expert AL est communicativement plus actif que
l’expert VD en terme de nombre de segments fonctionnels produits par rapport au demandeur
ou en terme de nombre d’actes de dialogue par tour de parole.
Au-delà des différences entre les experts AL et VD, nous avons observé que l’expert est communicativement
plus actif que le demandeur. Cette observation se base aussi bien sur le nombre
de segments fonctionnels produits que sur le nombre d’actes de dialogue en moyenne par tour.
Une analyse des fonctions de la dimension Task a permis de voir que l’expert et le demandeur
utilisent proportionnellement les mêmes catégories de fonctions. La différence principale survient
dans la catégorie des fonctions de discussion d’action. L’expert produit majoritairement
des fonctions initiatives (suggestion, offre et requête). Le demandeur, quant à lui, est équilibré
entre les fonctions initiatives (suggestion et requête) et réactives (acception ou refus).
Outre les limites citées p. 111, la limite inhérente à ce type d’analyse est qu’elle est faite a
posteriori. Malgré les précautions prises, nous ne pouvons pas exclure un biais dans l’interpré-
tation des énoncés dû à la possession de la totalité du dialogue, et en particulier de la réponse
suivant l’énoncé en cours d’interprétation. Il est néanmoins difficile de se défaire de cette limite.
Le processus d’annotation a conduit à la représentation du corpus Cogni-CISMeF sous la
forme de séquences d’unité d’interaction multidimensionnelle. C’est cette représentation qui est
exploitée pour l’extraction de motifs dialogiques.
5.2 Processus d’extraction de motifs dialogiques
Cette section présente le processus d’extraction de motifs dialogiques réalisé sur une partie
du corpus Cogni-CISMeF. Nous abordons dans un premier temps la mise en place du processus
d’extraction (cf. section 5.2.1). Ensuite, nous présentons les motifs dialogiques obtenus
(cf. section 5.2.2). Enfin, nous synthétisons les conclusions de ce processus d’annotation (cf.
section 5.2.3).5.2. Processus d’extraction de motifs dialogiques 127
5.2.1 Configuration du processus d’extraction
Dans cette section, nous présentons la configuration du processus d’extraction de motifs.
Nous commençons par décrire la constitution d’un corpus de référence et d’un corpus d’extraction.
Puis nous justifions la restriction de notre champ d’étude à la dimension Task. Enfin, nous
présentons le processus d’extraction de motifs dialogiques.
Corpus de référence et corpus d’extraction
Avant de débuter le processus d’extraction, nous avons constitué un corpus de référence en
sélectionnant aléatoirement un tiers du corpus. Ce dernier contient 6 entretiens sur 18 dont
trois entretiens du corpus AL (AL02, AL05, AL09) et trois entretiens du corpus VD (VD03,
VD08, VD09). Les douze autres entretiens forment le corpus d’extraction utilisé pour le processus
d’extraction. Le corpus de référence est exploité à des fins de validation, notamment en terme de
couverture des jeux de dialogue modélisés depuis les motifs dialogiques extraits lors du processus
d’extraction. En conséquence, il a été analysé après avoir proposé le modèle de jeux de dialogue.
Choix de la dimension Task
Nous concentrons nos efforts sur l’étude de la seule dimension Task. Ceci est rendu possible
grâce à la propriété de partialité du schéma d’annotation DIT++ (cf. section 5.1.2). Chaque
dimension a été conçue de manière à ne représenter qu’une activité bien définie du dialogue,
dont l’existence empirique a été démontrée et dont l’orthogonalité a été empiriquement validée.
Cette décision est motivée par un constat réaliste : le dialogue est une activité complexe mêlant
gestion de la tâche et gestion de la communication sur plusieurs niveaux. Il n’est pour le moment
pas envisageable de mener dans une seule thèse la modélisation de l’ensemble de ces activités
parallèles intervenant dans le dialogue. Ce constat est appuyé par l’existence de thèses consacrées
uniquement à certains processus intervenant dans le dialogue (e.g., le grounding [Traum 1994a],
la gestion des tours de parole [Kronlid 2008]). Il est donc indispensable de délimiter notre
champ d’étude tout en gardant à l’esprit l’existence et la nécessité d’intégrer d’autres activités
intervenant dans le dialogue.
Nous avons choisi de nous limiter à la dimension Task car elle présente de nombreux avantages.
Premièrement, la dimension Task prévaut sur les autres dimensions en terme de nombre
de fonctions communicatives dans le corpus Cogni-CISMeF. Elle représente en effet deux tiers
du corpus. Comme précédemment noté, l’accord inter-annotateur sur cette dimension est fort
et uniformément réparti sur l’ensemble des catégories de fonctions communicatives y intervenant.
Ensuite, les dimensions Time et Own Communication Management sont principalement
monologiques dans le sens où elles concernent des hésitations et des auto-corrections du seul
locuteur. Elles ne sont donc pas de bons candidats à l’extraction de motifs d’interaction entre
deux interlocuteurs. Enfin, l’annotation dans la dimension Auto-feedback a démontré la difficulté
d’identification des niveaux de la communication à partir des formes de surface des énoncés.
Cette dimension est dominée par l’usage de la fonction de feedback positif sous-spécifié. Elle
n’est donc pas un bon candidat pour la modélisation des processus de feedback essentiellement
sur plusieurs niveaux (voir, e.g., [Larsson 2003]). Nous ferons néanmoins une unique exception
en intégrant à certains motifs dialogiques la fonction ExecNegativeAutoFB qui est un feedback
négatif au niveau exécution. Nous préciserons dans les motifs dialogiques où elle intervient les
raisons qui nous ont poussé à l’intégrer.128 Chapitre 5 : Annotation du corpus et extraction de motifs
Le corpus d’extraction est constitué de 2825 fonctions communicatives dans la dimension
Task dont 2072 sont produites par l’expert et 753 par le demandeur. Sous ces trois aspects, le
corpus d’extraction représente 65% du total du corpus Cogni-CISMeF.
Processus itératif de recherche de motifs dialogiques
L’extraction de motif dialogique, que j’ai moi-même réalisée, est un processus itératif principalement
manuel.
La constitution des motifs dialogiques se base sur l’extraction de séquences de segments fonctionnels
récurrentes. En conséquence de la restriction à la dimension Task, nous nous intéressons
uniquement aux segments fonctionnels qui possèdent une fonction annotée dans cette dimension
(auxquels nous ajoutons les segments fonctionnels contenant la fonction ExecNegativeAutoFB
dans la dimension Auto-feedback). Les segments fonctionnels que nous considérons ne possèdent
qu’un seul acte de dialogue constitué de la fonction annotée dans la dimension Task et du
contenu sémantique déterminé par la forme de surface du segment. Pour cette raison, nous parlons
également de séquences d’actes voire de séquences de fonctions pour désigner la séquence
de segments fonctionnels.
La détection de séquences de segments fonctionnels récurrents se fonde pour chaque segment
sur (i) la fonction annotée dans la dimension Task, et sur (ii) la forme linguistique du segment
fonctionnel qui fournit le contenu sémantique. La prise en compte de ces deux paramètres permet
de différencier les séquences de segments fonctionnellement liés (« – donc c’est des douleurs
articulaires à quel niveau ? – au niveau des genoux et autres » (AL06)) de ceux qui ne le sont
pas comme les énoncés ignorés par un des interlocuteurs (« – mais peut-être que c’est euh trop
spécifique ? – donc l’anorexie et les problèmes du même genre ? – oui » (AL07)).
En outre, nous ne considérons que les séquences qui incluent au moins un segment produit
par chaque interlocuteur. Autrement dit, cette séquence doit évoluer sur au moins deux tours
de parole. La sélection d’une séquence de segments fonctionnels dépend de sa récurrence, i.e.,
son apparition dans des entretiens du corpus. Pour être récurrente, elle doit apparaître dans au
moins deux entretiens.
Un motif dialogique est formé par le regroupement de certaines séquences. Les critères de
regroupement sont liés dans notre cas à l’acte initiatif des séquences. Par exemple, toutes les
séquences débutant par un acte de question à choix multiples sont regroupées dans le motif de
question à choix multiples. Une instance d’un motif dialogique est la réalisation de l’une de ses
séquences. Nous verrons que les motifs dialogiques extraits possèdent une instance dans plus
d’un tiers des entretiens (soit 4 entretiens sur 12).
Une fois les motifs dialogiques détectés et annotés manuellement dans les entretiens, nous
avons calculé les proportions d’occurrence inter-motif dialogique (i.e., la proportion d’apparition
d’un type de motif par rapport aux autres) et intra-motif (i.e., la proportion d’apparition de la
séquence de fonctions formant l’instance du motif dialogique).
5.2.2 Résultats du processus d’extraction
Cette section présente les résultats du processus d’extraction. Elle débute par une présentation
globale des catégories de motifs dialogiques observés. Les motifs dialogiques sont ensuite
présentés et illustrés par des exemples du corpus d’extraction. Enfin, nous abordons la couverture
des motifs dialogiques extraits en terme de fonctions communicatives et de tours de parole.5.2. Processus d’extraction de motifs dialogiques 129
Répartition des motifs dialogiques
Le processus d’extraction de motifs dialogiques a conduit à l’obtention de 11 motifs dialogiques
évoluant principalement dans la dimension Task. Nous les avons regroupés dans trois
grandes catégories. 6 motifs ont été observés dans la catégorie de recherche d’information, 3 dans
la catégorie de discussion d’action et enfin 2 motifs dans la catégorie de transfert d’information.
Ces régularités sont constituées de fonctions générales. La fonction ExecNegativeAutoFB
de la dimension Auto-feedback n’intervient que dans la catégorie de recherche d’information. 431
instances de motifs dialogiques ont été observées dans l’ensemble du corpus d’extraction. Elles
impliquent l’usage d’environ 860 fonctions communicatives provenant en large majorité de la
dimension Task.
Il est indispensable de préciser que la correspondance entre les catégories de motifs dialogiques
et les catégories de fonctions communicatives (abordées dans le processus d’annotation)
ne peut pas se faire de façon immédiate. Ainsi, les motifs dialogiques de recherche d’information
sont constitués de fonctions communicatives des catégories de recherche d’information et
de fonctions fournissant de l’information (Answer, Confirm et Disconfirm). Les motifs dialogiques
de transfert d’information sont formés d’un sous-ensemble de fonctions fournissant de
l’information (Inform, Agreement, Disagreement et Correction). Enfin, les motifs dialogiques de
discussion d’action sont constitués des fonctions communicatives de la catégorie du même nom.
La répartition observée des instances de motifs dialogiques par catégorie ne fait pas apparaître
une catégorie clairement dominante (cf. figure 5.2). Environ 40% des motifs appartiennent
à la catégorie de recherche d’information. Un peu plus d’un tiers des motifs proviennent de
la catégorie de discussion d’action. Enfin, les instances de motifs de transfert d’information
représentent environ 26% des instances totales.
33,87%
40,14%
25,99%
Discussion d'action
Recherche d'information
Transfert d'information
Figure 5.2: Répartition observée des instances de motifs dialogiques par catégorie dans le corpus d’extraction
La répartition des catégories de motifs peut sembler surprenante lorsque l’on prend en compte
les proportions des fonctions communicatives y intervenant. En effet, les fonctions les plus observées
dans le corpus (Inform et Suggestion) interviennent dans les catégories de motifs dialogiques
contenant le moins d’instances. La principale raison tient au fait que l’expert produit des tours
de parole contenant beaucoup d’actes de dialogue qui ne sont pas verbalement considérés par
le demandeur (cf. section 5.1.3). Or, les motifs dialogiques ne prennent en compte que les sé-
quences d’actes de dialogue au niveau de la dimension Task impliquant les deux interlocuteurs.
Nous avons précédemment vu que la catégorie de fonctions fournissant de l’information est dés-
équilibrée par un nombre élevé de fonctions Inform (cf. section 5.1.3). Ceci est imputable à
la stratégie de segmentation et à la verbalisation de l’expérimentation de la part de l’expert.130 Chapitre 5 : Annotation du corpus et extraction de motifs
En conséquence, un nombre important de fonctions Inform n’a pas vocation à être dans un
motif dialogique. Nous avions également vu qu’une large majorité des fonctions de Suggestion
produites par l’expert n’est pas verbalement considérée par le demandeur. Une grande part des
fonctions de Suggestion produites ne fait partie d’aucun motif dialogique. Ainsi, une proportion
importante de fonctions fournissant de l’information et de discussion d’action ne contribuent
pas à des motifs dialogiques, ce qui explique la répartition observée des instances de motifs
dialogiques par catégorie.
Enfin, tous les motifs dialogiques admettent une de leur instance dans au moins un tiers
des dialogues. L’annexe A.4.3 fournit le détail de la présence des motifs dialogiques dans les
entretiens du corpus d’extraction.
Motifs dialogiques observés
Forme des motifs Comme envisagé dans [Schegloff 1973, Clark 1996, Lewin 2000, Hulstijn
2000b], nous avons principalement observé des motifs dialogiques de type initiative-réponse.
Sur les 11 motifs découverts, 10 sont des motifs en deux temps, et un seul est un motif en trois
temps.
Un motif en deux temps est une paire adjacente avec des secondes parties de paire préférées
ou non. Le motif en trois temps est un enchaînement de paires.
Chaque motif en deux temps extrait prend la forme d’un acte de dialogue initiatif suivi par
un des actes de dialogue réponse possibles associé à sa proportion d’occurrence observée dans le
corpus d’extraction. L’initiateur du motif est l’interlocuteur qui produit la première partie de
la paire tandis que le partenaire est celui qui réagit dans la seconde partie de la paire.
Nous présentons maintenant pour chaque catégorie, les motifs qui y interviennent. Nous nous
efforçons de donner pour chaque motif un ou plusieurs exemples d’instances tirés du corpus. Le
lecteur intéressé peut trouver plus d’exemples en annexe A.4.4.
Motifs dialogiques de recherche d’information Les motifs dialogiques de recherche d’information
permettent à l’initiateur de s’enquérir d’une information auprès du partenaire. Nous
avons observé 6 motifs qui correspondent aux 6 types de questions présents dans la catégorie
« information-seeking » de la taxonomie DIT++. Ces motifs sont exclusivement de type
initiative-réponse. Chacun de ces motifs est initié par un acte dont la fonction est une spé-
cialisation de la fonction Question (i.e., CheckQuestion, PosiCheck, NegaCheck, SetQuestion,
ChoiceQuestion ou PropositionalQuestion).
La figure 5.3 présente la répartition des différents motifs dialogiques de cette catégorie. La
répartition des motifs dialogiques est cohérente par rapport à la proportion observée des fonctions
de la catégorie « information-seeking » dans le corpus (cf. section 5.1.3). Schématiquement,
les trois quarts des motifs dialogiques sont initiés par des fonctions représentant des questions
à réponse déterminée (CheckQuestion, PosiCheck, NegaCheck, ChoiceQuestion et PropositionalQuestion).
En particulier, nous observons une domination des motifs dialogiques initiés par
des questions de vérification (CheckQuestion, PosiCheck et NegaCheck) qui représentent un peu
moins de 62% du total. Ces derniers sont suivis du motif de question à choix multiples (8, 67%)
et du motif de question oui/non (6, 36%). L’autre quart est représenté par le motif dialogique
initié par une fonction représentant une question ouverte (SetQuestion).
La particularité des motifs de recherche d’information est la considération de la fonction spé-
cifique ExecNegativeAutoFB de la dimension Auto-feedback, relative au niveau de l’interaction5.2. Processus d’extraction de motifs dialogiques 131
49,13%
6,36% 4,05%
6,36%
8,67%
25,43%
Vérification
Vérification positive
Vérification négative
Question oui/non
Question à choix
multiple
Question ouverte
Figure 5.3: Répartition observée des instances de motifs dialogiques de recherche d’information dans le
corpus Cogni-CISMeF
d’exécution (cf. section 1.1.2). Ce niveau est le plus haut niveau dans le traitement d’un énoncé.
Il suit les niveaux d’attention, de perception, d’interprétation et d’évaluation. Il s’agit du niveau
où la fonction et le contenu sémantique de l’acte ont été établis (via les niveaux d’attention
jusqu’à l’interprétation) et l’acte a été vérifié comme étant consistant avec l’état d’information
(via le niveau d’évaluation). L’exécution correspond à la réaction qui peut rencontrer certains
problèmes. Par exemple, « exécuter » une question consiste à déterminer sa réponse. Un échec de
cette exécution conduit à un feedback négatif de niveau exécution (ExecNegativeAutoFB) traduisant
un « je ne sais pas ». L’avantage des feedbacks négatifs est qu’ils sont très souvent explicites
et reconnaissables grâce à des marqueurs de surface (« pardon ? », « je ne sais pas ») [Bunt 2010].
Nous avons choisi de considérer l’acte ExecNegativeAutoFB parce qu’il est (i) toujours observé
après une fonction de type question (l’annexe A.4.2 présente les fonctions qui la précèdent),
(ii) aisément reconnaissable par des marqueurs de surface, et (iii) c’est le seul acte de niveau
d’exécution observé dans le corpus.
Les motifs dialogiques de vérification Nous avons observé quatre motifs dialogiques
de vérification d’une proposition. Ces motifs permettent de vérifier la valeur de vérité d’une
proposition. Ils varient par la fonction communicative utilisée dans l’acte initiatif. Un extrait
des motifs dialogiques de vérification est présenté dans le tableau 5.19.
Question oui/non Vérification d’une information
Première partie PropositionalQuestion CheckQuestion
Seconde partie
. . . préférée Answer (90.91%) Confirm (45.45%)
. . . non-préférée ExecNegativeAutoFB (9.09%) Disconfirm (37.88%)
Answer (15.15%)
ExecNegativeAutoFB (1.52%)
Tableau 5.19: Extrait des motifs dialogiques de vérification (catégorie de recherche d’information)
Le motif dialogique de question oui/non est initié par la fonction PropositionalQuestion (cf.
tableau 5.19). Cette dernière est la fonction parente des fonctions de vérification (CheckQuestion,
PosiCheck et NegaCheck). Elle permet d’obtenir la valeur de vérité de la proposition formant
son contenu sémantique sans aucun a priori sur celle-ci. Ce motif a été peu observé dans notre
corpus (6.36% des instances de motifs de la catégorie recherche d’information). Il possède une
instance dans un tiers des entretiens. La seconde partie de paire préférée est un acte Answer132 Chapitre 5 : Annotation du corpus et extraction de motifs
donnant la valeur de vérité de la proposition (90.91% des cas). Un exemple d’instance dans ce
cas est présenté dans le dialogue 5.2.
Task
S1 : il y a pas un synonyme de cette maladie ? PropositionalQuestion
H2 : non Answer
Dialogue 5.2 – Exemple d’un motif de type question oui/non avec seconde partie de paire pré-
férée (entretien AL03)
La seconde partie de paire non-préférée intervient dans 9.09% des cas. Il s’agit d’un feedback
d’exécution négative illustré par le dialogue 5.3.
Task AutoFB
S1 : C’est très handicapant vous pensez PropositionalQuestion AutoPositive
H2 : J’en sais rien ExecNegativeAutoFB
Dialogue 5.3 – Exemple d’un motif de type question oui/non avec seconde partie de paire nonpréférée
(entretien VD04)
Le second motif que nous abordons est celui de vérification d’une information initié par la
fonction CheckQuestion. Cette dernière est une spécialisation de la fonction PropositionalQuestion
qui se différencie par le fait qu’elle s’attend à ce que la véracité de la proposition formant
son contenu sémantique soit confirmée par le partenaire. Ce motif dialogique est celui qui a été
le plus observé dans le corpus (49.13% des cas). Il apparaît dans l’ensemble des entretiens du
corpus d’extraction. Il est présenté dans le tableau 5.19. L’acte CheckQuestion est suivi dans
45.45% des cas du corpus d’extraction par la seconde partie de paire préférée Confirm. Celle-ci
permet de confirmer que le contenu propositionnel est vrai. Le dialogue 5.4 présente un exemple
d’instantiation de ce motif dans ce cas.
Task
S1 : vous voulez savoir les traitements de manière générale finalement ? CheckQuestion
H2 : voilà / oui c’est ça Confirm
Dialogue 5.4 – Exemple d’un motif de type vérification avec seconde partie de paire préférée
(entretien AL12)
Ce motif dialogique admet trois secondes parties de paire non-préférées. La plus courante se
manifeste par un acte Disconfirm qui déclare la proposition comme étant fausse (37.88% des cas
observés). Le dialogue 5.5 propose un exemple d’instantiation du motif dans ce cas.
La seconde partie de paire est dans 15.15% des cas observés une fonction Answer. Il s’agit
d’un cas d’altération du projet conjoint [Clark 1996] : le partenaire altère la question initiale
de manière à pouvoir produire une réaction qu’il peut et souhaite produire. Dans le cas d’une
question de vérification, le partenaire altère le projet de manière à ne pas confirmer ni infirmer
l’objet de la question. Le dialogue 5.6 présente un exemple d’un telle altération. Au tour S1,
l’interlocuteur demande l’ajout de la spécialité médicale « médecine du sport » à la requête. Son
partenaire entame alors une question de vérification afin de s’assurer que la spécialité médicale5.2. Processus d’extraction de motifs dialogiques 133
Task
S1 : C’est le même que tout à l’heure ? CheckQuestion
H2 : non c’est pas le même Disconfirm
Dialogue 5.5 – Exemple d’un motif de type vérification avec seconde partie de paire non-préférée
(entretien VD05)
est bien en lien avec le besoin d’information (tour H2). L’autre interlocuteur réagit en répondant
en fait à la question « quelle serait la requête si les interlocuteurs ajoutaient la spécialité
médicale », avant d’émettre des réserves (tour S3). Notons qu’il n’infirme, ni ne confirme le lien
entre la spécialité médicale et le besoin d’information. Son interlocuteur accepte alors la requête
(tour H4).
Task
S1 : sinon t’avais des trucs t’avais dans la médecine du sport j’ai vu qu’il y avait
médecine de sport
Request
H2 : et ça serait lié aussi à la médecine de sport ? CheckQuestion
S3 : caries médecine de sport Answer
enfin [. . . ] je dis ça Inform
H4 : non c’est une très bonne idée AcceptRequest
Dialogue 5.6 – Exemple de motif de type vérification avec altération du projet conjoint (entretien
AL11)
Enfin, la dernière seconde paire non-préférée est la production d’un acte ExecNegativeAutoFB
traduisant l’impossibilité de trouver une réponse (observée dans une minorité de cas).
La fonction CheckQuestion admet deux spécialisations : PosiCheck et NegaCheck. La première
spécialisation est une question de vérification sous-entendant de manière plus forte que
le partenaire va confirmer la proposition (« – alors plus précisémment ce serait le genou alors ?
– oui » (AL06)). La seconde spécialisation sous-entend que le partenaire va infirmer la proposition
(« – vous ne voyez pas grand chose non plus ? – [. . . ] rien / je vois rien » (VD04)). Elle est
généralement marquée par l’emploi de la négation. Ces deux spécialisations ont produit deux
nouveaux motifs dialogiques. Ces derniers représentent de manière cumulée un peu plus de 10%
des motifs de la catégorie recherche d’information. Ils apparaissent tous deux dans un tiers des
entretiens du corpus d’extraction. Chacun de ces motifs n’inclut qu’un seul acte initiatif et un
seul acte réactif. Nous n’avons observé dans le corpus que des confirmations de la véracité d’une
proposition (motif de vérification positive) ou de sa fausseté (motif de vérification négative).
Cela peut s’expliquer par la stratégie d’annotation nécessitant des annotateurs des indices clairs
pour annoter des fonctions spécialisées.
Le motif dialogique de question ouverte Un peu plus d’un quart des motifs de recherche
d’information sont des instances du motif dialogique de question ouverte initié par la
fonction SetQuestion (cf. tableau 5.20). Ce motif intervient dans 9 entretiens sur 12. La seconde
paire préférée est constituée d’une fonction Answer et intervient dans 94.87% des cas. Cette fonction
permet d’apporter une réponse à la question. Le dialogue 5.7 présente un exemple d’une
instance d’un tel motif dialogique. La seconde paire non-préférée a été observée dans 5.13% des134 Chapitre 5 : Annotation du corpus et extraction de motifs
cas. Il s’agit d’un feedback négatif de niveau exécution. Le dialogue 5.8 présente un exemple de
dialogue avec une seconde paire non-préférée. De manière intéressante, la réponse à la question
se fait en deux temps (tour H2). Dans le premier temps, le locuteur fournit un feedback de compréhension
positif de la question d’un niveau inférieur au niveau d’exécution (qui a été annoté
par la fonction AutoPositive). Puis il fournit un feedback négatif d’exécution.
Question ouverte Question à choix multiples
Première partie SetQuestion ChoiceQuestion
Seconde partie
. . . préférée Answer (94.87%) Answer (93.34%)
. . . non-préférée ExecNegativeAutoFB (5.13%) ExecNegativeAutoFB (6.67%)
Tableau 5.20: Motifs dialogiques de question ouverte et de question à choix multiples
Task
S1 : quel est le spécialiste de la peau c’est qui ? SetQuestion
H2 : dermatologie Answer
Dialogue 5.7 – Exemple de motif de type question ouverte avec seconde partie de paire préférée
(entretien VD04)
Task AutoFB
S1 : comment on fait pour garder les documents ? SetQuestion
H2 : comment on fait pour garder les documents AutoPositive
ça c’est une bonne question ExecNegativeAutoFB
Dialogue 5.8 – Exemple d’un motif de type question ouverte avec seconde partie de paire nonpréférée
(entretien VD06)
Le motif dialogique de question à choix multiples Le motif de question à choix
multiples (cf. tableau 5.20) constitue 8.67% des instances observées de la catégorie. Il apparaît
dans 5 entretiens sur 12. Ce motif dialogique est initié par la fonction ChoiceQuestion. Le contenu
sémantique associé à cette fonction représente une liste de propositions alternatives. La seconde
partie de paire préférée consiste en un acte Answer dont le contenu sémantique est la proposition
choisie comme étant vraie dans les propositions alternatives (93.34% des cas). Le dialogue 5.9
est un exemple d’une telle séquence. De la même manière que pour le motif de question ouverte,
la seconde partie de paire non-préférée est l’acte ExecNegativeAutoFB informant de l’échec à
choisir une proposition parmi les alternatives.
Motifs dialogiques de discussion d’action Les motifs dialogiques de discussion d’action
permettent à un interlocuteur de demander ou d’offrir la réalisation d’une action qui doit être
validée par le partenaire. Ils représentent 33.87% du total des instances de motifs observées.
Nous avons observé trois motifs dialogiques de type initiative-réponse. Chacun de ces motifs est
initié par un acte dont la fonction est Suggestion, Request ou Offer. La figure 5.4 présente la
répartition observée dans le corpus Cogni-CISMeF des instances de motifs de discussion.5.2. Processus d’extraction de motifs dialogiques 135
Task AutoFB
S1 : c’est uniquement sur le genou ? sur les problèmes d’articulation
en général ?
ChoiceQuestion
H2 : en général Answer
S3 : en général AutoPositive
Dialogue 5.9 – Exemple de motif de type question à choix multiples avec seconde partie de paire
préférée (entretien AL06)
60,27% 21,92%
17,81%
Suggestion
Requête
Offre
Figure 5.4: Répartition observée des instances de motifs dialogiques de discussion d’action dans le corpus
Cogni-CISMeF
Cette répartition est cohérente par rapport à la proportion des trois fonctions initiatives
observée dans le corpus pour l’expert et le demandeur (cf. section 5.1.3). On observe une majorité
d’instances de motifs initiées par une fonction Suggestion qui arrive en tête des fonctions de
discussion d’action utilisées par l’expert et le demandeur. Les proportions des instances de
motifs dialogiques initiées par des fonctions Request et Offer sont relativement équilibrées et
oscillent chacune autour de 20% du total des instances de motifs de discussion d’action. Les
motifs dialogiques de discussion d’action sont synthétisés dans le tableau 5.21.
Suggestion Requête Offre
Première partie Suggestion Request Offer
Seconde partie
. . . préférée AcceptSuggestion (94.25%) AcceptRequest (96.88%) AcceptOffer (40%)
. . . non-préférée DeclineSuggestion (5.75%) DeclineRequest (3.12%) DeclineOffer (60%)
Tableau 5.21: Motifs dialogiques de discussion d’action
Le motif de suggestion d’action intervient dans 11 entretiens sur 12. Il est initié par la fonction
Suggestion (cf. tableau 5.21). Celle-ci est associée à un contenu sémantique décrivant une action.
À la différence des fonctions Offer et Request, l’action décrite dans le contenu sémantique peut
impliquer le destinataire de l’action ou bien les deux interlocuteurs. C’est pourquoi elle est
souvent marquée linguistiquement par l’emploi du « nous » ou du « on ». La seconde partie de
paire préférée est une acceptation de la suggestion via l’acte AcceptSuggestion (observée dans
94.25% des cas). Le dialogue 5.10 présente un exemple de ce cas. L’initiateur suggère à son
partenaire de réaliser l’action d’ajout du mot-clé « troubles de l’alimentation » dans le tour S1.
Cette suggestion est acceptée par le partenaire dans le tour suivant. La seconde partie de paire136 Chapitre 5 : Annotation du corpus et extraction de motifs
non-préférée est un refus de l’action suggérée réalisé via l’acte DeclineSuggestion. Cette seconde
partie a été très peu observée (5.75% des cas). Le dialogue 5.11 présente un exemple de suggestion
déclinée. L’initiateur suggère l’ajout de « colon » à la requête. Le partenaire accepte dans un
premier temps avant de s’auto-corriger et de décliner la suggestion (tour H2). L’analyse du corpus
au niveau des fonctions fait apparaître une seconde paire non-préférée envisageable pour ce
motif dialogique : l’acte AddressSuggestion. Cette dernière permet d’accepter conditionnellement
l’action suggérée. Nous ne l’avons pas considérée dans le motif dialogique car elle n’apparaît que
très minoritairement dans le corpus (deux apparitions cantonnées au même entretien VD04).
Task
S1 : on va rentrer comme mot clé troubles de l’alimentation Suggestion
H2 : ça marche AcceptSuggestion
Dialogue 5.10 – Exemple de motif de type suggestion avec seconde partie de paire préférée (entretien
AL07)
Task
S1 : faudrait colon quand même Suggestion
H2 : moi je le mettrais bien bah quoi qu’on la là DeclineSuggestion
Dialogue 5.11 – Exemple de motif de type suggestion avec seconde partie de paire non-préférée
(entretien VD06)
Le motif de demande de réalisation d’action apparaît dans la moitié des entretiens. Il est
initié par l’acte Request. L’initiateur demande au destinataire de cet acte de réaliser l’action
décrite dans son contenu sémantique. La réalisation de l’action est conditionnée par l’acceptation
du partenaire ce qui explique les deux secondes parties de paire observées (cf. tableau 5.21). La
seconde partie de paire préférée est celle qui intervient dans la grande majorité des cas (96.88%).
Il s’agit de l’acceptation de la requête par le partenaire via l’acte AcceptRequest. Le dialogue 5.12
illustre un cas de requête acceptée. De la même façon que le motif de suggestion, la seconde partie
de paire non-préférée est un refus de réaliser la requête. Ce cas a été très peu observé (3.13%). La
fonction AddressRequest qui pourrait former un autre cas de seconde paire non-préférée n’a pas
été retenue. Elle permet au partenaire d’accepter conditionnellement la réalisation de l’action.
Son éviction tient au fait qu’elle n’apparaît que trois fois dans le corpus d’extraction sans réel
accord entre les annotateurs.
Task AutoFB
S1 : essayez avec clairance Request
H2 : alors je l’essaie en mot clé AcceptRequest
S3 : ouais c’est clairance Inform AutoPositive
H4 : ok AutoPositive
Dialogue 5.12 – Exemple de motif de type requête avec seconde partie de paire préférée (entretien
VD07). L’instance de motif est initiée au tour S1 et la requête est acceptée
au tour H2.
Enfin, le dernier motif dialogique de discussion d’action détecté est celui d’offre de réalisation5.2. Processus d’extraction de motifs dialogiques 137
d’une action qui intervient dans deux tiers des entretiens (cf. tableau 5.21). Contrairement aux
deux précédents motifs qui sont directifs, celui-ci est un promissif. En produisant l’acte Offer,
l’initiateur propose à son partenaire de réaliser lui-même l’action décrite dans le contenu sémantique.
La réalisation est conditionnée par l’acceptation du partenaire d’où sont issues les deux
secondes parties de paires observées. La seconde partie de paire préférée est une acceptation
via l’acte AcceptOffer. Contrairement aux deux motifs précédents, cette acceptation n’a pas été
observée en majorité écrasante puisqu’elle n’apparaît que dans 60% des cas. Le dialogue 5.13
présente un exemple d’une offre acceptée. L’initiateur propose au partenaire de réaliser la recherche
automatique du mot-clé « créatinine » dans le texte d’un document. Cette proposition
est acceptée. La seconde partie de paire non-préférée est un refus de l’offre via l’acte DeclineOffer.
Elle suit une offre dans 40% des cas. Le dialogue 5.14 présente un exemple de refus. Il ne faut
pas se fier à la forme linguistique. L’offre prend la forme d’une question (tour S1) mais est en
fait une proposition de lancer une nouvelle séquence de recherche collaborative (i.e., l’expert se
propose d’assister le demandeur sur un nouveau sujet de recherche). Cette dernière est refusée.
Cet exemple illustre le cas le plus fréquent de refus : l’expert offre la possibilité au demandeur de
débuter une nouvelle séquence de recherche à la fin de l’entretien. Cette offre est refusée dans la
quasi-totalité des entretiens (excepté l’entretien AL09). Nous avions vu la très faible proportion
de la fonction AddressOffer lors de l’analyse des fonctions du corpus. Cette fonction n’est pas
présente dans le corpus d’extraction.
Task
S1 : alors ce que je vous propose puisqu’il y a pas mal de choses à lire c’est d’aller
chercher notre mot clé créatinine dans ce texte
Offer
H2 : ouais AcceptOffer
Dialogue 5.13 – Exemple de motif de type offre avec seconde partie de paire préférée (entretien
VD07)
Task
S1 : vous avez une autre question ? Offer
H2 : non non non DeclineOffer
Dialogue 5.14 – Exemple de motif de type offre avec seconde partie de paire non-préférée (entretien
AL07)
Motifs dialogiques de transfert d’information Les motifs dialogiques de transfert d’information
représentent un échange strictement informationnel. Ils permettent aux interlocuteurs
de s’accorder sur les faits qu’ils affirment (i.e. l’état du monde). Nous avons observé deux motifs
dialogiques, l’un en deux temps (motif d’accord) et l’autre en trois temps (motif de correction).
La figure 5.5 présente la répartition de ces motifs en terme de nombre d’instances observées dans
le corpus. Cette catégorie est largement dominée par le motif d’accord (94.64% des instances
observées). Nous avons observé marginalement le motif de correction (5.36% des cas).
Le motif d’accord intervient dans 11 entretiens sur 12. Il possède deux actes initiatifs :
Inform et Answer (cf. tableau 5.22). Autrement dit, les actes initiatifs sont des actes informatifs
engageant leur locuteur sur son contenu propositionnel. Le motif d’accord est ainsi initié par un138 Chapitre 5 : Annotation du corpus et extraction de motifs
94,64%
5,36%
Accord
Correction
Figure 5.5: Répartition observée des motifs dialogiques de transfert d’information dans le corpus CogniCISMeF
acte informatif. Le partenaire peut alors réagir en exprimant son accord ou son désaccord. La
seconde partie de paire préférée du motif est un acte Agreement (environ 99% des cas). Il permet
d’exprimer un accord sur le contenu propositionnel de l’acte initiatif. Le dialogue 5.15 présente un
exemple d’une instance du motif dans ce cas. L’initiateur affirme que les résultats retournés par
la requête sont insatisfaisants comme les précédents obtenus (tour S1). Le partenaire affirme alors
son accord (tour H2). La seconde partie de paire non-préférée est l’expression d’un désaccord
via l’acte Disagreement. Elle n’a été observée que marginalement (1.01% des cas).
Accord
Première partie Acte informatif (Inform et Answer)
Seconde partie
. . . préférée Agreement (98.99%)
. . . non-préférée Disagreement (1.01%)
Tableau 5.22: Motif dialogique d’accord (catégorie de transfert d’information)
Task
S1 : C’est exactement la même chose en fait Inform
H2 : humm, humm tout à fait Agreement
Dialogue 5.15 – Exemple de motif d’accord avec seconde partie de paire préférée (entretien
VD02)
Le motif dialogique de correction est un cas particulier de désaccord observé dans un tiers
des entretiens (cf. figure 5.6). De la même manière que le motif d’accord, il est initié par un
acte informatif (Inform ou Answer). Cet acte est suivi par un acte de Correction. La fonction
Correction est une spécialisation de la fonction Disagreement. En plus d’exprimer un désaccord,
cette fonction propose un nouveau contenu sémantique qui a vocation à remplacer le contenu
sémantique de l’acte informatif initiatif. Dans deux tiers des cas observés, cette correction est
acceptée via l’acte Agreement. Dans l’autre tiers, l’instance s’arrête à l’acte de Correction. Le
dialogue 5.16 présente un exemple de correction en trois temps. Dans le premier tour, le locuteur
affirme que l’exécution de la requête retourne les mêmes documents qu’une requête précédente5.2. Processus d’extraction de motifs dialogiques 139
(tour S1). Son partenaire le corrige alors en lui précisant qu’il y a en fait plus de documents
(tour H2). L’initiateur accepte alors la correction dans le dernier tour.
{Inform|Task}
{Correction|Task}
66,67%
{Answer|Task}
33,33% {Agreement|Task} 66,67%
Figure 5.6: Motif dialogique de correction
Task
S1 : alors nous retombons de nouveau sur la même chose que tout à l’heure Inform
H2 : ah peut-être un peu plus Correction
S3 : oui Agreement
Dialogue 5.16 – Exemple de motif de type correction en trois temps (entretien VD04)
Couverture des motifs dialogiques dans le corpus d’extraction
Jusqu’alors nous avons présenté les motifs dialogiques sans préciser leur taux global d’apparition
dans le corpus, i.e., la couverture des motifs.
Une première approche pour quantifier la couverture du corpus d’extraction par les motifs
dialogiques extraits est de comparer le nombre de fonctions communicatives intervenant dans
une instance de motif au nombre de fonctions communicatives total dans la dimension Task.
Le ratio obtenu est faible : seules 30.4% des fonctions communicatives de la dimension Task
interviennent dans un motif. Néanmoins, nos motifs sont principalement des paires adjacentes
impliquant la production d’une fonction communicative pour chaque interlocuteur. Or, l’expert
produit 73.3% des fonctions communicatives dans le corpus d’extraction quand le demandeur
en produit 26.7%. Compte tenu du fait que les motifs sont principalement en deux temps,
les fonctions communicatives impliquées peuvent difficilement excéder le double des fonctions
produites par le demandeur, soit 53.4% du total. Il est donc normal que le taux de couverture
soit faible en terme de fonctions communicatives.
Si nous regardons de plus près la constitution d’un tour de parole (cf. section 5.1.3), nous
constatons la présence d’un bon nombre de segments fonctionnels isolés, i.e., non verbalement
considérés par l’autre interlocuteur. C’est en particulier le cas des tours de parole de l’expert.
Le dialogue 5.17 présente un exemple contenant des segments isolés. Le tour H2 est une longue
prise de parole dans laquelle l’expert accepte la suggestion d’ajouter la spécialité médicale à la
requête énoncée par le demandeur dans le tour S1. Il modifie également proactivement la requête
à la suite des résultats rencontrés. À la fin de l’exemple, les deux interlocuteurs s’accordent sur
l’intérêt des ressources. Sur les 13 segments fonctionnels, seuls 4 font partie d’un motif dialogique.
Deux forment une instance d’un motif de suggestion et deux autres constituent une instance
d’un motif d’accord. Notons que les segments isolés incluent des fonctions Inform et Suggestion
précédemment discutées en section 5.1.3.140 Chapitre 5 : Annotation du corpus et extraction de motifs
Task
S1 : et des choses comme traumatologie ça serait : : Suggestion
H2 : oui la thraumatologie ça serait bien AcceptSuggestion
ah oui
effectivement je n’ai pas pensé à mettre ça Inform
on va voir ce qu’on obtient comme ça Suggestion
(l’expert ajoute la spécialité médicale traumatologie à la requête et lance
la requête)
alors trois ressources Inform
apparemment un qui concerne l’épaule / le sport / hmm : : et encore un
truc sur xxx
Inform
allez on va encore chercher autre chose plutôt que arthralgie Suggestion
on va rester dans thraumatologie et on va mettre genou Suggestion
une nouvelle piste Inform
(l’expert change le mot-clé « arthralgie » par « genou »)
là on a 33 ressources Inform
alors effectivement / ça s’annonce bien Inform
S3 : ah oui il y a des choses là Agreement
Dialogue 5.17 – Exemple de longue prise de parole de l’expert (entretien AL10)
Afin d’avoir une mesure plus juste de la couverture réelle des motifs dialogiques extraits,
nous avons dénombré le nombre de tours de parole engagés dans un motif dialogique. Un tour de
parole est engagé dans un motif dialogique si et seulement si : (i) il inclut au moins un segment
fonctionnel possédant une fonction dans la dimension Task (ou une fonction ExecNegativeAutoFB
dans la dimension Auto-feedback), et (ii) il contient au moins un segment fonctionnel
faisant partie d’une instance d’un motif dialogique extrait. Les tours de parole ne contenant
aucun segment fonctionnel avec une fonction dans la dimension Task (ou une fonction ExecNegativeAutoFB
dans la dimension Auto-feedback) sont exclus du compte. Dans le dialogue 5.17, les
trois tours de parole sont engagés dans un motif dialogique. Le tour S1 fait partie d’un motif de
suggestion, le tour S3 d’un motif d’accord et le tour H2 des deux motifs (suggestion et accord).
Cette mesure met l’accent sur l’enchaînement des tours de parole plutôt que sur une couverture
en terme de fonctions communicatives. Elle permet de caractériser le nombre de tours de
parole liés par le déroulement de motifs dialogiques (ou une fonction ExecNegativeAutoFB dans
la dimension Auto-feedback).
1129 tours de parole sont éligibles dans le corpus d’extraction, soit 83.4% du total de ce
corpus. Les autres tours de parole ne contiennent aucun segment fonctionnel avec une fonction
dans la dimension Task (ou une fonction ExecNegativeAutoFB dans la dimension Auto-feedback).
Près de deux tiers (64.1%) des tours de parole considérés sont engagés dans au moins un motif
dialogique. Les 35.9% non couverts peuvent s’expliquer par plusieurs raisons. La principale est
que l’enchaînement de tour de parole est expliqué par une évolution sur l’axe de la gestion
de l’interaction (50.2% des cas). Cela inclut des tours de parole suivis par des feedbacks de
retour positif (« oui », « ok », « humm humm »), par des complétions de la part du partenaire,
par des demandes de clarification ou encore par des prises de parole intempestives (marquées
par l’usage de la fonction Turn Grab dans la dimension Turn Management). La seconde raison5.2. Processus d’extraction de motifs dialogiques 141
est la présence de tours de parole isolés (39.8% des cas). Il s’agit de tours de parole dont la
transcription seule ne permet pas de conclure à un lien avec les tours précédents. Ils ne sont pas
verbalement considérés par les interlocuteurs. Les 10% de cas restants sont marginaux. Dans
6.2% des cas, l’enchaînement des tours de parole démontre la présence d’un motif partiel. Les
motifs impliqués sont principalement les motifs de discussion d’action. Il s’agit de requête ou
de suggestion réalisées sans acceptation verbale (AcceptSuggestion/AcceptRequest). Dans une
minorité de cas (2.6%), l’enchaînement des tours est expliqué par l’usage d’une fonction non
couverte par un motif. Il s’agit des fonctions Instruct, AddressSuggestion et AddressRequest.
Précisons que ces tours de parole représentent moins de 1% des tours considérés au total. Enfin,
nous avons observé quelques phénomènes d’emboîtement de motifs ne respectant pas la stricte
adjacence (1.2% des cas).
5.2.3 Synthèse
Nous avons décomposé le corpus Cogni-CISMeF en deux sous-corpus : le corpus de référence
constitué aléatoirement d’un tiers du corpus et le corpus d’extraction formé par les deux tiers
restant. Seul le corpus d’extraction a été utilisé lors de l’extraction de motifs dialogiques.
L’annotation multidimensionnelle du corpus avec le schéma DIT++ a permis de prendre en
compte la complexité du dialogue qui implique la réalisation de plusieurs activités en parallèle.
En outre, la définition des dimensions dans DIT++ rend possible l’exploitation partielle du
corpus annoté pour l’analyse. Nous avons choisi d’exploiter cette caractéristique en limitant
notre travail d’extraction à la principale dimension : la dimension Task. Ce choix est motivé
par la volonté de ne pas mener de front la modélisation de l’ensemble des processus parallèles
intervenant dans le dialogue qui nécessitent chacun une étude rigoureuse. La dimension Task
semble la plus adaptée : c’est elle qui permet d’avancer la tâche sous-jacente au dialogue et elle
prévaut naturellement en terme de fonctions communicatives.
Le processus d’extraction est un processus itératif et manuel consistant en la détection de
motifs dialogiques dans les entretiens, puis en l’annotation de ceux-ci. Les motifs dialogiques sont
constitués de séquences de segments fonctionnels récurrentes dans les entretiens et qui incluent
des interventions de la part des deux interlocuteurs. Ces séquences prennent en compte aussi
bien la fonction dans la dimension Task que le contenu sémantique au travers de la forme de
surface du segment fonctionnel.
11 motifs d’interaction constitués de fonctions générales et de la fonction ExecNegativeAutoFB
ont été détectés. Nous les avons regroupés en 3 catégories : recherche d’information (6
motifs), transfert d’information (2 motifs) et discussion d’actions (3 motifs). Comme envisagé
par de nombreux chercheurs [Schegloff 1973,Clark 1996,Lewin 2000,Hulstijn 2000b], nous avons
principalement observé des motifs initiative-réponse constitués d’une paire adjacente avec une
seconde partie de paire préférée ou non. Chaque motif extrait prend la forme d’un acte de dialogue
initiatif suivi par un des actes de dialogue réponse possibles (associés à sa proportion
d’occurrence observée dans le corpus d’extraction).
Enfin, nous avons constaté que deux tiers des tours de parole susceptibles de contribuer à un
motif dialogique sont effectivement engagés dans un motif. Le tiers restant est majoritairement
impliqué dans des phénomènes interactionnels de non-considération ou d’évolution sur l’axe de
l’interaction, volontairement exclus de notre étude.142 Chapitre 5 : Annotation du corpus et extraction de motifs
5.3 Discussion
Ce chapitre a présenté les deux étapes d’exploitation du corpus : son enrichissement (via
l’annotation) et l’extraction de motifs dialogiques. Le corpus a été transformé en une séquence
d’unités multidimensionnelles produites par les interlocuteurs : les segments fonctionnels. La
participation de ces unités dans les différentes activités parallèles du dialogue a été vue comme
la production de fonctions communicatives dans plusieurs dimensions théoriquement fondées. Le
processus d’annotation a ainsi conduit à l’obtention d’une représentation du corpus où chaque
unité forme une ligne dont les colonnes sont constituées du locuteur, de la forme de surface du
segment ainsi que des fonctions annotées dans les dix dimensions considérées. L’usage du schéma
multidimensionnel DIT++ a permis de prendre en compte la richesse qui fait la complexité du
dialogue. Le corpus ainsi transformé a rendu possible la recherche et l’extraction de motifs
dialogiques récurrents impliquant la participation des deux interlocuteurs. Ces motifs ont été
extraits manuellement sur la base de la fonction annotée dans la dimension Task, du contenu
sémantique tiré de la forme de surface du segment et enfin de l’interlocuteur. En somme, cette
étape a permis de déterminer des fragments d’interaction que l’on souhaite voir reproduit par
un agent interactif. Nous avons constitué une bibliothèque initiale de 11 motifs d’interaction qui
vont nous servir de base pour la création du modèle d’interaction d’un agent interactif.
Le rôle de l’humain dans ces deux étapes de la méthodologie a été prégnant. Les seules interventions
automatiques ont eu pour but d’exploiter les annotations réalisées manuellement afin
de produire des statistiques. La réalisation manuelle de ces étapes est chronophage et nécessite
un effort d’apprentissage non négligeable (notamment du schéma d’interaction pour les annotateurs).
Elle a permis la réalisation des étapes cruciales : (i) la segmentation des unités de sens
dans le dialogue, (ii) l’étiquetage multidimensionnel de ces unités, et (iii) la découverte et l’extraction
de motifs dialogiques récurrents. Selon nous, l’évolution de la méthodologie dépend des
possibilités de semi-automatiser les phases d’annotations et d’extraction [Ales 2012]. L’automatisation
complète de ces deux étapes en est au stade de travaux de recherche. Les résultats acquis
ne permettent pas pour le moment l’utilisation opérationnelle d’outils. Dans cette direction, le
corpus Cogni-CISMeF annoté peut servir de base pour l’entraînement d’algorithme d’apprentissage
sur la reconnaissance d’actes de dialogue. Nous pensons, comme [Orkin 2013], que la
solution la plus réaliste consiste à envisager ces étapes sous la forme d’un processus collaboratif
entre l’humain et la machine. Plusieurs équilibres sont alors possibles selon les responsabilités
accordées à l’un ou à l’autre. [Orkin 2013] propose de confier à l’humain la responsabilité d’annoter
les motifs (sous forme de séquences d’actions représentant une tâche) afin de spécifier les
relations entretenues entre des fragments de comportements, et de sélectionner les fragments
que l’agent doit reproduire. À l’exécution, le processus délibératif de l’agent consiste à rechercher
des fragments de comportement contextuellement pertinent à rejouer à chaque instant, basé sur
les motifs de comportements observés.Troisième partie
Modélisation des interactions
humaines et mise en œuvreChapitre 6
Formalisation des motifs d’interaction
Sommaire
6.1 Modèle de l’engagement social et tableau de conversation . . . . . . . . . . . 145
6.1.1 Modèle de l’engagement social . . . . . . . . . . . . . . . . . . . . . . . . . . 146
6.1.2 Tableau de conversation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
6.1.3 Interprétation des engagements du tableau de conversation . . . . . . . . . . . 156
6.2 Jeux de dialogue et jeux de communication . . . . . . . . . . . . . . . . . . . . 158
6.2.1 Modèle de jeu de dialogue . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
6.2.2 Modèle de jeu de communication . . . . . . . . . . . . . . . . . . . . . . . . . 161
6.2.3 Combinaisons et établissement de jeux de dialogue . . . . . . . . . . . . . . . 161
6.2.4 Interprétation des jeux de dialogue dans le tableau de conversation . . . . . . . 163
6.3 Spécification empirique de jeux depuis le corpus Cogni-CISMeF . . . . . . . . 163
6.3.1 Représentation du contenu sémantique . . . . . . . . . . . . . . . . . . . . . . 164
6.3.2 Actes de dialogue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
6.3.3 Jeu de communication et jeux de dialogue . . . . . . . . . . . . . . . . . . . . 169
6.3.4 Couverture du corpus par les jeux définis . . . . . . . . . . . . . . . . . . . . . 176
6.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
Dans ce chapitre, nous présentons un cadre pour modéliser les motifs dialogiques observés
dans le corpus Cogni-CISMeF. Ce cadre permet de spécifier des enchaînements d’actes attendus.
Il est fondé sur l’approche des jeux de dialogue vus comme des structures capturant
les engagements que les interlocuteurs contractent pendant le dialogue (cf. section 3.2.3). La
section 6.1 décrit notre modèle de l’engagement social pour formaliser les jeux. Ces engagements
sont associés à un tableau de conversation qui représente l’état courant du dialogue en
stockant les engagements contractés par les interlocuteurs. La section 6.2 présente les structures
de jeux de dialogue et de communication basées sur les engagements précédemment définis. Ce
formalisme est illustré dans la section 6.3 présentant la spécification des jeux de dialogue et de
communication depuis les motifs dialogiques observés dans notre corpus. Enfin, nous concluons
ce chapitre en soulignant les avancées et les limites de notre modèle de jeux de dialogue (cf.
section 6.4).
6.1 Modèle de l’engagement social et tableau de conversation
Cette section débute par la formalisation de la notion d’engagement social dans le cadre de
notre modèle (cf. section 6.1.1). Nous abordons ensuite le tableau de conversation qui contient
les engagements sociaux, et son évolution suite à l’occurrence d’événements (cf. section 6.1.2).146 Chapitre 6 : Formalisation des motifs d’interaction
Nous terminons cette section en donnant une interprétation des engagements contenus dans le
tableau de conversation (cf. section 6.1.3).
6.1.1 Modèle de l’engagement social
Dans cette section, nous présentons notre modèle de l’engagement social inspirés des travaux
de référence de [Maudet 2001, Pasquier 2005, Chaib-Draa 2006] (cf. section 3.2.3). Nous
envisageons trois types d’engagements : les engagements propositionnels (extra-dialogiques, de
type PropCommitment), les engagements en action (dialogiques, de type ActionCommitment,
et extra-dialogiques, de type GameActionCommitment) et les engagements conjoints
sur les jeux de dialogue (extra-dialogiques, de type DialogueGameCommitment). Dans la
suite du document, nous utilisons le symbole « : » afin de représenter la relation « est de type »
(expr : Type signifie que expr est de type Type). Formellement :
c : Commitment ssi c : PropCommitment ou c : ActionCommitment ou
c : GameActionCommitment ou c : DialogueGameCommitment
Un engagement standard est un engagement propositionnel ou un engagement en action
(dialogique ou non). Nous excluons les engagements conjoints sur les jeux de dialogue de ces
engagements. Formellement :
c : StandardCommitment ssi c : PropCommitment ou c : ActionCommitment ou
c : GameActionCommitment
Engagement propositionnel
Un engagement propositionnel (PropCommitment) capture le fait qu’un interlocuteur s’engage
au présent sur une proposition envers un autre interlocuteur. Un tel engagement prend la
forme C(x,y,p,t,s) signifiant que l’engagement « x est engagé envers y sur la proposition p » est
dans l’état s depuis le temps t. Dans un soucis de simplification, nous ne considérons que les propositions
dirigées vers le présent (i.e., décrivant l’état du monde tel qu’il est). Cela nous conduit
à n’envisager que deux états pour un engagement propositionnel représenté en figure 6.1. Un
engagement propositionnel est initialement inactif (Ina). À la suite de sa création, l’engagement
passe en état créé (Crt), dit actif. Un engagement créé peut être annulé par son interlocuteur
et retourne alors à l’état inactif. Dans la perspective d’uniformisation des engagements propositionnels
et en action, il semble raisonnable d’étendre ces états vers ceux des engagements en
action. Cette perspective nécessite néanmoins des recherches supplémentaires dont les premiers
pas peuvent se baser sur [Singh 2008].
Ina Crt création
annulation
Figure 6.1: États d’un engagement propositionnel. L’état grisé est actif.
Engagement en action
Un engagement en action capture le fait qu’un interlocuteur s’engage au présent à ce qu’une
action survienne dans le futur.6.1. Modèle de l’engagement social et tableau de conversation 147
Un engagement en action extra-dialogique prend la forme C(x,y,α,t,s) signifiant que l’engagement
« x est engagé envers y sur la réalisation de l’action α » est dans l’état s depuis le temps
t. Les états considérés pour les engagements en action sont présentés en figure 6.2. Initialement,
un engagement en action est dans l’état inactif (Ina). Cet engagement peut alors être créé. La
tentative de création peut conduire à l’échec de la tentative de création (Fal) ou à la création
effective (Crt). Un engagement dans l’état Crt est alors actif. Un engagement actif peut être
violé le conduisant à l’état Vio. Il s’agit de la situation dans laquelle les conditions de satisfaction
spécifiées par le contenu ne peuvent plus être remplies. Un engagement actif peut être
satisfait le conduisant à l’état Ful. Un engagement en action est satisfait si son contenu a été
effectué.
Ina
échec Fal
Crt
création Ful
Vio
satisfaction
violation
Figure 6.2: États d’un engagement en action. L’état grisé est actif.
Les états présentés en figure 6.2 constituent une première approche simplifiée qui a l’avantage
d’être extensible. En effet, il est possible d’envisager d’autres états comme l’annulation, la mise
en attente, l’expiration, etc. (voir, e.g., [Chaib-Draa 2006,Telang 2012]).
Les engagements en action dialogiques sont au cœur de la spécification des jeux de dialogue
et de communication. Ceux-ci prennent la même forme que les engagements en action
extra-dialogiques à l’exception du fait qu’ils sont contextualisés dans un jeu j noté en indice :
Cj(x,y,α,t,s). En outre, le contenu de ces engagements dialogiques sont des descriptions d’évé-
nements (de type Description) devant survenir dans le futur. Ces descriptions peuvent être
simples (DescÉvénement) ou composées (cf. tableau 6.1). Par exemple, la description simple
de l’événement « inform(x, –) » représente un coup dialogique Inform produit par x dont le
contenu sémantique est quelconque. Nous supposons l’existence du prédicat :
correspond(e : Événement, α : DescÉvénement)
Celui-ci est vrai si l’événement e satisfaisait la description de l’événement α, faux sinon.
Par exemple, l’événement dialogique inform(x, p) correspond à la description de l’événement
inform(x, –).
Classiquement, ces descriptions d’événements peuvent être combinées de manière à exprimer
le choix et la négation (cf. tableau 6.1). En outre, ces engagements peuvent être conditionnels. Un
tel engagement est exprimé sous la forme d’un engagement d’ordre supérieur [Singh 1999]. α ⇒ β
signifie que si un événement survient et correspond à la description α, alors l’opération β est
réalisée sur le tableau de conversation. α
∗⇒ β signifie qu’à chaque fois qu’un événement survient
et correspond à la description α, alors l’opération β est réalisée sur le tableau de conversation. Les
engagements en action dialogiques vont permettre aux interlocuteurs de s’engager sur des règles
de production conduisant à la modification du tableau de conversation, et donc des engagements
des interlocuteurs.148 Chapitre 6 : Formalisation des motifs d’interaction
Nom Type Notation Remarques
Description simple DescÉvénement α
Négation Negation ¬α α : DescÉvénement
Choix Choix α1|α2 α1 : DescÉvénement
α2 : DescÉvénement ou Choix
Conditionnelle Conditionnelle α ⇒ β α : DescÉvénement ou Choix
β : Operation
Conditionnelle CondPersistante α
∗⇒ β α : DescÉvénement ou Choix
persistante β : Operation
Tableau 6.1: Événements et combinaisons d’événements pour les engagements dialogiques en action
Engagement conjoint sur un jeu de dialogue
Enfin, nous considérons les engagements conjoints sur les jeux de dialogue. Ces engagements
sont extra-dialogiques, bien que leur contenu soit un jeu de dialogue. Ils prennent la forme :
C({x,y},j,t,s) signifiant que l’engagement « x et y sont engagés conjointement sur le jeu de
dialogue j » est dans l’état s depuis le temps t. Ces engagements sont conjointement établis
via le mécanisme de contextualisation que nous présentons en section 6.2.3. Les états de ces
engagements correspondent aux différentes étapes d’entrée et de sortie d’un jeu de dialogue (cf.
figure 6.3). Initialement, les interlocuteurs ne sont engagés sur aucun jeu de dialogue (état Ina).
L’entrée dans un jeu peut être suggérée par un des interlocuteurs, faisant passer l’engagement
conjoint à l’état Sugg. Cette suggestion peut conduire à un refus (retour à l’état Ina) ou à
la création de l’engagement conjoint sur le jeu de dialogue (état Open). Un engagement dans
l’état Open est actif (le jeu de dialogue est établi, et ses règles entrent en considération dans
le comportement communicatif des interlocuteurs). Un engagement sur un jeu peut alors être
déchargé via la fermeture du jeu, conduisant l’engagement à l’état Closed.
Ina Sugg suggestion
refus
Open création Closed fermeture
Figure 6.3: États d’un engagement conjoint sur un jeu de dialogue. L’état grisé est actif.
Raccourcis d’écriture
Afin d’alléger l’écriture et la lecture des engagements sociaux, nous réalisons quelques simplifications
d’écriture. Puisque nous ne considérons que les engagements pris dans un dialogue
avec deux interlocuteurs, nous omettons le créditeur de l’engagement et n’indiquons que le dé-
biteur de celui-ci. En outre, nous ne précisons pas le paramètre temporel lorsqu’il n’est pas
indispensable. Par exemple :
◦ L’engagement propositionnel extra-dialogique C(x,y,p,t,Crt) se réécrit C(x,p,Crt)
◦ L’engagement en action dialogique (contextualisé dans le jeu j) Cj(y,x,α|β,t,Ful) se réécrit
Cj(y,α|β,Ful)6.1. Modèle de l’engagement social et tableau de conversation 149
6.1.2 Tableau de conversation
Dans cette section, nous introduisons les opérations générales réalisables sur le tableau de
conversation en rapport avec les engagements propositionnels et en action. Nous fournissons la
spécification de certains algorithmes essentiels permettant de cerner au plus près le fonctionnement
du système.
Principe du tableau de conversation
Le tableau de conversation représente l’état du dialogue entre les interlocuteurs à un instant
donné (cf. section 2.2.1). Puisque nous n’abordons pas les mécanismes de grounding et les problèmes
de communication 1
, le tableau de conversation représente la partie publique du contexte
dialogique supposée strictement partagée (cf. modèle 4, section 2.2.1).
Ti symbolise le tableau de conversation au temps i (le temps courant). Nous utilisons une
simple théorie des instants où « < » est la relation de précédence. Nous distinguons deux grands
types d’événements : les événements externes (ÉvénementExterne) et les événements internes
(ÉvénementInterne). Les événements externes peuvent être dialogiques (e.g., un évé-
nement d’énonciation d’un acte de dialogue) ou extra-dialogiques (e.g., un événement comme
lumière_allumée dénotant la réalisation de l’action d’activation de la lumière). Les événements
internes sont des événements déclenchés par l’atteinte d’un état du tableau (présentés dans la
suite de cette section).
Le principe de l’évolution du tableau de conversation en fonction de l’occurrence des évé-
nements est présenté en figure 6.4. À chaque occurrence d’un événement externe, le tableau de
conversation évolue et le temps est incrémenté. La modification du tableau de conversation peut
provoquer des occurrences d’événements internes. Ces derniers vont contribuer à modifier le
tableau sans pour autant faire progresser le temps. Le tableau de conversation et son évolution
sont abordés en section 7.2 dans les exemples de fonctionnement du module développé dans
cette thèse.
Occurrence d'un événement externe
Occurrence d'événements internes
Figure 6.4: Principe de l’évolution du tableau de conversation en fonction de l’occurrence d’événements
Opérations réalisables sur le tableau de conversation
Cette section présente les fonctionnalités générales du tableau de conversation ainsi que les
opérations (de type Operation) réalisables sur celui-ci pour les engagements propositionnels et
les engagements en action.
Fonctionnalités générales du tableau de conversation Le tableau de conversation inclut
un commitment store, i.e., un ensemble d’engagements partiellement ordonné. Ce tableau supporte
trois fonctionnalités spécifiées dans le tableau 6.2. Il est possible d’interroger le tableau
1. Nous avons limité notre travail à celui de la dimension Task (cf. section 5.2.1).150 Chapitre 6 : Formalisation des motifs d’interaction
sur l’appartenance (ou la non-appartenance) de n’importe quel engagement. Notons que le paramètre
temps est facultatif lors de ces recherches puisque celui-ci ne se contente que d’établir le
temps du dernier changement d’état de l’engagement. En outre, il est possible de déterminer si
deux engagements du tableau sont en relation d’ordre ou non, i.e., si un engagement est prioritaire
vis-à-vis d’un autre. L’opération de prioritarisation permet d’ordonner deux engagements
du tableau. Après l’application de cette opération, les deux engagements sont ordonnés dans
le tableau de conversation. Les jeux de dialogue ont une influence sur la prioritarisation des
engagements dialogiques que nous précisons en section 6.2.1.
Nom Fonctionnalité Préconditions Résultat
Appartenance a Tic vrai si c∈Ti
, faux sinon
c : Commitment
Non-appartenance Ti2c Équivalent à ¬(Tic)
c : Commitment
Priorité Tic1≺c2 Tic1, Tic2 vrai si c1 est prioritaire sur c2,
c1, c2 : Commitment faux sinon
Prioritarisation prio(c1,c2,Ti) Tic1, Tic2 Tic1≺c2
c1, c2 : Commitment ¬(Tic2≺c1) (voir extension en section
6.2.1)
a. Lorsque le temps t n’est pas précisé, l’appartenance signifie qu’il existe un temps t tel que l’engagement
appartient au tableau de conversation. Par exemple, TiC(x,y,p,s) ⇐⇒ ∃t t. q. TiC(x,y,p,t,s).
Tableau 6.2: Fonctionnalités générales du tableau de conversation
Opérations sur le tableau de conversation Le tableau 6.3 présente les opérations de
création et de suppression applicables sur le tableau de conversation pour des engagements
standards. L’opération de création permet de passer un engagement de l’état inactif à l’état
Crt dans le tableau courant. Après l’application de cette opération, le tableau de conversation
contient l’engagement dont l’état est désormais Crt et le paramètre temporel est le temps
courant. L’opération de suppression permet de désactiver n’importe quel engagement en action
ou propositionnel actif (i.e., le faire passer à l’état Ina). Il diffère de l’annulation pour les
engagements propositionnels (qui se contente de désactiver un engagement en état Crt). La
différence est fine compte tenu des états que nous considérons. Néanmoins, dans la perspective
de l’extension de notre modèle en discernant de nouveaux états, les deux opérations ont vocation
à être distinguées. L’opération de suppression est principalement utilisée pour désactiver des
engagements dialogiques dès lors que leur contexte local n’a plus lieu d’exister.
Enfin, le tableau 6.4 présente la spécification des opérations d’échec, de satisfaction et de
violation d’engagements en action (dialogique ou extra-dialogique). Ces opérations permettent
de changer l’état d’un engagement en action vers les états Fal, Vio et Ful en s’assurant que les
conditions sont bien réunies (notamment en terme d’état courant de l’engagement). Par exemple,
les préconditions des opérations de satisfaction et de violation spécifient que l’engagement doit
être initialement dans l’état Crt.
Chaque opération prend le tableau de conversation courant Ti en paramètre. Par application
partielle de ses autres arguments, chaque opération peut être réduite en une opération ne prenant
que l’argument Ti
. Par exemple, une fois l’interlocuteur et l’engagement fixés, l’unique paramètre6.1. Modèle de l’engagement social et tableau de conversation 151
Nom Opération Préconditions Effet(s)
Création créer(x,c,Ti) Tic Ti2c
c : StandardCommitment s=Ina TiC{j}(–,–,–,i,Crt) (=c’)
c=C{j}(–,–,–,t,s) t ≤ i L’interlocuteur x crée l’engagement
c’ dans le tableau de
conversation Ti
.
Suppression supprimer(x,c,Ti) Tic Ti2c
c : StandardCommitment s6=Ina TiC{j}(–,–,–,i,Ina)
c=C{j}(–,–,–,t,s) t ≤ i L’interlocuteur x supprime
l’engagement c du tableau de
conversation Ti
.
Annulation annuler(x, c, Ti) Tic Ti2c
c : PropCommitment s=Crt TiC(–,–,–,i,Ina)
c=C(–,–,–,t,s) t ≤ i L’interlocuteur x annule l’engagement
c du tableau de
conversation Ti
.
Tableau 6.3: Opérations générales sur les engagements en action et propositionnel (création, suppression
et annulation). « – » dénote les champs inchangés dans les opérations. « {j} » représente l’éventuel
contexte dialogique de l’engagement.
Nom Opération Préconditions Effet(s)
Échec échec(x,c,Ti) Tic Ti2c
c : ActionCommitment ou s=Ina TiC{j}(–,–,α,i,Fal)
c : GameActionCommitment t ≤ i La tentative de créer c a
c=C{j}(–,–,α,t,s) échoué.
Satisfaction satisfaire(c,Ti) Tic Ti2c
c : ActionCommitment ou s=Crt TiC{j}(–,–,α,i,Ful)
c : GameActionCommitment t ≤ i c est satisfait dans Ti
.
c=C{j}(–,–,α,t,s)
Violation violer(c,Ti) Tic Ti2c
c : ActionCommitment ou s=Crt TiC{j}(–,–,α,i,Vio)
c : GameActionCommitment t ≤ i c est violé dans Ti
.
c=C{j}(–,–,α,t,s)
Tableau 6.4: Opérations sur les engagements en action (contextualisés ou non). « – » dénote les champs
inchangés dans les opérations. « {j} » représente l’éventuel contexte dialogique de l’engagement.152 Chapitre 6 : Formalisation des motifs d’interaction
manquant de l’opération de création est le tableau de conversation. Cette forme réduite se révèle
très pratique puisqu’elle nous permet de traiter uniformément les opérations réalisables sur le
tableau de conversation. Nous exploitons cette caractéristique dans la rédaction des algorithmes
de la suite de cette section.
Raccourcis d’écriture Afin d’alléger l’écriture et la lecture des spécifications de jeux de
dialogue et de jeux de communication, nous omettons la plupart du temps le paramètre symbolisant
le tableau de conversation courant dans les opérations. En outre, nous ne précisons
pas entièrement les opérations de création, d’échec et d’annulation dans les spécifications pour
les combinaisons conditionnelles (α ⇒ β) et conditionnelles persistantes (α
∗⇒ β). Nous nous
contentons de préciser l’état de l’engagement tel qu’il va être créé dans le tableau. Ces raccourcis
d’écriture sont illustrés dans les trois exemples suivants :
◦ α ⇒ créer(x,C{j}(x,–,–,Ina)) se réécrit α ⇒ C{j}(x,–,–,Crt)
◦ α ⇒ échec(x,C(x,α’,Ina)) se réécrit α ⇒ C(x,α’,Fal)
◦ α ⇒ annuler(x, C(x,p,Crt)) se réécrit α ⇒ C(x,p,Ina)
Évolution du tableau de conversation
Dans cette section, nous décrivons l’évolution des engagements en action dialogique et le
mécanisme d’événement interne que nous considérons. Nous donnons deux algorithmes réalisant
l’évolution du tableau de conversation suite à l’occurrence d’événements.
Évolution des engagements en action dialogique Nous n’optons pas pour un profil pré-
cis des engagements extra-dialogiques. L’établissement de la satisfaction ou de la violation d’un
engagement en action extra-dialogique est problématique [Pasquier 2005] (p. 134). Il semble en
effet difficile de déterminer un processus général de cet établissement. Celui-ci dépend des caractéristiques
de l’action et de la situation dans laquelle se trouvent les interlocuteurs. Dans le
cas particulier où les interlocuteurs sont en co-présence et que l’action sur laquelle un interlocuteur
est engagé produit un résultat immédiat et observable pour les deux interlocuteurs (e.g.,
« allumer la lumière »), l’établissement peut être effectué sur une base événementielle comme
pour les engagements en action dialogique. Néanmoins, ce cas est loin d’être général. La solution
pratique communément adoptée consiste à concevoir un jeu de décharge où l’interlocuteur
indique s’il a satisfait l’action (e.g., « J’ai ajouté le mot-clé paludisme avec succès ») ou non
(voir, e.g., [Larsson 2002a] (p. 218)). Nous reportons la tâche de spécification de l’établissement
de la satisfaction ou de la violation d’un engagement en action extra-dialogique au moment de
la spécification de la tâche sur laquelle va intervenir l’agent dialogique.
Une description d’événement peut être persistante ou non. Elle peut également être affectée,
violée ou satisfaite par l’occurrence d’un événement. Ces différents aspects sont capturés dans
notre modèle par des prédicats définis dans le tableau 6.5. Nous discernons les descriptions d’évé-
nements entre celles qui sont persistantes et celles qui ne le sont pas. Une description persistante
n’est jamais satisfaite par l’occurrence d’un événement. Dans notre modèle, seules les combinaisons
de type « conditionnelle persistante » sont persistantes. Cette propriété a un impact sur
l’évolution des engagements suite à l’occurrence d’un événement. En effet, un engagement dont
le contenu est persistant n’est jamais satisfait (i.e., il ne passe jamais à l’état Ful). La relation
d’affection permet de déterminer si une description est affectée par l’occurrence d’un événément.6.1. Modèle de l’engagement social et tableau de conversation 153
Cette relation permet de distinguer les descriptions concernées par l’occurrence d’un événément
de celles qui ne le sont pas. Une description simple est affectée si l’événement correspond à la
description. Une négation est affectée si la description simple dont elle est composée est affectée.
Un choix est affecté si au moins un de ses éléments l’est. Pour finir, une description conditionnelle
est affectée si sa prémisse l’est. Une description est violée si c’est une négation qui est affectée
par l’occurrence d’un événement. Ces trois relations nous permettent de définir la satisfaction
d’une description d’événement. Une description d’événement non persistante est satisfaite par
l’occurrence d’un événement si elle est affectée par cet événement sans être violée.
De la même manière, nous définissons deux prédicats permettant de récupérer une opération
d’une description d’événement en fonction de l’occurrence d’un événement. Une description
d’événement possède une opération si elle est conditionnelle et qu’elle est affectée par l’occurrence
de l’événement. Dans ces conditions, il est alors possible d’obtenir l’opération détenue par la
description d’événement.
Prédicat Description (α) Résultat
estPersistant(α)
α’
∗⇒ β vrai
α1 : DescÉvénement faux
¬α’, α1’|α2’, α’ ⇒ β
estAffectéPar(α, e)
α1 : DescÉvénement correspond(e, α1)
¬α’ estAffectéPar(α’, e)
α1’|α2’ estAffectéPar(α1’, e) ou estAffectéPar(α2’, e)
α’ ⇒ β, α’
∗⇒ β estAffectéPar(α’, e)
estVioléPar(α, e)
¬α’ estAffectéPar(α’, e)
α1 : DescÉvénement faux
α1’|α2’
α’ ⇒ β, α’
∗⇒ β
estSatisfaitPar(α, e) estAffectéPar(α, e) et ¬estVioléPar(α, e) et ¬estPersistant(α)
possèdeOperation(α, e)
α’ ⇒ β, α’
∗⇒ β estAffectéPar(α, e)
α1 : DescÉvénement faux
¬α’, α1’|α2’
obtenirOperation(α, e) α’ ⇒ β, α’
∗⇒ β β (Précondition : possèdeOperation(α, e))
: Operation
Tableau 6.5: Prédicats concernant les descriptions d’événement. Chaque prédicat est défini en fonction
de la forme des descriptions (colonne « Description »). La valeur du prédicat est donnée dans la colonne
« Résultat ». α : Description, e : Événement.
Nous définissons ces mêmes relations sur les engagements en action dialogique (cf. tableau
6.6). Un engagement est persistant dès lors que son contenu l’est. En outre, un engagement
actif est affecté, violé et satisfait de la même manière que son contenu. Un engagement qui n’est
pas dans un état actif ne peut pas être affecté, violé ou satisfait. La possession et l’obtention
d’une opération depuis un engagement en action dialogique actif sont déléguées au contenu de
l’engagement. Un tel engagement possède une opération s’il est actif et si son contenu possède
une opération à réaliser sur le tableau de conversation en vertu de l’occurrence d’un événement.
Similairement, il est possible d’obtenir l’opération à appliquer de l’engagement actif, s’il
en possède une.154 Chapitre 6 : Formalisation des motifs d’interaction
Prédicat Définition
estPersistant(c) estPersistant(α)
estAffectéPar(c, e) s=Crt et estAffectéPar(α, e)
estVioléPar(c, e) s=Crt et estVioléPar(α, e)
estSatisfaitPar(c, e) s=Crt et estSatisfaitPar(α, e)
possèdeOperation(c, e) s=Crt et possèdeOperation(α, e)
obtenirOperation(c, e) si s=Crt alors obtenirOperation(α, e)
Tableau 6.6: Relations entre un engagement en action dialogique et un événement. c : GameActionCommitment,
c=Cj(–,–,α,s), e : Événement
Muni de ces relations, nous pouvons présenter l’algorithme 6.1 réalisant l’évolution du tableau
de conversation pour un de ses engagements dialogiques en action suite à l’occurrence d’un
événement (interne ou externe). L’engagement en action dialogique peut ne pas être affecté par
l’occurrence d’un événement, il est alors laissé inchangé. Dans le cas contraire, l’engagement
peut être violé ou non par l’événement. S’il est violé, l’opération de violation est appliquée
sur l’engagement. S’il n’est pas violé, l’engagement est satisfait à condition qu’il ne soit pas
persistant. Si cet engagement est porteur d’une opération à réaliser sur le tableau de conversation,
celle-ci est récupérée et appliquée. L’évolution totale du tableau de conversation à la suite d’un
événement est réalisée par l’application de l’algorithme 6.1 pour chaque engagement dialogique
en action initialement présent (i.e., avant que toute modification n’intervienne). On note cette
opération :
evolution(e : Événement, Ti
: TableauDeConversation)
Occurrence d’événements internes Chaque modification du tableau de conversation par
un événement externe peut déclencher l’occurrence d’événements internes. Nous optons pour
un mécanisme très simple d’événement interne. Chaque événement interne est défini par une
condition de déclenchement sur l’état du tableau de conversation (trigger). Dès lors que cette
condition est vérifiée, un événement interne est généré et appliqué sur le tableau de conversation.
Un événement interne n’est généré qu’une fois pour un temps t donné. Par exemple, un événement
interne engagementPropositionnelExistant(y, p) peut être généré dès lors que y s’engage sur la
proposition p. Son trigger est alors la fonction qui vérifie l’appartenance de l’engagement 2
:
is : TableauDeConversation 7→ isC(y,p,Crt)
Les événements internes sont principalement utilisés pour vérifier l’atteinte des conditions d’entrée
et de sortie des jeux de dialogue.
On suppose l’existence d’une procédure permettant de gérer l’évolution du tableau de conversation
à partir d’un ensemble de générateurs d’événement interne notée :
evolutionViaInternalEvent(ensGenerator : EnsInternalEventGenerator,
is : TableauDeConversation)
Cette procédure fait évoluer le tableau de conversation via l’ensemble d’événements générés.
Elle se charge de déterminer les nouveaux événements internes pouvant être générés et fait de
nouveau évoluer le tableau de conversation jusqu’à ce qu’aucun événement interne nouveau ne
soit généré.
2. « is » pour « Information State »6.1. Modèle de l’engagement social et tableau de conversation 155
Algorithme 6.1 Algorithme de mise à jour d’un engagement dialogique en action suite à
l’occurrence d’un événement.
Nom: EvolutionEngagementDialogiqueEnAction
Role: Réalise l’évolution du tableau de conversation pour un engagement dialogique en action
donné suite à l’occurrence d’un événement.
Entrée: c : GameActionCommitment, e : Événement
Sortie:
Entrée/Sortie: Ti
: TableauDeConversation
Déclaration: op : Operation
debut
si estAffectéPar(c, e) alors
si estVioléPar(c, e) alors
violer(c,Ti)
sinon
si ¬estPersistant(c) alors
satisfaire(c,Ti)
finsi
si possèdeOperation(c, e) alors
// Récupération de l’opération déclenchée par l’occurrence de l’événement
op ← obtenirOperation(c, e)
// Application de l’opération au tableau de conversation
op(Ti)
finsi
finsi
finsi
fin156 Chapitre 6 : Formalisation des motifs d’interaction
Mise à jour du tableau de conversation suite à un événement externe L’algorithme 6.2
présente les opérations strictement nécessaires à la mise à jour du tableau de conversation. Cette
opération est réalisée en deux étapes essentielles. La première consiste à faire évoluer l’ensemble
des engagements suite à l’occurrence de l’événement externe (via l’algorithme 6.1). La seconde
vise à déclencher l’ensemble des événements internes générés par le nouvel état du tableau de
conversation, qui vont eux-mêmes contribuer à modifier le tableau. La copie n’est pas stricto
sensu indispensable dès lors que nous limitons le tableau de conversation à une vision où il
est public et strictement partagé. Néanmoins, cette étape devient indispensable dès lors que la
partie publique est relativisée du point de vue de l’interlocuteur (cf. section 2.2.1). En effet, il
est souvent nécessaire de conserver les tableaux précédents afin de modéliser des mécanismes de
retour en arrière suite à un grounding trop optimiste (voir, e.g., [Larsson 2003]). Nous faisons
donc apparaître cette étape qui sera nécessaire dans des évolutions futures. Cet algorithme ne
fait apparaître que les éléments relatifs à l’évolution des engagements du tableau. Néanmoins,
d’autres opérations complémentaires peuvent être envisagées comme le stockage de l’événement
externe dans l’historique de l’interaction. Ces opérations dépendent des champs supplémentaires
au commitment store présents dans le tableau de conversation.
Algorithme 6.2 Algorithme de mise à jour du tableau de conversation suite à l’occurrence d’un
événement externe.
Nom: EvolutionTableauDeConversation
Role: Réalise l’évolution des engagements du tableau de conversation suite à l’occurrence d’un
événement externe.
Entrée: Ti
: TableauDeConversation, e : ÉvénementExterne, ensGenerator : EnsInternalEventGenerator
Sortie: Ti+1 : TableauDeConversation
Entrée/Sortie:
Déclaration:
debut
// Copie du tableau de conversation courant
Ti+1 ← copie(Ti)
// Évolution des engagements à partir de l’événement externe
evolution(e, Ti+1)
// Évolution du tableau de conversation depuis les événements internes
evolutionViaInternalEvent(ensGenerator, Ti+1)
fin
6.1.3 Interprétation des engagements du tableau de conversation
Le tableau de conversation représente les engagements pris par les différents interlocuteurs
à un moment donné de l’interaction. Ces engagements représentent des positions sur des propositions
(engagements propositionnels) et des engagements sur la réalisation de certaines actions
(engagements en action dialogiques ou extra-dialogiques) ou de règles de production (engagements
en action dialogique). Ces engagements vont contraindre le comportement des interlocuteurs.
En particulier, les engagements en action dialogique vont contraindre le comportement
communicatif d’un interlocuteur. Nous définissons dans cette section les notions d’événement
dialogique attendu, régulier et interdit. La notion d’attente est illustrée en section 7.2 dans les6.1. Modèle de l’engagement social et tableau de conversation 157
exemples de fonctionnement du système que nous avons développé. Nous notons α1|. . . |α|. . . |αn
le fait que l’événement α apparaisse dans une alternative.
Un événement dialogique e est attendu par le tableau de conversation Ti si et seulement si
∃α telle que :
◦ TiCj(–,–,α,Crt) ou TiCj(–,–,α1|. . . |α|. . . |αn,Crt), et
◦ correspond(e, α)
On note le prédicat qui retourne vrai lorsque l’événement e est attendu par le tableau de conversation
is, et faux sinon :
estAttendu(e : ÉvénementDialogique, is : TableauDeConversation)
De la même façon, le prédicat estAttenduPar(e : ÉvénementDialogique, j : Jeu, is : TableauDeConversation)
retourne vrai lorsque l’événement dialogique e est attendu par le jeu
(de dialogue ou de communication) j dans le tableau de conversation is.
Un événement dialogique e viole un engagement du tableau de conversation Ti si et seulement
si ∃ α telle que :
◦ TiCj(–,–,¬α,Crt), et
◦ correspond(e, α)
On note le prédicat qui retourne vrai lorsque l’événement e viole un engagement du tableau de
conversation is, et faux sinon :
viole(e : ÉvénementDialogique, is : TableauDeConversation)
Un événement dialogique e est régulier vis-à-vis du tableau de conversation Ti si et seulement
si :
◦ il ne viole aucun engagement (i.e., ¬viole(e, Ti)), ou
◦ s’il viole un engagement c1, il est attendu par un engagement c2 tel que c2 est prioritaire
sur c1.
Formellement,
(¬viole(e, Ti)) ou (∀c∈Ti tel que estVioléPar(c, e), ∃c’ tel que Tic’≺c et estSatisfaitPar(c’, e))
On note le prédicat qui retourne vrai lorsque l’événement e est régulier par rapport au tableau
de conversation is, et faux sinon :
estRégulier(e : ÉvénementDialogique, is : TableauDeConversation)
Il est important de remarquer qu’un événement dialogique e peut être régulier et non attendu.
Un événément dialogique e est interdit par rapport au tableau de conversation Ti si et
seulement si il n’est pas régulier. Formellement,
estInterdit(e : ÉvénementDialogique, is : TableauDeConversation) ⇐⇒
¬estRégulier(e, is)158 Chapitre 6 : Formalisation des motifs d’interaction
6.2 Jeux de dialogue et jeux de communication
Cette section définit la structure de jeux de dialogue adoptée dans notre modèle (cf. section
6.2.1) puis la structure de jeux de communication (cf. section 6.2.2). Nous abordons les
combinaisons possibles entre les jeux de dialogue et l’établissement des jeux via le mécanisme de
contextualisation (cf. section 6.2.3). Enfin, nous donnons une interprétation des jeux de dialogue
représentés dans le tableau de conversation (cf. section 6.2.4).
6.2.1 Modèle de jeu de dialogue
Nous définissons dans un premier temps la structure de jeux de dialogue que nous envisageons.
Puis nous spécifions les opérations sur les jeux de dialogue ayant un impact sur le tableau
de conversation.
Définition
Un jeu de dialogue (de type JeuDeDialogue) est un couple de la forme htype,sujeti où type
appartient à l’ensemble des types de jeux de dialogue existants (e.g., requête, interrogation) et
sujet forme le but du jeu dans le langage d’expression du sujet du jeu. Nous notons usuellement
un jeu sous la forme type(sujet) (e.g., requête(α) réfère au jeu de requête dont le but est l’action
α).
Un jeu de dialogue est défini en terme d’engagements sociaux. C’est un quintuplet caractérisé
pour l’initiateur et le partenaire par des :
conditions d’entrée : celles-ci spécifient l’état dans lequel doit se trouver le tableau de conversation
permettant l’entrée dans le jeu de dialogue. Cet état réfère à des engagements extradialogiques.
Par exemple, les conditions d’entrée du jeu de requête d’action spécifient que
le partenaire ne doit pas être déjà engagé sur l’action demandée.
conditions de sortie subdivisées en :
conditions de succès : celles-ci spécifient l’état du tableau de conversation qui correspond
au succès. Cet état réfère à des engagements extra-dialogiques.
conditions d’échec : celles-ci spécifient l’état du tableau de conversation correspondant
à l’échec du jeu. Cet état réfère à des engagements extra-dialogiques.
règles : elles spécifient les enchaînements d’actes attendus ou interdits dans le contexte du jeu
en terme d’engagements en action dialogiques.
effets : il s’agit de règles particulières qui spécifient les effets contextualisés des actes de dialogue
en terme de production d’engagements extra-dialogiques.
Afin d’illustrer cette structure, nous présentons le jeu de dialogue de requête qui permet à
l’initiateur du jeu de proposer la réalisation d’une action au partenaire qui peut accepter ou
refuser (cf. tableau 6.7). Ce jeu a émergé du motif précédemment observé (cf. section 5.2.2).
Le jeu est présenté sous la forme d’une structure bilatérale qui présente pour l’initiateur et le
partenaire les conditions d’entrée, de succès et d’échec, ainsi que les règles et les effets. Le type
du jeu est « requête » et son but est une action α. Les conditions sont spécifiées sous la forme
d’engagements extra-dialogiques qui doivent tenir dans le tableau de conversation pour que les
conditions soient atteintes. Les conditions d’entrée du partenaire spécifient qu’il ne doit pas être
déjà engagé sur l’action α, aussi bien sur sa réalisation que sur sa non-occurrence. Les conditions6.2. Jeux de dialogue et jeux de communication 159
de succès sont identiques pour les deux interlocuteurs. Elles stipulent que le jeu est un succès
dès lors que le partenaire est engagé sur la réalisation de l’action α. Au contraire, les conditions
d’échec précisent pour les deux interlocuteurs que le jeu est un échec si la tentative d’engager le
partenaire sur α échoue. Chaque règle et chaque effet est spécifié sous la forme d’un engagement
en action dialogique que nous ne précisons pas. Ainsi, la règle « request(x, α) » de l’initiateur est
équivalente à Cj(x,request(x, α),Ina)
3
. Les règles de l’initiateur du jeu spécifient qu’il est engagé
à jouer un acte Request. Les règles du partenaire du jeu précisent qu’il est engagé à jouer un acte
AcceptRequest ou DeclineRequest à condition que l’initiateur remplisse son engagement. Enfin,
les effets du partenaire indiquent que jouer un acte AcceptRequest a pour effet dans le contexte de
ce jeu de l’engager sur la réalisation de α. Au contraire, jouer un acte DeclineRequest a pour effet
dans le contexte de ce jeu de l’engager sur l’échec de la tentative de la création de l’engagement
sur α. Ces effets produisent des engagements extra-dialogiques qui permettent d’atteindre les
conditions de succès ou d’échec.
j=requête(α)
Initiateur (x) Partenaire (y)
Entrée C(y,α,Ina) et C(y,¬α,Ina)
Succès C(y,α,Crt) C(y,α,Crt)
Échec C(y,α,Fal) C(y,α,Fal)
Règles request(x, α) request(x, α) ⇒ Cj(y,acceptRequest(y, α)|declineRequest(y, α),Crt)
Effets acceptRequest(y, α) ⇒ C(y,α,Crt)
declineRequest(y, α) ⇒ C(y,α,Fal)
Tableau 6.7: Jeu de dialogue de requête. α : Action
À chaque jeu de dialogue j est associé un ensemble d’événements internes relatifs aux conditions
d’entrée et de sortie du jeu (présentés en détail dans le tableau B.1 de l’annexe B.1). Ces évé-
nements sont déclenchés dès lors que des conditions d’entrée, d’échec ou de succès sont atteintes
par le tableau de conversation. Ces événements internes sont utilisés dans le jeu de contextualisation
(cf. section 6.2.3). Par exemple, le déclenchement de l’événement atteintSuccèsInitiateur(j)
engage l’initiateur à proposer la sortie du jeu.
Opérations sur les jeux de dialogue
Avant de présenter les opérations sur les jeux de dialogue, nous affinons notre définition de la
relation de priorité entre les engagements. Pour deux jeux de dialogue ouverts dans le tableau de
conversation Ti
, on note la relation de priorité plus succinctement : Tij2≺j1 (signifiant que j2
est prioritaire sur j1)
4
. Dans le cas particulier des engagements en action dialogique, la priorité
au niveau des jeux contextualisant provoque la même priorité au niveau des engagements. Ainsi :
Tij2≺j1 ⇒ ∀c1=Cj1
(–,–,–,–,–), ∀c2=Cj2
(–,–,–,–,–) alors Tic2≺c1
Cette propriété étend la relation de priorité précédemment définie (cf. section 6.1.2). En outre,
un jeu de dialogue j2 est prioritaire sur un jeu de dialogue j1 s’il est emboîté dans celui-ci (cf.
section 6.2.3). La relation de priorité a un impact sur la fermeture des jeux de dialogue.
3. La règle est en état inactif tant qu’elle n’a pas été effectivement créée, i.e. jusqu’au moment de l’ouverture
du jeu.
4. Cette notation est équivalente à TiC(–,j2,Open)≺C(–,j1,Open).160 Chapitre 6 : Formalisation des motifs d’interaction
Le tableau 6.8 présente les opérations réalisables sur les engagements conjoints sur un jeu de
dialogue. Ces opérations correspondent aux transitions entre les différents états dans lesquels ce
type d’engagement peut se trouver (Ina, Sugg, Open, Closed).
Avant d’être conjointement établi (état Open), un engagement de jeu passe par un état
suggéré (Sugg). Dans cet état, l’engagement peut être unilatéralement annulé par un interlocuteur
(e.g., celui à qui le jeu a été suggéré). Les opérations de suggestion et d’annulation de jeu
permettent, respectivement, de créer l’engagement de jeu dans l’état Sugg et d’annuler cette
création.
La création de l’engagement de jeu correspond à l’établissement conjoint du jeu de dialogue.
Cette opération ne se résume pas à modifier l’état de l’engagement conjoint sur le jeu. En effet,
elle est accompagnée de la création des règles et des effets du jeu dans le tableau de conversation.
Formellement,
∀ cj∈ règlesInitiateur(j)∪règlesPartenaire(j)∪effetsInitiateur(j)∪effetsPartenaire(j),
créer(x,cj ,Ti)
Enfin, la fermeture d’un jeu de dialogue provoque la clôture du contexte local engendré par le
jeu, modélisé par les engagements dialogiques. L’opération de fermeture conduit à changer l’état
de l’engagement conjoint mais aussi à la suppression de tous les engagements contextualisés par
j. Formellement,
∀c tel que c=Cj(–,–,–,–,–) et Tic, supprimer(x,c,Ti)
En outre, la fermeture d’un jeu de dialogue j provoque la clôture de tous les jeux emboîtés dans
celui-ci. Formellement,
∀j’ tel que Tij’≺j, fermerJeu(x,j’,Ti)
Nom Opération Préconditions Effet(s)
Suggestion suggJeu(x,j,ini,par,Ti) TiC({ini, par},j,Ina) Ti2C({ini, par},j,Ina)
TiC({ini, par},j,i,Sugg)
Annulation annulerSuggJeu(x,j,Ti) TiC(–,j,Sugg) Ti2C(–,j,Sugg)
TiC(–,j,i,Ina)
Création créerJeu(x,j,Ti) TiC(–,j,Sugg) Ti2C(–,j,Sugg)
TiC(–,j,i,Open)
+ Création des règles
+ Création des effets
Fermeture fermerJeu(x,j,Ti) TiC(–,j,Open) Ti2C(–,j,Open)
TiC(–,j,i,Closed)
+ Suppression des engagements
contextualisés
+ Annulation des jeux emboîtés
Tableau 6.8: Opérations générales sur les engagements conjoints sur un jeu de dialogue. x représente
l’interlocuteur qui réalise l’action. « ini » représente l’initiateur du jeu, « par » représente le partenaire
du jeu. j : JeuDeDialogue.6.2. Jeux de dialogue et jeux de communication 161
6.2.2 Modèle de jeu de communication
Les jeux de communication que nous utilisons sont identiques à ceux de l’approche de Maudet
(cf. section 3.2.3) et sont définis par un type (e.g., contextualisation, évaluation). Ils sont dédiés
à gérer des processus généraux d’interaction (comme la compréhension mutuelle, la gestion des
tours de parole, . . . ), et sont toujours activés. Ils sont spécifiés sous la forme d’engagements en
action dialogiques persistants : Cj(–,α
∗⇒ β,Crt) (où α : Description et β : Operation).
Deux jeux de communication sont considérés dans notre travail : le jeu de contextualisation
(cf. section 6.2.3) et le jeu d’évaluation formalisant les motifs du corpus Cogni-CISMeF (cf.
section 6.3.3).
6.2.3 Combinaisons et établissement de jeux de dialogue
Cette section décrit les combinaisons de jeux de dialogue considérées dans notre modèle,
ainsi que le jeu de communication de contextualisation.
Combinaisons de jeux de dialogue
À la suite de Maudet (cf. section 3.2.3), nous considérons trois types de combinaisons observées
dans le dialogue humain : le séquencement, le pré-séquencement et l’emboîtement. D’autres
combinaisons peuvent être envisagées comme, par exemple, l’itération (répétition du jeu n fois)
ou le choix [McBurney 2002].
Séquencement Le séquencement de jeux de dialogue, noté j2 ; j1, est une combinaison permettant
de capturer la négociation de l’ouverture d’un jeu (« Je peux te poser une question ?
– Laisse moi t’en poser une avant ! – OK. »). Une telle combinaison permet de proposer de jouer
le jeu j2 jusqu’à l’atteinte de ses conditions de succès, avant de jouer le jeu j1. Dans notre modèle,
établir une combinaison j2 ; j1 consiste à ouvrir le jeu j2 tandis que le jeu j1 reste suggéré.
Une fois le jeu j2 joué avec succès, le jeu j1 est ouvert. Nous n’imposons aucune contrainte sur
le séquencement de jeux de dialogue.
Pré-séquencement Le pré-séquencement informé de jeux de dialogue est un séquencement
particulier (cf. section 3.2.3). De la même manière que pour le séquencement, un jeu j1 est
pré-séquencé par j2, noté j2 j1, si j2 est ouvert alors que j1 est suggéré. À la différence d’un
séquencement, un pré-séquencement par un jeu j2 sert à établir les conditions d’entrée du jeu
j1. En d’autres termes, les conditions de succès de j2 doivent être incluses dans les conditions
d’entrée de j1 [Maudet 2001]. Les pré-séquencements valides doivent être spécifiés au niveau du
domaine. Nous posons le prédicat :
estValidePreSéquence(j2 : JeuDeDialogue, j1 : JeuDeDialogue)
Celui-ci retourne vrai si le pré-séquencement de j1 par j2 (j2 j1) est autorisé, faux sinon.
Emboîtement L’emboîtement est une combinaison de deux jeux de dialogue ouverts dont l’un
est le jeu parent et l’autre est le jeu fils (cf. section 3.2.3). Nous notons l’emboîtement du jeu
j2 dans j1 : j2 1, et ∀i, 1 ≤ i ≤ n alors qi
: YNQ
◦ q : WHQ si q=?X.predn(c1, . . . , cn−1, X) avec n ≥ 1, où X : Var, ∀i t.q. 1 ≤ i ≤ n − 1
alors ci
: Ind et predn : Predn (q est dite paramétrée par les constantes ci)
Le tableau 6.11 présente quelques exemples de question.
Sémantique Exemple
{?patient, ?etudiant, ?medecin} « Êtes-vous un patient, un étudiant en médecine ou
un médecin ? »
?etudiant « Êtes-vous un étudiant en médecine ? »
?definition(eczema) « Est-ce que “eczéma” possède une définition dans la
terminologie ? »
?X.nom(X) « Comment vous appelez-vous ? »
?X.synonyme(paludisme, X) « Quel est un synonyme de paludisme ? »
?X.traduction(varicelle, anglais, X) « Quelle est une traduction de varicelle en anglais ? »
Tableau 6.11: Exemples de question dans notre représentation sémantique
Relations entre questions et propositions Enfin, nous reprenons deux relations entre
questions et propositions proposées par [Larsson 2002a] issues de la théorie QUD : la relation
de résolution et la relation de pertinence (cf. section 2.2.3). Ces relations sont définies dans le
tableau 6.12.
Question Réponses. . .
. . . résolvantes . . . pertinentes non résolvantes
?X.predn(c1, . . . , cn−1, X) predn(c1, . . . , cn−1, a) ¬predn(c1, . . . , cn−1, a)
?p p, ¬p néant
{?p1, . . . , ?pn} pi
, 1 ≤ i ≤ n ¬pi
, 1 ≤ i ≤ n
Tableau 6.12: Relations de résolution et de pertinence (n’inclut pas les restrictions sémantiques s’appliquant
aux constantes)
La relation de résolution détermine si une proposition résout une question. On simplifie la
définition proposée dans QUD en ne prenant pas en compte le point de vue relatif de l’agent.
Cette relation est supposée partagée par les interlocuteurs. Nous notons cette relation :
resolves (p, q) avec p : Proposition, q : Question
Elle est vraie lorsque la proposition p résout la question q, sinon elle est fausse. Cette relation est
définie dans le tableau 6.12. Notons que les restrictions sémantiques jouent un rôle essentiel dans
les conditions de résolution puisqu’elles déterminent les propositions correctement construites.
Elles ne sont pas représentées dans le tableau. La définition de cette relation est dépendante du
domaine.
La relation de pertinence est une simplification de la notion d’« à propos » proposée dans
QUD. Elle permet d’identifier les propositions qui sont en rapport avec une question sans né-
cessairement la résoudre. Elle se présente sous la même forme que la relation de résolution :
relevant (p, q) avec p : Proposition, q : Question168 Chapitre 6 : Formalisation des motifs d’interaction
Elle est vraie si la proposition p est pertinente vis-à-vis de la question q, sinon elle est fausse.
Notons que toutes les propositions résolvantes sont pertinentes :
resolves (p, q) ⇒ relevant (p, q)
Le tableau 6.12 regroupe les réponses pertinentes non résolvantes. De la même façon que la
relation de résolution, cette relation est dépendante du domaine. Nous ajoutons la relation de
pertinence stricte. Une proposition est strictement pertinente vis-à-vis d’une question si elle est
pertinente sans être résolvante. Formellement,
strictlyRelevant (p, q) ⇐⇒ relevant (p, q) et ¬ resolves (p, q)
6.3.2 Actes de dialogue
Les actes de dialogue que nous considérons sont multidimensionnels et multiniveaux. Ils
proviennent de l’analyse du corpus Cogni-CISMeF (cf. chapitre 5). Les fonctions de ces actes
sont regroupées dans le tableau 6.13 qui présente pour chaque fonction, sa dimension et son
niveau.
Dimension Niveau Fonctions
Task Standard Inform, Answer, Disconfirm, Confirm, Agreement, Disagreement,
Correction, AcceptCorrection, DeclineCorrection
PropositionalQuestion, CheckQuestion, PosiCheck, NegaCheck,
SetQuestion, ChoiceQuestion
Offer, AcceptOffer, DeclineOffer, Request, AcceptRequest,
DeclineRequest, Suggestion, AcceptSuggestion, DeclineSuggestion
Auto-feedback Exécution ExecNegativeAutoFB
Tableau 6.13: Fonctions des actes de dialogue considérés dans notre formalisation
Suite à notre restriction à la dimension Task dans le processus d’extraction (cf. section 5.2.1),
nous nous limitons aux actes de niveau standard (i.e., les actes « noyaux » dans l’approche
multiniveaux, cf. section 1.2.2), à l’acte ExecNegativeAutoFB de niveau exécution et aux actes
de niveaux contextualisation (cf. section 6.2.3). Notre formalisation ne prend pas en compte les
niveaux inférieurs (du niveau d’attention jusqu’au niveau d’évaluation) qui permettent d’établir
la fonction et le contenu d’un acte, et de vérifier l’adéquation de l’occurrence de l’acte par
rapport à l’état courant du dialogue. Ces processus nécessitent une étude particulière (voir,
e.g., [Traum 1994a, Larsson 2003, Bunt 2007]). Ils ont vocation à s’intégrer dans notre modèle
via les jeux de communication, et nécessitent des études complémentaires. Notons que les jeux
de dialogue n’interviennent qu’aux niveaux où les actes ont été complètement établis (exécution
et standard).
Chaque événement dialogique d’énonciation d’un acte de dialogue est un quadruplet
hdimension, fonction, locuteur, contenu sémantiquei (excepté Correction, AcceptCorrection et
DeclineCorrection que nous traitons dans la suite du document). Nous omettons la dimension
à ce stade du modèle puisqu’il n’existe aucune ambiguïté sur la dimension d’une fonction.
Nous notons ce quadruplet : fonction(locuteur, contenu). Par exemple, inform(x, p) représente6.3. Spécification empirique de jeux depuis le corpus Cogni-CISMeF 169
l’événement d’énonciation par le locuteur x de l’acte de dialogue réalisé dans la dimension Task
dont la fonction est Inform et le contenu sémantique est p.
Le type de contenu sémantique des actes est synthétisé dans le tableau 6.14. Celui-ci est
conditionné par la catégorie de la fonction de l’acte. Les actes de transfert d’information possèdent
un contenu sémantique de type Proposition, les actes de discussion d’action ont un
contenu de type Action, et l’acte ExecNegativeAutoFB est associé à un contenu sémantique
de type Question. Enfin, les actes de recherche d’information se voient attribuer un type de
contenu sémantique dépendant de leur fonction. Les fonctions permettant de poser des questions
polaires sont associées au type YNQ (question oui/non). L’acte SetQuestion possède un contenu
sémantique de type WHQ (question ouverte), et l’acte ChoiceQuestion a un contenu sémantique
de type ALTQ (question à choix multiples).
Fonction Type de contenu sémantique
Inform, Answer, Disconfirm, Confirm, Agreement,
Disagreement
Proposition
PropositionalQuestion, CheckQuestion, PosiCheck,
NegaCheck
YNQ
SetQuestion WHQ
ChoiceQuestion ALTQ
ExecNegativeAutoFB Question
Offer, AcceptOffer, DeclineOffer, Request, AcceptRequest,
DeclineRequest, Suggestion, AcceptSuggestion,
DeclineSuggestion
Action
Tableau 6.14: Type de contenu sémantique des actes de dialogue
L’événement provoqué par l’énonciation d’un acte de dialogue de Correction est un quintuplet
hdimension, fonction, locuteur, contenu 1, contenu 2i. Cet événement porte sur deux propositions
(de type Proposition). La première représente la proposition corrigée par la deuxième. Par
exemple, correction(x, beau, pleut) 7
représente l’événement dialogique d’énonciation par le locuteur
x de l’acte de dialogue de Correction de la proposition beau par pleut. Dans l’esprit
des approches contextuelles, nous avons ajouté deux actes AcceptCorrection et DeclineCorrection
de la même forme que Correction, et qui représentent respectivement, une acceptation de
la correction (marquée dans le motif dialogique par une simple Agreement) ou un refus de la
correction. Cette décision est motivée par le fait qu’affirmer un accord après une correction est
selon nous différent d’affirmer un accord après un acte informatif (sans correction comme Inform,
Answer, etc.). Comme ces deux acceptations provoquent des effets différents sur le tableau
de conversation, elles doivent être représentées par des actes différents.
6.3.3 Jeu de communication et jeux de dialogue
Cette section présente le jeu de communication et les jeux de dialogue spécifiés depuis les
motifs dialogiques observés dans le corpus Cogni-CISMeF.
7. beau est le prédicat représentant la proposition « Il fait beau. » et pleut est le prédicat représentant la
proposition « Il pleut ».170 Chapitre 6 : Formalisation des motifs d’interaction
Jeu de communication
Nous considérons deux jeux de communication dans notre modèle : le jeu de contextualisation
précédemment évoqué (cf. section 6.2.3) et le jeu d’évaluation. Les effets d’un jeu de
communication sont spécifiés sous la forme Cj(–,α
∗⇒ β,Crt) signifiant que chaque interlocuteur
est engagé sur les règles du jeu de communication j de manière persistante.
Le jeu d’évaluation vise à capturer les effets des actes de transfert d’information supposés valides
dans toute conversation. Il est noté « ev » dans les engagements dialogiques. Ce jeu permet
aux interlocuteurs de s’accorder sur l’état du monde. Il intègre deux objectifs. Premièrement, il
permet de définir les effets directs de l’occurrence de certains actes de dialogue sur le tableau de
conversation. Ces effets sont toujours valides pendant le dialogue. Les effets directs des actes de
dialogue sont regroupés dans le tableau 6.15. La première ligne du tableau définit l’effet propositionnel
de l’acte Inform. Elle indique que l’occurrence de cet acte engage son locuteur sur son
contenu sémantique. Notons que la fonction Inform est la fonction parente de l’ensemble des
fonctions de transfert d’information. Cette hiérarchie représente un cas de multifonctionnalité
simultanée (cf. section 5.1.1). Ainsi, répondre à une question (Answer) est aussi informer de
la réponse, tout comme exprimer un désaccord (Disagreement) permet d’informer de ce désaccord.
Ces fonctions spécialisent la fonction Inform. Selon nous, les actes Answer et Agreement
possèdent le même effet direct que l’acte Inform. Cependant, l’acte Disagreement spécialise cet
effet. Il n’engage pas son interlocuteur sur la proposition formant son contenu sémantique mais
sur sa négation. Précisons que les actes Confirm et Disconfirm ont un effet dépendant du jeu
de dialogue dans lequel ils prennent part, et ne voient pas leurs effets définis dans le jeu d’évaluation.
Notons le faible nombre d’effets directs. Ceci est tout à fait normal puisque les autres
effets des actes sont définis dans le cadre des jeux de dialogue.
α β
inform(x, p) C(x,p,Crt)
f(x,p) C(x,p,Crt)
disagreement(x, p) C(x,¬p,Crt)
f ∈ {Answer, Agreement}
Tableau 6.15: Jeu de communication d’évaluation : effets directs
Le second objectif du jeu d’évaluation est de modéliser les motifs dialogiques d’accord et
de correction observés dans notre corpus et qui permettent aux interlocuteurs de s’accorder sur
l’état du monde (cf. section 5.2.2). Ces motifs sont capturés par les effets présentés dans le
tableau 6.16. La correspondance entre les motifs dialogiques et la spécification est immédiate.
L’occurrence d’un acte informatif (Inform ou Answer) engage l’autre interlocuteur à affirmer
son accord sur ce qui a été dit (Agreement), son désaccord (Disagreement) ou à proposer une
correction au locuteur (Correction). Nous introduisons une contrainte sémantique en spécifiant
que le partenaire y s’engage à jouer un acte de Correction dont les contenus sémantiques sont
en relation de correction.
L’effet de l’acte de correction est particulier et est défini dans le tableau 6.17. Une correction
de p par s conduit à engager le locuteur sur ¬p (une correction est également un désaccord sur
la proposition initiale) et à engager le locuteur sur s. Le partenaire s’engage alors à accepter une
correction ou à la refuser. Une acceptation de correction a pour effets d’annuler l’engagement
sur la proposition corrigée, et de créer un engagement sur la proposition de correction. Un refus6.3. Spécification empirique de jeux depuis le corpus Cogni-CISMeF 171
α β
f(x,p) Cev(y,agreement(y, p)|disagreement(y, p)|correction(y, p, s),Crt)
avec correction (p, s)
f ∈ {Inform, Answer}
Tableau 6.16: Jeu de communication d’évaluation
de correction amène à ne pas changer les engagements propositionnels des interlocuteurs. Ce
dernier acte a été ajouté par rapport au motif dialogique initialement observé (cf. section 5.2.2)
dans un souci de complétude. Il n’a cependant pas été observé dans notre corpus.
α β
correction(x, p, s) C(x,¬p,Crt)
C(x,s,Crt)
Cev(y,acceptCorrection(y, p, s)|declineCorrection(y, p, s),Crt)
acceptCorrection(x, p, s) C(x,p,Ina)
C(x,s,Crt)
declineCorrection(x, p, s)
Tableau 6.17: Jeu de communication d’évaluation : cas de la correction
Jeux de dialogue
Dans cette section, nous présentons la modélisation des motifs dialogiques de recherche d’information
et de discussion d’action sous la forme de jeux de dialogue.
Vérification d’une proposition Nous avons vu que la vérification de la valeur de vérité d’une
proposition se décline en quatre motifs dialogiques (vérification, vérification positive, vérification
négative et question oui/non). Ces motifs ont conduit à la spécification de trois jeux de dialogue
qui visent tous à demander au partenaire de déterminer la valeur de vérité d’une proposition.
Ces trois jeux de dialogue possèdent les mêmes conditions d’entrée, de succès et d’échec, et
diffèrent par leurs règles et leurs effets. Ces conditions sont regroupées dans le tableau 6.18. Les
conditions d’entrée de ces jeux spécifient que le partenaire ne doit pas être déjà engagé sur la
proposition vérifiée ni sur sa négation, et qu’il ne doit pas être engagé sur le fait qu’il ne connaît
pas la réponse. Les conditions de succès sont atteintes dès lors que le partenaire est engagé sur
la proposition vérifiée ou sur sa négation. Enfin, les conditions d’échec indiquent que le jeu est
un échec lorsque le partenaire s’engage sur le fait qu’il ne peut pas trouver de réponse.
Initiateur (x) Partenaire (y)
Entrée C(y,p,Ina) et C(y,¬p,Ina) et C(y,fail(q),Ina)
Succès C(y,p,Crt) ou C(y,¬p,Crt) C(y,p,Crt) ou C(y,¬p,Crt)
Échec C(y,fail(q),Crt) C(y,fail(q),Crt)
Tableau 6.18: Conditions d’entrée, de succès et d’échec des jeux de vérification, de vérification négative
et de question oui/non. p est le but du jeu, q=?p.
Le premier jeu de dialogue que nous présentons est celui de vérification, disponible dans le172 Chapitre 6 : Formalisation des motifs d’interaction
tableau 6.19. Il regroupe les motifs dialogiques de vérification d’une information et de vérification
positive dont les actes initiatifs sont liés par une relation de spécialisation. Le but du jeu est
la proposition p. Les règles précisent que l’initiateur s’engage à jouer un acte CheckQuestion
ou PosiCheck dont le contenu sémantique (?p) est de type YNQ. Une fois cet acte joué, le
partenaire est engagé à jouer un acte Confirm, Disconfirm ou ExecNegativeAutoFB. Les effets
stipulent que, dans le contexte du jeu, jouer un acte Confirm engage le locuteur sur son contenu
sémantique, jouer un acte Disconfirm engage sur la négation de son contenu sémantique, et
que jouer un acte ExecNegativeAutoFB engage sur la proposition fail(q). Les effets conduisent
à créer des engagements extra-dialogiques permettant d’atteindre les conditions de succès ou
d’échec.
j=vérification(p)
Initiateur (x) Partenaire (y)
Règles checkQuestion(x, q)|posiCheck(x, q) checkQuestion(x, q)|posiCheck(x, q) ⇒
Cj(y,confirm(y, p)|disconfirm(y, p)|
execNegativeAutoFB(y, q),Crt)
Effets confirm(y, p) ⇒ C(y,p,Crt)
disconfirm(y, p) ⇒ C(y,¬p,Crt)
execNegativeAutoFB(y, q) ⇒ C(y,fail(q),Crt)
Tableau 6.19: Jeu de dialogue de vérification. p est le but du jeu, q=?p.
Ce jeu de dialogue ne couvre pas le cas d’altération du projet conjoint observé dans le motif
de vérification et qui représente 15.15% des cas observés. L’altération du projet conjoint conduit
à modifier le jeu courant. Il s’agit d’une situation liée à la contextualisation du jeu et qui ne
concerne pas directement la définition du jeu. Nous y revenons en section 6.3.4. La prise en
compte de ce phénomène nécessite un approfondissement de la notion de contextualisation. Ce
travail est conservé pour des approfondissements futurs.
Le jeu de vérification négative est présenté dans le tableau 6.20. Il formalise le motif dialogique
de vérification négative qui vise à confirmer ou infirmer la négation d’une proposition (e.g., « PAS
mardi ? – Je te confirme, pas mardi ! »). Ce jeu est similaire à celui de vérification à l’exception
de l’acte initiatif (NegaCheck) et des effets des actes Confirm et Disconfirm. Dans le contexte
de ce jeu, si le partenaire joue un acte Confirm, il va confirmer la négation de la proposition, et
donc s’engager sur cette négation. À l’inverse, jouer un acte Disconfirm conduit le partenaire à
s’engager sur la proposition initiale.
j=vérificationNegative(p)
Initiateur (x) Partenaire (y)
Règles negaCheck(x, q) negaCheck(x, q) ⇒ Cj(y,confirm(y, p)|disconfirm(y, p)|
execNegativeAutoFB(y, q),Crt)
Effets confirm(y, p) ⇒ C(y,¬p,Crt)
disconfirm(y, p) ⇒ C(y,p,Crt)
execNegativeAutoFB(y, q) ⇒ C(y,fail(q),Crt)
Tableau 6.20: Jeu de dialogue de vérification négative. p est le but du jeu, q=?p.6.3. Spécification empirique de jeux depuis le corpus Cogni-CISMeF 173
Le jeu d’interrogation polaire est présenté dans le tableau 6.21. Il formalise le motif dialogique
de question oui/non. Les règles spécifient que l’initiateur du jeu est engagé à jouer un acte
PropositionalQuestion. À la suite de cet acte, le partenaire est engagé à jouer un acte Answer
confirmant ou infirmant la proposition, ou un acte ExecNegativeAutoFB. Ici, les effets ne défi-
nissent que celui de l’acte ExecNegativeAutoFB identique à ceux des jeux de dialogue précédents.
L’effet de l’acte Answer est déjà défini dans le jeu de communication d’évaluation qui factorise
les effets communs à tous les jeux de dialogue.
j=interrogationPolaire(p)
Initiateur (x) Partenaire (y)
Règles propositionalQuestion(x, q) propositionalQuestion(x, q) ⇒ Cj(y,answer(y, p)|
answer(y,¬p)|execNegativeAutoFB(y, q),Crt)
Effets execNegativeAutoFB(y, q) ⇒ C(y,fail(q),Crt)
Tableau 6.21: Jeu de dialogue d’interrogation polaire. p est le but du jeu, q=?p.
Interrogation ouverte et interrogation à choix multiples Les motifs de question ouverte
et de question à choix multiples ont chacun donné jour à un jeu de dialogue, respectivement, d’interrogation
ouverte et d’interrogation à choix multiples. Ces deux jeux possèdent une structure
sous-jacente commune liée à la sémantique des conditions de résolution choisie (cf. figure 6.6).
Chaque jeu débute par un acte initiatif joué par l’initiateur. À la suite de cet acte, le partenaire
peut donner autant de réponses strictement pertinentes (i.e., pertinentes et non résolvantes)
qu’il souhaite. Le jeu se termine avec succès dès qu’une réponse résolvante est enfin donnée, ou
sur un échec si le partenaire indique qu’il ne trouve pas de réponse.
En cours
Réponse strictement pertinente
ExecNegativeAutoFB Échec
Succès
Réponse résolvante
Acte initiatif
Figure 6.6: Structure sous-jacente commune aux jeux de dialogue d’interrogation ouverte et d’interrogation
à choix multiples
Le jeu d’interrogation ouverte est donné dans le tableau 6.22. Le but de ce jeu est une
question q telle que q : WHQ. Les conditions d’entrée précisent que le partenaire ne doit pas
déjà être engagé sur une proposition qui résout la question, ou sur le fait qu’il ne connaît pas
de réponse à la question. Les conditions de succès sont atteintes quand le partenaire est engagé
sur une proposition qui résout la question. Les conditions d’échec indiquent que le jeu est un
échec lorsque le partenaire s’engage sur le fait qu’il ne peut pas trouver la réponse. Les règles
précisent que l’initiateur s’engage à jouer un acte initiatif SetQuestion. Ensuite, le jeu suit la
structure commune précédemment décrite. Les effets stipulent que, dans le contexte de ce jeu,
jouer un acte ExecNegativeAutoFB engage le partenaire sur la proposition fail(q).
Le jeu d’interrogation à choix multiples est donné en annexe B.3. Contrairement au jeu pré-174 Chapitre 6 : Formalisation des motifs d’interaction
j=interrogationOuverte(q)
Initiateur (x) Partenaire (y)
Entrée C(y,p,Ina) avec resolves (p, q) et
C(y,fail(q),Ina)
Succès C(y,p,Crt) avec resolves (p, q) C(y,p,Crt) avec resolves (p, q)
Échec C(y,fail(q),Crt) C(y,fail(q),Crt)
Règles setQuestion(x, q) setQuestion(x, q) ⇒ Cj(y,answer(y, p)|
execNegativeAutoFB(y, q),Crt) avec
relevant (p, q)
answer(y, s)
∗⇒ Cj(y,answer(y, p)|
execNegativeAutoFB(y, q),Crt) avec
strictlyRelevant (s, q), relevant (p, q)
Effets execNegativeAutoFB(y, q) ⇒ C(y,fail(q),Crt)
Tableau 6.22: Jeu de dialogue d’interrogation ouverte. q : WHQ
cédent, le but est une question q telle que q : ALTQ. Les conditions d’entrée, de succès, d’échec
et les effets sont identiques au jeu d’interrogation ouverte. La différence principale tient en l’acte
initiatif qui est un acte ChoiceQuestion. Les règles traduisent alors le mécanisme précédemment
décrit. Notons que les contraintes sémantiques sont différentes du jeu d’interrogation ouverte en
raison de la différence de type de la question.
Discussion d’action Les trois motifs dialogiques d’action ont conduit à la formalisation de
deux jeux de dialogue directifs (suggestion et requête) et un jeu de dialogue promissif (offre).
Le jeu de dialogue de suggestion permet à l’initiateur de proposer la réalisation d’une action
au partenaire qui peut alors accepter ou refuser. Il est donné dans le tableau 6.23. Ce jeu formalise
le motif de suggestion. Son but est une action α. Les conditions d’entrée du jeu de suggestion
spécifient que le partenaire ne doit pas être déjà engagé sur l’action suggérée α, i.e., ni sur
son occurrence ni sur sa non-occurrence. Les conditions de succès sont identiques pour les deux
interlocuteurs : elles affirment que le partenaire doit s’engager à réaliser α. Symétriquement, les
conditions d’échec sont atteintes si la tentative d’engager le partenaire sur α échoue. Les règles
spécifient que l’initiateur du jeu est engagé à jouer un acte Suggestion. Le partenaire est engagé
à jouer un acte AcceptSuggestion ou DeclineSuggestion si l’initiateur remplit son engagement.
Enfin, les effets définissent que jouer un acte AcceptSuggestion ou DeclineSuggestion, dans le
contexte de ce jeu, engage le partenaire sur la réalisation de α ou sur l’échec de la création de
l’engagement sur la réalisation de α.
Le jeu de dialogue de requête est similaire au jeu de suggestion (les actes doivent être substitués
par Request, AcceptRequest et DeclineRequest). Sa spécification complète a servi d’exemple
afin d’illustrer la structure de jeu de dialogue (cf. section 6.2.1).
Enfin, le jeu d’offre permet à l’initiateur de proposer de réaliser une action pour le partenaire
qui peut accepter ou refuser. Il est donné dans le tableau 6.24 et formalise le motif d’offre. Le but
de ce jeu est une action α. Les conditions d’entrée du jeu d’offre spécifient que l’initiateur ne doit
pas être engagé sur l’action offerte α, i.e., ni sur son occurrence, ni sur sa non-occurrence. Les
conditions de succès précisent pour les deux interlocuteurs que le jeu est un succès si l’initiateur
contracte l’engagement de réaliser α. À l’inverse, les conditions d’échec stipulent que le jeu est un6.3. Spécification empirique de jeux depuis le corpus Cogni-CISMeF 175
j=suggestion(α)
Initiateur (x) Partenaire (y)
Entrée C(y,α,Ina) et C(y,¬α,Ina)
Succès C(y,α,Crt) C(y,α,Crt)
Échec C(y,α,Fal) C(y,α,Fal)
Règles suggestion(x, α) suggestion(x, α) ⇒ Cj(y,acceptSuggestion(y, α)|
declineSuggestion(y, α),Crt)
Effets acceptSuggestion(y, α) ⇒ C(y,α,Crt)
declineSuggestion(y, α) ⇒ C(y,α,Fal)
Tableau 6.23: Jeu de dialogue de suggestion. α : Action
échec si la tentative de l’initiateur de s’engager sur α échoue. Les règles déclarent que l’initiateur
est engagé à jouer un acte Offer. Le partenaire est engagé à accepter cette offre (AcceptOffer)
ou à la refuser (DeclineOffer) dès le moment où elle est faite. Enfin, les effets définissent que
jouer un acte AcceptOffer ou DeclineOffer dans le contexte de ce jeu engage l’initiateur sur la
réalisation de α ou sur l’échec de la création de l’engagement sur la réalisation de α.
j=offre(α)
Initiateur (x) Partenaire (y)
Entrée C(x,α,Ina) et C(x,¬α,Ina)
Succès C(x,α,Crt) C(x,α,Crt)
Échec C(x,α,Fal) C(x,α,Fal)
Règles offer(x, α) offer(x, α) ⇒ Cj(y,acceptOffer(y, α)|
declineOffer(y, α),Crt)
Effets acceptOffer(y, α) ⇒ C(x,α,Crt)
declineOffer(y, α) ⇒ C(x,α,Fal)
Tableau 6.24: Jeu de dialogue d’offre. α : Action
Synthèse Dans cette section, nous avons spécifié un jeu de communication (celui d’évaluation)
et huit jeux de dialogue collaboratifs à partir des onze motifs dialogiques observés dans le corpus
Cogni-CISMeF. La finalité de ces jeux est la modification des états des engagements extradialogiques
(propositionnel ou en action). Le tableau 6.25 présente les jeux à la disposition d’un
interlocuteur x afin de modifier l’état courant d’un engagement extra-dialogique. Par exemple,
si un interlocuteur souhaite s’engager envers son partenaire sur la réalisation d’une action (e.g.,
« Je te sers un café ? »), il peut choisir le jeu d’offre. Ce tableau montre la complétude du modèle
vis-à-vis de la formalisation des engagements choisie.
Nous avons laissé de côté les états Ful et Vio pour les engagements en action car l’atteinte
de ces états dépend de l’application. Nous constatons que l’annulation des engagements propositionnels
(état Crt vers Ina) n’est que partiellement prise en compte. Il n’existe actuellement
aucun jeu permettant à un interlocuteur d’annuler un de ses engagements propositionnels. Ces
limites dans notre modèle proviennent du fait que les seuls cas d’annulation observés dans le
corpus Cogni-CISMeF sont liés à l’acte de Correction. En outre, ces cas sont marginaux (cf.
section 5.2.2).176 Chapitre 6 : Formalisation des motifs d’interaction
Engagement État courant État désiré Jeu(x)
C(x,y,α) Ina Crt Offre
Ina Fal Offre
C(y,x,α) Ina Crt Requête, Suggestion
Ina Fal Requête, Suggestion
C(x,y,p) Ina Crt Jeu d’évaluation (via Inform a
)
Crt Ina –
C(y,x,p) Ina Crt Jeux de recherche d’information
Crt Ina Jeu d’évaluation (via Correction)
a. En supposant que tout acte Inform est attendu par le jeu d’évaluation.
Tableau 6.25: Jeux utilisables par un interlocuteur afin de modifier les états des engagements extradialogiques.
α : Action, p : Proposition
6.3.4 Couverture du corpus par les jeux définis
Cette section présente la mise en place, la réalisation et les résultats d’une étude visant à
évaluer la couverture des règles des jeux définis dans notre modèle sur le corpus de référence.
Configuration du processus
Cette étude porte sur le corpus de référence (un tiers du corpus Cogni-CISMeF) constitué
lors du processus d’extraction et qui n’a pas été analysé (cf. section 5.2.1). Le corpus de référence
a été annoté avec DIT++ sur l’ensemble des dimensions. Il représente approximativement le tiers
du corpus Cogni-CISMeF en terme de tours de parole, de segments fonctionnels et de fonctions
communicatives.
Deux chercheurs de notre laboratoire ont pris part à cette tâche. Ces derniers n’étaient
impliqués ni dans le processus d’extraction de motifs dialogiques, ni dans le processus de formalisation.
Ils étaient néanmoins familiers avec les concepts d’actes de dialogue comme modèle
de l’énoncé ainsi qu’avec la théorie QUD sur laquelle se base notre sémantique des questions.
Avant d’entamer ce processus, nous leur avons présenté le schéma d’annotation DIT++ sur la
base de la formation opérée lors du processus d’annotation. Nous avons ensuite présenté le jeu
de communication d’évaluation et les 8 jeux de dialogue que nous avons définis. Les jeux ont
été exposés comme des structures capturant les engagements que les interlocuteurs contractent
durant le dialogue. En ce sens, nous avons expliqué aux deux chercheurs que les règles des jeux
prescrivent des séquences d’actes de dialogue conventionnellement attendues. L’aspect déclaratif
des jeux a clairement facilité la compréhension de ces structures. Chacun des jeux a été accompagné
d’exemples de dialogue issus du corpus d’extraction et disponibles en annexe A.4.4. Ces
exemples ont illustré les enchaînements d’actes prescrits par les jeux. Enfin, la sémantique des
questions et les simplifications opérées vis-à-vis de la théorie de QUD leur ont été décrites.
L’objectif de cette étude est de confronter les enchaînements de tours de parole aux règles
définies dans nos jeux de manière à quantifier leur couverture. Il a été demandé aux deux
chercheurs de considérer chaque enchaînement de tours de parole motivé par une évolution sur
la dimension Task ou sur la dimension Auto-feedback via la fonction ExecNegativeAutoFB. Ces
enchaînements forment une séquence de segments fonctionnels incluant un segment produit par
chaque interlocuteur. Pour chacune de ces séquences, les volontaires avaient pour tâche de vérifier6.3. Spécification empirique de jeux depuis le corpus Cogni-CISMeF 177
si l’enchaînement de fonctions qu’elle représente était décrit par un jeu de communication ou
un jeu de dialogue (indépendamment de sa contextualisation). Si l’enchaînement n’est décrit
que partiellement (comme un acte initiatif suivi d’un acte inattendu dans le cadre d’un jeu)
alors il est décompté comme un enchaînement ne correspondant pas au jeu. Par exemple, une
question ouverte qui est posée et ignorée par le partenaire est décomptée comme un enchaînement
partiel ne correspondant pas au jeu d’interrogation ouverte. Afin de détecter les séquences de
tours de parole et leur adéquation avec un jeu, il a été demandé aux deux chercheurs de ne
considérer que les segments fonctionnels ayant une fonction annotée dans la dimension Task (ou
une fonction ExecNegativeAutoFB). Néanmoins, ils avaient accès aux annotations sur l’ensemble
des dimensions leur permettant ainsi de faire la part entre les enchaînements de tours de parole
motivés par la gestion de l’interaction et ceux motivés par la gestion de la tâche. En outre, il
leur a été demandé de tenir compte de la forme linguistique du segment qui fournit le contenu
sémantique. La cohérence sémantique spécifiée par les jeux n’a été vérifiée qu’informellement
(notamment pour les jeux d’interrogation ouverte et à choix multiples). Le jeu d’évaluation
présente un cas particulier via l’ajout des actes AcceptCorrection et DeclineCorrection. Ces
ajouts ont été opérés lors de la formalisation, a posteriori de l’annotation du corpus de référence
avec le schéma DIT++. En conséquence, les deux chercheurs ont eu pour consigne de considérer
toute fonction Agreement ou Disagreement suivant un acte de Correction comme équivalente,
respectivement, aux fonctions AcceptCorrection et DeclineCorrection.
Ce processus permet de produire un ratio entre les enchaînements prescrits par un jeu et
ceux partiellement prescrits. Ce ratio permet de quantifier la couverture des enchaînements de
fonctions communicatives prescrits par les jeux que nous avons définis avec une prise en compte
informelle de la sémantique, et en faisant abstraction du processus de contextualisation (la
plupart du temps implicite dans les conversations humaines [Levin 1977,Mann 1988,Mann 2002]).
Avant de répartir les entretiens du corpus de référence entre les deux chercheurs, nous leur
avons demandé de réaliser tous deux le processus sur l’entretien VD03 constitué de 102 tours de
parole. Cet exercice a permis d’analyser la correspondance entre les ratios produits. Ce test a été
concluant puisqu’aucune différence significative concernant les ratios n’a été observée entre les
chercheurs. Ils se sont ensuite répartis les entretiens. Le chercheur 1 s’est chargé des entretiens
AL05, AL09 et VD09 tandis que le chercheur 2 s’est occupé des entretiens AL02 et VD08
auxquels ont été ajouté les résultats de l’entretien VD03.
Résultats du processus
356 séquences ont été mises en évidence par les deux chercheurs. Nous obtenons des résultats
similaires à ceux du corpus d’extraction en terme de tours de parole impliqués dans une séquence
et en terme de proportion de catégories de jeux représentées. Dans le détail, les séquences
correspondant à un enchaînement prescrit par un jeu couvrent approximativement deux tiers
des tours de parole du corpus de référence, tandis que les séquences ne correspondant pas à un
enchaînement couvrent environ 10% des tours de parole. Les tours de parole non couverts par
une séquence correspondent à une évolution sur l’axe de l’interaction (env. 25% des tours de
parole). La catégorisation des séquences dont l’enchaînement est prescrit par un jeu est similaire
à celle des motifs dialogiques observés dans le corpus d’extraction. C’est-à-dire qu’environ 25%
des séquences ont un enchaînement prescrits par le jeu d’évaluation (catégorie de transfert
d’information). Les 75% des séquences restantes se répartissent de manière équilibrée entre
la catégorie de recherche d’information (jeux de dialogue de vérification, vérification négative,178 Chapitre 6 : Formalisation des motifs d’interaction
interrogation polaire, ouverte et à choix multiples) et la catégorie de discussion d’action (jeux
de dialogue de requête, suggestion et d’offre).
Les résultats de ce processus sont donnés dans le tableau 6.26 qui présente pour chaque
jeu la proportion de séquences observées dont l’enchaînement de fonctions communicatives est
prescrit. La conclusion globale est que 83.4% des séquences détectées par les volontaires dans
le corpus de référence ont pu être mises en correspondance avec les règles des jeux que nous
avons spécifiées. Plus précisément, nous pouvons voir que les scores sont tous au-delà de 66%
indiquant une adéquation fiable entre les dialogues que nous modélisons et les jeux définis.
Évaluation Vérification Vérification neg. Int. polaire Int. ouverte Int. choix multiples
100% 69.7% 66.7% 66.7% 88.6% 87.5%
Suggestion Requête Offre
84.8% 72.7% 78.1%
Tableau 6.26: Résultats de l’étude de la couverture des jeux. Proportion de séquences qui correspondent
à un enchaînement prescrit par un jeu.
En outre, nous avons étudié les 16.6% de cas où il n’était pas possible de trouver une correspondance.
Nous avons identifié deux grandes catégories : les cas liés à la structure inter-jeu
et les cas liés à la structure intra-jeu.
La première catégorie est elle-même décomposable en deux sous-catégories. Dans la première,
le partenaire ignore délibérément l’énoncé de l’initiateur dans 10% des cas. C’est ce que Clark
appelle un retrait du projet conjoint [Clark 1996] et peut être illustré par : « – si vous voulez qu’on
aille dessus on peut y aller (Offer) – je rappelle que le 13 était intéressant. (Inform) » (VD03).
La prise en compte dans notre modèle de ces cas se situe au niveau de la contextualisation du
jeu de dialogue. Ici, la contextualisation est implicite : l’acte initiatif du jeu est également une
proposition d’entrée dans le jeu (cf. section 3.1.3). La réponse à l’acte initiatif est implicitement
un refus d’entrée dans le jeu de par le fait qu’elle ne constitue pas une contribution allant dans
le sens du jeu. Dans la seconde sous-catégorie, le partenaire ouvre un jeu emboîté qui rend
obsolète le jeu parent dans environ 45% des cas. C’est illustré par l’exemple suivant : « – bon
est-ce qu’il y a des choses qui vous parlent par rapport à votre demande initiale ? – bah est-ce
qu’il y a un mot clé prévention ? – on l’a pas rajouté. » (VD09). La prise en compte dans notre
modèle doit se faire par une spécification claire de la notion de contribution entre jeu parent
et jeu emboîté. En effet, certains emboîtements semblent adresser des conditions indispensables
au succès du jeu parent tandis que d’autres paraissent facultatifs (voir, e.g., GoDiS qui gère
des questions emboîtées indispensables et d’autres facultatives). Cette notion de contribution a
alors une incidence sur la fermeture des jeux emboîtés.
La seconde grande catégorie, liée à la structure intra-jeu, peut également être décomposée en
deux sous-catégories. Le premier cas prédomine (environ 35%) et apparaît lorsque le partenaire
semble prendre un « raccourci » dans un motif d’interaction plus grand. Cela inclut certains
cas d’actes de dialogue indirects et apparaît fréquemment lors du jeu de requête et lors du jeu
de vérification (CheckQuestion). Par exemple : « – vous pouvez me la formuler en une vraie
phrase ou pas (CheckQuestion) – “qu’est-ce qu’on sait sur l’évolution des traitements actuels
sur la migraine” (Inform) » (VD03). Ces structures trouvent deux échos possibles dans notre
modèle. La première contribution peut être analysée comme un acte de contextualisation explicite
(une proposition d’entrée dans un jeu de requête). La réalisation de l’action demandée
remplit alors l’engagement en action extra-dialogique qui aurait été contracté si le jeu de requête6.4. Discussion 179
avait été mené à son terme (par la succession des actes Request et AcceptRequest et des actes
de contextualisation adéquats). Une autre façon de percevoir cette structure est de considérer
que la première contribution est un acte initiant un jeu de vérification (sur la capacité du partenaire)
pré-séquençant un jeu de requête (dans notre exemple, sur la formulation). Les deux
jeux sont alors implicitement satisfaits par la réalisation de l’action demandée. D’une façon ou
d’une autre, la prise en compte de ces phénomènes la plus prometteuse semble être sur l’axe de
la communication implicite et de mécanismes d’accommodation. Pour une prospection de ces
aspects, nous invitons le lecteur intéressé à se référer au chapitre 6 de [Maudet 2001] et à [Larsson
2002a]. Le second cas que nous avons détecté est lorsque le partenaire altère sa réponse
par rapport à ce qui est attendu dans le motif pour produire une chose à laquelle il peut et
souhaite réagir (approx. 10%), appelée une altération du projet conjoint [Clark 1996]. Cela peut
être illustré par l’exemple : « – alors vous ne connaissez pas l’équivalent de zomig (CheckQuestion)
– C’est une famille de produit » (VD03). Ces cas ont été volontairement exclus de notre
étude (cf. section 6.3.3). Le partenaire n’est plus passif : il altère le jeu courant de vérification
proposé par l’initiateur vers un jeu d’interrogation ouverte (« Qu’est-ce que le “zomig” ? »). Ce
type d’altération a vocation à être modélisé via des mécanismes d’accommodation concernant
la contextualisation des jeux de dialogue.
6.4 Discussion
Ce chapitre a présenté un cadre pour modéliser des motifs dialogiques observés dans un corpus,
basé sur des travaux théoriques antérieurs dans le champ des jeux de dialogue. Ce cadre
s’appuie sur la notion d’engagement social qui permet de donner une sémantique publique aux
jeux de dialogue. Leurs spécifications sont indépendantes des dispositions privées des agents
prenant part à l’interaction. Les jeux de dialogue sont vus comme des projets conjoints activés
temporairement pendant le dialogue pour un but spécifique. Ils constituent des contextes dialogiques
au sein desquels les interlocuteurs contractent des engagements qui vont guider leurs
comportements communicatifs. Ils définissent des enchaînements d’actes attendus, et les effets
de l’occurrence de ces actes en terme de modifications du tableau de conversation.
La formalisation des engagements sociaux et des jeux de dialogue présentée raffine celle
proposée par Maudet (cf. section 3.2.3). Notre formalisation d’engagement social clarifie leur
cycle de vie par l’usage d’un état de l’engagement. Elle distingue clairement les engagements
extra-dialogiques (proposition, action et jeux) des engagements dialogiques en action qui vont
contraindre le comportement communicatif des interlocuteurs. En outre, nous considérons explicitement
les engagements conjoints sur les jeux de dialogue dans divers états de contextualisation.
Le tableau de conversation représente les positions des interlocuteurs sur des propositions, les
engagements sur la réalisation d’actions et la structure intermédiaire du dialogue sous la forme
de jeux suggérés, ouverts ou fermés. Ce dernier évolue sous l’impulsion d’événements externes
(dialogiques ou non) et d’événements internes déclenchés par l’atteinte de certains états du tableau.
La formalisation de jeux de dialogue que nous utilisons ajoute des conditions d’échecs
définies en terme d’état du tableau de conversation, la définition des effets contextualisés des
actes de dialogue dans le cadre d’un jeu de dialogue, et la possibilité de spécifier des contraintes
de cohérence sémantique dans les enchaînements d’actes. Le cadre que nous proposons cantonne
l’intervention du domaine d’application à trois grands aspects. Le premier est celui des actions
extra-dialogiques dont il est nécessaire de spécifier l’atteinte des états de succès (Ful) et d’échec
(Vio). Nous avons noté que la solution communément admise consiste en un jeu de décharge180 Chapitre 6 : Formalisation des motifs d’interaction
aisément intégrable à notre approche. Le deuxième est celui de la sémantique des énoncés dont
nous avons vu qu’il est nécessaire en pratique de restreindre au domaine d’application. Enfin, le
dernier aspect est la spécification des combinaisons de jeux de dialogue possibles. Cette spécification
peut dans un premier temps se baser sur des plans de dialogue [Larsson 2002a]. Enfin, notre
formalisation bénéficie d’un ensemble d’avantages que nous avons déjà présentés en section 3.3.2.
Nous avons illustré la spécification des jeux de dialogue depuis des motifs dialogiques en
mettant en œuvre l’ensemble des étapes de notre méthodologie sur un corpus orienté vers une
tâche de recherche d’information dans le domaine médical. Nos jeux spécifient des enchaînements
d’actes conventionnellement attendus. Cette spécification tire partie d’une sémantique précédemment
utilisée sur le corpus Cogni-CISMeF et inspirée de GoDiS. Une étude de la couverture
des règles des jeux (de communication et de dialogue) a été réalisée par deux chercheurs sur le
corpus de référence constitué lors du processus d’extraction. Elle a permis de montrer qu’une
large majorité des enchaînements de fonctions communicatives dans la dimension Task apparaissant
dans ce corpus est prescrite par les jeux que nous avons définis.
En outre, cette étude a permis de pointer les limites de notre modèle.
Notre modèle d’engagement social différencie engagement propositionnel (dirigés vers le pré-
sent) et engagement en action (dirigés vers le futur). Il est tout à fait possible de contracter un
engagement propositionnel dirigé vers le futur (« Les documents seront triés demain. ») ou un engagement
vers le passé (« Hier, j’ai recherché ton livre toute la soirée »). Il existe une volonté théorique
d’uniformisation du traitement des engagements propositionnels et en action [Singh 2008].
Ce problème semble étroitement lié au langage de contenu des engagements [Pasquier 2005].
Des avancées théoriques dans cette direction peuvent bénéficier directement à notre modèle de
l’engagement social.
Notre modèle ne considère qu’un nombre réduit d’états pour les engagements sociaux. Nous
avons vu que le formalisme d’engagement proposé constitue un minimum vital qui nous a permis
de donner une sémantique publique satisfaisante aux motifs dialogiques observés dans le
corpus. C’est une première approche simplifiée qui a l’avantage d’être extensible. Il est possible
d’envisager d’autres états comme l’annulation, la mise en attente, l’expiration, etc. [ChaibDraa
2006,Telang 2012]. Dans la perspective d’uniformisation des engagements propositionnels
et en action, il semble raisonnable d’étendre ces états vers ceux des engagements en action.
Notre modèle de jeu de dialogue requiert la spécification manuelle des combinaisons possibles
de jeux de dialogue. Ces combinaisons peuvent être motivées intentionnellement ou dialogiquement
(cf. section 3.3.1). Il est nécessaire d’approfondir les raisons conduisant à certaines
combinaisons et pas à d’autres (notamment dans le cas de l’emboîtement).
Suite à la restriction à la dimension Task opérée dans le processus d’extraction, notre modèle
se limite à la modélisation de la communication au niveau de la tâche. Nous avons laissé de
côté tous les problèmes de communication pouvant intervenir aux niveaux inférieurs (attention,
perception, interprétation, etc.). En conséquence, le tableau de conversation modélisé représente
une partie publique strictement partagée par les interlocuteurs. La considération des autres
niveaux de la communication va éventuellement nécessiter la relativisation du point de vue de
l’agent du tableau de conversation. Ces processus de gestion de l’interaction nécessitent une
étude particulière, et ont vocation à s’intégrer dans notre modèle via les jeux de communication.
Enfin, notre modèle se limite à la modélisation de la communication explicite. L’étude de
la couverture des règles des jeux de dialogue permet de pointer cette limitation. Les cas noncouverts
par notre modèle sont majoritairement liés au fait que nous nous sommes limités aux
phénomènes explicites. Cependant, la communication humaine est souvent implicite. Ceci trans-6.4. Discussion 181
paraît de manière criante au niveau de la contextualisation des jeux de dialogue. En effet, notre
étude a permis de confirmer la quasi absence des actes de contextualisation : ce mécanisme est
réalisé de manière implicite dans les dialogues naturels. Cela conduit à des propositions d’entrée
et des refus implicites (cf. section 3.1.3). L’extension du mécanisme de contextualisation à la
communication implicite a vocation à prendre en compte des cas de retrait et d’altération du
projet conjoint. Une piste de recherche s’ouvre au niveau de la prise en compte des phénomènes
implicites et de mécanismes d’accommodation.Chapitre 7
Mise en œuvre du modèle
Sommaire
7.1 Dogma : « DialOgue Game MAnager » . . . . . . . . . . . . . . . . . . . . . . 183
7.1.1 Architecture d’un système de dialogue Homme-Machine . . . . . . . . . . . . 184
7.1.2 Exploitation des jeux de dialogue par un gestionnaire de dialogue . . . . . . . . 184
7.1.3 Présentation de Dogma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
7.1.4 Implémentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
7.2 Traces de fonctionnement de Dogma . . . . . . . . . . . . . . . . . . . . . . . 189
7.2.1 Tableau de conversation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
7.2.2 Exemple de jeu de requête . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
7.2.3 Exemple de jeu de question à choix multiples . . . . . . . . . . . . . . . . . . 194
7.2.4 Exemple d’emboîtement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
7.3 Vers une validation de Dogma . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
7.3.1 Test « à la Turing » . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
7.3.2 Développement de systèmes de dialogue . . . . . . . . . . . . . . . . . . . . . 207
7.4 Discussion : vers un agent dialogique utilisant les jeux . . . . . . . . . . . . . . 207
Ce chapitre montre l’apport des jeux de dialogue vus comme une structure capturant les engagements
pour la gestion du comportement communicatif conventionnel d’un agent interactif.
La section 7.1 décrit l’intérêt interprétatif et génératif des jeux de dialogue pour un agent interactif.
Elle présente Dogma, un module normatif de gestion de l’interaction conventionnelle qui
tire partie des jeux de dialogue pour fonder le comportement communicatif conventionnel d’un
agent interactif. La section 7.2 illustre le fonctionnement de Dogma à travers trois exemples
mêlant jeux de dialogue, jeux de communication et combinaisons de jeux. La section 7.3 envisage
plusieurs scénarios d’évaluation pour Dogma à moyen et long terme. Enfin, la section 7.4
synthétise ce chapitre et donne quelques pistes pour l’intégration des jeux de dialogue dans le
processus délibératif d’un agent interactif.
7.1 Dogma : « DialOgue Game MAnager »
Cette section s’intéresse à l’exploitation des jeux de dialogue par le gestionnaire de dialogue
d’un agent interactif. La section 7.1.1 synthétise brièvement l’architecture d’un système de dialogue
Homme-Machine et pointe l’importance du gestionnaire de dialogue. La section 7.1.2 pré-
sente l’intérêt computationnel des jeux de dialogue fondés sur les engagements. La section 7.1.3
présente le module de gestion de l’interaction développé dans cette thèse, et décrit son architecture
haut niveau. La section 7.1.4 fournit certains détails de sa mise en œuvre.184 Chapitre 7 : Mise en œuvre du modèle
7.1.1 Architecture d’un système de dialogue Homme-Machine
L’architecture classique d’un système de dialogue Homme-Machine consiste en un ensemble
de modules communiquant les uns avec les autres permettant de produire le comportement du
système. Comme noté par [Landragin 2013], il n’existe pas d’architecture de référence fiable et
générique pouvant être appliquée à n’importe quel système de dialogue. Ceci est principalement
dû au fait que chaque système possède des capacités différentes en terme d’entrée (i.e., d’interprétation
de la contribution de l’utilisateur en fonction des modalités d’expression) et de sortie
(i.e., de réalisation de la contribution du système). En conséquence, chaque système admet une
architecture qui lui est propre. Néanmoins, un certain nombre de composants sont récurrents et
peuvent être identifiés.
L’architecture d’un système de dialogue s’articule autour de trois grandes tâches [Jokinen
2010,Landragin 2013] : l’acquisition et l’interprétation du comportement communicatif de
l’utilisateur, la gestion du comportement dialogique du système, et enfin, la génération effective
du comportement du système. Elle intègre un ensemble de modules d’interprétation permettant
d’acquérir la contribution de l’utilisateur (reconnaissance vocale, caméra, clavier, etc.) et de la
transformer en une représentation computationnelle utilisable par le gestionnaire de dialogue.
Ce dernier permet d’intégrer la contribution de l’utilisateur et de générer celle du système.
Celle-ci est réalisée par un ensemble de modules de génération (synthèse vocale, animation de la
représentation graphique d’un agent animé, etc.).
Une grande constante de ces architectures est la centralité du gestionnaire de dialogue. Ce
module est le cœur du système [Jokinen 2010,Landragin 2013]. Schématiquement, il inclut deux
grands composants [Jokinen 2010]. Le premier est l’état d’information (ou modèle du contexte
du dialogue). Ce composant enregistre les éléments pertinents du contexte dialogique (cf. section
1.2.2) nécessaires à l’interprétation du comportement communicatif de l’utilisateur et à la
génération des contributions dialogiques du système. Ce modèle ne se limite pas à la représentation
de l’avancement de la tâche sous-jacente mais inclut des éléments des contextes linguistique,
sémantique, physique et perceptuel, et social [Bunt 2011a]. Le second est le module de contrôle
du dialogue. Ce module est responsable du comportement communicatif du système : sur la base
de l’état d’information, il détermine ce que le système doit faire. Le rôle du gestionnaire de
dialogue est donc double. Il est responsable de la mise à jour de l’état d’information suite à l’intervention
d’événements dialogiques provenant de l’utilisateur ou du système (rôle interprétatif),
et régit le comportement communicatif du système (rôle génératif).
7.1.2 Exploitation des jeux de dialogue par un gestionnaire de dialogue
Les systèmes de dialogue Homme-Machine inspirés des systèmes dialectiques présentent
un intérêt pour la modélisation de l’interaction Homme-Machine [Yuan 2011]. Leur principal
atout réside dans leur nature normative : les engagements contractés pendant la communication
contraignent le comportement communicatif des interlocuteurs. D’un point de vue computationnel,
ces modèles présentent deux grands intérêts pour un agent interactif. Ils ont un intérêt
interprétatif qui va nous permettre de déterminer la légalité d’un coup provenant de l’utilisateur.
De là, un agent peut adapter sa réaction en fonction d’un coup légal ou non. Ces modèles ont
également un intérêt génératif : ils permettent d’assister le système pour la production d’une
réponse en limitant l’attention à l’ensemble des coups légaux. Cela conduit typiquement à réduire
l’espace des réponses possibles pour l’agent et facilite le processus de délibération sur la réponse
à produire.7.1. Dogma : « DialOgue Game MAnager » 185
Un gestionnaire de dialogue peut faire un usage avantageux des relations définies entre un
événement dialogique et le tableau de conversation (cf. sections 6.1.3 et 6.2.4). D’un point de
vue interprétatif, un modèle fondé sur les engagements sociaux envisage la légalité d’un coup
dialogique en fonction de l’état du dialogue selon plusieurs angles [Maudet 2001] :
interdiction un coup peut être interdit par les engagements contractés durant l’interaction
(relation estInterdit)
attente un coup peut être attendu par un engagement contracté durant l’interaction (relation
estAttendu)
priorité un coup attendu peut être prioritaire sur les autres coups (relation estPrioritaire)
Le rôle interprétatif d’un gestionnaire de dialogue basé sur les jeux de dialogue tels que nous
les avons présentés consiste à classer un événement dialogique selon ces critères, et à réagir
en conséquence. Ce rôle est illustré par l’algorithme 7.1 qui présente la structure générale du
comportement du gestionnaire de dialogue. Un événement dialogique autorisé, attendu et prioritaire
conduit à la mise à jour du tableau de conversation via l’algorithme 6.2 précédemment
décrit. La gestion des interdictions, des inattendus et des événements non-prioritaires dépend de
l’agent interactif modélisé. Elle est déléguée à la conception de l’agent. Une grande variété de
comportements peut être mise en place. Par exemple, GoDiS inclut une règle « irrelevantFollowup
» [Larsson 2002a] (p. 141) permettant d’interpréter un acte inattendu après une question du
système comme un refus d’aborder la question. D’autres systèmes d’interaction Homme-Machine
pour le débat interdisent purement et simplement les coups non légaux [Yuan 2008].
Notre modèle permet de déterminer les coups conventionnellement attendus en fonction du
tableau de conversation. Cette propriété présente un intérêt aussi bien du point de vue interpré-
tatif que génératif. Pour ce dernier point, nous proposons de classer les événements dialogiques
attendus en fonction des jeux dans lesquels ils prennent part, puis par précédence conversationnelle.
L’idée, déjà évoquée en section 6.2.4, est qu’il existe à un moment donné un ensemble de
jeux de dialogue ouverts et saillants, ordonnés par leurs temps de passage à l’état Open (du plus
récent au plus ancien). Chaque jeu entretient un ensemble d’événements dialogiques attendus
dans son cadre. Cet ensemble est lui-même ordonné par le temps de passage des engagements
à l’état actif (du plus récent au plus ancien). Nous partons du principe que les jeux de communication
sont moins saillants que les jeux de dialogue. La structure est alors complétée par
l’ensemble ordonné des événements attendus dans le cadre des jeux de communication. De cette
manière, nous obtenons un ensemble ordonné d’événements dialogiques prioritaires qui peut être
exploité par le processus délibératif d’un agent. Cette structure est illustrée dans les exemples
de fonctionnement du système que nous avons développés, et qui sont présentés en section 7.2.
7.1.3 Présentation de Dogma
Dogma (pour « DialOgue Game MAnager ») est un module normatif de gestion de l’interaction
conventionnelle basé sur les jeux de dialogue, utilisable par un agent interactif lors
d’un dialogue impliquant deux interlocuteurs. Dogma adopte l’approche par état d’information
(ISU) [Larsson 2000b, Traum 2003] et est centré autour de la mise à jour et de l’exploitation
du commitment store localisé dans la partie publique de l’état d’information du gestionnaire
de dialogue. Dogma met en œuvre les spécifications présentées dans les sections 6.1 et 6.2. Il
implémente notamment les algorithmes précédemment présentés et les opérations réalisables sur
le tableau de conversation.186 Chapitre 7 : Mise en œuvre du modèle
Algorithme 7.1 Structure de l’algorithme de gestion de dialogue basé sur les jeux de dialogue.
Nom: GestionnaireDeDialogue
Role: Met à jour le tableau de conversation suite à l’occurrence d’un événement externe dialogique
Entrée: Ti
: TableauDeConversation , e : ÉvénementDialogique, ensGenerator : EnsInternalEventGenerator
Sortie: Ti+1 : TableauDeConversation
Entrée/Sortie: t : Temps
Déclaration:
debut
// Progression du temps
t ← incrementeTemps(t)
// Classement du coup dialogique dans différentes catégories
si estInterdit(e, Ti) alors
// Gestion de l’événement dialogique interdit
. . . à définir. . .
sinon
si ¬estAttendu(e, Ti) alors
// Gestion d’un événement dialogique inattendu
. . . à définir. . .
sinon
si ¬estPrioritaire(e, Ti) alors
// Gestion d’un événement dialogique non prioritaire
. . . à définir. . .
sinon
// Le coup est autorisé, attendu et prioritaire : c’est un coup pertinent
// Mise à jour du tableau de conversation
Ti+1 ← evolutionTableauDeConversation(e, ensGenerator, Ti)
finsi
finsi
finsi
fin
L’architecture dans laquelle s’intègre Dogma est présentée en figure 7.1. L’élément central de
cette architecture est l’état d’information qui est classiquement subdivisé en une partie publique
(le tableau de conversation) et une partie privée. C’est dans cette partie publique que s’intègre
le composant central de Dogma : le commitment store. Ce dernier est constitué d’un ensemble
d’engagements contractés par les interlocuteurs, partiellement ordonné par la relation de priorité.
Il contient pour chaque interlocuteur les engagements propositionnels (extra-dialogiques) et
en action (extra-dialogiques et dialogiques) dont il est débiteur. Il inclut également l’ensemble
des jeux de dialogue sur lesquels les interlocuteurs sont engagés dans différents états de contextualisation.
Le commitment store est maintenu à jour suite à l’occurrence d’événements externes
par le gestionnaire d’engagements qui a accès en lecture et en écriture à cette partie du tableau
de conversation. Ce module met en œuvre l’algorithme 6.2, et se charge de faire évoluer l’ensemble
des engagements suite à l’occurrence d’un événement externe et des événements internes7.1. Dogma : « DialOgue Game MAnager » 187
subséquents. Ce composant est sollicité par le module de contrôle du gestionnaire de dialogue.
Dogma fournit deux modules ayant accès en lecture au commitment store et permettant de
l’exploiter : le module arbitre et le module de gestionnaire du comportement conventionnel. Le
module arbitre permet de juger de la légalité d’un événement dialogique. Il accède au commitment
store afin de déterminer si l’événement est interdit, attendu ou prioritaire. Ce composant est
sollicité par l’algorithme de contrôle du gestionnaire de dialogue dans sa phase interprétative
(dont la structure suit l’algorithme 7.1). Le module de gestion du comportement conventionnel
exploite le commitment store afin d’identifier les descriptions d’événements dialogiques attendus
de la part de chaque interlocuteur. Il permet d’ordonner les événements dialogiques prioritaires
en fonction des jeux de dialogue en cours comme précisé en section 7.1.2. Ce module donne
accès aux jeux de dialogue en cours ou passé (i.e., tous les jeux dont l’état n’est pas Ina). Il
permet de déterminer les jeux saillants, le jeu de dialogue courant et les événements dialogiques
attendus dans le cadre de chaque jeu (de communication ou de dialogue). Ce module donne
des motivations conventionnelles à la production de certains actes en fonction des engagements
en action dialogiques contractés et des jeux en cours. Ces éléments peuvent entrer en ligne de
compte dans le processus délibératif de l’agent interactif (cf. section 7.4).
État d'information
Public
Commitment Store
Proposition
Action Jeux
Privé
événement(s) en
entrée
Arbitre Gestionnaire
d'engagements
Gestionnaire de
comportement
conventionnel
Contrôle
événement(s) en
sortie
Jeux de dialogue
Jeux de
communication
Domaine
Événements
dialogiques
Figure 7.1: Architecture de Dogma
Les trois principales ressources configurant Dogma sont : la librairie des événements dialogiques
considérés, la librairie des jeux de communication et enfin la librairie des jeux de dialogue.
Ces trois ressources permettent de définir les coups dialogiques utilisables par les interlocuteurs
ainsi que les jeux sur lesquels les utilisateurs vont pouvoir s’engager durant l’interaction. Ces
ressources spécifient un système normatif d’interaction déclinable sur plusieurs domaines d’application.
Une instantiation possible de ces ressources est celle que nous avons spécifiée en section
6.3. Enfin, la ressource domaine fournit les éléments dépendants du domaine d’application
de l’agent interactif. Cette ressource spécifie notamment les éléments relatifs au domaine de la
sémantique des énoncés, les événements externes, et les combinaisons autorisées entre les jeux
de dialogue.188 Chapitre 7 : Mise en œuvre du modèle
7.1.4 Implémentation
Plusieurs frameworks de développement de systèmes de dialogue basés sur un état d’information
existent parmi lesquels nous pouvons citer trindikit [Larsson 2002b], Dipper [Bos 2003]
(basé sur trindikit), et trindikit.py [Ljunglöf 2009]. trindikit est très certainement le framework
le plus populaire dans le milieu académique. Il a permis de développer plusieurs prototypes
dont GoDiS (cf. section 2.2.3), et est à la base de Dipper. trindikit est un projet libre 1
,
développé dans un dialecte de Prolog appelé Sicstus Prolog. Malheureusement, cette implémentation
pose des problèmes pour la mise en œuvre d’un système de dialogue [Ljunglöf 2009]. Bien
qu’étant un projet libre, trindikit est basé sur une implémentation propriétaire de Prolog. En
outre, l’architecture modulaire de ce framework est fondée sur l’« Open Agent Architecture »
(OAA) [Martin 1999] qui n’est plus en développement actif depuis 2007, laissant envisager des
problèmes de compatibilité. trindikit.py est né en 2009 afin de surmonter ces problèmes. Son
objectif est de proposer une alternative entièrement libre de trindikit basée sur le langage
Python 2
. Cependant, à l’heure où nous écrivons, l’activité de ce projet semble être au point
mort (dernière activité en septembre 2010). De plus, les développeurs signalent explicitement
que le code comporte actuellement des erreurs et n’est pas documenté.
Le développement de notre prototype Dogma est parti du constat qu’aucune alternative
existante n’est satisfaisante. Nous nous sommes tournés vers le langage Scala [Odersky 2008]
3
afin de développer Dogma. Le code source de Dogma est sous license GPLv3 et est actuellement
hébergé à l’URL https://labanquise.insa-rouen.fr/projects/dogma/. L’annexe C.1
présente des exemples de code tiré de Dogma et montre l’implémentation du jeu de dialogue
de requête et du jeu de communication d’évaluation.
Dogma a vocation à s’intégrer dans le module de gestion de dialogue de la plateforme
AgentSlang [Serban 2013] développée dans l’équipe de recherche Modélisation, Interation et
Usage (MIU) du LITIS. Cette plateforme fournit une architecture distribuée pour le développement
d’agent interactif.
Dogma a été utilisé avec succès afin d’implémenter deux systèmes normatifs d’interaction. Le
premier système est celui spécifié dans cette thèse à partir de l’étude du corpus Cogni-CISMeF
(cf. section 6.3). C’est ce système que nous utilisons afin de produire des traces de fonctionnement
en section 7.2. Le second système a été conçu et implémenté par Coralie Farges lors de son stage
de Master [Farges 2013]. Cette étude a consisté en l’application de notre méthodologie sur un
corpus de dialogues Homme-Homme dans le contexte du jeu de société Négoces 4
. Elle a conduit à
l’annotation du corpus en terme d’actes de dialogue suivie de la détection de motifs d’interaction
récurrents. Ces motifs ont été formalisés dans le cadre théorique proposé au chapitre 6. Cette
formalisation a conduit à l’implémentation des jeux de dialogue via Dogma afin de produire un
système normatif de l’interaction dans le cadre du jeu Négoces.
1. Le code source de trindikit est disponible à l’URL : http://sourceforge.net/projects/trindikit (dernière
mise à jour : 15/04/2013)
2. Le code source de trindikit.py est disponible à l’URL : https://code.google.com/p/py-trindikit (dernière
mise à jour : 17/09/2010)
3. Scala est développé à l’École Polytechnique Fédérale de Lausanne (EPFL), http://www.scala-lang.org/
(dernière mise à jour : 03/12/2013)
4. Le jeu Négoces a été conçu par François Tréca (http://www.negoces.fr, dernière consultation le
20/12/2013).7.2. Traces de fonctionnement de Dogma 189
7.2 Traces de fonctionnement de Dogma
Dans cette section, nous présentons trois exemples de fonctionnement qui illustrent les caractéristiques
du modèle et les capacités de Dogma. La section 7.2.1 introduit le tableau de
conversation utilisé lors des exemples. La section 7.2.2 décrit le déroulement complet d’un jeu
de dialogue requête, de son établissement à sa clôture. Ensuite, la section 7.2.3 illustre une sé-
quence d’actes dépassant le simple cadre de la paire adjacente et entremêlant jeu de dialogue et
jeu de communication d’évaluation. Enfin, la section 7.2.4 introduit un exemple d’emboîtement
de jeux. Trois traces de fonctionnement supplémentaires sont disponibles en annexe C.2. Elles
traitent des cas marginaux d’échec et de correction.
7.2.1 Tableau de conversation
Ces exemples impliquent un tableau de conversation minimal. Il inclut l’historique du dialogue
en terme d’événements dialogiques (champ « Tours »), les engagements propositionnels et en
action contractés par les interlocuteurs (colonnes Cx et Cy) et les engagements conjoints des
interlocuteurs x et y sur les jeux de dialogue (champ Cxy
Jeu). En outre, le jeu de dialogue saillant
est précisé s’il existe. Pour chaque interlocuteur, nous précisons les propositions sur lesquelles
il est engagé (ligne Cp), les actions extra-dialogiques dans les états Crt (ligne Ca(Crt)) et Fal
(ligne Ca(Fal)), et les engagements en action dialogiques (ligne CdA). Les engagements affichés
sont les engagements actifs.
Pour chaque tableau de conversation, Dogma présente son exploitation en terme d’actes
attendus et d’actes interdits. Nous n’affichons que les actes attendus puisque nos jeux ne pré-
sentent aucune règle d’interdiction. Les actes attendus sont ordonnés en fonction de la saillance
des jeux et de l’instant auquel les engagements ont été contractés. Les jeux de communication
sont identifiés par ctx (contextualisation) et ev (évaluation).
Dans Dogma, les jeux de dialogue et les jeux de communication sont gérés uniformément.
Les règles de ces jeux sont chargées lorsque le jeu est ouvert. Pour les jeux de communication, les
règles sont chargées au lancement du système puisqu’ils sont toujours actifs. Les règles des jeux
de dialogue sont chargées à l’ouverture du jeu et déchargées à leur fermeture. Afin d’améliorer
la lisibilité du tableau de conversation, nous ne faisons pas apparaître les règles des jeux de
communication. Nous exhibons les traces du système qui démontrent leur application. Pour
éviter de surcharger le tableau de conversation, l’acte de contextualisation poursuit a été évincé
des exemples. Cet acte est joué chaque fois qu’un acte de niveau inférieur attendu est appliqué
au tableau.
Les traces sont générées par Dogma au format LATEX. Ces traces sont post-traitées de manière
à accroître la lisibilité du tableau de conversation : le contenu des actes de contextualisation est
factorisé par l’identifiant du jeu (précisé dans la partie Cxy
Jeu), le but du jeu est factorisé par une
expression plus générique (α, p, . . . ), et certaines propositions sont également factorisées.
7.2.2 Exemple de jeu de requête
Ce premier exemple présente l’établissement et le déroulement d’un jeu de dialogue. Il illustre
le jeu de contextualisation qui capture explicitement l’établissement par les interlocuteurs du projet
conjoint formé par le jeu. Il montre la façon dont les règles du jeu évoluent sous l’impulsion
d’événements dialogiques produits par les interlocuteurs. En particulier, il souligne l’application
des règles de production qui permettent de spécifier des enchaînements d’actes. Cet exemple190 Chapitre 7 : Mise en œuvre du modèle
illustre également l’intervention d’événements internes relatifs à l’état du tableau de conversation.
Il présente la création d’engagements extra-dialogiques qui vont persister à l’issue du
déroulement du jeu de dialogue. Enfin, il montre à chaque étape l’exploitation du tableau de
conversation qui génère des motivations conventionnelles à la production de certains actes.
Ce premier exemple présente un jeu de dialogue de requête sur l’action
« ajouterMotCle(grippe) » qui forme le but du jeu. Il débute par un acte de contextualisation
de proposition d’entrée dans ce jeu (« Je peux vous demander de réaliser une
action ? »). De tels actes de proposition d’entrée sont toujours attendus. Un extrait de traces
est présenté ci-dessous :
Regular act prop.entrée(x, Request(ajouterMotCle(grippe)))
...
1) Fulfilling commitment: C(x, y, prop.entrée(x,Request(ajouterMotCle(grippe)))=>create(x, C(y,
x, acc.entrée(y,Request(ajouterMotCle(grippe)))|ref.entrée(y,Request(ajouterMotCle(grippe)))|
prop.entrée(y,Ys~>Request(ajouterMotCle(grippe)))|prop.entrée(y,Ys;Request(ajouterMotCle(grippe))),
Ina):ctx),Crt):ctx
2) Adding a commitment: C(y, x, acc.entrée(y, Request(ajouterMotCle(grippe)))|ref.entrée(y,
Request(ajouterMotCle(grippe)))|prop.entrée(y, Ys~>Request(ajouterMotCle(grippe)))|prop.entrée(y,
Ys;Request(ajouterMotCle(grippe))), Crt):ctx
...
3) Adding a suggested game: Request(ajouterMotCle(grippe))_g0
4) Executing internal events:
EntryConditionsReached(g0, x), EntryConditionsReached(g0, y), FullEntryConditionsReached(g0)
L’événement dialogique conduit à satisfaire un engagement pris dans le cadre du jeu de
contextualisation (ligne 1). Cette satisfaction engage l’autre interlocuteur à accepter ou à refuser
cette proposition d’entrée, ou bien à proposer un pré-séquencement ou un séquencement de jeux
de dialogue (ligne 2). L’engagement conjoint sur le jeu est établi en état Sugg (ligne 3). En outre,
des événements internes sur l’atteinte des conditions d’entrée sont générés (ligne 4). Ceux-ci n’ont
aucun effet sur le tableau courant compte-tenu de son état. Le tableau de conversation et son
exploitation sont alors les suivants :
Tours:
prop.entrée(x, g0)
Cx Cy
Cp ∅ ∅
Ca(Crt) ∅ ∅
Ca(Fal) ∅ ∅
CdA ∅ ∅
Cxy
Jeu:
Sugg. : Request(ajouterMotCle(grippe))=g0
Ouv. :
Ferm. :
Saillants : ∅
Actes attendus :
ctx, ev:
acc.entrée(y, g0) | ref.entrée(y, g0) | prop.entrée(y, Ys g0) | prop.entrée(y, Ys ; g0)
L’exploitation du tableau de conversation spécifie que les seuls actes attendus sont de la part
de l’interlocuteur y. Il s’agit pour lui d’accepter ou de refuser l’entrée dans le jeu, ou bien de7.2. Traces de fonctionnement de Dogma 191
proposer une combinaison de jeu. Le terme Ys représente une variable devant être remplacée par
une proposition de jeu valide.
L’interlocuteur y accepte alors l’entrée dans le jeu via l’acte adéquat attendu
(acc.entrée(y, g0)). Le cas du refus est présenté en annexe C.2.1.
Regular act acc.entrée(y, Request(ajouterMotCle(grippe)))
...
1) Adding an opened game: Request(ajouterMotCle(grippe))_g0
2) Loading a game: Request(ajouterMotCle(grippe))_g0
...
3) Adding a commitment: C(x, y, FailureConditionsReached(Request(ajouterMotCle(grippe))_g0, x)|
SuccessConditionsReached(Request(ajouterMotCle(grippe))_g0,x)=>create(x, C(x, y,
prop.sortie(x, Request(ajouterMotCle(grippe))), Ina):ctx), Crt):ctx
4) Adding a commitment: C(y, x, FailureConditionsReached(Request(ajouterMotCle(grippe))_g0, y)|
SuccessConditionsReached(Request(ajouterMotCle(grippe))_g0,y)=>create(y, C(y, x,
prop.sortie(y, Request(ajouterMotCle(grippe))), Ina):ctx), Crt):ctx
5) Adding a commitment: C(x, y, prop.entrée(x, Ys
5
10
15
20
25
218 Chapitre A : Annexes de l’analyse du corpus Cogni-CISMeF
30
35
40
45
50
55
60
65
70
75
A.1. Le schéma XML d’annotation pour un acte de dialogue dans Gate 219
80
85
90
95
100
105
110
115
120
125
130220 Chapitre A : Annexes de l’analyse du corpus Cogni-CISMeF
135
140
145
150
155
160
165
Listing A.1: Schéma d’annotation pour un acte de dialogue dans le processus d’annotation.A.2. Alignement entre la taxonomie d’actes de dialogue de Loisel et DIT++ 221
A.2 Alignement entre la taxonomie d’actes de dialogue de Loisel et
DIT++
Le tableau A.1 présente l’alignement entre la taxonomie proposée par Loisel [Loisel 2008]
et DIT++. Nous pouvons constater que les actes de dialogue proposés par Loisel possèdent
tous un équivalent dans DIT++. En outre, la taxonomie proposée par Loisel ne couvre que les
trois dimensions sur les dix proposées par DIT++ : Task, Auto-feedback et Social Obligation
Management.222 Chapitre A : Annexes de l’analyse du corpus Cogni-CISMeF Acte Équivalent DIT++ Acte Équivalent DIT++ Acte Équivalent DIT++ Inform Inform RequestInfo Hiérarchie Question Offer Offer RequestDirective Request Direct Instruct Suggest Suggestion Answer Answer ShortAnswer Answer Accept AcceptOffer Refuse DeclineOffer Acknowledge ExecPositiveAutoFB icm:con*neg AttentNegativeAutoFB icm:con*pos AttentPositiveAutoFB icm:per*neg PerceptNegativeAutoFB icm:per*pos PerceptPositiveAutoFB icm:sem*pos InterprPositiveAutoFB icm:sem*neg InterprNegativeAutoFB icm:und*neg EvalNegativeAutoFB icm:und*pos EvalPositiveAutoFB icm:und*chk CheckQuestion(AF) icm:acc*pos ExecPositiveAutoFB icm:acc*neg ExecNegativeAutoFB icm:acc*chk CheckQuestion(AF) Greet Initial Greeting Thanks Thanking Thanks-return Thanking-downplay InformIntent Promise Bye Initial Goodbye Tableau A.1: Alignement entre la taxonomie de Loisel [Loisel 2008] et DIT++. Les fonctions générales sont appliquées dans la dimension Task sauf si précisé autrement. AF = Auto-feedback.A.3. Annexes des résultats du processus d’annotation 223
A.3 Annexes des résultats du processus d’annotation
Ces annexes présentent des données et résultats supplémentaires du processus d’annotation.
L’annexe A.3.1 présente des dialogues annotés issus du corpus Cogni-CISMeF.
L’annexe A.3.2 fournit le détail des tours de parole (total, annoté, exclu) pour chaque entretien
du corpus.
L’annexe A.3.3 présente de plus amples détails sur l’accord inter-annotateur. Elle approfondit
la définition de précision, rappel et F-mesure. Elle affiche des résultats supplémentaires de calcul
d’accord.
L’annexe A.3.4 présente le détail de l’analyse au niveau des segments fonctionnels par corpus
(AL et VD), par entretien et par annotateur.
L’annexe A.3.5 fournit le détail de l’analyse des dimensions par corpus (AL et VD) et par
annotateur.
L’annexe A.3.6 présente la matrice de co-occurrence de dimension du corpus CogniCISMeF.
Elle décrit également des résultats de co-occurrence disponibles dans la littérature.
Enfin, l’annexe A.3.7 fournit l’analyse des fonctions communicatives par dimension.
A.3.1 Exemples de dialogues annotés du corpus Cogni-CISMeF
Cette section présente cinq exemples de dialogue. Précisons que ces exemples présentent des
annotations possibles. La tâche étant interprétative, d’autres solutions peuvent s’avérer valables.
La section A.3.1 présente deux exemples de dialogue évoluant principalement sur la dimension
Task. Le premier exemple propose un court dialogue de suggestions d’ajout de mot-clé. Il illustre
les dimensions Task et Auto-feedback. Le deuxième exemple implique les dimensions Task, Autofeedback
et Time Management. Les trois autres exemples sont situés dans la section A.3.1. Ils
illustrent des dialogues mêlant gestion de la tâche et gestion de l’interaction. Les deux premiers
dialogues impliquent les dimensions Task, Auto-feedback et Allo-feedback. Enfin, le troisième
implique cinq dimensions : Task, Auto-feedback, Allo-feedback, Turn Management et Partner
Communication Management.
Exemple de dialogue progressant sur la tâche
Le dialogue A.1 présente un exemple de dialogue évoluant sur l’avancement de la tâche et
illustrant l’enchaînement de deux suggestions. Cet extrait est annoté sur deux dimensions : Task
et Auto-feedback.
Task AutoFB
S1 : on peut enlever analyse Suggestion
A2 : alors enlevons analyse AcceptSuggestion AutoPositive
S3 : et diagnostic Suggestion
A4 : oui AcceptSuggestion
Dialogue A.1 – Exemple de dialogue annoté (entretien VD06) : une succession de deux suggestions.
Cet extrait est annoté sur deux dimensions : Task et la dimension
Auto-feedback. AutoFB = Auto-feedback
Dans le premier tour de parole (S1), l’interlocuteur S propose d’enlever le mot-clé « analyse »224 Chapitre A : Annexes de l’analyse du corpus Cogni-CISMeF
de la requête, ce qui a été annoté comme une fonction communicative Suggestion dans la dimension
Task. Dans le deuxième tour (A2), l’interlocuteur A accepte cette suggestion. Notons qu’il
fournit également un feedback positif en répétant une partie de la suggestion « enlevons analyse ».
Il s’agit d’un segment fonctionnel annoté sur deux dimensions : avec la fonction communicative
Suggestion sur la dimension Task, et la fonction communicative AutoPositive spécifique à la
dimension Auto-feedback. Il s’ensuit une seconde suggestion qui consiste à supprimer le mot-clé
« diagnostic » de la requête, annotée de la même manière que la première suggestion (tour S3).
Cette seconde suggestion est acceptée au quatrième tour de parole mais cette fois sans feedback
explicite ce qui conduit à une annotation avec la fonction AcceptSuggestion sur la dimension
Task.
Le dialogue A.2 présente un exemple de dialogue évoluant principalement sur l’avancement
de la tâche. C’est un dialogue qui intervient entre l’expert et le demandeur sur la sélection de
qualificatifs lors de la construction de la première requête. Cet exemple implique les dimensions
Task, Auto-feedback et Time Management. Dans le tour S1, l’expert définit au demandeur ce
qu’est un qualificatif. Il lui décrit la procédure de sélection de qualificatif. Puis, il demande
au demandeur de l’informer des qualificatifs intéressants. Le demandeur informe l’expert d’un
qualificatif intéressant (« chimiothérapie ») dans le tour A2. L’expert produit alors un signal
de retour et demande à l’utilisateur s’il souhaite continuer la sélection de qualificatif (tour S3).
Celui-ci accepte (tour A4). L’expert confirme la continuation de l’activité de sélection de qualificatif
bien qu’il réalise un lapsus entre « accès thématique » et « qualificatif » (tour S5). La
sélection de qualificatif continue jusqu’au tour S11. Les partenaires sélectionnent les qualificatifs
« diagnostic », « effets indésirables » et « sang ». Notons l’utilisation par l’expert de la fonction
communicative Pausing dans la dimension Time Management dans les tours S5, S7 et S9. À
chacun de ces tours, l’expert suspend le dialogue afin d’inscrire le qualificatif choisi par le demandeur.
L’expert interrompt alors la sélection de qualificatif. Il offre la possibilité au demandeur
de regarder les types de ressources spécifiques pour les patients. L’utilisateur accepte cette offre
(tour A12). Dans le tour S13, l’expert produit un feedback positif de l’acceptation de l’offre par
l’utilisateur. Il l’informe qu’il ajoute le type de ressources « patient » à la requête. Il suggère
ensuite de lancer la requête.A.3. Annexes des résultats du processus d’annotation 225
Task AutoFB Time M
S1 : et le qualificatif permet de préciser un tout petit peu
ce mot clé / donc par rapport à votre question
Inform
c’est de la même façon Inform
je vais faire dérouler le menu Inform
et vous allez me dire si vous voyez des choses Instruct
A2 : chimiothérapie Inform
S3 : alors chimiothérapie ok AutoPositive
alors vous souhaitez mettre d’autres qualificatifs CheckQuestion
A4 : oui Confirm
S5 : D’autres précisions
alors on va aller chercher / accès thématique Inform
non c’est pas accès thématique c’est qualificatif
voilà donc je mets en fait / j’inscris qualificatif Pausing
[. . . ]
A6 : diagnostic Inform
S7 : diagnostic ok AutoPositive
donc je vais aller l’écrire diagnostic Pausing
ok je continue à faire dérouler le menu de qualificatifs Inform
A8 : effets indésirables Inform
S9 : effets indésirables / ok AutoPositive
alors effets indésirables Pausing
donc je continue à faire dérouler les types de ressources
/ donc alors le menu déroulant
Inform
A10 : sang Inform
S11 : allons-y / sang AutoPositive
et de toute façon là je pense que ça va être à peu près
tout
Inform
[. . . ]
alors souhaitez-vous qu’on aille regarder dans un type
de ressource particulière relative aux associations /
base de données / bibliothèque médicale / etc / ou
quelque chose qui soit spécifique pour les patients
Offer
A12 : ouais AcceptOffer
S13 : oui AutoPositive
alors je mets type de ressource : patient Inform AutoPositive
bon on va le lancer comme ça Suggestion
Dialogue A.2 – Exemple de dialogue annoté (entretien VD02) : sélection de qualificatif dans la
construction de la première requête. La dimension Own Communication Management
a été volontairement exclue pour améliorer la lisibilité. AutoFB =
Auto-feedback, Time M = Time Management.226 Chapitre A : Annexes de l’analyse du corpus Cogni-CISMeF
Exemples de dialogues progressant sur l’axe de la tâche et de l’interaction
Le dialogue A.3 présente un exemple de demande de verbalisation du besoin d’information
du demandeur. Cet exemple implique les dimensions Task, Auto-feedback et Allo-feedback.
Task AutoFB AlloFB
S1 : alors formulez-moi une de vos demandes
alors comme en langage naturel j’allais dire
Request
A2 : vous êtes sociologue Inform
c’est ça EvalFBElicitation
S3 : moi je suis linguiste Correction
A4 : linguistique / psycho-linguistique / sociolinguistique
ChoiceQuestion
S5 : non sociolingue Answer
A6 : sociolinguistique CheckQuestion
S7 : sociolinguistique Confirm
A8 : D’accord AutoPositive
alors comment je vais formuler ma demande AcceptRequest AutoPositive
oui je dois simplement poser une question CheckQuestion
S9 : oui vous me posez une question Confirm AutoPositive
Dialogue A.3 – Exemple de dialogue annoté (entretien VD05) : demande de verbalisation du
besoin d’information. AutoFB = Auto-feedback, AlloFB = Allo-feedback.
L’expert demande à l’utilisateur de verbaliser sa demande (tour S1). Le demandeur ne considère
pas cette requête avant le tour A8. Avant cela, il affirme la profession de l’expert et lui
demande d’évaluer son assertion (tour A2). Une analyse alternative peut considérer ce tour
comme étant une CheckQuestion. L’expert corrige l’utilisateur en lui précisant qu’il est linguiste
(tour S3). Le demandeur surenchérit en interrogeant l’expert sur son champ d’étude (tour A4).
L’expert lui répond qu’il est « sociolingue » (tour S5). S’ensuit un sous-dialogue de clarification
(tours A6, S7 et A8) où l’utilisateur demande à l’expert de confirmer qu’il appartient au champ
de la sociolinguistique (tour A6). Ce que l’expert fait (tour S7). Le demandeur produit un signal
de retour positif (tour A8). Il considère dans le même tour la requête initiale. Il demande alors
à l’expert de lui confirmer s’il doit énoncer son besoin d’information sous forme de question. Ce
dernier lui confirme (tour S9).
Le dialogue A.4 implique les dimensions Task, Auto-feedback et Allo-feedback.A.3. Annexes des résultats du processus d’annotation 227
Task AutoFB AlloFB
S1 : qu-est-ce que vous entendez par problèmes avec la
nourriture ?
SetQuestion
A2 : euh : la relation qu’une personne peut entretenir vis-
à-vis du fait d’ingérer des aliments
Answer
donc typiquement j’ai pensé à l’anorexie mais bon Inform
S3 : d’accord AutoPositive
A4 : mais peut-être que c’est euh trop spécifique ? CheckQuestion
S5 : donc l’anorexie et les problèmes du même genre ? CheckQuestion
A6 : oui Confirm
S7 : donc on va essayer de trouver euh : en tapant anorexie
déjà
Suggestion
Dialogue A.4 – Exemple de dialogue annoté (entretien AL07) : question/réponse suivie de clarifications.
La dimension Time Management a été volontairement exclue pour
améliorer la lisibilité. AutoFB = Auto-feedback, AlloFB = Allo-feedback.
Les trois premiers tours présentent un exemple d’un échange question/réponse (tour S1 et
début du tour A2) suivi d’un don d’information spontané (fin du tour A2). Dans le tour A4,
l’utilisateur pose une question à l’expert qui ne sera jamais considérée. L’expert demande en
contrepartie une confirmation de l’information donnée par le demandeur en A2 (tour S5). Ce
que l’utilisateur lui fournit (tour A6). L’expert suggère alors de lancer la requête avec le mot-clé
« anorexie » (tour S7).
Le dialogue A.5 propose l’annotation du dialogue 5.1 que nous avons déjà rencontré en section
5.1.1. Il implique les dimensions Task, Auto-feedback, Allo-feedback, Turn Management et
Partner Communication Management. Dans le premier tour de parole de ce dialogue, l’utilisateur
(S) demande à l’expert (A) de garder les mots-clés « membres inférieurs » et « néphrite ».
Les interlocuteurs sont interrompus par un problème technique. Ce problème est verbalisé par
le début du tour A2 de l’expert. Dans la suite du dialogue, l’expert va accepter la requête
du demandeur en la répétant (tours A2, A4, A6). Ces trois tours forment le même segment
fonctionnel. Ils sont tous annotés avec la fonction AcceptRequest sur la dimension Task, et la
fonction AutoPositive sur la dimension Auto-feedback (puisqu’en répétant la requête, l’interlocuteur
donne un feedback positif). Le segment fonctionnel est interrompu par l’autre interlocuteur
dans le tour S3 qui l’informe de faire attention. Ce tour est annoté par une fonction Inform
sur la dimension Task associée à une prise de tour de parole via la fonction Turn Grab de la
dimension Turn Management. Le demandeur interrompt de nouveau l’expert dans le tour S5.
Dans celui-ci, il valide la compréhension de la requête par l’expert, i.e. il donne son avis sur les
processus de l’expert engagés dans la compréhension du tour S1. Ce retour positif est annoté
comme une fonction AlloPositive dans la dimension Allo-feedback. Ce retour est associé à une
prise de parole inattendue (Turn Grab). Le demandeur réalise la même opération au tour S7 à
l’exception de la prise de parole qui est implicitée par une complétion (annotée par la fonction
Completion dans la dimension Partner Communication Management). Pour finir, l’expert produit
un retour positif de la complétion du demandeur (tour A8). Il suggère alors de lancer la
requête.228 Chapitre A : Annexes de l’analyse du corpus Cogni-CISMeF Task AutoFB AlloFB Turn M PCM S1 : [. . . ] on va garder membres inférieurs / on va garder néphrite et Request A2 : pourquoi / bon c’est pas grave je vais revenir en disant que ça m’est déjà arrivée / dans ce cas là je vais vous noter en 009bis et je serais que c’est vous / donc on a dit qu’on mettait AcceptRequest AutoPositive S3 : attention Inform Turn Grab A4 : néphrite AcceptRequest AutoPositive S5 : ouais AlloPositive Turn Grab A6 : et qu’on gardait AcceptRequest AutoPositive S7 : membres inférieurs AlloPositive Completion A8 : D’accord AutoPositive alors allons-y Suggestion Dialogue A.5 – Exemple de dialogue annoté (VD08) : segment fonctionnel sur plusieurs tours de parole. En italique est représentée la verbalisation du problème technique survenu. Le texte en bleu représente le segment fonctionnel sur plusieurs tours. AutoFB = Auto-feedback, AlloFB = Allo-feedback, Turn M = Turn Management, PCM = Partner Communication Management.A.3. Annexes des résultats du processus d’annotation 229
A.3.2 Proportion des tours de parole annotés
Cette annexe fournit le détail des tours de parole (total, annoté, exclu) pour chaque entretien
du corpus. Le tableau A.2 présente l’analyse pour le corpus AL tandis que le tableau A.3 présente
les résultats pour le corpus VD. Les tours de parole peuvent être exclus parce qu’ils font partie
d’une discussion libre hors du cadre CISMeF (ligne « Hors CISMeF ») ou parce qu’ils ne sont
pas interprétables compte tenu des indices (ligne « Incompréhensible »). On peut remarquer
que les tours « Hors CISMeF » et « incompréhensibles » interviennent principalement dans le
corpus VD.
AL02 AL03 AL04 AL05 AL06 AL07 AL09 AL10 AL11 AL12
Tours 11 19 22 32 23 36 43 43 12 30 271
Annoté 11 19 22 32 23 34 43 43 12 30 269 (99%)
Hors CISMeF 0 0
Incompréhensible 2 2 (1%)
Tableau A.2: Proportion des tours de parole annotés sur le corpus AL
VD02 VD03 VD04 VD05 VD06 VD07 VD08 VD09
Tours 70 149 91 253 189 107 196 119 1174
Annoté 42 102 56 184 131 81 116 75 787 (67%)
Hors CISMeF 0 0 23 65 56 14 80 28 266 (23%)
Incompréhensible 28 47 12 4 2 12 0 16 121 (10%)
Tableau A.3: Proportion des tours de parole annotés sur le corpus VD
A.3.3 Accords inter-annotateur
Calcul de l’accord inter-annotateur en terme de précision, rappel et F-measure
L’accord inter-annotateur en terme de précision, rappel et F-measure permet de comparer
deux ensembles d’annotation : l’ensemble de référence et l’ensemble de comparaison. Une annotation
de l’ensemble de comparaison est dite correcte si elle est présente dans l’ensemble de
référence. La précision mesure le nombre d’annotation correcte identifiée dans l’ensemble de
comparaison proportionnellement au nombre total d’annotation de cet ensemble. Une précision
élevée indique une inclusion forte des annotations de l’ensemble de comparaison dans l’ensemble
des annotations de référence. Le rappel mesure le nombre d’annotation correcte identifiée dans
l’ensemble de comparaison proportionnellement au nombre total d’annotation de l’ensemble
de référence. Un rappel élevé indique qu’un nombre important d’annotation de l’ensemble de
référence appartient également à l’ensemble de comparaison. Il est nécessaire d’associer une
pondération entre précision et rappel. En effet, il est facile d’obtenir une précision de 100% (il
suffit de ne rien identifier) ou un rappel maximum (il suffit d’annoter l’ensemble des annotations
possibles). La F-mesure est généralement utilisée afin de pondérer précision et rappel. Précision,
rappel et F-mesure sont calculés de la manière suivante :
Precision =
Correct + 1
2
Partial
Correct + Spurious + Partial
Recall =
Correct + 1
2
Partial
Correct + Missing + Partial230 Chapitre A : Annexes de l’analyse du corpus Cogni-CISMeF
F-measure = (β
2 + 1)P × R
(β
2P) + R
« Correct » représente le nombre d’annotation appartenant aux deux ensembles (référence et
comparaison). « Partial » représente le nombre d’annotation se chevauchant entre l’ensemble de
référence et l’ensemble de comparaison (voir ci-après). « Missing » représente le nombre d’annotation
appartenant à l’ensemble de référence et n’appartenant pas à l’ensemble de comparaison.
« Spurious » représente le nombre d’annotation appartenant à l’ensemble de comparaison et
n’appartenant pas à l’ensemble de référence.
Le paramètre β dans le calcul de la F-measure peut être fixé, par exemple, de la manière
suivante :
— β = 1, la précision et le rappel sont pondérés de façon égale (F1 score)
— β = 0.5, la précision pèse deux fois plus que le rappel
— β = 2, le rappel pèse deux fois plus que la précision
Notons que les annotations partielles peuvent être considérées selon trois catégories : strict,
lenient et average. Celles-ci varient par leur façon de considérer dans le calcul de la précision
et du rappel les annotations qui se chevauchent sans se confondre. Le mode strict considère
les annotations qui se chevauchent comme incorrectes alors que le mode lenient les considère
correctes. Le mode average est une moyenne des deux modes précédents.
Scores Accord
≥ 0, 85 Accord fort
Entre 0, 70 et 0, 85 Accord fiable
Entre 0, 5 et 0, 7 Accord modéré
< 0, 5 Accord faible
Tableau A.4: Relation entre accord et valeur de l’IAA
Le tableau A.4 présente le lien entre accord et valeur des scores de précision, rappel et
F-mesure que nous avons fixé.
Accord inter-annotateur sur la segmentation par corpus
Le tableau A.5 fournit le calcul de l’IAA pour le corpus AL tandis que le tableau A.6 fournit
le calcul de l’IAA pour le corpus VD. On peut noter que les scores du corpus VD sont légèrement
plus élevés que ceux du corpus AL.
Strict Lenient Average
R P F R P F R P F
0,91 0,91 0,91 0,97 0,97 0,97 0,94 0,94 0,94
Tableau A.5: Accord inter-annotateur pour la tâche de segmentation sur le corpus AL. R = Rappel, P
= Précision, F = F-measure (F1 score).A.3. Annexes des résultats du processus d’annotation 231
Strict Lenient Average
R P F R P F R P F
0,95 0,96 0,95 0,97 0,99 0,98 0,96 0,98 0,97
Tableau A.6: Accord inter-annotateur pour la tâche de segmentation sur le corpus VD. R = Rappel, P
= Précision, F = F-measure (F1 score).
Accord inter-annotateur sur la segmentation et l’étiquetage par corpus
Le tableau A.7 présente l’accord inter-annotateur pour les tâches de segmentation et d’étiquetage
par dimension sur le corpus AL. En comparaison des résultats globaux (cf. section 5.1.3),
le corpus démontre des scores nettement plus faibles dans les dimensions Turn Management et
SOM. Les scores restent globalement supérieurs à 0.72, dénotant un accord fiable.
Strict Lenient Average
Dimension R P F R P F R P F Prop.
Task 0,77 0,78 0,78 0,82 0,83 0,82 0,8 0,8 0,8 65,93%
Time Management 0,78 0,8 0,79 0,87 0,9 0,88 0,82 0,85 0,84 17,29%
Auto-Feedback 0,72 0,71 0,72 0,76 0,75 0,76 0,74 0,73 0,74 6,07%
OCM 0,36 0,39 0,38 0,44 0,47 0,45 0,4 0,43 0,42 5,22%
Turn Management 0,22 0,59 0,32 0,24 0,65 0,35 0,23 0,62 0,34 2,86%
PCM 0,7 0,78 0,74 0,8 0,89 0,84 0,75 0,83 0,79 0,84%
Discourse Structuring 0,57 0,5 0,53 0,71 0,62 0,67 0,64 0,56 0,6 0,57%
Allo-Feedback 0,43 0,6 0,5 0,43 0,6 0,5 0,43 0,6 0,5 0,49%
Contact Management 0,6 0,6 0,6 1 1 1 0,8 0,8 0,8 0,42%
SOM 0 0 0 0,25 1 0,4 0,12 0,5 0,2 0,31%
Global 0,72 0,75 0,74 0,78 0,82 0,8 0,75 0,78 0,77
Tableau A.7: Accord inter-annotateur pour les tâches de segmentation et d’étiquetage par dimension
sur le corpus AL. R = Rappel, P = Précision, F = F-measure (F1 score). OCM = Own Communication
Management, PCM = Partner Communication Management, SOM = Social Obligation Management.
Le tableau A.8 présente l’accord inter-annotateur pour les tâches de segmentation et d’étiquetage
par dimension sur le corpus VD. Les résultats sont comparables aux résultats globaux
(cf. section 5.1.3). Les scores restent globalement supérieurs à 0.8, dénotant un accord fiable.232 Chapitre A : Annexes de l’analyse du corpus Cogni-CISMeF
Strict Lenient Average
Dimension R P F R P F R P F Prop.
Task 0,86 0,87 0,87 0,88 0,89 0,88 0,87 0,88 0,88 69,98%
Auto-Feedback 0,79 0,84 0,81 0,81 0,86 0,83 0,8 0,85 0,82 11,83%
OCM 0,41 0,52 0,46 0,45 0,57 0,5 0,43 0,55 0,48 5,38%
Time Management 0,7 0,75 0,73 0,71 0,76 0,74 0,71 0,76 0,73 4,74%
Turn Management 0,46 0,78 0,58 0,49 0,84 0,62 0,48 0,81 0,6 2,68%
SOM 0,48 0,7 0,57 0,5 0,74 0,6 0,49 0,72 0,58 1,80%
Allo-Feedback 0,64 0,51 0,57 0,68 0,54 0,6 0,66 0,53 0,59 1,69%
PCM 0,88 0,96 0,92 0,88 0,96 0,92 0,88 0,96 0,92 1,28%
Contact Management 1 0,38 0,55 1 0,38 0,55 1 0,38 0,55 0,30%
Discourse Structuring 0,8 0,67 0,73 0,8 0,67 0,73 0,8 0,67 0,73 0,29%
Global 0,8 0,83 0,81 0,81 0,85 0,83 0,8 0,84 0,82
Tableau A.8: Accord inter-annotateur pour les tâches de segmentation et d’étiquetage par dimension
sur le corpus VD. R = Rappel, P = Précision, F = F-measure (F1 score). OCM = Own Communication
Management, PCM = Partner Communication Management, SOM = Social Obligation Management.
Accord inter-annotateur sans impact hiérarchique
Le calcul de l’IAA ne prend pas en compte les propriétés taxonomiques de DIT++. Pour
étudier l’impact de ces propriétés, nous avons re-calculé l’IAA en considérant que toutes les
fonctions partageant la même racine sont équivalentes (cf. figures 1.1 et 1.2, p. 25). Par exemple,
une Check Question et une Propositional Question sont vues comme équivalentes. Notons que
cette méthode réalise des équivalences abusives. Une fonction Correction est ainsi équivalente à
un Answer. Les résultats de ce nouveau calcul sont présentés dans le tableau A.9. Trois dimensions
voient leur score augmenter (les autres restant inchangées). La dimension Task et Allo-feedback
augmentent légèrement leur F-mesure de 0.02 point (en mode average). La dimension OCM voit
ses scores considérablement croître. En mode average, sa précision passe à 0.62, son rappel à
0.72 et sa F-mesure à 0.67 atteignant ainsi un accord modéré haut.A.3. Annexes des résultats du processus d’annotation 233
Strict Lenient Average
Dimension R P F R P F R P F
Task 0,85 0,86 0,86 0,89 0,9 0,89 0,87 0,88 0,88
Time Management 0,75 0,8 0,77 0,81 0,86 0,83 0,78 0,83 0,8
Auto-Feedback 0,79 0,82 0,8 0,81 0,84 0,83 0,8 0,83 0,81
OCM 0,59 0,68 0,63 0,66 0,76 0,71 0,62 0,72 0,67
Turn Management 0,37 0,73 0,49 0,41 0,8 0,54 0,39 0,76 0,51
Allo-Feedback 0,63 0,54 0,58 0,69 0,59 0,63 0,66 0,56 0,61
SOM 0,43 0,69 0,53 0,48 0,76 0,59 0,46 0,72 0,56
PCM 0,86 0,91 0,89 0,86 0,91 0,89 0,86 0,91 0,89
Discourse Structuring 0,67 0,57 0,62 0,75 0,64 0,69 0,71 0,61 0,65
Contact Management 0,67 0,46 0,55 0,89 0,62 0,73 0,78 0,54 0,64
Global 0,8 0,83 0,81 0,83 0,87 0,85 0,81 0,85 0,83
Tableau A.9: Accord inter-annotateur pour les tâches de segmentation et d’étiquetage par dimension sans
impact hiérarchique. R = Rappel, P = Précision, F = F-measure (F1 score). OCM = Own Communication
Management, PCM = Partner Communication Management, SOM = Social Obligation Management.
A.3.4 Analyse au niveau des segments fonctionnels
Cette annexe présente le détail de l’analyse au niveau des segments fonctionnels par corpus
(AL et VD), par entretien et par annotateur. Chaque tableau présente le nombre de fonctions
annotées, le nombre de segments et le ratio du nombre de fonction par segment. Le tableau A.10
présente les résultats pour l’annotation du corpus AL par l’annotateur 1. Le tableau A.11 pré-
sente les résultats pour l’annotation du corpus AL par l’annotateur 2. Le tableau A.12 présente
les résultats pour l’annotation du corpus VD par l’annotateur 1. Le tableau A.13 présente les
résultats pour l’annotation du corpus VD par l’annotateur 2.
AL02 AL03 AL04 AL05 AL06 AL07 AL09 AL10 AL11 AL12 Total
Fonctions 83 51 154 152 167 128 179 184 93 149 1340
Segments 68 45 134 127 134 112 148 156 69 134 1127
Fonctions / Segment 1,22 1,13 1,15 1,20 1,25 1,14 1,21 1,18 1,35 1,11 1,19
Tableau A.10: Nombre de fonctions communicatives et de segments fonctionnels pour chaque entretien
du corpus AL pour l’annotateur 1
AL02 AL03 AL04 AL05 AL06 AL07 AL09 AL10 AL11 AL12 Total
Fonctions 70 54 143 156 167 115 175 171 100 134 1285
Segments 67 49 136 128 137 111 147 150 72 130 1127
Fonctions / Segment 1,05 1,10 1,05 1,22 1,22 1,04 1,19 1,14 1,39 1,03 1,14
Tableau A.11: Nombre de fonctions communicatives et de segments fonctionnels pour chaque entretien
du corpus AL pour l’annotateur 2234 Chapitre A : Annexes de l’analyse du corpus Cogni-CISMeF
VD02 VD03 VD04 VD05 VD06 VD07 VD08 VD09 Total
Fonctions 154 251 176 365 318 194 247 199 1904
Segments 134 235 159 315 248 178 202 160 1631
Fonctions / Segment 1,15 1,07 1,11 1,16 1,28 1,09 1,22 1,24 1,17
Tableau A.12: Nombre de fonctions communicatives et de segments fonctionnels pour chaque entretien
du corpus VD pour l’annotateur 1
VD02 VD03 VD04 VD05 VD06 VD07 VD08 VD09 Total
Fonctions 143 229 172 345 297 192 243 193 1814
Segments 133 227 160 310 242 178 192 159 1601
Fonctions / Segment 1,08 1,01 1,08 1,11 1,23 1,08 1,27 1,21 1,13
Tableau A.13: Nombre de fonctions communicatives et de segments fonctionnels pour chaque entretien
du corpus VD pour l’annotateur 2
A.3.5 Analyse au niveau des dimensions
Cette annexe fournit le détail de l’analyse des dimensions par corpus (AL et VD) et par annotateur.
Les tableaux A.14 présentent la proportion de fonctions annotées dans chaque dimension
et pour chaque annotateur pour le corpus AL. Ils font également apparaître la synthèse pour le
corpus AL. Les tableaux A.15 présentent la proportion de fonctions annotées dans chaque dimension
et pour chaque annotateur pour le corpus VD. Ils font également apparaître la synthèse
pour le corpus VD.
De manière intéressante, les corpus AL et VD font ressortir les quatre mêmes dimensions
majoritaires sans variation significative entre les annotateurs. Une différence notable entre les
deux corpus concerne la dimension Time Management. Cette dernière est nettement plus pré-
sente dans le corpus AL (17.29%) que dans le corpus VD (4.74%). Ce phénomène s’explique par
les longs tours de parole de l’expert AL qui impose l’usage de segments pour combler les temps
d’attente (e.g., « euh », « alors »). En outre, le corpus VD possède proportionnellement plus
de fonctions dans la dimension Auto-feedback (11.83%) que le corpus AL (6.07%). Cela s’explique
par les interventions plus fréquentes du demandeur dans ce corpus qui nécessitent l’usage
de feedbacks afin d’assurer la compréhension mutuelle. Les deux autres dimensions principales
(Task et OCM) interviennent dans les mêmes proportions.A.3. Annexes des résultats du processus d’annotation 235
(a) Détail par annotateur pour le corpus AL
Annotateur 1 Annotateur 2 Total
Allo-Feedback 0.52% 0.47% 0.49%
Auto-Feedback 5.83% 6.32% 6.07%
Contact Management 0.44% 0.39% 0.42%
Discourse Structuring 0.52% 0.62% 0.57%
Own Communication Management 5.15% 5.29% 5.22%
Partner Communication Management 0.83% 0.84% 0.84%
Social Obligations Management 0.46% 0.15% 0.31%
Task 64.84% 67.08% 65.93%
Time Management 17.46% 17.11% 17.29%
Turn Management 3.95% 1.72% 2.86%
(b) Synthèse pour le corpus AL
Dimension Proportion
Task 65.93%
Time Management 17.29%
Auto-Feedback 6.07%
OCM 5.22%
Turn Management 2.86%
PCM 0.84%
Discourse Structuring 0.57%
Allo-Feedback 0.49%
Contact Management 0.42%
SOM 0.31%
Tableau A.14: Proportions de fonctions par dimension dans le corpus AL par annotateur et au total236 Chapitre A : Annexes de l’analyse du corpus Cogni-CISMeF
(a) Détail par annotateur pour le corpus VD
Annotateur 1 Annotateur 2 Total
Allo-Feedback 1, 45% 1, 93% 1, 69%
Auto-Feedback 11, 92% 11, 73% 11, 83%
Contact Management 0, 15% 0, 45% 0, 30%
Discourse Structuring 0, 26% 0, 33% 0, 29%
Own Communication Management 5, 89% 4, 85% 5, 38%
Partner Communication Management 1, 29% 1, 26% 1, 28%
Social Obligations Management 2, 10% 1, 49% 1, 80%
Task 68, 79% 71, 22% 69, 98%
Time Management 4, 78% 4, 69% 4, 74%
Turn Management 3, 30% 2, 04% 2, 68%
(b) Synthèse pour le corpus VD
Dimension Proportion
Task 69.98%
Auto-Feedback 11.83%
OCM 5.38%
Time Management 4.74%
Turn Management 2.68%
SOM 1.80%
Allo-Feedback 1.69%
PCM 1.28%
Contact Management 0.30%
Discourse Structuring 0.29%
Tableau A.15: Proportions de fonctions par dimension dans le corpus VD par annotateur et au total
A.3.6 Co-occurrence des dimensions
Le tableau A.16 présente la matrice de co-occurrence de dimension pour le corpus CogniCISMeF.
Chaque ligne affiche le nombre relatif de fois qu’un segment fonctionnel contenant une
fonction dans la dimension en tête de ligne possède également une fonction dans la dimension
en colonne.
Nous obtenons les co-occurrences suivantes pour les cinq dimensions principales (ordonnées
par proportion d’occurrence décroissante) :
Task : Own Communication Management, Time Management, Auto-feedback, Turn Management.
Auto-feedback : Task, Partner Communication Management, Turn Management, Time Management.
Time Management : Task, Turn Management, Own Communication Management, Autofeedback.
Own Communication Management : Task, Time Management, Turn Management.A.3. Annexes des résultats du processus d’annotation 237
Turn Management : Task, Time Management, Own Communication Management, Partner
Communication Management.
Le corpus AMI obtient les co-occurrences de dimensions suivantes (ordonnées par proportion
d’occurrence décroissante) [Bunt 2009]
1
:
Task : Turn Management, Own Communication Management, Social Obligation Management,
Auto-feedback
Auto-feedback : Turn Management, Task, Time Management, Discourse Structuring
Time Management : Task, Turn Management, Auto-feedback
Own Communication Management : Task, Turn Management
Turn Management : Time Management, Task, Auto-feedback, Own Communication
Management, Allo-feedback
De manière intéressante, nous pouvons constater que 14 dimensions sur 18 se recoupent avec
nos résultats de co-occurrence (soit environ 78%).
A.3.7 Analyse au niveau des fonctions communicatives
Cette annexe fournit l’analyse des fonctions communicatives qui interviennent dans les 10
dimensions de DIT++ (i.e. Task, Time Management, Own Communication Management, Autofeedback,
Turn Management, Allo-feedback, Social Obligation Management, Partner Communication
Management, Discourse Structuring et Contact Management).
Dimension Task
Les tableaux A.17 présentent la proportion de fonctions annotées observée dans la dimension
Task pour l’expert et le demandeur. Le tableau A.18 informe de la proportion de fonctions
annotées observée dans la dimension Task de manière globale.
Le tableau A.19 présente la considération verbale des fonctions d’initiative d’action (suggestion,
requête, offre) produites par l’expert ou par le demandeur. Il est intéressant de noter que
la considération verbale des initiatives de l’expert est rare (14% pour les suggestions, 29% pour
les requêtes et 30% pour les offres). Ces faibles chiffres peuvent s’expliquer par (i) l’absence
des indices non verbaux (e.g., l’initiative est acceptée ou refusée par un mouvement de la tête)
(ii) la position dominante de l’expert dans l’expérimentation qui suggère une action et la réalise
en supposant l’accord du demandeur. Au contraire, il est essentiel de remarquer que la considé-
ration verbale des initiatives du demandeur est élevée (73% pour les suggestions, 79% pour les
requêtes et 100% pour les offres).
1. En gras, nous représentons les co-occurrences également présentes dans notre corpus238 Chapitre A : Annexes de l’analyse du corpus Cogni-CISMeF Task Auto-F. Allo-F. Turn M. Time M. DS Contact M. OCM PCM SOM Task 2.63% 0.11% 2.38% 5.13% 0.14% 0.09% 6.20% 0.66% 0.11% Auto-Feedback 18.83% 0.00% 1.79% 1.46% 0.00% 0.00% 0.65% 1.95% 0.49% Allo-Feedback 6.58% 0.00% 3.95% 1.32% 0.00% 0.00% 5.26% 6.58% 0.00% Turn Management 53.57% 5.61% 1.53% 19.39% 0.51% 2.04% 3.57% 3.57% 1.53% Time Management 33.28% 1.33% 0.15% 5.60% 0.00% 0.00% 5.45% 0.15% 0.29% Discourse Structuring 22.22% 0.00% 0.00% 3.70% 0.00% 11.11% 0.00% 0.00% 7.41% Contact Management 16.67% 0.00% 0.00% 16.67% 0.00% 12.50% 8.33% 0.00% 0.00% OCM 70.18% 1.03% 1.03% 1.80% 9.51% 0.00% 0.51% 0.00% 1.29% PCM 37.18% 15.38% 6.41% 8.97% 1.28% 0.00% 0.00% 0.00% 0.00% SOM 6.25% 3.75% 0.00% 3.75% 2.50% 2.50% 0.00% 6.25% 0.00% Tableau A.16: Co-occurrence des dimensions dans le corpus Cogni-CISMeF. Chaque ligne affiche le nombre relatif de fois qu’un segment fonctionnel contenant une fonction dans la dimension en tête de ligne possède également une fonction dans la dimension en colonne. DS = Discourse Structuring, OCM = Own Communication Management, PCM = Partner Communication Management, SOM = Social Obligation Management.A.3. Annexes des résultats du processus d’annotation 239
(a) Expert
Fonction Prop. globale
Inform 38.20%
Suggestion 13.40%
Offer 3.00%
Check Question 2.40%
Agreement 1.60%
AcceptSuggestion 1.50%
Set Question 1.26%
Request 1.10%
AcceptRequest 0.90%
Answer 0.90%
Instruct 0.80%
Promise 0.70%
Choice Question 0.40%
Confirm 0.40%
Disconfirm 0.40%
Nega-check 0.30%
Propositional Question 0.30%
Correction 0.20%
DeclineSuggestion 0.20%
Posi-check 0.20%
AcceptOffer 0.00%
Address Request 0.00%
DeclineRequest 0.00%
Disagreement 0.00%
(b) Demandeur
Fonction Prop. globale
Inform 29.80%
Suggestion 6.40%
Agreement 5.10%
AcceptSuggestion 4.60%
Answer 4.60%
Confirm 3.50%
Request 3.40%
Check Question 2.90%
Set Question 1.55%
AcceptOffer 1.50%
Disconfirm 1.50%
DeclineOffer 0.90%
AcceptRequest 0.60%
Correction 0.40%
DeclineSuggestion 0.40%
Disagreement 0.40%
Address Offer 0.20%
Address Request 0.20%
Address Suggestion 0.20%
Choice Question 0.20%
Propositional Question 0.20%
DeclineRequest 0.10%
Instruct 0.10%
Offer 0.10%
Posi-check 0.10%
Tableau A.17: Répartition des fonctions dans la dimension Task240 Chapitre A : Annexes de l’analyse du corpus Cogni-CISMeF
Fonction Prop. globale
Inform 36.00%
Suggestion 11.50%
Agreement 2.50%
Check Question 2.50%
AcceptSuggestion 2.30%
Offer 2.30%
Answer 1.90%
Request 1.70%
Set Question 1.34%
Confirm 1.20%
AcceptRequest 0.80%
Disconfirm 0.70%
Instruct 0.60%
Promise 0.50%
AcceptOffer 0.40%
Choice Question 0.40%
Correction 0.30%
Propositional Question 0.30%
DeclineOffer 0.20%
DeclineSuggestion 0.20%
Nega-check 0.20%
Posi-check 0.20%
Address Request 0.10%
Address Suggestion 0.10%
Disagreement 0.10%
Address Offer 0.00%
DeclineRequest 0.00%
Tableau A.18: Répartition globale des fonctions dans la dimension Task
(a) Initiative par l’expert, considération
par le demandeur
Fonction Total Considérée
Suggestion 623 88
Request 49 14
Offer 141 43
(b) Initiative par le demandeur, considération
par l’expert
Fonction Total Considérée
Suggestion 107 78
Request 57 45
Offer 2 2
Tableau A.19: Considération verbale des fonctions initiatives d’action
Dimension Time Management
Les tableaux A.20 présentent la proportion de fonctions annotées observée dans la dimension
Time Management pour l’expert et le demandeur et de manière globale. Cette dimension
s’illustre par une majorité écrasante de Stalling aussi bien pour l’expert que le demandeur.A.3. Annexes des résultats du processus d’annotation 241
(a) Expert
Fonction Prop. globale
Stalling 10.20%
Pausing 1.70%
Inform 0.10%
(b) Demandeur
Fonction Prop. globale
Stalling 4.10%
Pausing 0.20%
Inform 0.10%
(c) Global
Fonction Prop. globale
Stalling 8.60%
Pausing 1.30%
Inform 0.10%
Tableau A.20: Répartition des fonctions dans la dimension Time Management
Dimension Own Communication Management
Les tableaux A.21 présentent la proportion de fonctions annotées observée dans la dimension
Own Communication Management pour l’expert et le demandeur et de manière globale. Cette
dimension s’illustre par l’usage de deux fonctions Self-correction et Retraction de la part de
l’expert et du demandeur.
(a) Expert
Fonction Prop. globale
Self-correction 2.90%
Retraction 2.30%
Error signaling 0.00%
(b) Demandeur
Fonction Prop. globale
Self-correction 3.60%
Retraction 2.00%
(c) Global
Fonction Prop. globale
Self-correction 3.10%
Retraction 2.20%
Error signaling 0.00%
Tableau A.21: Répartition des fonctions dans la dimension Own Communication Management
Dimension Auto-feedback
Les tableaux A.22 présentent la proportion de fonctions annotées observée dans la dimension
Auto-feedback pour l’expert et le demandeur et de manière globale. Cette dimension s’illustre
par une majorité écrasante de feedback positif sous-spécifié (AutoPositive).242 Chapitre A : Annexes de l’analyse du corpus Cogni-CISMeF
(a) Expert
Fonction Prop. globale
AutoPositive 8.70%
Check Question 0.30%
EvalPositiveAutoFeedback 0.10%
ExecNegativeAutoFeedback 0.10%
Inform 0.10%
PerceptNegativeAutoFeedback 0.10%
Posi-check 0.10%
Set Question 0.10%
AutoNegative 0.00%
EvalPositiveAlloFeedback 0.00%
InterprPositiveAutoFeedback 0.00%
PerceptPositiveAutoFeedback 0.00%
(b) Demandeur
Fonction Prop. globale
AutoPositive 7.40%
Check Question 0.30%
EvalPositiveAutoFeedback 0.20%
AutoNegative 0.10%
ExecNegativeAutoFeedback 0.10%
InterprNegativeAutoFeedback 0.10%
PerceptNegativeAutoFeedback 0.10%
Posi-check 0.10%
(c) Global
Fonction Prop. globale
AutoPositive 8.40%
Check Question 0.30%
EvalPositiveAutoFeedback 0.10%
ExecNegativeAutoFeedback 0.10%
Inform 0.10%
PerceptNegativeAutoFeedback 0.10%
Posi-check 0.10%
Set Question 0.10%
AutoNegative 0.00%
InterprNegativeAutoFeedback 0.00%
InterprPositiveAutoFeedback 0.00%
PerceptPositiveAutoFeedback 0.00%
Tableau A.22: Répartition des fonctions dans la dimension Auto-feedback
Dimension Turn Management
Les tableaux A.23 présentent la proportion de fonctions annotées observée dans la dimension
Turn Management pour l’expert et le demandeur et de manière globale. Les fonctions
apparaissant dans cette dimension sont majoritairement des fonctions spécifiques. Notons que
le demandeur réalise la majorité des prises de parole intempestives (Turn Grab). Ceci s’explique
par le fait que l’expert parle beaucoup. Il doit en effet mener la recherche en tant que spécialiste
de CISMeF et également verbaliser ce qu’il fait pour l’expérimentation. Le demandeur est donc
amené à interrompre l’expert pour s’exprimer. Cette remarque se vérifie également par l’usage
de fonctions dans la dimension Partner Communication Management.A.3. Annexes des résultats du processus d’annotation 243
(a) Expert
Fonction Prop. globale
Turn Keep 0.80%
Turn Grab 0.60%
Turn Assign 0.20%
Turn Release 0.10%
Agreement 0.00%
Turn Take 0.00%
(b) Demandeur
Fonction Prop. globale
Turn Grab 4.50%
Turn Release 0.30%
Turn Assign 0.20%
Turn Take 0.20%
Turn Keep 0.10%
(c) Global
Fonction Prop. globale
Turn Grab 1.70%
Turn Keep 0.60%
Turn Assign 0.20%
Turn Release 0.10%
Turn Take 0.10%
Agreement 0.00%
Tableau A.23: Répartition des fonctions dans la dimension Turn Management
Dimension Allo-feedback
Les tableaux A.24 présentent la proportion de fonctions annotées observée dans la dimension
Allo-feedback pour l’expert et le demandeur et de manière globale. Cette dimension est faiblement
représentée dans notre corpus. Elle va de pair avec la dimension Auto-feedback lors de
mauvaises compréhension. Globalement, c’est l’usage de signaux de retour positif sous-spécifiés
(AlloPositive) et de confirmation aux questions de vérification dans la dimension Auto-feedback
qui est majoritaire. Notons la présence de fonctions permettant la demande de retours sur ce
qui a été dit (EvalFBElicitation) illustrées par l’exemple suivant : « C’est quand même une belle
maladie ça, non ? » (VD04).244 Chapitre A : Annexes de l’analyse du corpus Cogni-CISMeF
(a) Expert
Fonction Prop. globale
AlloPositive 0.20%
Confirm 0.10%
EvaluationFeedbackElicitation 0.10%
Request 0.10%
AlloNegative 0.00%
Answer 0.00%
Set Question 0.00%
(b) Demandeur
Fonction Prop. globale
Confirm 0.80%
AlloPositive 0.70%
Answer 0.40%
EvaluationFeedbackElicitation 0.40%
Disconfirm 0.20%
Inform 0.20%
AttentionFeedbackElicitation 0.10%
Check Question 0.10%
InterprNegativeAlloFeedback 0.10%
(c) Global
Fonction Prop. globale
AlloPositive 0.30%
Confirm 0.30%
EvaluationFeedbackElicitation 0.20%
Answer 0.10%
Disconfirm 0.10%
Request 0.10%
AlloNegative 0.00%
AttentionFeedbackElicitation 0.00%
Check Question 0.00%
Inform 0.00%
InterprNegativeAlloFeedback 0.00%
Set Question 0.00%
Tableau A.24: Répartition des fonctions dans la dimension Allo-feedback
Dimension Social Obligation Management
Les tableaux A.25 présentent la proportion de fonctions annotées observée dans la dimension
Social Obligation Management pour l’expert et le demandeur et de manière globale. Cette dimension
est faiblement représentée dans notre corpus. Notons la présence des fonctions spécifiques
de la dimension (Thanking, Thanking-downplay, Apology, Apology-downplay).A.3. Annexes des résultats du processus d’annotation 245
(a) Expert
Fonction Prop. globale
Apology 0.40%
Agreement 0.20%
Inform 0.20%
Thanking 0.10%
Answer 0.00%
Apology-downplay 0.00%
Check Question 0.00%
Disconfirm 0.00%
Offer 0.00%
Request 0.00%
(b) Demandeur
Fonction Prop. globale
Inform 0.50%
Apology 0.20%
Apology-downplay 0.10%
Check Question 0.10%
Choice Question 0.10%
DeclineOffer 0.10%
Initial greeting 0.10%
Offer 0.10%
Posi-check 0.10%
Thanking 0.10%
Thanking-downplay 0.10%
(c) Global
Fonction Prop. globale
Apology 0.40%
Inform 0.30%
Agreement 0.10%
Apology-downplay 0.10%
Thanking 0.10%
Answer 0.00%
Check Question 0.00%
Choice Question 0.00%
DeclineOffer 0.00%
Disconfirm 0.00%
Initial greeting 0.00%
Offer 0.00%
Posi-check 0.00%
Request 0.00%
Thanking-downplay 0.00%
Tableau A.25: Répartition des fonctions dans la dimension SOM
Dimension Partner Communication Management
Les tableaux A.26 présentent la proportion de fonctions annotées observée dans la dimension
Partner Communication Management pour l’expert et le demandeur et de manière globale.
Cette dimension s’illustre par l’usage de la fonction Completion. Notons que celle-ci est majoritairement
utilisée par le demandeur afin de récupérer le tour de parole (cf. annexe A.3.7 sur la
dimension Turn Management).246 Chapitre A : Annexes de l’analyse du corpus Cogni-CISMeF
(a) Expert
Fonction Prop. globale
Completion 0.50%
(b) Demandeur
Fonction Prop. globale
Completion 2.70%
(c) Global
Fonction Prop. globale
Completion 1.10%
Tableau A.26: Répartition des fonctions dans la dimension PCM
Dimension Discourse Structuring
Les tableaux A.27 présentent la proportion de fonctions annotées observée dans la dimension
Discourse Structuring pour l’expert et le demandeur et de manière globale. Cette dimension est
faiblement représentée dans notre corpus.
(a) Expert
Fonction Prop. globale
Opening 0.20%
Preclosing 0.10%
Inform 0.00%
Topic introduction 0.00%
Topic shift 0.00%
Topic shift annoucement 0.00%
(b) Demandeur
Fonction Prop. globale
Inform 0.10%
Preclosing 0.10%
Topic shift 0.10%
(c) Global
Fonction Prop. globale
Opening 0.20%
Inform 0.10%
Preclosing 0.10%
Topic introduction 0.00%
Topic shift 0.00%
Topic shift annoucement 0.00%
Tableau A.27: Répartition des fonctions dans la dimension Discourse Structuring
Dimension Contact Management
Les tableaux A.28 présentent la proportion de fonctions annotées observée dans la dimension
Contact Management pour l’expert et le demandeur et de manière globale. Cette dimension est
faiblement représentée dans notre corpus.A.4. Annexes du processus d’extraction 247
(a) Expert
Fonction Prop. globale
Contact Indication 0.30%
Inform 0.00%
(b) Demandeur
Fonction Prop. globale
Contact Indication 0.20%
Inform 0.10%
Request 0.10%
(c) Global
Fonction Prop. globale
Contact Indication 0.30%
Inform 0.00%
Request 0.00%
Tableau A.28: Répartition des fonctions dans la dimension Contact Management
A.4 Annexes du processus d’extraction
Ces annexes présentent des données et résultats supplémentaires du processus d’extraction.
L’annexe A.4.1 présente les données détaillées de répartition entre le corpus d’extraction et
le corpus de référence.
L’annexe A.4.2 fournit des précisions sur les fonctions qui précèdent une fonction ExecNegativeAutoFB.
L’annexe A.4.3 présente le détail de l’intervention d’instances de motifs dialogiques dans les
entretiens du corpus d’extraction.
Enfin, l’annexe A.4.4 fournit des exemples supplémentaires de dialogue tirés du corpus d’extraction
illustrant chacun des motifs dialogiques extraits.
A.4.1 Répartition entre le corpus d’extraction et le corpus de référence
Cette annexe présente la constitution des corpus de référence et des corpus d’extraction. Le
tableau A.29 rappelle la distribution des entretiens du corpus Cogni-CISMeF entre les corpus
de référence et d’extraction. Le tableau A.30 présente la répartition des tours de parole, des
segments fonctionnels et des fonctions communicatives entre le corpus d’extraction et le corpus
de référence (en proportion et en chiffres).
AL02 AL03 AL04 AL05 AL06 AL07 AL09 AL10 AL11 AL12
Sélectionné × × × × × × ×
VD02 VD03 VD04 VD05 VD06 VD07 VD08 VD09
Sélectionné × × × × ×
Tableau A.29: Dialogues sélectionnés pour l’extraction manuelle des motifs d’interaction248 Chapitre A : Annexes de l’analyse du corpus Cogni-CISMeF
Tour Segment Fonction
Corpus d’extraction 1354 (64.11%) 3626 (66.10%) 4166 (65.68%)
Corpus de référence 758 (35.89%) 1860 (33.90%) 2177 (34.32%)
Total 2112 (1056 × 2) 5486 6343
Tableau A.30: Répartition des tours de parole, des segments fonctionnels et des fonctions communicatives
entre le corpus d’extraction et le corpus de référence
A.4.2 Cas de la fonction ExecNegativeAutoFB
La figure A.1 présente les fonctions qui précèdent la fonction ExecNegativeAutoFB observées
dans le corpus Cogni-CISMeF. On constate que la fonction ExecNegativeAutoFB a été
exclusivement observée en réaction à des fonctions représentant une question (CheckQuestion,
SetQuestion, ChoiceQuestion et PropositionalQuestion).
{Check Question|Task}
{ExecNegativeAutoFeedback|AutoFeedback}
16,67%
{Set Question|Task} 33,33%
{Choice Question|Task}
33,33%
{Propositional Question|Task}
16,67%
Figure A.1: Occurrence de la fonction ExecNegativeAutoFB
A.4.3 Présence des motifs dans les entretiens du corpus d’extraction
Cette annexe présente la présence des motifs dialogiques dans les entretiens du corpus d’extraction.
Un motif dialogique est présent dans un entretien s’il possède une instance dans l’entretien
annoté par l’annotateur 1 ou dans l’entretien annoté par l’annotateur 2. Le tableau A.31
présente la présence des motifs dans le corpus AL tandis que le tableau A.32 présente la présence
des motifs dans le corpus VD. Le tableau A.33 présente la synthèse de la présence des motifs
dialogiques dans les entretiens du corpus d’extraction.A.4. Annexes du processus d’extraction 249
AL 3 4 6 7 10 11 12 Bilan
Question oui/non × × 2/7
Vérification × × × × × × × 7/7
Vérification positive × × 2/7
Vérification négative × 1/7
Question ouverte × × × × × 5/7
Question à choix multiples × × 2/7
Suggestion × × × × × × 6/7
Requête × × 2/7
Offre × × × 3/7
Accord × × × × × × 6/7
Correction × 1/7
Tableau A.31: Présence des motifs dans les entretiens du corpus AL
VD 2 4 5 6 7 Bilan
Question oui/non × × 2/5
Vérification × × × × × 5/5
Vérification positive × × 2/5
Vérification négative × × × 3/5
Question ouverte × × × × 4/5
Question à choix multiples × × × 3/5
Suggestion × × × × × 5/5
Requête × × × × 4/5
Offre × × × × × 5/5
Accord × × × × × 5/5
Correction × × × 3/5
Tableau A.32: Présence des motifs dans les entretiens du corpus VD
Motif Bilan
Question oui/non 4/12
Vérification 12/12
Vérification positive 4/12
Vérification négative 4/12
Question ouverte 9/12
Question à choix multiples 5/12
Suggestion 11/12
Requête 6/12
Offre 8/12
Accord 11/12
Correction 4/12
Tableau A.33: Bilan de la présence des motifs dans les entretiens250 Chapitre A : Annexes de l’analyse du corpus Cogni-CISMeF
A.4.4 Exemples supplémentaires d’instance de motif
Cette annexe présente des exemples supplémentaires d’instances de motifs dialogiques facilement
compréhensibles hors du contexte du dialogue. Pour chaque motif dialogique, un graphe
représentant le motif en question est fourni. Chaque nœud du graphe représente l’occurrence
d’une fonction communicative dans une dimension. Chaque arc indique une suite possible réalisée
par un autre interlocuteur. Les étiquettes sur les arcs informent de la proportion observée
dans le corpus d’extraction.
Motif de question oui/non
{Propositional Question|Task}
{Answer|Task} 90,91%
{ExecNegativeAutoFeedback|AutoFeedback}
9,09%
Figure A.2: Motif dialogique d’interrogation oui/non
Task
S1 : alors "pathologie de la xxx xxx" / est-ce que ça vous dit quelque
chose ?
PropositionalQuestion
A2 : ça se pourrait bien / oui Answer
Dialogue A.6 – Exemple d’un motif de type question oui/non avec seconde partie de paire pré-
férée (entretien AL03)
Motif de vérification
{Check Question|Task}
{Disconfirm|Task}
37,88%
{ExecNegativeAutoFeedback|AutoFeedback} 1,52%
{Answer|Task}
15,15%
{Confirm|Task}
45,45%
Figure A.3: Motif dialogique de vérification d’une information
Task
S1 : donc vous voulez des informations sur la périarthrite ? CheckQuestion
A2 : voilà Confirm
Dialogue A.7 – Exemple d’un motif de type vérification avec seconde partie de paire préférée
(entretien AL3)A.4. Annexes du processus d’extraction 251
Task
S1 : alors vous souhaitez mettre d’autres qualificatifs finalement ? CheckQuestion
A2 : oui Confirm
Dialogue A.8 – Exemple d’un motif de type vérification avec seconde partie de paire préférée
(entretien VD2)
Task
S1 : C’est tout ce qu’il y a ? CheckQuestion
A2 : non Disconfirm
Dialogue A.9 – Exemple d’un motif de type vérification avec seconde partie de paire non-préférée
(entretien VD04)
Task
S1 : mais il était vraiment enlevé ? CheckQuestion
A2 : je vais vérifier Inform
il n’était pas enlevé Disconfirm
Dialogue A.10 – Exemple d’un motif de type vérification avec seconde partie de paire nonpréférée
(entretien VD05)
Motif de vérification positive
{Posi-check|Task} {Confirm|Task} 100,00%
Figure A.4: Motif dialogique de vérification positive d’une information
Task
S1 : alors plus précisémment ce serait le genou alors ? PosiCheck
A2 : oui Confirm
Dialogue A.11 – Exemple d’un motif de type vérification positive (entretien AL06)
Task
S1 : alors vu la présentation de la fenêtre je suppose qu’il y en a une bonne quantité
derrière ?
PosiCheck
A2 : oui tout à fait Confirm
Dialogue A.12 – Exemple d’un motif de type vérification positive (entretien VD05)252 Chapitre A : Annexes de l’analyse du corpus Cogni-CISMeF
Task
S1 : ca vous va ? PosiCheck
A2 : ouais Confirm
Dialogue A.13 – Exemple d’un motif de type vérification positive (entretien VD07)
Motif de vérification négative
{Nega-check|Task} {Confirm|Task} 100,00%
Figure A.5: Motif dialogique de vérification négative d’une information
Task
S1 : on n’avait pas le mot diagnostic ? NegaCheck
A2 : si Confirm
Dialogue A.14 – Exemple d’un motif de type vérification negative (entretien VD02)
Task
S1 : vous ne voyez pas grand chose non plus ? NegaCheck
A2 : bah j’essaie / j’essaie je regarde Inform
rien / je vois rien Confirm
Dialogue A.15 – Exemple d’un motif de type vérification negative (entretien VD04)
Motif de question ouverte
{Set Question|Task}
{ExecNegativeAutoFeedback|AutoFeedback} 5,13%
{Answer|Task}
94,87%
Figure A.6: Motif dialogique de demande d’information ouverte
Task
S1 : donc c’est des douleurs articulaires à quel niveau ? SetQuestion
A2 : au niveau des genoux et autres Answer
Dialogue A.16 – Exemple de motif de type question ouverte avec seconde partie de paire préférée
(entretien AL06)A.4. Annexes du processus d’extraction 253
Task
S1 : ça serait dans quelle discipline de sport ? SetQuestion
A2 : le rugby pour le rugby Answer
Dialogue A.17 – Exemple de motif de type question ouverte avec seconde partie de paire préférée
(entretien AL06)
Task
S1 : donc document c’est / c’est des documents qui / c’est quel type de document
parce que je ne sais pas où se fait la recherche en fait ?
SetQuestion
A2 : alors la recherche ça se fait / par un ensemble de documents médicaux qui
sont dans un annuaire / c’est-à-dire qui ont été sélectionnés par un équipe
de documentalistes spécialisés en médecine
Answer
S3 : et ces documents c’est quoi c’est des rapports ? c’est des articles de journaux
c’est
SetQuestion
A4 : des documents / il y a tout ce qui va s’adresser aux médecins euh : des cours
pour les étudiants en médecine
Answer
Dialogue A.18 – Exemple de motif de type question ouverte avec seconde partie de paire préférée
(entretien AL10)
Motif de question à choix multiples
{Choice Question|Task}
{ExecNegativeAutoFeedback|AutoFeedback} 6,67%
{Answer|Task}
93,34%
Figure A.7: Motif dialogique de demande d’information à choix multiples
Task
S1 : dans les types de ressources est-ce qu’on va plutôt chercher des choses
dans les associations / dans les bases de données / bibliothèque médicale
/ étude d’évaluation / forum / hôpital / image / des choses sur des lignes
de consensus de professionnels / des matériels de l’enseignement / des
documents pour les patients / des périodiques / des rapports techniques
/ des recommandations ou un service hospitalier
ChoiceQuestion
A2 : oh service hospitalier pour essayer Answer
Dialogue A.19 – Exemple de motif de type question à choix multiples avec seconde partie de
paire préférée (entretien VD07)254 Chapitre A : Annexes de l’analyse du corpus Cogni-CISMeF
Task AutoFB
S1 : alors on a créatinine quinaz ou créatinine ChoiceQuestion
A2 : moi je mettrais que créatinine Answer
S3 : on met que créatinine AutoPositive
Dialogue A.20 – Exemple de motif de type question à choix multiples avec seconde partie de
paire préférée (entretien VD07)
Motif de suggestion
{Suggestion|Task}
{AcceptSuggestion|Task} 94,25%
{DeclineSuggestion|Task}
5,75%
Figure A.8: Motif dialogique de suggestion d’action
Task
S1 : bon on va quand même le lancer comme ça Suggestion
A2 : oui AcceptSuggestion
Dialogue A.21 – Exemple de motif de type suggestion avec seconde partie de paire préférée
(entretien VD05)
Task
S1 : on va essayer de voir si on obtient des choses spécifiques pour les patients Suggestion
donc qu’ils soient spécifiques pour les médecins ou pour les étudiants en
médecine
Inform
A2 : d’accord AcceptSuggestion
Dialogue A.22 – Exemple de motif de type suggestion avec seconde partie de paire préférée
(entretien AL07)
Task AutoFB
S1 : en mot clé bah écoutez je vous propose de mettre leucémie Suggestion
A2 : leucémie AcceptSuggestion AutoPositive
Dialogue A.23 – Exemple de motif de type suggestion avec seconde partie de paire préférée
(entretien VD02)A.4. Annexes du processus d’extraction 255
Task
S1 : donc ce que je vous propose c’est qu’on remette effort du coup Suggestion
A2 : oui / oui AcceptSuggestion
Dialogue A.24 – Exemple de motif de type suggestion avec seconde partie de paire préférée
(entretien VD05)
Task
S1 : et si on essayait de transformer le mal à la tête en migraine pour essayer
de trouver un synonyme
Suggestion
A2 : oui / oui / bien sûr AcceptSuggestion
Dialogue A.25 – Exemple de motif de type suggestion avec seconde partie de paire préférée
(entretien VD05)
Task
S1 : bon alors donc on essaie quelque chose avec cancérologie et diagnostic Suggestion
A2 : ouais AcceptSuggestion
Dialogue A.26 – Exemple de motif de type suggestion avec seconde partie de paire préférée
(entretien VD06)
Task AutoFB
S1 : diagnostic de l’insuffisance rénale donc créatinine / analyse de
sang / méthode / donc
Inform
A2 : on peut regarder ça éventuellement Suggestion
S3 : on peut regarder éventuellement AcceptSuggestion AutoPositive
Dialogue A.27 – Exemple de motif de type suggestion avec seconde partie de paire préférée
(entretien VD07)
Task
S1 : alors peut-être qu’on pourrait mettre dans quelque chose qui serait une
espèce de mot clé taux de créatinine normal pour voir ce que ça donne
Suggestion
A2 : oui AcceptSuggestion
Dialogue A.28 – Exemple de motif de type suggestion avec seconde partie de paire préférée
(entretien VD07)256 Chapitre A : Annexes de l’analyse du corpus Cogni-CISMeF
Motif de requête
{Request|Task}
96,88% {AcceptRequest|Task}
{DeclineRequest|Task}
3,13%
Figure A.9: Motif dialogique de demande de réalisation d’action (requête)
Task
S1 : vous me dites si vous voyez des choses Request
A2 : D’accord AcceptRequest
Dialogue A.29 – Exemple de motif de type requête avec seconde partie de paire préférée (entretien
VD05)
Motif d’offre
{Offer|Task}
40,00% {DeclineOffer|Task}
{AcceptOffer|Task}
60,00%
Figure A.10: Motif dialogique d’offre de réalisation d’action
Task
S1 : est-ce que vous avez des questions sur un autre domaine ou ? ? Offer
A2 : oui bah non je vois pas de : DeclineOffer
Dialogue A.30 – Exemple de motif de type offre avec seconde partie de paire non-préférée (entretien
AL10)
Task
S1 : donc je vais sur le texte lui-même / je vais le visualiser [. . . ] Offer
A2 : ouais faut chercher là-dedans AcceptOffer
Dialogue A.31 – Exemple de motif de type offre avec seconde partie de paire préférée (entretien
VD06)A.4. Annexes du processus d’extraction 257
Task
S1 : par contre colon j’aurais presque envie de mettre diagnostic quand même parce
que / parce que on va voir ce que ça donne
Offer
A2 : oui normalement c’est un diagnostic AcceptOffer
Dialogue A.32 – Exemple de motif de type offre avec seconde partie de paire préférée (entretien
VD06)
Task
S1 : je vais essayer / je vais retourner donc je retourne sur la page et je relance la
recherche
Offer
A2 : ouais AcceptOffer
Dialogue A.33 – Exemple de motif de type offre avec seconde partie de paire préférée (entretien
VD06)
Motif d’accord
{Inform|Task}
{Agreement|Task}
90,82%
1,02% {Disagreement|Task}
{Answer|Task} 8,16%
Figure A.11: Motif dialogique d’accord
Task
S1 : mais ça doit pas être ça Inform
A2 : non à mon avis non Agreement
Dialogue A.34 – Exemple de motif d’accord avec seconde partie de paire préférée (entretien
AL04)
Task
S1 : on a 115 articles Inform
A2 : oui oui Agreement
Dialogue A.35 – Exemple de motif de type accord avec seconde partie de paire préférée (entretien
AL07)258 Chapitre A : Annexes de l’analyse du corpus Cogni-CISMeF
Task
S1 : donc que c’est un accès que n’importe qui peut avoir l’accès Inform
A2 : tout à fait Agreement
Dialogue A.36 – Exemple de motif d’accord avec seconde partie de paire préférée (entretien
AL10)
Task
S1 : là on a 33 ressources alors effectivement / ça s’annonce bien Inform
A2 : ah oui il y a des choses là Agreement
Dialogue A.37 – Exemple de motif d’accord avec seconde partie de paire préférée (entretien
AL10)
Task
S1 : donc là on a abouti à un truc qui n’a rien à voir Inform
A2 : voilà Agreement
Dialogue A.38 – Exemple de motif d’accord avec seconde partie de paire préférée (entretien
AL12)
Task
S1 : bon on le trouve pas dans l’accès thématique Inform
A2 : non Agreement
Dialogue A.39 – Exemple de motif d’accord avec seconde partie de paire préférée (entretien
VD05)
Task
S1 : on cherche mais on ne trouve pas toujours Inform
A2 : exactement c’est tout à fait ça Agreement
Dialogue A.40 – Exemple de motif d’accord avec seconde partie de paire préférée (entretien
VD05)
Task AutoFB
S1 : ces deux là on les avait déjà vues Inform
A2 : déjà vues aussi Agreement AutoPositive
S3 : la troisième ? CheckQuestion
A4 : toujours les trois mêmes Answer
S5 : toujours les trois mêmes Agreement AutoPositive
Dialogue A.41 – Exemple de motif de type accord avec seconde partie de paire préférée (entretien
VD06)A.4. Annexes du processus d’extraction 259
Motif de correction
{Inform|Task}
{Correction|Task}
66,67%
{Answer|Task}
33,33% {Agreement|Task} 66,67%
Figure A.12: Motif dialogique de correction
Task
S1 : vous êtes sociologue c’est ça Inform
A2 : moi je suis linguiste Correction
Dialogue A.42 – Exemple de motif de type correction en deux temps (entretien VD05)Annexe B
Annexes du modèle
B.1 Événéments internes issus des jeux de dialogue
Le tableau B.1 présente les événements internes liés aux jeux de dialogue. Ces événements
sont déclenchés dès lors que des conditions d’entrée, d’échec ou de succès sont atteintes par le
tableau de conversation. Ces événements internes sont utilisés dans le jeu de contextualisation.
Événement interne Description
atteintEntréeInitiateur(j) Déclenché si les conditions d’entrée de l’initiateur sont atteintes
atteintEntréePartenaire(j) Déclenché si les conditions d’entrée du partenaire sont atteintes
atteintSuccèsInitiateur(j) Déclenché si les conditions de succès de l’initiateur sont atteintes
atteintSuccèsPartenaire(j) Déclenché si les conditions de succès du partenaire sont atteintes
atteintÉchecInitiateur(j) Déclenché si les conditions d’échec de l’initiateur sont atteintes
atteintÉchecPartenaire(j) Déclenché si les conditions d’échec du partenaire sont atteintes
atteintEntrée(j) Déclenché si la conjonction des conditions d’entrée de l’initiateur
et du partenaire est atteinte.
atteintÉchec(j) Déclenché si la disjonction des conditions d’échec de l’initiateur
et du partenaire est atteinte.
atteintSuccès(j) Déclenché si la disjonction des conditions de succès de l’initiateur
et du partenaire est atteinte.
atteintSortie(j) Déclenché si la disjonction des conditions de succès et d’échec
de l’initiateur et du partenaire est atteinte.
Tableau B.1: Événements internes relatifs aux jeux de dialogue. j : JeuDeDialogue.
B.2 Jeu de communication de contextualisation
Le tableau B.2 présente le jeu de communication de contextualisation. Celui-ci permet d’établir
un jeu de dialogue ou des combinaisons de jeux de dialogue.
B.3 Jeu de dialogue de question à choix multiples
Le tableau B.3 présente le jeu de dialogue de question à choix multiples. Le but est une
question q telle que q : ALTQ. Les conditions d’entrée précisent que le partenaire ne doit pas
déjà être engagé sur une proposition qui résout la question, ou sur le fait qu’il ne connaît pas262 Chapitre B : Annexes du modèle
α β
prop.entrée(x, j) Cctx(y, acc.entrée(y, j)|ref.entrée(y, j)|prop.entrée(y, j’ ; j)|prop.entrée(y, j’ j) ,Crt)
C({x,y},j,Sugg)
prop.entrée(x, j’ ; j) Cctx(y, acc.entrée(y, j’ ; j)|ref.entrée(y, j’ ; j) ,Crt)
C({x,y},j’,Sugg)
prop.entrée(x, j’ j) Cctx(y, acc.entrée(y, j’ j)|ref.entrée(y, j’ j) ,Crt)
C({x,y},j’,Sugg)
prop.entrée(x, j’, ligne 34) et d’une
alternative (via l’opérateur 1 *|, ligne 35). Elle stipule que le partenaire (partner) est engagé
à jouer un AcceptRequest ou un DeclineRequest dès lors que l’initiateur joue un acte Request.
Cette règle de production implique l’action de création d’un engagement définie dans Dogma
(Create, ligne 34).
La méthode getPropositionalEffectsFor (ligne 40) fonctionne de la même manière que la
méthode getRulesFor. Elle permet de définir les effets des actes AcceptRequest et DeclineRequest
produits par le partenaire (lignes 46-49). Les règles de production font intervenir les opérations
de création (Create, ligne 47) et d’échec (Failure, ligne 49) fournies par Dogma.
class RequestGame private (
initiator: Interlocutor,
partner: Interlocutor,
goal: ActionProposition) extends DialogueGame(...) {
5 // Entry and exit conditions
def getEntryConditionsFor(speaker: Interlocutor): GameCondition = {
if (isInitiator(speaker)) {
GameCondition.success
} else {
10 InactiveActionCommitment(partner, initiator, goal.action) &&
InactiveActionCommitment(partner, initiator, goal.action.neg)
}
}
15 def getSuccessExitConditionsFor(speaker: Interlocutor): GameCondition = {
ExistActionCommitment(C(partner, initiator, goal.action))
}
def getFailureExitConditionsFor(speaker: Interlocutor): GameCondition = {
20 ExistActionCommitment(C(partner, initiator, goal.action, Fal))
}
// Rules
def getRulesFor(speaker: Interlocutor)(instance: DialogueGameInstance): Set[
AnyGameCommitment] = {
25 if (isInitiator(speaker)) {
Set(
// Request
C(instance, initiator, partner,
Request(initiator, goal)))
30 } else {
Set(
// Production rule
C(instance, partner, initiator,
Request(initiator, goal) ==> Create(partner,
35 C(instance, partner, initiator, AcceptRequest(partner, goal) ∗|
DeclineRequest(partner, goal)))))
}
}
1. L’opérateur d’alternative commence par un « * » pour des raisons de priorité inhérentes au langage.C.1. Exemples de code 267
// Effects
40 def getPropositionalEffectsFor(speaker: Interlocutor)(instance: DialogueGameInstance)
: Set[AnyGameCommitment] = {
if (isInitiator(speaker)) {
Set()
} else {
Set(
45 // AcceptRequest and DeclineRequest
C(instance, partner, initiator,
AcceptRequest(partner, goal) ==> Create(partner, C(partner, initiator, goal.
action))),
C(instance, partner, initiator,
DeclineRequest(partner, goal) ==> Failure(partner, C(partner, initiator,
goal.action))))
50 }
}
}
Listing C.1: Extrait du code du jeu de dialogue de requête dans Dogma
Le listing C.2 présente un extrait du jeu de communication d’évaluation. Les quatre premières
lignes définissent le jeu de communication comme impliquant plusieurs interlocuteurs
(speakers). Ce jeu hérite de la classe CommunicationGame de la librairie Dogma qui né-
cessite la définition de la méthode getRulesFor. Cette méthode permet d’obtenir les règles
du jeu pour l’interlocuteur speaker. Elle retourne un ensemble d’engagements dialogiques
(Set[AnyGameCommitment]).
Les règles du jeu sont spécifiées en tant que règles de production conditionnelles persistantes
(via l’opérateur =*=>, lignes 9 et 14). La première règle spécifie les effets directs des actes
informatifs Inform, Answer et Disagreement (lignes 7-10). Elle fait intervenir une alternative
(via l’opérateur *|) qui définit que l’intervention d’un événement dialogique Inform, Answer ou
Agreement conduit à engager le locuteur sur son contenu sémantique (via l’opération de création
Create, ligne 10). Le contenu sémantique est spécifié par une variable P qui s’unifie avec celui de
l’événement intervenu (pourvu que sa fonction et son interlocuteur soient identiques à celles de
la description). La seconde règle spécifie les effets directs de l’acte Disagreement (lignes 12-15).
Elle conduit à engager le locuteur du Disagreement sur la négation de son contenu sémantique
(P.neg, ligne 15). Les autres règles du jeu d’évaluation sont spécifiées sur le même modèle.
class EvaluationGame private (speakers: Interlocutor*)
extends CommunicationGame
with GameVariables {
5 def getRulesFor(speaker: Interlocutor): Set[AnyGameCommitment] = Set(
// InformativeAct(_, p) -> C(_,p)
C(this, speaker, otherSpeaker(speaker),
Inform(speaker, P) ∗| Answer(speaker, P) ∗| Agreement(speaker, P)
=*=>
10 Create(speaker, C(speaker, otherSpeaker(speaker), P))),
// Disagreement(_, p) -> C(_, ~p)
C(this, speaker, otherSpeaker(speaker),
Disagreement(speaker, P)268 Chapitre C : Annexes de la mise en œuvre
=*=>
15 Create(speaker, C(speaker, otherSpeaker(speaker), P.neg))))
...
}
Listing C.2: Extrait du code du jeu de communication d’évaluation
C.2 Traces de fonctionnement du système
Ces annexes présentent trois exemples supplémentaires de traces générées par Dogma. L’annexe
C.2.1 présente le cas du refus d’entrée dans un jeu de dialogue suite à un acte de proposition
d’entrée. L’annexe C.2.2 présente un jeu de question ouverte dont l’exécution conduit à l’échec
du jeu. Enfin, l’annexe C.2.3 présente un exemple de correction.
C.2.1 Refus d’entrée dans le jeu
Cet exemple présente un jeu de dialogue de requête sur l’action ajouterMotCle(grippe) qui
forme le but du jeu. Il débute par un acte de contextualisation de proposition d’entrée dans ce
jeu (« Je peux vous demander de réaliser une action ? »). Cet acte établit l’engagement conjoint
sur le jeu de dialogue en état Sugg.
Tours:
prop.entrée(x, g4)
Cx Cy
Cp ∅ ∅
Ca(Crt) ∅ ∅
Ca(Fal) ∅ ∅
CdA ∅ ∅
Cxy
Jeu:
Sugg. : Request(ajouterMotCle(grippe))=g4
Ouv. :
Ferm. :
Saillants : ∅
Actes attendus :
ctx, ev:
acc.entrée(y, g4) | ref.entrée(y, g4) | prop.entrée(y, Ys g4) | prop.entrée(y, Ys ; g4)
L’exploitation du tableau de conversation spécifie que les seuls actes attendus sont de la part
de l’interlocuteur y. Il s’agit pour lui d’accepter ou de refuser l’entrée dans le jeu, ou bien de
proposer une combinaison de jeu. Le terme Ys représente une variable devant être remplacée parC.2. Traces de fonctionnement du système 269
une proposition de jeu valide. L’interlocuteur y refuse l’entrée dans le jeu.
Tours:
ref.entrée(y, g4), prop.entrée(x, g4)
Cx Cy
Cp ∅ ∅
Ca(Crt) ∅ ∅
Ca(Fal) ∅ ∅
CdA ∅ ∅
Cxy
Jeu:
Sugg. :
Ouv. :
Ferm. :
Saillants : ∅
Le jeu suggéré est alors retiré. Le tableau de conversation retourne dans sa situation initiale,
à l’exception de l’historique du dialogue qui garde la trace de la tentative d’ouverture du jeu de
dialogue.
C.2.2 Échec d’un jeu de question/réponse
Cette trace présente l’exécution d’un jeu de dialogue de question ouverte sur la question
« Quel est un synonyme d’eczéma ? » (?X.synonyme(eczema, X)) initié par l’interlocuteur x.
La proposition de jeu est acceptée par l’interlocuteur y. Le jeu de question ouverte est alors
établi entre les interlocuteurs, conduisant au tableau de conversation ci-après.270 Chapitre C : Annexes de la mise en œuvre Tours:
acc.entrée(y, g5), prop.entrée(x, g5) Cx Cy Cp ∅ ∅ Ca(Crt) ∅ ∅ Ca(Fal) ∅ ∅ CdA ⌊setQuestion(x, q)⌋:g5 ⌊execNegativeAutoFB(y, q) ⇒ C(y,fail(q),Crt)⌋:g5, ⌊setQuestion(x, q) ⇒ Cg5(y,answer(y,P2) avec rel(P2, q) | execNegativeAutoFB(y, q),Crt)⌋:g5, ⌊answer(y,P) avec strictRel(P, q) ∗⇒ Cg5(y,answer(y,P2) avec rel(P2, q) | execNegativeAutoFB(y, q),Crt)⌋:g5 CxyJeu: Sugg. : Ouv. : OpenInterrogation(?X.synonyme(eczema, X))=g5 Ferm. : Saillants : g5 q=?X.synonyme(eczema, X) Actes attendus : g5: setQuestion(x, q) ctx, ev: prop.entrée(y, Ys.
HAL Id: tel-01083606
https://tel.archives-ouvertes.fr/tel-01083606
Submitted on 17 Nov 2014
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of scientific
research documents, whether they are published
or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destin´ee au d´epˆot et `a la diffusion de documents
scientifiques de niveau recherche, publi´es ou non,
´emanant des ´etablissements d’enseignement et de
recherche fran¸cais ou ´etrangers, des laboratoires
publics ou priv´es. Etude de la synchronisation
temporelle dans les
systèmes MIMO-OFDM
appliqués aux réseaux
mobiles
Thèse soutenue le 26.02.2014
devant le jury composé de :
Régis LENGELLE
Professeur à l’Université Technologie de Troyes / président
Françoise PALADIAN
Professeur à l’Université Blaise-Pascal / rapporteuse
Joumana FARAH
Professeur à l’Université Saint-Esprit de Kaslik / rapporteuse
Ghaïs EL ZEIN
Professeur à l’INSA de Rennes / examinateur
Bilal BEYDOUN
Professeur à l’Université Libanaise / Directeur de thèse
Fabienne NOUVEL
Maître de Conférences, HDR, à l’INSA de Rennes / Directrice de thèse
THESE INSA Rennes
sous le sceau de l’Université européenne de Bretagne en
cotutelle avec l’Université Libanaise
pour obtenir le titre de
DOCTEUR DE L’INSA DE RENNES
Spécialité : Electronique et Télécommunications
présentée par
Ali RACHINI
ECOLE DOCTORALE : Matisse
LABORATOIRE : IETREtude de la synchronisation temporelle dans
les systèmes MIMO-OFDM appliqués aux
réseaux mobiles
Ali RACHINI
En partenariat avec
Document protégé par les droits d’auteur REMERCIEMENTS
Au terme de ce travail, je voudrais adresser une pensée à tous ceux qui, de
quelque manière que ce soit, par un conseil, une idée, un coup de main ou, tout
simplement leur amitié, m’ont aidée à le réaliser.
Ce travail de recherche est le fruit d’une convention en cotutelle entre l’Université
Libanaise et l’INSA de Rennes. La présente étude a été réalisée au sein
du Laboratoire IETR de l’INSA de Rennes du coté français et le groupe GET de
l’université Libanaise du coté libanais.
Je tiens à exprimer mes sincères remerciements à mon directeur de thèse monsieur
Bilal BEYDOUN, professeur à la faculté des sciences de l’université Libanaise
qui m’a accueilli dans son laboratoire et qui m’a donné l’opportunité d’effectuer
ce travail, de ses conseils scientifiques tout au long de la thèse, sa grande
disponibilité, ces encouragements et de la confiance qu’il m’a accordée.
Je remercie vivement ma directrice de thèse, Mme. Fabienne NOUVEL, professeur
à l’INSA de Rennes, d’avoir assuré la direction de ce travail, et de m’avoir
apporté la rigueur scientifique nécessaire à son bon déroulement, je tiens également
à le remercier de sa gentillesse et sa grande disponibilité. Le partage de l’ensemble
de ses connaissances m’a toujours permis de travailler dans les meilleures
conditions.Je ne sais comment exprimer ma gratitude à ces deux personnes autrement
qu’en leur promettant d’agir comme eux avec des étudiants dans ma situation, si
un jour l’occasion m’en est donnée.
Je tiens particulièrement à exprimer mes plus vifs remerciements à monsieur
Ghais EL-ZEIN, professeur à l’INSA de Rennes, pour la gentillesse qu’il a manifestée
à mon égard durant cette thèse et pour tous les conseils. Je tiens à remercier,
Monsieur Régis LENGELLE, directeur de l’école doctorale à l’université de technologie
de Troyes, d’avoir participé à ce jury, en tant que président.
Je remercie vivement Mme. Françoise PALADIAN, directrice de l’Ecole Doctorale
des Sciences Pour l’Ingénieur (EDSPI) de Clermont Ferrand, et Mme. Joumana
FARAH, professeur à l’université Saint-Esprit de Kaslik (USEK), qui ont
accepté d’être les rapporteuses de cette thèse, et je les en remercie, de même que
pour leur participation au jury. Elles ont également contribué par leurs nombreuses
remarques et suggestions à améliorer la qualité de ce mémoire, et je leur en suis
très reconnaissant.
Je remercie tous les membres du laboratoire IETR, groupe GET, INSA et
EDST.
Ces remerciements ne seraient pas complets sans mentionner le soutien et les
encouragements fournis tout au long de ces années par mes amis et mes proches.
Un merci tout particulier va à mes parents pour leur aide précieuse à la finalisation
de ce travail, bien entendu ma mère, mes frères, mes sœurs et ma fiancée, Mariam.Table des matières
Page
Liste des tableaux v
Table des figures x
Acronym xiii
Notation xvi
I Introduction Générale 1
II Systèmes multi-porteuses et multi-antennes 7
II.1 La technique OFDM . . . . . . . . . . . . . . . . . . . . . . . . 11
II.1.1 Chaîne de transmission d’un système OFDM . . . . . . . 12
II.1.2 Expression du signal OFDM . . . . . . . . . . . . . . . . 14
II.1.3 Préfixe cyclique (CP) . . . . . . . . . . . . . . . . . . . . 16
II.1.4 Avantages et inconvénients de l’OFDM . . . . . . . . . . 17
II.1.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . 18
II.2 La technique MIMO . . . . . . . . . . . . . . . . . . . . . . . . 19
II.2.1 Principe de la technique MIMO . . . . . . . . . . . . . . 19
II.2.2 Codage temps-espace (STC) . . . . . . . . . . . . . . . . 21
II.2.2.1 Le code temps-espace en blocs (STBC) . . . . . 21
II.2.2.2 Les codes temps-espace en treillis (STTC) . . . 23
II.3 La combinaison MIMO-OFDM . . . . . . . . . . . . . . . . . . 24
II.3.1 Canal MIMO . . . . . . . . . . . . . . . . . . . . . . . . 25
II.3.2 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . 28
II.4 La synchronisation . . . . . . . . . . . . . . . . . . . . . . . . . 28II.4.1 La synchronisation fréquentielle . . . . . . . . . . . . . . 29
II.4.1.1 Le décalage de la fréquence porteuse (Carrier
Frequency Offset (CFO)) . . . . . . . . . . . . 29
II.4.1.2 Etudes antérieures sur la synchronisation fré-
quentielle . . . . . . . . . . . . . . . . . . . . 31
II.4.2 La synchronisation temporelle . . . . . . . . . . . . . . . 32
II.4.2.1 Etudes antérieures sur la synchronisation temporelle
. . . . . . . . . . . . . . . . . . . . . . 32
II.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
III Séquences de synchronisation 47
III.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
III.2 Les différentes séquences existantes . . . . . . . . . . . . . . . . 49
III.2.1 Séquences pseudo-aléatoires (Pseudo Noise Sequence (PN)) 50
III.2.2 Les séquences de Gold . . . . . . . . . . . . . . . . . . . 52
III.2.2.1 Fonctions de corrélation des séquences de Gold 53
III.2.3 Les séquences de Walsh-Hadamard . . . . . . . . . . . . 55
III.2.4 Les séquences CAZAC (Constant Amplitude Zero AutoCorrelation)
. . . . . . . . . . . . . . . . . . . . . . . . . 57
III.2.5 Les séquences TCH (Tomlinson, Cercas and Hughes) . . . 61
III.2.6 Les séquences ZCZ (Zero Correlation Zone) . . . . . . . 62
III.3 Critères pour sélectionner une séquence particulière . . . . . . . . 65
III.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
IV Les méthodes proposées 73
IV.1 Système de transmission . . . . . . . . . . . . . . . . . . . . . . 74
IV.1.1 Modélisation du canal de propagation . . . . . . . . . . . 77
IV.1.2 Modélisation du signal reçu . . . . . . . . . . . . . . . . 77
IV.2 Les techniques proposées pour la synchronisation temporelle . . . 78IV.2.1 Méthodes de préambule court (Génération dans le domaine
temporel) . . . . . . . . . . . . . . . . . . . . . . . . . . 78
IV.2.1.1 Première structure de préambule court (P r_Court_1) 78
IV.2.1.2 Deuxième structure de préambule court (P r_Court_2) 80
IV.2.1.3 Algorithme de détection de pic de synchronisation 81
IV.2.2 Méthodes de préambule compact (Génération dans le domaine
fréquentiel) . . . . . . . . . . . . . . . . . . . . . 82
IV.2.2.1 Première structure de préambule compact (P r_Compact_1) 84
IV.2.2.2 Deuxième structure de préambule compact (P r_Compact_2) 87
IV.2.2.3 Troisième structure de préambule compact (P r_Compact_3) 90
IV.2.2.4 Quatrième structure de préambule compact (P r_Compact_4) 93
IV.2.2.5 Algorithme de détection de pic de synchronisation 96
IV.2.3 Méthodes de zéro padding . . . . . . . . . . . . . . . . . 98
IV.2.3.1 Première structure de zéro padding (Z_P ad_1) 98
IV.2.3.2 Deuxième méthode de zéro padding (Z_P ad_2) 102
IV.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
V Les résultats de simulation 109
V.1 Simulation des méthodes de préambule court . . . . . . . . . . . 110
V.1.1 Paramètres de simulations . . . . . . . . . . . . . . . . . 110
V.1.2 Résultats de simulations de P r_Court_1 . . . . . . . . . 111
V.1.2.1 Simulation avec les séquences d’Hadamard . . . 112
V.1.2.2 Simulation avec d’autres séquences . . . . . . . 113
V.1.3 Résultats de simulations de P r_Court_2 . . . . . . . . . 116
V.2 Simulation des méthodes de préambule compact . . . . . . . . . . 119
V.2.1 Paramètres de simulations . . . . . . . . . . . . . . . . . 120
V.2.2 Résultats de simulations de la méthode de préambule compact
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
V.2.2.1 Résultats de simulations de P r_Compact_1 . . 122V.2.2.2 Résultats de simulations de P r_Compact_2 . . 125
V.2.2.3 Résultats de simulations de P r_Compact_3 . . 129
V.2.2.4 Résultats de simulations de P r_Compact_4 . . 132
V.2.3 Les performances de la méthode de préambule compact . 134
V.3 Résultats de simulations des méthodes de zéro padding . . . . . . 137
V.3.1 Résultats de simulations de Z_P ad_1 . . . . . . . . . . . 137
V.3.2 Résultats de simulations de Z_P ad_2 . . . . . . . . . . . 140
V.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
VI Conclusions et perspectives 149
VI.1 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
VI.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
Liste de publications 153Liste des tableaux
III.1 Comparaison entre les différentes séquences de synchronisation . 67
V.1 Paramètres de simulation de la méthode de préambule court . . . . 110
V.2 Puissance moyenne et délai du canal de propagation (méthodes de
préambule court) . . . . . . . . . . . . . . . . . . . . . . . . . . 111
V.3 Paramètres de simulations de méthodes de préambule compact . . 120
V.4 Puissance moyenne du canal de Rayleigh à trajets multiples (mé-
thodes de préambule compact) . . . . . . . . . . . . . . . . . . . 121
V.5 Comparaison de la probabilité d’acquisition avec différents systèmes
MIMO-OFDM et différentes longueurs de FFT de la mé-
thode Z_P ad_1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
V.6 Comparaison de la probabilité d’acquisition de différents systèmes
MIMO-OFDM et différentes longueurs de FFT de la méthode
Z_P ad_2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143Table des figures
II.1 Schéma bloc d’un système de transmission OFDM . . . . . . . . . . . . . . 13
II.2 Illustration de la protection contre les interférences entre symboles OFDM
assurée par le CP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
II.3 Schéma simplifié d’un système MIMO-OFDM avec un codage STBC . . . . 26
II.4 Canal MIMO Nt × Nr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
II.5 Décalage de la fréquence porteuse (CFO) . . . . . . . . . . . . . . . . . . . 30
II.6 Structure de trame d’un système MIMO-OFDM avec les codes LS . . . . . . 34
II.7 Structure de préambule proposée dans le domaine fréquentiel dans [48] . . . 35
II.8 Structure de préambule basée sur des séquences partielles de Zadoff-Chu dans [53].
(a) dans le domaine fréquentiel et (b) dans le domaine temporel . . . . . . . . 36
III.1 Structure de la trame de synchronisation dans les systèmes DTMB . . . . . . 51
III.2 Fonctions d’autocorrélation et d’intercorrélation de séquences pseudo-aléatoires
de taille 1023 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
III.3 Fonctions d’autocorrélation et d’intercorrélation de Séquences Gold de taille
1023 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
III.4 Fonctions d’autocorrélation et d’intercorrélation de séquences d’Hadamard de
taille 1024 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
III.5 Séquence CAZAC avec une amplitude constante . . . . . . . . . . . . . . . . 58
III.6 Fonctions d’autocorrélation et d’intercorrélation de séquences CAZAC de longueur
1024 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
III.7 Fonctions d’autocorrélation et d’intercorrélation de séquences TCH de taille 256 63
III.8 Fonctions d’autocorrélation et d’intercorrélation de séquences ZCZ de taille 512 64IV.1 Système de transmission MIMO-OFDM-STBC . . . . . . . . . . . . . . . . 75
IV.2 Préambules de synchronisation pour la première structure de la méthode de
préambules courts (P r_Court_1) . . . . . . . . . . . . . . . . . . . . . . . 79
IV.3 Préambules de synchronisation pour la deuxième structure de la méthode de
préambules courts (P r_Court_2) . . . . . . . . . . . . . . . . . . . . . . . 81
IV.4 Schéma général de la détection du pic de synchronisation pour les méthodes
de préambules courts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
IV.5 Structure générale de la trame : préambule de synchronisation + symboles
OFDM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
IV.6 Schéma de préambules de synchronisation pour P r_Compact_1 dans le domaine
fréquentiel sur les différentes antennes d’émission . . . . . . . . . . . 84
IV.7 Fonction d’autocorrélation du préambule de P r_Compact_1, LF F T =256 . . 85
IV.8 Représentation du préambule dans le domaine temporel de P r_Compact_1,
LF F T = 256 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
IV.9 Schéma de préambules de synchronisation pour la P r_Compact_2 dans le
domaine fréquentiel sur les différentes antennes d’émission . . . . . . . . . . 88
IV.10 Fonction d’autocorrélation du préambule de P r_Compact_2, LF F T =256 . . 88
IV.11Représentation du préambule dans le domaine temporel de P r_Compact_2,
LF F T = 256 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
IV.12 Schéma des préambules de synchronisation pour P r_Compact_3 dans le domaine
fréquentiel sur les différentes antennes d’émission . . . . . . . . . . . 91
IV.13 Fonction d’autocorrélation du préambule de P r_Compact_3, LF F T =256 . . 91
IV.14Représentation du préambule dans le domaine temporel de P r_Compact_3,
LF F T = 256 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
IV.15 Schéma de préambules de synchronisation pour P r_Compact_4 dans le domaine
fréquentiel sur les différentes antennes d’émission . . . . . . . . . . . 94
IV.16 Fonction d’autocorrélation du préambule de P r_Compact_4, LF F T =256 . . 94
IV.17Représentation du préambule dans le domaine temporel de P r_Compact_4,
LF F T = 256 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95IV.18 Schéma général du préambule de synchronisation de la Z_P ad_1 dans le domaine
fréquentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
IV.19 Schéma de préambules de synchronisation de Z_P ad_1 dans le domaine fré-
quentiel sur les différentes antennes d’émission . . . . . . . . . . . . . . . . 99
IV.20 Fonction d’autocorrélation de la Z_P ad_1, LF F T =256 . . . . . . . . . . . . 100
IV.21Représentation du préambule dans le domaine temporel de Z_P ad_1, LF F T =
256 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
IV.22 Schéma général du préambule de synchronisation de Z_P ad_2 dans le domaine
fréquentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
IV.23 Schéma de préambules de synchronisation de Z_P ad_2 dans le domaine fré-
quentiel sur les différentes antennes d’émission . . . . . . . . . . . . . . . . 103
IV.24 Fonction de corrélation de la Z_P ad_2, LF F T = 256 . . . . . . . . . . . . . 103
IV.25Représentation du préambule dans le domaine temporel de Z_P ad_2, LF F T =
256 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
V.1 Préambules de synchronisation pour un système 2 × 2 (P r_Court_1) . . . . 111
V.2 Probabilité d’acquisition de la synchronisation temporelle de méthode de pré-
ambule court P r_Court_1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
V.3 Probabilité d’acquisition de la synchronisation temporelle en fonction de SNR
et un seuil de détection à 96%, de méthode de préambule court P r_Court_1 . 113
V.4 Probabilité d’acquisition de la synchronisation temporelle en fonction de SNR
et un seuil de détection à 97%, de méthode de préambule court P r_Court_1 . 114
V.5 Probabilité d’acquisition de la synchronisation temporelle en fonction de SNR
et un seuil de détection à 96%, de méthode de préambule court P r_Court_1 . 115
V.6 Probabilité d’acquisition de la synchronisation temporelle en fonction de SNR
et un seuil de détection à 98%, de méthode de préambule court P r_Court_1 . 116
V.7 Probabilité d’acquisition de la synchronisation temporelle dans un canal de
à trajets-multiples + AWGN, seuil = 91%, de méthode de préambule court
P r_Court_2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117V.8 Probabilité d’acquisition de la synchronisation temporelle dans un canal à trajets
multiples + AWGN, seuil = 89%, de méthode de préambule court P r_Court_2118
V.9 Comparaison de la probabilité d’acquisition de la synchronisation temporelle
de méthode de préambule court P r_Court_2 avec différents seuils et séquences119
V.10 Structure de préambule dans le domaine fréquentiel sur chaque antenne d’émission
- P r_Compact_1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
V.11 Probabilité d’acquisition de synchronisation temporelle de méthode de préambule
compact P r_Compact_1 avec LF F T = 1024 . . . . . . . . . . . . . . . 123
V.12 Probabilité d’acquisition de synchronisation temporelle de méthode de préambule
compact P r_Compact_1 avec LF F T = 512 . . . . . . . . . . . . . . . 124
V.13 Comparaison entre P r_Compact_1 et la méthode de préambule de sous-bande
dans [5],LF F T = 256 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
V.14 Structure de préambule dans le domaine fréquentiel sur chaque antenne d’émission
- P r_Compact_2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
V.15 Performances de la synchronisation temporelle de la méthode de préambule
compact P r_Compact_2, LF F T = 1024 . . . . . . . . . . . . . . . . . . . . 126
V.16 Performances de la synchronisation temporelle de la méthode de préambule
compact P r_Compact_2, LF F T = 512 . . . . . . . . . . . . . . . . . . . . 127
V.17 Comparaison entre P r_Compact_2 et la méthode de préambule de sous-bande
dans [5], LF F T = 256 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
V.18 Structure de préambule dans le domaine fréquentiel sur chaque antenne d’émission
- P r_Compact_3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
V.19 Performances de probabilité de la synchronisation temporelle de la méthode
de préambule compact P r_Compact_3, LF F T = 1024 . . . . . . . . . . . . 130
V.20 Performances de probabilité de la synchronisation temporelle de la méthode
de préambule compact P r_Compact_3 (LF F T = 512) . . . . . . . . . . . . 130
V.21 Comparaison entre P r_Compact_3 et la méthode de préambule de sous-bande
dans [5], LF F T = 256 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131V.22 Structure de préambule dans le domaine fréquentiel sur chaque antenne d’émission
- P r_Compact_4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
V.23 Performances de probabilité de la synchronisation temporelle de la méthode
de préambule compact P r_Compact_4 (LF F T = 1024) . . . . . . . . . . . . 133
V.24 Performances de probabilité de la synchronisation temporelle de la méthode
de préambule compact P r_Compact_4 (LF F T = 512) . . . . . . . . . . . . 133
V.25 Comparaison entre P r_Compact_4 et la méthode de préambule de sous-bande
dans [5], LF F T = 256 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
V.26 Comparaison entre les quatres méthodes de préambule compact, LF F T =
1024, MIMO-OFDM 2 × 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
V.27 Comparaison entre les quatres méthodes de préambule compact, LF F T =
1024, MIMO-OFDM 4 × 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
V.28 Structure générale de préambule de (Z_P ad_1) dans le domaine fréquentiel . 137
V.29 Performances de probabilité de la synchronisation temporelle de la méthode
de zero padding Z_P ad_1, LF F T = 1024 . . . . . . . . . . . . . . . . . . . 138
V.30 Performances de la synchronisation temporelle de la méthode de zero padding
Z_P ad_1, LF F T = 512 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
V.31 Comparaison entre la méthode de zero padding Z_P ad_1 et la méthode de
préambule de sous-bande dans [5], LF F T = 256 . . . . . . . . . . . . . . . . 139
V.32 Structure générale du préambule de synchronisation de la méthode de zéro
padding Z_P ad_2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
V.33 Performances de la synchronisation temporelle de la méthode de zero padding
Z_P ad_2, LF F T = 1024 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
V.34 Performances de la synchronisation temporelle de la méthode de zero padding
Z_P ad_2, LF F T = 512 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
V.35 Comparaison entre Z_P ad_2 et la méthode de préambule de sous-bande dans [5],
LF F T = 256 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143ACRONYM
3GPP 3rd Generation Partnership Project
AWGN Additive White Gaussian Noise
BLAST Bell Laboratories Layered Space-Time
CAN Convertisseur Analogique Numérique
CAZAC Constant Amplitude Zero AutoCorrelation
CDMA Code Division Multiplexing Systems
CFO Carrier Frequency Offset
CNA Convertisseur Numérique Analogique
CP Cyclic Prefix
DAB Digital Audio Broadcasting
DFT Discrete Fourier Transform
DS-CDMA Direct Sequence-Code Division Multiple Access
DTMB Digital Terrestrial/Television Multimedia Broadcasting
DVB Digital Video Broadcasting
FFT Fast Fourier Transform
GCL Generalized Chirp-Like
GI Guard Interval
GPS Global Positioning System
HSPA+ evolved High-Speed Packet Access
ICI Inter-Carrier Interference
IDFT Inverse Discrete Fourier Transform
IFFT Inverse Fast Fourier TransformISI Inter-Symbol Interference
LAN Local Area Network
LS Loosely Synchronous
LTE Long Term Evolution
MAI Multiple Access Interference
MIMO Multiple Input and Multiple Output
MMSE Minimum Mean Squared Error
MRRC Maximal Ratio Receive Combining
MSE Mean Square Error
NO-STBC Non Orthogonal Space-Time Block Codes
O-STBC Orthogonal Space-Time Block Codes
OFDM Orthogonal Frequency Division Multiplexing
PAPR Peak-to-Average Power Ratio
PN Pseudo Noise Sequence
PSK Phase Shift Keying
Q-STBC Quasi-orthogonal Space-Time Block Codes
QAM Quadrature Amplitude Modulation
QPSK Quadrature Phase Shift Keying
RFO Residual Frequency Offset
STBC Space-Time Block Codes
STC Space Time Code
STTC Space-Time Trellis Codes
SUI Stanford University Interim
UPSP Unequal Period Synchronization Patterns
WLAN Wireless Local Area Network
Wi-Fi WIreless FIdelity
WiMax Worldwide Interoperability for Microwave Access
ZCZ Zero Correlation Zone
ZF Zero ForcingNOTATION
Symbole Description
Ts Durée d’un symbole OFDM (sans CP)
Td Durée de données dans un symbole OFDM
PSY NC Probabilité d’acquisition de synchronisation temporelle
Nsc Nombre de sous-porteuses
∆f Espacement minimal entre les sous-porteuses pour garder l’orthogonalité
Tg Durée du préfixe cyclique
Ttot Durée totale d’un symbole OFDM
Gk Coefficient d’égalisation
Hk Réponse fréquentielle du canal
xk Symboles complexes modulés
Ti Antenne i d’émission
Rj Antenne j de réception
fk Fréquence de sous-porteuses
si(t) Signal OFDM transmis
fc Fréquence centrale du signal
fe Fréquence d’échantillonage
τmax Délai maximum de propagation dans un canal à trajets multiples
r(t) Signal OFDM reçu
w(t) Bruit blanc additif gaussien (AWGN)
Nt Nombre d’antennes à l’émissionNr Nombre d’antennes en réception
(.)
† Opération de transconjugué
H Matrice du canal MIMO
N0 Densité spectrale de puissance monolatérale du bruit blanc
S Matrice du codeur d’Alamouti
I Matrice identité
Vs Vecteur des signaux transmis
Vr Vecteur des signaux récus
Vw Vecteur de AWGN
Lij Nombre total de trajets multiples entre Ti et Rj
lij Trajet entre Ti et Rj
αlij Gain du trajet lij
θlij Phase du trajet lij
Tlij Retard du trajet lij
Fetx Fréquence d’échantillonnage à l’emission
Ferx Fréquence d’échantillonnage à la réception
Fptx Fréquence porteuse à l’emission
Fprx Fréquence porteuse à la réception
Rxx Fonction d’autocorrélation
Rxy Fonction d’intercorrélation
⊗ Ou-exclusif
W H Matrice Walsh-Hadamard
xu Préambule de synchronisation dans le domaine temporel
Xu Préambule de synchronisation dans le domaine fréquentiel
Fm Nombres de Fermat
LCP Taille du CP
Lpr Taille du préambule
LF F T Taille de FFT/IFFT
LC Taille de la séquence de synchronisationseqj Séquence locale sur Rj
Lseq Taille de la séquence locale seqj
ˆindk Estimation de la synchronisation temporelle
(.)
∗ Operation du conjugué
P r_Court_1 Première méthode de préambule court
P r_Court_2 Deuxième méthode de préambule court
P r_Compact_1 Première méthode de préambule compact
P r_Compact_2 Deuxième méthode de préambule compact
P r_Compact_3 Troisième méthode de préambule compact
P r_Compact_4 Quatrième méthode de préambule compact
Z_P ad_1 Première méthode de zéro padding
Z_P ad_2 Deuxième méthode de zéro padding
thb Seuil de détection estiméCHAPITRE I
INTRODUCTION GÉNÉRALE
La présente thèse s’est déroulée dans le cadre de la collaboration entre l’université
Libanaise et le réseau UT-INSA, dont l’objectif est de former par la recherche
des doctorants Libanais dans les laboratoires de l’Université Libanaise
et des établissements des réseaux UT et INSA. Le programme porte sur la mise
en place de cotutelles de thèse. Les travaux de recherche sont réalisés dans les
laboratoires de l’Université Libanaise et du réseau UT-INSA selon un principe
d’alternance qui est défini dans la convention de cotutelle de thèse signée entre
l’université Libanaise et l’Etablissement du réseau UT INSA qui accueille le doctorant.
Dans ce contexte, cette thèse en cotutelle s’est effectuée entre le laboratoire
IETR de l’INSA de Rennes et le groupe GET de l’université Libanaise. Elle s’articule
autour des systèmes MIMO-OFDM. Ces systèmes sont équipés de plusieurs
antennes d’émission et de plusieurs antennes de réception, afin d’augmenter soit
la capacité de Shannon associée aux traditionnels systèmes SISO (Single Input /
Single Output), soit accroître la fiabilité.
L’évolution rapide dans les systèmes de communications sans-fil et l’utilisation
de téléphone mobile, les services satellite, l’internet sur les réseaux sans fil
et les réseaux locaux ont besoin de débit de données très élevé et d’une grande
1CHAPITRE I. INTRODUCTION GÉNÉRALE
fiabilité. Ces débits ont augmenté rapidement dans les nouvelles applications de
transmission de données de nouvelle génération. Pour répondre aux contraintes de
la limitation du spectre disponible, les systèmes à porteuses multiples possèdent
également une haute efficacité spectrale à cause de l’orthogonalité et le débit total
s’approche du débit de Nyquist. Toutefois, le débit maximum atteignable est limité
par la capacité de Shannon. La technique de multiplexage par répartition orthogonale
de la fréquence (Orthogonal Frequency Division Multiplexing (OFDM))
est devenue incontournable dans les systèmes de transmission sans fil. L’OFDM a
été adopté dans plusieurs normes sans fil telles que les systèmes de radiodiffusion
numérique terrestre (Digital Audio Broadcasting (DAB)), la télédiffusion numé-
rique terrestre (Digital Video Broadcasting-Terrestrial (DVB-T)), la norme IEEE
802.11a/g / Wi-Fi [1] et le réseau local (Local Area Network (LAN)) de norme
IEEE 802.16a/WiMax [2]. Il est également utilisé dans les systèmes mobiles sans
fil MC-HSPA (Multi Carrier-High Speed Packet data Access) de troisième géné-
ration, et dans les réseaux mobiles de nouvelle génération (Long Term Evolution
(LTE)) et 4G.
D’autre part, l’approche du système de transmission à multi-entrées/multisorties
(Multiple Input-Multiple Output (MIMO)), peut produire des gains importants,
à la fois, pour les liens et les capacités du réseau, sans transmission de
puissance supplémentaire ou sans consommation de bande passante supplémentaire.
Des données identiques sont codées et transmises par différentes antennes,
ce gain de diversité est utilisé pour combattre les évanouissements du canal et
pour augmenter les performances au niveau de la réception. L’autre cas d’utilisation
des techniques MIMO est celui du gain en capacité, différentes données sont
transmises sur différentes antennes pour augmenter le débit de transmission.
Les signaux transmis subissent des réfractions et diffractions causées par les
arbres, les bâtiments, les mouvements de personnel, les véhicules et les autres
2équipements qui se déplacent dans l’environnement de transmission. Ces signaux
reçus sont atténués et affectés par les différents canaux de transmission.
Dans les systèmes OFDM et plus généralement dans les systèmes MIMOOFDM,
la synchronisation est une question importante. Elle se divise en deux
parties, la synchronisation temporelle et la synchronisation fréquentielle. La synchronisation
temporelle se fait, d’une part par la synchronisation grossière qui
consiste à estimer le début de chaque trame reçue, et d’autre par la synchronisation
fine qui détecte le début de chaque symbole OFDM dans la trame reçue. Le
principe de la synchronisation fréquentielle est de trouver le déphasage de fré-
quence entre les fréquences à l’émission et à la réception.
Une erreur de synchronisation entraîne la perte de l’orthogonalité des sousporteuses
du début de trames reçues et donc une dégradation de la performance
du système. C’est pourquoi il est important d’avoir un algorithme de synchronisation
robuste à la réception, et de connaître son effet sur les performances du
système.
Ce document est divisé en quatre chapitres.
Dans le premier chapitre, une brève introduction des techniques de transmission
OFDM et MIMO-OFDM est présentée. Les systèmes OFDM consistent à diviser
la bande passante en plusieurs sous-porteuses orthogonales. L’insertion d’un
préfixe cyclique (Cyclic Prefix (CP)), dans un système OFDM, permet d’éviter
l’interférence entre symboles (Inter Symbol Interference (ISI)) et l’interférence
entre porteuses (Inter Carrier Interference (ICI)). Les modulateur et démodulateur
OFDM sont réalisés par les deux fonctions IFFT (Inverse Fast Fourier Transform)
et FFT (Fast Fourier Transform) respectivement. Dans la deuxième partie de ce
chapitre, la technique et les schémas d’implémentations du système MIMO, basés
3CHAPITRE I. INTRODUCTION GÉNÉRALE
sur la technologie de réseaux d’antennes à l’émission et à la réception sont introduits.
Ensuite, la mise en oeuvre de la combinaison MIMO-OFDM est présentée.
Nous expliquerons finalement le problème de synchronisation. Dans tout système
de communication, les émetteurs et les récepteurs doivent être synchronisés au niveau
de la couche physique avant toute analyse des données par les applications.
Un format spécial de séquences est généralement utilisé pour la synchronisation.
Ces séquences sont appelées séquences de synchronisation.
Dans le deuxième chapitre, nous évoquons les différents types de séquences
de synchronisation pour les systèmes MIMO-OFDM. Nous comparons les performances
de ces séquences au niveau de leurs fonctions d’autocorrélation et d’intercorrélation.
Le troisième chapitre est consacré à la proposition de nouvelles méthodes de
synchronisation temporelle. Un préambule de synchronisation est ajouté au dé-
but de chaque trame de données. Plusieurs méthodes basées sur les formes de
séquences sont discutées. A la réception, et dans un canal à trajets multiples, une
fonction d’autocorrélation ou d’intercorrélation est appliquée pour estimer le pic
de la synchronisation temporelle.
Le quatrième et dernier chapitre concerne l’analyse des performances des mé-
thodes proposées, à travers les résultats de simulations de la probabilité d’acquisition
de synchronisation. Une comparaison des résultats des méthodes proposées
avec ceux des méthodes existantes est effectuée.
4Bibliographie
[1] Institute of Electrical and Electronics Engineers, IEEE 802.11g : Wireless
LAN Medium Access Control (MAC) and Physical Layer (PHY) specifications
: Further Higher Data Rate Extension in the 2.4 GHz Band, 2003.
[2] Institute of Electrical and Electronics Engineers, IEEE 802.16a : Air Interface
for Fixed and Mobile Broadband Wireless Access Systems : Medium Access
Control Modifications and Additional Physical Layer Specifications for 2-11
GHz, Apr. 2003.
5CHAPITRE I. INTRODUCTION GÉNÉRALE
6CHAPITRE II
CONTEXTE DE L’ÉTUDE : SYSTÈMES
MULTI-PORTEUSES ET MULTI-ANTENNES
Sommaire
II.1 La technique OFDM . . . . . . . . . . . . . . . . . . . . . . 11
II.1.1 Chaîne de transmission d’un système OFDM . . . . . 12
II.1.2 Expression du signal OFDM . . . . . . . . . . . . . . 14
II.1.3 Préfixe cyclique (CP) . . . . . . . . . . . . . . . . . . 16
II.1.4 Avantages et inconvénients de l’OFDM . . . . . . . . 17
II.1.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . 18
II.2 La technique MIMO . . . . . . . . . . . . . . . . . . . . . . 19
II.2.1 Principe de la technique MIMO . . . . . . . . . . . . 19
II.2.2 Codage temps-espace (STC) . . . . . . . . . . . . . . 21
II.3 La combinaison MIMO-OFDM . . . . . . . . . . . . . . . 24
II.3.1 Canal MIMO . . . . . . . . . . . . . . . . . . . . . . 25
II.3.2 Conclusion . . . . . . . . . . . . . . . . . . . . . . . 28
II.4 La synchronisation . . . . . . . . . . . . . . . . . . . . . . . 28
II.4.1 La synchronisation fréquentielle . . . . . . . . . . . . 29
II.4.2 La synchronisation temporelle . . . . . . . . . . . . . 32
II.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
7CHAPITRE II. SYSTÈMES MULTI-PORTEUSES ET MULTI-ANTENNES
Depuis leur développement dans les années 1990, les techniques de transmissions
multi-porteuses, encore appelées couramment OFDM, ont donné lieu à de
nombreux standards de communications, qu’ils soient filaires ou sans fil. Ainsi,
cette technique est-elle utilisée par les systèmes de télédiffusion numérique terrestre
(Digital Video Broadcasting (DVB)-T), par la norme IEEE 802.11a/g (WIreless
FIdelity (Wi-Fi)) [1, 2], par la norme IEEE 802.16 a (Worldwide Interoperability
for Microwave Access (WiMax)) [3]. L’OFDM est utilisé également dans
les systèmes mobiles sans fil MC-HSPA (Multi Carrier-High Speed Packet data
Access) de troisième génération et dans les réseaux mobiles de nouvelle génération
(LTE).
Ce principe de multiplexage fréquentiel a évolué dans les années 60 vers la
parallélisation en fréquence des informations à transmettre [4]. Les données de
durée Td très courte sont réparties sur plusieurs canaux fréquentiels modulés à bas
débit. Ces canaux correspondent à un ensemble de Nsc sous-porteuses orthogonales
entre elles. Les symboles transmis sur chaque sous-porteuse ont une durée
T s = Nsc.Td, où Ts est la durée d’un symbole.
Pour que la technique OFDM soit efficace, il est important d’assurer la noninterférence
entre sous-porteuses, en limitant le recouvrement entre les sous-canaux.
Pour cela, l’orthogonalité entre les sous-porteuses sera garantie par la fonction
porte de mise en forme utilisée comme support temporel. Cette fonction porte engendre
un spectre en sinus cardinal pour chacune des sous-porteuses. La condition
d’orthogonalité est obtenue en choisissant un espacement entre les sous-porteuses
minimal (∆f =
1
Ts
).
8Depuis une dizaine d’année, les applications basées sur internet (IP) se sont
fortement développées et les systèmes de télécommunications sont soumis à une
demande accrue en débit et qualité de service. Pour les communications sans fil,
une nouvelle technique est apparue et est basée sur l’utilisation de plusieurs antennes,
indépendantes ou non, tant en émission qu’en réception. Cette technique
MIMO, pour Multiple-Input/Multiple-Output, permet d’envoyer des informations
en parallèle depuis plusieurs antennes d’émission et de les combiner à la réception,
pour accroître le débit ou assurer de meilleures performances. Ce concept
a été introduit par J.Winters [5] en 1987 pour des systèmes de communications
basiques, puis les laboratoires "Bell Labs" ont élaboré un démonstrateur BLAST
(Bell Laboratories Layered Space-Time) en 1996 exhibant des efficacités spectrales
de l’ordre de 40 bit/s/Hz avec un réseau d’antennes 8×8. Les études sur ces
systèmes ont montré un gain non négligeable de capacité du canal [6], permettant
d’atteindre les débits requis par les applications de type IP. Les systèmes actuels,
qui ne sont pourvus que d’une antenne à l’émission et à la réception (Single Input/Single
Output (SISO)) ne tirent parti que de la diversité temporelle et/ou fré-
quentielle. Les systèmes MIMO permettront de profiter d’un ordre supplémentaire
de diversité apporté par cette dimension spatiale.
Plusieurs schémas d’implémentations du système MIMO sont possibles : ils
diffèrent par la procédure utilisée à l’émission de données, et par le nombre d’antennes
utilisées au niveau de l’émetteur ou du récepteur. Afin d’optimiser la diversité
spatiale du canal de transmission et de réduire les effets d’évanouissements du
canal, les techniques mises en œuvre concernent le codage en blocs temps-espace
(Space-Time Block Codes (STBC)) [7, 8] et les codes temps-espace de treillis
(Space Time Trellis Codes (STTC)) [9].
Il semble alors naturel de combiner les deux techniques OFDM et MIMO, afin
de converger vers un système MIMO-OFDM. Notons que la combinaison entre
9CHAPITRE II. SYSTÈMES MULTI-PORTEUSES ET MULTI-ANTENNES
ces techniques est présentée dans la norme 802.11n [10]. Cette combinaison permet
d’exploiter les diversités temporelles, fréquentielles et spatiales. En effet, les
codes temps-espace tirent profit de la diversité spatiale, mais ne sont pas conçus
pour exploiter celle des canaux sélectifs en fréquence. Pourtant, les futurs systèmes
de communications poussés par les besoins en débit, utilisent des bandes de
fréquence de plus en plus importantes, où le canal est alors sélectif en fréquence.
Une façon d’exploiter la diversité fréquentielle dans le contexte MIMO est de recourir
à l’OFDM et de le combiner au codage temps-espace (Space Time Code
(STC)). Suivant la nature du codage, plusieurs associations sont réalisables et le
lecteur pourra se référer à [11] pour une présentation assez complète des combinaisons.
Parmi les études à l’IETR, nous pouvons citer les travaux de thèse de J.
M. Auffray [12] et C. LeGuellaut [13].
Dans tous les systèmes de communications sans fil et surtout dans les systèmes
OFDM et MIMO-OFDM, la synchronisation est primordiale. Les récepteurs
ne connaissent pas le début et la fin des symboles OFDM, donc le placement
de la fenêtre FFT. Par ailleurs, ils disposent de leur propre fréquence d’échantillonnage,
asynchrone avec celle de l’émetteur. Ces deux points font apparaître
deux notions de synchronisation : temporelle et fréquentielle. Une erreur de synchronisation
temporelle en réception peut entraîner la perte de l’orthogonalité des
sous-porteuses. C’est pourquoi il est important d’avoir un algorithme de synchronisation
robuste et de connaître son effet sur les performances du système.
Dans ce chapitre, nous donnerons d’abord un court rappel des techniques de
modulation OFDM et MIMO, tout en décrivant leurs architectures. Ensuite, la
mise en œuvre de la combinaison MIMO-OFDM est présentée. Nous expliquerons
finalement le problème de synchronisation.
10II.1. LA TECHNIQUE OFDM
II.1 La technique OFDM
Dans la technique OFDM, la bande de fréquence disponible est divisée en
plusieurs sous-canaux orthogonaux, porteurs de symboles indépendants. Le signal
OFDM est la somme de tous ces symboles de données portés par les sousporteuses.
Comme chacune des porteuses occupe une bande très étroite, les distorsions
d’amplitude et de retard introduites par le canal sont quasi plates et peuvent
être facilement égalisées. Chang a montré dans [4] qu’un certain nombre de porteuses
portant chacune un débit b et qui sont espacées en fréquence de b/2 pourraient
être transmises sans interférences entre symboles (ISI) et entre porteuses
(ICI) et que le taux de transmission peut atteindre la limite de Nyquist [14] lorsque
le nombre de sous-canaux est très grand.
Saltzberg [15] a analysé les performances des systèmes OFDM et conclut que
l’efficacité d’un système OFDM doit s’appuyer sur la réduction de l’interférence
entre les porteuses adjacentes. Afin de réaliser simplement le multiplex fréquentiel
orthogonal, Saltzberg et Weinstein [16] ont montré que l’utilisation de la transformée
de Fourier discrète (Discrete Fourier Transform (DFT)) permet de produire
facilement le symbole OFDM porté par Nsc de sous-porteuses orthogonales. Par
ailleurs, les perturbations du canal de propagation induisent, entre autre, la perte
d’orthogonalité entre les sous-porteuses et l’apparition d’interférences entre symboles
OFDM, ou ISI, dues aux trajets multiples. Pour éliminer celles-ci, une solution
consiste à accroître le nombre Nsc de sous-porteuses pour augmenter la
durée symbole Ts. Cependant cette technique se heurte à différentes contraintes
technologiques ou environnementales. Une autre technique consiste à l’insertion
d’un intervalle de garde [17] ou préfixe cyclique (CP) d’une durée Tg, supérieure
ou égale à l’étalement maximal de la réponse impulsionnelle du canal. Le CP est
en général une copie de la dernière partie d’un symbole OFDM. Dès lors la partie
utile Ts de chaque symbole OFDM ne sera plus affectée par les ISI. La durée totale
11CHAPITRE II. SYSTÈMES MULTI-PORTEUSES ET MULTI-ANTENNES
Ttot du symbole OFDM se voit donc augmentée et devient égale Ttot = Ts + Tg.
II.1.1 Chaîne de transmission d’un système OFDM
La chaîne de transmission dans les systèmes OFDM se divise en deux parties,
l’émetteur et le récepteur. A l’émission, les bits de la source binaire sont modulés
et génèrent des symboles complexes prenant leurs valeurs dans un alphabet fini
correspondant à une modulation numérique donnée comme la modulation d’amplitude
en quadrature (Quadrature Amplitude Modulation (QAM)) ou la modulation
par sauts de phase (Phase-shift keying (PSK)). Ces symboles xk sont répartis
sur les Nsc sous-porteuses. Les sous-porteuses dans le domaine fréquentiel sont
espacées de ∆f =
1
Ts
.
La transformée de Fourier discrète inverse (Inverse Fast Fourier Transform
(IFFT) ou Inverse Discrete Fourier Transform (IDFT)) permet de générer le signal
dans le domaine temporel constitué de Nsc échantillons. En général, toutes
les Nsc sous-porteuses sont modulées en utilisant les symboles de données, mais
certaines sous-porteuses sont des porteuses pilotes. Les pilotes (Estimation Pilots
(EP)) sont connus au niveau des émetteurs et des récepteurs et sont utilisés pour
l’estimation du canal. Le nombre de pilotes insérés entre les données dépend du
canal et de la précision requise pour l’estimation de canal. Les symboles pilotes
peuvent être répartis sur plusieurs symboles OFDM consécutifs. Après la fonction
IDFT, le préfixe cyclique (CP) de longueur Tg est ajouté pour éliminer l’interfé-
rence entre symboles tout en gardant l’orthogonalité entre les sous-porteuses. Le
symbole OFDM est alors transmis à l’étage radio-fréquence comportant la conversion
numérique-analogique et la translation sous fréquence porteuse.
La figure II.1 représente le schéma général d’un système de transmission OFDM
en bande de base.
12II.1. LA TECHNIQUE OFDM
Fig. II.1 – Schéma bloc d’un système de transmission OFDM
En réception, le CP qui peut présenter de l’interférence avec des symboles adjacents
est enlevé et le symbole OFDM est remis au démodulateur. Celui-ci réalise
une transformée de Fourier (FFT) qui transpose les symboles OFDM, porteurs de
données utiles et/ou de pilotes, du domaine temporel au domaine fréquentiel.
En raison des distorsions induites par le canal de transmission, la correction
de celui-ci consiste en une pondération sur chaque sous-porteuse. Les coefficients
de pondération sont obtenus grâce aux symboles pilotes, dont la valeur est connue
au niveau du récepteur. L’égalisation de canal consiste, à partir des coefficients du
canal H(k), à générer les coefficients d’égalisation permettant de compenser les
effets du canal. L’égalisation est effectuée dans le domaine fréquentiel. Il existe
différentes techniques d’égalisation, les plus utilisées étant les techniques de for-
çage à zéro (Zero Forcing (ZF)) et la méthode des moindres carrés (Minimum
Mean Squared Error (MMSE)) [18].
13CHAPITRE II. SYSTÈMES MULTI-PORTEUSES ET MULTI-ANTENNES
L’égaliseur ZF permet d’annuler complètement la dispersion apportée par le
canal. Il applique l’inverse de la réponse fréquentielle du canal Hk. Le coefficient
Gk d’égalisation s’exprime :
Gk =
1
Hk
=
H∗
k
|Hk|
2
(II.1)
Ainsi, la combinaison de canal et l’égaliseur ZF donne une réponse fréquentielle
uniforme et une phase linéaire Gk ∗ Hk = 1. Cependant, l’égaliseur ZF
ignore la présence de bruit blanc additif gaussien (Additive White Gaussian Noise
(AWGN)). De plus, en présence d’évanouissements profonds, il amplifie le terme
de bruit, dégradant alors les performances globales du système.
La technique MMSE nécessite une estimation du rapport signal à bruit (Signalto-Noise
Ratio (SNR)) sur chacune des sous-porteuses. Cette technique tient compte
du rapport signal à bruit dans le calcul du coefficient d’égalisation. Le coefficient
d’égalisation de MMSE s’exprime par :
Gk =
H∗
k
|Hk|
2 +
1
γk
avec Hk 6= 0 (II.2)
Le coefficient γk est calculé à partir de l’estimation du rapport signal à bruit
par sous-porteuse, induisant une complexité supplémentaire.
Après l’égalisation, les symboles de données sont démodulés selon la technique
de modulation numérique utilisée à l’émission afin de récupérer les bits
transmis.
II.1.2 Expression du signal OFDM
Les symboles complexes xk sont répartis sur les Nsc sous-porteuses de fré-
quences fk = f0 + k∆f = f0 + k/Ts, k ∈ [0, Nsc − 1] avec f0 la plus petite
14II.1. LA TECHNIQUE OFDM
sous-porteuse. L’espacement entre les sous-porteuses est ∆f =
1
Ts
, cet espacement
est le critère d’orthogonalité pour le système OFDM. Le signal OFDM peut
s’exprimer soit dans le domaine temporel, soit dans le domaine fréquentiel. L’expression
normalisée du signal OFDM transmis sur l’antenne d’émission Ti est
donnée par :
si(t) = 1
p
Nsc
N
Xsc−1
k=0
ℜe
xkΠ(t)e
j.2π.fk.t
(II.3)
où 1
p
Nsc
est le terme de normalisation en puissance.
L’équation II.3 s’exprime :
si(t) = 1
p
Nsc
N
Xsc−1
k=0
ℜe
xkΠ(t)e
j2π
f0+
k
Ts
t
(II.4)
Soit fc la fréquence centrale du signal, telle que fc = f0 +
Nsc
2
.
1
Ts
, on obtient
pour expression de s :
si(t) = ℜ
Π(t)e
j2πfct
N
Xsc−1
k=0
p
xk
Nsc
e
j2π
k−
Nsc
2
t
Ts
(II.5)
qui peut encore s’exprimer par :
si(t) = ℜ
X(t)Π(t)e
j2πfct
(II.6a)
où X est l’enveloppe complexe du signal modulé et s’écrit :
Xi(t) =
N
Xsc−1
k=0
p
xk
Nsc
e
j2π
k−
Nsc
2
t
Ts (II.7)
Le spectre de Xi(t) est compris dans l’intervalle [−Nsc/2Ts, Nsc/2Ts]. D’après
le théorème de Shannon, la fréquence d’échantillonnage pour construire le signal
Xi est fe = Nsc/Ts. L’équation II.7 peut s’exprimer :
15CHAPITRE II. SYSTÈMES MULTI-PORTEUSES ET MULTI-ANTENNES
Xi
nTs
Nsc
=
N
Xsc−1
k=0
p
xk
Nsc
e
j2πn
k − Nsc/2
Nsc
(II.8a)
Xi
nTs
Nsc
= (−1)n
N
Xsc−1
k=0
p
xk
Nsc
e
j2πn
k
Nsc
| {z }
IFFT
(II.8b)
L’équation II.8b montre qu’un modulateur OFDM est réalisé par une transformée
de Fourier inverse (IFFT) de taille Nsc. La sortie de l’IFFT est un signal
discret dans le domaine temporel avec un intervalle d’échantillonnage Ts/Nsc où
Ts est la durée d’un symbole OFDM sans l’intervalle de garde (CP). A la ré-
ception, une transformation de Fourier discrète directe (FFT) du signal reçu est
réalisée pour retrouver les symboles émis.
II.1.3 Préfixe cyclique (CP)
Comme précisé précédemment, il est nécessaire de rajouter le CP de durée
Tg après l’opération de IFFT. Le CP est une copie de la dernière partie du symbole
OFDM comme indique la figure II.2. Pour éliminer complètement les interfé-
rences entre symboles, la taille du CP doit être plus grande que le délai maximum
(τmax) de propagation dans un canal à trajets multiples soit Tg ≥ τmax.
Notons qu’après son insertion, l’espacement entre les sous-porteuses est toujours
∆f = 1/Ts, alors que la durée des symboles OFDM est Ttot = Ts + Tg,
ce qui entraîne la perte d’orthogonalité entre les sous-porteuses. Au niveau du
récepteur, la condition d’orthogonalité entre les sous-porteuses sera restaurée si
durant la fenêtre rectangulaire de durée Ts, chacune des composantes sinusoïdales
du symbole OFDM comprend un nombre entier de périodes même en présence
d’un canal dispersif en temps. La suppression de l’intervalle de garde permet de
restituer l’orthogonalité entre les sous-porteuses. De plus, comme l’intervalle de
16II.1. LA TECHNIQUE OFDM
Préfixe
cyclique
Données utiles
Tg Ts
Ttot
Tg
Temps de
données utiles
Temps total du
symbole
Temps
du CP
߬௫
Trajets
multiples
Fig. II.2 – Illustration de la protection contre les interférences entre symboles OFDM
assurée par le CP
garde est la recopie des échantillons de fin de symbole OFDM, cet intervalle peut
être exploité pour la synchronisation temporelle du signal OFDM.
Le canal de propagation sera modélisé par sa réponse impulsionnelle h(t). Le
signal reçu est le signal transmis convolué avec la réponse impulsionnelle du canal
auquel se rajoute du bruit. Soit r(t) le signal OFDM reçu, ce signal est présenté
dans l’équation II.9 :
r(t) = s(t) ∗ h(t) + w(t) (II.9)
où w(t) est le bruit blanc additif gaussien (AWGN).
II.1.4 Avantages et inconvénients de l’OFDM
Les avantages de la technique OFDM sont nombreux :
1. Le modulateur et le démodulateur peuvent être réalisés en utilisant une IFFT
et une FFT respectivement.
17CHAPITRE II. SYSTÈMES MULTI-PORTEUSES ET MULTI-ANTENNES
2. La technique OFDM dispose d’une très grande flexibilité tant dans l’allocation
de bits par sous-porteuse que dans l’allocation de débit dans un contexte
multi-utilisateurs.
3. Les interférences entre symboles (ISI) et entre porteuses (ICI) peuvent être
évitées à l’émission et corrigées en réception.
4. Les techniques multi-porteuses sont robustes en termes d’égalisation.
Malgré ces avantages, l’OFDM présente quelques points faibles :
1. L’OFDM est sensible au décalage fréquentiel qui peut causer une perte d’orthogonalité
entre les sous-porteuses.
2. L’OFDM est sensible aux non linéarités des amplificateurs. Le signal peut
présenter un PAPR (Peak to Average Power Ratio) très élevé, engendrant la
saturation des blocs analogiques [19].
II.1.5 Conclusion
Le principe de la technique OFDM consiste à répartir un flux de données à haut
débit sur plusieurs flux à faible débit. Ces derniers sont transmis simultanément
sur des sous-porteuses orthogonales. La somme de ces sous-porteuses constitue le
signal OFDM transmis. Le signal transmis se propage dans un canal à trajets multiples
et subit des distorsions. A la réception, des versions décalées du même signal
sont reçues avec des interférences entre symboles OFDM. Pour éliminer cette
interférence, un préfixe cyclique (CP) de durée supérieure à l’étalement maximal
des retards du canal est ajouté au début de chaque symbole OFDM à l’émission.
En réception, les opérations inverses sont réalisées, ainsi que les opérations d’estimation
et d’égalisation du canal.
18II.2. LA TECHNIQUE MIMO
II.2 La technique MIMO
Les systèmes multi-antennes (MIMO) ont été introduits par Jack Winters [5]
pour les laboratoires Bell. Les systèmes MIMO [20] utilisent un réseau d’antennes
à la fois en émission et en réception. Le principe du MIMO s’est fortement dé-
veloppé dans les communications sans fil car il peut augmenter le débit de transmission
sans accroître la bande passante ou la puissance d’émission. Il atteint cet
objectif en répartissant la puissance d’émission sur les différentes antennes.
Deux approches sont possibles pour la mise en œuvre de systèmes MIMO :
l’approche dite de "multiplexage spatial" et l’approche dite de "diversité spatiale".
Dans le premier cas, on cherche à augmenter le débit, alors que le second s’attache
à minimiser le taux d’erreur binaire (TEB).
Ces systèmes MIMO ont été proposés dans plusieurs normes de communication
sans fil modernes telles que IEEE 802.11n (Wi-Fi), la 4G, le LTE, la 3GPP
(3rd Generation Partnership Project), WiMax et HSPA+ (evolved High-Speed Packet
Access).
II.2.1 Principe de la technique MIMO
Les techniques MIMO utilisent un réseau d’antennes à l’émission et à la ré-
ception. Ces techniques présentent de bonnes performances dans les canaux à trajets
multiples, mais ces derniers provoquent aussi les problèmes des interférences
entre les symboles transmis (ISI) [21]. Les techniques MIMO mises en œuvre se
divisent en trois catégories :
1. La diversité spatiale MIMO [22, 23] : La diversité spatiale consiste à envoyer
le même flux de données simultanément sur les différentes antennes
à l’émission. A la réception, plusieurs répliques du signal sont reçues sur
chacune des antennes et sont combinées de façon cohérente. Cette combi-
19CHAPITRE II. SYSTÈMES MULTI-PORTEUSES ET MULTI-ANTENNES
naison permet de réduire l’atténuation du signal et de compenser les évanouissements
introduits par le canal de transmission. Cette diversité nécessite
l’usage de codes temps-espace comme les codes d’Alamouti [7] dont
le rendement est de 1. La diversité spatiale présente une bonne efficacité
quand les sous-canaux MIMO sont décorrélés les uns des autres. De plus,
quand le nombre d’antennes à l’émission augmente, la puissance du signal
reçu à un instant donné augmente, améliorant ainsi la détection du signal.
2. Le multiplexage spatial MIMO [22, 23] : Le multiplexage spatial transmet
les différents flux de données sur les différentes antennes d’émission
afin d’augmenter les débits de transmission du système MIMO. La capacité
de transmission d’un système de transmission est définie comme le
débit de transmission maximum possible offrant une probabilité d’erreur
très faible [24]. La capacité du canal d’un système MIMO est définie par
l’équation II.10 [6, 20] :
C = log2
det
INr +
ρ
Nt
HH†
bps/Hz. (II.10)
avec
– Nt
: Le nombre d’antennes à l’émission.
– Nr : Le nombre d’antennes en réception.
– INr
: Matrice d’identité Nr × Nr.
– (.)
†
: L’opération de transconjugué.
– H : La matrice du canal MIMO Nt × Nr.
– ρ =
P
No.B
: Le rapport signal-à-bruit sur une antenne de réception.
– P : La puissance totale transmise.
– N0 : La densité spectrale de puissance monolatérale du bruit blanc (AWGN).
Les signaux reçus sont décodés et combinés pour reformer le message transmis.
Comme pour la diversité spatiale MIMO, les sous-canaux de propagation
doivent être décorrélés.
20II.2. LA TECHNIQUE MIMO
3. Le MIMO - Beamforming [22, 23] : La technique Beamforming peut être
utilisée avec n’importe quel système d’antennes et notamment avec les systèmes
MIMO. Cette technique est utilisée pour créer une certaine directivité
des antennes d’émission afin d’orienter le faisceau et répondre aux conditions
requises telles que l’amplitude et la phase.
Notre étude s’intéresse plus particulièrement à la technique de diversité spatiale.
Cette technique est basée sur le codage temps-espace présenté dans la section
suivante.
II.2.2 Codage temps-espace (STC)
Le codage temps-espace est utilisé dans les communications sans fil pour
transmettre simultanément un flux de données unique sur plusieurs antennes d’émission
à des instants différents. L’objectif de ce codage est d’exploiter les différentes
versions reçues de données afin d’améliorer la fiabilité de leur transfert [23]. Les
codes temps-espace peuvent être divisés en deux catégories : les codes tempsespace
en blocs (STBC) et les codes temps-espace en treillis (STTC).
II.2.2.1 Le code temps-espace en blocs (STBC)
Le code temps-espace en blocs (STBC) [7, 25] est une stratégie de transmission
d’un flux de données dans un système MIMO exploitant la diversité spatiale
et accroît la fiabilité de transmission. Ce type de codage est divisé en trois approches
[25] principales que sont : les codes temps-espace en blocs orthogonaux
(Orthogonal Space-Time Block Codes (O-STBC)), les codes temps-espace en
blocs non-orthogonaux (Non Orthogonal Space-Time Block Codes (NO-STBC))
et les codes temps-espace en blocs quasi-orthogonaux (Quasi-orthogonal SpaceTime
Block Codes (Q-STBC)) qui appartiennent à la classe des NO-STBC.
Les signaux qui sont codés avec l’O-STBC sont orthogonaux les uns aux
21CHAPITRE II. SYSTÈMES MULTI-PORTEUSES ET MULTI-ANTENNES
autres. Cette orthogonalité réduit dès lors l’interférence entre les différents signaux
transmis et améliore la performance du récepteur qui distingue les différents
signaux reçus. Les codes (O-STBC) offrent par ailleurs une faible complexité
de décodage et ils sont souvent préférés aux codes en treillis présentés
ci-après qui sont plus performants mais plus complexes.
Le code d’Alamouti [7] est le premier code O-STBC qui fournit une diversité
spatiale maximale sans aucune perte de débit avec deux antennes à l’émission. La
matrice du codeur d’Alamouti pour un système MIMO 2 × 2 est donnée par :
S =
s1 s2
−s
∗
2
s
∗
1
(II.11)
Les lignes représentent les instants d’émission (t) et (t+Ts) des symboles (dimension
temporelle) et les colonnes représentent les antennes 1 et 2 utilisées pour
la transmission de données (dimension spatiale). Au cours de la première transmission,
les symboles s1 et s2 sont transmis simultanément sur la première et la
deuxième antenne respectivement. Dans la deuxième période de transmission, les
symboles −s
∗
2
et s
∗
1
sont transmis sur la première et la deuxième antenne d’émission
respectivement où "*" représente le conjugué. Les lignes et les colonnes de
la matrice S sont orthogonales entre elles, en effet :
SS† =
s1 s2
−s
∗
2
s
∗
1
s
∗
1 −s2
s
∗
2
s1
=
|s1|
2 + |s2|
2 0
0 |s1|
2 + |s2|
2
=
|s1|
2 + |s2|
2
I2
où I2 est une matrice identité 2 × 2. Cette propriété permet au récepteur de
détecter s1 et s2 par une opération de traitement de signal linéaire simple. Les
22II.2. LA TECHNIQUE MIMO
signaux reçus par l’antenne j aux instants (t + k.Ts), k ∈ {0, 1}, sont notés r
k
j
et
s’expriment par :
(Se) =
r
1
1 = r1(t) = h1,1(t)s1 + h2,1(t)s2 + w
1
1
(t)
r
2
1 = r1(t + Ts) = −h1,1(t + Ts)s
∗
2 + h2,1(t + Ts)s
∗
1 + w
2
1
(t)
r
1
2 = r2(t) = h1,2(t)s1 + h2,2(t)s2 + w
1
2
(t)
r
2
2 = r2(t + Ts) = −h1,2(t + Ts)s
∗
2 + h2,2(t + Ts)s
∗
1 + w
2
2
(t)
(II.12)
où w
k
j
représente le bruit AWGN sur l’antenne j de réception.
Pour simplifier la tâche du récepteur lors de la combinaison des signaux reçus r
k
j
,
Alamouti dans [7] a proposé que le canal soit invariant sur deux temps-symbole
donc les notions de temps (t et t + Ts) disparaissent dans l’équation II.12. Cette
équation peut donc être exprimée :
(Se) =
r
1
1 = h1,1.s1 + h2,1.s2 + w
1
1
r
2
1 = −h1,1.s∗
2 + h2,1.s∗
1 + w
2
1
r
1
2 = h1,2.s1 + h2,2.s2 + w
1
2
r
2
2 = −h1,2.s∗
2 + h2,2.s∗
1 + w
2
2
(II.13)
A la réception, une recombinaison [7] de signaux reçus est donnée par l’équation
II.14.
se1 = h
∗
1,1
.r1
1 + h2,1.(r
2
1
)
∗ + h
∗
1,2
.r1
2 + h2,2.(r
2
2
)
∗
se2 = h
∗
2,1
.r1
1 − h1,1.(r
2
1
)
∗
| {z }
contribution de l’antenne 1
+ h
∗
2,2
.r1
2 − h1,2.(r
2
2
)
∗
| {z }
contribution de l’antenne 2
(II.14)
II.2.2.2 Les codes temps-espace en treillis (STTC)
Les codes temps-espace en treillis (STTC) ont été découverts par Vahid Tarokh
et al. [9, 26]. Les codes STTC [27–29] servent simultanément pour le codage de
canal et le gain en diversité. Considérons le cas général des STTC en utilisant une
23CHAPITRE II. SYSTÈMES MULTI-PORTEUSES ET MULTI-ANTENNES
modulation 2
n − P SK et Nt antennes d’émission. Le codeur STTC comprend un
bloc d’entrée de n bits et ν blocs mémoires de n bits (2
nν états). A chaque instant
t, tous les bits d’un bloc sont remplacés par les n bits du bloc précédent. Le bit k
du bloc l est associé aux Nt coefficients multiplicatifs cmi
k,l où i ∈ {1, Nt}. Un
codeur STTC est ainsi défini par sa matrice génératrice CM comprenant Nt ×
n(ν + 1) coefficients :
CM =
cm1
1,1
· · · cm1
n,1
· · · cm1
1,ν+1 · · · cm1
n,ν+1
.
.
.
.
.
.
cmi
1,1
· · · cmi
n,1
· · · cmi
1,ν+1 · · · cmi
n,ν+1
.
.
.
.
.
.
cmNt
1,1
· · · cmNt
n,1
· · · cmNt
1,ν+1 · · · cmNt
n,ν+1
Les symboles générés en sortie du codeur pour l’antenne i sont donnés par
l’équation II.15 suivante :
x
i
t =
Xn
k
Xν+1
l
b
t−l+1
k
cmi
k,l mod 2n
(II.15)
L’inconvénient principal de ce type de codage est sa complexité de décodage
qui croît de façon exponentielle avec le nombre d’antennes d’émission.
II.3 La combinaison MIMO-OFDM
Les concepts de MIMO ont été développés depuis de nombreuses années pour
les communications sans fil. L’une des premières applications MIMO dans ce
contexte a été proposée par Winters [5] en 1984. Winters a proposé cette technique
pour une transmission multi-utilisateurs, aboutissant au dépôt de brevet [30] de la
technique MIMO. En 1996, Raleigh [31] et Foschini [32] ont proposé de nouvelles
approches pour améliorer l’efficacité des systèmes MIMO.
24II.3. LA COMBINAISON MIMO-OFDM
Plusieurs paramètres décrivent la qualité d’une liaison de données sans fil, les
paramètres fondamentaux sont la vitesse de transmission, la fiabilité de transmission
et la portée d’émission. Par conséquent, la vitesse de transmission peut être
augmentée en réduisant la portée de transmission et la fiabilité. Cependant, avec
la combinaison de systèmes MIMO-OFDM, les trois paramètres fondamentaux
peuvent être améliorés en même temps [33, 34]. La technique MIMO peut être
combinée avec n’importe quel type de modulation, mais les recherches récentes
suggèrent que la combinaison entre les systèmes MIMO et les systèmes OFDM
est la plus efficace [33].
La combinaison des techniques MIMO et OFDM a été adoptée dans les communications
sans fil [35, 36] en raison des nombreux avantages de l’OFDM [37]
et des avantages des systèmes MIMO. A titre d’exemple, la technique MIMOOFDM
est utilisée dans la norme IEEE 802.11n [10] de communication sans fil
pour augmenter la capacité du canal ainsi que dans la technique LTE [38] et WiMax
[39].
La figure II.3 est un schéma simplifié d’un système MIMO-OFDM (2 × 2).
Ce schéma montre les positions de blocs STBC et OFDM.
II.3.1 Canal MIMO
Les antennes de réception reçoivent des différentes versions des signaux émis.
Si les antennes d’émission et de réception sont bien espacées alors les signaux re-
çus sont suffisamment non-corrélés, cette dé-corrélation peut également être obtenue
par l’utilisation d’antennes dont le diagramme de rayonnement crée cette
orthogonalité. Il existe donc un canal entre chaque antenne d’émission et chaque
antenne de réception.
25CHAPITRE II. SYSTÈMES MULTI-PORTEUSES ET MULTI-ANTENNES
Canal
MIMO
Codeur
STBC
Modulateur
OFDM
Modulateur
OFDM
CNA
CNA Symboles
Symboles Décodeur
STBC
Démod.
OFDM
Démod.
OFDM
CAN
CAN
Estimation
du canal
Fig. II.3 – Schéma simplifié d’un système MIMO-OFDM avec un codage STBC
Soient Nt
, Nr et Hij le nombre d’antennes d’émission, de réception et la fonction
de transfert complexe du canal de transmission entre Ti et Rj respectivement.
Cette fonction de transfert est représentée par une matrice de dimension Nt × Nr
qui décrit complètement le comportement du canal. Cette fonction est donnée par
l’équation II.16 :
[H] =
H1,1 H1,2 . . . H1,Nr
H2,1 H2,2 . . . H2,Nr
.
.
.
.
.
.
.
.
.
.
.
.
HNt,1 HNt,2 . . . HNt,Nr
(II.16)
La figure II.4 représente le canal MIMO entre les différentes antennes de transmission.
Si Vs représente le vecteur des signaux transmis par les antennes d’émission,
Vr représente le vecteur des signaux reçus et Vw le vecteur de AWGN. L’expression
du signal reçu est donnée par les équations II.17 et II.18 :
Vr = HVs + Vw (II.17)
26II.3. LA COMBINAISON MIMO-OFDM
ܰଵ
ܰଶ
ܰ௧
ܰଵ
N2
ݎܰ
ℎଵ,ଵ
ℎଵ,ଶ
ℎଵ,ே
ℎே௧,ே
ℎே௧,ଵ
ℎଶ,ଶ
ℎଶ,ଵ
Canal MIMO ܰ௧ × ܰ
ܰ௧
antennes d’émission ܰ
antennes de réception
Fig. II.4 – Canal MIMO Nt × Nr
r1
r2
.
.
.
rNr
=
H1,1 H1,2 . . . H1,Nr
H2,1 H2,2 . . . H2,Nr
.
.
.
.
.
.
.
.
.
.
.
.
HNt,1 HNt,2 . . . HNt,Nr
×
s1
s2
.
.
.
sNt
+
w1
w2
.
.
.
wNr
(II.18)
Le canal entre chaque émetteur/récepteur est un canal à trajets multiples, le
nombre de ces trajets multiples est supposé être le même pour tous les canaux
MIMO disponibles. L’expression analytique de la réponse impersonnelle du canal
Hi,j à trajets multiples donnée par l’équation II.19 :
Hi,j (t) = X
Lij
lij=1
[αlij e
−jθ(t)lij ] (II.19)
où θ(t)lij est la phase du trajet lij est donnée par l’équation II.20 :
θ(t)lij = 2πfcT (t)lij (II.20)
27CHAPITRE II. SYSTÈMES MULTI-PORTEUSES ET MULTI-ANTENNES
avec :
Lij : Le nombre total de trajets multiples entre Ti et Rj
.
lij : Le trajet entre Ti et Rj
.
αlij : Le gain du trajet lij .
Tlij : Le retard du trajet lij .
Le récepteur doit pouvoir compenser l’effet du canal sur chaque antenne.
L’égalisation est combinée au décodage temps-espace.
II.3.2 Conclusion
Dans cette partie, nous avons présenté la combinaison entre les deux techniques
MIMO et OFDM. Les différents signaux transmis par les différentes antennes
d’émission peuvent être séparés au niveau des récepteurs. Les systèmes
de codage temps-espace sont utilisés pour améliorer la robustesse et la fiabilité
du système. Le problème principal dans les systèmes de transmission sans-fil et
notamment dans les systèmes MIMO-OFDM est la synchronisation. Les récepteurs
doivent résoudre ce problème afin de récupérer les données transmises. Ce
problème de synchronisation est présenté dans la section suivante.
II.4 La synchronisation
La réception des symboles OFDM dans les systèmes MIMO-OFDM peut être
décomposée en trois phases : l’estimation du canal multi-trajets, la synchronisation
fréquentielle et la synchronisation temporelle. Cette dernière peut être à
nouveau divisée en deux parties : la synchronisation de trame et la synchronisation
symboles (dans notre cas les symboles OFDM). Dans cette thèse, l’étude
porte principalement sur le problème de la synchronisation temporelle dans les
28II.4. LA SYNCHRONISATION
systèmes MIMO-OFDM. C’est une question très importante car un mauvais placement
de la fenêtre FFT peut conduire à une perte significative de performances.
C’est pourquoi il est important d’avoir des algorithmes robustes pour estimer cette
synchronisation temporelle afin de détecter le début de chaque symbole OFDM,
et ce sur chaque antenne en réception.
Dans le cadre du système de transmission MIMO-OFDM, l’émetteur et le ré-
cepteur qui sont asynchrones seront synchronisés lors de la réception des diffé-
rents symboles OFDM. Parmi les solutions possibles, celles basées sur l’utilisation
de séquences ou motifs particuliers sont présentées dans le chapitre III.
Dans la littérature, plusieurs méthodes de synchronisation temporelle et fré-
quentielle ont été publiées ( [40–49]). Dans la suite de ce paragraphe, nous allons
présenter certaines méthodes de synchronisation fréquentielle et temporelle.
II.4.1 La synchronisation fréquentielle
La synchronisation fréquentielle est l’une des tâches les plus importantes dans
les systèmes MIMO-OFDM. A l’émission, le système dispose de sa fréquence
d’échantillonnage Fetx permettant de générer les différents échantillons du signal
OFDM qui sont ensuite transposés sur la fréquence porteuse Fptx. En réception, le
récepteur ne connaît pas la fréquence Fetx, il est par conséquent asynchrone à la
fois en fréquence et en phase. Sa fréquence porteuse peut aussi être décalée vis à
vis de la fréquence Fptx. Les écarts vont donc engendrer différents types d’erreurs
dits de timing ou rythme.
II.4.1.1 Le décalage de la fréquence porteuse (CFO)
Le décalage de la fréquence porteuse (CFO) représente la différence entre la
fréquence porteuse de l’émetteur et celle du récepteur. Nous notons les principales
29CHAPITRE II. SYSTÈMES MULTI-PORTEUSES ET MULTI-ANTENNES
sources de CFO :
a) Le déphasage entre la fréquence de l’émetteur et du récepteur MIMOOFDM
: En raison de la différence de phase entre les fréquences émetteur et
récepteur, le signal après modulation sera centré sur une fréquence δf au lieu
d’être centré sur DC (0 MHz), où δf = |Fptx − Fprx| comme l’indique la
figure II.5.
Fréquence 0
Signal en bande
de base
Fréquence
࢚࢞ࡲ
Signal sur
porteuse
ߜ Fréquence
Signal en bande
de base
Fréquence
Signal sur
porteuse
Démodulation
Modulation
࢞࢘ࡲ
Fig. II.5 – Décalage de la fréquence porteuse (CFO)
b) Effet Doppler : L’Effet Doppler est une autre source du CFO. Dans le cas de
récepteurs mobiles, la fréquence porteuse au niveau du récepteur (Fprx) peut
varier en raison de l’effet Doppler.
c) Le décalage avec la fréquence d’échantillonnage : Le décalage entre les
fréquences d’échantillonnage entre la source de données (Fetx) et la destination
(Ferx) présente une autre source du CFO.
30II.4. LA SYNCHRONISATION
II.4.1.2 Etudes antérieures sur la synchronisation fréquentielle
Dans cette section, nous allons présenter quelques méthodes utilisées pour réaliser
la synchronisation fréquentielle dans des systèmes MIMO-OFDM. L’étude
dans [40] propose une approche pour la synchronisation fréquentielle en se basant
sur l’algorithme de maximum de vraisemblance (Maximum-Likelihood (ML))
pour corriger à la fois le CFO et effectuer l’estimation de canal dans un système
MIMO-OFDM 2 × 2. Dans cette approche, un préambule est appliqué au début
de chaque trame de données pour la synchronisation. Les symboles de données
sont modulés par une modulation de type QPSK (Quadrature Phase Shift Keying).
L’estimateur ML présente de bonnes performances pour l’estimation du canal et
du CFO, mais sa complexité dépend du nombre de points d’estimation recherchés.
Pour corriger les interférences introduites par le CFO entre porteuses, les auteurs
dans [41] ont étudié le problème de synchronisation fréquentielle dans des
systèmes MIMO-OFDM 6 × 6 et 6 × 4. Ils ont proposé des séquences d’apprentissage
qui sont composées de séquences pseudo-aléatoires (PN) répétées pour
distinguer les antennes et pour estimer le CFO. A chaque antenne d’émission
doit être attribuée une séquence d’apprentissage unique. Les séquences PN ont de
bonnes fonctions de corrélation. L’inconvénient de cette méthode est la taille de
la séquence d’apprentissage. La longueur de la séquence d’apprentissage est Lpr
et celle de la séquence PN est Lc telle que Lpr > Lc, par conséquent la dernière
séquence PN de la séquence d’apprentissage peut être incomplète. Ceci provoque
une dégradation de la performance des séquences PN. Les résultats de simulation
de cette méthode montrent que pour un rapport signal sur bruit (SNR) de 1 dB le
MSE (Mean Square Error) égale à 10−3 dans un système MIMO 6 × 6.
Dans [43], les auteurs ont étudié l’estimation du CFO dans un système MIMOOFDM.
Ils ont proposé un algorithme d’estimation "sous-optimal" utilisant les
séquences CAZAC (voir sec. III.2.4) comme séquences d’apprentissage. La sé-
31CHAPITRE II. SYSTÈMES MULTI-PORTEUSES ET MULTI-ANTENNES
quence CAZAC sur la deuxième antenne d’émission est une version décalée cycliquement
de celle de la première antenne. Les résultats de simulation de cette
méthode, pour LC = 64 (LC est la taille de la séquence CAZAC), montrent que la
MSE peut atteindre 10−3 pour un SNR de 0 dB et MSE = 10−5 pour un SNR à
20 dB. Par conséquent, les séquences CAZAC présentent de bonnes propriétés de
corrélation mais cette méthode ne présente pas de bons avantages pour la synchronisation
par rapport aux autres méthodes existantes surtout dans un canal à trajets
multiples. A la reception, la fonction d’inter-corrélation du signal reçu avec une
séquence locale, fait apparaître plusieurs pics de corrélation qui sont décalés de
la même valeur, car le signal reçu constitué de la somme de plusieurs versions
décalées d’une même séquence CAZAC.
II.4.2 La synchronisation temporelle
La deuxième tâche importante dans un système MIMO-OFDM est la synchronisation
temporelle, qui se répartit en deux phases :
a) La synchronisation de trame ou la synchronisation temporelle grossière :
La tâche de la synchronisation de trame permet d’estimer le début d’une trame
par l’utilisation d’un préambule.
b) La synchronisation de symbole ou la synchronisation temporelle fine : La
tâche de synchronisation de symbole permet d’identifier le début du symbole
OFDM dans un train binaire. La synchronisation de symbole dans un système
MIMO-OFDM consiste à positionner la fenêtre FFT sur le train d’échantillons
reçus.
II.4.2.1 Etudes antérieures sur la synchronisation temporelle
Plusieurs méthodes de synchronisation temporelle, pour des systèmes OFDM
et MIMO-OFDM, ont été proposées dans [45–48]. Ces méthodes sont majoritairement
basées sur l’approche de préambule.
32II.4. LA SYNCHRONISATION
L’article [47] propose une méthode de synchronisation fréquentielle et temporelle
pour un système MIMO-OFDM en utilisant les codes LS (Loosely Synchronous)
comme séquences d’apprentissage et de détection de début de trame. Ces
séquences LS ont des fonctions d’autocorrélation et d’intercorrélation optimales
et rendent la synchronisation précise. Dans cette méthode, le processus de la synchronisation
considéré se décompose en quatre étapes. La première étape consiste
à estimer la synchronisation temporelle grossière puis, dans la deuxième étape, à
estimer la synchronisation fréquentielle grossière grâce à la transformée de Fourier
rapide (FFT) avec une interpolation quadratique dans le domaine fréquentiel.
La troisième étape consiste à détecter les symboles OFDM et à estimer le canal en
utilisant les codes LS, la quatrième étape consiste à l’estimation fréquentielle fine.
La structure de la trame avec les codes LS est représentée dans la figure II.6.
Un préambule est attribué à chaque trame OFDM pour distinguer les antennes et
estimer le décalage fréquentiel à la réception. Chaque préambule est composé de
deux codes LS répétés et d’un "gap" qui est introduit entre ces codes pour éviter
l’effet dispersif du canal.
Les auteurs montrent que plus la séquence est longue, meilleures sont les performances.
Cependant, l’accroissement de la longueur engendre plus de rotation
de phase. Par ailleurs, la structure des préambules utilisée et le processus de la
synchronisation sont relativement complexes. Cette méthode est simulée avec un
système MIMO-OFDM (2 × 1) et un canal de type ITU-VA (International Telecommunication
Union). Les auteurs montrent que pour un SNR de 5 dB, la
probabilité d’acquisition de synchronisation est égale à 70%. Dans le chapitre V,
nous comparons les résultats de simulation de notre méthode proposée [50] appelée
"méthode de préambule court" (section IV.2.1) avec ceux de la méthode
proposée par Wang Jian et al. [47].
33CHAPITRE II. SYSTÈMES MULTI-PORTEUSES ET MULTI-ANTENNES
Antenne 1 Données
gap C1 gap S1 gap C1 gap S1 gap
Antenne 2 Données
gap C2 gap S2 gap C2 gap S2 gap
Antenne M
Données
gap Cm gap Sm gap Cm gap Sm gap
Fig. II.6 – Structure de trame d’un système MIMO-OFDM avec les codes LS
Hung Chin a présenté dans [48] un système MIMO-OFDM présentant à la
fois du décalage temporel et fréquentiel. Les auteurs proposent une solution basée
sur la conception de préambules spéciaux, où différentes séquences d’apprentissage
sont en cascade et sont utilisées séparément pour faciliter l’estimation de la
synchronisation temporelle et l’estimation de CFO. Dans cet article, les auteurs
proposent un préambule compact ayant la même longueur qu’un symbole OFDM,
avec un algorithme unique pour la synchronisation temporelle et l’estimation de
CFO. Le préambule proposé est constitué des séquences CAZAC où ce préambule
est porté par une sous-bande dont les sous-bandes adjacentes sont espacées
par des bandes de garde pour réduire l’interférence entre bandes. Les structures
de préambules utilisées dans cette approche sont présentées dans la figure II.7.
Selon les auteurs, les résultats des simulations indiquent que l’approche proposée
présente de bonnes performance vis à vis de la méthode proposée dans [51]
34II.4. LA SYNCHRONISATION
Fig. II.7 – Structure de préambule proposée dans le domaine fréquentiel dans [48]
qui est basée sur l’UPSP (Unequal Period Synchronization Patterns). Cette mé-
thode est simulée avec un système MIMO-OFDM (2 × 1 et 3 × 1). Ces résultats
ont montré que pour un MIMO-OFDM (3 × 1), la probabilité d’acquisition de la
synchronisation temporelle est de 70% pour un SNR = 5 dB. Dans le chapitre
V, nous comparons les résultats de simulation de notre méthode proposée [52] appelée
"méthode de préambule compact" (section IV.2.2) avec ceux de la méthode
proposée par Chin-Liang et al. [53].
La méthode proposée dans [48] souffre de plusieurs limitations telles que
la complexité pour générer des structures de préambules pour un grand nombre
d’antennes d’émission. En effet, le préambule de synchronisation est divisé en
sous-bande, quand le nombre d’antennes d’émission augmente, la taille des sousbandes
doit diminuer pour prendre en considération toutes les antennes d’émis-
35CHAPITRE II. SYSTÈMES MULTI-PORTEUSES ET MULTI-ANTENNES
sion. Par conséquent, à la réception, la probabilité de détection de synchronisation
diminue à cause de la longueur de séquence de synchronisation. Pour résoudre le
problème de la limitation du nombre d’antennes, il faut donc augmenter la taille
du préambule de synchronisation. Dans ce cas, les auteurs doivent faire face à une
autre limitation qui est le débit.
En 2012, Chin-Liang et Hung-Chin ont proposé dans [53] un préambule de
synchronisation constitué de séquences CAZAC partielles de type Zadoff-Chu [54],
pour des systèmes MIMO-OFDM coopératifs. Dans cette approche, les préambules
de synchronisation sont séparés les uns des autres, à la fois, dans le domaine
temporel et dans le domaine fréquentiel. Cette séparation est utilisée pour éliminer
l’interférence mutuelle dans les deux domaines. Le principe de la corrélation est
utilisé. Les structures de préambules utilisés dans cette approche sont présentées
dans la figure II.8.
Fig. II.8 – Structure de préambule basée sur des séquences partielles de Zadoff-Chu
dans [53]. (a) dans le domaine fréquentiel et (b) dans le domaine temporel
36II.5. CONCLUSION
Cette approche est simulée avec un système MIMO-OFDM et un canal de
type vehicle-A [55]. Les résultats de simulation de cette approche présentent de
meilleures performances que la méthode proposée dans [51] pour des systèmes
MIMO-OFDM 2 × 2 coopératifs. Comme précédemment, les performances de
cette approche se dégradent quand le nombre d’antennes d’émission croît et quand
la taille de préambule utilisée décroît.
II.5 Conclusion
Dans ce chapitre, un bref rappel des techniques de transmission OFDM et
MIMO-OFDM a été donné. Dans un système OFDM, la bande totale est divisée
en plusieurs sous-bandes en utilisant plusieurs sous-porteuses orthogonales.
Un préfixe cyclique (CP), de longueur plus grande que le délai maximum de propagation
du canal, permet d’éviter les interférences de type ISI et ICI. La modulation
et la démodulation sont respectivement réalisées en utilisant la IFFT et
la FFT respectivement. Comme le canal est pratiquement constant pour chaque
sous-porteuse, l’égalisation peut être effectuée en divisant le symbole de données
par le coefficient de canal estimé correspondant. Dans la deuxième partie du chapitre,
la technique MIMO a été introduite. Les différents flux de données sont
transmis en parallèle sur les différentes antennes d’émission. Le modèle de canal
à trajets multiples est défini, ainsi que la matrice de canal. Cette matrice ne
dépend pas seulement du nombre des antennes d’émission et de réception, mais
aussi de la sélectivité en fréquence du canal. Par conséquent, la technique MIMO
permet d’améliorer les performances des systèmes en réduisant les effets d’évanouissements
dans un canal multi-trajets. Après la combinaison de deux techniques
MIMO et OFDM, le problème de synchronisation est présenté. Il existe
dans la littérature plusieurs techniques de synchronisation. Nous avons présenté
les avantages et les inconvénients de certaines de ces méthodes.
37CHAPITRE II. SYSTÈMES MULTI-PORTEUSES ET MULTI-ANTENNES
38II.5. CONCLUSION
Bibliographie
[1] Institute of Electrical and Electronics Engineers, IEEE 802.11a : Wireless
LAN Medium Access Control (MAC) and Physical Layer (PHY) specifications
: High-speed Physical Layer in the 5 GHz Band, Sept. 1999.
[2] Institute of Electrical and Electronics Engineers, IEEE 802.11g : Wireless
LAN Medium Access Control (MAC) and Physical Layer (PHY) specifications
: Further Higher Data Rate Extension in the 2.4 GHz Band, 2003.
[3] Institute of Electrical and Electronics Engineers, IEEE 802.16a : Air Interface
for Fixed and Mobile Broadband Wireless Access Systems : Medium
Access Control Modifications and Additional Physical Layer Specifications
for 2-11 GHz, Apr. 2003.
[4] R. W. Chang, “Synthesis of Band-Limited Orthogonal Signals for Multichannel
Data Transmission,” Bell Systems Technical Journal, vol. 45,
pp. 1775–1796, Dec. 1966.
[5] J. Winters, “Optimum combining in digital mobile radio with cochannel interference,”
Selected Areas in Communications, IEEE Journal on, vol. 2,
no. 4, pp. 528–539, 1984.
[6] I. E. Telatar, “Capacity of multi-antenna gaussian channels,” European Transactions
On Telecommunications, vol. 10, pp. 585–595, 1999.
[7] S. Alamouti, “A simple transmit diversity technique for wireless communications,”
Selected Areas in Communications, IEEE Journal on, vol. 16,
pp. 1451–1458, Oct 1998.
39CHAPITRE II. SYSTÈMES MULTI-PORTEUSES ET MULTI-ANTENNES
[8] V. Tarokh, H. Jafarkhani, and A. Calderbank, “Space-time block codes from
orthogonal designs,” Information Theory, IEEE Transactions on, vol. 45,
no. 5, pp. 1456–1467, 1999.
[9] V. Tarokh, N. Seshadri, and A. Calderbank, “Space-time codes for high data
rate wireless communication : performance criterion and code construction,”
Information Theory, IEEE Transactions on, vol. 44, no. 2, pp. 744–765,
1998.
[10] Institute of Electrical and Electronics Engineers, IEEE Standard 802.11n :
Wireless LAN Medium Access Control (MAC)and Physical Layer (PHY) Specifications
Amendment 5 : Enhancements for Higher Throughput, Oct 2009.
[11] W. Zhang, X.-G. Xia, and K. Ben Letaief, “Space-time/frequency coding
for mimo-ofdm in next generation broadband wireless systems,” Wireless
Communications, IEEE, vol. 14, pp. 32–43, Jun 2007.
[12] J. Auffray, "Systèmes MIMO à porteuses multiples : étude et optimisation de
la combinaison de codes temps-espace et des techniques MC-CDMA". PhD
thesis, INSA de Rennes, Rennes, Jun 2004.
[13] C. L. Guellaut, "Prototypage d’un système MIMO-MC-CDMA sur plateforme
hétérogène". PhD thesis, INSA de Rennes, Rennes, January 2009.
[14] J. Blackledge, Digital Signal Processing : Mathematical and Computational
Methods, Software Development and Applications. Horwood, 2003.
[15] B. Saltzberg, “Performance of an efficient parallel data transmission system,”
Communication Technology, IEEE Transactions on, vol. 15, no. 6, pp. 805–
811, 1967.
[16] B.R.Saltzberg and S.B.Weinstein, “Fourier transform communication systems,”
in Computer Machinery Conference, Pine Mountain, 1969.
[17] A. Peled and A. Ruiz, “Frequency domain data transmission using reduced
computational complexity algorithms,” in Acoustics, Speech, and Signal
40II.5. CONCLUSION
Processing, IEEE International Conference on ICASSP ’80., vol. 5, pp. 964–
967, 1980.
[18] J. Mark and W. Zhuang, Wireless Communications and Networking. Prentice
Hall, 2003.
[19] M. B. Arun Gangwar, “An overview : Peak to average power ratio in ofdm
system & its effect,” International Journal of Communication and Computer
Technologies, vol. 01, September 2012.
[20] G. J. Foschini and M. J. Gans, “On limits of wireless communications in a
fading environment when using multiple antennas,” Wireless Personal Communications,
vol. 6, pp. 311–335, 1998.
[21] D. Goeckel and G. Ananthaswamy, “On the design of multidimensional
signal sets for ofdm systems,” Communications, IEEE Transactions on,
vol. 50, no. 3, pp. 442–452, 2002.
[22] D. Dromard and D. Seret, "Architecture des réseaux". Pearson, 2nd ed., Jun
2013.
[23] H. Jafarkhani, Space-Time Coding : Theory and Practice. New York, NY,
USA : Cambridge University Press, 1st ed., 2010.
[24] B. V. Branka Vucetic, Jinhong Yuan, Space-Time Coding. Wiley, 1st ed.,
2003.
[25] V. Tarokh, H. Jafarkhani, and A. Calderbank, “Space-time block codes from
orthogonal designs,” Information Theory, IEEE Transactions on, vol. 45,
no. 5, pp. 1456–1467, 1999.
[26] V. Tarokh, N. Seshadri, and A. Calderbank, “Space-time codes for high data
rate wireless communication : performance criteria,” in Communications,
1997. ICC ’97 Montreal, Towards the Knowledge Millennium. 1997 IEEE
International Conference on, vol. 1, pp. 299–303 vol.1, 1997.
41CHAPITRE II. SYSTÈMES MULTI-PORTEUSES ET MULTI-ANTENNES
[27] J.-C. Guey, M. Fitz, M. Bell, and W.-Y. Kuo, “Signal design for transmitter
diversity wireless communication systems over rayleigh fading channels,”
Communications, IEEE Transactions on, vol. 47, pp. 527–537, Apr 1999.
[28] V. Tarokh, N. Seshadri, and A. Calderbank, “Space-time codes for high data
rate wireless communication : performance criterion and code construction,”
Information Theory, IEEE Transactions on, vol. 44, no. 2, pp. 744–765,
1998.
[29] Q. Yan and R. Blum, “Optimum space-time convolutional codes,” in Wireless
Communications and Networking Confernce, 2000. WCNC. 2000 IEEE,
vol. 3, pp. 1351–1355 vol.3, 2000.
[30] J. Winters, “Wireless pbx/lan system with optimum combining,” Jan. 27
1987. US Patent 4,639,914.
[31] G. Raleigh and J. Cioffi, “Spatio-temporal coding for wireless communications,”
in Global Telecommunications Conference, 1996. GLOBECOM ’96.
’Communications : The Key to Global Prosperity, vol. 3, pp. 1809–1814
vol.3, 1996.
[32] G. J. Foschini., “Layered space-time architecture for wireless communication
in a fading environment when using multi-element antennas,” Bell Laboratories
Technical Journal, vol. 33, pp. 41–59, October 1996.
[33] D. R. Company, “Using mimo-ofdm technology to boost wireless lan performance
today.” White Paper, Jun 2005.
[34] H. Sampath, S. Talwar, J. Tellado, V. Erceg, and A. Paulraj, “A fourthgeneration
mimo-ofdm broadband wireless system : design, performance,
and field trial results,” Communications Magazine, IEEE, vol. 40, no. 9,
pp. 143–149, 2002.
[35] A. van Zelst and T. Schenk, “Implementation of a mimo ofdm-based wireless
lan system,” Signal Processing, IEEE Transactions on, vol. 52, pp. 483 –
494, Feb. 2004.
42II.5. CONCLUSION
[36] G. Stuber, J. Barry, S. McLaughlin, Y. Li, M. Ingram, and T. Pratt, “Broadband
mimo-ofdm wireless communications,” Proceedings of the IEEE,
vol. 92, pp. 271 – 294, Feb 2004.
[37] J. G. Proakis, Digital Communications. McGraw-Hill, 4th ed., 2000.
[38] G. Stuber, J. Barry, S. McLaughlin, Y. Li, M.-A. Ingram, and T. Pratt,
“Broadband mimo-ofdm wireless communications,” Proceedings of the
IEEE, vol. 92, no. 2, pp. 271–294, 2004.
[39] S. Alex and L. Jalloul, “Performance evaluation of mimo in
ieee802.16e/wimax,” Selected Topics in Signal Processing, IEEE Journal
of, vol. 2, no. 2, pp. 181–190, 2008.
[40] S. Salari, M. Heydarzadeh, and J. Cances, “Joint maximum-likelihood frequency
synchronization and channel estimation in mimo-ofdm systems with
timing ambiguity,” in Wireless Communication Systems (ISWCS), 2012 International
Symposium on, pp. 954–958, 2012.
[41] L. He, “Frequency synchronization in mimo ofdm systems,” in Wireless
Communications Networking and Mobile Computing (WiCOM), 2010 6th
International Conference on, pp. 1–4, 2010.
[42] L. Koschel and A. Kortke, “Frequency synchronization and phase offset
tracking in a real-time 60-ghz cs-ofdm mimo system,” in Personal Indoor
and Mobile Radio Communications (PIMRC), 2012 IEEE 23rd International
Symposium on, pp. 2281–2286, 2012.
[43] Y. Wu, J. W. M. Bergmans, and S. Attallah, “Carrier frequency offset estimation
for multiuser mimo ofdm uplink using cazac sequences : Performance
and sequence optimization.,” EURASIP J. Wireless Comm. and Networking,
vol. 2011, 2011.
[44] R. Jose and K. Hari, “Maximum likelihood algorithms for joint estimation of
synchronisation impairments and channel in multiple input multiple output-
43CHAPITRE II. SYSTÈMES MULTI-PORTEUSES ET MULTI-ANTENNES
orthogonal frequency division multiplexing system,” Communications, IET,
vol. 7, no. 15, pp. 1567–1579, 2013.
[45] S. Chang and B. Kelley, “Time synchronisation for ofdm-based wlan systems,”
Electronics Letters, vol. 39, pp. 1024 – 1026, June 2003.
[46] J. Zhang, “A novel symbol synchronization method for ofdm systems in sfn
channels,” Consumer Electronics, IEEE Transactions on, vol. 54, pp. 1550
–1554, November 2008.
[47] W. Jian, L. Jianguo, and D. Li, “Synchronization for mimo ofdm systems
with loosely synchronous (ls) codes,” in Wireless Communications, Networking
and Mobile Computing, 2007. WiCom 2007. International Conference
on, pp. 254 –258, Sept. 2007.
[48] H.-C. Wang and C.-L. Wang, “A compact preamble design for synchronization
in distributed mimo ofdm systems,” in Vehicular Technology Conference
(VTC Fall), 2011 IEEE, pp. 1–4, Sept. 2011.
[49] A. SAEMI, "Synchronisation des systèmes de transmission MIMO-OFDM".
PhD thesis, Université de Limoges, Limoges, september 2007.
[50] A. Rachini, A. Beydoun, F. Nouvel, and B. Beydoun, “Timing synchronisation
method for mimo-ofdm system using orthogonal preamble,” in Telecommunications
(ICT), 2012 19th International Conference on, pp. 1–5,
2012.
[51] F. Guo, D. Li, H. Yang, and L. Cai, “A novel timing synchronization method
for distributed mimo-ofdm system,” in Vehicular Technology Conference,
2006. VTC 2006-Spring. IEEE 63rd, vol. 4, pp. 1933–1936, 2006.
[52] A. Rachini, A. Beydoun, F. Nouvel, and B. Beydoun, “A novel compact
preamble structure for timing synchronization in mimo-ofdm systems using
cazac sequences,” in International Conference on Communications, Computation,
Networks and Technologies (INNOV), pp. 1–6, 2013.
44II.5. CONCLUSION
[53] C.-L. Wang, H.-C. Wang, and Y.-Y. Chen, “A synchronization scheme based
on partial zadoff-chu sequences for cooperative mimo ofdm systems,” in Wireless
Communications and Networking Conference (WCNC), 2012 IEEE,
pp. 925–929, 2012.
[54] R. Frank, S. Zadoff, and R. Heimiller, “Phase shift pulse codes with good
periodic correlation properties (corresp.),” Information Theory, IRE Transactions
on, vol. 8, pp. 381 –382, October 1962.
[55] I.-R. T. G. 8/1, “Guidelines for evaluation of radio transmission technologies
for imt-2000,” in Recommendation ITU-R M.1225, 1999.
45CHAPITRE II. SYSTÈMES MULTI-PORTEUSES ET MULTI-ANTENNES
46CHAPITRE III
LES SÉQUENCES DE SYNCHRONISATION
DANS LES SYSTÈMES MIMO-OFDM
Sommaire
III.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 48
III.2 Les différentes séquences existantes . . . . . . . . . . . . . 49
III.2.1 Séquences pseudo-aléatoires (PN) . . . . . . . . . . . 50
III.2.2 Les séquences de Gold . . . . . . . . . . . . . . . . . 52
III.2.3 Les séquences de Walsh-Hadamard . . . . . . . . . . 55
III.2.4 Les séquences CAZAC (Constant Amplitude Zero AutoCorrelation)
. . . . . . . . . . . . . . . . . . . . . . . 57
III.2.5 Les séquences TCH (Tomlinson, Cercas and Hughes) . 61
III.2.6 Les séquences ZCZ (Zero Correlation Zone) . . . . . 62
III.3 Critères pour sélectionner une séquence particulière . . . . 65
III.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
47CHAPITRE III. SÉQUENCES DE SYNCHRONISATION
La synchronisation temporelle dans les systèmes de communications sans fil
est une étape très importante. Dans la littérature plusieurs méthodes ont été proposées
et nombre d’entre elles se basent sur le préambule. Il s’agit d’envoyer des
séquences connues par le récepteur au début de chaque trame transmise afin de
détecter le début de celle-ci. Dans ce chapitre nous décrivons les différentes structures
des séquences possibles et nous présentons les différents critères pour sé-
lectionner une séquence particulière parmi les séquences présentées. Le choix des
séquences qui seront étudiés dans ce chapitre est justifié dans la partie conclusion.
III.1 Introduction
Les systèmes OFDM et MIMO/OFDM présentent de multiples avantages mais
également des difficultés. Un des inconvénients est la sensibilité de synchronisation
de ces systèmes [1–3]. Plus précisément, un défaut de synchronisation temporelle
provoque des interférences entre symboles et peut conduire à une forte
dégradation des performances.
Pour assurer la bonne détection des trames au récepteur, des symboles spé-
ciaux peuvent être transmis au début de chaque trame OFDM. L’objectif de ce
chapitre est de décrire les bonnes caractéristiques d’autocorrélation (Autocorrelation)
et d’intercorrélation (Cross correlation) de ces symboles ou préambules, qui
sont dites séquences de synchronisation.
Une séquence de synchronisation doit présenter une fonction d’autocorrélation
maximale pour un décalage nul. Deux fonctions sont intéressantes à analyser
: l’autocorrélation et l’intercorrélation, ces deux fonctions mesurent le degré
de ressemblance entre la séquence elle-même et entre deux séquences différentes
48III.2. LES DIFFÉRENTES SÉQUENCES EXISTANTES
respectivement.
Pour une séquence x (de valeur complexe) de longueur Lc, la fonction d’autocorrélation
Rxx est donnée par :
Rxx(k) =
L
Xc−1
n=0
x(k)x
∗
(n + k) (III.1)
Où x
∗
est le complexe conjugué de la séquence x. Les deux valeurs idéales
possibles de Rxx sont :
Rxx =
Lc, n ≡ 0 mod Lc
0, n 6≡ 0 mod Lc
La fonction d’intercorrélation (cross-correlation) est la corrélation d’une sé-
quence x avec une autre séquence y. Cette fonction est donnée par :
Rxy(k) =
L
Xc−1
n=0
x(k)y
∗
(n + k) (III.2)
Le choix d’une séquence comme préambule pour la recherche de la synchronisation
sera déterminé, d’une part par la fonction d’autocorrélation, qui doit pré-
senter un pic maximal lors de la détection, et d’autre part par la fonction d’intercorrélation
entre deux séquences qui doit être la plus faible possible en réception.
Dans la suite du chapitre, nous présentons plusieurs séquences candidates à
la génération d’un préambule pour la synchronisation des systèmes OFDM et
MIMO-OFDM. Le choix des séquences est établi selon la longueur des séquences,
leurs fonctions d’autocorrélation et d’intercorrélation.
III.2 Les différentes séquences existantes
L’élaboration du préambule de synchronisation se base sur l’utilisation d’une
ou plusieurs séquences de même type ou non. Parmi celles-ci, les séquences pseudo-
49CHAPITRE III. SÉQUENCES DE SYNCHRONISATION
aléatoires, les séquences de Gold, d’Hadamard, de CAZAC qui sont des candidats
potentiels. Les séquences principales utilisées dans l’état de l’art sont décrites ciaprès
:
III.2.1 Séquences pseudo-aléatoires (PN)
Les m-séquences [4] sont des séquences binaires pseudo-aléatoires (PN). Elles
présentent une intercorrélation quasi nulle. Elles sont ainsi utilisées dans la synchronisation
temporelle pour les systèmes OFDM et MIMO-OFDM [5, 6]. Dans [5]
ces séquences sont aussi utilisées pour la synchronisation fréquentielle. Pour distinguer
les antennes et pour estimer le CFO, chaque antenne d’émission dispose
d’une séquence unique d’apprentissage. Les séquences d’apprentissage (préambule)
sont composées de séquences PN répétées pour accroître la fiabilité de la
détection.
Les m-séquences possèdent une taille donnée par :
P = 2n − 1
où n est le nombre de flip-flops (éléments mémoire) d’un registre à décalage
binaire. L’avantage principal de séquences pseudo-aléatoire de taille maximale,
est leur fonction d’autocorrélation périodique qui est très proche d’un Dirac
alors que les lobes secondaires possèdent des pics de faible amplitude. La fonction
d’auto-corrélation périodique normalisée de séquences pseudo-aléatoire (s)
de taille maximale est donnée par :
Rss(i) = 1
P
P
X−1
j=0
(−1)Sj⊗Si+j
(III.3)
où
Rss =
1 si i mod P = 0
−
1
P
si i mod P 6= 0
50III.2. LES DIFFÉRENTES SÉQUENCES EXISTANTES
Les inconvénients majeurs de séquences PN sont les valeurs de leurs fonctions
d’autocorrélation et d’inter-correlation apériodiques et le nombre de séquences de
taille maximale générées n’est pas suffisant.
On retrouve l’utilisation de ces séquences dans la norme de télévision mobile
(Digital Terrestrial/Television Multimedia Broadcasting (DTMB)), norme pour la
transmission numérique de la télévision en république de Chine [7]. J. Wu et al. [6]
ont développé un algorithme pour la synchronisation temporelle et fréquentielle
pour le système DTMB. Le processus d’estimation de décalage en fréquence est
proposé en deux étapes. La première étape consiste à une estimation grossière du
décalage fréquentiel en utilisant les m-séquences. La deuxième étape estime le dé-
but de trame tout en estimant finement le décalage fréquentiel. La structure de la
trame de synchronisation d’un système DTMB est représentée dans la figure III.1.
Fig. III.1 – Structure de la trame de synchronisation dans les systèmes DTMB
Par ailleurs, à partir de ces m-séquences, nous pouvons construire d’autres ensembles
de séquences qui possèdent les caractéristiques proches de m-séquences
mais avec un nombre de séquences disponibles plus grand. Ces séquences sont les
séquences de Gold et de Kasami.
Les fonctions d’autocorrélation et d’intercorrélation de m-séquences de longueur
1023 sont illustrées dans la figure III.2. Le polynôme générateur de sé-
quence 1 (resp. séquence 2) est g1(x) = x
8 + x
6 + x
5 + x
4 + 1 (resp. g2(x) =
51CHAPITRE III. SÉQUENCES DE SYNCHRONISATION
x
8 + x
7 + x
2 + x + 1).
−200 −150 −100 −50 0 50 100 150 200
−500
0
500
1000
Fonctions d'autocorrélation et d'intercorrélation de séquences PN
Indice
Valeur du pic
Autocorrélation
−200 −150 −100 −50 0 50 100 150 200
−500
0
500
1000
Indice
Valeur du pic
Intercorrélation
Fig. III.2 – Fonctions d’autocorrélation et d’intercorrélation de séquences pseudoaléatoires
de taille 1023
III.2.2 Les séquences de Gold
Les codes de Gold [8], également connus sous le nom de séquences de Gold et
proposés par Robert Gold [8], sont des séquences binaires utilisées dans les télé-
communications (Code Division Multiplexing Systems (CDMA)) et dans le système
de localisation mondial (Global Positioning System (GPS)). Ces séquences
sont construites par la combinaison de deux séquences pseudo aléatoires de pé-
riode P = 2n − 1 [4]. L’ensemble de séquences construit par cette combinaison
contient les deux séquences initiales et 2
n − 1 séquences ayant différentes positions
de décalages. Le nombre total de séquences de Gold obtenues est de 2
n + 1
52III.2. LES DIFFÉRENTES SÉQUENCES EXISTANTES
séquences.
Soient g1(x) et g2(x) deux polynômes binaires primitifs qui gérèrent les sé-
quences x et y respectivement. La famille de séquences de Gold obtenues est
donnée par l’équation :
Sgold(x, y) = {x, y, x ⊗ y, x ⊗ T
−1
y, x ⊗ T
−2
y, . . . , x ⊗ T
−(Lc−1)y} (III.4)
où T
−p
est un opérateur de décalages cycliques de valeur p vers la gauche,
par exemple T
−1
y = (y1, y2, y3, . . . , yLc−1, y0), et ⊗ est l’opération logique ouexclusif.
III.2.2.1 Fonctions de corrélation des séquences de Gold
Les propriétés de fonction d’autocorrélation des séquences de Gold ne sont
pas aussi bonnes que celles de séquences pseudo-aléatoires, car leurs fonctions
d’autocorrélation présentent des pics secondaires non négligeables. Cependant,
ces séquences fournissent un grand nombre de séquences vis à vis des séquences
pseudo-aléatoires. La fonction d’autocorrélation Rxx(τ ) d’une séquence de Gold
de taille Lc est égale à Lc lorsque le décalage est nul (τ = 0).
Soient X = (x0, . . . , xLc−1) et Y = (y0, . . . , yLc−1) deux séquences de longueur
Lc, les fonctions d’autocorrélation (Rxx) de X et d’intercorrélation (Rxy)
entre X et Y sont données par :
Rxx(τ ) =
L
Xc−1
k=0
(−1)(Xk+X(k+τ)mod Lc
)
(III.5)
La fonction d’autocorrélation normalisée Rxx(τ ) est définie par :
Rxx(τ ) =
1 pour τ = 0
−
t(n)
Lc
, −
1
Lc
,
t(n) − 2
Lc
pour τ 6= 0
(III.6)
53CHAPITRE III. SÉQUENCES DE SYNCHRONISATION
où
t(n) =
1 + 2
n+2
2 pour n pair
1 + 2
n+1
2 pour n impair
et la fonction d’intercorrélation Rxy(τ ) entre deux séquences de Gold est dé-
finie par :
Rxy(τ ) =
L
Xc−1
k=0
(−1)(Xk+Y(k+τ)mod Lc
)
(III.7)
La valeur de la fonction d’intercorrélation normalisée Rxy(τ ) est définie par :
Rxy(τ ) =
−
t(n)
Lc
, −
1
Lc
,
t(n) − 2
Lc
(III.8)
Les séquences de Gold sont proposées pour la synchronisation temporelle et
fréquentielle dans les systèmes OFDM [9]. Dans cette approche, un préambule
de synchronisation constitué de deux symboles d’apprentissage est utilisé comme
un préambule pour la détection du début de trame et pour récupérer le décalage
fréquentiel.
L’inconvénient de séquences de Gold est leur fonction d’autocorrélation qui
possède une grande valeur.
La figure III.3 illustre les fonctions d’auto et d’intercorrélation pour deux sé-
quences de Gold de taille 1023.
54III.2. LES DIFFÉRENTES SÉQUENCES EXISTANTES
−200 −150 −100 −50 0 50 100 150 200
−500
0
500
1000
Fonctions d'autocorrélation et d'intercorrélation de séquences de Gold
Indice
Valeur du pic
Autocorrélation
−200 −150 −100 −50 0 50 100 150 200
−500
0
500
1000
Indice
Valeur du pic
Intercorrélation
Fig. III.3 – Fonctions d’autocorrélation et d’intercorrélation de Séquences Gold de taille
1023
III.2.3 Les séquences de Walsh-Hadamard
Les séquences de Walsh-Hadamard ou Hadamard [10] sont des séquences binaires
(ou biphasées de valeurs -1 et 1) orthogonales utilisées notamment dans les
systèmes à accès multiples par étalement de spectre. Elles sont aussi utilisées dans
les systèmes MIMO dans l’étape de codage temps-espace [11]. Ces séquences se
construisent récursivement à partir d’une matrice 2 × 2, appelée matrice d’Hadamard,
de la manière suivante :
55CHAPITRE III. SÉQUENCES DE SYNCHRONISATION
W H1 =
h
1
i
1×1
, W H2 =
W H1 W H1
W H1 −W H1
2×2
, . . . , W H2n =
W Hn W Hn
W Hn −W Hn
2n×2n
Une matrice d’Hadamard W H d’ordre n satisfait la propriété suivante :
W H.W HT = nIn (III.9)
où In est la matrice d’identité n × n et W HT
est la transposée de W H [12].
L’avantage principal des séquences d’Hadamard est l’orthogonalité entre les sé-
quences. Elles ont de bonnes propriétés de corrélation et leur taille est égale 2
n
où n ∈ N. A noter qu’il existe des séquences d’Hadamard de tailles multiples
de 12 ou de 20 dont le principe de construction est similaire à celui présenté. La
différence réside dans la matrice du départ qui est soit une matrice 12 × 12 ou une
matrice 20 × 20.
Les séquences d’Hadamard sont ainsi utilisées pour la détection de la synchronisation
fréquentielle d’un système OFDM [13] et dans les systèmes DS-CDMA
(Direct Sequence-Code Division Multiple Access) sur la voie descendante [14].
L. Koschel and A. Kortke dans [13] ont proposé une approche pour déterminer
le décalage fréquentiel dans un système à 60 GHz. Dans ce cas, le préambule de
synchronisation est constitué de deux parties, chacune comportant une séquence
d’Hadamard.
La figure III.4 illustre les fonctions d’autocorrélation et d’intercorrélation pour
deux séquences d’Hadamard de taille 1024. Cependant, la fonction d’autocorré-
lation de certaines séquences d’Hadamard présente des remontées de pics secondaires
non négligeables.
56III.2. LES DIFFÉRENTES SÉQUENCES EXISTANTES
−200 −150 −100 −50 0 50 100 150 200
−500
0
500
1000
Fonctions d'autocorrélation et d'intercorrélation de séquences d’Hadamard
Indice
Valeur du pic
Autocorrélation
−200 −150 −100 −50 0 50 100 150 200
−500
0
500
1000
Indice
Valeur du pic
Intercorrélation
Fig. III.4 – Fonctions d’autocorrélation et d’intercorrélation de séquences d’Hadamard
de taille 1024
III.2.4 Les séquences CAZAC (Constant Amplitude Zero AutoCorrelation)
Les séquences CAZAC sont des séquences complexes caractérisées par leurs
amplitudes uniformes. La figure III.5 illustre celles d’une séquence CAZAC de
taille 1024.
La fonction d’autocorrélation de ces séquences peut être représentée par une
fonction delta δ (proche d’un Dirac), alors la fonction d’intercorrélation de deux
séquences CAZAC est très proche de zéro. Les versions décalées cycliquement
57CHAPITRE III. SÉQUENCES DE SYNCHRONISATION
−1 −0.5 0 0.5 1
−1
−0.5
0
0.5
1
Partie réelle
Partie imaginaire
Séquences CAZAC − taille 1024
Fig. III.5 – Séquence CAZAC avec une amplitude constante
d’une séquence CAZAC donnent une fonction d’intercorrélation, avec d’autres
séquences, proche de zéro. Par conséquent, une séquence CAZAC décalée cycliquement
présente les mêmes propriétés que la séquence elle-même et toutes les
versions décalées sont orthogonales les unes aux autres. Ces séquences possèdent
de bonnes propriétés de corrélation périodique [15, 16].
Les séquences GCL (Generalized Chirp-Like) et Zadoff-Chu [17] sont connues
comme des séquences CAZAC à valeurs complexes qui donnent lieu à un signal
d’amplitude constante. Ces deux types de séquences sont très semblables et ont
une phase inversée.
58III.2. LES DIFFÉRENTES SÉQUENCES EXISTANTES
Les séquences CAZAC de type GCL sont données par l’équation III.10 suivante
:
xu(n) =
e
−j
πMn(n+1)
Lc si Lc est impaire
e
−j
πMn2
Lc si Lc est paire
(III.10)
Les séquences CAZAC de type Zadoff peuvent être exprimées selon l’équation
III.11 suivante :
xu(n) =
e
j
πMn(n+1)
Lc si Lc est impaire
e
j
πMn2
Lc si Lc est paire
(III.11)
où
0 ≤ n ≤ Lc − 1
Lc est la longueur de la séquence CAZAC, M ∈ N est un nombre premier
avec Lc parmi les nombres entiers inférieurs à Lc et n ∈ {0, Lc − 1} est l’indice
de la séquence. Ces séquences sont périodiques de période Lc d’où :
xu(n + Lc) = xu(n)
Soient u et v deux séquences CAZAC de taille Lc. Les fonctions d’autocorré-
lation (éq. III.12a) et d’intercorrélation (éq. III.12b) entre u et v sont exprimées
par :
Ru,u(m) = 1
Lc
L
Xc−1
k=0
u(m + k)u
∗
(k) (III.12a)
Ru,v(m) = 1
Lc
L
Xc−1
k=0
u(m + k)v
∗
(k) (III.12b)
Ces deux fonctions présentent de bonnes propriétés de corrélation.
59CHAPITRE III. SÉQUENCES DE SYNCHRONISATION
La figure III.6 présente les fonctions normalisées d’autocorrélation et d’intercorrélation
de séquences Zadoff-Chu de longueur 1024.
−1000 −800 −600 −400 −200 0 200 400 600 800 1000
0
0.2
0.4
0.6
0.8
1
Amplitude normalisée
Indice
Fonctions normalisées d'autocorrélation et d'intercorrélation de séquences CAZAC
−1000 −800 −600 −400 −200 0 200 400 600 800 1000
0
0.2
0.4
0.6
0.8
1
Indice
Amplitude normalisée
Autocorrélation
Intercorrélation
Fig. III.6 – Fonctions d’autocorrélation et d’intercorrélation de séquences CAZAC de
longueur 1024
Dans [18] W.Wei et al. ont utilisé ces séquences pour la recherche de synchronisation
temporelle et fréquentielle, basée sur un préambule de synchronisation de
longueur Lpr = 2Lc constitué de deux parties identiques et de même longueur Lc.
Les résultats de simulation montrent de meilleures performances que les méthodes
utilisant des séquences classiques en particulier dans le canal de Rayleigh. Avec
60III.2. LES DIFFÉRENTES SÉQUENCES EXISTANTES
cette méthode, pour un système MIMO-OFDM 2 × 2, la probabilité d’acquisition
de synchronisation temporelle est supérieure à 90% pour un SNR > −5 dB.
Dans [19], les auteurs ont présenté une méthode de synchronisation temporelle
basée sur les séquences CAZAC pour un système MIMO-OFDM 2 × 1.
Un préambule de synchronisation est envoyé sur chaque antenne d’émission. Ces
préambules sont des séquences CAZAC qui sont décalées cycliquement d’une
distance D = 20. La taille du préambule de synchronisation est égale à la taille
d’un symbole OFDM, soit Lpr = 512. La probabilité de la détection du pic pour
la synchronisation temporelle dans un canal à trajets multiples est 80% pour un
SNR > 6 dB.
Dans [20], L. Li et al. ont mis en place un préambule basé sur les séquences
de CAZAC pour la liaison descendante dans un système MIMO-OFDM. Dans
cette méthode, chaque préambule est constitué de deux séquences différentes de
synchronisation. Chaque séquence est divisée en deux symboles identiques qui
sont constitués par des séquences CAZAC. Un CP est inséré au début et à la fin
de chaque séquence. A la réception, une corrélation entre chaque deux symboles
identiques est appliquée, il existe deux pics de la fonction de corrélation. Cette
méthode est simulée avec un canal AWGN et COST 207 TU6. Ces résultats de
simulation montrent que la probabilité de synchronisation de trame est égale à 1
pour un SNR > 7 dB.
Le lecteur pourra également se référer à [18–20] pour des résultats complé-
mentaires.
III.2.5 Les séquences TCH (Tomlinson, Cercas and Hughes)
Dans [21, 22], F. Cercas et al. ont étudié une nouvelle famille de codes TCH
pour l’interface radio d’un récepteur mobile. Les séquences TCH sont des codes
61CHAPITRE III. SÉQUENCES DE SYNCHRONISATION
binaires, cycliques, non linéaires et non systématiques de longueur Lc = 2m, où
m est un nombre entier positif. Le premier polynôme qui génère le code TCH est
nommé "B-TCH". Ce polynôme est généré d’une manière analytique et ensuite
étendu pour augmenter les nombres de codes générés. Le polynôme "B-TCH" [21]
ne peut être généré que pour des valeurs spécifiques de longueur Lc, qui sont les
nombres de Fermat moins un (Fm − 1 = (22m
+ 1) − 1 = 22m
), à savoir, 2, 4,
16, 256 et 65 536 pour m = {0, 1, 2, 3, 4} respectivement.
Ces séquences ont de bonnes propriétés d’autocorrélation dont les valeurs sont
toujours 0, -4 et Lc quelle que soit la longueur de la séquence Lc, ce qui rend cette
fonction d’autocorrélation très intéressante pour des grandes valeurs de Lc. Les
inconvénients de ces séquences sont la valeur de leur fonction d’inter-corrélation
qui a de grande valeur et le nombre de séquences générées n’est pas suffisant.
Dans [23], les séquences TCH sont utilisées pour l’estimation du canal et la
synchronisation dans un système MIMO. Le préambule de synchronisation est divisé
en quatre séquences TCH courtes et répétées de taille 256. La taille totale du
préambule est 1024. Ces séquences TCH répétées permettent d’estimer le décalage
fréquentiel et d’estimer le canal. Les résultats de simulation de cette méthode
présentent de bonnes performances pour un SNR = 16 dB.
La figure III.7 illustre les fonctions d’autocorrélation et d’intercorrélation de
séquences TCH de taille 256.
III.2.6 Les séquences ZCZ (Zero Correlation Zone)
Les séquences ZCZ ont été proposées pour réduire l’interférence de l’accès
multiple (Multiple Access Interference (MAI)) dans les systèmes CDMA.
Dans [24], P. Fan a proposé des séquences ZCZ binaires. Cependant, l’inconvénient
mineur est le faible nombre de séquences générées. Pour résoudre ce pro-
62III.2. LES DIFFÉRENTES SÉQUENCES EXISTANTES
−50 0 50
−100
0
100
200
300
Fonctions d'autocorrélation et d'intercorrélation de séquences TCH
Indice
Valeur du pic
Autocorrélation
−50 0 50
−100
0
100
200
300
Indice
Valeur du pic
Intercorrélation
Fig. III.7 – Fonctions d’autocorrélation et d’intercorrélation de séquences TCH de taille
256
blème, Cha [25] a introduit une classe de séquences ternaires, dont les éléments
sont dans l’alphabet 0, 1, -1 permettant d’avoir un nombre de séquences plus important.
Fan dans [26, 27] et Cha dans [28] ont ainsi proposé plusieurs méthodes
pour construire les séquences binaires ZCZ.
Il existe une famille de séquences ZCZ qui sont orthogonales entre elles et
aussi avec les versions décalées de séquences. Cependant, le décalage cyclique ne
doit pas dépasser la zone dite zone de corrélation nulle (ZCZ) [29].
63CHAPITRE III. SÉQUENCES DE SYNCHRONISATION
En générale, les fonctions d’auto-corrélation et d’inter-corrélation de séquences
ZCZ possèdent des lobes secondaires qui ont de grande valeurs. La figure III.8
illustre les fonctions d’autocorrélation et d’intercorrélation de séquences ZCZ de
taille 512.
−200 −150 −100 −50 0 50 100 150 200
−400
−200
0
200
400
600
Fonctions d'autocorrélation et d'intercorrélation de séquences ZCZ
Indice
Valeur du pic
Autocorrélation
−200 −150 −100 −50 0 50 100 150 200
−500
0
500
1000
Indice
Valeur du pic
Intercorrélation
Fig. III.8 – Fonctions d’autocorrélation et d’intercorrélation de séquences ZCZ de taille
512
Dans [30], H. Xuefei et al. ont proposé un préambule de synchronisation de
trame pour des systèmes MIMO-OFDM (2 × 2) en utilisant les codes ZCZ. Les
préambules de synchronisation, sur chaque antenne d’émission, sont constitués de
différentes séquences ZCZ de taille 256. Cette méthode est simulée avec un canal
64III.3. CRITÈRES POUR SÉLECTIONNER UNE SÉQUENCE PARTICULIÈRE
SUI (Stanford University Interim), ce canal est constitué de 3 trajets (tap). Les
résultats de simulation montrent que la probabilité de synchronisation de trame
est égale à 1 pour un SNR = −10 dB.
Ces séquences sont également utilisées pour l’estimation du canal. Dans [31],
W. Zhang et al. ont utilisé ces séquences pour la synchronisation fréquentielle
dans un système OFDM. Le préambule de synchronisation est constitué de deux
séquences ZCZ. La précision d’estimation, de cette méthode, dans un canal Rayleigh
à trajets multiples peut être entre 10−2
et 10−3 pour un SNR > 0 dB.
III.3 Critères pour sélectionner une séquence particulière
Suite à la présentation des différentes séquences candidates à la synchronisation
temporelle dans un contexte MIMO/OFDM, il convient de faire un choix qui
réponde aux critères principaux :
• Ces séquences doivent être orthogonales entre elles pour éviter les interférences
entre séquences lors des envois simultanés sur plusieurs antennes
d’émission.
• La longueur de ces séquences doit être égale à la longueur d’un symbole
OFDM ou un multiple. De point de vue réalisation, si l’insertion du symbole
de synchronisation est réalisée dans le domaine fréquentiel, elle se fait
avant la FFT. Comme généralement la FFT est une puissance de 2, il semble
donc préférable que la longueur de la séquence de synchronisation soit aussi
une puissance de 2 et égale à la longueur d’un symbole OFDM ou un multiple
de celle-ci.
65CHAPITRE III. SÉQUENCES DE SYNCHRONISATION
• La fonction d’autocorrélation doit être maximale afin de détecter le pic de
corrélation et par conséquent le début de la trame.
• La fonction d’intercorrélation entre les différentes séquences doit être minimale
pour distinguer les différents préambules et trames au niveau de
chaque antenne de réception.
Une comparaison des différentes caractéristiques des séquences de synchronisation
est présentée dans le tableau III.1.
Après l’analyse des différents critères de séquences de synchronisation, nous
proposons d’utiliser les séquences CAZAC comme séquences de synchronisation
pour notre système MIMO-OFDM car possédant de bonnes propriétés en terme de
corrélation. Pour réaliser le performances de ces séquences, dans le chapitre IV,
nous avons simulé d’autres types de séquences pour comparer leurs performances
par rapport aux séquences CAZAC.
66III.3. CRITÈRES POUR SÉLECTIONNER UNE SÉQUENCE PARTICULIÈRE Tableau. III.1 – Comparaison entre les différentes séquences de synchronisation Séquences Hadamard CAZAC Gold PN TCH ZCZ Taille de séquence (
Lc)
2
n
2
n
2
n
− 1 2
n
− 1
2
2
n
2
2n+1
Longueur Paire Paire Impaire Impaire Paire Paire
Nombre de codes
générés Important Important Important Faible Faible Faible
Orthogonalité Oui
√ Oui
√ Non
N Non
N Non
N Non
N
Fonction
d’intercorrélation
Proche de
0
pour certaines
séquences
Proche de
0 Des pics secondaires Des pics secondaires Des pics secondaires Des pics secondaires
Complexité de
génération de
séquences
Simple Moyenne Moyenne Moyenne Complexe Complexe
Adaptation au
systèmes MIMO Non
N Oui
√ Non
N Non
N Non
N Non
N
67CHAPITRE III. SÉQUENCES DE SYNCHRONISATION
III.4 Conclusion
Dans tout système de communication, les émetteurs et les récepteurs doivent
être synchronisés au niveau de la couche physique avant toute analyse des données
par les applications. Un format spécial de séquences est généralement utilisé
pour la synchronisation. Ces séquences sont appelées séquences de synchronisation.
Dans le cas d’un système MIMO, où les différents émetteurs doivent être
synchronisés avec les différents récepteurs, la synchronisation est plus délicate du
fait des transmissions multiples simultanées dans la même bande passante du canal.
Des séquences orthogonales peuvent être utilisées, mais la performance de la
synchronisation dépend de l’orthogonalité de ces séquences.
Dans le chapitre IV suivant, nous allons présenter les différentes méthodes
proposées de la synchronisation temporelle dans les systèmes MIMO-OFDM.
68III.4. CONCLUSION
Bibliographie
[1] A. Palin and J. Rinne, “Enhanced symbol synchronization method for
ofdm system in sfn channels,” in Global Telecommunications Conference,
1998. GLOBECOM 1998. The Bridge to Global Integration. IEEE, vol. 5,
pp. 2788–2793 vol.5, 1998.
[2] L. Da-Wei, T. You-xi, S. Dong-sheng, and L. Shao-qian, “Impact of timing
error on ber performance of tdd pre-equalized ofdm systems,” in Personal,
Indoor and Mobile Radio Communications, 2004. PIMRC 2004. 15th IEEE
International Symposium on, vol. 1, pp. 714–718 Vol.1, 2004.
[3] H. Steendam and M. Moeneclaey, “Sensitivity of orthogonal frequencydivision
multiplexed systems to carrier and clock synchronization errors.,”
SIGNAL PROCESSING, vol. 80, no. 7, pp. 1217–1229, 2000.
[4] S. Marvin, J. Omura, and S. Robert, Spread Spectrum Communications
Handbook. McGraw-Hill Professional, 1st ed., 2001.
[5] L. He, “Frequency synchronization in mimo ofdm systems,” in Wireless
Communications Networking and Mobile Computing (WiCOM), 2010 6th
International Conference on, pp. 1–4, 2010.
[6] J. Wu, Y. Chen, X. Zeng, and H. Min, “Robust timing and frequency synchronization
scheme for dtmb system,” Consumer Electronics, IEEE Transactions
on, vol. 53, no. 4, pp. 1348–1352, 2007.
[7] W. Liang, W. Zhang, D. He, Y. Guan, Y. Wang, and J. Sun, “Digital terrestrial
television broadcasting in china,” MultiMedia, IEEE, vol. 14, no. 3, pp. 92–
97, 2007.
69CHAPITRE III. SÉQUENCES DE SYNCHRONISATION
[8] R. Gold, “Optimal binary sequences for spread spectrum multiplexing (corresp.),”
Information Theory, IEEE Transactions on, vol. 13, pp. 619 –621,
October 1967.
[9] L. Najjar and M. Siala, “A new scheme for preamble detection and frequency
acquisition in ofdm systems,” in Electronics, Circuits, and Systems, 2009.
ICECS 2009. 16th IEEE International Conference on, pp. 1008–1011, 2009.
[10] J. G. Proakis, Digital Communications. McGraw-Hill, 4th ed., 2000.
[11] M. Baro and J. Ilow, “Space-time block codes based on diagonalized
walsh-hadamard transform with simple decoupling,” in Vehicular Technology
Conference Fall (VTC 2010-Fall), 2010 IEEE 72nd, pp. 1–5, 2010.
[12] A. S. Madhukumar, C. Chen, K. Yang, and F. Chin, “Comparison of signature
sequences for synchronization of uwb systems,” in Vehicular Technology
Conference, 2004. VTC 2004-Spring. 2004 IEEE 59th, vol. 5, pp. 2585–
2589 Vol.5, May 2004.
[13] L. Koschel and A. Kortke, “Frequency synchronization and phase offset
tracking in a real-time 60-ghz cs-ofdm mimo system,” in Personal Indoor
and Mobile Radio Communications (PIMRC), 2012 IEEE 23rd International
Symposium on, pp. 2281–2286, 2012.
[14] A. Amadei, U. Manzoli, and M. Merani, “On the assignment of walsh
and quasi-orthogonal codes in a multicarrier ds-cdma system with multiple
classes of users,” in Global Telecommunications Conference, 2002. GLOBECOM
’02. IEEE, vol. 1, pp. 841–845 vol.1, 2002.
[15] M. M. Ran, “Clipping based papr reduction method for lte ofdma systems,”
Int’l. J. Elec. Com. Stud., vol. 10, no. 7, pp. 1–5, 2010.
[16] R. Nee and R. Prasad, OFDM for Wireless Multimedia Communications.
Norwood, MA, USA : Artech House, Inc., 1st ed., 2000.
70III.4. CONCLUSION
[17] R. Frank, S. Zadoff, and R. Heimiller, “Phase shift pulse codes with good
periodic correlation properties (corresp.),” Information Theory, IRE Transactions
on, vol. 8, pp. 381 –382, October 1962.
[18] W. Wei and Y. Xiaolu, “A new synchronization method for mimo-ofdm systems
with cazac sequence,” in Information Engineering (ICIE), 2010 WASE
International Conference on, vol. 4, pp. 3 –5, Aug. 2010.
[19] C. Feng, J. Zhang, Y. Zhang, and M. Xia, “A novel timing synchronization
method for mimo ofdm systems,” in Vehicular Technology Conference, 2008.
VTC Spring 2008. IEEE, pp. 913–917, 2008.
[20] L. Li and P. Zhou, “Synchronization for b3g mimo ofdm in dl initial acquisition
by cazac sequence,” in Communications, Circuits and Systems Proceedings,
2006 International Conference on, vol. 2, pp. 1035–1039, 2006.
[21] F. Cercas, "A New Family of Codes for Simple Receiver Implementation".
PhD thesis, Technical University of Lisbon, Lisbon, March 1996.
[22] F. Cercas, M. Tomlinson, and A. Albuquerque, “Tch : A new family of cyclic
codes length 2m,” in Information Theory, 1993. Proceedings. 1993 IEEE
International Symposium on, p. 198, Jan 1993.
[23] J. Silva, H. Silva, R. Dinis, E. Gomes, and N. Souto, “On the use of tch sequences
for synchronization and channel estimation in mimo systems,” in
Signal Processing and Communication Systems (ICSPCS), 2010 4th International
Conference on, pp. 1–5, 2010.
[24] P. Fan, N. Suehiro, N. Kuroyanagi, and X. Deng, “Class of binary sequences
with zero correlation zone,” Electronics Letters, vol. 35, pp. 777 –779, May
1999.
[25] J. Cha, “Class of ternary spreading sequences with zero correlation duration,”
Electronics Letters, vol. 37, pp. 636 –637, May 2001.
71CHAPITRE III. SÉQUENCES DE SYNCHRONISATION
[26] P. Fan, N. Suehiro, N. Kuroyanagi, and X. Deng, “Class of binary sequences
with zero correlation zone,” Electronics Letters, vol. 35, no. 10, pp. 777–779,
1999.
[27] X. Deng and P. Fan, “Spreading sequence sets with zero correlation zone,”
Electronics Letters, vol. 36, no. 11, pp. 993–994, 2000.
[28] J. Cha, S. Kameda, M. Yokoyama, H. Nakase, K. Masu, and K. Tsubouchi,
“New binary sequences with zero-correlation duration for approximately
synchronised cdma,” Electronics Letters, vol. 36, no. 11, pp. 991–993,
2000.
[29] N. Suehiro, “A signal design without co-channel interference for approximately
synchronized cdma systems,” Selected Areas in Communications, IEEE
Journal on, vol. 12, pp. 837 –841, Jun 1994.
[30] H. Xuefei and C. Jie, “Implementation frame synchronization for mimoofdm
system with zcz-codes,” in Microwave, Antenna, Propagation and
EMC Technologies for Wireless Communications, 2005. MAPE 2005. IEEE
International Symposium on, vol. 1, pp. 241–244 Vol. 1, 2005.
[31] W. Zhang, F. Zeng, X. Long, and M. Xie, “Improved mutually orthogonal
zcz polyphase sequence sets and their applications in ofdm frequency synchronization,”
in Wireless Communications Networking and Mobile Computing
(WiCOM), 2010 6th International Conference on, pp. 1–5, 2010.
72CHAPITRE IV
LES MÉTHODES PROPOSÉES
Sommaire
IV.1 Système de transmission . . . . . . . . . . . . . . . . . . . . 74
IV.1.1 Modélisation du canal de propagation . . . . . . . . . 77
IV.1.2 Modélisation du signal reçu . . . . . . . . . . . . . . 77
IV.2 Les techniques proposées pour la synchronisation temporelle 78
IV.2.1 Méthodes de préambule court (Génération dans le domaine
temporel) . . . . . . . . . . . . . . . . . . . . 78
IV.2.2 Méthodes de préambule compact (Génération dans le
domaine fréquentiel) . . . . . . . . . . . . . . . . . . 82
IV.2.3 Méthodes de zéro padding . . . . . . . . . . . . . . . 98
IV.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
73CHAPITRE IV. LES MÉTHODES PROPOSÉES
Avant de présenter les méthodes de synchronisation temporelle proposées dans
cette thèse, nous proposons une brève introduction à la problématique de la synchronisation
dans les systèmes MIMO-OFDM. La synchronisation est un sujet
abondamment étudié depuis de nombreuses années et de nombreux ouvrages traitent
de ce domaine de manière très pédagogique et très complète. Cependant les systèmes
MIMO-OFDM sont très sensibles aux problèmes de synchronisation et il
faut alors proposer des méthodes de synchronisation performantes et capables de
travailler avec des systèmes MIMO-OFDM N × M.
Dans les deux précédents chapitres, nous avons rappelé les principes généraux
des transmissions MIMO-OFDM et abordé la problématique de la synchronisation
temporelle entre les émetteurs et les récepteurs. Plusieurs solutions sont possibles.
L’objet de ce chapitre est de mesurer les performances des différentes approches
dans des configurations MIMO-OFDM données. La synchronisation fréquentielle
est supposée parfaite, l’égalisation et l’estimation du canal ne feront pas l’objet de
cette thèse.
Dans un premier temps, nous allons présenter notre système de transmission
dans la section IV.1. Dans la section IV.2 nous discutons les différentes méthodes
proposées pour la synchronisation temporelle. Les résultats de simulation de ces
différentes méthodes sont présentés dans le chapitre V.
IV.1 Système de transmission
Notre système de transmission MIMO-OFDM est divisé en deux parties :
l’émetteur et le récepteur. L’émetteur génère des trames constituées de symboles
OFDM qui sont modulés en quadrature (QAM). Les symboles OFDM sont trans-
74IV.1. SYSTÈME DE TRANSMISSION
mis sur plusieurs antennes en utilisant le codage temps-espaces en blocs (STBC).
Le codage temps-espaces (STC) [1] est une technique utilisée dans les communications
sans fil pour transmettre les flux de données à travers plusieurs antennes
d’émission et de réception (MIMO). Deux approches sont utilisées pour la mise
en place de MIMO : soit on recherche à accroître l’efficacité de transmission de
données, soit on vise à augmenter le débit des données. Dans notre système, nous
avons utilisé le codage en bloc Alamouti [2] qui transmet les mêmes symboles
OFDM sur les différentes antennes d’émission à des instants différents. Le système
de transmission est présenté dans la figure IV.1.
Préambule de
synchronisation IFFT IFFT
+ CP
+ CP
CNA/
RF
CNA/
RF
Données
Série/Parallèle
Modulateur
QAM
Codeur STBC
Domaine fréquentiel Domaine temporel
Canal
MIMO
Module de
Synchronisation
FFT FFT
- CP
CAN/
RF
CAN/
RF
Domaine fréquentiel Domaine temporel
- CP
Données
Parallèle/Série
Démodulateur
QAM
Décodeur STBC
Égaliseur
Estimation
du canal
Ak Bk Ck Dk
Et Ft
Gt
࢚ࡳ ࢚ࡲ
࢚ࡱ ࡰ
࢚ࡹ
ࡼ
Fig. IV.1 – Système de transmission MIMO-OFDM-STBC
Dans la figure IV.1, le générateur aléatoire produit le flux binaire (Ak), puis
75CHAPITRE IV. LES MÉTHODES PROPOSÉES
le convertisseur série/parallèle est utilisé en vue de répartir les flux vers le modulateur
QAM (Bk) selon l’ordre de la modulation et le nombre d’antennes. Ce
modulateur a pour rôle de mapper le flux de bits selon une modulation QAM (Ck).
Les symboles QAM sont alors introduits dans un codeur espace-temps en blocs
(STBC) (Dk). Les données codées par le STBC sont transposées du domaine fré-
quentiel au domaine temporel par le biais de l’IFFT (Et). L’intervalle de garde
correspondant au préfixe cyclique (CP) est inséré après la IFFT (Ft) pour réduire
les interférences de type ISI, et sera enlevé à la réception avant la FFT. Le dernier
bloc avant la transmission de données (Gt) est un convertisseur numérique analogique
(CNA).
Le bloc que nous avons plus spécifiquement étudié dans notre système de
transmission est celui de synchronisation. Ce bloc consiste à insérer le préambule
de synchronisation dans le domaine fréquentiel ou temporel au début de chaque
trame OFDM envoyée.
Le signal émis si(t) par l’antenne d’émission Ti est donné par :
si(t) = 1
p
Nsc
N
Xsc−1
k=0
ℜe
xkΠ(t)e
j.2π.fk.t
(IV.1)
où xk sont les symboles de sortie de la modulation STBC/OFDM, obtenus
donc après la IFFT.
La deuxième partie du système de transmission MIMO-OFDM est le récepteur.
Le premier bloc après le convertisseur analogique numérique (CAN) (Gct)
est le bloc de la synchronisation temporelle, ce bloc intervient dans le domaine
temporel (Mct). Ensuite, le préfixe cyclique de chaque symbole OFDM est éliminé
(Fbt). La fonction FFT transpose les données dans le domaine fréquentiel (Ect).
Le bloc d’égalisation intervient pour corriger les effets du canal en prenant en
compte les coefficients d’estimation du canal (Pck) obtenus dans le domaine fré-
quentiel. Les symboles estimés sont décodés et combinés par le décodeur STBC
76IV.1. SYSTÈME DE TRANSMISSION
(Dck). Ensuite, un démodulateur QAM permet de démoduler et de récupérer les informations
binaires (Cck). La conversion parallèle/série permet la remise en forme
du flux binaire (Ack).
IV.1.1 Modélisation du canal de propagation
Le canal entre les antennes d’émission Ti et celles de réception Rj
, i ∈ {1, Nt}
et j ∈ {1, Nr}, est à trajets multiples. La réponse impulsionnelle H(t) du canal
peut être exprimée comme :
H(t) = X
L
l=1
Hlδ(t − τl) (IV.2)
où Hl est la matrice de coefficients du l
ime trajet de taille Nt × Nr, δ est la
fonction d’impulsion et L est le nombre maximum de trajets multiples. Hl est
donnée par :
Hl =
h
l
1,1 h
l
1,2
. . . hl
1,Nr
h
l
2,1 h
l
2,2
. . . hl
2,Nr
.
.
.
.
.
.
.
.
.
.
.
.
h
l
Nt,1 h
l
Nt,2
. . . hl
Nt,Nr
(IV.3)
IV.1.2 Modélisation du signal reçu
Le signal reçu rj par l’antenne Rj est donné par :
rj (t) = X
Nt
i=1
X
L
l=1
h
l
ij (t) ∗ si(t)
+ wj (t) (IV.4)
Où si est le signal transmis sur l’antenne Ti
, wj est le bruit blanc additif gaussien
(AWGN) et h
l
ij correspond au canal multi-trajets entre l’antenne d’émission
Ti et celle de réception Rj
.
77CHAPITRE IV. LES MÉTHODES PROPOSÉES
Nous allons dans la suite proposer différentes techniques d’élaboration du pré-
ambule de synchronisation.
IV.2 Les techniques proposées pour la synchronisation
temporelle
Dans ce paragraphe, trois méthodes d’insertion de préambule sont discutées.
L’une dans le domaine temporel, donc après la IFFT, les autres dans le domaine
fréquentiel, c’est à dire lors de la construction des symboles OFDM. Il est à noter
qu’en réception la recherche de synchronisation est effectuée dans le domaine
temporel.
IV.2.1 Méthodes de préambule court (Génération dans le domaine
temporel)
En général, les méthodes de synchronisation temporelle qui utilisent les pré-
ambules longs, qui sont corrélés à la réception avec une séquence locale afin de
détecter le pic de corrélation. Dans ce cas, nous obtenons un pic de corrélation
qui a une amplitude théorique égale à la taille de cette séquence locale. D’autres
méthodes de synchronisation temporelle utilisent des préambules courts où ces
derniers sont répartis temporellement en deux ou plusieurs parties identiques. A
la réception, la corrélation est effectuée en utilisant le préambule reçu uniquement.
Les parties identiques sont corrélées et produisent un pic de corrélation dont la position
sert à détecter le point de synchronisation. Par la suite, nous décrivons les
différentes structures de préambule court.
IV.2.1.1 Première structure de préambule court (P r_Court_1)
La structure de synchronisation est appliquée à un système MIMO-OFDM
2 × 2 utilisant un codage STBC-Alamouti. La structure de préambule de syn-
78IV.2. LES TECHNIQUES PROPOSÉES POUR LA SYNCHRONISATION TEMPORELLE
chronisation est donnée dans la figure IV.2. Cette structure consiste à envoyer
un préambule de synchronisation en utilisant différentes séquences (Hadamard,
CAZAC, ZCZ, TCH et Gold). Ces séquences ne sont pas modulées, elles sont envoyées
comme étant des séquences réelles ou complexes, et chaque bit correspond
à un échantillon du symbole total.
�� �1 �2 �� �1 �2 ��
Symbole
OFDM
�� �3 �4 �� �3 �4 ��
Symbole
OFDM
Séquence 1 Séquence 1 Trame OFDM
Préambule sur l’antenne d’émission ��
Séquence 2 Séquence 2 Trame OFDM
Préambule sur l’antenne d’émission ��
Fig. IV.2 – Préambules de synchronisation pour la première structure de la méthode de
préambules courts (P r_Court_1)
Soient C1 et C2 (resp. C3 et C4) deux codes différents utilisés dans le préambule.
Chaque code est de taille LC =
LF F T
2
et C1 6= C2 (resp. C3 6= C4). La taille
de la FFT (LF F T ), qui correspond à la taille d’un symbole OFDM, est telle que
LF F T = 2 × LC. Le préambule sur chaque antenne est complété avec le CP de
longueur LCP =
LF F T
4
.
La taille du préambule Lpr devient alors :
Lpr = 2 × (LF F T + LCP ) = 2 × (2.LC + LCP ) (IV.5)
79CHAPITRE IV. LES MÉTHODES PROPOSÉES
Ces préambules sont envoyés simultanément sur les deux antennes d’émission
(T1 et T2).
En réception, la synchronisation temporelle sur chaque antenne peut être estimée
selon deux approches différentes :
• Soit par une corrélation entre les séquences de préambule elles-mêmes.
• Soit par une corrélation entre le signal reçu et une séquence locale, c’est à
dire la séquence 1 sur T1 et/ou la séquence 2 sur T2.
Dans cette méthode nous avons utilisé la deuxième approche afin d’estimer la
synchronisation temporelle. L’avantage de cette structure réside dans la forte probabilité
de détection du pic de synchronisation. Le CP utilisé au début de chaque
préambule de synchronisation réduit l’erreur de détection et ne dégrade pas l’orthogonalité
entre les codes. Par contre, la taille du préambule est égale à deux fois
la taille d’un symbole OFDM, ce qui réduit le débit du système. Pour résoudre ce
problème, nous proposons dans la section suivante une autre structure basée sur
une construction en temporel.
IV.2.1.2 Deuxième structure de préambule court (P r_Court_2)
Cette structure consiste à envoyer une seule séquence de synchronisation au
début de chaque trame OFDM. La structure de préambule est donnée dans la fi-
gure IV.3. Chaque préambule envoyé sur chaque antenne est divisé en deux parties
de longueur LC chacune et d’un CP de longueur LCP =
LF F T
4
=
LC
2
. La longueur
de chaque préambule est Lpr = 2.LC + LCP =
5.LC
4
.
Dans cette structure, chaque préambule est constitué de deux codes différents,
C1, C2 sur la première antenne d’émission T1 et C3, C4 sur la deuxième antenne
d’émission T2.
80IV.2. LES TECHNIQUES PROPOSÉES POUR LA SYNCHRONISATION TEMPORELLE
��
�1 �2 ��
Symbole
OFDM
�� �3 �4 ��
Symbole
OFDM
�� �� Trame OFDM
Préambule sur
l’antenne d’émission ��
�� �� Trame OFDM
Préambule sur
l’antenne d’émission ��
Fig. IV.3 – Préambules de synchronisation pour la deuxième structure de la méthode de
préambules courts (P r_Court_2)
IV.2.1.3 Algorithme de détection de pic de synchronisation
A la réception, la fonction de corrélation R est appliquée entre le signal reçu
rj et une séquence locale seqj
, de taille 2Lc + LCP , au niveau du récepteur Rj
.
Cette fonction est donnée par l’équation :
Rrj ,seqj
(k) =
2.Lc−X
1+LCP
n=0
rj (k) ∗ seq∗
j
(n + k)
(IV.6)
L’idée principale de l’algorithme de synchronisation est d’estimer le pic de
synchronisation temporelle. Après la fonction de corrélation, un bloc de détection
de seuil est appliqué afin de détecter ce pic au-delà d’un seuil déterminé (th). Une
fois que |Rrj ,seqj
(k)| atteint le seuil, cela signifie que k est considéré comme le
point de synchronisation temporelle, si non, le réglage du seuil diminue la valeur
du seuil et l’operation recommence de nouveau pour détecter le pic de synchronisation.
La figure IV.4 représente un schéma général de la détection de synchronisation.
81CHAPITRE IV. LES MÉTHODES PROPOSÉES
Synchronisation
Générateur de
séquence locale
Calculer la fonction de
corrélation ℛ
Sortie |ℛ��
,����
|
��(�)
Décodage
STBC
&
Égalisation
�ℎ
�
> �ℎ
Détecteur de seuil
�ℎ
�
Oui Non
Détecteur du pic
de
synchronisation
Réglage du
seuil �ℎ
Fig. IV.4 – Schéma général de la détection du pic de synchronisation pour les méthodes
de préambules courts
Les résultats de simulation de cette méthode sont présentés dans le chapitre V
et ont été publiés dans [3]. Ces résultats présentent de bonnes performances même
à faible SNR. L’inconvénient majeur de cette méthode est la génération du préambule
dans le domaine temporel. Par conséquence, au niveau d’implémentation de
cette méthode, nous avons besoin d’un module pour générer et appliquer les pré-
ambules dans le domaine temporel. Nous avons évité ce problème dans les autres
méthodes où le préambule est généré dans le domaine fréquentiel.
IV.2.2 Méthodes de préambule compact (Génération dans le
domaine fréquentiel)
Nous proposons, dans cette partie, de nouvelles structures basées sur les sé-
quences CAZAC afin d’accroître la probabilité de détection de la synchronisation
temporelle. Les séquences CAZAC [4] sont caractérisées par une amplitude
constante et une fonction d’intercorrélation proche de zéro. Pour chaque
antenne d’émission Ti
, un préambule utilisant une séquence CAZAC est inséré
avant l’émission des symboles OFDM, l’ensemble constitue alors la trame.
82IV.2. LES TECHNIQUES PROPOSÉES POUR LA SYNCHRONISATION TEMPORELLE
Tous les préambules sont générés et mappés sur les sous-porteuses dans le domaine
fréquentiel. La structure générale des trames est illustrée dans la figure IV.5.
Fig. IV.5 – Structure générale de la trame : préambule de synchronisation + symboles
OFDM
Dans ce cas, les séquences CAZAC [5] C(k) sont données par l’équation :
C(k) = exp
jπM k2
LC
, k ∈ {0, LC − 1} (IV.7)
où LC est la longueur de la séquence CAZAC avec LC = 2n
, M ∈ N
est un nombre premier avec LC parmi les nombres entiers inférieurs à LC et
k ∈ {0, LC − 1} est l’indice de l’échantillon. Soient Lpr = LF F T + LCP la
longueur du préambule et C la séquence CAZAC de taille LC = LF F T /2. Le
terme C
i
k
représente l’échantillon de la séquence CAZAC porté par la k-ième sousporteuse
et transmis par l’antenne d’émission Ti
. Nous notons c(m) le correspondant
de C(k) dans le domaine temporel après une IFFT. Il convient de souligner
que c(m) est aussi une séquence CAZAC de longueur LC [6]. Cette séquence c(m)
est représentée par l’équation IV.8 :
c(m) = 1
LC
L
XC −1
k=0
C(k).e
j
2π
LC
mk
, m ∈ [0, LC − 1] (IV.8)
Les différentes structures de préambules sont détaillées ci-après.
83CHAPITRE IV. LES MÉTHODES PROPOSÉES
IV.2.2.1 Première structure de préambule compact (P r_Compact_1)
Chaque préambule contient une séquence CAZAC (C) mappée sur les sousporteuses
paires, et le −conjugue´ de C (−C
∗
) est mappé sur les sous-porteuses
impaires. La structure de préambule dans le domaine fréquentiel est présentée
dans la figure IV.6. La taille de chaque séquence est LC avec LC =
LF F T
2
.
��
�
−��
�∗ ��
�
−��
�∗
���−�
�
−���−�
�∗
��
�� −��
��∗
��
�� −��
��∗ ���−�
�� −���−�
��∗
��
� −��
�∗
��
� −��
�∗
���−�
� −���−�
�∗
Émetteur 1
Émetteur 2
Émetteur ��
��� Sous-porteuses
Fig. IV.6 – Schéma de préambules de synchronisation pour P r_Compact_1 dans le domaine
fréquentiel sur les différentes antennes d’émission
Bien qu’étant construite dans le domaine fréquentiel, la combinaison conserve
de bonnes propriétés de corrélation dans le domaine temporel. La fonction de corrélation
de ce préambule est présentée dans la figure IV.7. La figure IV.8 représente
84IV.2. LES TECHNIQUES PROPOSÉES POUR LA SYNCHRONISATION TEMPORELLE
−200 −100 0 100 200
0
0.2
0.4
0.6
0.8
1
Indice
Amplitude normalisée
Fonction d’autocorrélation, LFFT=256
Fonction d’autocorrélation
Fig. IV.7 – Fonction d’autocorrélation du préambule de P r_Compact_1, LF F T =256
les parties réelle et imaginaire du préambule de synchronisation dans le domaine
temporel. L’allure du préambule dans le domaine temporel présente de bonnes
propriétés de corrélation comme indique la figure IV.7.
Les séquences C(k) et −C
∗
(k)sont exprimées selon les équations IV.9 et IV.10
respectivement :
C(k) = exp
j
πM k2
LC
= cos
πM k2
LC
+ jsin
πM k2
LC
(IV.9)
−C
∗
(k) = −exp
−j
πM k2
LC
= −cos
πM k2
LC
+ jsin
πM k2
LC
(IV.10)
Soit XTi
u
(k) le préambule envoyé sur l’antenne d’émission Ti
, ce préambule
peut être exprimé, dans le domaine fréquentiel, comme :
85CHAPITRE IV. LES MÉTHODES PROPOSÉES
0 50 100 150 200 250
−1
−0.5
0
0.5
1
Indice
Partie réelle
0 50 100 150 200 250
−1
−0.5
0
0.5
1
Indice
Partie imaginaire
Fig. IV.8 – Représentation du préambule dans le domaine temporel de P r_Compact_1,
LF F T = 256
86IV.2. LES TECHNIQUES PROPOSÉES POUR LA SYNCHRONISATION TEMPORELLE
X
Ti
u
(k) =
C
Ti
k
2
si k mod 2 = 0
−C
∗ Ti
k − 1
2
si k mod 2 6= 0
k ∈ {0, LF F T − 1}
(IV.11)
Les résultats de simulation de cette structure sont présentés dans le chapitre V
et ont été publiés dans [7]. Dans cette méthode, la probabilité d’acquisition de
synchronisation temporelle est supérieure à 90% pour les systèmes MIMO-OFDM
2 × 2 avec un SNR > −5 dB.
IV.2.2.2 Deuxième structure de préambule compact (P r_Compact_2)
Dans cette structure, nous avons divisé le préambule de synchronisation en
deux parties de taille Lc =
LF F T
2
chacune. La première partie est constituée d’une
séquence CAZAC C tandis que la deuxième partie contient le −conjugue´ de la
séquence C comme indiqué dans la figure IV.9. La fonction d’autocorrélation de
ce préambule est présentée dans la figure IV.10.
Comme pour la configuration précédente, différents préambules sont répartis
sur les antennes d’émission et chaque préambule contient une séquence CAZAC
et son conjugué.
Nous présentons, dans la figure IV.11, les partie réelle et imaginaires du pré-
ambule de synchronisation dans le domaine temporel avec une FFT de taille LF F T =
256. Dans cette figure, nous pouvons remarquer qu’il existe des valeurs réelles qui
sont nulles, ce qui entraîne des lobes secondaires pour la fonction d’autocorrélation
qui est présentée dans la figure IV.10.
87CHAPITRE IV. LES MÉTHODES PROPOSÉES
��
� ��
� ���−�
� −��
�∗ −��
�∗ −���−�
�∗
��
� ��
� ���−�
� −��
�∗ −��
�∗ −���−�
�∗
��
�� ��
�� ���−�
�� −��
��∗
−��
��∗
−���−�
��∗
��� Sous-porteuses
Émetteur 1
Émetteur 2
Émetteur ��
Fig. IV.9 – Schéma de préambules de synchronisation pour la P r_Compact_2 dans le
domaine fréquentiel sur les différentes antennes d’émission
−200 −100 0 100 200
0
0.2
0.4
0.6
0.8
1
Indice
Amplitude normalisée
Fonction d’autocorrélation, LFFT=256
Fonction d’autocorrélation
Fig. IV.10 – Fonction d’autocorrélation du préambule de P r_Compact_2, LF F T =256
88IV.2. LES TECHNIQUES PROPOSÉES POUR LA SYNCHRONISATION TEMPORELLE
0 50 100 150 200 250
0
0.2
0.4
0.6
0.8
1
Indice
Partie réelle
0 50 100 150 200 250
−1
−0.5
0
0.5
1
Indice
Partie imaginaire
Fig. IV.11 – Représentation du préambule dans le domaine temporel de P r_Compact_2,
LF F T = 256
89CHAPITRE IV. LES MÉTHODES PROPOSÉES
Nous avons utilisé les mêmes séquences que celles du cas précédent (équations
IV.9 et IV.10). Soit XTi
u
le préambule envoyé sur l’antenne d’émission Ti
dans le domaine fréquentiel :
X
Ti
u
(k) =
C
Ti (k) si 0 ≤ k ≤ LC − 1
−C
∗ Ti (k − LC) si LC ≤ k ≤ LF F T − 1
(IV.12)
IV.2.2.3 Troisième structure de préambule compact (P r_Compact_3)
Cette structure est inspirée de la première structure. Nous proposons de géné-
rer un préambule qui est constitué de séquences C et du conjugué de la séquence
C noté C
∗
. Les échantillons de ces deux dernières séquences sont distribués sur
les sous-porteuses paires et impaires respectivement comme indiqué dans la fi-
gure IV.12.
L’IFFT du préambule de cette structure est présentée dans la figure IV.14.
L’enveloppe complexe de la partie réelle de cette structure, dans le domaine temporel,
est divisée en deux parties identiques et symétriques. Comme pour la première
structure (P c_Compact_1), cette combinaison possède de bonnes proprié-
tés de corrélation, permettant ainsi de détecter le pic de corrélation en réception.
La fonction d’autcorrélation de ce préambule est présentée dans la figure IV.13.
Nous avons généré les séquences C(k) et C
∗
(k) selon les équations IV.13
et IV.14 respectivement :
C(k) = exp
j
πM k2
LC
= cos
πM k2
LC
+ jsin
πM k2
LC
(IV.13)
C
∗
(k) = exp
−j
πM k2
LC
= cos
πM k2
LC
− jsin
πM k2
LC
(IV.14)
90IV.2. LES TECHNIQUES PROPOSÉES POUR LA SYNCHRONISATION TEMPORELLE
��
� ��
�∗
��
� ��
�∗
���−�
� ���−�
�∗
��
�� ��
��∗
��
�� ��
��∗ ���−�
�� ���−�
��∗
��
� ��
�∗
��
� ��
�∗
���−�
� ���−�
�∗
Émetteur 1
Émetteur 2
Émetteur ��
��� Sous-porteuses
Fig. IV.12 – Schéma des préambules de synchronisation pour P r_Compact_3 dans le
domaine fréquentiel sur les différentes antennes d’émission
−200 −100 0 100 200
0
0.2
0.4
0.6
0.8
1
Indice
Amplitude normalisée
Fonction d’autocorrélation, LFFT=256
Fonction d’autocorrélation
Fig. IV.13 – Fonction d’autocorrélation du préambule de P r_Compact_3, LF F T =256
91CHAPITRE IV. LES MÉTHODES PROPOSÉES
0 50 100 150 200 250
−1
−0.5
0
0.5
1
Indice
Partie réelle
0 50 100 150 200 250
−1
−0.5
0
0.5
1
Indice
Partie imaginaire
Fig. IV.14 – Représentation du préambule dans le domaine temporel de P r_Compact_3,
LF F T = 256
92IV.2. LES TECHNIQUES PROPOSÉES POUR LA SYNCHRONISATION TEMPORELLE
Le préambule de synchronisation de cette structure est de taille Lpr = LF F T +
LCP = 2.LC + LCP . Soit XTi
u
le préambule envoyé sur l’antenne d’émission Ti
dans le domaine fréquentiel :
X
Ti
u
(k) =
C
Ti
k
2
si k mod 2 = 0
C
∗ Ti
k − 1
2
si k mod 2 6= 0
k ∈ {0, LF F T − 1}
(IV.15)
IV.2.2.4 Quatrième structure de préambule compact (P r_Compact_4)
Cette structure est basée sur la méthode de préambule compact P r_Compact_2.
Le schéma du préambule de cette structure, dans le domaine fréquentiel, est pré-
senté dans la figure IV.15. Il est divisé en deux parties, l’une contient les échantillons
de C et l’autre contient ceux de C
∗
. Chaque partie est de taille LF F T
2
, la
taille totale du préambule est Lpr = LF F T + LCP = 2.LC + LCP .
La fonction d’autocorrélation du préambule de synchronisation dans le domaine
temporel est présentée dans la figures IV.16. Dans cette figure, la fonction
d’autocorrélation présente des pics secondaires d’amplitudes de 18% de la taille
normalisée du pic de corrélation. Cette fonction de corrélation ne présente pas de
bonnes propriétés de corrélation comme celles des méthodes de préambule compact
P r_Compact_1 et P r_Compact_3.
Une représentation de la structure du préambule de synchronisation dans le domaine
temporel est présentée dans la figure IV.17. Dans cette figure, nous avons
représenté les parties réelle et imaginaire du préambule de cette structure.
93CHAPITRE IV. LES MÉTHODES PROPOSÉES
��
� ��
� ���−�
� ��
�∗ ��
�∗ ���−�
�∗
��
� ��
� ���−�
� ��
�∗ ��
�∗ ���−�
�∗
��
�� ��
�� ���−�
�� ��
��∗
��
��∗
���−�
��∗
��� Sous-porteuses
Émetteur 1
Émetteur 2
Émetteur ��
Fig. IV.15 – Schéma de préambules de synchronisation pour P r_Compact_4 dans le
domaine fréquentiel sur les différentes antennes d’émission
−200 −100 0 100 200
0
0.2
0.4
0.6
0.8
1
Indice
Amplitude normalisée
Fonction d’autocorrélation, LFFT=256
Fonction d’autocorrélation
Fig. IV.16 – Fonction d’autocorrélation du préambule de P r_Compact_4, LF F T =256
94IV.2. LES TECHNIQUES PROPOSÉES POUR LA SYNCHRONISATION TEMPORELLE
0 50 100 150 200 250
−1
−0.5
0
0.5
1
Indice
Partie imaginaire
0 50 100 150 200 250
−1
−0.5
0
0.5
1
Indice
Partie réelle
Fig. IV.17 – Représentation du préambule dans le domaine temporel de P r_Compact_4,
LF F T = 256
95CHAPITRE IV. LES MÉTHODES PROPOSÉES
Soit XTi
u
est le préambule envoyé sur l’antenne d’émission Ti dans le domaine
fréquentiel. Ce préambule est exprimé par :
X
Ti
u
(k) =
C
Ti (k) si 0 ≤ k ≤ LC − 1
C
∗ Ti (k − LC) si LC ≤ k ≤ LF F T − 1
(IV.16)
IV.2.2.5 Algorithme de détection de pic de synchronisation
La méthode de préambule compact consiste à transmettre un seul préambule
au début de chaque trame. Ce préambule est constitué de séquences CAZAC ayant
des agencements différents. Soit x
Ti
u
(m) le résultat de l’IFFT du préambule XTi
u
( IV.11, IV.12, IV.15 et IV.16) qui peut être exprimé :
x
Ti
u
(m) = 1
LF F T
LF F T X−1
k=0
X
Ti
u
(k).e
j
2π
LF F T
mk
, m ∈ {0, LF F T − 1} (IV.17)
La fonction d’autocorélation du préambule de synchronisation dans le domaine
temporel est donnée par :
Rxu
(p) =
LF F T X−1
m=0
xu(m).x∗
u
(m − p)
=
1
L
2
F F T
LF F T X−1
m=0
LF F T X−1
k=0
Xu(k).e
j
2π
LF F T
mk
× X
∗
u
(k − p).e
−j
2π
LF F T
(m−p)k
=
1
L
2
F F T
LF F T X−1
m=0
LF F T X−1
k=0
Xu(k).X∗
u
(k − p).
LF F T X−1
k=0
e
j
2π
LF F T
pk
| {z }
=LF F T
=
1
LF F T
LF F T X−1
k=0
Xu(k).X∗
u
(k − p)
(IV.18)
96IV.2. LES TECHNIQUES PROPOSÉES POUR LA SYNCHRONISATION TEMPORELLE
Dans l’équation IV.18, nous trouvons que la fonction d’autocorrélation du
préambule dans le domaine temporel est équivalente à celle dans le domaine fré-
quentiel, ce qui montre les bonnes propriétés de ces différentes structure.
Soit rj (t) le signal reçu sur l’antenne Rj
. Ce signal peut être exprimé par :
rj (t) = X
Nt
i=1
X
L
l=1
h
l
ij (t) ∗ si(t)
+ wj (t) (IV.19)
où h
l
ij est un canal à L trajets multiples entre l’antenne d’émission Ti et celle
de la réception Rj
, si(t) est le signal OFDM transmis et wj est le bruit blanc additif
Gaussien (AWGN) du signal.
A la réception, une séquence locale seqj
, de taille LC, peut être générée selon
la configuration de préambule retenue sur chaque antenne de réception Rj
. La
fonction de corrélation R est réalisée entre le signal reçu rj et la séquence locale
seqj
. Cette fonction de corrélation, dans le cas d’une séquence locale, est donnée
par :
Rrj ,seqj
(k) =
LF F T X−1
n=0
rj (k).seq∗
j
(n + k)
(IV.20)
où k est l’indice de l’échantillon correspondant à l’indice temporel.
La synchronisation temporelle est estimée par le terme ˆindk. Ce terme est
donné par :
ˆindk = argmax
n
{kRrj ,seqj
(k)k} (IV.21)
97CHAPITRE IV. LES MÉTHODES PROPOSÉES
Le ˆindk représente l’estimation de la synchronisation temporelle avec k donnant
l’indice de début de la trame reçue. Le début du premier symbole OFDM est
obtenu par le placement relatif de la fenêtre de la FFT.
IV.2.3 Méthodes de zéro padding
La méthode de zéro padding consiste à diviser le préambule en quatre parties
identiques. La taille de chaque partie LC est égale à la taille du CP :
LC = LCP =
LF F T
4
Pour les quatre parties, nous pouvons transmettre les séquences de synchronisation
dans une ou deux parties. Les autres parties sont mises à zéro. En se basant
sur cette approche, nous proposons les deux méthodes suivantes :
IV.2.3.1 Première structure de zéro padding (Z_P ad_1)
Cette structure repose sur une des structures qui sont présentées dans la partie
IV.2.3. La structure générale du préambule dans le domaine fréquentiel est
représentée dans la figure IV.18.
Fig. IV.18 – Schéma général du préambule de synchronisation de la Z_P ad_1 dans le
domaine fréquentiel
98IV.2. LES TECHNIQUES PROPOSÉES POUR LA SYNCHRONISATION TEMPORELLE
Dans cette configuration, une seule partie contient une séquence de synchronisation
de type CAZAC et de taille LC. Les autres parties contiennent des zéros.
Un CP de taille LCP est ajouté, dans le domaine temporel, au début de la séquence
de synchronisation. La taille du préambule est :
Lpr = 4.LC + LCP = 5.LC
La structure générale sur les différentes antennes d’émission dans un système
MIMO-OFDM est présentée dans la figure IV.19.
Fig. IV.19 – Schéma de préambules de synchronisation de Z_P ad_1 dans le domaine
fréquentiel sur les différentes antennes d’émission
99CHAPITRE IV. LES MÉTHODES PROPOSÉES
L’équation du préambule dans le domaine fréquentiel (XTi
u
) peut être exprimée
par :
X
Ti
u
(k) =
0 si 0 ≤ k ≤
3LF F T
4
− 1
C
Ti (k −
3LF F T
4
) si
3LF F T
4
≤ k ≤ LF F T − 1
(IV.22)
La fonction d’autocorrélation du préambule de synchronisation de cette structure
est présentée dans la figure IV.20. Cette fonction présente de bonnes proprié-
tés de corrélation, ces propriétés assurent de bonnes estimation de trame au niveau
des récepteurs.
0 100 200 300 400 500
0
0.2
0.4
0.6
0.8
1
Indice
Amplitude normalisée
Fonction d'autocorrélation
Fig. IV.20 – Fonction d’autocorrélation de la Z_P ad_1, LF F T =256
100IV.2. LES TECHNIQUES PROPOSÉES POUR LA SYNCHRONISATION TEMPORELLE
A la réception, une fonction de corrélation entre le signal reçu et une séquence
locale de taille LF F T ou bien de taille LF F T + LCP est appliquée pour estimer le
début de trames reçues.
La figure IV.21 représente les parties réelle et imaginaire de la structure du
préambule de synchronisation dans le domaine temporel.
0 50 100 150 200 250
−1
−0.5
0
0.5
1
Indice
Partie réelle
0 50 100 150 200 250
−1
−0.5
0
0.5
1
Indice
Partie imaginaire
Fig. IV.21 – Représentation du préambule dans le domaine temporel de Z_P ad_1,
LF F T = 256
101CHAPITRE IV. LES MÉTHODES PROPOSÉES
IV.2.3.2 Deuxième méthode de zéro padding (Z_P ad_2)
Cette structure utilise le zéro padding de façon quelque peu différente. Le pré-
ambule est divisé en quatre parties, deux d’entre elles contiennent les séquences
de synchronisation, les deux autres sont à zéro. La structure de préambule est
donnée dans la figure IV.22. La figure IV.23 représente la structure générale des
préambules sur les différentes antennes d’émission.
Fig. IV.22 – Schéma général du préambule de synchronisation de Z_P ad_2 dans le domaine
fréquentiel
Soit XTi
u
le préambule envoyé sur l’antenne d’émission Ti dans le domaine
fréquentiel :
X
Ti
u
(k) =
C
Ti (k) si 0 ≤ k ≤
LF F T
4
− 1
C
Ti (k −
LF F T
2
) si
LF F T
2
≤ k ≤
3LF F T
2
− 1
0 si
LF F T
4
≤ k ≤
LF F T
2
− 1
3LF F T
2
≤ k ≤ LF F T − 1
(IV.23)
La figure IV.24 représente la fonction d’autocorrélation du préambule de synchronisation.
Cette fonction de corrélation présente d’autres pics secondaires. La
figure IV.25 présente l’envelope des parties réelles et complexes du préambule
dans le domaine temporel.
102IV.2. LES TECHNIQUES PROPOSÉES POUR LA SYNCHRONISATION TEMPORELLE
Fig. IV.23 – Schéma de préambules de synchronisation de Z_P ad_2 dans le domaine
fréquentiel sur les différentes antennes d’émission
0 100 200 300 400 500
0
0.2
0.4
0.6
0.8
1
Indice
Fonction d'autocorrélation
Amplitude normalisée
Fig. IV.24 – Fonction de corrélation de la Z_P ad_2, LF F T = 256
103CHAPITRE IV. LES MÉTHODES PROPOSÉES
0 50 100 150 200 250
−1
−0.5
0
0.5
1
Indice
Partie réelle
0 50 100 150 200 250
−1
−0.5
0
0.5
1
Indice
Partie imaginaire
Fig. IV.25 – Représentation du préambule dans le domaine temporel de Z_P ad_2,
LF F T = 256
104IV.3. CONCLUSION
IV.3 Conclusion
Dans ce chapitre, nous avons proposé plusieurs méthodes pour la synchronisation
temporelle où un préambule de synchronisation est ajouté au début de chaque
trame de symboles OFDM. Ces différentes méthodes sont basées sur différentes
séquences comme les séquences d’Hadamard et les séquences CAZAC qui ont de
bonnes propriétés de corrélation.
A la réception, une fonction d’autocorrélation ou d’intercorrélation est appliquée
pour estimer le pic de la synchronisation en temporel. Dans le cas d’un canal
à trajets multiples, après la corrélation, nous obtenons plusieurs pics de corrélation.
Dans le chapitre V nous étudions les performances des méthodes proposées
dans ce chapitre.
105CHAPITRE IV. LES MÉTHODES PROPOSÉES
106IV.3. CONCLUSION
Bibliographie
[1] V. Tarokh, A. Naguib, N. Seshadri, and A. Calderbank, “Space-time codes for
high data rate wireless communication : performance criteria in the presence
of channel estimation errors, mobility, and multiple paths,” Communications,
IEEE Transactions on, vol. 47, pp. 199 –207, Feb 1999.
[2] S. Alamouti, “A simple transmit diversity technique for wireless communications,”
Selected Areas in Communications, IEEE Journal on, vol. 16,
pp. 1451–1458, Oct 1998.
[3] A. Rachini, A. Beydoun, F. Nouvel, and B. Beydoun, “Timing synchronisation
method for mimo-ofdm system using orthogonal preamble,” in Telecommunications
(ICT), 2012 19th International Conference on, pp. 1–5, 2012.
[4] R. Frank, S. Zadoff, and R. Heimiller, “Phase shift pulse codes with good periodic
correlation properties (corresp.),” Information Theory, IRE Transactions
on, vol. 8, pp. 381 –382, October 1962.
[5] D. Chu, “Polyphase codes with good periodic correlation properties (corresp.),”
Information Theory, IEEE Transactions on, vol. 18, no. 4, pp. 531–
532, 1972.
[6] P. Fan and M. Darnell, Sequence Design for Communications Applications.
John Wiley & Sons Ltd., 1996.
[7] A. Rachini, A. Beydoun, F. Nouvel, and B. Beydoun, “A novel compact
preamble structure for timing synchronization in mimo-ofdm systems using
cazac sequences,” in International Conference on Communications, Computation,
Networks and Technologies (INNOV), pp. 1–6, 2013.
107CHAPITRE IV. LES MÉTHODES PROPOSÉES
108CHAPITRE V
LES RÉSULTATS DE SIMULATION
Sommaire
V.1 Simulation des méthodes de préambule court . . . . . . . . 110
V.1.1 Paramètres de simulations . . . . . . . . . . . . . . . 110
V.1.2 Résultats de simulations de P r_Court_1 . . . . . . . 111
V.1.3 Résultats de simulations de P r_Court_2 . . . . . . . 116
V.2 Simulation des méthodes de préambule compact . . . . . . 119
V.2.1 Paramètres de simulations . . . . . . . . . . . . . . . 120
V.2.2 Résultats de simulations de la méthode de préambule
compact . . . . . . . . . . . . . . . . . . . . . . . . . 121
V.2.3 Les performances de la méthode de préambule compact 134
V.3 Résultats de simulations des méthodes de zéro padding . . 137
V.3.1 Résultats de simulations de Z_P ad_1 . . . . . . . . . 137
V.3.2 Résultats de simulations de Z_P ad_2 . . . . . . . . . 140
V.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
109CHAPITRE V. LES RÉSULTATS DE SIMULATION
Après avoir décrit les différentes méthodes dans le chapitre IV, nous allons
évaluer leurs performances et les comparer avec d’autres méthodes proposées dans
la littérature. Les méthodes sont évaluées en terme de probabilité d’acquisition de
synchronisation et selon le rapport signal à bruit (SNR).
V.1 Simulation des méthodes de préambule court
La méthode de préambule court, présentée dans la section IV.2.1 est évaluée
avec différentes séquences. Les paramètres et les résultats de simulation de cette
méthode proposant deux structures sont présentés dans les sections suivantes :
V.1.1 Paramètres de simulations
Les paramètres de simulation de cette méthode sont précisés dans les deux
tableaux V.1 et V.2. Certains paramètres sont utilisés dans le système LTE (Long
Term Evolution) [1], comme le délai entre les différents trajets multiples et la
puissance de chaque trajet.
Tableau. V.1 – Paramètres de simulation de la méthode de préambule court
Paramètre de simulation Valeur
MIMO-OFDM 2 × 2
Taille de FFT/IFFT 1024
Taille de l’intervalle de garde (CP) LCP = LF F T /4 = 256
Type du canal Rayleigh à trajets-multiples et
AWGN
Type de séquences de synchronisation Hadamard, CAZAC, Gold et ZCZ
Taille du code dans chaque séquence de synchronisation
(LC)
512
Nombre de trajets-multiples 9
110V.1. SIMULATION DES MÉTHODES DE PRÉAMBULE COURT
Tableau. V.2 – Puissance moyenne et délai du canal de propagation (méthodes de préambule
court)
Délai de propagation entre les différents trajetsmultiples
en microsecondes [1]
[0.0, 0.03, 0.15, 0.31, 0.37, 0.71,
1.09, 1.73, 2.51]
La puissance de chaque trajet multiple en dB [1] [0.0, -1.5, -1.4, -3.6, -0.6, -9.1, -7.0,
-12.0 ,-16.9]
V.1.2 Résultats de simulations de P r_Court_1
Cette structure consiste à envoyer un préambule qui est composé de différentes
séquences courtes (Hadamard, CAZAC, ZCZ, TCH et Gold). Cette structure de
préambule de synchronisation est présentée dans la figure V.1.
�� �1 �2 �� �1 �2 ��
Symbole
OFDM
�� �3 �4 �� �3 �4 ��
Symbole
OFDM
Séquence 1 Séquence 1 Trame OFDM
Préambule sur l’antenne d’émission ��
Séquence 2 Séquence 2 Trame OFDM
Préambule sur l’antenne d’émission ��
Fig. V.1 – Préambules de synchronisation pour un système 2 × 2 (P r_Court_1)
Nous avons simulé la méthode P r_Court_1 avec les séquences d’Hadamard,
CAZAC, ZCZ pour un système MIMO-OFDM 2 × 2.
111CHAPITRE V. LES RÉSULTATS DE SIMULATION
V.1.2.1 Simulation avec les séquences d’Hadamard
La première méthode proposée dans la section IV.2.1.1, figure V.1, a été simulée
en utilisant les paramètres résumés dans les deux tableaux V.1 et V.2. Afin de
comparer les performances de notre méthode avec la proposition de W. Jian [2],
des simulations ont été réalisées avec une longueur de FFT égale à 1024. La fi-
gure V.2 présente une comparaison entre la probabilité d’acquisition de synchronisation
de ces deux méthodes.
-10 -5 0 5
0
0.2
0.4
0.6
0.8
1
Synchronisation temporelle
SNR (dB)
Probabilité d'acquisition
Code d'Hadamard, seuil = 95%
Code d'Hadamard, seuil = 93%
Loosely Synchronous (LS) Codes
-2 -1 0 1 2
0.95
1
Fig. V.2 – Probabilité d’acquisition de la synchronisation temporelle de méthode de pré-
ambule court P r_Court_1
Nous pouvons remarquer que toutes les trames OFDM peuvent être récupérées
avec un rapport signal à bruit (SNR) −5 dB ≤ SNR ≤ 0 dB pour la méthode
P r_Court_1 avec un seuil de détection égale à 95% du seuil normalisé, tandis que
l’acquisition de probabilité de synchronisation PSY NC de la méthode proposée
dans [2] utilisant les codes Loosely Synchronous (LS) permet la détection des
trames OFDM à partir d’un SNR ≥ 0 dB.
112V.1. SIMULATION DES MÉTHODES DE PRÉAMBULE COURT
V.1.2.2 Simulation avec d’autres séquences
Dans cette section, la structure de préambule et les paramètres de simulation
sont identiques au cas précédent, seules les séquences et seuils de détection diffèrent.
Les figures V.3 et V.4 permettent de comparer l’efficacité de différentes sé-
quences (Hadamard, CAZAC, Gold et ZCZ), qui sont décrites dans le chapitre III.
Dans la figure V.3, le seuil de détection est fixé à 96%. La probabilité de synchronisation
temporelle PSY NC = 99% pour un SNR de −2 dB pour les séquences
d’Hadamard et CAZAC. La PSY NC = 98% pour un SNR de 0 dB pour les sé-
quences de Gold et ZCZ. Les résultats de simulation de séquences d’Hadamard
et CAZAC présentent de bonnes performances par rapport aux autres différentes
séquences.
−2 0 2 4 6 8 10
0.9
0.92
0.94
0.96
0.98
1
SNR en dB
Probabilité d’acquisition
Synchronisation temporelle, LFFT=1024, seuil=96%
Séquence d’Hadamard
Séquence CAZAC
Séquence de Gold
Séquence ZCZ
Fig. V.3 – Probabilité d’acquisition de la synchronisation temporelle en fonction de SNR
et un seuil de détection à 96%, de méthode de préambule court P r_Court_1
113CHAPITRE V. LES RÉSULTATS DE SIMULATION
Dans la figure V.4, le seuil de détection est fixé à 97%. La PSY NC > 99%
pour un SNR de 2 dB pour les deux types de séquences Hadamard et CAZAC.
La PSY NC = 98% pour le même SNR pour les séquences de Gold et ZCZ. Dans
cette figure, nous trouvons que les séquences Hadamard et CAZAC sont plus performantes
par rapport aux séquence de Gold et ZCZ.
−2 0 2 4 6 8 10
0.9
0.92
0.94
0.96
0.98
1
SNR en dB
Probabilité d’acquisition
Synchronisation temporelle, LFFT=1024, seuil=97%
Séquence d’Hadamard
Séquence CAZAC
Séquence de Gold
Séquence ZCZ
Fig. V.4 – Probabilité d’acquisition de la synchronisation temporelle en fonction de SNR
et un seuil de détection à 97%, de méthode de préambule court P r_Court_1
Le CP inséré au début de chaque préambule de synchronisation permet de
compenser les interférences entre symboles et d’augmenter l’efficacité de la probabilité
de l’acquisition de synchronisation temporelle (PSY NC) en réception. A la
réception une fonction de corrélation est appliquée entre le signal reçu (rj ) et une
séquence locale. Deux approches ont été présentée, la première consiste à corréler
rj avec une séquence locale qui contient un CP, et l’autre consiste à corréler rj
avec une séquence locale qui ne contient le CP. Les figures V.5 et V.6 représentent
une comparaison entre les performances de séquences d’Hadamard et CAZAC
pour ces deux approches pour différents seuil de détection.
114V.1. SIMULATION DES MÉTHODES DE PRÉAMBULE COURT
−2 −1 0 1 2 3 4 5 6
0.94
0.95
0.96
0.97
0.98
0.99
1
Synchronisation temporelle, LFFT=1024, seuil=96%
SNR en dB
Probabilité d’acquisition
Séquence d’Hadamard avec CP
Séquence CAZAC avec CP
Séquence d’Hadamard sans CP
Séquence CAZAC sans CP
Fig. V.5 – Probabilité d’acquisition de la synchronisation temporelle en fonction de SNR
et un seuil de détection à 96%, de méthode de préambule court P r_Court_1
Ces résultats de simulations montrent que la PSY NC est plus grande si la corrélation
est effectuée entre le signal reçu (rj ) et une séquence locale augmentée
d’un CP (séquence locale + le CP).
Les notations sur les figures :
sequenceX avec CP : corrélation du signal reçu (rj ) et une séquence locale (seqj )
avec le CP.
sequenceX sans CP : corrélation du signal reçu (rj ) et une séquence locale (seqj )
sans le CP.
où sequenceX ∈ {Hadamard, CAZAC}
115CHAPITRE V. LES RÉSULTATS DE SIMULATION
−2 −1 0 1 2 3 4 5 6
0.9
0.92
0.94
0.96
0.98
1
SNR en dB
Probabilité d’acquisition
Synchronisation temporelle, LFFT=1024, seuil=98%
Séquence d’Hadamard avec CP
Séquence CAZAC avec CP
Séquence d’Hadamard sans CP
Séquence CAZAC sans CP
Fig. V.6 – Probabilité d’acquisition de la synchronisation temporelle en fonction de SNR
et un seuil de détection à 98%, de méthode de préambule court P r_Court_1
V.1.3 Résultats de simulations de P r_Court_2
La deuxième méthode proposée dans la section IV.2.1.2 a été simulée en utilisant
les mêmes paramètres les tableaux V.1 et V.2 mais avec un seul symbole de
synchronisation. Les résultats de simulation de cette méthode sont présentés dans
la figure V.7.
Dans cette figure, nous comparons les performances de séquences d’Hadamard
et CAZAC. Le seuil de détection est fixé à 91%. La PSY NC = 1 à un SNR ≥
−5 dB pour les séquences d’Hadamard et la PSY NC = 1 à un SNR ≥ −4 dB
pour les séquences CAZAC.
Cette approche est comparée avec la méthode proposée dans [3]. La figure V.7
montre la probabilité d’acquisition pour la synchronisation temporelle en fonc-
116V.1. SIMULATION DES MÉTHODES DE PRÉAMBULE COURT
−6 −4 −2 0
0.8
0.9
1
Synchronisation temporelle, seuil = 91%
SNR en dB
Probabilité d’acquisition
95%
Méthode proposée avec code CAZAC
Méthode proposée avec code d’Hadamard
Fig. V.7 – Probabilité d’acquisition de la synchronisation temporelle dans un canal de à
trajets-multiples + AWGN, seuil = 91%, de méthode de préambule court P r_Court_2
tion du SNR dans un canal de Rayleigh à trajets multiples (différent du modèle de
canal utilisé en LTE) et un canal AWGN. Le seuil de détection du pic de synchronisation
est fixé à 89% du pic de corrélation normalisée.
Il est remarqué, dans [3], que la probabilité d’acquisition de la synchronisation
temporelle est égale à 1 pour un SNR ≥ −5 dB, tandis que dans notre approche,
la probabilité d’acquisition de la synchronisation temporelle est égale à 1 à partir
d’un SNR ≥ −6 dB pour les séquences d’Hadamard et la PSY NC = 1 à partir
d’un SNR ≥ −4 dB pour les séquences CAZAC. Si le seuil de détection est
ramené à 89%, la probabilité d’acquisition de la synchronisation temporelle peut
être plus efficace pour une faible valeur de SNR comme le montre la figure V.8.
117CHAPITRE V. LES RÉSULTATS DE SIMULATION
−8 −6 −4 −2 0
0.6
0.7
0.8
0.9
1
Synchronisation temporelle, seuil = 89%
SNR en dB
Probabilité d’acquisition
Méthode proposée avec code d’Hadamard
Méthode proposée avec code CAZAC
Méthode proposée par Z. Gao, J. Xu, and Z. Zhang
Fig. V.8 – Probabilité d’acquisition de la synchronisation temporelle dans un canal à trajets
multiples + AWGN, seuil = 89%, de méthode de préambule court P r_Court_2
La figure V.9 représente une comparaison de performance de différentes sé-
quences de synchronisation pour différents seuils de détection. Soient les quatres
types de séquence, CAZAC, Hadamard, Gold et ZCZ, sont simulées avec les deux
différents seuils de détection, 96% et 97%. Dans cette figure, nous remarquons
que pour un seuil de détection égal à 96%, les séquences CAZAC et Hadamard
présentent une synchronisation parfaite à partir d’un SNR ≥ 4 dB, autrement,
à partir d’un SNR ≥ 6 dB, ces deux séquences présentent une synchronisation
parfaite pour un seuil de détection égal à 96%.
Dans la même figure, nous trouvons que les autres types de séquences, Gold
et ZCZ, présentent de bonnes performances pour les deux différents seuils de dé-
tection, 96% et 97% à partir d’un SNR ≥ 4 dBet6 dB respectivement, mais dans
118V.2. SIMULATION DES MÉTHODES DE PRÉAMBULE COMPACT
−2 0 2 4 6 8 10
0.95
0.96
0.97
0.98
0.99
1
SNR en dB
Probabilité d’acquisition (PSYNC
)
Synchronisation temporelle, LFFT=1024, Pr_Court_1
Hadamard−seuil=96%
CAZAC−seuil=96%
Gold−seuil=96%
ZCZ−seuil=96%
Hadamard−seuil=97%
CAZAC−seuil=97%
Gold−seuil=97%
ZCZ−seuil=97%
Fig. V.9 – Comparaison de la probabilité d’acquisition de la synchronisation temporelle
de méthode de préambule court P r_Court_2 avec différents seuils et séquences
ces pour ces deux types de séquences, nous ne trouvons pas une synchronisation
parfaite même pour un SNR ≥ 10 dB.
Après les résultats de simulations dans la figure V.9, nous trouvons que les
séquences CAZAC et Hadamard présentent de bonnes performances par rapport
aux autres types de séquences et surtout pour les systèmes MIMO-OFDM.
V.2 Simulation des méthodes de préambule compact
Cette section présente les résultats de simulation des quatre propositions pré-
sentés en IV.2.2. Ces résultats sont exprimés en pourcentage de bonne réception
119CHAPITRE V. LES RÉSULTATS DE SIMULATION
de trames selon les valeurs de SNR.
V.2.1 Paramètres de simulations
Les simulations ont été réalisées en utilisant les paramètres présentés dans
les deux tableaux V.3 et V.4. Le tableau V.3 présente la structure d’un système
MIMO-OFDM, la taille de la FFT et les types de séquences utilisées.
Tableau. V.3 – Paramètres de simulations de méthodes de préambule compact
Paramètres de simulations Valeur
Système MIMO-OFDM jusqu’à 8 × 8
Taille de FFT/IFFT (LF F T ) 1024, 512 et 256
Taille du Préfixe cycliques (LCP ) LF F T /4
Type du canal Canal de Rayleigh à trajets multiples
et canal AWGN
Type de séquences CAZAC
Taille de séquences orthogonales (LC) LF F T /2
Nombre de symboles de synchronisation 1
Nombre de trajets multiples 6
SNR moyen sur toute la trame OFDM (Préambule
+ symboles OFDM)
de 0 dB à 25 dB
Le modèle de canal de Rayleigh à trajets multiples est proposé par le groupe
IEEE 802.11 [4]. Ce canal a été adopté pour simuler 6 trajets multiples qui sont
espacés de TS, où TS désigne la période d’échantillonnage.
Une comparaison est faite entre notre méthode et celle proposée dans [5] en
utilisant les paramètres de simulation des tableaux V.3 et V.4. Hung-Chin Wang
et Chin-Liang Wang présentent dans [5] une méthode de synchronisation pour
un système MIMO-OFDM distribué. Cette méthode consiste à envoyer le préambule
dans le domaine fréquentiel, les séquences de synchronisation sont portées
120V.2. SIMULATION DES MÉTHODES DE PRÉAMBULE COMPACT
Tableau. V.4 – Puissance moyenne du canal de Rayleigh à trajets multiples (méthodes de
préambule compact)
Délai de prorogation entre les différents trajets
multiples [1]
[0.Ts, 1.Ts, 2.Ts, 3.Ts, 4.Ts, 5.Ts]
La puissance de chaque trajet multiple en dB
[1]
[0.8111, 0.1532, 0.0289, 0.0055,
0.0010, 0.0002]
par des sous-bandes adjacentes. Ces sous-bandes adjacentes sont espacées par des
bandes de garde pour réduire les interférences entre les sous-bandes. Dans [5] les
séquences de synchronisation sont chargées sur une sous-bande de manière équidistante
(par exemple, sous-bande 1 et sous-bande Nt) comme indiqué dans la
figure II.7.
L’approche des auteurs [5] présente plusieurs inconvénients, elle est limitée
par le nombre des antennes et la taille du préambule. Supposons que la taille de
préambule soit fixe, si le nombre des antennes augmente donc la taille des sousbandes
doit être diminuée. Dans notre méthode de préambule compact, la taille de
préambule n’est pas liée directement au nombre des antennes. Quel que soit les
nombres des antennes d’émission, la taille de préambule est égale à la taille de la
FFT.
V.2.2 Résultats de simulations de la méthode de préambule compact
L’idée principale de la méthode proposée est de détecter l’arrivée de paquets
afin de détecter le début du symbole OFDM. Pour détecter le pic de synchronisation,
une fonction de corrélation Rrj ,seqj
est réalisée entre le signal reçu rj et
une séquence locale seqj à l’antenne de réception Rj
. La fonction générale de
corrélation est rappelée dans l’équation V.1 suivante :
121CHAPITRE V. LES RÉSULTATS DE SIMULATION
Rrj ,seqj
(k) = X
Lseq
n=0
rj (k) ∗ seq∗
j
(n + k)
(V.1)
où Lseq est la taille de la séquence de corrélation et n est l’indice de l’échantillon
qui correspondant à l’indice temporel.
L’estimation de la synchronisation temporelle ( ˆindk) est donnée par :
ˆindk = argmax
k
{kRrj ,seqj
(k)k} (V.2)
L’ ˆindk sera considéré comme le point de synchronisation temporelle ou le dé-
but d’une trame. Le début du premier symbole OFDM est obtenu par le placement
relatif de la fenêtre de la FFT. Sur chaque antenne de réception Rj
, une fonction
de corrélation Rrj ,seqj
dans le domaine temporel est calculée afin de détecter le
pic de synchronisation.
V.2.2.1 Résultats de simulations de P r_Compact_1
La première méthode de préambule compact, section IV.2.2.1 consiste à envoyer
un préambule qui est constitué d’une séquence CAZAC et de son "- conjugué"
comme indique la figure V.10.
−
∗
−
ࢀࡲࡲࡸ ∗
ି
ࢀࡲࡲࡸ−
ି
∗
…………………..
Fig. V.10 – Structure de préambule dans le domaine fréquentiel sur chaque antenne
d’émission - P r_Compact_1
où LF F T est la longueur du préambule, C est la séquence CAZAC où C
i
k
repré-
sente le k
ième échantillon de la séquence CAZAC dans le domaine des fréquences
122V.2. SIMULATION DES MÉTHODES DE PRÉAMBULE COMPACT
−5 0 5 10 15
0.8
0.85
0.9
0.95
1
Synchronisation temporelle, LFFT=1024
SNR en dB
Probabilité d’acquisition (PSYNC
)
SISO 1x1
MIMO 2x2
MIMO 4x4
MIMO 8x8
Fig. V.11 – Probabilité d’acquisition de synchronisation temporelle de méthode de pré-
ambule compact P r_Compact_1 avec LF F T = 1024
transmis sur l’antenne d’émission Ti et ∗ désigne le conjugué. La séquence CAZAC
C est mappée sur les sous-porteuses impaires tandis que le −conjugue´ de
C est mappé sur les sous-porteuses impaires.
Les figures V.11 et V.12 présentent les probabilités d’acquisition de cette approche
pour différentes tailles de FFT (LF F T = 1024, LF F T = 512 respectivement.)
et différentes structures des systèmes SISO-OFDM (1 × 1) et MIMOOFDM
(2 × 2, 4 × 4 et 8 × 8).
La figure V.11 montre que la probabilité d’acquisition (PSY NC) s’approche
de 1 pour les deux systèmes SISO-OFDM et MIMO-OFDM 2 × 2 à partir d’un
SNR > −5 dB. Pour un système MIMO-OFDM 4×4, la PSY NC ≥ 97% à partir
d’un SNR > 0 dB. La PSY NC ≥ 92% pour un système MIMO-OFDM 8 × 8 à
partir d’un SNR > 0 dB.
123CHAPITRE V. LES RÉSULTATS DE SIMULATION
−5 0 5 10 15
0.4
0.5
0.6
0.7
0.8
0.9
1
Synchronisation temporelle, LFFT=512
SNR en dB
Probabilité d’acquisition (PSYNC
)
SISO 1x1
MIMO 2x2
MIMO 4x4
MIMO 8x8
Fig. V.12 – Probabilité d’acquisition de synchronisation temporelle de méthode de pré-
ambule compact P r_Compact_1 avec LF F T = 512
La figure V.12 représente la probabilité d’acquisition (PSY NC) pour une sé-
quence de synchronisation de taille LF F T = 512. Cette figure montre que la
PSY NC s’approche de 1 pour les deux systèmes SISO-OFDM et MIMO-OFDM
2 × 2 à partir d’un SNR > −5 dB. Pour les systèmes MIMO-OFDM 4 × 4,
la PSY NC ≥ 95% à partir d’un SNR > 0 dB. Autrement, pour les systèmes
MIMO-OFDM 8 × 8, la PSY NC ≥ 85% à partir d’un SNR > 0 dB.
Après l’analyse de résultats de simulation dans les deux figures V.11et V.12,
nous trouvons que les performances de la synchronisation temporelle se dégradent
avec la taille de la séquence de synchronisation.
Une comparaison entre notre approche et un autre schéma de synchronisation
proposé dans [5], est présentée dans la figure V.13 (avec les paramètres des
tableaux V.3 et V.4).
124V.2. SIMULATION DES MÉTHODES DE PRÉAMBULE COMPACT
-5 0 5 10 15 20 25
0
0.2
0.4
0.6
0.8
1
Synchronisation temporelle, FFT=256
SNR en dB
Probabilité d'acquisition
MIMO 2x2
MIMO 3x3
Hung-Chin-Wang 2x2
Hung-Chin-Wang 3x3
Fig. V.13 – Comparaison entre P r_Compact_1 et la méthode de préambule de sousbande
dans [5],LF F T = 256
Dans cette figure, nous avons simulé des systèmes MIMO-OFDM 2 × 2 et
3 × 3 avec un préambule de synchronisation de taille LF F T = 256. Cette figure
montre que notre approche a de bonnes performances par rapport à la méthode
dans [5], surtout à faible SNR. La probabilité d’acquisition dans notre approche
est PSY NC ≥ 90% à partir d’un SNR ≥ 5 dB pour les cas MIMO-OFDM
2 × 2 et 3 × 3, tandis que la méthode proposée dans [5] montre que la probabilité
d’acquisition est comprise entre 50% et 75% à partir d’un SNR ≥ 5 dB pour les
les cas MIMO-OFDM 2 × 2 et 3 × 3.
V.2.2.2 Résultats de simulations de P r_Compact_2
Cette méthode consiste à envoyer un préambule constitué de deux parties, dont
une partie contient une séquence CAZAC et l’autre partie contient le "-conjugué"
125CHAPITRE V. LES RÉSULTATS DE SIMULATION
de la séquence CAZAC, comme l’indique la figure V.14.
ࢀࡲࡲࡸ
ି
-
∗
ࢀࡲࡲࡸ-
ି
∗
……… …………..
Fig. V.14 – Structure de préambule dans le domaine fréquentiel sur chaque antenne
d’émission - P r_Compact_2
-5 0 5 10 15 20 25
0
0.2
0.4
0.6
0.8
1
Synchronisation temporelle
SNR dB
Probabilité d'acquisition
Proposed SISO 1x1
Proposed MIMO 2x2
Proposed MIMO 4x4
Proposed MIMO 8x8
8 10 12 14
0.95
1
Fig. V.15 – Performances de la synchronisation temporelle de la méthode de préambule
compact P r_Compact_2, LF F T = 1024
Les résultats des probabilités d’acquisition de la synchronisation temporelle
sont présentés dans les figures V.15 et V.16 pour différentes taille de (LF F T =
1024 et LF F T = 512 respectivement). Différentes structures SISO-OFDM (1 × 1)
126V.2. SIMULATION DES MÉTHODES DE PRÉAMBULE COMPACT
et MIMO-OFDM (2 × 2, 4 × 4 et 8 × 8) sont considérées.
La figure V.15 montre que la probabilité d’acquisition (PSY NC) pour les systèmes
SISO-OFDM et MIMO-OFDM 2×2 s’approche de 1 à partir d’un SNR >
−5 dB. Pour les systèmes MIMO-OFDM 4 × 4, la PSY NC ≥ 95% à partir d’un
SNR ≥ 0 dB, tandis que pour un système MIMO-OFDM 8×8 la PSY NC ≥ 90%
à partir d’un SNR ≥ 3 dB.
-5 0 5 10 15 20 25
0
0.2
0.4
0.6
0.8
1
Synchronisation temporelle
SNR dB
Probabilité d'acquisition
SISO 1x1
MIMO 2x2
MIMO 4x4
MIMO 8x8
Fig. V.16 – Performances de la synchronisation temporelle de la méthode de préambule
compact P r_Compact_2, LF F T = 512
La figure V.16 présente la probabilité d’acquisition de la synchronisation temporelle
pour un FFT de taille LF F T = 512. La PSY NC subit une dégradation assez
importante, pour les systèmes SISO, MIMO 2 × 2 et 4 × 4, par rapport aux résultats
présentés dans la figure V.15 pour une taille de FFT LF F T = 1024. La PSY NC
127CHAPITRE V. LES RÉSULTATS DE SIMULATION
s’approche de 1 à partir d’un SNR ≥ 0 dB pour les systèmes SISO-OFDM et
MIMO-OFDM 2 × 2. Pour les systèmes MIMO-OFDM 4 × 4, la PSY NC ≥ 95%
à partir d’un SNR ≥ 0 dB. Cette PSY NC ≥ 90% à partir d’un SNR ≥ 10 dB
pour les systèmes MIMO-OFDM 8 × 8. Par conséquent, la valeur du pic de corrélation
d’un préambule de taille LF F T = 1024 est plus grande que celle d’un
préambule de taille LF F T = 512, ce qui permet une meilleure détection du pic de
synchronisation. L’intercorrélation entre les préambules est également plus faible.
-5 0 5 10 15 20 25
0
0.2
0.4
0.6
0.8
1
Synchronisation temporelle
SNR dB
Probabilité d'acquisition
MIMO 2x2
MIMO 3x3
Hung-Chin-Wang 2x2
Hung-Chin-Wang 3x3
Fig. V.17 – Comparaison entre P r_Compact_2 et la méthode de préambule de sousbande
dans [5], LF F T = 256
Une autre comparaison entre cette structure et celle proposée dans [5], est pré-
sentée dans la figure V.17. Dans cette figure, les résultats de simulation montrent
l’efficacité de notre méthode vis à vis de celle de [5], surtout pour un faible SNR
tout en utilisant les paramètres de simulation présentés dans les tableaux V.3 et V.4
(canal de Rayleigh).
128V.2. SIMULATION DES MÉTHODES DE PRÉAMBULE COMPACT
Dans cette figure, la probabilité d’acquisition PSY NC de notre approche est
PSY NC ≥ 90% à partir d’un SNR ≥ 0 dB pour les systèmes MIMO-OFDM
2 × 2, et PSY NC ≥ 90% à partir d’un SNR ≥ 5 dB pour les systèmes MIMOOFDM
3 × 3, tandis que la méthode proposée dans [5] montre que la probabilité
d’acquisition est comprise entre 50% et 75% à partir d’un SNR ≥ 5 dB pour les
mêmes systèmes MIMO-OFDM.
V.2.2.3 Résultats de simulations de P r_Compact_3
Dans cette section, nous présentons les résultats de simulation de la méthode
de préambule compact P r_Compact_3. Cette méthode est rappelée dans la fi-
gure V.18.
∗
ࢀࡲࡲࡸ ∗
ି
ࢀࡲࡲࡸ
ି
∗
…………………..
Fig. V.18 – Structure de préambule dans le domaine fréquentiel sur chaque antenne
d’émission - P r_Compact_3
Les paramètres de simulations sont décrits dans les deux tableaux V.3 et V.4.
Les figures V.19 et V.20 présentent la probabilité d’acquisition de la synchronisation
temporelle en fonction du SNR selon différentes tailles de FFT, LF F T =
1024, LF F T = 512 respectivement.
La figure V.19 montre que la probabilité d’acquisition PSY NC est accrue par
rapport aux autres structures utilisées pour une taille de FFT LF F T = 1024. Dans
cette figure, la PSY NC s’approche de 1 pour les systèmes SISO-OFDM et MIMOOFDM
2 × 2 à partir d’un SNR ≥ 0 dB, pour le même SNR, la PSY NC ≥ 95%
pour les systèmes MIMO-OFDM 4 × 4. Pour les systèmes MIMO-OFDM 8 × 8,
la PSY NC > 95% à partir d’un SNR ≥ 5 dB.
129CHAPITRE V. LES RÉSULTATS DE SIMULATION
−5 0 5 10 15
0.75
0.8
0.85
0.9
0.95
1
Synchronisation temporelle, LFFT=1024
SNR en dB
Probabilité d’acquisition (PSYNC
)
SISO 1x1
MIMO 2x2
MIMO 4x4
MIMO 8x8
Fig. V.19 – Performances de probabilité de la synchronisation temporelle de la méthode
de préambule compact P r_Compact_3, LF F T = 1024
-5 0 5 10 15 20 25
0
0.2
0.4
0.6
0.8
1
Synchronisation temporelle
SNR dB
Probabilité d'acquisition
SISO 1x1
MIMO 2x2
MIMO 4x4
MIMO 8x8
Fig. V.20 – Performances de probabilité de la synchronisation temporelle de la méthode
de préambule compact P r_Compact_3 (LF F T = 512)
130V.2. SIMULATION DES MÉTHODES DE PRÉAMBULE COMPACT
-5 0 5 10 15 20 25
0
0.2
0.4
0.6
0.8
1
Synchronisation temporelle
SNR dB
Probabilité d'acquisition
MIMO 2x2
MIMO 3x3
Hung-Chin-Wang 2x2
Hung-Chin-Wang 3x3
Fig. V.21 – Comparaison entre P r_Compact_3 et la méthode de préambule de sousbande
dans [5], LF F T = 256
Dans la figure V.20, où LF F T = 512, la PSY NC s’approche de 1 pour les
systèmes SISO-OFDM et MIMO-OFDM 2 × 2 à partir d’un SNR ≥ 0 dB. Pour
les systèmes MIMO-OFDM 4 × 4, la PSY NC > 92% à partir d’un SNR ≥ 0 dB.
La PSY NC > 80% à partir d’un SNR ≥ 5 dB pour les systèmes MIMO-OFDM
8 × 8. Nous remarquons toujours une dégradation des performances lorsque la
longueur du préambule de synchronisation se décroît.
La figure V.21 montre une comparaison de la probabilité d’acquisition de
synchronisation temporelle PSY NC entre notre approche et la méthode proposée
dans [5] pour les mêmes paramètres de simulations qui ont été considérés dans
la section V.2.2. Comme précédemment, notre méthode de préambule compact
P r_Compact_3 présente une meilleure détection de la synchronisation temporelle
à faible SNR et une taille de FFT réduite.
131CHAPITRE V. LES RÉSULTATS DE SIMULATION
V.2.2.4 Résultats de simulations de P r_Compact_4
La quatrième méthode de préambule compact est rappelée dans la figure V.22.
Cette structure consiste à diviser le préambule de synchronisation en deux parties
égales dont la première partie contient une séquence CAZAC C de taille LF F T /2
et l’autre partie contient le conjugué de C.
ࢀࡲࡲࡸ
ି
ࢀࡲࡲࡸ ∗
ି
∗
……… …………..
Fig. V.22 – Structure de préambule dans le domaine fréquentiel sur chaque antenne
d’émission - P r_Compact_4
Les figures V.23 et V.24 présentent les résultats de simulation de cette structure
avec différentes LF F T . Les résultats de simulation présentés dans la figure V.23
nous permettent de vérifier que le point de synchronisation temporelle peut être ré-
cupéré pour un faible SNR pour un FFT de taille LF F T = 1024. Pour les systèmes
SISO-OFDM, la PSY NC s’approche de 1 à partir d’un SNR ≥ −5 dB, pour un
même SNR,la PSY NC > 95% pour les systèmes MIMO-OFDM 2 × 2. Pour les
systèmes MIMO-OFDM 4 × 4, la PSY NC > 97% à partir d’un SNR ≥ 5 dB.
Cette approche ne présente pas de bonnes performance pour les système MIMOOFDM
8 × 8.
La figure V.24 présente les résultats de simulation avec un FFT de taille LF F T =
512. En comparant ces résultats avec les résultats de simulation pour une taille de
FFT égale à 1024, nous trouvons une faible dégradation entre les deux résultats et
notamment avec un système MIMO-OFDM 4 × 4 et 8 × 8.
Nous avons comparé notre approche avec la méthode proposée dans [5], pour
une taille de FFT LF F T = 256, utilisant les systèmes MIMO-OFDM 2×2 et 3×3.
132V.2. SIMULATION DES MÉTHODES DE PRÉAMBULE COMPACT
−5 0 5 10 15 20 25
0.7
0.75
0.8
0.85
0.9
0.95
1
Synchronisation temporelle, LFFT=1024
SNR en dB
Probabilité d’acquisition (PSYNC
)
SISO 1x1
MIMO 2x2
MIMO 4x4
MIMO 8x8
Fig. V.23 – Performances de probabilité de la synchronisation temporelle de la méthode
de préambule compact P r_Compact_4 (LF F T = 1024)
−5 0 5 10 15
0.4
0.5
0.6
0.7
0.8
0.9
1
Synchronisation temporelle, LFFT=512
SNR en dB
Probabilité d’acquisition (PSYNC
)
SISO 1x1
MIMO 2x2
MIMO 4x4
MIMO 8x8
Fig. V.24 – Performances de probabilité de la synchronisation temporelle de la méthode
de préambule compact P r_Compact_4 (LF F T = 512)
133CHAPITRE V. LES RÉSULTATS DE SIMULATION
−5 0 5 10 15 20 25
0
0.2
0.4
0.6
0.8
1
Synchronisation temporelle, LFFT=256
SNR en dB
Probabilité d’acquisition (PSYNC
)
MIMO 2x2
MIMO 3x3
Hung−Chin−Wang 2x2
Hung−Chin−Wang 3x3
Fig. V.25 – Comparaison entre P r_Compact_4 et la méthode de préambule de sousbande
dans [5], LF F T = 256
Ces résultats de simulations sont présentés dans la figure V.25. La probabilité de
synchronisation de notre approche est PSY NC ≥ 90% pour les deux systèmes
MIMO-OFDM 2 × 2 et 3 × 3 à partir d’un SNR ≥ 0 dB, par ailleurs, celle de
la méthode proposée dans [5] est entre 50% et 75% à partir d’un SNR ≥ 5 dB
pour les mêmes systèmes MIMO-OFDM. Nous pouvons noter que notre approche
présente toujours de meilleurs résultats que celle de [5].
V.2.3 Les performances de la méthode de préambule compact
Nous avons simulé une nouvelle méthode, qui nous l’appelé "méthode de
préambule compact". Cette méthode est divisé en quatre structure différentes.
Les résultats de simulation de ces quatre structure présentent des bonne performances
contre d’autres méthodes. La combinaison d’une séquence CAZAC avec
son conjugué ou bien avec son "-conjugué", présente une structure de préambule,
dans le domaine temporel, intéressante pour avoir un pic de corrélation impor-
134V.2. SIMULATION DES MÉTHODES DE PRÉAMBULE COMPACT
tante. La fonction d’autocorrélation de la première et la troisième méthode de pré-
ambule compact (P r_Compact_1 et P r_Compact_3) est meilleure que celle de
P r_Compact_2 et P r_Compact_4. La répartition du conjugué (ou le -conjugué)
de séquence CAZAC sur les sous-porteuses impaires, dans le domaine fréquentiel,
présente une petite dégradation de la performances de détection de synchronisation,
mais dans tous les cas, cette méthode apporte de très bonnes performances
contre certaines méthodes présentées dans cette section.
Les deux figures V.26 et V.27 présentent une comparaison entre les quatres
méthodes de préambule compact entre elles pour différents combinaison de de
système MIMO.
−5 0 5 10 15
0.9
0.92
0.94
0.96
0.98
1
SNR en dB
Probabilité d’acquisition (PSYNC
)
Synchronisation temporelle, MIMO−OFDM 2× 2, LFFT=1024
Pr_Compact_1
Pr_Compact_2
Pr_Compact_3
Pr_Compact_4
Fig. V.26 – Comparaison entre les quatres méthodes de préambule compact, LF F T =
1024, MIMO-OFDM 2 × 2
Dans la figure V.26, nous trouvons que pour les deux méthodes de préambule
compact P r_Compact_1 et P r_Compact_2 présentent une synchronisation
135CHAPITRE V. LES RÉSULTATS DE SIMULATION
−5 0 5 10 15 20
0.8
0.85
0.9
0.95
1
SNR en dB
Probabilité d’acquisition (PSYNC
)
Synchronisation temporelle, MIMO−OFDM 4 × 4, LFFT=1024
Pr_Compact_1
Pr_Compact_2
Pr_Compact_3
Pr_Compact_4
Fig. V.27 – Comparaison entre les quatres méthodes de préambule compact, LF F T =
1024, MIMO-OFDM 4 × 4
parfaite pour un SNR ≥ 5 dB, les deux autre méthodes présentent une synchronisation
parfaite pour un SNR ≥ 6 dB sous les même conditions de simulations.
Pour un système de transmission MIMO-OFDM 4 × 4, P r_Compact_1 et
P r_Compact_3 présentent une synchronisation parfaite pour un SNR ≥ 10 dB,
ainsi que les deux autres méthodes peuvent avoir une probabilité de synchronisation
temporelle égale à 98% pour le même SNR.
Dans ces deux figure, nous avons constaté qu’une dégradation de performance
de la probabilité de synchronisation temporelle se présente quand les nombres des
antennes dans un système MIMO augmente.
136V.3. RÉSULTATS DE SIMULATIONS DES MÉTHODES DE ZÉRO PADDING
V.3 Résultats de simulations des méthodes de zéro
padding
La méthode de zéro padding, présentée dans la section IV.2.3, consiste à diviser
le préambule en quatre parties identiques, chaque partie étant de taille égale
à celle du préfixe cyclique CP. Nous avons étudié deux structures pour cette
approche. Les simulations ont été réalisées en utilisant les paramètres donnés
dans les tableaux V.3 et V.4. Dans cette section, nous avons simulé des systèmes
MIMO-OFDM jusqu’à 16 × 16.
V.3.1 Résultats de simulations de Z_P ad_1
Pour réaliser la synchronisation temporelle, le préambule de synchronisation,
présenté dans la section IV.2.3.1, est transmis selon la figure V.28 dans le domaine
fréquentiel. Cette méthode consiste à insérer une séquence CAZAC, dans le domaine
fréquentiel, dans une partie de préambule, les trois autres parties étant à
zéro.
Fig. V.28 – Structure générale de préambule de (Z_P ad_1) dans le domaine fréquentiel
Les deux figures V.29 et V.30 présentent la probabilité d’acquisition PSY NC
pour des FFT de tailles LF F T = 1024 et LF F T = 256 respectivement.
Dans la figure V.29, la taille de la FFT est LF F T = 1024, les résultats de
simulation montrent que pour des systèmes MIMO-OFDM 2 × 2 et 4 × 4, la
137CHAPITRE V. LES RÉSULTATS DE SIMULATION
−20 −15 −10 −5 0 5 10 15
0
0.2
0.4
0.6
0.8
1
Synchronisation temporelle, LFFT=1024
SNR en dB
Probabilité d’acquisition (PSYNC
)
MIMO 2x2
MIMO 4x4
MIMO 8x8
MIMO 16x16
Fig. V.29 – Performances de probabilité de la synchronisation temporelle de la méthode
de zero padding Z_P ad_1, LF F T = 1024
−20 −15 −10 −5 0 5 10 15
0
0.2
0.4
0.6
0.8
1
Synchronisation temporelle, LFFT=512
SNR en dB
Probabilité d’acquisition (PSYNC
)
MIMO 2x2
MIMO 4x4
MIMO 8x8
MIMO 16x16
Fig. V.30 – Performances de la synchronisation temporelle de la méthode de zero padding
Z_P ad_1, LF F T = 512
138V.3. RÉSULTATS DE SIMULATIONS DES MÉTHODES DE ZÉRO PADDING
PSY NC > 97% à partir d’un SNR ≥ −10 dB et cette probabilité s’approche
de 1 à partir d’un SNR ≥ −7 dB. Pour des systèmes MIMO-OFDM 8 × 8,
la PSY NC > 96% à partir d’un SNR ≥ −5 dB. Tandis que, pour un système
MIMO-OFDM 16 × 16, la PSY NC > 82% à partir d’un SNR ≥ −5 dB.
La figure V.30 présente les résultats de simulation pour une FFT de taille
LF F T = 512. Nous notons une légère dégradation de performance vis à vis du
cas LF F T = 1024, la séquence de CAZAC étant plus courte ainsi que le CP.
Nous avons aussi comparé nos résultats avec ceux de dans [5] avec les mêmes
paramètres de simulations. Ces résultats de simulation sont présentés dans la fi-
gure V.31.
−5 0 5 10 15
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Synchronisation temporelle, LFFT=256
SNR en dB
Probabilité d’acquisition
MIMO 2x2
MIMO 3x3
Hung−Chin−Wang 2x2
Hung−Chin−Wang 3x3
Fig. V.31 – Comparaison entre la méthode de zero padding Z_P ad_1 et la méthode de
préambule de sous-bande dans [5], LF F T = 256
Cette figure montre que l’approche Zéro Padding présente de bonnes per-
139CHAPITRE V. LES RÉSULTATS DE SIMULATION
formances vis à vis de [5] surtout pour un faible SNR. Dans notre approche, la
PSY NC ≥ 95% à partie d’un SNR ≥ −5 dB pour les systèmes MIMO-OFDM
2 × 2 et 3 × 3, tandis que la méthode proposée dans [5] montre que la probabilité
d’acquisition est comprise entre 50% et 75% à partir d’un SNR ≥ 5 dB pour les
les cas MIMO-OFDM 2 × 2 et 3 × 3.
Le tableau V.5 présente une synthèse de différents résultats obtenus, selon les
configurations MIMO et taille de FFT.
Tableau. V.5 – Comparaison de la probabilité d’acquisition avec différents systèmes
MIMO-OFDM et différentes longueurs de FFT de la méthode Z_P ad_1
La probabilité d’acquisition de la première méthode de Zéro Padding
Système MIMO-OFDM PSY NC Pour un SNR LF F T
MIMO-OFDM 2x2 >99% >-7 dB 1024
>99% >-5 dB 512
MIMO-OFDM 4x4 >99% >-7 dB 1024
>95% >-5 dB 512
MIMO-OFDM 8x8 >96% >-5 dB 1024
>95% >0 dB 512
MIMO-OFDM 16x16 >82% >-5 dB 1024
>80% >-5 dB 512
Dans ce tableau, nous trouvons que cette méthode présente de bonnes performances
pour les systèmes MIMO-OFDM 2 × 2 pour un faible SNR. Par consé-
quence, une petite dégradation de performance de cette méthode se présente quand
le nombre des antennes du système MIMO se diminue ou la taille du préambule
de synchronisation se diminue.
V.3.2 Résultats de simulations de Z_P ad_2
Cette méthode consiste à diviser le préambule en quatre parties dans le domaine
fréquentiel : deux parties contiennent des séquences CAZAC pour la syn-
140V.3. RÉSULTATS DE SIMULATIONS DES MÉTHODES DE ZÉRO PADDING
chronisation, les deux autres contiennent des zéros comme indiqué dans la figure
V.32.
Fig. V.32 – Structure générale du préambule de synchronisation de la méthode de zéro
padding Z_P ad_2
Les résultats de simulation pour différentes longueurs de FFT, LF F T = 1024
et LF F T = 512, sont donnés dans les figures V.33 et V.34 respectivement.
-20 -15 -10 -5 0 5 10 15
0
0.2
0.4
0.6
0.8
1
Synchronisation temporelle, FFT=1024
SNR en dB
Probabilité d'acquisition
MIMO 2x2
MIMO 4x4
MIMO 16x16
MIMO 8x8
Fig. V.33 – Performances de la synchronisation temporelle de la méthode de zero padding
Z_P ad_2, LF F T = 1024
Le tableau V.6 donne la synthèse des probabilités d’acquisition selon les confi-
gurations MIMO-OFDM et taille de FFT. Dans ce tableau, la probabilité de syn-
141CHAPITRE V. LES RÉSULTATS DE SIMULATION
-20 -15 -10 -5 0 5 10 15
0
0.2
0.4
0.6
0.8
1
Synchronisation temporelle, FFT=512
SNR en dB
Probabilité d'acquisition
MIMO 2x2
MIMO 4x4
MIMO 8x8
MIMO 16x16
Fig. V.34 – Performances de la synchronisation temporelle de la méthode de zero padding
Z_P ad_2, LF F T = 512
chronisation, pour un système MIMO-OFDM 2 × 2, est plus grand que 95% à
partir d’un SNR de -4 dB pour une taille de LF F T = 1024, 512. Pour un système
MIMO-OFDM 4 × 4, nous trouvons la même valeur de la probabilité de
synchronisation mais à partir d’un SNR de 0 dB. Autrement, nous pouvons observer
l’influence de la longueur de la séquence, ainsi que la dégradation lorsque le
nombre d’antennes est très important.
Nous avons aussi simulé cette approche pour une FFT de taille LF F T = 256
et pour des systèmes MIMO-OFDM 2 × 2 et 3 × 3. Les résultats de simulation
sont comparées avec celles de [5]. Ces résultats sont présentés dans la figure V.35.
Comme précédemment, notre approche reste plus performante que celle de [5]
mais les performances sont réduites vis à vis des cas LF F T = 1024 et LF F T =
512. Nous remarquons que pour un SNR égale à 0 dB, cette approche présente
une probabilité de synchronisation temporelle plus grande que 98% pour les deux
142V.3. RÉSULTATS DE SIMULATIONS DES MÉTHODES DE ZÉRO PADDING
Tableau. V.6 – Comparaison de la probabilité d’acquisition de différents systèmes
MIMO-OFDM et différentes longueurs de FFT de la méthode Z_P ad_2
La probabilité d’acquisition de la deuxième méthode de Zéro Padding
Système MIMO-OFDM PSY NC Pour un SNR LF F T
MIMO-OFDM 2x2 >95% >-5 dB 1024
>95% >-4 dB 512
MIMO-OFDM 4x4 >95% >0 dB 1024
>94% >0 dB 512
MIMO-OFDM 8x8 >90% >0 dB 1024
>88% >0 dB 512
MIMO-OFDM 16x16 >82% >5 dB 1024
>63% >5 dB 512
−5 0 5 10 15
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Synchronisation temporelle, LFFT=256
SNR en dB
Probabilité d’acquisition
MIMO 2x2
MIMO 3x3
Hung−Chin−Wang 2x2
Hung−Chin−Wang 3x3
Fig. V.35 – Comparaison entre Z_P ad_2 et la méthode de préambule de sous-bande
dans [5], LF F T = 256
143CHAPITRE V. LES RÉSULTATS DE SIMULATION
systèmes MIMO-OFDM 2 × 2 et 3 × 3, tandis que la méthode dans [5] présente
une probabilité de synchronisation PSY NC = 60%, 49% pour les deux systèmes
MIMO-OFDM 2 × 2 et 3 × 3 respectivement pour la même valeur du SNR.
V.4 Conclusion
Dans le chapitre IV, nous avons proposé de nouvelles approches pour la synchronisation
temporelle pour les systèmes MIMO-OFDM. Différents types de sé-
quences, étudiées dans le chapitre III, sont simulées avec différentes configurations
MIMO-OFDM (de 2 × 2 jusqu’à 16 × 16). Les résultats de simulation de la
probabilité d’acquisition de synchronisation sont présentés dans ce chapitre.
Selon les résultats de simulation avec différents systèmes MIMO-OFDM, les
méthodes de préambule compact présentent de bons résultats notamment dans les
cas MIMO-OFDM 4 × 4 et 8 × 8. Les séquences CAZAC sont des séquences
orthogonales et complexes, elles présentent de bonnes caractéristiques de corrélation
dans les canaux à trajets multiples.
A la réception, la fonction de corrélation est appliquée pour détecter le pic de
corrélation. L’amplitude du pic est liée à la taille de la séquence de synchronisation
ou du préambule de synchronisation. Dans nos méthodes proposées, la taille
du préambule de synchronisation est égale à la taille de la FFT. Suite aux simulations,
nous remarquons une dégradation des performances quand la longueur du
préambule décroît.
Nous avons comparé notre approche avec d’autres méthodes existantes.Les
résultats des simulations montrent que nos méthodes de préambule compact sont
plus performantes (en termes de la probabilité d’acquisition) que les méthodes
existantes notamment la méthode proposée par Chin dans [5].
144V.4. CONCLUSION
Nous avons proposé la méthode de zéro padding, cette méthode consiste à diviser
le préambule de synchronisation en quatre parties de même longueur. Dans
la première structure de cette méthode, nous avons ajouté une séquence CAZAC
dans une seule partie de ce préambule, dans le domaine fréquentiel. Nous avons
aussi développé une deuxième structure de cette méthode qui consiste à insérer
une séquence CAZAC dans deux parties du préambule de synchronisation. Ces
deux structures présentent de très bonnes détections de trames pour des faibles
SNR (-15 dB,-10 dB et -5 dB) par rapport aux méthodes existantes. Nous avons
simulé ces deux structures avec différentes longueurs de FFT. Les résultats de simulation
montrent une légère dégradation de performance de détection de trames
quand la longueur de FFT décroît, car à la réception, nous avons appliqué une
fonction de corrélation du signal reçu avec une séquence locale, cette séquence a
la même taille de LF F T . Tant que la taille de cette séquence est grande, donc la
valeur de pic de corrélation est assez importante, nous pouvons le récupérer parmi
les autres pics de corrélation en présence d’un canal à trajets multiples.
145CHAPITRE V. LES RÉSULTATS DE SIMULATION
146V.4. CONCLUSION
Bibliographie
[1] User Equipment (UE) Radio Transmission and Reception (FDD), tech. speci-
fication TS 25.101, 3rd Generation Partnership Project (3GPP), 2008.
[2] W. Jian, L. Jianguo, and D. Li, “Synchronization for mimo ofdm systems
with loosely synchronous (ls) codes,” in Wireless Communications, Networking
and Mobile Computing, 2007. WiCom 2007. International Conference
on, pp. 254 –258, Sept. 2007.
[3] Z. Gao, J. Xu, and Z. Zhang, “A synchronization scheme for mimo ofdm
system,” in Communications, Circuits and Systems (ICCCAS), 2010 International
Conference on, pp. 15 –18, July 2010.
[4] B. O’Hara and A. Petrick, The IEEE 802.11 Handbook : A Designer’s Companion.
Standards Information Network IEEE Press, 1999.
[5] H.-C. Wang and C.-L. Wang, “A compact preamble design for synchronization
in distributed mimo ofdm systems,” in Vehicular Technology Conference
(VTC Fall), 2011 IEEE, pp. 1–4, Sept. 2011.
147CHAPITRE V. LES RÉSULTATS DE SIMULATION
148CHAPITRE VI
CONCLUSIONS ET PERSPECTIVES
VI.1 Conclusions
La technique OFDM est devenue une technique populaire pour la transmission
sans fil. Cette technique a été adoptée dans plusieurs normes sans fil telles que la
norme 802.11a. L’OFDM convertit les données en un ensemble de sous-canaux
parallèles. Les sous-porteuses sont séparées par une fréquence minimale requise
pour maintenir l’orthogonalité dans les domaines temporel et fréquentiel.
Plusieurs antennes peuvent être utilisées, à la fois, à l’émission et à la réception,
ce réseau d’antennes est appelé MIMO. Un système MIMO est utilisé pour
augmenter la capacité du canal, d’où différentes données sont transmises sur différentes
antennes d’émission, ou bien, la technique MIMO est utilisée pour augmenter
et améliorer la performance du système de transmission en utilisant les
codes de blocs d’espace-temps (STBC).
Les signaux transmis subissent des réflexions sur les obstacles, des distorsions
qui affectent l’amplitude, la phase et la fréquence du signal. Ces signaux se propagent
dans des canaux sélectifs en fréquence et à trajets multiples. A la réception,
le retard entre deux versions du même signal induit des interférences entre symboles
(ISI). Malgré les avantages des techniques MIMO et OFDM, le problème
149CHAPITRE VI. CONCLUSIONS ET PERSPECTIVES
de synchronisation, entre les émetteurs et les récepteurs, reste présent. Ce problème
est divisé en deux parties. La première partie concerne la synchronisation
d’horloge (ou la synchronisation fréquentielle) à la réception, et la deuxième partie
concerne la synchronisation de trames (ou la synchronisation temporelle) qui
consiste à trouver le début de trame et le début des symboles utiles dans chaque
trame.
Cette thèse a porté sur la synchronisation temporelle dans les systèmes MIMOOFDM.
L’objectif principal de cette thèse est d’étudier les techniques de synchronisation,
les erreurs de synchronisation temporelle dans ces systèmes, les effets de
décalage temporel sur la synchronisation, les performances des systèmes MIMOOFDM
dans un canal à trajets multiples par rapport au SNR et par rapport au
nombre des antennes MIMO, puis de comparer les résultats avec d’autres mé-
thodes proposées dans la littérature.
Le chapitre II, présente une introduction générale des différents systèmes de
transmission et de différentes méthodes de synchronisation existantes.
Dans cette thèse, nous avons étudié les caractéristiques et les performances de
plusieurs séquences, dans le chapitre III, qui sont déjà utilisées dans le domaine de
synchronisation pour les systèmes OFDM et MIMO-OFDM et d’autres systèmes.
Les caractéristiques les plus importantes sont les deux fonctions d’autocorrélation
et d’inter-corrélation. Après une comparaison de ces deux fonctions pour chacune
des séquences, nous avons trouvé que les séquences CAZAC sont les plus adaptées
aux nos besoins. Ces séquences sont complexes, orthogonales et possèdent
de bonnes fonctions de corrélation. Ce chapitre se termine par une comparaison
entre les propriétés de corrélation de différentes séquences de synchronisation.
Le chapitre IV s’intéresse aux méthodes de synchronisation temporelle. Dans
150VI.1. CONCLUSIONS
ce chapitre, nous avons proposé différentes méthodes pour la synchronisation temporelle.
Dans la littérature, la plupart des méthodes de synchronisation sont basées
sur l’insertion de préambules au début de chaque trame envoyée. Ces préambules
sont constitués de données connues afin d’estimer le début de trames et le début de
symboles OFDM. Pour détecter le préambule, une fonction de corrélation est appliquée
à la réception, cette fonction peut être une corrélation avec une séquence
locale ou bien une corrélation avec le préambule lui-même.
Après une étude approfondie des séquences de synchronisation, nous avons
proposé plusieurs méthodes pour la synchronisation temporelle. Ces méthodes
consistent à envoyer au début de chaque trame OFDM un préambule de synchronisation
qui contient des séquences connues. L’insertion de préambules sera effectuée
dans le domaine temporel ou bien dans le domaine fréquentiel. A la réception,
une fonction de corrélation est appliquée afin de détecter le pic de synchronisation
et de récupérer les symboles OFDM. Les résultats de simulation complets de ces
méthodes proposées ainsi que les résultats de simulation d’autres méthodes sont
présentés dans le chapitre V.
Le chapitre V traite les résultats de simulation de différentes méthodes proposées
afin d’étudier les performances de systèmes MIMO-OFDM dans un canal
à trajets multiples avec un AWGN. Dans ce chapitre, les résultats de simulation
montrent que toutes nos méthodes proposées présentent de bonnes performances
contre d’autres méthodes existantes, dans un canal à trajets multiples et la pré-
sence d’un bruit blanc additif gaussien (AWGN). Ces méthodes présentent des
bonnes performances en termes de la probabilité d’acquisition et pour un faible
SNR et avec des systèmes MIMO jusqu’à 16 × 16.
151CHAPITRE VI. CONCLUSIONS ET PERSPECTIVES
VI.2 Perspectives
Dans ce travail, nous avons étudié le problème de la synchronisation temporelle
pour les systèmes MIMO-OFDM en se basant sur différentes méthodes
proposées dans le chapitre IV. Nos suggestions pour les futurs travaux peuvent
inclure les éléments suivants :
1. Pour réduire les effets de CFO, une synchronisation fréquentielle est importante,
cette synchronisation est préférable avant la réception des données.
Par conséquent, les données utiles sont précédées de données prédéfi-
nies, qui sont appelées le préambule. Notamment, il serait intéressant d’évaluer
les performances de ces méthodes pour la synchronisation fréquentielle
dans les systèmes MIMO-OFDM.
2. L’estimation de canal est un élément essentiel dans de nombreux systèmes
de communication sans fil. Cette estimations de canal est également tirée de
préambule de synchronisation. Par conséquent, il serait intéressant de tester
la robustesse de ces méthodes dans l’estimation du canal et l’égalisation,
afin de comparer leurs performances par rapport aux autres méthodes existantes.
3. Ces méthodes de synchronisation présentent de bonnes performances en
termes du SNR dans des canaux sélectifs en fréquence. Donc, les futures
travaux peuvent tester les performances de ces méthodes avec d’autres types
de canaux.
152LISTE DE PUBLICATIONS
Conférences Internationales
2012 Timing synchronisation method for MIMO-OFDM system using orthogonal
preamble (A. Rachini, A. Beydoun, F. Nouvel, B. Beydoun), In Telecommunications
(ICT), 2012 19th International Conference on, pp. 1-5,
2012.
2013 A novel compact preamble structure for timing synchronization in MIMOOFDM
systems using CAZAC sequences (A. Rachini, A. Beydoun, F.
Nouvel, B. Beydoun), International Conference on Communications, Computation,
Networks and Technologies (INNOV), 2013 2nd International Conference
on, pp. 1-6, 2013.
2014 Timing Synchronization of MIMO-OFDM Systems (A. Rachini, A. Beydoun,
F. Nouvel, B. Beydoun), Lebanese Association for the Advancement
of Science (LAAS), 2014 20th International Science Conference, pp. 149-
150, 2014.
Journal
2012 A Novel Double Talk Echo Canceller Algorithm using Multi Delay Filter
(H. Alaeddine , A. Beydoun, B. Beydoun, F. Khalil, A. Rachini), International
Journal on Communications Antenna and Propagation (IRECAP),
Vol. 3, No. 4, p.p. 199-205, ISSN 2039-5086, August 2013.
153Résumé
L'évolution rapide dans les systèmes de communications sansfil
couplée à l'utilisation de téléphones mobiles, des services
satellite, de l'internet sur les réseaux sans fil et les réseaux
locaux nécessitent un débit de données très élevé et une
grande fiabilité. Ces débits ont augmenté rapidement dans les
nouvelles applications de transmission de données de nouvelle
génération. Pour répondre aux contraintes de la limitation du
spectre disponible, les systèmes à porteuses multiples (OFDM),
permettent une haute efficacité spectrale à cause de
l'orthogonalité et un débit total s'approchant du débit de
Nyquist. Par ailleurs, un système de réseaux des antennes à
multi-entrées et multi-sorties (MIMO) apporte des gains
importants, à la fois, pour les liens et les capacités du réseau,
sans transmission de puissance supplémentaire ou sans
consommation de la bande passante. La combinaison de ces
deux systèmes (MIMO et OFDM) permet d’exploiter la
robustesse de la liaison sur des canaux sélectifs en fréquence
et sur des canaux non corrélés en espace. Une des
problématiques de cette combinaison réside dans les méthodes
de synchronisation. La synchronisation se divise en deux
parties, la synchronisation temporelle et la synchronisation
fréquentielle. La synchronisation temporelle se fait, d'une part
par la synchronisation grossière qui consiste à estimer le début
de chaque trame reçue, et d'autre par la synchronisation fine
qui détecte le début de chaque symbole OFDM dans la trame
reçue. Le principe de la synchronisation fréquentielle est de
trouver le déphasage entre la fréquence à l'émission et la
fréquence locale du récepteur.
Dans une première partie, nous avons proposé des méthodes
pour la synchronisation temporelle en se basant sur des
séquences de synchronisation connues au niveau du récepteur.
Nous avons réalisé une étude des différentes séquences
existantes afin de comparer les efficacités de chacune de ces
séquences pour la synchronisation dans un système MIMOOFDM.
Dans une deuxième partie, un travail de simulation sous Matlab
a été réalisé afin d'étudier les performances de nos méthodes
proposées dans des canaux sélectifs en fréquence et à trajetsmultiples.
Les résultats de simulations de ces méthodes
expriment la probabilité d’acquisition de synchronisation
temporelle selon le SNR.
N° d’ordre : D14-03
Abstract
The current wireless communication systems, mobile phones,
satellite services and wireless internet networks require a very
high data rate and a highly reliable degree. These rates have
increased rapidly in the new applications of data transmission of
new generation. To take into account the spectrum limitations,
the OFDM has been proposed thanks the orthogonality
between sub-carriers and the data rate that approaches to the
Nyquist-Shannon sampling rate. Furthermore, the antennas
technic (MIMO) can provide significant various gains, a diversity
gain that improves the link reliability and the spatial multiplexing
gain where different data streams are transmitted over different
antennas. The combination of these two systems (MIMO and
OFDM) allows to exploit the robustness of the link on the
frequency-selective channels and uncorrelated channels in
space.One of the issue in the combination MIO-OFDM resides
on the synchronization methods. The synchronization is divided
into sub parts, timing synchronization and frequency
synchronization. Timing synchronization is also divided into two
parts, firstly, the coarse timing synchronization is used to
estimate the beginning of each received frame, and secondly,
the fine timing synchronization which detects the beginning of
each OFDM symbol in the received frame. The principle of the
frequency synchronization is to find the shifted phase between
the transmitted frequency and the local frequency at the
receiver.
In a first part, we have proposed different methods for timing
synchronization based on synchronization sequences known at
the receiver. We did a study for various existing sequences to
compare the efficiencies of each of these sequences in timing
synchronization for MIMO-OFDM systems.
In a second part, Matlab’s simulations were conducted to study
the performance of our proposed methods in multi-paths
frequency-selective channels. Simulations results show the
acquisition timing synchronization probability in terms of SNR.
Utiliser la police Arial Taille 9 en bleu dans les champs texte « résumé » et « abstract » - Texte justifié -
Ne pas dépasser le nombre de caractères des cadres de texte ci-dessus.
Ne pas modifier la taille des cadres de texte
Coordination Modulaire de Gestionnaires Autonomes
par Controle Discret
Soguy Mak Kar´e Gueye
To cite this version:
Soguy Mak Kar´e Gueye. Coordination Modulaire de Gestionnaires Autonomes par Controle
Discret. Distributed, Parallel, and Cluster Computing. Universite de Grenoble, 2014. French.
HAL Id: tel-01091302
https://hal.inria.fr/tel-01091302
Submitted on 5 Dec 2014
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of scientific
research documents, whether they are published
or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destin´ee au d´epˆot et `a la diffusion de documents
scientifiques de niveau recherche, publi´es ou non,
´emanant des ´etablissements d’enseignement et de
recherche fran¸cais ou ´etrangers, des laboratoires
publics ou priv´es.THÈSE
Pour obtenir le grade de
DOCTEUR DE L’UNIVERSITÉ DE GRENOBLE
Spécialité : Informatique
Arrêté ministérial : 7 août 2006
Présentée par
Soguy Mak-Karé GUEYE
Thèse dirigée par Éric RUTTEN
et codirigée par Noël DE PALMA
préparée au sein Laboratoire d’Informatique de Grenoble (LIG) et
INRIA Grenoble Rhône-Alpes
et de L’Ecole Doctorale Mathématiques, Sciences et Technologies de
l’Information, Informatique
Coordination Modulaire de Gestionnaires
Autonomes par Contrôle Discret
Thèse soutenue publiquement le 03/12/2014,
devant le jury composé de :
Mr. Lionel SEINTURIER
Professeur, Université Lille 1 - UFR IEEA - LIFL & FIL, Rapporteur
Mme. Françoise BAUDE
Professeur, Université de Nice Sophia-Antipolis, INRIA-UNS-CNRS, Rapporteur
Mr. Hervé MARCHAND
Chargé de Recherche, INRIA Rennes-Bretagne Atlantique, Examinateur
Mr. Jean-marc FAURE
Professeur, SupMéca, (LURPA), Examinateur
Mr. Gwenaël DELAVAL
Maître de conférence, Université Joseph Fourier - LIG, Examinateur
Mr. Daniel HAGIMONT
Professeur, INPT/ENSEEIHT, Examinateur
Mr. Éric RUTTEN
Chargé de Recherche, INRIA Grenoble Rhône-Alpes, Directeur de thèse
Mr. Noël DE PALMA
Professeur, Université Joseph Fourier - LIG, Co-Directeur de thèse2Abstract
Computing systems have become more and more distributed and heterogeneous,
making their manual administration difficult and error-prone. The
Autonomic Computing approach has been proposed to overcome this issue, by
automating the administration of computing systems with the help of control
loops called autonomic managers. Many research works have investigated the
automation of the administration functions of computing systems and today
many autonomic managers are available. However the existing autonomic
managers are mostly specialized in the management of few administration concerns.
This makes necessary the coexistence of multiple autonomic managers
for achieving a global system management. The coexistence of several managers
make possible to address multiple concerns, yet requires coordination
mechanisms to avoid incoherent management decisions. We investigate the
use of control techniques for the design of coordination controllers, for which
we exercise synchronous programming that provide formal semantics, and
discrete controller synthesis to automate the construction of the controller. We
follow a component-based approach, and explore modular discrete control allowing
to break down the combinatorial complexity inherent to the state-space
exploration technique. This improves scalability of the approach and allows
constructing a hierarchical control. It also allows re-using complex managers
in different contexts without modifying their control specifications. We build a
component-based coordination of managers, with introspection, adaptivity and
reconfiguration. This thesis details our methodology and presents case-studies.
We evaluate and demonstrate the benefits of our approach by coordinating
autonomic managers which address the management of availability, and the
management of performance and resources optimization.
Keywords. Computer systems, autonomic computing, component-based model,
control loops, software reuse, discrete event systems, discrete controller synthesis,
synchronous programming
iRésumé
Les systèmes informatiques sont devenus de plus en plus distribués et
hétérogènes, ce qui rend leur administration manuelle difficile et source d’erreurs.
L’administration autonome a été proposée comme solution à ce problème.
Elle consiste à automatiser l’administration des systèmes informatiques à l’aide
de boucles de contrôle appelées gestionnaires autonomes. De nombreux travaux
de recherche se sont intéressés à l’automatisation des fonctions d’administration
de systèmes informatiques et aujourd’hui, beaucoup de gestionnaires
autonomes sont disponibles. Toutefois, les gestionnaires autonomes existants
sont, la plupart, spécialisés dans la gestion de quelques aspects d’administration.
Cela rend nécessaire la coexistence de plusieurs gestionnaires autonomes
pour atteindre une gestion globale des systèmes. La coexistence de plusieurs
gestionnaires permet la gestion de plusieurs aspects, mais nécessite des mécanismes
de coordination afin d’éviter des décisions incohérentes. Nous étudions
l’utilisation de techniques de contrôle pour la conception de contrôleurs de coordination,
nous utilisons la programmation synchrone qui fournit des méthodes
formelles, et la synthèse de contrôleur discret pour automatiser la construction
de contrôleur. Nous suivons une approche à base de composants, et utilisons
le contrôle discret modulaire qui permet de décomposer la complexité combinatoire
inhérente à la technique d’exploration d’espace d’états. Cela améliore
le passage à l’échelle de notre approche et permet la construction d’un contrôle
hiérarchique. Notre approche permet la réutilisation de gestionnaires
complexes dans des contextes différents, sans modifier leurs spécifications
de contrôle. Nous construisons une coordination de gestionnaires basée sur
le modèle à composants offrant introspection, adaptabilité et reconfiguration.
Cette thèse présente notre méthodologie et des études de cas. Nous évaluons
et démontrons les avantages de notre approche par la coordination de gestionnaires
autonomes dédiés à la gestion de la disponibilité, et à la gestion de la
performance et l’optimisation de ressources.
Mots-clés. Systèmes informatiques, administration autonome, modèle à base de
composants, boucles de contrôle, réutilisation de logiciels, systèmes à événements
discrets, synthèse de contrôleur discret, programmation synchrone
iiRemerciements
Je tiens à adresser mes plus sincères remerciements et toute ma reconnaissance
à mes directeurs de thèse, Mr Éric RUTTEN et Mr Noël DE PALMA, pour
m’avoir offert la possibilité de faire cette thèse, pour leur soutien constant, leur
présence, leur patience et leur confiance.
Je remercie Mr Gwenaël DELAVAL pour sa présence et son aide tout au
long de la thèse. Je tiens à remercier Mr Ahmed EL RHEDDANE, Mr Ibrahim
SAFIEDDINE, Mr Alain TCHANA, pour leur présence et leur soutien durant
toutes ces années. Je tiens également à remercier Mlle Édith GRAC et Mr
Frédérico ALVARES pour avoir pris le temps de lire le manuscrit et de suggérer
des corrections qui ont sans aucun doute contribué à améliorer la qualité du
manuscrit. Je remercie mes collègues et toutes les personnes avec qui j’ai collaboré
pendant toutes ces années.
Je remercie également les membres du jury, qui ont accepté de juger mon
travail : Mr Lionel SEINTURIER et Mme Françoise BAUDE pour avoir également
accepté de rapporter la thèse, Mr Hervé MARCHAND, Mr Jean-marc
FAURE, Mr Gwenaël DELAVAL, Mr Daniel HAGIMONT, pour avoir accepté
d’examiner en profondeur le travail réalisé, ainsi que pour tous leurs commentaires
constructifs.
Je remercie mes amis, principalement Mlle Ndeye Fatou NDIAYE, qui a
beaucoup contribué à l’organisation de la soutenance. Enfin, je remercie toutes
les personnes qui de près ou de loin m’ont soutenu, encouragé ou assisté durant
toutes ces années.
Mes dernières pensées sont réservées à ma très chère famille...
iiiivTable des matières
Résumé i
Remerciements iii
Table des matières v
1 Introduction 1
1.1 Systèmes autonomes . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Coordination de gestionnaires autonomes . . . . . . . . . . . . . 2
1.3 Approche et contribution . . . . . . . . . . . . . . . . . . . . . . . 3
2 État de l’art 7
2.1 Administration autonome . . . . . . . . . . . . . . . . . . . . . . 8
2.1.1 Complexité des systèmes informatiques . . . . . . . . . . 9
2.1.1.1 Architecture multi-tiers . . . . . . . . . . . . . . 9
2.1.1.2 Centre de données: ressources à large échelle . 10
2.1.1.3 Limites de l’administration manuelle . . . . . . 10
2.1.2 Gestionnaire autonome . . . . . . . . . . . . . . . . . . . 11
2.1.2.1 Définition de gestionnaire autonome . . . . . . 11
2.1.2.2 Implémentation . . . . . . . . . . . . . . . . . . 13
2.1.3 Coordination de gestionnaires autonomes . . . . . . . . . 16
2.1.3.1 Besoin de coordination . . . . . . . . . . . . . . 16
2.1.3.2 Approches de coordination proposées . . . . . 17
2.1.4 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Modèles réactifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.1 Les langages synchrones . . . . . . . . . . . . . . . . . . . 21
vTABLE DES MATIÈRES
2.2.1.1 Heptagon/BZR . . . . . . . . . . . . . . . . . . 22
2.2.1.2 Implémentation des programmes synchrones . 25
2.2.2 Synthèse de contrôleur discret (SCD) . . . . . . . . . . . 26
2.2.2.1 Synthèse de contrôleur avec Heptagon/BZR . . 27
2.2.2.2 Synthèse modulaire avec Heptagon/BZR . . . 29
2.2.3 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3 Méthodologie de coordination de gestionnaires autonomes 35
3.1 Spécification de la coordination . . . . . . . . . . . . . . . . . . . 36
3.1.1 Modélisation d’un gestionnaire autonome . . . . . . . . 36
3.1.1.1 Comportement . . . . . . . . . . . . . . . . . . . 37
3.1.1.2 Contrôlabilité . . . . . . . . . . . . . . . . . . . . 38
3.1.2 Modélisation de la coordination . . . . . . . . . . . . . . 39
3.1.2.1 Modélisation de la coexistence . . . . . . . . . . 39
3.1.2.2 Spécification d’une stratégie de coordination . 40
3.1.3 Modélisation modulaire de la coordination . . . . . . . . 41
3.1.3.1 Contrôle décentralisé . . . . . . . . . . . . . . . 41
3.1.3.2 Spécification modulaire et hiérarchique . . . . . 42
3.2 Mise en oeuvre de la coordination . . . . . . . . . . . . . . . . . 44
3.2.1 Le modèle à composants Fractal . . . . . . . . . . . . . . 44
3.2.1.1 Composant Fractal . . . . . . . . . . . . . . . . . 44
3.2.1.2 Introspection et reconfiguration . . . . . . . . . 46
3.2.1.3 Fractal ADL . . . . . . . . . . . . . . . . . . . . 46
3.2.2 Composant de gestionnaire autonome . . . . . . . . . . . 47
3.2.3 Coordination à base de composants . . . . . . . . . . . . 48
3.2.3.1 Coordination de gestionnaires . . . . . . . . . . 48
3.2.3.2 Coordination hiérarchique . . . . . . . . . . . . 50
3.3 Comparaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4 Gestion de la performance et de l’optimisation de ressources d’un système
dupliqué 55
4.1 Gestionnaires autonomes non coordonnés . . . . . . . . . . . . . 56
4.1.1 Gestionnaire d’auto-dimensionnement: Self-sizing . . . . 56
viTABLE DES MATIÈRES
4.1.2 Gestionnaire d’auto-régulation de fréquence CPU: Dvfs 58
4.2 Problèmes d’optimisation de ressources . . . . . . . . . . . . . . 59
4.3 Conception du contrôleur de coordination . . . . . . . . . . . . . 60
4.3.1 Modélisation du contrôle des gestionnaires . . . . . . . . 60
4.3.1.1 Modélisation du contrôle de self-sizing . . . . . 61
4.3.1.2 Modélisation de l’état global des Dvfs . . . . . 63
4.3.2 Spécification de la coordination . . . . . . . . . . . . . . . 64
4.3.2.1 Stratégie de coordination . . . . . . . . . . . . . 64
4.3.2.2 Spécification du contrat . . . . . . . . . . . . . . 64
4.3.2.3 Programme final . . . . . . . . . . . . . . . . . . 64
4.4 Expérimentations . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.4.1 Configuration . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.4.2 Calibrage des seuils des gestionnaires . . . . . . . . . . . 66
4.4.2.1 Seuil maximal pour self-sizing et Dvfs . . . . . 66
4.4.2.2 Seuil minimal pour self-Sizing et Dvfs . . . . . 67
4.4.3 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.4.3.1 Comportement non coordonné . . . . . . . . . 70
4.4.3.2 Comportement coordonné . . . . . . . . . . . . 72
4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5 Gestion du dimensionnement dynamique et de la réparation d’un
système multi-tiers 77
5.1 Gestionnaires autonomes non coordonnés . . . . . . . . . . . . . 79
5.1.1 Gestionnaire d’auto-dimensionnement: Self-sizing . . . . 79
5.1.2 Gestionnaire d’auto-réparation: Self-repair . . . . . . . . 80
5.2 Problèmes d’administration d’un système multi-tiers . . . . . . 81
5.3 Conception du contrôleur de coordination . . . . . . . . . . . . . 84
5.3.1 Modélisation du contrôle des gestionnaires . . . . . . . . 84
5.3.1.1 Modélisation du contrôle de self-sizing . . . . . 84
5.3.1.2 Modélisation du contrôle de self-repair . . . . . 84
5.3.2 Spécification de la coordination . . . . . . . . . . . . . . . 86
5.3.2.1 Stratégie de coordination . . . . . . . . . . . . . 86
5.3.2.2 Spécification du contrat . . . . . . . . . . . . . . 87
5.3.2.3 Programme final . . . . . . . . . . . . . . . . . . 89
5.4 Expérimentations . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
viiTABLE DES MATIÈRES
5.4.1 Configuration . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.4.2 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.4.2.1 Comportement non coordonné . . . . . . . . . 92
5.4.2.2 Comportement coordonné . . . . . . . . . . . . 95
5.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
6 Coordination modulaire pour la gestion d’applications multi-tiers et
consolidation 99
6.1 Gestion des ressources d’un centre de données . . . . . . . . . . 100
6.1.1 Utilisation des ressources . . . . . . . . . . . . . . . . . . 100
6.1.2 Gestionnaire de consolidation de serveurs . . . . . . . . 101
6.2 Problèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
6.3 Conception de la coordination modulaire . . . . . . . . . . . . . 102
6.3.1 Modélisation des gestionnaires . . . . . . . . . . . . . . . 103
6.3.1.1 Modélisation du gestionnaire self-sizing . . . . 103
6.3.1.2 Modélisation du gestionnaire self-repair . . . . 104
6.3.1.3 Modélisation du gestionnaire de consolidation 104
6.3.2 Spécification de la coordination . . . . . . . . . . . . . . . 105
6.3.2.1 Stratégie de coordination . . . . . . . . . . . . . 105
6.3.2.2 Spécification du contrat . . . . . . . . . . . . . . 106
6.3.2.3 Synthèse monolithique . . . . . . . . . . . . . . 106
6.3.2.4 Synthèse modulaire . . . . . . . . . . . . . . . . 107
6.3.2.5 Comparaison . . . . . . . . . . . . . . . . . . . . 111
6.4 Expérimentations . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.4.1 Configuration . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.4.2 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
6.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
7 Exécution distribuée des contrôleurs modulaires 117
7.1 Exécution distribuée de contrôleurs . . . . . . . . . . . . . . . . 119
7.1.1 Exécution distribuée synchronisée . . . . . . . . . . . . . 119
7.1.1.1 Principe . . . . . . . . . . . . . . . . . . . . . . . 120
7.1.1.2 Implémentation . . . . . . . . . . . . . . . . . . 120
7.1.2 Exécution distribuée désynchronisée . . . . . . . . . . . . 122
7.1.2.1 Principe . . . . . . . . . . . . . . . . . . . . . . . 122
viiiTABLE DES MATIÈRES
7.1.2.2 Implémentation . . . . . . . . . . . . . . . . . . 123
7.2 Exemple: Gestion d’une application multi-tiers . . . . . . . . . . 124
7.2.1 Exécution distribuée totalement synchronisée . . . . . . 124
7.2.1.1 Modélisation . . . . . . . . . . . . . . . . . . . . 124
7.2.1.2 Décomposition . . . . . . . . . . . . . . . . . . . 125
7.2.2 Exécution distribuée partiellement synchronisée . . . . . 126
7.2.2.1 Modélisation . . . . . . . . . . . . . . . . . . . . 126
7.2.2.2 Décomposition . . . . . . . . . . . . . . . . . . . 129
7.2.3 Exécution distribuée désynchronisée . . . . . . . . . . . . 130
7.2.3.1 Modélisation . . . . . . . . . . . . . . . . . . . . 130
7.2.3.2 Décomposition . . . . . . . . . . . . . . . . . . . 131
7.2.4 Comparaison . . . . . . . . . . . . . . . . . . . . . . . . . 132
7.3 Expérimentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
7.3.1 Configuration . . . . . . . . . . . . . . . . . . . . . . . . . 133
7.3.2 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
7.3.2.1 Durée de reconfiguration . . . . . . . . . . . . . 133
7.3.2.2 Atteinte des objectifs de contrôle . . . . . . . . 134
7.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
8 Conclusion 143
Bibliographie 147
Liste des figures 155
Liste des tables 159
ixTABLE DES MATIÈRES
x1
Introduction
Contents
1.1 Systèmes autonomes . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Coordination de gestionnaires autonomes . . . . . . . . . . . 2
1.3 Approche et contribution . . . . . . . . . . . . . . . . . . . . . 3
1.1 Systèmes autonomes
Aujourd’hui les systèmes informatiques sont présents dans de nombreux
secteurs d’activité pour réaliser des traitements complexes, e.g., le commerce
en ligne ou les opérations bancaires. Ces systèmes, ayant fait leurs preuves,
sont devenus de plus en plus utilisés et de plus en plus complexes, avec de
multiples ressources logicielles hétérogènes inter-connectées entre elles. De
plus l’environnement d’exécution de ces systèmes a évolué pour répondre à
la demande accrue en puissance de calcul. Des équipements de plus en plus
sophistiqués sont utilisés. Ces évolutions posent de nouveaux défis, notamment
l’administration des systèmes qui devient une tâche de plus en plus complexe.
La complexité inhérente à la taille des systèmes et à leur degré d’hétérogénéité
rend difficile leur administration. Cette dernière ne peut plus être assurée ef-
ficacement de manière manuelle. En effet, pour gérer les systèmes informatiques,
l’intervention humaine implique souvent des coûts élevés, des erreurs
11.2. COORDINATION DE GESTIONNAIRES AUTONOMES
fréquentes, et surtout des temps de réaction lents. Or les enjeux économiques
liés au bon fonctionnement des systèmes informatiques ne tolèrent ni des
pannes ni de longues périodes d’indisponibilité des systèmes. Il faut donc
trouver d’autres moyens pour assurer leur administration.
L’administration autonome 1 a été proposée comme alternative pour faciliter
la gestion des systèmes informatiques. Cette approche consiste à concevoir
des systèmes autonomes capables de se gérer eux-mêmes. A l’exécution, ces
systèmes doivent pouvoir réagir et s’adapter aux changements survenus dans
leur environnement d’exécution sans intervention humaine ou peu. Pour ce
faire, les systèmes autonomes sont munis d’éléments logiciels dédiés à leur
administration. Ce sont eux qui leur permettent de s’auto-administrer et de minimiser
l’intervention humaine. Ces éléments, appelés gestionnaires autonomes,
implémentent les décisions d’administration. Ils reçoivent, via des capteurs, des
données sur l’état courant du système administré et l’occurrence d’événements
qui affectent le système. Ils analysent ensuite ces données pour détecter tout
écart par rapport au fonctionnement souhaité du système. Lorsqu’écart il y a,
ils planifient et exécutent des opérations d’administration pour reconfigurer le
système dans un état cohérent et stable.
1.2 Coordination de gestionnaires autonomes
Pour qu’un système soit entièrement autonome, il faut que toutes les fonctions
d’administration soient automatisées. Parmi tous les gestionnaires autonomes
actuellement disponibles, aucun n’est capable d’implémenter une
administration globale. La conception d’un gestionnaire autonome qui implé-
mente toutes les fonctions d’administration peut être complexe. Toutefois, de
nombreux gestionnaires autonomes dédiés à différentes fonctions d’administration
sont disponibles et réutilisables. De ce fait, ils peuvent être utilisés en
parallèle pour l’administration d’un système.
Il peut être avantageux d’utiliser plusieurs gestionnaires pour faciliter une
gestion globale d’un système de manière autonome. Cependant une gestion
globale et cohérente nécessite la coordination des gestionnaires autonomes,
1. La plupart du temps le terme «autonomique» est utilisé. Toutefois, étant donné qu’il n’y
a pas de consensus pour l’utilisation de ce terme, dans ce document nous utilisons le terme
«autonome».
2qui sont généralement conçus indépendamment. Individuellement chaque gestionnaire
a un comportement cohérent, mais leur coexistence peut amener des
incohérences. Chaque gestionnaire assure le respect de ses objectifs d’administration
en se basant sur la connaissance qu’il a du système administré, et en
appliquant des actions d’administration. Ces actions affectent l’état du système
administré, et donc peuvent conduire à une violation des objectifs des autres
gestionnaires. Ces derniers peuvent réagir à ces changements en appliquant des
actions de correction qui n’aboutissent pas forcément à une stabilité du système
administré. De plus, un événement peut altérer l’état du système administré
conduisant ainsi à des réactions simultanées de plusieurs gestionnaires.
Une gestion autonome complète et cohérente requiert donc l’utilisation de
plusieurs gestionnaires autonomes coordonnés. La coordination de leurs activités
permet d’éviter des décisions conflictuelles ainsi que des actions inutiles et
peut-être redondantes.
1.3 Approche et contribution
La coordination de gestionnaires autonomes nécessite une synchronisation,
au moins partielle, de leurs activités pour pouvoir autoriser ou inhiber certaines
actions en fonction des circonstances. Il s’agit de restreindre le fonctionnement
global des gestionnaires dicté par des objectifs globaux. Des approches issues
de la théorie du contrôle, comme la synthèse de contrôleur discret (SCD),
permettent d’aborder ce type de problème. La synthèse de contrôleur discret est
une technique qui permet de construire automatiquement une fonction logique,
un contrôleur qui permet de restreindre le fonctionnement d’un système pour
respecter les propriétés désirées. Le contrôleur généré restreint le moins possible
le fonctionnement du système à contrôler. La synthèse de contrôleur discret
repose sur une déclaration des propriétés désirées et sur une modélisation du
système à contrôler. La programmation synchrone fournit des langages de haut
niveau facilitant la modélisation formelle de systèmes à base d’automates. Elle
permet la représentation de systèmes complexes par la composition parallèle et
hiérarchique d’automates.
Pour coordonner des gestionnaires autonomes, nous proposons une approche
basée sur la synthèse de contrôleur discret et la programmation syn-
31.3. APPROCHE ET CONTRIBUTION
chrone. En effet l’implémentation manuelle d’une politique de coordination
peut être complexe, coûteuse, et implique des séries de tests et de corrections
successives. Avec notre approche, le contrôleur de coordination est construit
automatiquement sur la base des objectifs de coordination et d’un modèle du
système. Nous adoptons la programmation synchrone pour la modélisation
du système à contrôler. Ce dernier correspond à l’ensemble des gestionnaires
autonomes à coordonner. La coordination requiert que le comportement des
gestionnaires, à l’exécution, puisse être observable et contrôlable. Nous construisons
un modèle de chaque gestionnaire dans lequel ces aspects sont décrits.
La composition des modèles des gestionnaires représente leur coexistence et
décrit l’ensemble des comportements qui peuvent être observés durant leur
exécution parallèle. Elle présente les comportements cohérents, et ceux consid-
érés incohérents qui rendent inconsistant l’état du système administré par les
gestionnaires.
La mise en oeuvre de la coordination nécessite une implémentation réelle
des fonctions permettant d’observer et de contrôler les gestionnaires. Pour cela
nous adoptons le modèle à composants qui facilite l’assemblage dynamique
d’éléments logiciels sur lesquels des fonctions d’introspection et de reconfiguration
peuvent être ajoutées. Nous identifions les contraintes de conception des
gestionnaires – comportement observable, et contrôlabilité – pour construire
une structure à base de composants où ils sont explicites, et n’impliquant pas la
modification de l’implémentation des gestionnaires autonomes pour lesquels
ces fonctions de contrôle ne sont pas disponibles.
Contributions
Nos contributions sont les suivantes :
1. Coordination de gestionnaires autonomes basée sur le contrôle discret
(a) Spécification du contrôle de gestionnaire avec la programmation
synchrone
(b) Respect de la coordination par synthèse de contrôleur discret
(c) Passage à l’échelle par synthèse modulaire hiérarchique
2. Mise en oeuvre de la coordination basée sur le modèle à composants
(a) Construction de composants de gestionnaires
4i. Implémentation du contrôle de gestionnaire
ii. Réutilisation de gestionnaires existants
(b) Construction de composants composites de coordination
i. Assemblage de composants de gestionnaires
ii. Assemblage de composants composites coordonnés
3. La validation de notre approche à travers des cas d’étude présentés dans
les chapitres suivants.
Les contributions de cette thèse s’inscrivent dans le cadre du projet CtrlGreen
2
. Ce projet vise à étudier les moyens matériels et logiciels pour l’optimisation
de la consommation énergétique dans les centres de données. La gestion
énergétique peut être implémentée à différents niveaux (matériel, système, intergiciel).
De multiples boucles de contrôle – gestionnaires autonomes – peuvent
donc être implémentées à chaque niveau et elles doivent prendre des décisions
globalement cohérentes. De plus le Green Computing n’est pas le seul aspect
qui doit être géré dans l’administration d’un centre de données. Des politiques
pour le passage à l’échelle et/ou la disponibilité des applications hébergées sont
également prises en compte. Il est donc nécessaire de gérer les compromis entre
performance, disponibilité et énergie. Pour cela la coexistence de nombreux
gestionnaires autonomes (avec des objectifs différents, implémentés dans des
couches différentes) est nécessaire. Leur coordination est également nécessaire
pour obtenir une gestion cohérente.
Organisation du document
Le reste du document est organisé de la manière suivante :
Le chapitre 2 présente l’état de l’art sur l’administration autonome et les
modèles réactifs. D’abord nous présentons l’administration autonome, la nécessité
et les solutions proposées. Ensuite nous présentons des techniques issues
du contrôle discret pour la conception de systèmes réactifs.
Le chapitre 3 détaille notre approche de coordination de gestionnaires, basée
sur l’utilisation de modèles réactifs et des techniques de contrôle discret pour
2. Ctrl-Green (ANR-11-INFR 012 11) est un projet de recherche financé par l’ANR (Agence
Nationale de la Recherche) avec le soutien de MINALOGIC. http://www.ctrlgreen.org/
51.3. APPROCHE ET CONTRIBUTION
la spécification de la coordination ; et le modèle à composants pour la mise en
oeuvre [21, 29]. Nous utilisons le synthèse modulaire pour faciliter le passage à
l’échelle et construire un contrôle hiérarchique [23].
Le chapitre 4 présente une application de notre approche pour la gestion cohérente
de l’optimisation des ressources, dans la perspective de l’informatique
verte [28]. Les gestionnaires considérés gèrent le dimensionnement dynamique
du degré de réplication de serveurs (self-sizing) et l’ajustement dynamique
de la fréquence du CPU (DVFS «Dynamic Frequency Voltage Scaling»). Le
contrôleur de coordination contrôle les actions d’ajout de serveurs dupliqués
en fonction de l’état des processeurs des machines déjà en cours d’utilisation.
L’objectif est de n’autoriser un ajout de serveur que lorsque c’est nécessaire,
lorsque les serveurs actifs sont réellement saturés.
Le chapitre 5 présente une autre application de notre approche pour la
gestion de la disponibilité et de la performance d’un système multi-tiers basé sur
la réplication [30]. Le système exécute l’application Web de référence RUBiS. Les
gestionnaires considérés sont self-sizing pour le dimensionnement dynamique
du degré de réplication des tiers dupliqués, et self-repair pour la réparation de
serveurs en panne. Le contrôleur de coordination conçu orchestre l’exécution
des gestionnaires afin d’éviter un sur-dimensionnement.
Le chapitre 6 présente une application de l’approche modulaire pour la
gestion d’un centre de données [23]. Nous considérons que le centre de données
héberge un ensemble d’applications de type multi-tiers JEE. Chacune des
applications est gérée de manière autonome par deux instances de self-sizing et
quatre instances de self-repair. Cet exemple démontre le passage à l’échelle de
notre approche par la spécification modulaire du contrôle des gestionnaires des
applications et du gestionnaire de consolidation.
Le chapitre 7 décrit comment le code obtenu d’une spécification modulaire
peut être exécuté de manière distribuée. Il détaille les différentes approches
d’exécution distribuée et décrit les implémentations possibles pour la mise
en oeuvre. Il présente également un exemple d’utilisation de ces différentes
approches pour la gestion d’un système multi-tiers.
Le chapitre 8 conclut la thèse. Il rappelle le contexte, l’approche de coordination
et donne des perspectives que nous envisageons.
62
État de l’art
Contents
2.1 Administration autonome . . . . . . . . . . . . . . . . . . . . . 8
2.1.1 Complexité des systèmes informatiques . . . . . . . . . 9
2.1.1.1 Architecture multi-tiers . . . . . . . . . . . . . 9
2.1.1.2 Centre de données : ressources à large échelle 10
2.1.1.3 Limites de l’administration manuelle . . . . . 10
2.1.2 Gestionnaire autonome . . . . . . . . . . . . . . . . . . 11
2.1.2.1 Définition de gestionnaire autonome . . . . . 11
2.1.2.2 Implémentation . . . . . . . . . . . . . . . . . 13
2.1.3 Coordination de gestionnaires autonomes . . . . . . . . 16
2.1.3.1 Besoin de coordination . . . . . . . . . . . . . 16
2.1.3.2 Approches de coordination proposées . . . . 17
2.1.4 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Modèles réactifs . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.1 Les langages synchrones . . . . . . . . . . . . . . . . . . 21
2.2.1.1 Heptagon/BZR . . . . . . . . . . . . . . . . . 22
2.2.1.2 Implémentation des programmes synchrones 25
2.2.2 Synthèse de contrôleur discret (SCD) . . . . . . . . . . 26
2.2.2.1 Synthèse de contrôleur avec Heptagon/BZR . 27
2.2.2.2 Synthèse modulaire avec Heptagon/BZR . . 29
72.1. ADMINISTRATION AUTONOME
2.2.3 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Ce chapitre présente l’administration autonome. Cette approche repose
sur l’automatisation des fonctions d’administration. Ce chapitre présente la
nécessité de cette approche et les éléments logiciels, gestionnaires autonomes,
qui permettent sa mise en oeuvre. Il présente également l’intérêt d’utiliser
plusieurs gestionnaires autonomes et la nécessité de les coordonner, et quelques
approches de coordination étudiées dans des travaux de recherche.
La seconde partie de ce chapitre présente des méthodes et des techniques,
issues de la programmation synchrone et de la synthèse de contrôleur discret,
sur lesquelles est basée notre méthodologie de coordination de gestionnaires.
La programmation synchrone fournit des langages de programmation de haut
niveau permettant la modélisation formelle du comportement d’un système ; et
la synthèse de contrôleur discret.
2.1 Administration autonome
L’administration d’un système informatique consiste en un ensemble d’opérations
en vue de le mettre en état de marche et de maintenir correct son fonctionnement
tout au long de son exécution. La mise en marche du système implique
la configuration et la résolution des dépendances de ses différents éléments
logiciels déployés sur des machines dédiées. Assurer le bon fonctionnement
du système implique une surveillance continue de l’environnement logiciel
et matériel afin de détecter des problèmes et d’appliquer des opérations de
reconfiguration.
Aujourd’hui les systèmes informatiques sont devenus de plus en plus complexes.
Leur administration dépasse les capacités humaines à cause du nombre
très important d’éléments logiciels et matériels impliqués. L’administration autonome
[39], introduite en 2001 par IBM, a été proposée comme alternative face
à cette complexité croissante. Cette approche consiste à automatiser les fonctions
d’administration afin de minimiser l’intervention humaine et d’améliorer
la réactivité quant à la détection de changements et l’application d’opérations
8de correction. Les fonctions d’administration sont implémentées par des élé-
ments logiciels appelés gestionnaires autonomes. A l’exécution, ces derniers
vont appliquer les tâches d’administration sur le système administré.
2.1.1 Complexité des systèmes informatiques
L’informatique est un domaine essentiel dans beaucoup de secteurs d’activité.
La plupart des activités, souvent complexes, dans ces secteurs est assurée
au moyen de systèmes informatiques afin de faciliter leur gestion. Ces systèmes
fournissent des services, e.g., le commerce en ligne, les opérations bancaires,
ouverts à un nombre important d’utilisateurs. Ils évoluent souvent dans un
environnement très dynamique. Les enjeux économiques liés à ces activités font
que les systèmes informatiques associés doivent assurer un bon fonctionnement
qui requiert une forte fiabilité. Une panne ou une indisponibilité peut causer des
pertes financières considérables. Le besoin de stabilité a conduit à la conception
de systèmes larges et complexes, avec de nombreux éléments logiciels répartis,
déployés suivant une architecture distribuée. Par ailleurs, l’exécution de ces
systèmes nécessite de grandes quantités de ressources.
2.1.1.1 Architecture multi-tiers
L’architecture multi-tiers est un exemple d’architecture distribuée de plus
en plus utilisée. Elle permet l’interconnexion de serveurs qui rendent des services
différents, e.g., la production de page web avec la gestion de base de
données. Les serveurs sont groupés en tiers. Chaque tier offre un service à son
prédécesseur, et requiert le service fourni par son successeur pour remplir sa
part dans la chaîne de traitement des requêtes. Les différents tiers peuvent
participer au traitement de chaque requête entrante durant l’exécution du système.
Pour des raisons de performance et de disponibilité, chaque tier peut
être dupliqué sur plusieurs machines distinctes. Un répartiteur de charge est
alors utilisé en frontal à chaque tier basé sur la réplication pour distribuer les
requêtes à traiter entre les serveurs dupliqués du tier.
92.1. ADMINISTRATION AUTONOME
2.1.1.2 Centre de données : ressources à large échelle
La mise en exploitation des systèmes informatiques nécessite aujourd’hui
une importante puissance de calcul. Ce besoin a conduit les entreprises à
s’orienter vers les centres de données. Un centre de données est constitué d’un
ensemble d’équipements matériels sophistiqués et à grande échelle pour fournir
une puissance de calcul et une capacité de stockage très élevées. La puissance
de calcul et la capacité stockage sont fournies par une plate-forme formée par
un nombre important de serveurs physiques puissants inter-connectés via un
réseau à haut débit. Cette plate-forme est généralement virtualisée ce qui permet
d’exécuter plusieurs applications distinctes simultanément de manière isolée.
Un système de virtualisation, e.g., VMWare, Xen, est installé sur les serveurs
physiques pour former la couche virtuelle. La ressource approvisionnée dans
ce type de plate-forme est la machine virtuelle. Une machine virtuelle est un
logiciel qui reproduit le même comportement qu’un ordinateur réel. Elle contient
un système d’exploitation et ne se distingue pas d’un ordinateur réel, vu
de l’intérieur. Elle peut héberger des logiciels applicatifs et exécuter la plupart
des tâches qu’un ordinateur réel peut exécuter. Le système de virtualisation
gère le quota de ressources physiques alloué à chaque machine virtuelle durant
son exécution. Le quota de chaque machine virtuelle peut évoluer en fonction
de ses besoins.
2.1.1.3 Limites de l’administration manuelle
La complexité croissante des systèmes informatiques a rendu les tâches
d’administration difficiles à assurer manuellement. La capacité humaine pour
la gestion d’un système informatique – déploiement et reconfiguration – est
vite dépassée par la complexité de celui-ci. Le déploiement implique la copie,
l’installation de chaque logiciel sur la machine dédiée, leur configuration et
leur mise en marche. La reconfiguration implique une surveillance continue
de l’ensemble des éléments logiciels et matériels pour la détection de changements
dans l’environnement d’exécution – détection de défaillance, charge de
travail – auxquels il faut réagir. Ces tâches sont rendues difficiles à effectuer
manuellement par le nombre très important d’éléments impliqués.
102.1.2 Gestionnaire autonome
Un système autonome est muni d’éléments logiciels dédiés à son administration.
Ces derniers lui permettent ainsi de s’auto-administrer et de minimiser
l’intervention humaine. Ces éléments logiciels, responsables des tâches d’administration,
sont appelés gestionnaires autonomes.
2.1.2.1 Définition de gestionnaire autonome
Un gestionnaire autonome est un élément logiciel qui implémente une ou
plusieurs fonctions d’administration sur des éléments administrés de manière
autonome. Parmi les fonctions d’administration figurent l’auto-configuration,
l’auto-protection, l’auto-optimisation, l’auto-réparation. Les éléments administrés
peuvent être des éléments logiciels et/ou matériels. Le gestionnaire implante
une boucle de contrôle au moyen de capteurs et d’actionneurs. Les
capteurs permettent de collecter les informations sur les éléments administrés.
Les actionneurs, quant à eux, permettent d’appliquer les opérations de reconfiguration.
Les capteurs et les actionneurs sont fournis avec les éléments
administrés.
Analyse Planification
Gestionnaire autonome
Capteurs Actionneurs
Elements administres
Observation Execution Connaissance
FIGURE 2.1 – Architecture d’un système autonome
L’implémentation d’un gestionnaire autonome est basée sur le modèle de
référence, représenté à la figure 2.1, proposé par IBM, MAPE-K : Monitor (Obser-
112.1. ADMINISTRATION AUTONOME
vation), Analyze (Analyse), Plan (Planification), Execute (Exécution) et Knowledge
(Connaissance). Ce modèle décrit quatre tâches principales :
1. Observation. Cette partie surveille l’exécution des éléments administrés
grâce aux mesures provenant des capteurs. Elle permet d’agréger et de
filtrer les informations de bas niveau en provenance des capteurs pour
générer des données pertinentes destinées à l’analyse (e.g., panne, la surcharge
ou la sous-charge d’un serveur).
2. Analyse. Elle implante les politiques de décision de la boucle de contrôle.
Pour cela, elle analyse les données de surveillance et se base sur le modèle
du système administré pour déterminer si des modifications sont nécessaires
et va déclencher la phase de planification pour modifier le système.
3. Planification. Elle génère un programme de reconfiguration qui contient
les tâches de reconfiguration à effectuer ainsi que leurs contraintes d’ordonnancement
éventuelles.
4. Exécution. C’est le moteur qui exécute les tâches de reconfiguration en
fonction des contraintes d’ordonnancement. Le moteur doit aussi assurer
la cohérence du système lors d’une reconfiguration. Les tâches de recon-
figuration sont exécutées grâce aux actionneurs des éléments administrés.
Connaissance (modèle du système). A l’exécution, un modèle du système
administré est maintenu à jour. Ce modèle est utilisé par le gestionnaire
autonome comme base pour les décisions d’administration. Il fournit une connaissance
des éléments administrés. L’idéal serait qu’il fournisse également une
connaissance sur les gestionnaires autonomes présents dans le système. Il existe
différents types de modèles suivant la fonction d’administration implantée par
le gestionnaire. On peut citer par exemple des modèles représentant la liste des
attaques connues sur le système pour l’auto-protection ou bien des modèles
basés sur la structure du système pour l’auto-réparation et l’auto-configuration.
122.1.2.2 Implémentation
L’administration autonome est une approche très prometteuse. Beaucoup de
travaux de recherche ont démontré sa faisabilité à travers différentes expérimentations.
Aujourd’hui de nombreux gestionnaires autonomes ont été conçus. Ils
assurent de manière cohérente les tâches d’administration qu’ils implémentent.
Parmi les aspects d’administration considérés figurent l’auto-configuration,
l’auto-protection, l’auto-optimisation et l’auto-réparation.
Auto-réparation. Les frameworks proposés dans [18,53] implémentent l’autoréparation.
Ils permettent la restauration des composants logiciels de systèmes,
à l’exécution. Dans [18], un modèle architectural du système administré est
maintenu à jour. Il est utilisé comme base pour la reconfiguration et la réparation
du système. Le modèle expose un ensemble de propriétés sur l’architecture
du système, qui permettent de définir des contraintes formelles pour détecter
des anomalies, et savoir quand une adaptation est nécessaire. La violation
d’une contrainte entraîne la réparation du modèle. Les changements effectués
sur le modèle sont ensuite appliqués sur les composants du système réel. La
relation entre le modèle et le système réel est assurée au moyen de jauges et
de services de traduction. Les jauges permettent l’évaluation des propriétés
en fonction des mesures au niveau du système. Les services de traduction,
eux, permettent d’interpréter les opérateurs au niveau de l’architecture et les
mapper aux opérateurs de réparation sur les composants du système en exécution.
La particularité du framework proposé est qu’il permet de choisir le style
architectural utilisé pour la définition du modèle du système. L’objectif est de
permettre d’utiliser le style qui correspond le mieux à l’architecture du système
géré et qui expose les propriétés qui correspondent le mieux aux aspects d’administration.
Des méthodes analytiques sont fournies pour la suggestion de
stratégies de réparation appropriées. Les stratégies définissent des règles de
réparation basées sur des opérateurs de haut niveau permettant l’adaptation
du modèle. Le framework proposé dans [53] permet la réparation d’un système
logiciel soumis à une haute variabilité. Il permet de surveiller le système pour
détecter les fonctions qui ont échoué pour reconfigurer le système dans un état
correct. La gestion de la réparation est basée sur un modèle d’objectifs composé
d’objectifs et de tâches, structurés sous forme de graphe. Le framework est
132.1. ADMINISTRATION AUTONOME
constitué de quatre composants : un composant de surveillance, un composant
d’analyse, un composant de reconfiguration et un composant d’exécution. Le
composant de surveillance collecte, à l’exécution, les données logs du système
géré. Ces données sont ensuite utilisées par le composant d’analyse pour identifier
en cas d’échec les objectifs et les tâches qui ont échoué et la source de
l’échec. Le composant de reconfiguration génère la meilleur configuration à
laquelle reconfigurer le système à la prochaine exécution. La nouvelle configuration
contient un ensemble de tâches dont la réussite de l’exécution mène à
la satisfaction de l’objectif global. La nouvelle configuration est transmise au
composant d’exécution. Ce dernier exécute des actions de compensation pour
restaurer le système dans un état précédent consistant, puis il reconfigure le
système en utilisant la nouvelle configuration calculée.
Auto-optimisation. Les approches proposées dans [1,12,46,49] implémentent
l’auto-optimisation. Ils permettent de réagir aux variations de l’environnement
de façon à obtenir un fonctionnement optimal du système administré. Le fonctionnement
optimal est généralement défini en fonction de critères de performance
et/ou de consommation de ressources. Ces approches permettent une
allocation dynamique de ressources aux applications administrées hébergées
sur une grappe de machines. En effet, une allocation statique peut mener à
un gaspillage de ressources. [12, 46, 49] ont proposé une politique d’approvisionnement
de ressources basée sur la charge de travail reçue en entrée. Ces
approches reposent sur une surveillance de la charge de travail ou de métriques
de qualités de service (SLA «Service Level Agreement») pour l’approvisionnement
dynamique de ressources dans un environnement non virtualisé ou
virtualisé. La ressource approvisionnée peut être du cpu, de la mémoire ou
une machine entière. Dans le cas de système basé sur la réplication, l’optimisation
est basée sur un mécanisme d’approvisionnement dynamique qui prend
en compte la charge de travail courante afin d’ajuster le nombre de serveurs
actifs en démarrant de nouveaux serveurs sur des machines disponibles, ou
en arrêtant des serveurs et les machines qui les hébergent quand ils ne sont
plus nécessaires. [1] propose ElastMan, un gestionnaire autonome pour l’élasticité
d’applications web dans un environnement de cloud computing. Il permet
l’approvisionnement et le retrait dynamique des ressources allouées à une ap-
14plication afin de garantir les objectifs de niveau de service requis (SLOs «Service
Level Objective») à un coût réduit. L’approche combine un contrôle prédictif et
un contrôle rétroactif. Le contrôle prédictif permet de détecter et de répondre
rapidement à des pics de charge. Le contrôle rétroactif permet de corriger l’écart
vis-à-vis de la qualité de service souhaitée.
Auto-protection. Le framework JADE a été proposé dans [26] pour implé-
menter l’auto-protection d’un système distribué. L’auto-protection est mise
en oeuvre en plaçant devant chaque élément logiciel du système un pare-feu.
Chaque pare-feu est configuré pour accepter les requêtes autorisées à être
traitées par le logiciel associé. Les pare-feux sont également configurés comme
détecteurs d’intrusions. En cas d’intrusion, JADE isole les éléments impactés
(e.g., les machines "infectées"). Il reconfigure de manière autonome l’architecture
du système en remplaçant les éléments impactés et en reconfigurant les
pare-feux grâce à un modèle de l’architecture du système maintenu à jour. JADE
construit une représentation, à base de composants, du système distribué à
administrer. Chaque élément administré du système est encapsulé dans un
composant. Le système distribué est administré comme une architecture à composants.
JADE est basé sur le modèle à composants Fractal [14] qui fournit
des fonctionnalités d’introspection et de reconfiguration dynamique. Chaque
composant implémente la même interface d’administration pour l’élément
qu’il encapsule. Cela permet de gérer de manière homogène les éléments à
administrer en évitant d’utiliser leurs interfaces d’administration complexes et
propriétaires.
JADE est un système d’administration autonome. Il permet d’ajouter des
comportements autonomes à des systèmes distribués (auto-protection [26],
auto-réparation [11] et auto-optimisation [10]). Les gestionnaires autonomes
agissent sur les interfaces fournies par les composants qui encapsulent les élé-
ments administrés pour surveiller et appliquer des opérations d’administration
sur le système réel à l’exécution. JADE permet d’ajouter plusieurs gestionnaires
autonomes sur un même système. Toutefois les gestionnaires s’exécutent de
manière indépendante sans aucune coordination. TUNe [13] est une amélioration
de JADE. Il permet de masquer la complexité liée à la maîtrise des API de
programmation du modèle à composants en fournissant un langage de descrip-
152.1. ADMINISTRATION AUTONOME
tion de l’architecture du système à administrer. Cependant la coordination des
gestionnaires n’est également pas traitée dans TUNe.
Auto-configuration. Cette propriété peut être considérée comme traitée dans
tous les travaux qui se sont intéressés à l’auto-administration et qui ont proposé
une implémentation. En effet, qu’il s’agisse d’optimisation, de réparation ou de
protection, une nouvelle configuration du système administré est générée et
appliquée à travers les actions d’administration.
2.1.3 Coordination de gestionnaires autonomes
Aujourd’hui beaucoup de gestionnaires autonomes sont disponibles. Cependant
chacun n’implémente qu’une partie des fonctions d’administration. Construire
un système entièrement autonome dans lequel toutes les fonctions
d’administration sont assurées requiert l’utilisation de plusieurs gestionnaires.
Cela permet une gestion complète des différents aspects d’administration. Leur
coexistence est rendue nécessaire par la difficulté de concevoir un gestionnaire
qui couvre toutes les fonctions d’administration.
2.1.3.1 Besoin de coordination
La coordination des gestionnaires autonomes permet d’éviter des incohérences
lors de l’administration d’un système. Individuellement chaque gestionnaire
a un comportement cohérent mais leur coexistence peut amener des
incohérences. Ils sont conçus indépendamment et n’ont généralement aucune
connaissance de leur coexistence. De ce fait ils ne peuvent pas distinguer les
changements causés par les phénomènes physiques (auxquels ils doivent réagir)
des changements causés par les actions d’administration des uns des autres sur
le système administré. Les actions d’un gestionnaire peuvent mener le système
dans un état dans lequel ses objectifs peuvent être atteints alors que ceux des
autres peuvent ne pas être atteints. Cela peut entraîner des actions de reconfiguration
en répétition sans garantir ultimement l’atteinte des objectifs de tous
les gestionnaires. Cela peut conduire à une instabilité du système administré.
162.1.3.2 Approches de coordination proposées
La coordination de gestionnaires autonomes a été étudiée dans plusieurs
travaux de recherche. Des approches ont été proposées pour implémenter et
mettre en oeuvre la coordination. Parmi les solutions proposées pour l’implé-
mentation de la politique de coordination figurent des fonctions d’utilité, des
fonctions d’optimisation, des protocoles de consensus et des règles (conditions/priorité).
Coordination basée sur une fonction d’utilité. Les approches proposées
par [20, 40] sont basées sur des fonctions d’utilité. La solution de coordination
proposée par [40], vManage, permet une gestion unifiée de la plate-forme
d’exécution physique et de l’environnement virtualisé dans un centre de données.
vManage comprend un service d’enregistrement, un service de proxy, des
coordinateurs et un stabilisateur. Les services d’enregistrement et de proxy permettent
la découverte et l’enregistrement des différents capteurs et actionneurs
disponibles. Le but est de faciliter l’utilisation de capteurs et d’actionneurs
divers, de différents constructeurs et d’unifier les dispositifs de surveillance et
de contrôle de la plate-forme et de l’environnement virtualisé. Les politiques
de gestion de l’environnement virtualisé basée sur l’état de la plate-forme
sont implémentées par un coordinateur connecté au gestionnaire du système
de virtualisation. Les politiques de gestion de la plate-forme basée sur l’état
de l’environnement virtualisé sont, quant à elles, implémentées par des coordinateurs,
et chacun est connecté à un gestionnaire de plate-forme exécuté
sur chaque serveur physique supportant l’environnement virtualisé. Les coordinateurs
utilisent les services d’enregistrement et de proxy pour accéder
aux données de surveillance générées par les capteurs, et pour appliquer les
politiques via les actionneurs. La stabilité est assurée par le stabilisateur qui
empêche les coordinateurs d’effectuer des actions redondantes et inutiles. L’é-
valuation de la stabilité est basée sur une fonction de distribution cumulative.
Cette dernière permet de calculer la probabilité que les serveurs physiques
continuent à fournir suffisamment de ressources aux machines virtuelles qu’ils
hébergent dans le futur durant une période de temps déterminée. Le prototype
de coordination proposé par [20] permet la gestion de la performance et de la
consommation énergétique dans un centre de données basé sur la répartition
172.1. ADMINISTRATION AUTONOME
de charge. Le prototype est basé sur des agents. Il comprend un agent responsable
de la gestion de la performance, un agent responsable de la gestion de la
consommation énergétique des serveurs et un agent de coordination. L’agent
responsable de la gestion de la performance s’occupe de la répartition de la
charge entre les différents serveurs actifs. L’agent responsable de la gestion de
la consommation énergétique s’occupe d’ajuster la puissance des serveurs. Les
actions de ces deux agents sont coordonnées par l’agent de coordination. La
politique de coordination est basée sur un modèle du système et une fonction
d’utilité multi-critères sur laquelle est basée le contrôle implémenté par l’agent
de coordination.
Coordination basée sur des règles. Parmi les approches basées sur des règles,
il y a [45] et [3]. La solution de coordination, VirtualPower, proposée par [45]
permet la gestion de la consommation énergétique des ressources physiques
en prenant en considération les politiques de gestion de ressources intégrées
dans les machines virtuelles. Le but est de coupler la gestion de la performance
au niveau des machines virtuelles et l’optimisation de l’énergie dans
un centre de données. VirtualPower assure la satisfaction des politiques de
gestion de ressources de machines virtuelles de manière indépendante et isolée
via l’hyperviseur. Elle permet également la gestion globale de la puissance
de calcul pour supporter l’environnement virtualisé en interprétant l’état des
machines virtuelles pour la prise de décision. Le framework Accord proposé
par [3] est basé sur les modèles à composants pour la construction d’applications
autonomes. Les applications autonomes sont formées par la composition
de composants autonomes qui intègrent des agents. Les agents implémentent
des règles d’administration. Les décisions conflictuelles entre les agents sont
résolus grâce à des priorités.
Coordination basée sur une fonction d’optimisation. Les approches proposées
dans [51] et [38] sont basées sur des fonctions d’optimisation. [51] propose
une extension de l’architecture GANA pour assurer la stabilité des boucles
de contrôle dans un réseau autonome. Le framework introduit un nouveau
module de synchronisation des actions (ASM). Ce module est intégré dans certains
des éléments de décision (gestionnaire autonomes) qui se chargeront de
18la coordination. Chaque module ASM gère une liste d’actions à synchroniser
et dont il est responsable. Chaque gestionnaire avant d’exécuter une action
consulte le module ASM responsable de l’action pour validation. Il connaît l’impact
de chacune des actions sur les métriques de qualité de service. Un ASM
sélectionne, parmi l’ensemble des actions à synchroniser, le sous-ensemble
d’actions à exécuter qui assure la stabilité locale et globale du réseau. Le choix
des actions à exécuter est formulé comme un problème d’optimisation basé
sur la programmation linéaire binaire. Des indicateurs de performance sont
définis, chacun avec un poids qui indique son importance. Un ASM choisit les
actions qui optimise l’ensemble des indicateurs de performance. [38] adresse
la stabilité dans un réseau autonome équipé de plusieurs boucles de contrôle.
Il identifie trois problèmes qui doivent être considérés pour la stabilité : l’interaction
des boucles de contrôle, la résolution de conflits entre les boucles de
contrôle et la synchronisation. La théorie des jeux est proposée pour l’étude de
la stabilité des comportements autonomes. La conception repose sur l’architecture
GANA qui permet une structuration hiérarchique des boucles de contrôle.
GANA permet également la résolution de conflits via un module, une fonction de
synchronisation des actions [51].
Coordination basée sur un consensus. Parmi les approches basées sur un
consensus, nous pouvons citer [2]. Elle propose un framework, LIBERO, qui
permet l’implémentation de modèle comportemental de type Pipeline et
Farm avec plusieurs gestionnaires autonomes coordonnés pour la gestion de
plusieurs aspects non fonctionnels. La coordination des gestionnaires repose sur
un consensus. Un gestionnaire qui planifie l’exécution d’une action demande la
validation de l’action par les autres gestionnaires.
2.1.4 Synthèse
Une administration autonome globale requiert plusieurs gestionnaires autonomes
pour couvrir tous les objectifs. Toutefois, la coordination des actions
exécutées par les gestionnaires est essentielle pour éviter des décisions con-
flictuelles et garantir la cohérence de l’administration. Des solutions de coordination
ont été proposées. Certaines solutions proposent des approches basées
sur des fonctions d’optimisation, des fonctions d’utilité, des priorités ou un
192.2. MODÈLES RÉACTIFS
consensus. Cependant, dans tous les cas, il y a un besoin de synchronisation et
de contrôle des actions des gestionnaires.
La coordination peut être considérée comme un problème de synchronisation
et de contrôle logique des actions d’administration. Une méthodologie
de conception est d’utiliser les techniques issues des systèmes réactifs et des
systèmes à événements discrets de la théorie du contrôle. Cette dernière est
la discipline classique pour la conception de contrôleurs automatiques. Elles
offrent des garanties sur le comportement du contrôleur vis-à-vis de propriétés
désirables.
2.2 Modèles réactifs
Les systèmes réactifs [33] sont des systèmes qui interagissent continuellement
avec leur environnement extérieur et au rythme imposé par ce dernier.
Ils sont généralement concurrents de nature. Ils évoluent en parallèle avec leur
environnement et ils sont souvent constitués de sous-systèmes évoluant en
parallèle. Ces systèmes implémentent des fonctions critiques dont la validation
de certaines propriétés de fonctionnement est requise avant la mise en exploitation.
L’implémentation d’un système réactif avec les langages de bas niveau est
souvent source d’erreurs et ne garantit pas la validation de propriétés sur le
comportement du système.
Parmi les solutions proposées pour l’étude et la conception de systèmes réactifs
figurent STATECHARTS [35], les réseaux de Pétri et les langages synchrones.
STATECHARTS est un formalisme basé sur les diagrammes d’états. Il fournit
des mécanismes pour représenter le parallélisme, la préemption et la hiérarchie.
Les réseaux de Pétri permettent la modélisation et l’analyse qualitative
de comportements parallèles, de synchronisation et de partage de ressources.
Quant aux langages synchrones, ils fournissent des méthodes formelles pour
la spécification de systèmes réactifs et disposent d’outils de vérification, de
synthèse de contrôleurs discrets [42] et de génération de code exécutable à
partir de la spécification. Nous basons notre travail sur ces langages.
202.2.1 Les langages synchrones
Les langages de programmation synchrone [5] sont des langages de haut
niveau introduits au début des années 80 pour la conception de systèmes réactifs.
Ils permettent une description de haut niveau du comportement d’un
système et d’aborder les notions de concurrence et de déterminisme. Ils permettent
une spécification formelle et disposent d’outils d’analyse offrant des
garanties à la compilation sur le comportement du système à l’exécution.
Les langages synchrones reposent sur une hypothèse appelée l’hypothèse
synchrone. L’hypothèse synchrone fournit un niveau d’abstraction où les réactions
– calculs et/ou communications – du système sont instantanées. Cela
permet la spécification du fonctionnement d’un système sans considérer les
contraintes liées à l’architecture sur laquelle il est exécuté. L’évolution est basée
sur la notion d’instant. Les événements internes et les événements de sortie sont
datés précisément en fonction du flux des événements en entrée. Cela facilite
au moment de la spécification de raisonner en temps logique sans tenir compte
des temps réels des calculs et des communications. Cela facilite également le
raisonnement par rapport aux aspects de déterminisme et de concurrence sur
le comportement du système souvent décrit comme la composition parallèle de
sous-systèmes.
Certains langages synchrones sont basés sur le modèle impératif. ESTEREL [7]
est un exemple de langage qui adopte ce modèle. D’autres sont basés sur le
modèle flot de données par exemple LUSTRE [34] et SIGNAL [6]. Dans le
modèle flot de données toute variable manipulée est un flot, c’est-à-dire une
séquence infinie de valeurs d’un même type. A chaque instant, une valeur est
associée à chaque variable. Il existe d’autres langages qui permettent de décrire
un système à base de modèles mixant des équations de flot de données et des
automates (les automates de mode [41]). C’est le cas des langages Heptagon [27]
et Heptagon/BZR [22, 24, 25].
Trans State
Out X
Y
FIGURE 2.2 – Système de transitions
212.2. MODÈLES RÉACTIFS
Toutefois, bien que basés sur des modèles différents, les programmes synchrones
implantent le même comportement de base illustré par la figure 2.2. A
chaque réaction, les valeurs des flux d’entrée X, ainsi que les valeurs courantes
de la mémoire, sont utilisées pour calculer l’état suivant (fonction Trans), mettre
à jour la mémoire (fonction State) et calculer les valeurs des flux de sortie Y
(fonction Out).
2.2.1.1 Heptagon/BZR
Heptagon/BZR 1
[22, 24, 25] est un langage de programmation appartenant
à la famille des langages synchrones. Il permet de décrire un système à base
de modèles mixant des équations de flot de données et des automates [41]. Ce
langage permet de décrire un système constitué de sous-systèmes par la composition
parallèle et hiérarchique [19] des modèles des différents sous-systèmes.
Les modèles évoluent en parallèle de manière synchrone : une réaction globale
implique une réaction locale de chacun des sous-modèles.
Inactive Attente
Active
req and not c/
req and c/
dem
fin/ c/ dem
active=False active=False
active=True
(active, dem) = tache_comp (c, req, fin)
FIGURE 2.3 – Modélisation avec Heptagon/BZR : Tâche différable
La Figure 2.3 présente un exemple simple de modélisation avec le langage
Heptagon/BZR. Le programme tache_comp modélise le comportement
contrôlable d’une tâche (e.g., un processus). L’activation de la tâche peut être
1. http://bzr.inria.fr
22node tache_comp(req, c, fin:bool)
returns (active, dem:bool)
let automaton
state Inactive do
active = false ;
dem = req and c
until dem then Active
| req and not c then Attente
state Attente do
active = false ;
dem = c
until dem then Active
state Active do
active = true ;
dem = false
until fin then Inactive
end
tel
FIGURE 2.4 – Modélisation avec Heptagon/BZR : programme BZR.
différée. Initialement la tâche n’est pas activée. Cet état est représenté dans
le modèle par l’état Inactive. Dans cet état, lorsque l’activation de la tâche
est demandée (req à vrai), si l’activation est autorisée (c à vrai) la tâche est
activée et passe dans l’état Active ; sinon l’activation est retardée en attente de
l’autorisation. L’attente de l’autorisation est représentée par l’état Attente.
La sortie dem indique le déclenchement de l’activation de la tâche dans le
système. La sortie active indique l’état de la tâche, elle est à vrai lorsque la
tâche est en cours d’exécution. La fin de l’activation de la tâche est représentée
par l’entrée fin à vrai. La figure 2.4 présente le programme Heptagon/BZR correspondant
à l’automate décrit dans la figure 2.3.
Heptagon/BZR, comme tous les autres langages synchrones, permet de mod-
éliser un système par la composition parallèle d’automates, illustrée par la
figure 2.5. Chaque automate décrit une partie, un sous-système, du système
global. Cela facilite la modélisation de systèmes de grande taille. Les états et les
transitions de l’automate produit de la composition est l’ensemble des combinaisons
d’états et de transitions possibles des automates composés en parallèle.
232.2. MODÈLES RÉACTIFS
A0
A1
not a/
a/
A
B0
B1
not b/
b/
B
A0B0
A1B0 A0B1
A1B1
not a. not b/
a. not b/ not a. b/
b/ a/
a.b/
(A||B)
=
FIGURE 2.5 – Exemple de composition parallèle
Toutefois la composition parallèle ne fait aucune synchronisation entre les automates
composés. La composition parallèle est appropriée pour la modélisation
du comportement parallèle de systèmes indépendants. Lorsque les systèmes
modélisés par les automates doivent communiquer ou se synchroniser les uns
avec les autres, la composition parallèle doit être utilisée avec l’encapsulation
de certains signaux (entrées/sorties des automates) dédiés.
1
2
not a/
a/b
A
X
Y
not b/
b/
B
b
1X
2Y
not a/
a
(A||B)\{b}
=
FIGURE 2.6 – Exemple d’encapsulation
L’encapsulation, illustrée à la figure 2.6, est une opération qui permet d’assurer
la synchronisation entre deux automates composés par une variable qui
est une sortie d’un des automates et une entrée pour l’autre. Dans cet exemple,
24la variable encapsulée est la variable b qui permet ainsi de synchroniser les
automates. Cependant, cette opération peut poser des problèmes de causalité
lorsque les automates communiquent de manière bidirectionnelle dans la même
réaction.
2.2.1.2 Implémentation des programmes synchrones
L’implémentation des programmes synchrones peut être soit matérielle soit
logicielle. Dans le cas d’une implémentation logicielle, le compilateur produit
un programme séquentiel exécutable dans un langage de programmation cible
(C ou Java). Ce sont en général des langages de programmation impératifs,
permettant une intégration aisée du code obtenu dans le système, d’où le choix
de langages largement utilisés et indépendants de la plate-forme d’exécution.
La génération de code en Java 2 produit une ou plusieurs classes Java avec une
classe principale. La classe principale, tout comme les autres classes, fournit un
constructor qui permet de créer une instance deux méthodes : reset et step. La
méthode reset ne prend aucun paramètre et permet d’initialiser l’état interne
global, e.g., les variables internes et les variables de sortie. La méthode step
implémente le comportement réactif et permet d’effectuer un pas d’exécution
global. Elle met à jour l’état interne et retourne un résultat qui correspond aux
sorties. Elle prend comme argument les entrées décrites dans le modèle global.
Le compilateur des langages synchrones produit un code transformationnel
ce qui implique qu’il doit être invoqué explicitement. La méthode step doit être
appelée explicitement avec les bonnes entrées et fréquemment pour obtenir
le comportement réactif. Le résultat produit par chacun des appels à la méthode
step doit également être interprété et exécuté. De ce fait, il est nécessaire
d’implémenter une interface [4] facilitant le dialogue avec la méthode step. A
l’exécution, cette interface collecte les valeurs à passer à la méthode step, fait les
invocations à la méthode et interprète le résultat retourné en terme d’actions
à exécuter. Il existe deux modèles pour la mise en oeuvre du comportement
réactif :
– Modèle général : Dans ce modèle, le comportement réactif est basé sur
l’occurrence des événements. Toute occurrence d’événement conduit à
l’invocation de la méthode step.
2. Nous utilisons le langage Java dans nos expérimentations
252.2. MODÈLES RÉACTIFS
– Modèle périodique : Dans ce modèle, le comportement réactif repose sur
une réaction par période. L’invocation de la méthode step est périodique.
Les événements sont collectés et conservés jusqu’à l’appel de la méthode.
Un exemple de branchement d’un programme synchrone est présenté
dans [8] pour le contrôle des pilotes de périphériques dans un système embarqué.
L’objectif est d’appliquer des politiques de reconfiguration des pé-
riphériques permettant une gestion globale de la consommation de l’énergie
du système. Ce travail montre un exemple d’intégration d’un programme
synchrone dans un système réel. Il montre comment le step est utilisé.
2.2.2 Synthèse de contrôleur discret (SCD)
Parmi les méthodes de conception et de validation, la synthèse de contrôleur
est l’une des plus séduisantes. Elle permet de raffiner une spécification incomplète
de manière à atteindre un certain objectif comme la satisfaction d’une
propriété non encore vérifiée par le système initial. La synthèse de contrôleur,
issue de la théorie du contrôle, permet d’obtenir une logique de contrôle par
construction [44]. Elle est basée sur des méthodes formelles pour la synthèse
du contrôleur assurant le respect de propriétés sur un système contrôlé. Elle
requiert un modèle du comportement du système à contrôler et une spécifi-
cation des propriétés exprimées en terme d’objectifs de contrôle, par exemple
l’invariance. Le modèle du système décrit de manière formelle tous les comportements
possibles, les comportements corrects et incorrects vis-à-vis des
propriétés désirées. Il décrit également la contrôlabilité du système. Le système
à contrôler, ainsi que les objectifs de contrôle, sont généralement modélisés au
moyen de systèmes de transitions étiquetés ou automates [48], et les langages
synchrones sont bien adaptés.
Principe. La synthèse de contrôleur construit une logique de contrôle, une
contrainte sur les valeurs des entrées contrôlables du système à contrôler, en
fonction de son état courant et des valeurs des entrées incontrôlables, de sorte
que tous les comportements autorisés satisfassent les propriétés définies comme
objectifs de contrôle. La logique de contrôle construite restreint le moins possi-
26ble le fonctionnement du système contrôlé.
Trans State
Out X
Y
X
X
U
c
Ctrlr
FIGURE 2.7 – Système de transitions contrôlé
La figure 2.7 présente un exemple où le système de transition de la figure
2.2 est le système à contrôler. Le système de transition prend en entrée
X = (Xu ∪ Xc
) à chaque réaction. Les entrées Xu sont incontrôlables alors que
les entrées Xc sont contrôlables. Le contrôleur (logique de contrôle) Ctrlr,
obtenu par synthèse de contrôleur, produit les valeurs à affecter aux variables
contrôlables Xc en se basant sur les valeurs des entrées incontrôlables Xu et l’état
courant du système afin d’assurer les objectifs de contrôle. Toutefois, il peut
arriver qu’il n’existe pas de solution si le système n’est pas assez contrôlable
par rapport aux objectifs de contrôle.
Le code exécutable correspondant au modèle contrôlé décrit à la figure 2.7
constitue un contrôleur réel. Il permet à l’exécution de contrôler le système
modélisé lorsqu’ils sont couplés.
2.2.2.1 Synthèse de contrôleur avec Heptagon/BZR
Heptagon/BZR intègre un outil de synthèse de contrôleur discret SIGALI 3
[44]
dans sa compilation. Il permet une utilisation facile de la synthèse de contrôleur
en introduisant la notion de contrat dans la modélisation de système. Le contrat
est décrit de manière déclarative [24]. Il est constitué de trois parties : assume,
enforce et with.
Le contrat contient les propriétés que le fonctionnement du système doit
respecter. Ces propriétés sont déclarées comme objectifs de contrôle dans la
3. http://www.irisa.fr/vertecs/Logiciels/sigali.html
272.2. MODÈLES RÉACTIFS
partie enforce. Lorsque le modèle qui décrit le fonctionnement du système à
contrôler ne garantit pas le respect des propriétés, Heptagon/BZR génère une
logique de contrôle qui permet d’assurer le respect des propriétés lorsque des
entrées contrôlables sont définies dans le modèle. Les variables contrôlables
dans le modèle du système sont déclarées comme variables locales contrôlables
dans la partie with du contrat. La logique de contrôle qui assure le respect
des propriétés détermine les valeurs à assigner à ces variables contrôlables
de sorte à restreindre le fonctionnement aux comportements qui satisfont les
propriétés. Les propriétés pertinentes concernant l’environnement d’exécution
sont déclarées dans la partie assume du contrat. Cette information est prise en
compte lors de la synthèse de la logique de contrôle.
(active1, dem1, active2, dem2) = deuxtaches(req1, fin1, req2, fin2)
assume true
enforce not (active1 and active2)
with c1, c2
(active1, dem1) = tache_comp1(c1, req1, fin1) ;
(active2, dem2) = tache_comp2(c2, req2, fin2)
FIGURE 2.8 – Heptagon/BZR contrat : exclusion mutuelle
La figure 2.8 présente un exemple de programme auquel est associé un
contrat. Ce programme modélise le contrôle de deux tâches. L’exécution de
chacune des tâches peut être retardée. Les deux tâches sont modélisées par
deux instances du programme à la figure 2.3. Le contrat associé à ce programme
consiste à n’autoriser l’activation d’une tâche que lorsque l’autre tâche n’est
pas en cours d’exécution. Les deux tâches ne doivent pas être actives en même
temps. De ce fait, l’objectif est de contrôler le démarrage de l’exécution des
tâches de sorte que les deux tâches ne soient pas actives en même temps. Cela
est exprimée par la propriété «not (active1 and active2)», avec active1 à vrai
(true) lorsque la tâche n1 est active et active2 à vrai (true) lorsque la tâche n2
est active. Cette propriété étant l’objectif de contrôle à garantir est déclarée
dans la partie enforce du contrat. Les variables c1 et c2, déclarées comme étant
contrôlables dans la partie with, vont être utilisées par la logique de contrôle
synthétisée pour empêcher l’activation de l’exécution d’une des tâches lorsque
l’autre est en cours d’exécution.
28A la compilation Heptagon/BZR invoque SIGALI pour la synthèse de la
logique de contrôle. Une fois la logique de contrôle générée, Heptagon/BZR l’intègre
dans le modèle et produit un programme exécutable. Ce dernier constitue
un contrôleur qui permet de contrôler l’exécution des deux tâches modélisées
pour respecter la propriété. Heptagon/BZR permet de produire une seule solution
de manière déterministe pour un problème de synthèse de contrôleur discret.
Le compilateur de Heptagon/BZR favorise, pour les variables contrôlables,
la valeur vrai (true) à faux (false) et en prenant en compte l’ordre de déclaration
des variables.
2.2.2.2 Synthèse modulaire avec Heptagon/BZR
La synthèse de contrôleur est de complexité exponentielle. Elle est basée sur
l’exploration de l’espace d’états [16, 44] pour construire la logique de contrôle.
Cela limite son passage à l’échelle concernant son application sur des modèles
de systèmes larges. La synthèse modulaire permet d’adresser des systèmes
larges et complexes. Elle permet une spécification décentralisée du contrôle
d’un système. Un système est généralement modélisé par la composition de
sous-modèles qui peuvent également être la composition de sous-modèles. La
synthèse modulaire exploite cette structure du système [43] pour réduire la
complexité en offrant la possibilité de définir dans chacun des sous-modèles
les objectifs de contrôle à assurer sur les comportements qu’il encode. Chaque
sous-modèle intègre une logique de contrôle qui assure le respect de propriétés
vis-à-vis de son contexte local, et le respect de propriétés globales vis-à-vis de
sa composition avec d’autres sous-modèles.
(...) = node(...)
assume A enforce G
with c11, ..., c1q
, ..., cn1, ..., cnp
(...) = subnode1(c11...c1q
, ...)
assume A1 enforce G1
...
; . . . ;
(...) = subnoden(cn1...cnp, ...)
assume An enforce Gn
...
FIGURE 2.9 – Synthèse modulaire avec Heptagon/BZR.
292.2. MODÈLES RÉACTIFS
La figure 2.9 présente un exemple graphique de la spécification modulaire
du contrôle en Heptagon/BZR. Chaque sous-modèle, subnodei
, inclut un contrat
qui contient des objectifs de contrôle Gi à assurer localement. Le modèle global
node inclut un contrat qui contient les objectifs de contrôle global G à assurer
sur l’ensemble. Le contrat de node utilise les entrées contrôlables cij des sousmodèles
subnodei comme variables contrôlables pour assurer le respect des
objectifs globaux.
Principe. La synthèse modulaire dans Heptagon/BZR est basée sur l’utilisation
des contrats des sous-modèles comme abstraction de leurs comportements. [24]
et [21] fournissent une description formelle détaillée de cette approche. Néanmoins
nous décrivons le principe à travers l’exemple présenté à la figure 2.9.
La synthèse modulaire permet de construire indépendamment la logique de
contrôle à intégrer dans chaque sous-modèle subnodei
. La synthèse ne dépend
que des entrées et du comportement qu’il encode (section 2.2.2) en plus des
objectifs de contrôle. Lorsqu’une partie des objectifs de contrôle Gi définis dans
le contrat d’un sous-modèle subnodei concerne l’application du contrôle reçu
via ses entrées contrôlables cij, alors la logique de contrôle construite pour ce
modèle assure le respect du contrôle externe.
Lors de la réutilisation d’un sous-modèle dans un contexte global, comme
node, son contrat offre une garantie de l’application du contrôle externe du
comportement qu’il encode. Cela permet d’utiliser le contrat comme abstraction
du comportement. De ce fait pour la construction la logique de contrôle pour le
modèle global node, on peut supposer, en plus de A, le respect du contrôle appliqué
sur chaque sous-modèle subnodei via ses entrées contrôlables cij pourvu
que la supposition Ai définie dans son contrat soit respectée : Vn
i=1
(Ai =⇒ Gi).
Par conséquent il n’est plus nécessaire de parcourir les comportements encodés
dans les sous-modèles pour la synthèse de la logique de contrôle pour le mod-
èle node. Cela présente comme avantage la diminution de la taille de l’espace
d’états à explorer pour le modèle global. Le problème de synthèse consiste alors
à construire une logique de contrôle qui assure le respect de G et aussi le respect
de Vn
i=1 Ai
.
Nous détaillons dans le chapitre suivant comment les objectifs associés aux
30entrées de contrôle sont définis dans le contrat d’un modèle dans le cadre de ce
travail de thèse.
Réduction de la complexité. La synthèse modulaire permet d’appliquer la
synthèse sur des modèles simples avec peu d’états à explorer et de les composer
de manière modulaire et hiérarchique. Elle offre également la possibilité d’appliquer
la synthèse sur les compositions de modèles en considérant le contrat
des sous-modèles comme abstraction des comportements qu’ils encodent. Cela
diminue le nombre d’états à explorer par synthèse et par conséquent réduit la
complexité.
La synthèse est appliquée sur chacun des modèles de manière indépendante
que ce soit un modèle simple ou une composition. La synthèse modulaire sur
une composition requiert uniquement le contrat défini dans les sous-modèles.
Ainsi l’application de la synthèse modulaire sur un modèle global ne nécessite
pas l’application de la synthèse modulaire sur les sous-modèles qui le constituent.
Une fois qu’une logique de contrôle est générée pour un modèle, il
n’est plus nécessaire, lors de sa réutilisation, d’appliquer à nouveau la synthèse
sur ce modèle à moins que ce dernier ait subi des modifications.
Cependant l’abstraction des détails internes des sous-modèles diminue les
solutions possibles qui peuvent être construites pour un problème donné, comparé
à l’approche monolithique. De plus, comme pour la synthèse monolithique,
il peut arriver qu’il n’existe pas de solution également dans le cas de la synthèse
modulaire.
Réutilisation de code exécutable. La compilation des modèles est également
effectuée de manière modulaire. La logique de contrôle qui satisfait les
objectifs de contrôle d’un modèle est construite et intégrée dans le modèle ;
et le code exécutable correspondant à l’ensemble est généré. Le code reste inchangé
et réutilisable tel quel dès lors que la spécification ne change pas. La
recompilation n’est nécessaire que si la spécification change.
2.2.3 Synthèse
La synthèse de contrôleur discret (SCD) permet de construire un contrôleur
qui, mis en parallèle avec le système qu’on veut contrôler, le restreint aux
312.3. CONCLUSION
comportements qui satisfont les propriétés désirées. Son application requiert
une modélisation du système à contrôler et une spécification des propriétés à
garantir qui sont exprimées sous forme d’objectifs de contrôle. Généralement le
système est décrit par un système de transition ou un automate avec des langages
de haut niveau comme les langages synchrones. Ces langages permettent
une description formelle du comportement d’un système sous forme d’automate
(aspects fonctionnels et/ou non fonctionnels). Ils permettent de modéliser
un système par la composition parallèle et hiérarchique de modèles simples. Ils
fournissent des compilateurs puissants qui permettent la génération automatique
de code exécutable à partir de la spécification du système. Cela permet de
réduire l’écart entre la spécification d’un système et son implémentation.
La synthèse modulaire permet une spécification décentralisée en offrant la
possibilité d’appliquer la synthèse sur des modèles simples avec peu d’états
à explorer et de les composer de manière modulaire et hiérarchique. Elle offre
également la possibilité d’appliquer la synthèse sur les compositions de
modèles en considérant le contrat des sous-modèles comme abstraction des
comportements qu’ils encodent. Cela permet de diminuer le nombre d’états à
explorer par synthèse et par conséquent réduit la complexité.
2.3 Conclusion
L’automatisation des fonctions d’administration des systèmes informatiques
est un sujet qui suscite encore beaucoup d’intérêt en recherche. Les travaux déjà
effectués démontrent sa faisabilité à travers différentes expérimentations. Aujourd’hui
de nombreux gestionnaires autonomes sont implémentés et assurent
de façon cohérente les fonctions d’administration ; mais aucun n’assure une
administration complète. Cela rend leur coexistence nécessaire pour une administration
globale. Toutefois la coordination de leur coexistence est importante
pour assurer une administration cohérente. Beaucoup de travaux de recherche
se sont intéressés à la coordination de gestionnaires autonomes. Différentes
approches ont été proposées et évaluées à travers des expérimentations. Cependant
nous remarquons que toutes ces approches de coordination requièrent la
32synchronisation des gestionnaires et le contrôle de leurs actions, et ces aspects
ont été largement étudiés en théorie du contrôle discret.
La théorie du contrôle et les outils qui en résultent ont récemment commencé
à être utilisés pour les systèmes informatiques. La plupart des cas d’utilisation
reposent sur des modèles continus ; généralement pour traiter des aspects
quantitatifs [36, 37, 47]. Des utilisations plus récentes reposent sur des modèles
de la famille des systèmes à Événements Discrets [16] sur lesquels des propriétés
logiques sont étudiées. Ils utilisent les notions de contrôle supervisé [48],
généralement pour garantir des propriétés logiques ou à des fins de synchronisation
[52]. Le contrôle discret est basé sur des modèles sous la forme de
systèmes de transitions, comme les réseaux de Petri ou automates. Il fournit des
langages de haut niveau, comme les langages synchrones, pour la spécification
formelle de système ; et des outils de vérification et de synthèse de contrôleur.
Dans ce travail de thèse, nous nous intéressons à l’application des techniques
issues de la théorie du contrôle pour la coordination de gestionnaires
autonomes. Nous utilisons la synthèse de contrôleur discret pour la construction
automatique de contrôleur de coordination. La construction du contrôleur
est basée sur le modèle de la coexistence des gestionnaires et une spécification
de contrôle. Nous utilisons la programmation synchrone pour la modélisation
des gestionnaires et de leur coexistence (coordonnée par SCD) et pour
l’implémentation en Java du contrôleur de coordination.
332.3. CONCLUSION
343
Méthodologie de coordination de gestionnaires
autonomes
Contents
3.1 Spécification de la coordination . . . . . . . . . . . . . . . . . 36
3.1.1 Modélisation d’un gestionnaire autonome . . . . . . . 36
3.1.1.1 Comportement . . . . . . . . . . . . . . . . . . 37
3.1.1.2 Contrôlabilité . . . . . . . . . . . . . . . . . . . 38
3.1.2 Modélisation de la coordination . . . . . . . . . . . . . 39
3.1.2.1 Modélisation de la coexistence . . . . . . . . . 39
3.1.2.2 Spécification d’une stratégie de coordination 40
3.1.3 Modélisation modulaire de la coordination . . . . . . . 41
3.1.3.1 Contrôle décentralisé . . . . . . . . . . . . . . 41
3.1.3.2 Spécification modulaire et hiérarchique . . . . 42
3.2 Mise en oeuvre de la coordination . . . . . . . . . . . . . . . . 44
3.2.1 Le modèle à composants Fractal . . . . . . . . . . . . . 44
3.2.1.1 Composant Fractal . . . . . . . . . . . . . . . . 44
3.2.1.2 Introspection et reconfiguration . . . . . . . . 46
3.2.1.3 Fractal ADL . . . . . . . . . . . . . . . . . . . 46
3.2.2 Composant de gestionnaire autonome . . . . . . . . . . 47
3.2.3 Coordination à base de composants . . . . . . . . . . . 48
3.2.3.1 Coordination de gestionnaires . . . . . . . . . 48
3.2.3.2 Coordination hiérarchique . . . . . . . . . . . 50
353.1. SPÉCIFICATION DE LA COORDINATION
3.3 Comparaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Ce chapitre détaille notre méthodologie pour la coordination de gestionnaires
autonomes. Notre approche est basée sur l’utilisation de méthodes et de
techniques issues du contrôle discret. Nous utilisons la technique de synthèse
de contrôleur discret. Cette dernière permet de construire automatiquement
un contrôleur qui est capable de restreindre le comportement d’un système
pour garantir le respect de spécifications logiques de fonctionnement. La synthèse
de contrôleur discret est basée sur un modèle du système à contrôler et
une spécification des objectifs de contrôle désirés. Pour la modélisation, nous
utilisons la programmation synchrone qui fournit des langages de haut niveau
facilitant la spécification formelle de système. Elle fournit également des outils
de vérification et de génération de code exécutable.
Dans ce travail le système à contrôler est un système d’administration constitué
de plusieurs gestionnaires autonomes indépendants. Le contrôle consiste à
restreindre le comportement des gestionnaires afin de garantir la cohérence des
actions d’administration appliquées sur le système qu’ils administrent. Pour
la mise en oeuvre du contrôle des gestionnaires, nous adoptons les modèles à
composants. Nous utilisons le modèle à composants Fractal, plus précisément
l’implémentation Java, Julia [15].
3.1 Spécification de la coordination
La coordination repose sur la connaissance du comportement des gestionnaires,
de leurs fonctionnalités contrôlables, et des événements pertinents
auxquels ils réagissent. Le comportement des gestionnaires doit être observable
et contrôlable à l’exécution pour permettre de contrôler leurs actions.
3.1.1 Modélisation d’un gestionnaire autonome
Nous modélisons le comportement observable et contrôlable de chaque
gestionnaire autonome, avec un niveau d’abstraction qui présente les états
et transitions pertinents pour le problème de contrôle – la coordination. Le
36modèle d’un gestionnaire expose des variables contrôlables. Ces dernières
correspondent aux points de choix sur le comportement du gestionnaire ; c’est à
travers eux qu’un contrôle peut être appliqué pour faire respecter une politique
de coordination. Pour modéliser le comportement d’un gestionnaire, nous
utilisons la programmation synchrone. Nous modélisons le comportement de
chaque gestionnaire indépendamment des autres.
3.1.1.1 Comportement
Le comportement d’un gestionnaire est modélisé à base d’automates. Chaque
état du modèle décrit une situation dans laquelle le gestionnaire est dans
un mode d’exécution défini, e.g., exécute des actions de reconfiguration ou
surveille l’état du système administré. Les transitions correspondent, quant
à elles, aux changements d’états du gestionnaire suite à l’occurrence d’événements
auxquels il réagit. Chaque transition est étiquetée avec les événements en
entrée qui l’activent et les actions en sortie produites par le gestionnaire. Dans
les modèles à base d’automates, les réactions sont considérées instantanées.
Cependant, dans un gestionnaire, une réaction implique l’exécution d’une (ou
plusieurs) action non instantanée. De ce fait, nous ne considérons pas toujours
l’exécution d’une action comme instantanée. Elle l’est ou pas selon sa pertinence
dans la description du comportement du gestionnaire. Lorsqu’elle n’est pas
considérée instantanée, elle sera alors représentée par un état distinct dans le
modèle du gestionnaire.
E1 E2
e1/ ac
e2/ al
nl/
(ac, al) = mgr (e1, e2, nl)
FIGURE 3.1 – Comportement d’un gestionnaire
373.1. SPÉCIFICATION DE LA COORDINATION
La figure 3.1 présente un exemple simple de modèle du comportement d’un
gestionnaire. Le gestionnaire a deux états représentés par E1 et E2. Initialement
il est dans l’état E1. Dans cet état, le gestionnaire réagit en présence de
l’événement e1 en produisant l’action courte ac en réponse. En présence de
l’événement e2, il réagit en produisant l’action al, qui est une action longue, et
se met dans l’état E2. L’état E2 représente l’exécution de l’action al qui n’est
pas considérée instantanée contrairement à l’exécution de l’action ac. A la fin
de l’exécution de l’action al, représentée par la présence de l’événement nl de
notification de fin d’exécution de l’action al, le gestionnaire retourne dans l’état
E1.
3.1.1.2 Contrôlabilité
Nous définissons la contrôlabilité d’un gestionnaire comme la capacité à
autoriser ou inhiber ponctuellement certaines de ses actions suite à l’occurrence
d’événements auxquels il réagit. Dans le modèle d’un gestionnaire, la contrôlabilité
est représentée par des entrées de contrôle associées aux transitions. Ainsi
pour décrire une transition contrôlable, nous lui ajoutons une entrée de contrôle.
Selon la valeur affectée à cette entrée, la transition sera autorisée ou non en
présence de l’événement qui l’active. Le contrôle d’un gestionnaire nécessite
également que son état soit observable. Cette propriété est représentée, dans le
modèle, par des variables d’état qui indiquent l’état courant du gestionnaire.
E1
s=False
E2
s=True
c1 and e1/ ac
c2 and e2/ al
nl/
(ac, al, s) = ctrl_mgr (c1, e1, c2, e2, nl)
FIGURE 3.2 – Gestionnaire contrôlable
La figure 3.2 présente le modèle qui décrit la contrôlabilité du comportement
38du gestionnaire présenté dans la figure 3.1. Les entrées c1 et c2 représentent
les entrées contrôlables du gestionnaire. Elles permettent, respectivement, le
contrôle des actions ac et al du gestionnaire. L’état courant du gestionnaire est
indiqué par la variable d’état s. Cette dernière est à vrai lorsque l’action al est
en cours d’exécution.
3.1.2 Modélisation de la coordination
La composition des modèles des gestionnaires autonomes reflète leur coexistence
non coordonnée. Pour modéliser la coordination de la coexistence
des gestionnaires, nous associons un contrat à la composition des modèles
des gestionnaires à coordonner. Ce contrat décrit les objectifs de contrôle – la
politique de coordination – à atteindre sur la composition. Grâce à ce contrat,
la synthèse de contrôleur pourra être appliquée pour construire automatiquement
une logique de contrôle qui est capable d’agir sur les points de choix des
modèles des gestionnaires pour respecter la politique de coordination. La composition
des modèles des gestionnaires autonomes couplée avec la logique de
contrôle, ensemble elles vérifient la politique de coordination. Elles modélisent
la coordination des gestionnaires.
3.1.2.1 Modélisation de la coexistence
Les modèles des gestionnaires constituent les briques du modèle de leur
coexistence. La composition des modèles des gestionnaires décrit l’ensemble
des comportements possibles lors de la coexistence des gestionnaires. Elle comprend
les comportements cohérents ainsi que les comportements incohérents
qui peuvent conduire le système qu’ils administrent dans un état inconsistant.
(s1, s2, ac1, ac2, ...) = comp_mgrs (c11, e11, c21, e21, ...)
(ac1, al1, s1) = ctrl_mgr1 (c11, e11, c12, e12, nl1)
(ac2, al2, s2) = ctrl_mgr2 (c21, e21, c22, e22, nl2)
FIGURE 3.3 – Modèle de la coexistence de gestionnaires
393.1. SPÉCIFICATION DE LA COORDINATION
La Figure 3.3 présente un exemple de modèle de la coexistence de deux
gestionnaires. Nous composons deux instances du modèle présenté à la figure
3.2. Cette composition exhibe l’ensemble des états observables s, l’ensemble
des événements e auxquels réagissent les gestionnaires, l’ensemble des actions
a, mais également l’ensemble des entrées de contrôle c disponibles pour le
contrôle des gestionnaires. Toutefois, aucune stratégie de coordination n’est
encore définie dans ce modèle global. Tous les comportements sont possibles.
3.1.2.2 Spécification d’une stratégie de coordination
La stratégie de coordination est exprimée sous forme de contrat associé
au modèle global qui décrit la coexistence de gestionnaires autonomes à coordonner.
Le contrat contient un ensemble d’objectifs de contrôle. Le respect
de ces objectifs de contrôle est assuré en agissant sur les entrées de contrôle
disponibles sur les modèles des gestionnaires. Ces entrées correspondent aux
points de choix qui permettent de contrôler les actions des gestionnaires. Elles
sont déclarées comme variables locales contrôlables dans le contrat.
(s1, ac1, . . .) = controle_comp_mgrs (e11, . . .)
assume true
enforce not (s1 and s2)
with c11, c21, ...
(s1, s2, ac1, ac2, . . .) = comp_mgrs(c11, e11, c21, e21, . . .)
...
FIGURE 3.4 – Spécification de stratégie de coordination
La figure 3.4 présente un exemple de spécification de contrat pour le modèle
de la figure 3.3. Dans cet exemple, l’objectif de contrôle défini dans le contrat
est : « not (s1 and s2) ». Il empêche le gestionnaire mrg2 d’exécuter l’action
ac2 lorsque le gestionnaire mgr1 est dans l’état s1 à vrai (true) et réciproquement.
Les variables contrôlables cij sont déclarées comme points de contrôle
sur lesquels agir pour garantir le contrat.
Lorsque le modèle est compilé, la logique de contrôle qui garantit le respect
40de l’objectif déclaré est automatiquement construite si cela est possible. Une
fois construite, la logique de contrôle est intégrée dans le modèle. La compilation
produit un programme exécutable, par exemple en Java. Ce programme
correspond au couplage de la logique de contrôle avec le modèle non coordonné.
Il constitue un contrôleur qui permet de respecter l’objectif de contrôle
à l’exécution réelle.
3.1.3 Modélisation modulaire de la coordination
Le passage à l’échelle des techniques de SCD est limité par la taille du mod-
èle du système à contrôler et par la spécification des objectifs de contrôle. La
SCD est basée sur l’exploration de l’espace d’états pour construire le contrôleur.
Pour faciliter le passage à l’échelle de notre approche, nous utilisons la synthèse
modulaire. Pour un système large, cela permet de casser la complexité
de la synthèse de contrôleur. Nous utilisons cette technique pour coordonner
les gestionnaires autonomes par petit nombre, et construire un contrôle
hiérarchique.
3.1.3.1 Contrôle décentralisé
L’application monolithique de la synthèse de contrôleur sur un modèle
de grande taille pourrait ne pas aboutir à un résultat. Comme le montre la
figure 3.5, cette approche consiste à centraliser le contrôle en définissant un
unique contrat qui contient l’ensemble des objectifs de contrôle à assurer. Ce
contrat est associé au modèle global du système qui peut être de grande taille.
(si, ai, . . .) = controle_system (ei, . . .)
enforce V
Obji
with ci
(s1i, a1i, . . .) = sub_system1
(c1i, e1i, . . .)
(sNi, aNi, . . .) = sub_systemN(cNi, eNi, . . .)
...
FIGURE 3.5 – Spécification monolithique du contrôle
413.1. SPÉCIFICATION DE LA COORDINATION
Un système est généralement constitué de plusieurs sous-ensembles (e.g,
plusieurs gestionnaires autonomes), de ce fait il est modélisé par la composition
modulaire et hiérarchique des modèles de ses sous-ensembles. L’approche modulaire
de la synthèse de contrôleur tire profit de cette structure pour permettre
de décentraliser la spécification du contrôle.
(si, ai, . . .) = controle_system (ei, . . .)
enforce V
Obj0
with c
0i
(s1i, a1i, . . .) = controle_sub_system1
(c
01i, e1i, . . .)
enforce V
Obj1i with c1i
(s1i, a1i, . . .) = sub_system1
(c1i, e1i, . . .)
(sNi, aNi, . . .) = controle_sub_systemN(c
0Ni, eNi, . . .)
enforce V
ObjNi with cNi
(sNi, aNi, . . .) = sub_systemN(cNi, eNi, . . .)
enforce
with ... enforce
with
FIGURE 3.6 – Spécification modulaire du contrôle
Au lieu de garantir l’ensemble des objectifs par un unique contrôleur, un
ensemble de contrôleurs est construit. Chaque contrôleur assure une partie de
l’ensemble des objectifs. Chacun de ces contrôleurs est construit indépendamment
des autres et intégré dans le modèle global. Comme le montre la figure 3.6,
la spécification du contrôle est faite de manière modulaire et hiérarchique.
Chaque objectif de contrôle qui concerne exclusivement un sous-ensemble est
associé au modèle du sous-ensemble. Un contrôleur local est construit pour
chaque modèle qui a un contrat.
3.1.3.2 Spécification modulaire et hiérarchique
Pour pouvoir appliquer la synthèse modulaire, il est nécessaire que les
modèles avec un contrat puissent être réutilisables tels quels. Ces modèles
doivent également permettre d’étendre les objectifs de contrôle définis dans
leur contrat. De plus, tout cela doit être possible sans changer l’implémentation
des contrôleurs obtenus de ces modèles. Pour cela, un modèle avec un contrat
doit exposer des entrées qui permettent de recevoir des ordres de contrôle
42supplémentaire. En plus des objectifs de contrôle local, le contrat défini dans le
modèle doit également contenir des objectifs de contrôle garantissant le respect
des ordres extérieurs reçus.
Extension de la contrôlabilité. Dans l’approche monolithique de la synthèse
de contrôleur, les entrées contrôlables du modèle du système à contrôler sont
déclarées comme variables contrôlables dans le contrat. Elles ne sont pas visibles
à l’extérieur du modèle contrôlé du système. Pour réutiliser un modèle
contrôlé, il est nécessaire que ces entrées contrôlables soient accessibles pour
appliquer un contrôle supplémentaire non défini dans le contrat de ce dernier.
L’extension de la contrôlabilité d’un modèle de coordination de gestionnaires
autonomes consiste à exposer des entrées de contrôle supplémentaires c
0
i
,
et à ajouter des objectifs de contrôle Obj0
i
associés à ces entrées dans le contrat.
Ces entrées permettent ultérieurement à un contrôleur de niveau supérieur
de transmettre des ordres de contrôle au contrôleur obtenu. Chaque entrée
de contrôle c
0
i
correspond au contrôle d’une action ai des gestionnaires coordonnés.
Les objectifs de contrôle Obj0
i
, autres que ceux définis pour la stratégie
de coordination locale, garantissent l’application du contrôle reçu via ces entrées
de contrôle. Ces objectifs supplémentaires doivent explicitement figurer
dans le contrat. L’objectif de contrôle Obj0
i
qui permet de garantir l’inhibition
d’une action ai
lorsqu’elle est sollicitée via c
0
i
est formulé comme suit :
(¬c
0
i ⇒ ¬ai
). Selon la nature de l’action (courte/instantanée ou longue), l’objectif
se traduit différemment. Pour les actions courtes, il est traduit directement
par : Obj0
i = (c
0
i
or not ai). Pour une action longue, l’objectif est traduit d’une
manière différente : Obj0
i = LongActions(c
0
i
, ai
,si).
LongActions(c
0
i
, ai
,si)
def =
(c’i or not ai) and
not (false fby si) and not ai
⇒ not si
Dans cette expression nous ajoutons le fait que l’exécution d’une action
longue ne peut être empêchée que si elle n’est pas déclenchée à l’instant précé-
dent. En effet durant l’exécution d’une action longue, tout ordre d’inhibition de
cette action ne peut concerner l’exécution en cours. L’exécution d’une action
433.2. MISE EN OEUVRE DE LA COORDINATION
longue ai ne peut être empêchée par c
0
i
que si elle n’est pas déclenchée à l’instant
précédent : (not (false fby si))
1
. De ce fait si l’action ai n’est pas activée ni
à l’instant précédent (not (false fby si)) ni à l’instant courant (not ai
) alors
l’action ne sera pas exécutée à cet instant (not si
).
Ces deux expressions sont définies de façon générique et peuvent être
réutilisées comme des patterns sans avoir à en redéfinir d’autres.
3.2 Mise en oeuvre de la coordination
Pour la mise en oeuvre de la coordination de gestionnaires autonomes,
nous utilisons le modèle à composants. Les modèles à composants fournissent
un ensemble de fonctionnalités qui permettent la construction de systèmes
complexes avec des capacités d’introspection et de reconfiguration dynamique.
Notre approche est basée sur le modèle à composants Fractal.
3.2.1 Le modèle à composants Fractal
Le modèle à composants Fractal [14] a été défini par France Telecom R&D
et l’INRIA en 2004. L’objectif de ce modèle est de permettre la construction,
le déploiement et l’administration (e.g. observation, contrôle, reconfiguration
dynamique) de systèmes logiciels complexes. Il est associé à un langage de
description d’architecture, Fractal ADL. Ce dernier est basé sur une syntaxe
extensible, et permet de construire des assemblages de composants Fractal.
Fractal a été implémenté dans différents langages de programmation comme
Java, C, C++.
3.2.1.1 Composant Fractal
L’unité de structuration dans le modèle Fractal est le composant. Un composant
est une entité d’exécution qui expose un ensemble d’interfaces. Une
interface est un point d’accès au composant. Il existe deux catégories d’interfaces
: les interfaces serveurs et les interfaces clients. Les interfaces serveurs
correspondent aux services fournis par le composant. Elles permettent de faire
1. fby est un opérateur Heptagon qui introduit un délai avec une valeur initiale : v fby x
représente la valeur précédente de x, initialisé avec v au premier instant.
44membrane
contenu
Interfaces de controle
interface
client
interfaces
serveur
FIGURE 3.7 – Composant Fractal
des appels de méthodes du composant. Les interfaces clients correspondent
aux services requis par le composant. Elles permettent au composant d’émettre
des appels de méthodes. Comme le montre la figure 3.7, un composant expose
également des interfaces non fonctionnelles, contrôleurs, qui permettent à l’exé-
cution, son administration et celle des services qu’il contient (démarrage, arrêt,
configuration, etc.). L’ensemble des interfaces fonctionnelles et non fonctionnelles
constitue la membrane du composant.
FIGURE 3.8 – Composant composite
453.2. MISE EN OEUVRE DE LA COORDINATION
Ce modèle distingue généralement deux types de composants : les composants
primitifs qui encapsulent généralement les services et les composants
composites. Comme le montre la figure 3.8, un composant composite contient
d’autres composants primitifs et/ou composites.
3.2.1.2 Introspection et reconfiguration
Les capacités réflexives d’un composant sont assurées par des contrôleurs.
Ces contrôleurs implémentent des fonctions permettant l’introspection, la reconfiguration,
et l’interception de flux (entrée/sortie). Le modèle à composants
Fractal fournit quelques contrôleurs par défaut. Parmi ces contrôleurs, figurent :
– Un contôleur d’attributs qui fournit les méthodes permettant l’accès et le
contrôle des attributs d’un composant.
– Un contrôleur de liaisons qui fournit des méthodes pour contrôler les
liaisons (bind,unbind) du composant avec d’autres composants, et de
consulter, modifier l’état des liaisons.
– Un contrôleur de cycle de vie qui fournit des méthodes pour contrôler
les principales phases comportementales du composant (ex. démarrage
(start)/arrêt (stop)).
– Un contrôleur de contenu qui fournit des méthodes permettant de consulter
le contenu d’un composant composite et d’ajouter/retirer des souscomposants.
Le modèle est cependant extensible et ne contraint pas la nature des contrôleurs
contenus dans les composants. Il est possible d’adapter le contrôle
associé aux composants. Le modèle permet de modifier ou de développer de
nouveaux contrôleurs en fonction des besoins.
3.2.1.3 Fractal ADL
Le modèle à composants Fractal fournit un langage de description d’architecture
appelé Fractal ADL, basé sur la syntaxe XML. Fractal ADL permet
la description de la structure d’application construite à partir de composants
46Fractal. Il fournit des constructions de base pour énumérer des composants,
des interfaces, des liaisons et laisse aux développeurs la possibilité d’étendre le
langage pour intégrer d’autres informations spéficiques à leur cas d’utilisation.
Il permet la description d’une architecture sur plusieurs fichiers distincts.
3.2.2 Composant de gestionnaire autonome
Nous utilisons le modèle à composants pour implémenter les aspects nonfonctionnels
nécessaires pour la gestion des gestionnaires. Cela permet d’ajouter
des fonctions de surveillance et de contrôle pour les gestionnaires autonomes
déjà conçus et qui ne fournissent pas explicitement ces fonctions. Cela permet
également de séparer l’implémentation d’un gestionnaire (les fonctions
d’administration) et l’implémentation du contrôle de ce dernier. Ainsi la spéci-
fication et l’implémentation du contrôle du gestionnaire peuvent être modifiées
sans impacter l’implémentation des fonctions d’administration. Chaque gestionnaire
est encapsulé dans un composant Fractal comme le montre la figure 3.9.
m AM a
s c
FIGURE 3.9 – Composant de gestionnaire contrôlable
Implémentation de l’interface de coordination. Nous implémentons une interface
de contrôle qui exhibe les fonctions de contrôle disponibles sur les
gestionnaires lorsque ces fonctions sont explicitement définies. Cette interface
de contrôle expose les informations s sur l’état du gestionnaire par rapport
au contrôle appliqué sur son comportement. Elle fournit également des informations
sur les événements m auxquels le gestionnaire réagit. Elle permet
également d’appliquer les opérations de coordination concernant le gestionnaire
à travers ses entrées c de contrôle qui permettent d’autoriser ou d’inhiber
473.2. MISE EN OEUVRE DE LA COORDINATION
les actions a que le gestionnaire peut exécuter. Pour les gestionnaires n’ayant
pas de fonctions de contrôle, nous utilisons les contrôleurs par défaut dans
Fractal pour implémenter leur contrôle.
3.2.3 Coordination à base de composants
3.2.3.1 Coordination de gestionnaires
Une fois les composants de gestionnaires construits, ces derniers sont assemblés
dans un composant composite, comme le montre l’exemple dans la
figure 3.10. Le composant composite coordonne leur exécution grâce au contrôleur
de coordination obtenu par synthèse. Ce dernier agit sur les interfaces
de coordination disponibles sur les composants de gestionnaires.
m1 AM1
a1
s1 c1
m2 AM2
a2
s2 c2
ctrlr
s1,2 c1,2
m1,2 a1,2
FIGURE 3.10 – Composants de gestionnaires coordonnés
AMi
ctrlr
mi
ai
si
ci
FIGURE 3.11 – Composant composite
48De manière générale, comme le montre la figure 3.11, les composants de
gestionnaires à coordonner sont encapsulés dans un composant composite. Le
contrôleur de coordination, obtenu par programmation synchrone et synthèse
de contrôleur discret, est alors intégré dans le composant composite. Il est
connecté aux interfaces de coordination des composants de gestionnaires. A
l’exécution, il agit sur ces interfaces de coordination pour le respect de la
stratégie de coordination.
Coordination. Le contrôleur de coordination présenté à la figure 3.11 correspond
au modèle de la coexistence coordonnée des gestionnaires autonomes
contenus dans le composant composite. Il est constitué de l’ensemble des mod-
èles du comportement et de la contrôlabilité des gestionnaires couplé avec la
logique de contrôle pour la coordination. A l’exécution, le modèle d’un gestionnaire
reflète son état courant et facilite l’application dynamique de restrictions
imposées par la logique de contrôle sur son comportement. Les sorties du
modèle d’un gestionnaire exhibent ses actions d’administration autorisées ou
inhibées. Ces sorties doivent être appliquées sur le composant de gestionnaire
correspondant afin de garantir la cohérence entre le modèle et l’état du gestionnaire.
Si un gestionnaire fournit des fonctions de contrôle explicites, le contrôle
exhibé par son modèle est directement appliqué via ces fonctions ; sinon le
contrôle par défaut fourni par Fractal est utilisé.
Contrôle par défaut. Pour les gestionnaires qui ne disposent pas de fonctions
de contrôle explicites, Fractal définit des contrôleurs par défaut qui permettent
la gestion dynamique d’un composant et de ses interactions. Ces contrôleurs
fournissent des actions d’administration :
1. Arrêt et démarrage de composant : Ces actions sont disponibles avec le
contrôleur de cycle de vie. Cette option permet de suspendre entièrement
toutes les fonctions d’administration d’un gestionnaire. L’arrêt du
composant rend le gestionnaire inaccessible. Il ne reçoit aucun flux en
entrée.
2. Association et dissociation d’interfaces fonctionnelles : Ces actions sont
disponibles avec le contrôleur de liaisons. Cette option permet de suspendre
certaines fonctions d’administration d’un gestionnaire. La dissoci-
493.2. MISE EN OEUVRE DE LA COORDINATION
ation d’une liaison permet de désactiver un lien de communication établi
entre le gestionnaire et un autre service (e.g., un capteur). Cependant les
autres liens continuent à fonctionner.
3. Interception des flux d’entrée et de sortie : Dans l’implémentation Julia,
ces actions sont implémentées par des objets Java appelés Interceptors. Ils
permettent d’intercepter le flux en entrée et/ou en sortie. Ils permettent
également d’informer les contrôleurs auxquels ils sont associés avant
et/ou après chaque appel de méthodes.
Dans notre travail, nous utilisons les intercepteurs pour capturer les événements
destinés aux gestionnaires et qui sont les entrées du contrôleur de
coordination (les entrées de la méthode step). Les intercepteurs servent
également à filtrer les événements à passer à un gestionnaire. Cela évite de
suspendre entièrement (stop) ou partiellement (unbind) les composants
de gestionnaires. Le filtragre des événements est basé sur les sorties du
contrôleur de coordination. Ces sorties décrivent l’état dans lequel chaque
gestionnaire doit être, et également les actions autorisées à être exécutées.
3.2.3.2 Coordination hiérarchique
Avec la coordination modulaire, les contrôleurs construits garantissent l’application
de la stratégie de coordination qu’ils doivent assurer, mais également
l’application d’ordres de coordination dont la stratégie est définie ailleurs aux
niveaux supérieurs. Cela permet leur réutilisation dans différents contextes
plus globaux.
Contrôle d’un composant composite. Comme le montre la figure 3.12, un
contrôleur généré par synthèse modulaire fournit des entrées c
0 pour contrôler
les actions des gestionnaires et des sorties s
0 pour informer de l’état des gestionnaires.
Le composant composite associé à ce contrôleur et qui encapsule les
composants de gestionnaires peut être réutilisé dans un contexte dans lequel les
gestionnaires qu’il encapsule constituent un sous-ensemble des gestionnaires
à coordonner. Dans ce cas, l’interface de contrôle fournie par le contrôleur de
coordination associé au composite permet l’application d’autres objectifs de
contrôle sur ce sous-ensemble. Cela permet la mise en oeuvre de la coordination
50AMi
ctrlr
mi
ai
si
ci
AMi
ctrlr
mi
ai
si
ci
c
0
s
0
Extension de
la contrôlabilité
FIGURE 3.12 – Extension de la contrôlabilité
par l’assemblage de composants simples et/ou de composants composites de
manière hiérarchique sans aucun changement de leur contenu.
AMi
ctrlr
mi ai
si
ci
c
0
i
s
0
i
AMj
ctrlr
mj aj
sj
cj
c
0
j
s
0
j
ctrlr s
0
ij c
0
ij
c
00
ij s
00
ij
mij aij
FIGURE 3.13 – Coordination hiérarchique
Contrôle hiérarchique. La figure 3.13 montre un exemple de coordination
hiérarchique. Des composants composites qui encapsulent des composants
de gestionnaires autonomes coordonnés sont à leur tour encapsulés dans un
composant composite. Ce dernier est équipé d’un contrôleur de plus haut
niveau qui applique une stratégie de coordination plus globale. Cette stratégie
concerne les gestionnaires contenus dans les composants composites internes.
513.3. COMPARAISON
Le contrôleur de haut niveau agit sur les contrôleurs de bas niveau présents
dans les composants composites internes pour respecter ses objectifs de contrôle.
Les composants composites internes sont réutilisés sans aucune modification.
3.3 Comparaison
Notre approche de coordination est basée sur des aspects qualitatifs. Elle
consiste généralement à garantir des propriétés logiques comme l’invariance ou
l’exclusion mutuelle, contrairement aux approches basées sur des aspects quantitatifs
[20, 38, 40, 51]. Ces dernières garantissent l’optimisation d’indicateurs
de performance à travers des fonctions d’utilité/d’optimisation multi-critères.
Chaque indicateur de performance a un poids qui indique son importance, et
le choix des poids est très important pour la sélection des actions à exécuter.
Avec notre approche, l’autorisation ou l’inhibition d’actions dépend de l’état du
système et des actions d’administration en cours d’exécution. Nous étudions les
relations entre les événements auxquels réagissent les gestionnaires et l’impact
des actions de chaque gestionnaire sur les objectifs d’administration. Cette
étude permet d’identifier les situations qui peuvent conduire à des décisions
conflictuelles ou redondantes. Puis, pour éviter ces décisions, nous définissons
les propriétés de coordination, les objectifs de contrôle. Notre approche ressemble
aux approches basées sur des règles (priorités/condition-action) [3, 45].
Toutefois avec notre approche, la fonction de contrôle est automatiquement
construite et restreint le moins possible le comportement des gestionnaires.
Notre approche repose sur un contrôle externe des gestionnaires, contrairement
aux approches basées sur un consensus [2]. En effet, la mise en oeuvre
d’un consensus nécessite plusieurs participants. Dans le cas où ces participants
sont les gestionnaires, ces derniers vont implémenter les fonctions de décision
pour le consensus, en plus des fonctions d’administration. Cela rend difficile la
réutilisation des gestionnaires. De plus, la moindre modification du protocole
implique une modification de l’implémentation des gestionnaires. Des modifi-
cations du protocole peuvent être nécessaires lorsque certains aspects doivent
être pris en compte ou bien quand d’autres gestionnaires doivent être intégrés.
Notre approche, quant à elle, consiste à identifier les aspects observables et
contrôlables des gestionnaires. Ces aspects sont ensuite définis et exposés pour
52permettre la réutilisation des gestionnaires dans différents contextes sans aucune
modification. L’application des stratégies de coordination repose sur les
points de contrôle des gestionnaires. De plus, les fonctions de contrôle d’un gestionnaire
sont séparées de l’implémentation de ses fonctions d’administration.
Cela permet la réutilisation des gestionnaires existants. Chaque gestionnaire
est encapsulé dans un composant qui fournit les fonctions qui permettent son
contrôle. De ce fait la spécification du contrôle d’un gestionnaire peut être
modifiée sans modifier l’implémentation de ses fonctions d’administration.
3.4 Conclusion
Nous avons vu dans ce chapitre comment concevoir la coordination de gestionnaires
autonomes avec les techniques de contrôle discret. Nous décrivons le
comportement observable et contrôlable des gestionnaires que nous composons
pour modéliser leur coexistence non coordonnée. La synthèse de contrôleur
est appliquée sur le modèle de la coexistence pour construire une logique de
contrôle qui assure la stratégie de coordination sur le modèle via les points de
contrôle définis. Pour la mise en oeuvre de la coordination, nous utilisons le
modèle à composants Fractal. Chaque gestionnaire est encapsulé dans un composant
qui fournit les fonctions de contrôle. Les composants de gestionnaires
sont assemblés dans un composant composite qui assure leur coordination
grâce au contrôleur de coordination généré par synthèse de contrôleur discret.
533.4. CONCLUSION
544
Gestion de la performance et de l’optimisation
de ressources d’un système dupliqué
Contents
4.1 Gestionnaires autonomes non coordonnés . . . . . . . . . . . 56
4.1.1 Gestionnaire d’auto-dimensionnement : Self-sizing . . 56
4.1.2 Gestionnaire d’auto-régulation de fréquence CPU : Dvfs 58
4.2 Problèmes d’optimisation de ressources . . . . . . . . . . . . 59
4.3 Conception du contrôleur de coordination . . . . . . . . . . . 60
4.3.1 Modélisation du contrôle des gestionnaires . . . . . . . 60
4.3.1.1 Modélisation du contrôle de self-sizing . . . . 61
4.3.1.2 Modélisation de l’état global des Dvfs . . . . 63
4.3.2 Spécification de la coordination . . . . . . . . . . . . . . 64
4.3.2.1 Stratégie de coordination . . . . . . . . . . . . 64
4.3.2.2 Spécification du contrat . . . . . . . . . . . . . 64
4.3.2.3 Programme final . . . . . . . . . . . . . . . . . 64
4.4 Expérimentations . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.4.1 Configuration . . . . . . . . . . . . . . . . . . . . . . . . 66
4.4.2 Calibrage des seuils des gestionnaires . . . . . . . . . . 66
4.4.2.1 Seuil maximal pour self-sizing et Dvfs . . . . 66
4.4.2.2 Seuil minimal pour self-Sizing et Dvfs . . . . 67
4.4.3 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . 70
554.1. GESTIONNAIRES AUTONOMES NON COORDONNÉS
4.4.3.1 Comportement non coordonné . . . . . . . . 70
4.4.3.2 Comportement coordonné . . . . . . . . . . . 72
4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Dans ce chapitre, nous nous intéressons à l’administration d’un système
basé sur la réplication. Il s’agit d’un système distribué constitué de serveurs
dupliqués hébergés par des machines distinctes. Les requêtes entrantes sont
réparties entre les serveurs par un équilibreur de charge. Nous considérons
la coordination de gestionnaires dédiés à l’optimisation de ressources : selfsizing
et Dvfs. Le gestionnaire self-sizing est utilisé pour minimiser le nombre
de serveurs actifs et un Dvfs est installé sur chaque machine qui exécute un
serveur pour ajuster la fréquence à laquelle s’exécutent ses processeurs. Nous
appliquons notre approche pour coordonner les gestionnaires afin d’optimiser
de manière efficace les ressources utilisées par le système.
Nous présentons dans ce chapitre un exemple d’application simple de notre
approche. Toutefois cet exemple permet de démontrer sa faisabilité.
4.1 Gestionnaires autonomes non coordonnés
Les gestionnaires ci-dessous assurent la gestion de la performance et l’optimisation
des ressources de calcul. Ils sont conçus indépendamment.
4.1.1 Gestionnaire d’auto-dimensionnement : Self-sizing
Ce gestionnaire autonome est dédié au dimensionnement dynamique d’un
système en fonction de la charge de travail de ce dernier. Il peut être appliqué sur
des systèmes dont la structure est basée sur le canevas d’équilibrage de charge.
Dans ce canevas, le modèle de communication est synchrone (Client/Serveur),
les serveurs sont clonés statiquement lors du démarrage du système et un
aiguilleur est placé en frontal des serveurs. Le rôle de cet aiguilleur est de
répartir la charge entre tous les serveurs. Une requête peut donc être traitée
indifféremment par n’importe lequel des serveurs. Lorsqu’un serveur reçoit
une requête, il l’exécute, il met en cohérence son état avec les autres serveurs si
besoin, puis il retourne le résultat de la requête au client. On considère que ce
56canevas s’exécute sur une grappe de machines. L’aiguilleur, ainsi que chaque
serveur, s’exécutent sur une machine différente.
Connaissance
Capteurs Actionneurs
Elements administres
en cours d’utilisation disponibles
Planification
Retrait
Ajout
Analyse
(< min_cpu) ?
(> max_cpu) ?
Ajout Retrait
Execution
cpu_avg
Retrait
Ajout
Observation
Gestionnaire d’auto−optimisation self−sizing
(cpu, mem, ...) (cpu, mem, ...) Ressource Ressource
FIGURE 4.1 – Gestionnaire d’auto-dimensionnement : self-sizing
La figure 4.1 décrit le fonctionnement du gestionnaire self-sizing. Ce dernier
permet de dimensionner dynamiquement le degré de duplication des serveurs
qui constituent le système administré. Le dimensionnement est effectué en
fonction de la charge de travail soumise au système. En cas de surcharge, le
système est approvisionné en ressource – ajout de serveur – alors qu’en cas
de sous-charge, les ressources du système sont optimisées – retrait de serveur.
Pour réaliser ces opérations, le gestionnaire utilise la connaissance qu’il a de la
structure du système. Il connaît les machines en cours d’utilisation sur lesquelles
sont exécutés les serveurs, ainsi que les machines disponibles.
L’état du système est surveillé via des sondes (capteurs sur la figure 4.1).
Celles-ci récupèrent périodiquement la charge CPU de chaque machine qui
exécute un serveur dupliqué. Le gestionnaire calcule une moyenne glissante
EWMA (exponentiellement pondérée) des charges CPU. Cette moyenne est utilisée
pour évaluer le niveau d’utilisation des machines. Le niveau acceptable, le
niveau pour lequel le gestionnaire estime le redimensionnement du système
non nécessaire, est borné par un seuil minimal et un seuil maximal. Le gestionnaire
considérera que les machines sont saturées lorsque la moyenne est
574.1. GESTIONNAIRES AUTONOMES NON COORDONNÉS
supérieure au seuil maximal. A l’opposé, il considérera que les machines sont
sous utilisées lorsque la moyenne est inférieure au seuil minimal.
Lorsqu’une surcharge du système est détectée, le gestionnaire démarre un
nouveau serveur dupliqué sur une machine disponible, et met à jour l’état de
ce dernier en fonction des autres serveurs. Puis il intègre ce nouveau serveur
dans la liste des serveurs dupliqués au niveau de l’aiguilleur de charge. Dans
le cas d’une sous-charge, il sélectionne un serveur à arrêter, le déconnecte de
l’aiguilleur de charge, l’arrête, et le désinstalle de la machine. Puis il remet
la machine dans la liste des machines disponibles. Les systèmes administrés
fournissent les actionneurs permettant d’appliquer les actions d’administration.
4.1.2 Gestionnaire d’auto-régulation de fréquence CPU : Dvfs
La plupart des micro-processeurs récents offrent la possibilité d’ajuster leur
fréquence d’exécution. Cette fonctionnalité permet de réduire leur puissance
d’exécution lorsque la charge de travail est faible pour optimiser la consommation
énergétique. L’utilisation de cette fonctionnalité dans l’administration
d’un système impliquant un nombre important de machines peut contribuer à
réduire l’énergie consommée sans altérer la performance du système.
Connaissance
Capteurs Actionneurs
Analyse Planification
(< min_cpu) ?
(> max_cpu) ?
Execution
cpu_avg
Elements administres
hausser
Diminuer
Hausser Diminuer
d’une machine
processeurs
frequence cpu
Observation
Gestionnaire d’auto−optimisation Dvfs
FIGURE 4.2 – Gestionnaire d’auto-régulation : Dvfs
58Le gestionnaire Dvfs, représenté dans la figure 4.2, exploite de cette fonctionnalité.
Il est dédié à l’ajustement de la fréquence des processeurs d’une
machine. Il adapte dynamiquement la fréquence des processeurs en fonction de
la charge de travail à traiter. Il diminue la fréquence CPU d’une machine lorsque
celle-ci est sous-utilisée ; il augmente la fréquence lorsqu’elle est surchargée. Le
gestionnaire connaît les différents niveaux de fréquences des processeurs de la
machine administrée. Il connaît également l’état courant de la machine.
Une sonde récupère périodiquement la charge CPU de la machine. Une
moyenne exponentiellement pondérée (EWMA) de ces valeurs est calculée
et utilisée pour évaluer le niveau d’utilisation des processeurs de la machine
administrée. Les niveaux de charge considérés acceptables sont délimités par
un seuil minimal et un seuil maximal. Lorsque la moyenne est dans cet intervalle,
aucune action n’est exécutée. Mais, lorsqu’elle est au-dessus du seuil
maximal, les processeurs sont considérés surchargés et le gestionnaire réagit en
augmentant leur fréquence s’ils ne sont pas en fréquence maximale. Lorsque
la moyenne est en-dessous du seuil minimal, les processeurs sont considérés
sous-chargés et le gestionnaire réagit en diminuant leur fréquence s’ils ne sont
pas en fréquence minimale. L’exécution de ces opérations est effectuée par des
actionneurs fournis par la machine administrée.
4.2 Problèmes d’optimisation de ressources
L’utilisation des gestionnaires self-sizing et Dvfs peut permettre une meilleure
optimisation de l’utilisation des ressources allouées à un système basé sur la ré-
plication de service. Le gestionnaire self-sizing peut être utilisé pour minimiser
le nombre de serveurs actifs. Un Dvfs peut être utilisé sur chaque machine
active pour minimiser la fréquence d’exécution de son (ses) processeur(s).
Cependant les deux types de gestionnaires se basent sur la charge CPU et leurs
actions affectent la charge CPU. De ce fait leur exécution non coordonnée pour
l’administration du même système peut avoir des effets indésirables.
En fréquence maximale un processeur peut effectuer beaucoup plus de
calculs par unité de temps qu’en fréquence inférieure. Ainsi une charge de
calcul qui sature un processeur en une fréquence quelconque pourrait ne pas
saturer le processeur lorsque ce dernier est à une fréquence supérieure. Les
594.3. CONCEPTION DU CONTRÔLEUR DE COORDINATION
machines équipées d’un Dvfs n’ont pas toujours leur(s) processeur(s) à la
puissance maximale. Lorsque self-sizing détecte une surcharge (évaluée via
la charge CPU) des machines qui exécutent les serveurs actifs, il n’a aucune
connaissance de la fréquence d’exécution des processeurs de ces machines. Si
les processeurs des machines ne sont pas en fréquence maximale, la hausse de
la fréquence CPU des machines par les Dvfs pourrait permettre aux machines
de supporter la charge. Dans ce cas, un ajout de serveur devient inutile. De
plus lorsque les machines sont à une fréquence CPU autre que leur fréquence
maximale, l’occurrence d’une surcharge détectée simultanément par self-sizing
et les Dvfs entraîne l’ajout d’un nouveau serveur mais également la hausse de
la fréquence CPU des machines. Ces opérations simultanées peuvent entraîner
la baisse de la charge CPU des machines jusqu’en dessous du seuil minimal
acceptable ce qui entraîne l’exécution d’opérations de retrait et/ou de baisse de
fréquence. Une situation similaire peut également arriver à l’occurrence d’une
sous-charge. L’exécution non coordonnée des gestionnaires peut entraîner une
oscillation de la charge CPU des machines entre les seuils maximal et minimal
entraînant des réactions répétitives. Cela peut conduire à une instabilité du
système administré.
4.3 Conception du contrôleur de coordination
Cette section présente la conception du contrôleur de coordination du gestionnaire
self-sizing et des Dvfs. Nous présentons les modèles des gestionnaires.
Dans cet exemple, seul le gestionnaire self-sizing est contrôlable. Pour les Dvfs
nous ne modélisons que leurs états d’exécution globaux, nécessaires pour autoriser
ou inhiber les actions d’ajout de nouveau serveur.
4.3.1 Modélisation du contrôle des gestionnaires
Les modèles qui décrivent les gestionnaires sont constitués d’un ou de
plusieurs automates. Le modèle du gestionnaire self-sizing est constitué d’automates
qui décrivent son comportement et le contrôle des actions d’administration
qu’il peut exécuter. Pour les gestionnaires Dvfs, nous ne modélisons que
leurs états d’exécution globaux. Un seul automate est utilisé pour représenter
60les états globaux des gestionnaires Dvfs actifs.
4.3.1.1 Modélisation du contrôle de self-sizing
Le modèle du comportement contrôlable du gestionnaire self-sizing, représenté
dans la figure 4.3, est constitué de trois automates. L’automate au centre
représente le comportement de self-sizing et les deux autres modélisent le
contrôle des actions d’ajout et de retrait de serveurs.
Enable
Disable
not cUp/ cUp/
disabledUp=False
disabledUp=True
Enable
Disable
not cDown/ cDown/
disabledDown=False
disabledDown=True
U pDown
underload and not
disabledDown/
rem
Adding
overload and
not disabledUp/
add
added and not
max_machine/
U p
min_machine/
Overload and not
disabledUp/
add
Down
added and
max_machine/
underload and not
disabledDown/
rem
min=False
max=False
adding=False
min=True
max=False
adding=False
min=False
max=False
adding=True
min=False
max=True
adding=False
(disabledUp, disabledDown, add, rem, adding, max, min)
= SIZING_MODEL (cUp, cDown, overload, underload, max_machine, min_machine, added)
FIGURE 4.3 – Modèle de contrôle de self-sizing
L’automate à droite représente le contrôle des actions de retrait de serveurs.
Il est constitué de deux états : Enable et Disable. L’état Enable, état initial,
indique que les actions de retrait sont autorisées et l’état Disable indique
que les actions de retrait sont inhibées. Le passage de l’état Enable à l’état
614.3. CONCEPTION DU CONTRÔLEUR DE COORDINATION
Disable et réciproquement est contrôlé via l’entrée cDown. Lorsqu’elle est à
true l’automate se met dans l’état Disable et lorsqu’elle est à false dans l’état
Enable. L’état courant du contrôle des actions de retrait de serveur est indiqué
par la sortie disabledDown qui est une variable d’état. Elle est à true lorsque
les actions de retrait sont inhibées. L’automate à gauche représente le contrôle
des actions d’ajout de serveurs. Cet automate est semblable à celui du contrôle
des retraits. Le passage de l’état Enable à l’état Disable et réciproquement
est contrôlé via l’entrée cUp. L’état courant du contrôle des actions d’ajout est
indiqué par la sortie disabledUp.
L’automate au centre représente le comportement du gestionnaire self-sizing.
Il est constitué de quatre états. Le gestionnaire est initialement dans l’état
UpDown dans lequel il peut exécuter aussi bien des opérations d’ajout que des
opérations de retrait. Il est dans l’état Down quand le nombre maximum de
serveurs actifs autorisé est atteint. Dans cet état il ne peut exécuter que des
opérations de retrait. Le gestionnaire est dans l’état Up lorsque le nombre minimum
de serveurs actifs autorisé est atteint. Dans cet état il ne peut exécuter que
des opérations d’ajout. L’exécution d’une opération d’ajout est représentée par
l’état Adding. Contrairement aux ajouts, l’exécution des opérations de retrait
est considérée instantanée dans le modèle. L’occurrence d’une sous-charge
(underload à true), lorsque le gestionnaire est dans l’état UpDown ou dans l’état
Down, entraîne l’exécution d’une opération de retrait (rem à true) si les opérations
de retrait sont autorisées (disabledDown à false). Dans l’état UpDown,
le gestionnaire passe dans l’état Up lorsque le nombre minimum de serveur
est atteint (min_machine à true). L’occurrence d’une surcharge (overload à
true), lorsque le gestionnaire est dans l’état UpDown ou dans l’état Up, entraîne
l’exécution d’une opération d’ajout (add à true) si les opérations d’ajout sont
autorisées (disabledUp à false). A l’exécution d’un ajout le gestionnaire passe
dans l’état Adding où aucune autre opération d’ajout ou de retrait de serveur
ne peut être entamée. A la fin de l’opération d’ajout, il passe dans l’état Down
si le nombre maximum de serveurs est atteint (max_machine à true) sinon il
retourne dans l’état UpDown.
624.3.1.2 Modélisation de l’état global des Dvfs
Dans cette solution de coordination, aucun contrôle n’est effectué sur l’exé-
cution des Dvfs locaux. Seul leur état global courant est important pour pouvoir
autoriser ou empêcher les opérations d’ajout. Pour cela nous utilisons une
sonde pour collecter l’état courant de l’ensemble des Dvfs locaux. Chaque Dvfs
fournit deux sorties booléennes min étant à vrai lorsque la fréquence minimale
est atteinte et max étant à vrai lorsque la fréquence maximale est atteinte. La
sonde renvoie deux valeurs, l’une étant la conjonction de toutes les valeurs des
sorties min des Dvfs et l’autre la conjonction de toutes les valeurs des sorties
max.
Normal Min
Max
minimum /
not minimum /
maximum /
not maximum /
max_freq=False
min_freq=False
max_freq=False
min_freq=True
max_freq=True
min_freq=False
(max_freq, min_freq)= DVFS_MODEL (maximum, minimum)
FIGURE 4.4 – Modèle global du mode d’exécution des Dvfs
La figure 4.4 présente l’automate qui modélise l’état global de l’ensemble
des gestionnaires Dvfs qui s’exécutent sur les machines qui hébergent les
serveurs actifs. L’automate est constitué de trois états : Normal, Min et Max. Initialement
dans l’état Normal, l’automate va dans l’état Max quand tous les Dvfs
ont atteint la fréquence maximale. Depuis l’état Normal, il va dans l’état Min
lorsque tous les Dvfs ont atteint la fréquence minimum. Il retourne dans l’état
Normal lorsque, au moins un des Dvfs n’a atteint ni la fréquence maximale ni la
fréquence minimale. Cet automate a deux sorties, max_freq qui est à true dans
l’état Max et min_freq qui est à true dans l’état Min.
634.3. CONCEPTION DU CONTRÔLEUR DE COORDINATION
4.3.2 Spécification de la coordination
La figure 4.5 décrit la coexistence des gestionnaires.
(max_freq, min_freq, disabledUp, disabledDown, add, rem, adding, max, min)
= COEXISTENCE (minimum, minimum,
cUp, cDown, overload, underload, max_machine, min_machine, added)
(max_freq, min_freq) = DVFS_MODEL (minimum, minimum);
(disabledUp, disabledDown, add, rem, adding, max, min) =
SIZING_MODEL (cUp, cDown, overload, underload, max_machine, min_machine, added);
FIGURE 4.5 – Composition des modèles des gestionnaires self-sizing et
Dvfs
4.3.2.1 Stratégie de coordination
Une stratégie pour garantir une optimisation efficace des ressources et éviter
des actions inutiles consiste à empêcher l’ajout d’un nouveau serveur tant
qu’il est possible d’augmenter la fréquence d’exécution des processeurs des
machines qui hébergent les serveurs actifs. En effet une surcharge détectée par
le gestionnaire self-sizing peut être considérée importante à traiter que si les
processeurs des machines actives sont à leur fréquence maximale. Dans ce cas,
il est nécessaire d’ajouter un nouveau serveur puisque les machines actives ont
atteint leur capacité maximale.
– Ignorer la surcharge détectée des serveurs dupliqués — Si les processeurs
des machines actives ne sont pas à leur fréquence maximale.
4.3.2.2 Spécification du contrat
Pour réaliser la stratégie de coordination, nous définissons formellement
un objectif de contrôle. Cet objectif de contrôle est exprimé via la sorties des
automates et déclaré sous forme de contrat :
1. ((not max_freq and disabledUp) or (max_freq and not disabledUp)).
4.3.2.3 Programme final
Le programme final, représenté à la figure 4.6, associe le contrat défini au
modèle de la coexistence des gestionnaires COEXISTENCE.
64(max_freq, min_freq, disabledUp, disabledDown, add, rem, adding, max, min)
= COORD (minimum, minimum,
overload, underload, max_machine, min_machine, added)
enforce ((not max_freq and disabledUp) or (max_freq and not disabledUp))
with cUp, cDown
(max_freq, min_freq, disabledUp, disabledDown, add, rem, adding, max, min)
= COEXISTENCE (minimum, minimum,
cUp, cDown, overload, underload, max_machine, min_machine, added)
FIGURE 4.6 – Coordination de gestionnaires self-sizing et Dvfs
Les variables cUp et cDown du modèle du gestionnaire self-sizing sont
déclarées variables contrôlables sur lesquelles agirent pour le respect de la
stratégie de coordination. Dans cet exemple aucun contrôle n’est défini pour
les actions de retrait. La variable cDown aura toujours la valeur true puisque
l’objectif ne concerne pas les retraits. Les retraits seront toujours autorisées dans
ce modèle coordonné.
4.4 Expérimentations
L’objectif de ces expérimentations est d’évaluer le comportement du contrôleur
obtenu. Il s’agit de montrer que le contrôleur généré assure la politique
de coordination définie, bien que le système considéré soit petit et qu’il soit
possible d’implémenter manuellement l’objectif de contrôle. Nous avons utilisé
trois charges différents pour chaque exécution : Workload1 (4750 requêtes/sec),
Workload2 (5000 requêtes/sec) et Workload3 (5542 requêtes/sec). Chaque charge
est définie en deux phases, une première phase qui consiste en une charge
croissante (pendant environ 3 minutes), puis une seconde phase durant laquelle
la charge est constante. Pour chaque charge, nous avons effectué une exécution
non coordonnée et une autre exécution durant laquelle les gestionnaires
sont coordonnés. A chaque exécution, chaque machine qui héberge un serveur
dupliqué actif débute avec la fréquence minimale. Les charges Workload1 et
Workload2 peuvent être traitées par un serveur à la fréquence maximale alors
que la charge Workload3 nécessite deux serveurs dupliqués.
654.4. EXPÉRIMENTATIONS
4.4.1 Configuration
La plate-forme expérimentale est constituée de trois machines ayant les
mêmes caractéristiques (processeurs et capacité en mémoire). Les machines
(node0, node1 et node2) sont connectées en réseau. Les machines node1 et node2
ont deux niveaux de fréquence de processeurs : 800Mhz étant la fréquence
minimale et 1.20Ghz étant la fréquence maximale. Le système administré est
constitué d’un serveur Apache 1
et de deux serveurs Tomcat 2
. Le serveur Apache
représente le point d’entrée du système. Il reçoit toutes les requêtes à traiter et
les répartit entre les serveurs Tomcat actifs. Le serveur Apache est utilisé comme
équilibreur de charge. Il est exécuté sur la machine node0. Les machines node1
et node2 hébergent les serveurs Tomcat. Nous utilisons Jmeter pour simuler
les clients qui émettent les requêtes HTTP sur le système administré.
4.4.2 Calibrage des seuils des gestionnaires
Des expérimentations ont été réalisées pour déterminer les seuils maximal
et minimal des gestionnaires self-sizing et Dvfs. Ces expérimentations ont été
faites de manière empirique. Le seuil maximal, appelé T
max, est fixé manuellement
et ne change pas pour les types de gestionnaires. Le seuil minimal, appelé
T
min, est calculé dynamiquement.
4.4.2.1 Seuil maximal pour self-sizing et Dvfs
Une machine qui utilise son processeur à 100% passe tout son temps à exé-
cuter des opérations. Cela indique que la machine a atteint sa charge maximale.
Lorsque la charge reçue est supérieure à la charge maximale, la machine sature
et sa performance se dégrade. Il est donc préférable d’envisager un seuil
maximal inférieur à 100%.
Nous avons choisi de manière arbitraire 90% comme valeur pour T
max. Nous
avons observé qu’une machine utilisant 90% de son processeur commence
à saturer, mais traite les requêtes avec un délai acceptable. Cela permet de
récupérer la charge CPU de la machine dans un délai suffisamment court et
de réagir pour éviter une dégradation trop importante de la performance en
1. http://httpd.apache.org/
2. http://tomcat.apache.org/
66haussant la fréquence CPU ou en ajoutant un nouveau serveur hébergé par une
autre machine.
4.4.2.2 Seuil minimal pour self-Sizing et Dvfs
Nous avons utilisé différentes charges de travail suivant le même profil (une
phase de montée en puissance suivie d’une phase constante), pour observer
l’impact des opérations d’administration des gestionnaires sur la charge CPU.
Ce qui diffère entre les charges de travail est l’intensité, c’est-à-dire le nombre
de requêtes injectées. Pour évaluer le facteur de variation de la charge CPU,
les opérations d’administration sont exécutées manuellement une fois que
la charge est constante et stable. L’objectif est de déterminer si le facteur de
variation de la charge CPU est le même pour chaque charge de travail. Cela
permet de déduire une équation pour le calcul du seuil minimal en fonction du
seuil maximal. Pour le gestionnaire self-sizing, la formule devrait également
prendre en compte le nombre de serveurs dupliqués actifs.
4.4.2.2.1 Seuil minimal (T
min ) pour self-sizing. Nous avons réalisé des
expérimentations pour observer l’impact des opérations du gestionnaire selfsizing
sur la charge moyenne des machines qui exécutent les serveurs dupliqués.
Les opérations d’ajout et de retrait de serveurs sont exécutées une fois que la
charge en entrée est constante et stable.
La figure 4.7 présente des expérimentations dans lesquelles on ajoute un
serveur dupliqué. Initialement un seul serveur est actif. L’ajout d’un second
serveur fait baisser la charge CPU moyenne des machines. Nous notons toutefois,
que cette diminution n’est pas de moitié par rapport à la charge observée
avant l’ajout. Ce résultat est retrouvé pour toutes les charges testées («chargecpu-{1,2,3,4}»).
Puisque les requêtes sont distribuées équitablement, on espérait
observer une baisse de moitié, mais la charge moyenne obtenue est toujours
supérieure à la charge théorique attendue.
La figure 4.8 présente des expérimentations dans lesquelles on retire un
serveur dupliqué. Chaque exécution débute avec deux serveurs dupliqués.
Lorsqu’un serveur est arrêté, la charge sur le serveur restant augmente mais ne
double pas.
674.4. EXPÉRIMENTATIONS
0
20
40
60
80
100
2 4 6 8 10 12 14 16 18 20
Charge CPU (%)
Duree (minute)
charge-cpu-1
charge-cpu-2
charge-cpu-3
charge-cpu-4
FIGURE 4.7 – Seuil minimal pour self-sizing : ajout de serveur
0
20
40
60
80
100
2 4 6 8 10 12 14 16 18
Charge CPU (%)
Duree (minute)
charge-cpu-1
charge-cpu-2
charge-cpu-3
charge-cpu-4
FIGURE 4.8 – Seuil minimal pour self-sizing : retrait de serveur
Cela signifie que pour un système dont le degré de réplication ne dépasse
pas deux, le calcul du seuil minimal peut se faire selon la formule suivante :
T
min = T
max/2
68Pour un système avec un degré de réplication supérieur à deux, on souhaitera
retirer un serveur le plus tôt possible. Dans ce cas, le seuil minimal peut
être calculé comme suit :
T
min +
T
min
(n − 1)
< T
max
Où n est le nombre de serveurs actifs. En d’autres termes :
T
min < T
max ∗
(n − 1)
n
→ T
min = [T
max ∗
(n − 1)
n
] − C
Où C est une marge qui permet de maintenir T
min, à la fois suffisamment
haut pour retirer le plus tôt possible un serveur, et à la fois suffisamment bas
par rapport à T
max pour éviter des oscillations de la charge entre T
max et T
min
.
Pour éviter que T
min soit trop proche de T
max, une valeur maximale peut être
fixée pour T
min. Dans ce cas, la valeur maximale de T
min est utilisée chaque fois
que la valeur calculée de T
min est supérieure.
4.4.2.2.2 Seuil minimal (T
min) pour Dvfs. Nous avons utilisé une machine
munie d’un processeur Dual-core ayant une fréquence minimale de 800Mhz
et une fréquence maximale de 1.2Ghz. Une charge qui sature la machine en
fréquence minimale pourrait être supportée en fréquence maximale. Théoriquement
la machine est supposée pouvoir supporter 1.5 fois plus de charge en
fréquence maximale qu’en fréquence minimale. Nous avons effectué des expérimentations
en utilisant le même profil de charge mais avec différentes intensités.
Durant ces expérimentations, la fréquence CPU de la machine est modifiée
pour observer l’impact de ces changements sur la charge CPU de la machine.
La figure 4.9 montre les variations de la charge CPU entre la fréquence
maximale et la fréquence minimale. En fréquence minimale, la hausse de la
fréquence fait baisser l’utilisation du CPU. Cependant pour la même charge en
entrée, le rapport entre l’utilisation du CPU en fréquence maximale et l’utilisation
du CPU en fréquence minimale est toujours inférieur au rapport entre les
deux fréquences CPU. Le rapport semble constant et est inférieur à 1,5 sur notre
plate-forme. La baisse observée est toujours inférieure à la baisse «théorique»
694.4. EXPÉRIMENTATIONS
0
20
40
60
80
100
5 10 15 20 25
Charge CPU (%)
Duree (minute)
4750 req/sec
4000 req/sec
3054 req/sec
FIGURE 4.9 – Seuil minimal pour Dvfs
attendue. Cela permet de définir le seuil Minimal en fonction du seuil maximal
et le rapport entre deux valeurs consécutives de fréquences CPU. Le seuil
minimal peut être calculé comme suit :
T
min = T
max ∗
next lower frequency
current frequency
4.4.3 Évaluation
Cette section présente l’évaluation du comportement du contrôleur généré
pour la coordination des Dvfs et du self-sizing. Initialement un seul serveur
Tomcat est actif. Le deuxième serveur Tomcat, en fonction de la charge, sera
ajouté ou enlevé par le gestionnaire self-sizing. Les exécutions durent 20 minutes.
L’injection de charge est arrêtée après les 20 minutes.
4.4.3.1 Comportement non coordonné
Lors des exécutions non coordonnées, la détection d’une surcharge conduit
à la hausse de la fréquence CPU de la machine qui héberge le premier serveur
Tomcat. La surcharge a également à l’ajout du second serveur Tomcat.
70 0
10
20
30
40
50
60
70
80
90
100
0 5 10 15 20
0
1
2
3
4
5
Charge CPU (%); Frequence cpu
Replication
Duree (minute)
cpu node1
Avg cpu
CPUFreq node1
replication
cpu node2
CPUFreq node2
FIGURE 4.10 – Exécution non coordonnée avec : 4750 requêtes/sec
0
10
20
30
40
50
60
70
80
90
100
0 5 10 15 20
0
1
2
3
4
5
Charge CPU (%); Frequence cpu
Replication
Duree (minute)
cpu node1
Avg cpu
CPUFreq node1
replication
cpu node2
CPUFreq node2
FIGURE 4.11 – Exécution non coordonnée avec : 5000 requêtes/sec
Les figures 4.10 et 4.11 présentent les exécutions non coordonnées pour
les charges Workload1 et Workload2 respectivement. Lors de ces exécutions, la
détection d’une surcharge déclenche une hausse de fréquence CPU et l’ajout
714.4. EXPÉRIMENTATIONS
du second serveur Tomcat. Sur la figure 4.10 la surcharge est détectée par selfsizing
environ 8 minutes après le début de l’injection de charge. Cela a conduit
à la réaction du gestionnaire qui a ajouté le second Tomcat (11 min). Durant
cette opération, le Dvfs sur la machine qui héberge le premier Tomcat a détecté
la surcharge et a haussé la fréquence CPU de la machine (CPUFreq_node1: 9
min). Une fois le second serveur Tomcat intégré (node2: 11min), la charge CPU
au niveaux des deux machines actives est autour de 60 pour cent. La fréquence
CPU de la première machine est baissée. Le même comportement est observé
sur la figure 4.11. Ces deux charges peuvent être traitées avec un seul serveur.
Cependant sans coordination, deux serveurs Tomcat sont actifs et les machines
qui les hébergent sont à la fréquence minimale.
4.4.3.2 Comportement coordonné
Contrairement aux exécutions non coordonnées, pour les charges Workload1
et Workload2, le gestionnaire self-sizing ne réagit pas à la détection de surcharge
durant l’exécution coordonnée.
0
10
20
30
40
50
60
70
80
90
0 5 10 15 20
0
1
2
3
4
5
Charge CPU (%); Frequence cpu
Replication
Duree (minute)
cpu node1
Avg cpu
CPUFreq node1
replication
FIGURE 4.12 – Exécution coordonnée avec : 4750 requêtes/sec
Les figures 4.12 et 4.13 présentent les exécutions coordonnées pour les
charges Workload1 et Workload2 respectivement. Sur la figure 4.12 la surcharge
72 0
10
20
30
40
50
60
70
80
90
100
0 5 10 15 20
0
1
2
3
4
5
Charge CPU (%); Frequence cpu
Replication
Duree (minute)
cpu node1
Avg cpu
CPUFreq node1
replication
FIGURE 4.13 – Exécution coordonnée avec : 5000 requêtes/sec
est détectée 7 minutes après le début de l’injection de charge. Cependant un
seul serveur Tomcat est resté actif durant toute la durée de l’expérimentation.
La fréquence CPU de la machine qui héberge le serveur Tomcat est haussée
par le Dvfs qui s’exécute sur la machine (CPUFreq_node1: 8 min). Le même
comportement est observé sur la figure 4.13.
Ajout d’un serveur lorsque nécessaire. Le traitement de la charge Workload3
requiert deux serveurs actifs.
Pour la charge Workload3, dans l’exécution non coordonnée (Figure 4.14)
comme dans l’exécution coordonnée (Figure 4.15), le deuxième serveur Tomcat
est ajouté. Après l’ajout du second Tomcat, les machines qui hébergent les deux
Tomcat sont à la fréquence minimale. Cependant, contrairement à l’exécution
non coordonnée, durant l’exécution coordonnée l’ajout du second serveur
Tomcat (environ 9 min) est effectué après que la fréquence maximale du serveur
Tomcat ait été atteinte. Durant l’exécution coordonnée présentée à la figure 4.15,
self-sizing n’a pas réagit à la première détection d’une surcharge (environ 4
min). Le Dvfs a réagit en haussant la fréquence des processeurs de la machine
hébergeant le serveur Tomcat actif. Cependant la surcharge a persisté après que
734.4. EXPÉRIMENTATIONS
0
10
20
30
40
50
60
70
80
90
100
0 5 10 15 20 25
0
1
2
3
4
5
Charge CPU (%); Frequence cpu
Replication
Duree (minute)
cpu node1
Avg cpu
CPUFreq node1
replication
cpu node2
CPUFreq node2
FIGURE 4.14 – Exécution non coordonnée avec : 5542 requêtes/sec
0
10
20
30
40
50
60
70
80
90
100
0 5 10 15 20
0
1
2
3
4
5
Charge CPU (%); Frequence cpu
Replication
Duree (minute)
cpu node1
Avg cpu
CPUFreq node1
replication
cpu node2
CPUFreq node2
FIGURE 4.15 – Exécution coordonnée avec : 5542 requêtes/sec
la machine soit à la fréquence maximale. Cela a conduit à l’ajout du second
serveur Tomcat par self-sizing (9 min).
744.5 Conclusion
Le contrôleur de coordination généré n’empêche pas l’ajout d’un nouveau
serveur Tomcat lorsque cela est nécessaire. Il est en mesure d’assurer le respect
de la politique de coordination. Contrairement aux exécutions non coordonnées,
où les comportements indésirables ont été observés, on constate que les
exécutions coordonnées respectent la politique définie. Les opérations d’ajout
d’un nouveau serveur Tomcat ne sont effectuées que lorsque le serveur Tomcat
actif a atteint sa fréquence CPU maximale alors que la charge continue à augmenter
menant à la surcharge de ce serveur. Cependant, Il est important que la
fréquence d’échantillonnage et la communication soient suffisamment rapide
pour pouvoir détecter et traiter les montées de charge efficacement.
Ce chapitre présente un exemple simple pour expliquer la mise en oeuvre
de notre approche. Nous verrons dans le chapitre suivant un exemple plus
compliqué et plus réaliste.
754.5. CONCLUSION
765
Gestion du dimensionnement dynamique et de
la réparation d’un système multi-tiers
Contents
5.1 Gestionnaires autonomes non coordonnés . . . . . . . . . . . 79
5.1.1 Gestionnaire d’auto-dimensionnement : Self-sizing . . 79
5.1.2 Gestionnaire d’auto-réparation : Self-repair . . . . . . . 80
5.2 Problèmes d’administration d’un système multi-tiers . . . . 81
5.3 Conception du contrôleur de coordination . . . . . . . . . . . 84
5.3.1 Modélisation du contrôle des gestionnaires . . . . . . . 84
5.3.1.1 Modélisation du contrôle de self-sizing . . . . 84
5.3.1.2 Modélisation du contrôle de self-repair . . . . 84
5.3.2 Spécification de la coordination . . . . . . . . . . . . . . 86
5.3.2.1 Stratégie de coordination . . . . . . . . . . . . 86
5.3.2.2 Spécification du contrat . . . . . . . . . . . . . 87
5.3.2.3 Programme final . . . . . . . . . . . . . . . . . 89
5.4 Expérimentations . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.4.1 Configuration . . . . . . . . . . . . . . . . . . . . . . . . 91
5.4.2 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.4.2.1 Comportement non coordonné . . . . . . . . 92
5.4.2.2 Comportement coordonné . . . . . . . . . . . 95
5.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
77Dans ce chapitre nous utilisons notre approche pour la coordination de gestionnaires
autonomes pour garantir la performance, l’optimisation de ressources
et la disponibilité d’un système distribué. La performance peut être considérée
comme étant la capacité à répondre à plusieurs requêtes simultanément dans
un délai acceptable, et la disponibilité comme étant la capacité à résister aux
pannes. Pour assurer la performance et la disponibilité d’un système, ce dernier
est généralement basé sur la réplication. Les serveurs sont dupliqués sur des
machines distinctes et les requêtes sont distribuées aux instances de serveurs
par un répartiteur de charge. Cela permet d’améliorer la performance et la
tolérance aux pannes.
Tomcat
Ressources
(cpu, mem, ...) (cpu, mem, ...)
Ressources
Tomcat
...
...
... Ressources
(cpu, mem, ...)
Tomcat
(cpu, mem, ...)
Ressources
Apache
(cpu, mem, ...)
Ressources
MySql−PROXY
...
(cpu, mem, ...) (cpu, mem, ...) (cpu, mem, ...)
Ressources Ressources Ressources
MySQL MySQL MySQL
...
...
...
Wk’/n Wk’/n Wk’/n
WK/m WK/m WK/m
Workload (WK)
(mod_jk)
(jdbc) (jdbc) (jdbc)
Wk’: SQL Query reading
FIGURE 5.1 – Application JEE
Un exemple de système distribué que nous considérons est le système multitiers
JEE présenté à la figure 5.1. Il est constitué d’un serveur web Apache 1
, de
serveurs d’application Tomcat 2 dupliqués, d’un serveur Mysql-proxy 3
et de
serveurs de bases de données Mysql 4
également dupliqués. Les requêtes entrantes
sont reçues par le serveur Apache. Ce dernier les distribue aux serveurs
1. http://httpd.apache.org/
2. http://tomcat.apache.org/
3. http://dev.mysql.com/doc/refman/5.1/en/mysql-proxy.html
4. http://www.mysql.com/
78Tomcat pour leur traitement. Les serveurs Tomcat accèdent aux bases de données
via le serveur Mysql-proxy qui est un répartiteur de charge pour les
serveurs Mysql. Le serveur Mysql-proxy distribue équitablement les requêtes
de lecture aux serveurs Mysql.
L’une des difficultés lors du déploiement de ce genre de système est le dimensionnement.
La variation du nombre de requêtes à traiter fait qu’il peut être
difficile d’estimer le nombre de serveurs dupliqués à utiliser lors du démarrage
du système. Une configuration statique du nombre de serveurs peut conduire
la plupart du temps à une estimation abusive du nombre de serveurs. Cela peut,
peut-être, permettre d’avoir de bonnes performances, mais avec un coût très
élevé, e.g., consommation énergétique élevée. Ajuster dynamiquement le degré
de réplication à l’exécution permet d’allouer le nombre nécessaire de serveurs
en fonction du nombre de requêtes à satisfaire. De plus l’état des serveurs
doit être surveillé en permanence pour détecter les pannes. Il est nécessaire de
réparer les pannes afin d’éviter de perdre tous les serveurs. Pour cela, des gestionnaires
comme self-sizing et self-repair peuvent être utilisés pour la gestion
du dimensionnement dynamique et la réparation de serveurs d’un système
multi-tiers. Toutefois, la coordination de ces gestionnaires peut être nécessaire
pour éviter des opérations incohérentes. En effet l’occurrence de panne dans
un tier répliqué peut avoir un impact sur la charge des serveurs restants au
niveau du tier. Elle peut également avoir un impact sur la charge des tiers qui
lui succèdent dans la chaîne de traitement. Cela peut conduire à une mauvaise
interprétation de la charge à traiter et une mauvaise évaluation du nombre de
serveurs nécessaires pour traiter les requêtes.
5.1 Gestionnaires autonomes non coordonnés
Les gestionnaires assurent la gestion de la disponibilité, la performance et
l’optimisation des ressources de calcul. Ces derniers sont conçus indépendamment.
5.1.1 Gestionnaire d’auto-dimensionnement : Self-sizing
Nous ré-utilisons le même gestionnaire décrit à la section 4.1.1.
795.1. GESTIONNAIRES AUTONOMES NON COORDONNÉS
5.1.2 Gestionnaire d’auto-réparation : Self-repair
Le gestionnaire self-repair, représenté dans la figure 5.2, est dédié à la restauration
d’un système ou les éléments constituant le système suite à l’occurrence
de pannes. Il traite les pannes franches de machines. Il a une connaissance
de la structure du système administré. Il connaît l’ensemble des machines
sur lesquelles s’exécutent les éléments logiciels constituant le système, ainsi
que l’ensemble des ressources matérielles non utilisées et disponibles pour
permettre la reconfiguration du système.
Connaissance
Capteurs Actionneurs
Elements administres
en cours d’utilisation disponibles
Execution
Reparer
Planification
hearbeat Reparer
(accessible) ?
Analyse
Gestionnaire d’auto−reparation
Observation
(cpu, mem, ...) (cpu, mem, ...) Ressource Ressource
FIGURE 5.2 – Gestionnaire d’auto-réparation
Comme le montre la figure 5.2, des sondes contactent périodiquement les
machines en cours d’utilisation afin de vérifier leur accessibilité. Les sondes
utilisées dans cet exemple sont de type Ping. Si aucune réponse n’est reçue
après l’écoulement du temps de latence alors la machine qui ne répond pas
est considérée en panne. Lorsqu’une machine est considérée comme en panne,
le gestionnaire détermine les éléments logiciels et matériels qui sont affectés
par cette panne. Il détermine ensuite les logiciels que la machine défaillante
exécutait et ceux qui sont liés à ces logiciels. Cette analyse est effectuée sur la
base de la connaissance que le gestionnaire a de l’état courant et de la structure
de système. Sans cette connaissance, la restauration du système ne peut être
80réalisée car l’information nécessaire pour la reconstruction serait perdue avec la
défaillance. Une fois que les éléments impactés par la panne sont identifiés, le
gestionnaire planifie la reconstruction du système. Cette reconstruction consiste
à redémarrer sur d’autres machines disponibles les logiciels qui s’exécutaient
sur la machine défaillante et rétablir les liaisons entre les éléments. L’exécution
des opérations de reconfiguration est effectuée via les actionneurs fournis par
le système administré qui permettent l’allocation de machines, le déploiement
et la configuration des éléments logiciels et matériels du système.
Ce gestionnaire permet la disponibilité du système administré en restaurant
le service après une défaillance d’une machine. Dans le cas d’un système basé
sur la réplication de serveurs, il permet la restauration du degré de redondance
des serveurs. Cela permet de tolérer jusqu’à m-1 pannes de serveurs durant le
temps moyen de réparation (MTTR).
5.2 Problèmes d’administration d’un système multitiers
Dans un système basé sur une architecture multi-tiers, une panne d’un
serveur d’un des tiers peut affecter le tier et ceux qui suivent dans la chaîne de
traitement des requêtes.
L’occurrence d’une panne au niveau du tier peut entraîner une baisse de
charge au niveau des serveurs des autres tiers qui suivent. Ces derniers risquent
de ne plus recevoir autant de requêtes à traiter qu’avant la panne. Cela peut
causer une sous-charge au niveau de ces tiers. Par exemple, sur la figure 5.3,
la panne du serveur Apache entraîne une baisse de charge au niveau des tiers
Tomcat, Mysql-Proxy et Mysql. Ces derniers ne reçoivent plus de requêtes car
le serveur Apache est l’entrée du système. Sur la figure 5.4, la panne du serveur
Mysql-Proxy entraîne une baisse de charge au niveau du tier Mysql car le
serveur Mysql-Proxy reçoit les requêtes à transmettre aux serveurs Mysql.
Dans le cas d’un tier basé sur la répartition de charge, la panne d’un des
serveurs peut entraîner une surcharge des autres serveurs. Lorsqu’un des
serveurs dupliqués tombe en panne la charge qu’il doit traiter est répartie entre
les autres serveurs restants. Cela peut entraîner une hausse de charge au niveau
de ces derniers et peut causer la saturation des machines qui les exécutent. Sur
815.2. PROBLÈMES D’ADMINISTRATION D’UN SYSTÈME MULTI-TIERS
Tomcat
Ressources
(cpu, mem, ...) (cpu, mem, ...)
Ressources
Tomcat
...
...
... Ressources
(cpu, mem, ...)
Tomcat
(cpu, mem, ...)
Ressources
Apache
(cpu, mem, ...)
Ressources
MySql−PROXY
...
(cpu, mem, ...) (cpu, mem, ...) (cpu, mem, ...)
Ressources Ressources Ressources
MySQL MySQL MySQL
...
...
...
Wk’/n Wk’/n Wk’/n
WK/m WK/m WK/m
Workload (WK)
(mod_jk)
(jdbc) (jdbc) (jdbc)
Wk’: SQL Query reading
FIGURE 5.3 – Panne du serveur Apache
Tomcat
Ressources
(cpu, mem, ...) (cpu, mem, ...)
Ressources
Tomcat
...
...
... Ressources
(cpu, mem, ...)
Tomcat
(cpu, mem, ...)
Ressources
Apache
(cpu, mem, ...)
Ressources
MySql−PROXY
...
(cpu, mem, ...) (cpu, mem, ...) (cpu, mem, ...)
Ressources Ressources Ressources
MySQL MySQL MySQL
...
...
...
Wk’/n Wk’/n Wk’/n
WK/m WK/m WK/m
Workload (WK)
(mod_jk)
(jdbc) (jdbc) (jdbc)
Wk’: SQL Query reading
FIGURE 5.4 – Panne du serveur Mysql-Proxy
la figure 5.5, la panne d’un serveur Tomcat entraîne une hausse de la charge
des autres serveurs Tomcat actifs. Sur la figure 5.6, la panne d’un serveur mysql
entraîne une hausse de la charge des autres serveurs Mysql actifs.
Lorsque des instances des gestionnaires self-sizing et self-repair sont utilisées
pour gérer les différents tiers d’un système de ce type, les pannes peuvent
entraîner des opérations d’administration inutiles. En effet l’occurrence d’une
82Tomcat
Ressources
(cpu, mem, ...) (cpu, mem, ...)
Ressources
Tomcat
...
...
... Ressources
(cpu, mem, ...)
Tomcat
(cpu, mem, ...)
Ressources
Apache
(cpu, mem, ...)
Ressources
MySql−PROXY
...
(cpu, mem, ...) (cpu, mem, ...) (cpu, mem, ...)
Ressources Ressources Ressources
MySQL MySQL MySQL
...
...
...
Wk’/n Wk’/n Wk’/n
Workload (WK)
WK/(m −1) WK/(m −1)
(mod_jk)
(jdbc) (jdbc) (jdbc)
Wk’: SQL Query reading
FIGURE 5.5 – Panne d’un serveur Tomcat
Tomcat
Ressources
(cpu, mem, ...) (cpu, mem, ...)
Ressources
Tomcat
...
...
... Ressources
(cpu, mem, ...)
Tomcat
(cpu, mem, ...)
Ressources
Apache
(cpu, mem, ...)
Ressources
MySql−PROXY
...
(cpu, mem, ...) (cpu, mem, ...) (cpu, mem, ...)
Ressources Ressources Ressources
MySQL MySQL MySQL
...
...
...
WK/m WK/m WK/m
Workload (WK)
Wk’/(n −1) Wk’/(n −1)
(mod_jk)
(jdbc) (jdbc) (jdbc)
Wk’: SQL Query reading
FIGURE 5.6 – Panne d’un serveur MySQL
panne d’un serveur d’un tier, détectée par le self-repair gérant ce tier, entraîne
l’exécution d’une opération de restauration du serveur. Cependant cette panne
peut occasionner une surcharge des autres serveurs durant la réparation. Dans
ce cas le self-sizing dédié à la gestion du dimensionnement du tier où la panne
s’est produite peut entamer une opération d’ajout d’un nouveau serveur alors
que la panne est entrain d’être traitée. Si la charge n’a pas varié alors il y aura
835.3. CONCEPTION DU CONTRÔLEUR DE COORDINATION
un serveur en trop et qui sera probablement arrêté par le self-sizing après la
réparation. La panne peut également conduire à la baisse de la charge des tiers
suivants. Si les instances de self-sizing au niveau de ces tiers détectent une
sous-charge, ils vont enlever des serveurs pour optimiser les ressources. Mais
une fois la panne réparée, si la charge n’a pas varié cela peut conduire à la
saturation des tiers jusqu’à ce que les serveurs soient relancés par les self-sizing.
Durant cette période une dégradation de la performance du système peut être
observée.
5.3 Conception du contrôleur de coordination
Cette section présente la conception d’un contrôleur de coordination des instances
de self-repair et self-sizing pour l’administration du système multi-tiers
présenté à la figure 5.1. Nous modélisons le contrôleur de coordination comme
la composition des comportements des gestionnaires autonomes à laquelle est
associée une politique de coordination pour éviter les comportements incohérents.
5.3.1 Modélisation du contrôle des gestionnaires
Cette section décrit les modèles des gestionnaires autonomes. Chaque gestionnaire
est modélisé par un ou plusieurs automates qui décrivent son comportement
et le contrôle des actions d’administration qu’il peut exécuter.
5.3.1.1 Modélisation du contrôle de self-sizing
Nous ré-utilisons le modèle de self-sizing défini à la section 4.3.1.1.
5.3.1.2 Modélisation du contrôle de self-repair
Le modèle de self-repair est constitué de deux automates, représentés à la
figure 5.7.
L’automate à gauche modélise le contrôle des actions de réparation. Il a deux
états : Enable et Disable. L’état Enable, état initial, indique que les actions de
réparation sont autorisées et l’état Disable indique que les actions de réparation
84Enable
Disable
not cR/ cR/
disabled=False
disabled=True
Wait
Repair
repaired and
failure /
repair
failure and
not disabled/
repair
repaired and
not failure/
repairing=False
repairing=True
(disabled, repair, repairing)= REPAIR_MODEL (cR, failure, repaired)
FIGURE 5.7 – Modéle de contrôle de self-repair
sont interdites. Le changement d’états est contrôlé par l’entrée cR. Lorsqu’elle
est à true les actions sont interdites. L’état du contrôle des actions de réparation
est indiqué en sortie par la variable d’état disabled qui est à true lorsque les
actions sont interdites.
L’automate à droite modélise le comportement du gestionnaire. Il est constitué
de deux états : Wait et Repair. L’état Wait, état initial, représente l’état dans
lequel self-repair attend la détection d’une panne. L’état Repair représente
l’état dans lequel le gestionnaire est en train d’effectuer la réparation de la
panne. L’occurrence d’une panne est représentée par l’entrée failure à true.
Dans l’état Wait, à l’occurrence d’une panne, self-repair réagit, si autorisée, en
produisant l’action repair et se met dans l’état Repair. La fin de la réparation
est représentée par l’entrée repaired à true. Si aucune panne est détectée, selfrepair
retourne dans l’état d’attente Wait. En cas de panne, il réagit en réparant
la panne. La sortie repairing indique l’état courant de l’automate. Elle est à
true lorsque l’automate est dans l’état Repair.
855.3. CONCEPTION DU CONTRÔLEUR DE COORDINATION
5.3.2 Spécification de la coordination
La coexistence des gestionnaires self-sizing et self-repair est représentée par
la composition d’instances des automates qui décrivent leur comportement,
illustrée à la figure 5.8. Nous avons quatre instances du modèle du gestionnaire
self-repair et deux instances du modèle du gestionnaire self-sizing.
(A_disabled, A_repair_server, A_repairing,
T_disabled, T_repair_server, T_repairing,
T_disabledUp, T_disabledDown, T_add_server, T_remove_server, T_adding, T_max, T_min,
. . .) = MULTITIER (A_c, T_c, P_c, M_c, T_cUp, T_cDown, M_cUp, M_cDown,
A_failure, A_repaired,
T_failure, T_repaired,
T_Underload, T_Overload, T_max_machine, T_min_machine . . .)
(A_disabled, A_repair_server, A_repairing) = REPAIR_MODEL (A_c, A_failure, A_repaired);
(T_disabled, T_repair_server, T_repairing) = REPAIR_MODEL (T_c, T_failure, T_repaired);
(T_disabledUp, T_disabledDown, T_add_server, T_remove_server, T_adding, T_max, T_min) =
SIZING_MODEL (T_cUp, T_cDown, T_Underload, T_Overload, T_max_machine, T_min_machine . . .);
(P_disabled, P_repair_server, P_repairing) = REPAIR_MODEL (P_c, P_failure, P_repaired);
(M_disabled, M_repair_server, M_repairing) = REPAIR_MODEL (M_c, M_failure, M_repaired);
(M_disabledUp, M_disabledDown, M_add_server, M_remove_server, M_adding, M_max, M_min) =
SIZING_MODEL (M_cUp, M_cDown, M_Underload, M_Overload, M_max_machine, M_min_machine . . .);
FIGURE 5.8 – Composition des modèles de self-sizing et self-repair
Les entrées et sorties des instances d’automates sont renommées, en ajoutant
un préfixe, pour distinguer les gestionnaires qu’ils représentent : "A_" pour
le gestionnaire dédié au tier Apache, "T_" pour le tier Tomcat, "P_" pour le
tier Mysql-proxy, et " M_" pour le tier Mysql. Par exemple, l’entrée A_failure
représente une panne du serveur Apache. Les entrées de la composition MULTITIER
correspondent à l’union de toutes les entrées des automates contenus. Les
sorties de la composition correspondent également à l’union des sorties des
automates.
5.3.2.1 Stratégie de coordination
La stratégie de coordination consiste à empêcher les gestionnaires self-sizing
d’exécuter des actions d’ajout ou de retrait de serveurs en cas de panne. En effet,
une panne d’un serveur d’un tier peut entraîner une surcharge au niveau du
tier et une sous-charge au niveau des tiers qui suivent. De ce fait, traiter d’abord
la panne avant de prendre en compte les événements de surcharge ou de souscharge
peut être plus pertinent. Cela peut empêcher des réactions inutiles
86qui conduisent à des ajouts et/ou des retraits de serveurs. Le contrôle des
actions des gestionnaires self-sizing est basé sur les activités des gestionnaires
self-repair. La stratégie est décrite ci-dessous de manière textuelle :
Condition 1 : Ignorer la surcharge détectée au niveau du tier Tomcat — En
cas de panne dans le tier Tomcat, toute surcharge dans ce tier est ignorée tant
que la réparation n’est pas terminée.
Condition 2 : Ignorer la sous-charge détectée au niveau du tier Tomcat — En
cas de panne dans le tier Apache, toute sous-charge dans le tier Tomcat est
ignorée tant que la réparation de la panne n’est pas terminée.
Condition 3 : Ignorer la surcharge détectée au niveau du tier Mysql — En cas
de panne dans le tier Mysql, toute surcharge dans ce tier est ignorée tant que la
réparation n’est pas terminée.
Condition 4 : Ignorer la sous-charge détectée au niveau du tier Mysql — En
cas de panne dans les tiers Apache, Tomcat et Mysql-proxy, toute sous-charge
dans le tier Mysql est ignorée tant que la réparation de la panne n’est pas
terminée.
5.3.2.2 Spécification du contrat
Nous définissons la stratégie sous forme de propriétés d’invariance. Ces
propriétés sont exprimées via les sorties des automates à la figure 5.8. Certaines
propriétés sont spécifiées dans le contrat et assurées par le contrôleur généré.
D’autres sont manuellement programmées. Ci-dessous nous décrivons les
spécifications formelles de la stratégie de coordination.
Condition 1. Cette condition consiste à ignorer les surcharges détectées dans
le tier Tomcat en cas de panne d’un serveur Tomcat. Lors de la réparation d’un
Tomcat, le gestionnaire self-sizing chargé du dimensionnement dynamique de
ce tier ne doit pas réagir aux surcharges. Cela est exprimé par :
invariant1.1 = T_repairing XOR not T_disabledUp
T_repairing étant à true exprime le fait que la réparation d’un serveur
Tomcat est en cours. (not T_disabledUp) étant à true exprime le fait que les
opérations d’ajout de self-sizing sont autorisées. Empêcher (not T_disabledUp)
875.3. CONCEPTION DU CONTRÔLEUR DE COORDINATION
d’être à true quand T_repairing est à true assure qu’aucune opération d’ajout
ne sera exécutée durant une réparation.
invariant1.2 = not (T_repair_server and T_add_server)
T_repair_server étant à true exprime le fait que self-repair entame une
opération de réparation. T_add_server étant à true exprime le fait que selfsizing
entame une opération d’ajout. Cette propriété empêche, au niveau du tier
Tomcat, l’activation d’une opération d’ajout et d’une opération de réparation
dans la même réaction.
Condition 2. Cette condition consiste à ignorer les sous-charges détectées
dans le tier Tomcat en cas de panne du serveur Apache. Cela implique l’inhibition
des opérations de retrait de serveurs au niveau du tier Tomcat lorsque le
serveur apache est en train d’être réparé :
invariant2.1 = A_repairing XOR not T_disabledDown
Cette propriété permet d’inhiber les opérations de retrait au niveau du tier
Tomcat lorsque le serveur Apache est en cours de réparation.
invariant2.2 = not (A_repair_server and T_remove_server)
Cette propriété empêche l’activation d’une opération de retrait de serveur
au niveau du tier Tomcat et d’une opération de réparation du serveur Apache
dans la même réaction.
Condition 3. Cette condition consiste à ignorer les surcharges détectées dans
le tier Mysql en cas de panne d’un serveur Mysql en cours de réparation. Lors
de la réparation d’un Mysql, le gestionnaire self-sizing chargé du dimensionnement
dynamique de ce tier ne doit pas réagir aux surcharges. Cela est exprimé
par :
invariant3.1 = M_repairing XOR not M_disabledUp
Cette propriété est similaire à invariant1.1.
invariant3.2 = not (M_repair_server and M_add_server)
Cette propriété est similaire à invariant1.2.
Condition 4. Cette condition consiste à ignorer les sous-charges détectées
dans le tier Mysql en cas de panne du serveur Apache, du serveur Mysql-Proxy
88ou d’un serveur Tomcat et en cours de réparation. Cela implique l’inhibition
des opérations de retrait de serveurs au niveau du tier Mysql lorsqu’un serveur
au niveau des tiers qui précédent est en train d’être réparé :
Soit APT_repairing correspondant à (A_repairing or P_repairing or
T_repairing), et APT_repair_server correspondant à (A_repair_server or
P_repair_server or T_repair_server).
invariant4.1 = APT_repairing XOR not M_disabledDown
La propriété invariant4.1 permet l’inhibition des opérations de retrait au
niveau du tier Mysql lorsque des réparation sont en cours au niveau des autres
tiers.
invariant4.2 = not (APT_repair_server and M_remove_server)
La propriété invariant4.2 empêche l’activation d’une opération de retrait de
serveur au niveau du tier Mysql et d’une opération de réparation d’un serveur
dans les autres tiers, dans la même réaction.
5.3.2.3 Programme final
(A_repair_server, T_repair_server, T_add_server, T_remove_server . . .) =
COORDINATED_MULTITIER (A_failure, A_repaired,
T_failure, T_repaired,
T_Underload, T_Overload, T_max_machine, T_min_machine . . .)
enforce (invariant1.1 and invariant2.1 and invariant3.1 and invariant4.1 and
invariant1.2 and invariant2.2 and invariant3.2 and invariant4.2)
with A_c, T_c, P_c, M_c, T_cUp, T_cDown, M_cUp, M_cDown
APT_failure = A_failure or P_failure or T_failure;
. . .
T_Overload’ = not T_failure and T_Overload;
T_Underload’ = not A_failure and T_Underload;
M_Overload’ = not M_failure and M_Overload;
M_Underload’ = not APT_failure and M_Underload;
. . .
(A_disabled, A_repair_server, A_repairing,
T_disabled, T_repair_server, T_repairing,
T_disabledUp, T_disabledDown, T_add_server, T_remove_server, T_adding, T_max, T_min,
. . .) = MULTITIER (A_c, T_c, P_c, M_c, T_cUp, T_cDown, M_cUp, M_cDown,
A_failure, A_repaired,
T_failure, T_repaired,
T_Underload’, T_Overload’, T_max_machine, T_min_machine . . .);
FIGURE 5.9 – Coordination des instances de self-sizing et self-repair
La figure 5.9 décrit le modèle de la coordination des gestionnaires. Ce
modèle est constitué du modèle de la coexistence des gestionnaires auquel
895.4. EXPÉRIMENTATIONS
est associé un contrat exprimant la stratégie de coordination. A la compilation,
Heptagon/BZR génère la logique de contrôle qui restreint la composition
MULTITIER aux comportements qui respectent les propriétés invariant1.1,
invariant2.1, invariant3.1 et invariant4.1. Cette logique de contrôle est automatiquement
intégrée dans le modèle global.
Propriétés programmées manuellement. Les propriétés invariant1.2, invariant2.2,
invariant3.2 et invariant4.2 sont assurées par programmation du code Heptagon/BZR
qui les réalise et non par SCD. Elles sont vérifiées à la compilation. La compilation
réussit si ces propriétés sont satisfaites.
Pour la propriété invariant1.2, nous définissons une variable T_Overload’
qui permet de filtrer les surcharges en fonction des pannes détectées. T_Overload’
est à true lorsque T_Overload est à true et T_failure est à false. Nous remplaçons
T_Overload par T_Overload’ pour la notification d’une surcharge au
modèle du self-sizing du tier Tomcat. La valeur de T_Overload’ est définie
par : « not T_failure and T_Overload ». Cela permet de ne pas notifier une
surcharge lorsqu’une panne est détectée dans la même réaction. Cette expression
permet d’assurer la propriété invariant1.2. Le même principe est utilisé
pour les autres propriétés programmées manuellement.
5.4 Expérimentations
L’objectif des expérimentations est d’évaluer le comportement du contrôleur
de coordination construit pour coordonner les gestionnaires self-sizing et selfrepair
afin d’éviter des décisions d’administration incohérentes.
La plate-forme expérimentale est constituée de machines munies de processeurs
Dual-Core de 1.66Ghz et 1.9Go de mémoire, de machines munies de
processeurs Dual-Core de 2,53 Ghz et 3.4Go de mémoire, et des machines munies
de processeurs Dual-Core de 1.20Ghz et 1.5Go de mémoire. Les machines
sont inter-connectées via un réseau Ethernet (1 Gbit/s). Pour l’ensemble des
expérimentations, une seule instance de serveur Apache et une instance de
serveur Mysql-Proxy sont utilisées. Les tiers Tomcat et Mysql sont basés sur la
réplication. Chaque machine héberge un seul serveur.
Quatre instances du gestionnaire self-repair sont utilisées, chaque tier est
90géré par une instance pour la gestion des pannes. Les tiers basés sur la réplication
sont les tiers Tomcat et Mysql. Deux instances du gestionnaire self-sizing
sont utilisées, chacun de ces deux tiers est géré par une instance pour le dimensionnement
dynamique du nombre de serveurs dupliqués actifs. Le contrôleur
de coordination généré est responsable de la coordination des actions des quatre
instances de self-repair et des deux instances de self-sizing.
5.4.1 Configuration
L’évaluation a été réalisée avec l’application multi-tiers JEE de référence
RUBiS [17]. Elle implante un site de vente aux enchères [50] et définit plusieurs
types d’interactions Web (e.g., l’enregistrement de nouveaux utilisateurs, la
navigation, l’achat ou la vente d’objets). Le déploiement de RUBiS est basé sur
une architecture distribuée constituée d’un front-end et d’un back-end. Le frontend
est un cluster constitué des serveurs d’application Tomcat dupliqués et d’un
serveur web Apache comme équilibreur de charge. Et le back-end est un cluster
constitué des serveurs de bases de données Mysql et du serveur Mysql-proxy
comme équilibreur de charge pour les serveurs Mysql. L’évaluation représente
un réel problème qui peut être rencontré dans un environnement de cloud
computing avec des capacités de recouvrement et des capacités d’élasticité.
Initialement lors de chaque exécution, le système est démarré avec un
serveur au niveau de chaque tier, c’est à dire, un serveur Apache, un serveur
Tomcat, un serveur de Mysql-proxy et un serveur Mysql. Nous injectons une
charge croissante (correspondant à la période de la création des threads qui
simulent les actions des clients) puis une charge constante (correspondant à
l’achèvement de la création de l’ensemble des «clients/threads»). Nous attendons
qu’il y ait deux serveurs Tomcat actifs et deux serveurs Mysql actifs pour
déclencher des pannes.
5.4.2 Évaluation
Nous avons effectué des expérimentations durant lesquelles les gestionnaires
ne sont pas coordonnés et d’autres durant lesquelles les gestionnaires
sont coordonnés. La même configuration et le même profil de charge de travail
sont utilisés lors des différentes exécutions aussi bien non coordonnées que
915.4. EXPÉRIMENTATIONS
coordonnées. Les expérimentations non coordonnées permettent de voir le
comportement des gestionnaires suite à l’occurrence d’une panne. Les expérimentations
coordonnées permettent de voir si le contrôleur de coordination
contrôle les gestionnaires afin d’assurer le respect de la politique de coordination.
Nous déclenchons des pannes lorsque la charge est constante pour voir
leurs impacts au niveau des tiers et aussi pour voir comment les différentes
instances des gestionnaires réagissent.
5.4.2.1 Comportement non coordonné
Comme dit plus haut, une panne au niveau d’un tier peut avoir un impact
sur le tier mais également sur les tiers qui suivent.
0
10
20
30
40
50
60
70
80
90
100
0 5 10 15 20 25 30 35 40
0
1
2
3
4
5
Charge CPU (%)
Nbre Tomcat - Nbre Mysql
Duree (minute)
Avg cpu Tomcats
Avg cpu Mysqls
Tomcats actifs
Mysqls actifs
Panne Apache
FIGURE 5.10 – Exécution non coordonnée : Panne du serveur Apache
La figure 5.10 présente une exécution durant laquelle le serveur Apache
tombe en panne. L’occurrence de la panne du serveur Apache, 17 minutes après
le début de l’exécution, provoque une baisse de charge au niveau des tiers
Tomcat et Mysql (18 min). Une sous-charge est détectée au niveau de ces tiers
et a conduit au retrait de serveurs dupliqués. Cependant après la réparation
92du serveur Apache (19 min), la charge est redevenue normale et les serveurs
précédemment retirés ont été démarrés à nouveau à cause d’une sur-charge
(Tomcat : 20 min et Mysql : 25 min).
0
10
20
30
40
50
60
70
80
90
100
0 5 10 15 20 25 30 35 40 45
0
1
2
3
4
5
Charge CPU (%)
Nbre Tomcat - Nbre Mysql
Duree (minute)
Avg cpu Tomcats
Avg cpu Mysqls
Tomcats actifs
Mysqls actifs
Panne Tomcat
FIGURE 5.11 – Exécution non coordonnée : Panne d’un serveur Tomcat
La figure 5.11 présente une exécution durant laquelle un serveur Tomcat
tombe en panne. Cette panne, survenue 26 minutes après le début de l’exécution,
a provoqué un hausse de charge au niveau du tier (27 min) et aussi une baisse
de charge au niveau du tier Mysql (27 min). La hausse de charge a conduit à une
surcharge du tier Tomcat conduisant à l’ajout d’un nouveau serveur Tomcat. La
baisse de charge au niveau du tier Mysql a conduit au retrait d’un serveur à
cause d’une sous-charge des serveurs. Mais après la restauration (28 min) du
serveur Tomcat tombé en panne, le serveur Tomcat précédemment ajouté est
retiré et le serveur Mysql qui était retiré est rajouté à nouveau à cause d’une
surcharge (31 min).
La figure 5.12 présente une exécution durant laquelle le serveur Mysql-proxy
tombe en panne. L’occurrence de la panne du serveur Mysql-proxy, survenue 17
minutes après le début de l’exécution, provoque une baisse de charge au niveau
du tier Mysql (18 min). Une sous-charge est détectée et a conduit au retrait
d’un serveur Mysql. Cependant après la réparation du serveur Mysql-proxy
935.4. EXPÉRIMENTATIONS
0
10
20
30
40
50
60
70
80
90
100
0 5 10 15 20 25 30 35 40
0
1
2
3
4
5
Charge CPU (%)
Nbre Tomcat - Nbre Mysql
Duree (minute)
Avg cpu Tomcats
Avg cpu Mysqls
Tomcats actifs
Mysqls actifs
Panne M-proxy
FIGURE 5.12 – Exécution non coordonnée : Panne du serveur Mysql-proxy
(19 min), la charge est redevenue normale et le serveur précédemment retiré a
été démarré à nouveau à cause d’une sur-charge (20 min).
La figure 5.13 présente une exécution durant laquelle un serveur Mysql
tombe en panne. Cette panne, survenue 18 minutes après le début de l’exécution,
a provoqué une surcharge du serveur Mysql restant (20 min). Cela a conduit
à un ajout d’un serveur Mysql alors que celui tombé en panne est en cours de
restauration. Après la restauration, le serveur ajouté est retiré à cause d’une
baisse de charge (22 min).
Les pannes peuvent entraîner des réactions des instances du gestionnaire
self-sizing à cause de leur impact sur la répartition de la charge à traiter. Cependant,
à moins que la charge en entrée ait changé, les actions de ces instances
de self-sizing ne sont pas nécessaires. En effet, une fois les pannes réparées, le
degré de réplication, observé avant les pannes, est restauré.
94 0
10
20
30
40
50
60
70
80
90
100
0 5 10 15 20 25 30 35 40
0
1
2
3
4
5
Charge CPU (%)
Nbre Tomcat - Nbre Mysql
Duree (minute)
Avg cpu Tomcats
Avg cpu Mysqls
Tomcats actifs
Mysqls actifs
Panne Mysql
FIGURE 5.13 – Exécution non coordonnée : Panne d’un serveur Mysql
5.4.2.2 Comportement coordonné
Les figures suivantes présentent les exécutions durant lesquelles les instances
de self-sizing et de self-repair sont coordonnées. La coordination est
assurée par le contrôleur modélisé à la section 5.3.
La figure 5.14 présente une exécution durant laquelle le serveur Apache
tombe en panne. L’occurrence de la panne (min. 19) provoque une diminution
de la charge à la fois au niveau du tier Tomcat et au niveau du tier Mysql. Une
sous-charge (10% de charge CPU) au niveau de ces tiers est observée cependant
aucune opération de retrait de serveur est exécutée ni au niveau du tier Tomcat
ni au niveau du tier Mysql. A la fin de la réparation du serveur Apache, la
charge est redevenue normale au niveau des tiers Tomcat et Mysql.
La figure 5.15 présente une exécution durant laquelle un serveur Tomcat est
en panne. La panne survient 17 minutes après le début de l’expérimentation et
provoque une hausse de la charge du serveur Tomcat restant. Cette hausse de
charge a conduit à une surcharge du serveur Tomcat restant (19 min). Cependant
aucune opération d’ajout de serveur est exécutée par l’instance de self-sizing
qui gère le tier Tomcat. Une baisse de la charge est également observée au
955.4. EXPÉRIMENTATIONS
0
10
20
30
40
50
60
70
80
90
100
0 5 10 15 20 25 30 35 40
0
1
2
3
4
5
Charge CPU (%)
Nbre Tomcat - Nbre Mysql
Duree (minute)
Avg cpu Tomcats
Avg cpu Mysqls
Tomcats actifs
Mysqls actifs
Panne Apache
FIGURE 5.14 – Exécution coordonnée : Panne du serveur Apache
0
10
20
30
40
50
60
70
80
90
100
0 5 10 15 20 25 30 35 40
0
1
2
3
4
5
Charge CPU (%)
Nbre Tomcat - Nbre Mysql
Duree (minute)
Avg cpu Tomcats
Avg cpu Mysqls
Tomcats actifs
Mysqls actifs
Panne Tomcat
FIGURE 5.15 – Exécution coordonnée : Panne d’un serveur Tomcat
96niveau du tier Mysql jusqu’en dessous du seuil minimal toléré. Mais sur ce
tier aussi aucune opération de retrait de serveur est exécutée par l’instance de
self-sizing qui le gère. La charge au niveau des tiers est redevenue normale
après la réparation du serveur Tomcat.
0
10
20
30
40
50
60
70
80
90
100
0 5 10 15 20 25 30 35 40
0
1
2
3
4
5
Charge CPU (%)
Nbre Tomcat - Nbre Mysql
Duree (minute)
Avg cpu Tomcats
Avg cpu Mysqls
Tomcats actifs
Mysqls actifs
Panne M-proxy
FIGURE 5.16 – Exécution coordonnée : Panne du serveur Mysql-proxy
La figure 5.16 présente une exécution durant laquelle on observe une panne
du serveur Mysql-proxy. Cette panne survenue 16 minutes après le début de
l’expérimentation a occasionné une baisse de charge au niveau du tier Mysql.
Cependant aucune opération de retrait est effectuée sur le tier Mysql et la charge
est redevenue normale après la réparation.
L’occurrence d’une panne de serveur Mysql, observée 17 minutes après le
début de l’expérimentation sur la figure 5.17, occasionne une hausse de charge
au niveau du Mysql restant. Cependant là également aucune opération d’ajout
est observée. Le degré de réplication au niveau du tier Mysql n’a pas varié
durant la réparation de la panne. La charge est redevenue normale après la
réparation de la panne.
975.5. CONCLUSION
0
10
20
30
40
50
60
70
80
90
100
0 5 10 15 20 25 30 35 40
0
1
2
3
4
5
Charge CPU (%)
Nbre Tomcat - Nbre Mysql
Duree (minute)
Avg cpu Tomcats
Avg cpu Mysqls
Tomcats actifs
Mysqls actifs
Panne Mysql
FIGURE 5.17 – Exécution coordonnée : Panne d’un serveur Mysql
5.5 Conclusion
Le contrôleur de coordination obtenu est en mesure de coordonner les gestionnaires
afin d’assurer le respect de la politique de la coordination. Il empêche
les gestionnaires self-sizing d’ajouter un nouveau serveur dans un tier où une
panne est en cours de réparation. Il empêche également la suppression de
serveurs au niveau des autres tiers. Le contrôleur permet d’éviter des opérations
d’acquisition et de libération répétitives de machines. Cette propriété
est particulièrement pertinente dans la gestion d’un centre de données, où
les ressources de calcul sont partagées entre plusieurs applications clientes
virtualisées.
Dans un centre de données, un quota de ressources de calcul est attribué à
chacune des applications. Le quota affecté à une application peut être ajusté
dynamiquement en fonction de sa charge de travail. Cependant, une acquisition
inutile de ressources peut empêcher d’autres applications d’atteindre
leurs objectifs de performance. Par ailleurs, la libération inutile de ressources
nécessaires pour une application peut avoir un impact sur ses performances si
les ressources sont affectées à d’autres applications.
986
Coordination modulaire pour la gestion
d’applications multi-tiers et consolidation
Contents
6.1 Gestion des ressources d’un centre de données . . . . . . . . 100
6.1.1 Utilisation des ressources . . . . . . . . . . . . . . . . . 100
6.1.2 Gestionnaire de consolidation de serveurs . . . . . . . 101
6.2 Problèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
6.3 Conception de la coordination modulaire . . . . . . . . . . . 102
6.3.1 Modélisation des gestionnaires . . . . . . . . . . . . . . 103
6.3.1.1 Modélisation du gestionnaire self-sizing . . . 103
6.3.1.2 Modélisation du gestionnaire self-repair . . . 104
6.3.1.3 Modélisation du gestionnaire de consolidation104
6.3.2 Spécification de la coordination . . . . . . . . . . . . . . 105
6.3.2.1 Stratégie de coordination . . . . . . . . . . . . 105
6.3.2.2 Spécification du contrat . . . . . . . . . . . . . 106
6.3.2.3 Synthèse monolithique . . . . . . . . . . . . . 106
6.3.2.4 Synthèse modulaire . . . . . . . . . . . . . . . 107
6.3.2.5 Comparaison . . . . . . . . . . . . . . . . . . . 111
6.4 Expérimentations . . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.4.1 Configuration . . . . . . . . . . . . . . . . . . . . . . . . 112
6.4.2 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . 113
996.1. GESTION DES RESSOURCES D’UN CENTRE DE DONNÉES
6.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
L’objectif de cette étude de cas est de démontrer le passage à l’échelle de
notre approche. Il présente une application de la coordination modulaire pour
la gestion d’un centre de données. Nous modélisons la coordination modulaire
des gestionnaires des applications hébergées dans le centre de données et du
gestionnaire de consolidation.
Dans cette étude de cas, nous considérons que le centre de données héberge
un ensemble d’applications de type multi-tiers JEE. Chacune des applications
est gérée de manière autonome par deux instances de self-sizing et quatre
instances de self-repair.
6.1 Gestion des ressources d’un centre de données
6.1.1 Utilisation des ressources
Les ressources disponibles dans un centre de données sont généralement
virtualisées et partagées entre plusieurs applications. Les logiciels applicatifs
sont exécutés dans des machines virtuelles. Un centre de données héberge des
applications qui appartiennent souvent à des clients différents. Ces applications
sont généralement soumises à des contraintes de qualité de service. Des contrats
sont établis entre le propriétaire du centre de données et les clients. Dans
ces contrats sont définis des requis de niveau de qualité de services que le
propriétaire du centre de données doit garantir.
Les besoins en ressources des applications hébergées dans un centre de
données varient généralement en fonction de leur charge de travail. Le dimensionnement
statique des applications et un placement statique des machines
virtuelles qui exécutent les applications peuvent mener à la non satisfaction
des contraintes de qualité de service (SLAs) des applications ou à un gaspillage
d’énergie. La puissance de calcul peut être dimensionnée en fonction des besoins
en ressources des applications pour éviter un gaspillage d’énergie tout en
garantissant leur performance.
1006.1.2 Gestionnaire de consolidation de serveurs
Le gestionnaire de consolidation de serveurs est dédié à l’ajustement dynamique
de la puissance de calcul fournie dans un centre de données virtualisé.
La puissance de calcul repose sur un ensemble de serveurs physiques interconnectés.
L’objectif de ce gestionnaire est d’éviter le gaspillage de ressources
tout en satisfaisant les besoins des applications en ressource.
Le gestionnaire connaît, au moyen de sondes, la configuration courante du
placement des machines virtuelles sur les serveurs physiques. Il connaît l’état
de chaque machine virtuelle, l’utilisation des ressources qui leur sont affectées
et la charge de chaque serveur physique. Périodiquement il évalue la capacité
disponible et la capacité utilisée par les machines virtuelles. Il planifie une
diminution de la capacité lorsque les serveurs physiques sont sous-utilisés, ou
bien une augmentation de la capacité lorsque les applications requièrent plus
de ressources qu’il n’y a de disponible.
Dans ce travail, nous utilisons VMware DRS/DPM [31, 32] pour la gestion
de la puissance de calcul dans un centre de données expérimental virtualisé
et basé sur VMware. Ce gestionnaire peut planifier des actions de migration
pour fournir plus de ressources aux machines virtuelles surchargées ce qui peut
nécessiter le démarrage de serveurs physiques. Lorsque les serveurs physiques
sont sous-utilisées, le gestionnaire peut également planifier des actions de migration
de machines virtuelles afin d’arrêter certains serveurs. Ce gestionnaire
peut être configuré de sorte à qu’il retourne le plan qu’il a généré. L’exécution
du plan est à valider par l’administrateur du centre de données. L’exécution
d’un plan peut être retardée. La contrôlabilité du gestionnaire est considéré
ici seulement à gros grains : une intéressante perspective serait d’envisager
un contrôle plus fin sur les opérations de consolidation exécutées séquentiellement.
Cependant cela nécessite de déterminer des points de synchronisation
appropriés.
6.2 Problèmes
L’exécution d’un plan de consolidation prend du temps. Son efficacité
dépend essentiellement de la configuration courante de l’environnement vir-
1016.3. CONCEPTION DE LA COORDINATION MODULAIRE
tualisé durant l’opération. Lorsque des machines virtuelles sont instanciées
ou supprimées pendant une opération de consolidation, il peut arriver des
incohérences.
Lorsque le plan de consolidation consiste à diminuer la puissance de calcul
disponible, des serveurs physiques vont être arrêtés et les machines virtuelles
qu’ils hébergeaient vont être déplacées vers les serveurs actifs restants. Cela
augmente la charge des serveurs restants et diminue les ressources disponibles
sur ces serveurs. Si des machines virtuelles sont instanciées pendant l’exécution
d’un plan de consolidation qui consiste à arrêter des serveurs, ces machines
virtuelles peuvent être instanciées sur des serveurs qui vont être arrêtés ou
sur ceux qui vont rester actifs. Cela conduit à la perte d’instances de machines
virtuelles lorsqu’elles sont instanciées sur des serveurs arrêtés et peut mener
à des échecs de migration ou d’instanciation de machines virtuelles si les
serveurs restants ne disposent pas d’assez de ressources. Dans le cas d’un plan
de consolidation qui consiste à augmenter la puissance de calcul, des serveurs
physiques vont être redémarrés pour satisfaire les exigences des machines
virtuelles. Cependant lorsque, durant l’exécution, des machines virtuelles sont
arrêtées, les ressources fournies par les serveurs redémarrés peuvent ne plus
être nécessaires. Cela conduit à du gaspillage de ressources.
La charge de travail des applications hébergées dans un centre de données
varie tout au long de leur durée de vie. Cette variation influe sur les besoins en
ressources des applications. L’utilisation des gestionnaires comme self-sizing et
self-repair dans la gestion d’applications multi-tiers virtualisées peut mener à
des instanciations et des suppressions de machines virtuelles. Ces opérations
peuvent être entamées à tout moment. Par conséquent les incohérences décrites
ci-dessus peuvent être constatées lorsque des instances de self-sizing et de
self-repair coexistent avec un gestionnaire de consolidation. De plus entre les
instances de self-sizing et self-repair d’une application multi-tiers il peut y avoir
des incohérences (Section 5.2).
6.3 Conception de la coordination modulaire
Dans cette section, nous présentons les modèles des gestionnaires autonomes.
Puis, nous détaillons la spécification du contrôle des gestionnaires de manière
102modulaire et hiérarchique.
6.3.1 Modélisation des gestionnaires
Nous présentons des modèles des gestionnaires self-sizing et self-repair plus
simples et différents de ceux utilisés dans les chapitres précédents. Cependant
les mêmes propriétés de contrôle peuvent être appliquées et vérifiées sur ces
modèles.
6.3.1.1 Modélisation du gestionnaire self-sizing
U pdown
adding=False
Adding
adding=True
crm and u / rem
ca and o / add
na/
(add, rem, adding) = self_sizing (ca, crm, o, u, na)
FIGURE 6.1 – Modèle du gestionnaire self-sizing
La figure 6.1 modélise le gestionnaire self-sizing. Initialement dans l’état
Updown, le gestionnaire entame un retrait (rem à vrai) à l’occurrence d’une souscharge
(u à vrai) si l’action est autorisée (crm à vrai). Toujours dans l’état Updown,
le gestionnaire entame un ajout de serveur (add à vrai) à l’occurrence d’une
surcharge (o à vrai) et passe dans l’état Adding si l’opération d’ajout est autorisée
(ca à vrai). L’état Adding indique l’exécution de l’ajout du serveur. Dans cet
état le gestionnaire ne peut effectuer aucune autre opération. Il retourne à l’état
Updown à la fin de l’ajout indiquée par na à vrai. L’état courant du gestionnaire
est indiqué par la variable d’état adding.
1036.3. CONCEPTION DE LA COORDINATION MODULAIRE
Wait
repairing=False
Repair
repairing=True
nr and
cr and fail / rep
cr and fail / rep
nr and
not (cr and fail) /
(rep, repairing) = self_repair (cr, fail, nr)
FIGURE 6.2 – Modèle du gestionnaire self-repair
6.3.1.2 Modélisation du gestionnaire self-repair
La figure 6.2 représente le modèle du gestionnaire self-repair. Initialement
dans l’état Wait, le gestionnaire attend la détection d’une panne. A l’occurrence
d’une panne (fail à vrai), le gestionnaire entame la réparation de la panne (rep
à vrai) et passe dans l’état Repair si l’opération de réparation est autorisée (cr
à vrai). L’état Repair indique l’exécution de la réparation du serveur tombé en
panne. Dans cet état le gestionnaire ne peut effectuer aucune autre opération.
Une fois l’opération terminée, nr à vrai, s’il y a une autre panne, le gestionnaire
entame la réparation de la nouvelle panne si autorisée ; sinon il retourne dans
l’état Wait.
6.3.1.3 Modélisation du gestionnaire de consolidation
La figure 6.3 présente le modèle du gestionnaire de consolidation. L’automate
décrit le comportement et la contrôlabilité du gestionnaire. Dans l’état
Idle, l’état initial, l’occurrence de l’événement i indique la nécessité d’augmenter
la puissance de calcul. Le gestionnaire entame l’exécution du plan de
consolidation (si) si l’action est autorisée (ci est à vrai), sinon il se met en
attente d’autorisation (WaitI). Lorsque l’action est autorisée, le gestionnaire
exécute le plan de consolidation (I). L’occurrence de l’événement d indique la
nécessité de diminuer la puissance de calcul. Le gestionnaire entame l’exécution
du plan de consolidation (sd) si l’action est autorisée (cd est à vrai), sinon
104Idle WaitD
D
WaitI
I
i and not ci/
ci/si
i and ci/si
e/
d and not cd/
cd/sd
d and cd/ sd
e/
incr=False
decr=False
incr=False
decr=False
incr=False
decr=False
incr=False
decr=True
incr=True
decr=False
(si, sd, incr, decr) = consolidation (ci, cd, i, d, e)
FIGURE 6.3 – Modèle du gestionnaire de consolidation
il se met en attente d’autorisation (WaitD). Lorsque l’action est autorisée, le
gestionnaire exécute le plan de consolidation (D).
L’activité du gestionnaire est indiquée par les variables d’état Incr et Decr.
Incr est à vrai lorsque le gestionnaire exécute un plan de consolidation pour
augmenter la puissance de calcul. La variable Decr est, quant à elle, à vrai
lorsque le gestionnaire exécute un plan de consolidation pour diminuer la
puissance de calcul.
6.3.2 Spécification de la coordination
6.3.2.1 Stratégie de coordination
D’abord, nous définissons la stratégie de coordination des gestionnaires
d’une application multi-tiers qui permet d’éviter une administration incohérente.
Ensuite, nous définissons la stratégie de coordination des gestionnaires
des applications et du gestionnaire de consolidation.
– Au niveau application multi-tiers :
1. Au niveau d’un tier dupliqué, inhiber les ajouts quand une réparation
est en cours.
2. Dans un tier dupliqué avec aiguilleur de charge, inhiber les retraits
quand l’aiguilleur «load balancer» est en cours de réparation.
1056.3. CONCEPTION DE LA COORDINATION MODULAIRE
3. De manière plus générale, dans une application multi-tiers, inhiber
les retraits de serveurs dans un tier lorsqu’une réparation est en
cours dans un des tiers précédents.
– Au niveau centre de données :
1. Eviter de faire des ajouts ou des réparations pendant une opération
de consolidation.
2. Lorsque des instanciations de machines virtuelles (ajout/réparation)
ou des suppressions (retrait) sont en cours, attendre avant d’exécuter
un plan de consolidation.
6.3.2.2 Spécification du contrat
Les stratégies de coordination (section 6.3.2.1) sont décrites par les objectifs
de contrôle ci-dessous :
– Au niveau application multi-tiers :
1. M1 : not (repairing and add)
2. M2 : not (repairingL and rem)
3. M3 : not (repairingpred and remsucc)
– Au niveau centre de données :
1. DC1 : not ((Incr or Decr) and (repairing* or adding* or rem*))
2. DC2 :
not ( (repairing* or adding*) and sd) and not (rem* and si)
6.3.2.3 Synthèse monolithique
Nous avons effectué la spécification monolithique du contrôle afin d’évaluer
les avantages de l’approche modulaire.
Avec la spécification monolithique, le contrôle est centralisé au niveau du
modèle global, comme le montre la figure 6.4. Toutes les instances de mod-
èles des gestionnaires impliqués sont groupées dans un seul modèle global.
Tous les objectifs de contrôle sont définis sur le modèle global. De ce fait un
seul contrôleur est construit pour assurer les objectifs locaux et les objectifs
globaux. Cela peut être fastidieux et complexe quand plusieurs gestionnaires
sont considérés. La structure de cette coordination est présentée à la figure 6.10.
106(. . .) = Main_node (. . .)
enforce all contracts
with all controllable variables
(rep1
, repairing1
) = self_repair (c
0
1
, fail1, nr1);
. . .
(repN, repairingN) = self_repair (c
0
N
, failN, nrN);
(add1, rem1, adding1
) = self_sizing (ca1, . . .);
. . .
(addM, remM, addingM) = self_sizing (caM, . . .);
(si, sd, Incr, Decr) = consolidation (ci, cd, i, d, e);
FIGURE 6.4 – Synthèse monolithique
6.3.2.4 Synthèse modulaire
Avec l’approche modulaire, nous construisons un contrôle hiérarchique de
bas en haut. Nous construisons des modèles simples dans lesquels les objectifs
de "bas niveau" sont spécifiés et assurés par un contrôleur local. Puis nous ré-
utilisons ces modèles de contrôle dans la spécification de contrôle dans laquelle
les objectifs de plus "haut niveau" doivent être assurés en plus de ceux de "bas
niveau".
Repair Sizing
Coord-rep. tier
CtrlrM1
Repair Coord-rep. tier
Coord-lb-Rep. tier
CtrlrM2
Coord-lb-Rep. tier Coord-lb-Rep. tier
CtrlrM3
Multi-tiers System
FIGURE 6.5 – Réutilisation de modèles de contrôle
La figure 6.5 présente la réutilisation de modèle dans le cas du contrôle
d’une application multi-tiers. Nous construisons d’abord le modèle de contrôle
d’une instance de self-sizing et d’une instance de self-repair qui gèrent un
tier répliqué. Nous réutilisons ce modèle dans la construction du modèle de
contrôle d’une instance de self-repair pour la gestion de l’équilibreur de charge
placé en frontal d’un tier dupliqué, et l’instance de self-sizing et l’instance de
self-repair qui gèrent le tier dupliqué. Le modèle de contrôle d’une application
multi-tiers est construit en utilisant deux instances de ce modèle.
1076.3. CONCEPTION DE LA COORDINATION MODULAIRE
Tier dupliqué. Le modèle décrit à la figure 6.6 modélise la coordination d’une
instance du gestionnaire self-sizing et d’une instance du gestionnaire self-repair.
Ces instances de gestionnaires agissent sur le même tier dupliqué. Le contrat
associé au modèle est constitué de quatre objectifs. L’un des objectifs correspond
à la stratégie de coordination locale : (not (repairing and add)). Les autres
objectifs correspondent à l’application du contrôle reçu de l’extérieur via les
variables d’entrée cr0
, ca0
et crm0
.
(. . .) = coord_repl_tier (cr0
, fail, nr, ca0
, crm0
, o, u, na)
enforce (not (repairing and add))
and LongActions(cr0
, rep, repairing)
and LongActions(ca0
, add, adding)
and (crm0 or not rem)
with cr, ca, crm
(rep, repairing) = self_repair (cr, fail, nr);
(add, rem, adding) = self_sizing (ca, crm, o, u, na);
FIGURE 6.6 – Tier dupliqué
Tier dupliqué avec aiguilleur en frontal. Le modèle décrit à la figure 6.7
modélise la coordination d’une instance de self-repair pour la gestion de l’équilibreur
de charge placé en frontal d’un tier dupliqué, et l’instance de self-sizing
et l’instance de self-repair qui gèrent le tier dupliqué. Le modèle est composé
d’une instance du modèle du self-repair qui représente le gestionnaire chargé
de la réparation de l’aiguilleur de charge, et d’une instance du modèle de la
coordination décrite à la figure 6.6. Cette dernière est réutilisée pour la stratégie
de coordination du self-sizing et du self-repair du tier dupliqué. Elle est composée
avec une instance du modèle du self-repair qui représente le self-repair
qui gère la réparation de l’équilibreur de charge. La stratégie de coordination
locale à assurer est : not (repairingL and remove) et l’application du contrôle
externe.
Multi-tiers. La figure 6.8 présente le modèle de coordination des gestionnaires
qui gèrent les différents tiers. Ce modèle est composé de deux instances du
modèle présenté à la figure 6.7.
108(. . .) = coord_lb_repl_tier (cL0
, failL, nrL, c
0
, fail, nr, ca0
, crm0
, o, u, na)
enforce (not (repairingL and rem))
and LongActions(cL0
, repL, repairingL)
and LongActions(c
0
, rep, repairing)
and LongActions(ca0
, add, adding)
and (crm0 or not rem)
with cL, c, ca, crm
(repL, repairingL) = self_repair (cL, failL, nrL);
(rep, repairing, add, rem, adding) = coord_repl_tier (c, fail, nr, ca, crm, o, u, na);
FIGURE 6.7 – Tier dupliqué avec aiguilleur en frontal
(. . .) = coord_appli (cL0
1
, failL1, nrL1, c
0
1
, fail1, nr1, ca0
1
, crm0
1
, o1, u1, na1)
cL0
2
, failL2, nrL2, c
0
2
, fail2, nr2, ca0
2
, crm0
2
, o2, u2, na2)
enforce (not ((repairingL1 or repairing1
) and rem2))
and LongActions(cL0
i
, repLi
, repairingLi
)
and LongActions(c
0
i
, repi
, repairingi
)
and LongActions(ca0
i
, addi
, addingi
)
and (crm0
i
or not remi)
i = 1, 2
with cL1, c1, ca1, crm1, cL2, c2, ca2, crm2
(repL1
, repairingL1
, rep1
, repairing1
, add1, rem1, adding1
)
= coord_lb_repl_tier (cL1, failL1, nrL1, c1, fail1, nr1, ca1, crm1, o1, u1, na1);
(repL2
, repairingL2
, rep2
, repairing2
, add2, rem2, adding2
)
= coord_lb_repl_tier (cL2, failL2, nrL2, c2, fail2, nr2, ca2, crm2, o2, u2, na2);
FIGURE 6.8 – Multi-tiers
La stratégie de coordination consiste à empêcher un retrait de serveurs. Ceci
est exprimé comme suit : (not ((repairingL1 or repairing1) and rem2))
Centre de données. La coordination de l’ensemble des gestionnaires présents
dans un centre de données est construite progressivement de manière hiérarchique.
La figure 6.9 présente le modèle de coordination des gestionnaires de
deux applications multi-tiers et du gestionnaire de consolidation. Le modèle de
contrôle est composé du modèle du gestionnaire de consolidation et de deux
instances du modèle de contrôle des gestionnaires d’une application multi-tiers.
A ce niveau le contrat ne contient que les objectifs qui concernent le centre
de données. A partir de ce modèle, la coordination du gestionnaire de consolidation
et des gestionnaires des autres applications peut être construite en
1096.3. CONCEPTION DE LA COORDINATION MODULAIRE
composant ce modèle avec une instance du modèle 6.8. Le modèle résultant sera
composé avec une autre instance du modèle 6.8 et ainsi de suite. Cela permet
une spécification hiérarchique du contrôle du gestionnaire de consolidation et
des gestionnaires d’un nombre N d’applications multi-tiers.
Cependant cet exemple démontre le passage à l’échelle de l’approche modulaire
sachant que les applications au niveau d’un centre de données sont
dynamiques. Certaines peuvent être déployées ou arrêtées à tout moment au
quel cas il faudrait envisager des ajouts et suppressions de modèles de gestionnaires
au niveau du modèle global. Mais ce comportement n’est pas considéré
dans le modèle de contrôle décrit dans ce travail.
(. . .) = two_appli_in_data_center (. . .)
enforce (not ((Incr or Decr) and (repairingij or addingij or remij))
and (not ((repairingij or addingij) and sd) and not (remij and si))
and LongActions(cL0
ij, repLij, repairingLij)
and LongActions(c
0
ij, repij, repairingij)
and LongActions(ca0
ij, addij, addingij)
and (crm0
ij or not remij))
i = 1, 2; j = 1..2
with cL11, c11, . . . , crm22, ci, cd
(. . .) = coord_appli (cL11, c11, ca11, crm11, . . . , cL21, c21, ca21, crm21, . . .)
(. . .) = coord_appli (cL12, c12, ca12, crm12, . . . , cL22, c22, ca22, crm22, . . .)
(si, sd, Incr, Decr) = consolidation (ci, cd, i, d, e);
FIGURE 6.9 – Centre de données avec deux applications multi-tiers.
Repair
Apache
Repair Sizing
Tomcat repl. tier
Repair
Proxy
Repair Sizing
MySQL repl. tier
Application2
Conso
Dc.conso
Ctrlr
FIGURE 6.10 – Conception monolithique de la coordination
110Repair
Apache
Repair Sizing
Tomcat repl. tier
CtrlrM1
CtrlrM2
Repair
Proxy
Repair Sizing
MySQL repl. tier
CtrlrM1
CtrlrM2
CtrlrM3
Application2
Conso
Dc.conso
CtrlrDC
FIGURE 6.11 – Conception modulaire de la coordination
6.3.2.5 Comparaison
Les avantages de l’approche modulaire peuvent être considérés en terme
de spécification et de coûts. L’approche modulaire permet une spécification
décentralisée et hiérarchique du contrôle ; au lieu d’une spécification centralisée
– le cas monolithique comme le montre la figure 6.10 – dans laquelle tous les
automates sont d’un côté, et tous les contrats de l’autre côté. L’approche modulaire
simplifie la spécification de contrôle d’un système large par la réutilisation
de modèles dans des contextes différents. Cela améliore également la lisibilité
de la spécification et facilite les modifications.
nb. Durée de la synthèse Utilisation de la mémoire
app. monolithique modulaire monolithique modulaire
1 0s 5s - -
2 49s 11s - -
3 42m24s 24s 34.81MB -
4 > 2 days 1m22s >149,56MB -
5 - 4m30s - 20,37MB
6 - 13m24s - 53,31MB
7 - 25m57s - 77,50MB
8 - 50m36s - 115,59MB
9 - 2h11m - 236,59MB
10 - 9h4m - 479,15MB
TABLE 6.1 – SCD : durée de la synthèse et la mémoire utilisée
1116.4. EXPÉRIMENTATIONS
Nous avons effectué une étude comparative des approches monolithique
et modulaire en ce qui concerne la complexité combinatoire de synthèse de
contrôleur et les coûts (CPU et mémoire) de la compilation des contrôleurs pour
différentes tailles de système (c’est à dire, un nombre variable d’applications).
Les résultats présentés par le tableau 6.1 montrent que pour un petit nombre
d’applications, l’utilisation de la mémoire n’est pas très significative, et la
durée de la compilation est relativement acceptable. Cependant à partir de
quatre applications, l’approche monolithique atteint les limites de l’explosion
combinatoire des techniques d’exploration d’espace d’états. Le calcul n’est pas
terminé après plus de deux jours. L’approche modulaire présente de meilleurs
résultats même si les coûts continuent à croitre quand le nombre d’applications
augmente. Nous constatons que l’approche monolithique est exponentiellement
coûteuse, alors que l’approche modulaire continue à produire des résultats,
montrant ainsi la possibilité d’adresser de larges systèmes.
Cependant, bien que le tableau 6.1 montre la durée totale de la compilation,
en ce qui concerne la synthèse modulaire, la synthèse de la logique de contrôle
de chaque contrat est effectuée de façon indépendante. Un modèle constitué
d’un ensemble de modèles équipés d’un contrat ne requiert que la spécification
du contrat défini dans les modèles pour la synthèse de la logique de contrôle. De
ce fait la compilation des différents modèles peut être exécutée en parallèle ce
qui réduit la durée totale de synthèse de l’ensemble des logiques de contrôle à
intégrer dans les modèles. De plus, la recompilation d’un modèle est nécessaire
uniquement lorsque son interface (entrées, sorties) et son contrat sont modifiés,
ou bien ceux des sous-modèles qu’il utilise ; sinon, il peut être réutilisé tel quel.
6.4 Expérimentations
Nous avons réalisé des expérimentations pour le contrôle de deux applications
dans notre centre de données expérimental.
6.4.1 Configuration
Notre centre de données expérimental est constitué d’un serveur de données
et de six serveurs ESXi 5.1.0. Le serveur de données est muni de 24 CPU de
1121.9Ghz, 63Go de mémoire et 12To de disque. Quatre des serveurs ESXi sont
munis de 8 CPU de 2.4Ghz, 32Go de mémoire et 926Go de disque. Un serveur
des serveurs ESXi est muni de 12 CPU de 2.4Ghz, 32Go de mémoire et 558Go
de disque. Le dernier serveur ESXi est muni de 12 CPU de 1.89Ghz, 160Go
de mémoire et 2.73To de disque. Nous avons utilisé des machines virtuelles
munies de 1 vCPU, 2Go de mémoire et 8Go de disque.
6.4.2 Évaluation
0
10
20
30
40
50
60
70
80
90
100
0 5 10 15 20 25 30 35 40
0
1
2
3
4
5
CPU load (%)
nbre Tomcat - nbre Mysql
time (minute)
Tomcats CPU Avg
Mysqls CPU Avg
Active Tomcats
Active Mysqls
Apache failure
FIGURE 6.12 – Exécution non coordonnée : app 1 : Panne Apache
Les figures 6.12 et 6.13 présentent une exécution durant laquelle une panne
s’est produite sur chaque application. Les gestionnaires des applications ne
sont pas coordonnés. Sur la figure 6.12, il s’agit d’une panne du serveur Apache
qui s’est produite 17 minutes après le début de l’expérimentation. La panne
a conduit à un retrait de serveurs au niveau des tiers Tomcat et Mysql à cause
d’une sous-charge. Cependant après la réparation du serveur Apache, le degré
de réplication des tiers Tomcat et Mysql est restauré (21 min and 28 min).
Sur la figure 6.13, il s’agit d’une panne d’un serveur Tomcat produite 19
minutes après le début. Cette panne a conduit au retrait d’un serveur Mysql qui
1136.4. EXPÉRIMENTATIONS
0
10
20
30
40
50
60
70
80
90
100
0 5 10 15 20 25 30 35 40
0
1
2
3
4
5
CPU load (%)
nbre Tomcat - nbre Mysql
time (minute)
Tomcats CPU Avg
Mysqls CPU Avg
Active Tomcats
Active Mysqls
Tomcat failure
FIGURE 6.13 – Exécution non coordonnée : app 2 : Panne Tomcat
0
10
20
30
40
50
60
70
80
90
100
0 5 10 15 20 25 30 35 40
0
1
2
3
4
5
CPU load (%)
nbre Tomcat - nbre Mysql
time (minute)
Tomcats CPU Avg
Mysqls CPU Avg
active Tomcats
Active Mysqls
Apache failure
FIGURE 6.14 – Exécution coordonnée : app 1 : Panne Apache
114 0
10
20
30
40
50
60
70
80
90
100
0 5 10 15 20 25 30 35 40
0
1
2
3
4
5
CPU load (%)
nbre Tomcat - nbre Mysql
time (minute)
Tomcats CPU Avg
Mysqls CPU Avg
Active Tomcats
Active Mysqls
Tomcat failure
FIGURE 6.15 – Exécution coordonnée : app 2 : Panne Tomcat
a été rajouté après la réparation de la panne (25 min).
Les figures 6.14 et 6.15 présentent une exécution similaire durant laquelle les
gestionnaires des deux applications sont coordonnées. Durant cette exécution,
la panne du serveur Apache, 20 minutes après le début, conduit à une souscharge
au niveau des tiers Tomcat et Mysql ; mais aucun serveur n’est arrêté au
niveau de ces tiers comme le montre la figure 6.14. De même, sur la figure 6.15,
après la panne d’un serveur Tomcat survenue 17 minutes après le début, il y
a une sous-charge au niveau du tier Mysql ; mais aucun serveur n’est arrêté.
On remarque également que la charge moyenne des serveurs Tomcat, observée
après la panne, excède le seuil maximal (90%) ; mais là aussi aucun serveur
Tomcat n’est rajouté.
6.5 Conclusion
Les contrôleurs de coordination, obtenus avec la spécification modulaire,
assurent le respect des objectifs de coordination définis. Chaque contrôleur,
1156.5. CONCLUSION
dans la hiérarchie de contrôleurs, assure de manière cohérente le respect de
la stratégie de coordination qu’il gère. Les contrôleurs de niveau supérieur
assurent les objectifs globaux en appliquant un contrôle sur les contrôleurs
sous-jacents.
Toutefois le code généré est structuré pour être exécuté de manière centralisée.
Dans le chapitre suivant, nous étudions comment nous pouvons restructurer
la hiérarchie de contrôleurs afin de pouvoir l’exécuter de manière
distribuée.
1167
Exécution distribuée des contrôleurs
modulaires
Contents
7.1 Exécution distribuée de contrôleurs . . . . . . . . . . . . . . . 119
7.1.1 Exécution distribuée synchronisée . . . . . . . . . . . . 119
7.1.1.1 Principe . . . . . . . . . . . . . . . . . . . . . . 120
7.1.1.2 Implémentation . . . . . . . . . . . . . . . . . 120
7.1.2 Exécution distribuée désynchronisée . . . . . . . . . . . 122
7.1.2.1 Principe . . . . . . . . . . . . . . . . . . . . . . 122
7.1.2.2 Implémentation . . . . . . . . . . . . . . . . . 123
7.2 Exemple : Gestion d’une application multi-tiers . . . . . . . . 124
7.2.1 Exécution distribuée totalement synchronisée . . . . . 124
7.2.1.1 Modélisation . . . . . . . . . . . . . . . . . . . 124
7.2.1.2 Décomposition . . . . . . . . . . . . . . . . . . 125
7.2.2 Exécution distribuée partiellement synchronisée . . . . 126
7.2.2.1 Modélisation . . . . . . . . . . . . . . . . . . . 126
7.2.2.2 Décomposition . . . . . . . . . . . . . . . . . . 129
7.2.3 Exécution distribuée désynchronisée . . . . . . . . . . . 130
7.2.3.1 Modélisation . . . . . . . . . . . . . . . . . . . 130
7.2.3.2 Décomposition . . . . . . . . . . . . . . . . . . 131
7.2.4 Comparaison . . . . . . . . . . . . . . . . . . . . . . . . 132
7.3 Expérimentation . . . . . . . . . . . . . . . . . . . . . . . . . . 133
1177.3.1 Configuration . . . . . . . . . . . . . . . . . . . . . . . . 133
7.3.2 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . 133
7.3.2.1 Durée de reconfiguration . . . . . . . . . . . . 133
7.3.2.2 Atteinte des objectifs de contrôle . . . . . . . 134
7.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
La compilation d’une spécification modulaire produit une hiérarchie de
contrôleurs. Chaque contrôleur est implémenté dans un programme distinct,
e.g., une classe Java. Cependant, l’ensemble est structuré pour être exécuté de
manière centralisée par défaut.
-step
-reset
-constructor
step
-step
-reset
-constructor
step
-step
-reset
-constructor
Main
step
FIGURE 7.1 – Structure à l’exécution : Objet Java
A l’exécution, le contrôleur de plus haut niveau, contrôleur principal, instancie
localement les contrôleurs sous-jacents sur lesquels il agit directement
par appel de méthode. Ces derniers instancient ceux sur lesquels ils agissent et
ainsi de suite. Cela est illustré à la figure 7.1. Toutefois, l’exécution centralisée
présente des désavantages. Par exemple, en cas de défaillance, aucun contrôle,
même partiel, ne peut être réalisé tant que la restauration n’est pas effectuée.
118L’exécution distribuée des contrôleurs peut permettre d’éviter d’avoir un seul
point potentiel de défaillance.
L’exécution distribuée d’une hiérarchie de contrôleurs peut permettre d’assurer
un contrôle partiel en cas de défaillance. Lorsqu’un sous-ensemble des
contrôleurs tombe en panne, les autres peuvent toujours assurer leurs objectifs
locaux. De plus, lorsque le système à contrôler est large et réparti sur plusieurs
sites, les contrôleurs peuvent être placés à proximité des sites qu’ils administrent.
Cela réduit les délais de transmission des données de surveillance
mesurées par les capteurs, ainsi que les délais de transmission des actions à
appliquer par les actionneurs. Placer les contrôleurs à proximité des sites qu’ils
administrent peut permettre de réduire les délais de réactivité par rapport à
l’exécution centralisée.
Dans ce chapitre, nous allons étudier comment le code obtenu d’une spécifi-
cation modulaire peut être restructuré pour l’exécuter de manière distribuée.
Une exécution distribuée d’une hiérarchie de contrôleurs nécessite, au moins,
que certains des contrôleurs soient instanciés de manière indépendante du
contrôleur de haut niveau. Nous verrons dans ce chapitre trois approches
d’exécution distribuée : totalement synchronisée, partiellement synchronisée,
et désynchronisée.
7.1 Exécution distribuée de contrôleurs
Pour démontrer la possibilité d’exécuter de manière distribuée une hiérarchie
de contrôleurs, nous supposons que le réseau est fiable. Nous supposons
également qu’à l’exécution, ni les contrôleurs ni les machines qui les hébergent
ne tombent en panne.
7.1.1 Exécution distribuée synchronisée
Comme le montre la figure 7.1, dans l’exécution centralisée, le contrôleur de
plus haut niveau instancie les contrôleurs sous-jacents qu’il utilise pour assurer
ses objectifs. Ces derniers sont locaux à celui-ci. Pour exécuter de manière
distribuée une hiérarchie de contrôleurs, par exemple, les contrôleurs sous-
1197.1. EXÉCUTION DISTRIBUÉE DE CONTRÔLEURS
jacents au contrôleur de plus haut niveau (contrôleur principal) doivent être
instanciés en dehors de ce dernier. Au niveau de celui-ci, cela nécessite la
modification des appels locaux des méthodes step et reset des contrôleurs sousjacents.
7.1.1.1 Principe
Les modifications à effectuer n’affectent pas l’implémentation des méthodes
step et reset des contrôleurs. Par exemple, au niveau du contrôleur principal,
les appels locaux des méthodes step et reset des sous-contrôleurs doivent simplement
être remplacés par des appels distants. L’appel local de la méthode
reset des sous-contrôleurs dans le contrôleur principal est implémenté dans
la méthode reset de ce dernier. Étant donné que l’appel d’une méthode reset
ne retourne pas de résultat, pour l’exécution distribuée, il suffit simplement
de remplacer le code qui implémente l’appel local par celui qui implémente
l’appel distant. Le même procédé est utilisé pour la modification de l’appel de
la méthode step des sous-contrôleurs à exécuter de manière distribuée. L’appel
d’une méthode step retourne un résultat. Toutefois, une structure de données
est définie pour contenir le résultat. De ce fait cette même structure peut être
utilisée sans modification.
Le code qui instancie localement les sous-contrôleurs dans le contrôleur
principal doit également être remplacé par le code qui permet d’obtenir les
références de ces derniers exécutés à distance. Ces références vont permettre
de faire les appels distants. L’implémentation de l’exécution distribuée peut
être effectuée de différentes manières. L’approche Message Queuing peut être
utilisée, ou bien Java-rmi.
7.1.1.2 Implémentation
Nous utilisons Java-rmi pour montrer comment restructurer le code. Avec
Java-rmi les modifications à effectuer sont simples puisque les objets instances
locales de contrôleurs sont simplement transformés en références d’instances
de contrôleurs distants. Ces références sont manipulées (appel des méthodes)
de la même manière que des objets locaux.
La figure 7.2 représente la transformation du schéma d’exécution centralisée
120-step
-reset
-constructor
step
-step
-reset
-step
-reset
-step
-reset
-constructor
Main
step
-step
-reset
-constructor
step
RMI
FIGURE 7.2 – Exécution distribuée synchronisée avec Java rmi
présenté dans la figure 7.1 pour une exécution distribuée synchronisée. Les
trois contrôleurs sont exécutés sont trois sites distincts. Le contrôleur principal,
au centre, ne manipule pas des objets instances de contrôleurs. Il manipule des
objets références d’instances de contrôleurs distants. C’est à travers ces objets
références qu’il fait l’appel des méthodes des instances des sous-contrôleurs.
Pour implémenter l’exécution distribuée avec Java-rmi, il faut définir une
interface de type RemoteInterface pour chaque contrôleur. L’interface d’un contrôleur
contient au moins la signature des méthodes step et reset accessibles
à distance. L’implémentation des interfaces n’implique aucune modification
des méthodes des contrôleurs. De plus, il faut enregistrer les objets instances
des contrôleurs dans le rmiregistry. L’implémentation en Java d’un contrôleur
contient un constructeur et les méthodes step et reset. Le code qui permet l’enregistrement
d’un contrôleur dans le rmiregistry peut être ajouté dans le constructeur.
Au niveau du contrôleur principal, par exemple, les objets instances
des contrôleurs sous-jacents sont déclarés comme attributs et instanciés dans
son constructeur. Ici, le type de chaque objet instance d’un contrôleur doit être
remplacé par le type de l’interface du contrôleur. De plus, le code qui instancie
les sous-contrôleurs doit être remplacé par le code qui récupère, à travers
1217.1. EXÉCUTION DISTRIBUÉE DE CONTRÔLEURS
rmiregistry, les références des contrôleurs distants correspondants. Avec Javarmi,
l’appel des méthodes step (resp. reset) des contrôleurs distants ne changent
pas puisque les objets références sont manipulés comme des objets locaux. La
communication distribuée est gérée par Java-rmi.
7.1.2 Exécution distribuée désynchronisée
Une spécification modulaire peut être adaptée pour obtenir un ensemble
de contrôleurs à exécuter de manière distribuée désynchronisée. Dans ce cas,
il n’y a pas de contrôleur principal pour assurer la synchronisation et pour
orchestrer le contrôle global. Chaque contrôleur distant évolue à son rythme
et reçoit les entrées concernant le sous-ensemble qu’il gère. Les contrôleurs
distants assurent le contrôle global par échange de valeurs de contrôle de
manière asynchrone. L’avantage de cette approche est le fait qu’il n’y ait aucune
synchronisation entre les contrôleurs ce qui accroît leur réactivité.
7.1.2.1 Principe
Généralement une spécification modulaire produit une hiérarchie de contrôleurs
avec un contrôleur principal qui assure le contrat global. Chacun des
contrôleurs dans la hiérarchie assure un contrat local au sous-système qu’il
contrôle. Ici, il s’agit de supprimer le contrôleur principal et de conserver les
contrôleurs sous-jacents. Ces derniers vont assurer le contrat global par échange
de valeurs de contrôle de manière asynchrone. La communication asynchrone
est modélisée pour décrire les propriétés pertinentes du système de communication.
Cela permettra, à la compilation, de vérifier si le contrat global est respecté
en considérant les propriétés du système de communication. Cette méthode
permet la modélisation d’un système localement synchrone et globalement
asynchrone (GALS). Les étapes de conception sont décrites ci-dessous :
1. Nous modélisons le contrôleur de chaque sous-système. Cela correspond
au modèle du sous-système auquel on associe un contrat contenant les
objectifs de contrôle.
2. Nous modélisons ensuite le système de communication asynchrone utilisé
pour la transmission de valeurs de contrôle.
1223. Ces différents modèles sont composés pour représenter le système global.
Nous déclarons le contrat global, avec les objectifs globaux mais sans
variable contrôlable. A la compilation du modèle global, le contrat est
vérifié par model-checking. Aucun contrôleur n’est construit pour le modèle
global.
4. Pour l’exécution, le code correspondant au modèle global, ainsi que le
code correspondant au modèle du système de communication ne sont
pas utilisés. Le code des contrôleurs contenus dans le modèle global est
utilisé, ainsi que le système réel pour la communication pour la mise en
oeuvre des échanges de valeurs de contrôle.
7.1.2.2 Implémentation
L’implémentation de l’exécution distribuée désynchronisée n’implique aucune
modification au niveau du code des contrôleurs. Ces derniers n’ont aucune
référence locale les uns des autres. Un contrôleur reçoit les valeurs de contrôle
d’un autre contrôleur comme entrées de sa méthode step. De plus, les valeurs de
contrôle qu’il transmet sont contenues dans le résultat retourné par sa méthode
step. De ce fait l’ajout du code pour la publication et/ou la réception des valeurs
de contrôle à échanger ne nécessite pas de modification de l’implémentation des
contrôleurs. Ce code peut même être placé ailleurs, par exemple dans le code
qui fait l’appel de la méthode step. Nous utilisons l’approche Message Queuing
pour montrer comment implémenter une exécution distribuée désynchronisée.
La figure 7.3 représente la transformation du schéma d’exécution centralisée
présenté dans la figure 7.1 pour une exécution distribuée désynchronisée. Ici,
le contrôle principal n’existe plus et il n’y a aucune synchronisation des step
des contrôleurs. Ces derniers sont indépendants et chacun évolue à son propre
rythme dicté par les événements survenus dans le sous-système qu’il gère.
Pour l’échange de message, nous utilisons un type de serveur de messages,
RabbitMQ. Ce type de serveur permet de définir des supports d’échange, Topic,
où des messages sont publiés. L’abonnement à un Topic permet de recevoir les
messages publiés dedans. Chaque contrôleur publie ses valeurs de contrôle et
s’abonne pour recevoir les valeurs de contrôle de son vis-à-vis, dans l’exemple
présenté à la figure 7.3.
1237.2. EXEMPLE: GESTION D’UNE APPLICATION MULTI-TIERS
-step
-reset
-constructor
step
-step
-reset
-constructor
step
Message
Queuing
Server
Pub(c) Pub(c
0
)
Rec(c Rec(c)
0
)
FIGURE 7.3 – Exécution distribuée désynchronisée avec Message Queuing
7.2 Exemple : Gestion d’une application multi-tiers
Cette section présente une application des approches pour l’exécution distribuée
synchronisée et l’exécution distribuée désynchronisée. Nous consid-
érons l’exemple de coordination modulaire des gestionnaires de l’application
multi-tiers présentée dans le chapitre précédent. La conception de la coordination
modulaire est présentée à la section 6.3.2.4. Ci-dessous nous présentons la
transformation à faire sur le code obtenu pour l’exécuter de manière distribuée.
7.2.1 Exécution distribuée totalement synchronisée
Pour l’exécution distribuée totalement synchronisée, la spécification modulaire
présentée à la section 6.3.2.4 ne nécessite aucune modification. Elle est
réutilisée telle quelle.
7.2.1.1 Modélisation
Nous réutilisons la spécification modulaire de la coordination des gestionnaires
self-sizing et self-repair décrite à la section 6.3.2.4 telle quelle. La figure 7.4
124Repair
Apache
Repair Sizing
Tomcat repl. tier
CtrlrM1
CtrlrM2
Repair
Proxy
Repair Sizing
MySQL repl. tier
CtrlrM1
CtrlrM2
CtrlrM3
FIGURE 7.4 – Spécification modulaire
montre la structure de la spécification modulaire.
7.2.1.2 Décomposition
La compilation du modèle décrit à la figure 7.4 produit une hiérarchie de
contrôleurs : CtrlrM1, CtrlrM2 et CtrlrM3. A l’exécution centralisée, le contrôleur
principal CtrlrM3 instancie les contrôleurs CtrlrM2. Chaque contrôleur CtrlrM2
instancie un contrôleur CtrlrM1.
Repair
Apache
Repair Sizing
Tomcat repl. tier
Repair
Proxy
Repair Sizing
MySQL repl. tier
CtrlrM1
CtrlrM2
CtrlrM1
CtrlrM2
CtrlrM3
(o1, na1, u1, ..., f L2, f2, o2, na2)
(repL1,rep1, add1,rem1) (repL2,rep2, add2,rem2)
s
(c, ...)
s
0
(c
0
, ...)
FIGURE 7.5 – Exécution distribuée totalement synchronisée
1257.2. EXEMPLE: GESTION D’UNE APPLICATION MULTI-TIERS
Ici, nous décomposons le code en trois parties à exécuter sur des machines
différentes comme le montre la figure 7.5. Les contrôleurs CtrlrM1 sont locaux
aux contrôleurs CtrlrM2. Sur cet exemple, l’exécution distribuée obtenue est
totalement synchronisée. En effet toutes les entrées sont reçues par le contrôleur
CtrlrM3. Ce dernier, distribue les entrées reçues aux autres contrôleurs avec
ses restrictions pour respecter son contrat. Une fois qu’il a calculé les valeurs
de contrôle, il appelle la méthode step des contrôleurs CtrlrM2 distants. Ces
derniers vont, eux aussi, appliquer des restrictions pour atteindre leurs objectifs.
L’appel des méthodes step est bloquant et totalement synchronisé.
7.2.2 Exécution distribuée partiellement synchronisée
Pour obtenir une exécution distribuée partiellement synchronisée, il faut distinguer
les entrées nécessaires au contrôleur principal CtrlrM3 pour réaliser son
contrôle. Cela permet de ne transmettre à ce dernier que les entrées dont il a besoin.
Les autres entrées seront directement transmises aux contrôleurs CtrlrM2.
De manière générale, il faut distinguer pour chaque entrée, le contrôleur de
haut niveau qui doit la traiter en premier.
7.2.2.1 Modélisation
Pour une exécution partiellement synchronisée, les entrées qui ne sont pas
nécessaires au contrôleur de haut niveau, par exemple CtrlrM3, sont directement
transmises aux contrôleurs qui les traitent, par exemple CtrlrM2. Toutefois
les contrats associés aux contrôleurs ne changent pas. Le code obtenu de la
spécification décrite à la figure 7.4 peut être adapté pour une exécution distribuée
partiellement synchronisée. Une approche est d’affecter une valeur
par défaut aux entrées que le contrôle principal ne traitent pas lors de l’appel
de sa méthode step. Les vraies valeurs de ces entrées seront transmises aux
contrôleurs CtrlrM2 qui les traitent.
Une autre approche est de modifier la spécification des contrôleurs pour
n’avoir que les entrées de contrôle comme arguments de leur méthode step.
Les autres entrées sont récupérées dans la méthode step via des appels de
fonctions externes. Le langage Heptagon/BZR, tout comme les autres langages
synchrones, permet d’appeler des fonctions externes dans la définition d’un
126automate. Pour utiliser les fonctions externes, nous définissons un module qui
fournit les signatures de ces dernières. Dans la suite, nous utilisons le terme
«System» comme nom du module.
Tier dupliqué.
(. . .) = coord_repl_tier (cr0
, ca0
, crm0
)
enforce (not (repairing and add))
and LongActions(cr0
, rep, repairing)
and LongActions(ca0
, add, adding)
and (crm0 or not rem)
with cr, ca, crm
fail = System.failure ();
nr = System.repaired ();
o = System.overload ();
na = System.added ();
u = System.underload ();
(rep, repairing) = self_repair (cr, fail, nr);
(add, rem, adding) = self_sizing (ca, crm, o, u, na);
FIGURE 7.6 – Tier dupliqué
La figure 7.6 correspond au modèle de coordination d’un gestionnaire selfsizing
et un gestionnaire self-repair pour un tier dupliqué. Ici les événements
en entrée sont récupérées via les fonctions externes « System.* ». Ces dernières
sont implémentées en dehors du modèle. Chaque fonction externe retourne
un booléen qui correspond à la valeur courante de l’événement qu’elle traite.
Par exemple System.overload retourne vrai lorsqu’une sur-charge est détectée,
sinon elle retourne faux. Cependant ce modèle expose les entrées de contrôle
qui permettent sa réutilisation et d’inhiber les actions des gestionnaires.
Tier dupliqué avec aiguilleur de charge en frontal.
La figure 7.7 correspond au modèle de coordination de deux gestionnaires
self-repair et un gestionnaire self-sizing pour un tier dupliqué avec un aiguilleur
en frontal. Le modèle dans la figure 7.6 est réutilisé pour la construction de la
hiérarchie. Toutefois, ici toutes les entrées ne sont pas transmises au modèle
dans la figure 7.7.
1277.2. EXEMPLE: GESTION D’UNE APPLICATION MULTI-TIERS
(. . .) = coord_lb_repl_tier (cL0
, c
0
, ca0
, crm0
)
enforce (not (repairingL and rem))
and LongActions(cL0
, repL, repairingL)
and LongActions(c
0
, rep, repairing)
and LongActions(ca0
, add, adding)
and (crm0 or not rem)
with cL, c, ca, crm
failL = System.failureLb ();
nrL = System.repairedLb ();
(repL, repairingL) = self_repair (cL, failL, nrL);
FIGURE 7.7 – Tier dupliqué avec aiguilleur en frontal
Multi-tiers.
(. . .) = coord_multitier (cL0
1
, c
0
1
, ca0
1
, crm0
1
, cL0
2
, c
0
2
, ca0
2
, crm0
2
)
enforce (not ((repairingL1 or repairing1
) and rem2))
and LongActions(cL0
i
, repLi
, repairingLi
)
and LongActions(c
0
i
, repi
, repairingi
)
and LongActions(ca0
i
, addi
, addingi
)
and (crm0
i
or not remi)
i = 1, 2
with cL1, c1, ca1, crm1, cL2, c2, ca2, crm2
(repL1
, repairingL1
, rep1
, repairing1
, add1, rem1, adding1
)
= coord_lb_repl_tier (cL1, c1, ca1, crm1);
(repL2
, repairingL2
, rep2
, repairing2
, add2, rem2, adding2
)
= coord_lb_repl_tier (cL2, c2, ca2, crm2);
FIGURE 7.8 – Multi-tiers
La figure 7.8 correspond au modèle de coordination de l’application multitiers.
Ce dernier modèle ne reçoit aucun événement. Ses objectifs de contrôle
sont définis sur les sorties des contrôleurs sous-jacents.
Dans cet exemple, seules les entrées de contrôle et les sorties sont utilisées
pour exprimer les objectifs. De ce fait, toutes les autres entrées peuvent être
récupérées via des appels de fonctions dans les méthodes step. Cependant,
lorsque ces dernières sont utiles dans la déclaration des objectifs, il est nécessaire
qu’elles soient reçues comme entrées de la méthode step pour pouvoir appliquer
128la synthèse de contrôleur.
Dans tous les cas, il faut distinguer les entrées qui nécessitent l’appel de
la méthode step, ici, du contrôleur CtrlrM3. Dans cet exemple, ces entrées
sont : failL1 (panne Apache), nrL1 (Apache réparé), failL1 (panne Tomcat),
nr1 (Tomcat réparé), u2 (sous-charge Mysql).
7.2.2.2 Décomposition
La compilation donne la même hiérarchie de contrôleurs que celle obtenue
avec la coordination totalement synchronisée. Chacun des contrôleurs assure le
respect des mêmes objectifs que son vis-à-vis dans la coordination totalement
synchronisée.
Repair
Apache
Repair Sizing
Tomcat repl. tier
Repair
Proxy
Repair Sizing
MySQL repl. tier
CtrlrM1
CtrlrM2
CtrlrM1
CtrlrM2
CtrlrM3
(f L1, nrL1, f1, nr1, u2)
(o1, na1, u1) (repL1,rep1, add1,rem1) (f L2, nrL2, f2, nr2, o2, na2) (repL2,rep2, add2,rem2)
s
(c, ...)
s
0
(c
0
, u2)
FIGURE 7.9 – Exécution distribuée partiellement synchronisée
Cependant, comme le montre la figure 7.9, le contrôleur principal CtrlrM3 et
les deux CtrlrM2 reçoivent, chacun, une partie des entrées. De ce fait, les step
sont partiellement synchronisés. Le contrôleur CtrlrM3 n’initie la synchronisation
que pour le respect de l’objectif global. Les entrées qui ne concernent pas
le contrat du contrôleur CtrlrM3 sont transmises directement aux contrôleurs
CtrlrM2 qui les traitent. Chaque contrôleur CtrlrM2 évolue à son propre rythme
en fonction de l’occurrence des entrées qu’il traite sans l’intervention du
1297.2. EXEMPLE: GESTION D’UNE APPLICATION MULTI-TIERS
contrôleur CtrlrM3. Ces entrées (failL1, nrL1, fail1, nr1, u2) sont transmises
au contrôleur CtrlrM3 qui calcule ses valeurs de contrôle. Ensuite, il appelle
les méthodes step des contrôleurs CtrlrM2, avec ses valeurs de contrôle. Ces
derniers conservent les valeurs de contrôle reçues du contrôleur principal
jusqu’à la prochaine synchronisation.
7.2.3 Exécution distribuée désynchronisée
Pour l’exécution distribuée désynchronisée, le contrat qui est défini dans
le modèle global est assuré par les contrôleurs CtrlrM2. Dans la coordination
modulaire synchronisée, ce contrat est assuré par le contrôleur CtrlrM3.
7.2.3.1 Modélisation
Repair
Apache
Repair Sizing
Tomcat repl. tier
CtrlrM1
CtrlrM2
Repair
Proxy
Repair Sizing
MySQL repl. tier
CtrlrM1
CtrlrM2
Communication
Veri f ication(model − checking)
FIGURE 7.10 – Coordination modulaire désynchronisée
La figure 7.10 présente la structure de la spécification de la coordination
modulaire désynchronisée. Dans cet exemple seul le modèle global change. Le
modèle de communication asynchrone entre les deux sous-ensembles est ajouté.
Les contrats définis pour les contrôleurs CtrlrM2 (et CtrlrM1) ne changent pas.
Le contrat défini dans le modèle global et qui était assuré par le contrôleur
CtrlrM3 dans la spécification modulaire initiale, ici est assuré par programmation
(échange de valeurs de contrôle).
1307.2.3.2 Décomposition
Le contrôleur CtrlrM3 disparaît. Chaque contrôleur CtrlrM2 reçoit toutes
les entrées concernant les gestionnaires qu’il contrôle. Dans cet exemple, le
contrôleur CtrlrM2 qui gère les gestionnaires des tiers Apache et Tomcat envoie
des valeurs de contrôle au contrôleur CtrlrM2 des gestionnaires des tiers
Mysql-Proxy et Mysql. Ces valeurs de contrôle permettent d’inhiber les actions
de retrait de serveurs Mysql en cas de panne au niveau Apache et/ou Tomcat.
Ici la valeur transmise est :
– c = not (ap_repairingLb or tom_repairing)
ap_repairingLb est à vrai lorsque le serveur Apache est en cours de
réparation et tom_repairing est à vrai lorsqu’un serveur Tomcat est en
cours de réparation.
– c est à vrai que lorsqu’une panne est en cours de réparation, auquel cas il
faut inhiber les actions de retrait de serveurs Mysql tant que la réparation
n’est pas terminée.
Repair
Apache
Repair Sizing
Tomcat repl. tier
Repair
Proxy
Repair Sizing
MySQL repl. tier
CtrlrM1
CtrlrM2
CtrlrM1
CtrlrM2
Message
Qeuing
Server
(f L1, nrL1, f1, nr1, o1, na1, u1) (repL1,rep1, add1,rem1) (f L2, nrL2, f2, nr2, o2, na2, u2) (repL2,rep2, add2,rem2)
Pub(c) Rec(c)
FIGURE 7.11 – Exécution distribuée désynchronisée
1317.2. EXEMPLE: GESTION D’UNE APPLICATION MULTI-TIERS
Nous utilisons un serveur de messages, RabbitMQ, pour mettre en oeuvre la
communication entre les contrôleurs.
7.2.4 Comparaison
Durant l’exécution distribuée totalement synchronisée, comme pour l’exécution
centralisée, tous les contrôleurs évoluent au même rythme que le contrôleur
principal. Ce dernier orchestre tout le contrôle. Il reçoit toutes les entrées puis
les transmet aux autres contrôleurs avec les valeurs de contrôle pour respecter
ses objectifs. Cependant l’exécution distribuée peut ajouter un délai de réactivité
supplémentaire à cause de la communication à distance. Durant l’exécution
distribuée partiellement synchronisée, le contrôleur principal orchestre uniquement
le contrôle pour assurer ses objectifs. Il ne reçoit que les entrées nécessaires
pour calculer ses valeurs de contrôle. De plus, la synchronisation est partielle.
Elle est effectuée pour transmettre des restrictions aux contrôleurs sous-jacents.
Le reste des entrées, chacune, est transmis au contrôleur concerné. Pour le
contrôle local, chaque contrôleur sous-jacent évolue à son propre rythme dicté
par l’occurrence de ses entrées. Toutefois pour le contrôle global, les contrôleurs
évoluent à la vitesse imposée par le contrôleur principal. Durant l’exécution
distribuée désynchronisée, les contrôleurs sont totalement désynchronisés. Chacun
évolue à son propre rythme et reçoit directement les entrées qu’il gère. Les
contrôleurs communiquent par échange de valeurs de manière asynchrone.
Cela pourrait conduire à des délais pour l’application du contrôle global.
Par ailleurs, comme dans l’exécution centralisée, dans l’exécution distribuée
totalement synchronisée, les restrictions du contrôleur principal sont prises
en compte immédiatement (dans la même réaction) par les contrôleurs sousjacents.
Dans l’exécution distribuée partiellement synchronisée, les restrictions
du contrôleur principal sont également prises en compte immédiatement. Toutefois,
puisque les contrôleurs sous-jacents ne sont pas totalement synchronisés
avec le contrôleur principal, ces derniers peuvent faire un pas local pendant
que le contrôleur principal initie un pas global. En raison des délais de communication
entre le contrôleur principal et un contrôleur sous-jacent, l’ordre
d’occurrence des entrées pourraient ne pas correspondre à l’ordre de leur ré-
ception par le contrôleur sous-jacent. Une partie de ses entrées est d’abord
132transmise au contrôleur principal qui calcule des restrictions avant de transmettre
les entrées aux autres contrôleurs. Pour éviter ce problème, un verrou
peut être implémenté pour empêcher les contrôleurs sous-jacents de faire un
pas local lorsque le contrôleur principal initie un pas global. Dans le cas de
l’exécution distribuée désynchronisée, les restrictions peuvent ne pas être prises
en compte immédiatement étant donné que les contrôleurs ne se synchronisent
pas et que la communication est asynchrone.
7.3 Expérimentation
Les expérimentations présentées au chapitre précédent montrent que le
code modulaire garantit les propriétés définies. L’objectif de cette section est
d’évaluer le temps de réaction des contrôleurs de coordination lorsqu’ils sont
exécutés sur des machines distinctes. Nous évaluons également le respect des
objectifs, notamment le respect de l’objectif global dans le cas de l’exécution
distribuée désynchronisée.
7.3.1 Configuration
Les expérimentations ont été réalisées dans notre centre de données expérimental,
présenté à la section 6.4.1.
7.3.2 Évaluation
Nous avons injecté des charges de différentes intensités mais ayant le même
profil (une montée de charge puis une charge constante). La montée de charge
permet de déclencher des ajouts de serveurs. Une fois que les charges sont
constantes et le degré de réplication stables, nous injectons des pannes pour
observer le comportement des gestionnaires en présence des contrôleurs de
coordination.
7.3.2.1 Durée de reconfiguration
Nous avons évalué la durée de reconfiguration dans l’exécution centralisée
et dans l’exécution distribuée totalement synchronisée. Cette approche d’exé-
1337.3. EXPÉRIMENTATION
cution distribuée est le pire cas en terme de délai de réactivité, car bien que
distribué, le contrôle reste centralisé au niveau du contrôleur principal. Nous
considérons que la durée d’une reconfiguration correspond au temps écoulé entre
l’émission de l’événement qui déclenche la reconfiguration (par une sonde)
et la fin de la reconfiguration. Le tableau 7.1, donne la durée moyenne de reconfiguration
dans l’exécution centralisée et l’exécution distribuée totalement
synchronisée.
Mode d’exécution Durée moyenne de reconfiguration
Centralisée 4.9 minutes
Distribuée totalement sync. 5.3 minutes
TABLE 7.1 – Durée moyenne de réaction
Nous avons observé que le traitement d’un événement (e.g., surcharge
Tomcat) dure, en moyenne, 4.9 minutes dans l’exécution centralisée. Dans l’exé-
cution distribuée totalement synchronisée, cependant, il dure 5.3 minutes en
moyenne. Toutefois, nous avons constaté qu’il n’y a pas une variation très
significative due à l’exécution distribuée totalement synchronisée. Par exemple,
dans l’exécution centralisée, présentée dans la figure 7.12, le traitement de la
surcharge du tier Tomcat a duré 5.149 minutes. Dans l’exécution distribuée totalement
synchronisée, présentée dans la figure 7.13, il a duré 5.156 minutes.
Nous constatons également que la détection d’une panne d’un serveur
Tomcat conduit à l’inhibition des actions d’ajout de serveurs aussi bien dans
l’exécution centralisée que dans l’exécution distribuée totalement synchronisée.
Dans la figure 7.12, une surcharge est ignorée durant la réparation d’une panne
(34 min). Dans la figure 7.13, une surcharge est également ignorée durant la
réparation d’un serveur (22 min).
7.3.2.2 Atteinte des objectifs de contrôle
Dans les exécutions présentées ci-dessous, nous rendons le serveur Apache
inaccessible. Cela va conduire à la restauration de ce dernier. L’objectif de
134 0
10
20
30
40
50
60
70
80
90
100
0 10 20 30 40 50
0
1
2
3
4
5
Charge CPU (%)
Nbre Tomcat - Nbre Mysql
Duree (minute)
Avg cpu Tomcats
Avg cpu Mysqls
Tomcats actifs
Mysqls actifs
Panne Tomcat
FIGURE 7.12 – Exécution centralisée
0
10
20
30
40
50
60
70
80
90
100
0 10 20 30 40 50
0
1
2
3
4
5
Charge CPU (%)
Nbre Tomcat - Nbre Mysql
Duree (minute)
Avg cpu Tomcats
Avg cpu Mysqls
Tomcats actifs
Mysqls actifs
Panne Tomcat
FIGURE 7.13 – Exécution distribuée totalement synchronisée
1357.3. EXPÉRIMENTATION
voir si les sous-charges qui se produisent dans les tiers Tomcat et Mysql, en
cas de panne du serveur Apache, sont également ignorées dans les exécutions
distribuées.
Exécution centralisée. Dans l’exécution centralisée, présentée dans la figure
7.14, la sous-charge détectée au niveau du tier Mysql (33 min) est ignorée à
cause de la panne du serveur Apache en cours de restauration.
0
10
20
30
40
50
60
70
80
90
100
0 10 20 30 40 50
0
1
2
3
4
5
Charge CPU (%)
Nbre Tomcat - Nbre Mysql
Duree (minute)
Avg cpu Tomcats
Avg cpu Mysqls
Tomcats actifs
Mysqls actifs
Panne Apache
FIGURE 7.14 – Exécution centralisée : panne Apache et sous-charge Mysql
Exécution distribuée totalement synchronisée. Dans l’exécution distribuée
totalement synchronisée, présentée dans la figure 7.15, la sous-charge au niveau
du tier Mysql (27.35 min) est également ignorée à cause de la panne du serveur
Apache.
Exécution distribuée partiellement synchronisée. Les figures 7.16, 7.17 et
7.18 présentent des exécutions durant lesquelles les contrôleurs sont exécutés
de manière distribuée et partiellement synchronisée.
136 0
10
20
30
40
50
60
70
80
90
100
0 10 20 30 40 50
0
1
2
3
4
5
Charge CPU (%)
Nbre Tomcat - Nbre Mysql
Duree (minute)
Avg cpu Tomcats
Avg cpu Mysqls
Tomcats actifs
Mysqls actifs
Panne Apache
FIGURE 7.15 – Exécution distribuée totalement synchronisée : panne
Apache et sous-charge Mysql
Dans les trois figures, nous observons qu’en cas de panne du serveur Apache,
les sous-charges au niveau des tiers Tomcat et Mysql sont ignorées. Dans la
figure 7.16, la sous-charge détectée au niveau du tier Mysql (27.35 min) est
ignorée. Dans La figure 7.17, la sous-charge détectée au niveau du tier Tomcat
est également ignorée. La figure 7.18 présente une exécution dans laquelle deux
serveurs Tomcat ainsi que deux serveurs Mysql sont actifs. Nous constatons
qu’une sous-charge est détectée dans les tiers Tomcat et Mysql. Toutefois, aucun
retrait de serveur n’est effectué à cause de la panne du serveur Apache.
Le contrôleur principal a pu se synchroniser avec les contrôleurs distants,
plus précisément, avec le contrôleur qui gère les gestionnaires des tiers Apache
et Tomcat, pour permettre à ce dernier d’inhiber les actions de retrait de serveurs
Tomcat.
1377.3. EXPÉRIMENTATION
0
10
20
30
40
50
60
70
80
90
100
0 10 20 30 40 50
0
1
2
3
4
5
Charge CPU (%)
Nbre Tomcat - Nbre Mysql
Duree (minute)
Avg cpu Tomcats
Avg cpu Mysqls
Tomcats actifs
Mysqls actifs
Panne Apache
FIGURE 7.16 – Exécution distribuée partiellement synchronisée : panne
Apache et sous-charge Mysql
0
10
20
30
40
50
60
70
80
90
100
0 5 10 15 20 25 30 35 40
0
1
2
3
4
5
Charge CPU (%)
Nbre Tomcat - Nbre Mysql
Duree (minute)
Avg cpu Tomcats
Avg cpu Mysqls
Tomcats actifs
Mysqls actifs
Panne Apache
FIGURE 7.17 – Exécution distribuée partiellement synchronisée : panne
Apache et sous-charge Tomcat
138 10
20
30
40
50
60
70
80
90
100
0 10 20 30 40 50
0
1
2
3
4
5
Charge CPU (%)
Nbre Tomcat - Nbre Mysql
Duree (minute)
Avg cpu Tomcats
Avg cpu Mysqls
Tomcats actifs
Mysqls actifs
Panne Apache
FIGURE 7.18 – Exécution distribuée partiellement synchronisée : panne
Apache et sous-charge Tomcat, Mysql
0
10
20
30
40
50
60
70
80
90
100
0 10 20 30 40 50
0
1
2
3
4
5
Charge CPU (%)
Nbre Tomcat - Nbre Mysql
Duree (minute)
Avg cpu Tomcats
Avg cpu Mysqls
Tomcats actifs
Mysqls actifs
Panne Apache
FIGURE 7.19 – Exécution distribuée désynchronisée : panne Apache et
sous-charge Mysql
1397.4. CONCLUSION
Exécution distribuée désynchronisée. Les figures 7.19 et 7.20 présentent le
cas où les contrôleurs sont exécutés de manière distribuée et désynchronisée.
0
10
20
30
40
50
60
70
80
90
100
0 10 20 30 40 50
0
1
2
3
4
5
Charge CPU (%)
Nbre Tomcat - Nbre Mysql
Duree (minute)
Avg cpu Tomcats
Avg cpu Mysqls
Tomcats actifs
Mysqls actifs
Panne Apache
FIGURE 7.20 – Exécution distribuée désynchronisée : panne Apache et
sous-charge Tomcat, Mysql
Nous constatons, dans ces exécutions, que les sous-charges au niveau du
tier Mysql sont également ignorées suite à une panne du serveur Apache. Dans
la figure 7.20, la sous-charge détectée dans le tier Tomcat est aussi ignorée.
Les valeurs de contrôleur émises par le contrôleur de coordination des
tiers Apache et Tomcat sont reçues par le contrôleur de coordination des tiers
Mysql-proxy et Mysql avant la détection de sous-charge. Cela a permis d’inhiber
les actions de retrait de serveurs Mysql.
7.4 Conclusion
Nous constatons, sur notre plate-forme expérimentale, que le délai dû à la
communication distante n’est pas très significatif. Nous constatons également
140que les objectifs de coordination sont assurées dans les exécutions distribuées.
Les sous-charges en cas de panne du serveur Apache sont ignorées aussi bien
dans le tier Tomcat que dans le tier Mysql. Toutefois, les sous-charges, lorsqu’il
n’y a pas de panne, sont traitées et conduisent au retrait de serveur, comme
le montre la baisse du nombre de serveurs Tomcat et Mysql en fin d’exécution
dans les figures 7.18 et 7.20.
De plus, dans les exécutions distribuées partiellement synchronisées et
désynchronisées, la panne d’un contrôleur n’empêche pas les autres contrôleurs
d’assurer leurs objectifs locaux.
1417.4. CONCLUSION
1428
Conclusion
L’automatisation des fonctions d’administration de systèmes informatiques
a été étudiée dans plusieurs travaux de recherche. Ces travaux ont démontré
la faisabilité de cette approche avec la conception de différents gestionnaires
autonomes. Ces derniers assurent de manière cohérente les fonctions d’administration
qu’ils implémentent. Aujourd’hui de nombreux gestionnaires autonomes
sont disponibles, mais aucun n’implémente l’ensemble des fonctions
d’administration nécessaires pour une gestion globale d’un système. La complexité
de concevoir un gestionnaire complet rend nécessaire la coexistence de
plusieurs gestionnaires pour une administration complète. Toutefois leur coordination
est nécessaire pour assurer une cohérence des actions d’administration
exécutées par les gestionnaires autonomes qui peuvent avoir des politiques
contradictoires.
La coordination de gestionnaires autonomes requiert la synchronisation,
partielle, de leurs activités et le contrôle de leurs actions d’administration pour
éviter les incohérences. La théorie du contrôle fournit des techniques et des
outils qui permettent de traiter ces aspects. De ce fait, nous proposons une
approche basée sur le contrôle discret pour la conception et la validation de
contrôleurs de coordination. Nous utilisons la programmation synchrone et la
synthèse de contrôleur discret. Les langages synchrones sont des langages de
haut niveau permettant une spécification formelle de système ; ils sont associés
à des outils de vérification et de génération de code exécutable. La synthèse de
143contrôleur, quant à elle, permet de raffiner une spécification incomplète en construisant
une fonction de contrôle qui permet d’assurer le respect de propriétés
non vérifiées par la spécification initiale, conçue par programmation synchrone
par exemple. Nous proposons la synthèse modulaire pour la coordination de
plusieurs gestionnaires autonomes. Cette technique permet une coordination
modulaire et hiérarchique des gestionnaires. Cela permet également de réduire
la complexité inhérente aux techniques de synthèse de contrôleur discret.
Pour la mise en oeuvre du contrôle, nous adoptons le modèle à composants.
Chaque gestionnaire est encapsulé dans un composant qui fournit des fonctions
d’introspection et de reconfiguration dynamique de l’état du gestionnaire. Les
composants de gestionnaires à coordonner sont ensuite assemblés dans un
composite dans lequel est intégré le contrôleur de coordination, obtenu par
programmation synchrone et synthèse de contrôleur discret. Le contrôleur
de coordination est connecté aux interfaces de contrôle des composants de
gestionnaires pour restreindre ces derniers, à l’exécution, afin de garantir le
respect de la politique de coordination.
Nous avons réalisé des expérimentations pour évaluer notre approche. Nous
avons coordonné des gestionnaires autonomes qui assurent la performance,
de la disponibilité et de l’optimisation des ressources d’un système multi-tiers.
Les expérimentations réalisées dans ce travail de thèse montrent la faisabilité
de notre approche pour la conception et la validation de contrôleurs de coordination
pour assurer de manière cohérente les politiques de coordination
définies.
Perspectives
Des améliorations sont en cours pour intégrer, en plus des aspects logiques,
des aspects quantitatifs dans les algorithmes de synthèse de contrôleur [9].
Cela permettra de considérer des valeurs numériques dans la déclaration des
objectifs de contrôle. Des poids représentant des fonctions de coûts pourront
être associés aux états et transitions. Par ailleurs, l’expression de propriétés
quantitatives permettra de comparer notre approche avec les approches basées
sur des aspects quantitatifs qui utilisent, par exemple, des fonctions d’utilité.
Dans ce travail de thèse, les objectifs de contrôle sont relativement sim-
144ples. Nous envisageons d’étudier des scénarios de contrôle plus élaborés, par
exemple, un contrôle sur des séquences d’événements et/ou d’états.
Des améliorations sont également envisagées pour l’exécution distribuée.
Les suppositions considérées dans ce travail de thèse, permettent de démontrer
la faisabilité de l’exécution distribuée. Toutefois, en pratique, les pannes
(machines, logiciels ou communication) ne peuvent pas être considérées inexistantes.
De ce fait, nous prévoyons d’étudier la restauration du contrôle distribué
de manière cohérente suite à des pannes de contrôleurs durant l’exécution.
La mise à jour des contrôleurs, durant l’exécution, est également une perspective
intéressante à étudier. L’évolution de la structure du système à contrôler,
les changements des objectifs de contrôle conduisent souvent à la recompilation
du contrôleur. L’idée est de pouvoir faire cette recompilation à chaud, et
intégrer les modifications dans le contrôleur pendant qu’il s’exécute ; tout cela
sans devoir arrêter puis redémarrer le contrôleur ce qui conduit généralement à
réinitialiser l’état de ce dernier. En effet, cette propriété pourrait être pertinente
dans la gestion de centres de données où les applications hébergées et leurs
gestionnaires autonomes sont instanciés et/ou arrêtés de manière dynamique.
145146Bibliographie
[1] Ahmad Al-Shishtawy and Vladimir Vlassov, Elastman : Elasticity manager
for elastic key-value stores in the cloud, Proceedings of the 2013 ACM
Cloud and Autonomic Computing Conference (New York, NY, USA),
CAC ’13, ACM, 2013, pp. 7 :1–7 :10.
[2] Marco Aldinucci, Marco Danelutto, Peter Kilpatrick, and Vamis Xhagjika,
Libero : A framework for autonomic management of multiple non-functional
concerns, Euro-Par 2010 Parallel Processing Workshops (MarioR. Guarracino,
Frédéric Vivien, JesperLarsson Träff, Mario Cannatoro, Marco
Danelutto, Anders Hast, Francesca Perla, Andreas Knüpfer, Beniamino
Di Martino, and Michael Alexander, eds.), Lecture Notes in Computer
Science, vol. 6586, Springer Berlin Heidelberg, 2011, pp. 237–245 (English).
[3] Hua L. And, Hua Liu, Manish Parashar, and Salim Hariri, A Component
Based Programming Framework for Autonomic Applications, Proc. of 1st
International Conference on Autonomic Computing, 2004, pp. 10–17.
[4] C. André, F. Boulanger, and A. Girault, Software implementation of synchronous
programs, IEEE International Conference on Application of
Concurrency to System Design (Newcastle upon Tyne, UK), IEEE Computer
Society, June 2001, pp. 133–142.
[5] Albert Benveniste, Paul Caspi, Stephen A. Edwards, Nicolas Halbwachs,
Paul Le Guernic, and Robert de Simone, The Synchronous Languages
Twelve Years Later, Proc. of the IEEE 91 (2003), no. 1.
[6] Albert Benveniste, Paul Le Guernic, and Christian Jacquemot, Synchronous
programming with events and relations : the {SIGNAL} language and its
147BIBLIOGRAPHIE
semantics, Science of Computer Programming 16 (1991), no. 2, 103 –
149.
[7] Gérard Berry and Georges Gonthier, The esterel synchronous programming
language : Design, semantics, implementation, Sci. Comput. Program. 19
(1992), no. 2, 87–152.
[8] Nicolas Berthier, Florence Maraninchi, and Laurent Mounier, Synchronous
programming of device drivers for global resource control in embedded operating
systems, Proceedings of the 2011 SIGPLAN/SIGBED conference on
Languages, compilers and tools for embedded systems (New York, NY,
USA), LCTES ’11, ACM, 2011, pp. 81–90.
[9] Nicolas Berthier and Hervé Marchand, Discrete Controller Synthesis for Infi-
nite State Systems with ReaX, IEEE International Workshop on Discrete
Event Systems (Cachan, France), May 2014, pp. 420–427.
[10] S. Bouchenak, Noël Depalma, Daniel Hagimont, Sacha Krakowiak, and
C. Taton, Autonomic Management of Internet Services : Experience with
Self-Optimization, International Conference on Autonomic Computing
(ICAC), Dublin, 12/06/2006-16/06/2006 (http ://www.ieee.org/),
IEEE, juin 2006, p. (electronic medium) (anglais).
[11] Sara Bouchenak, Fabienne Boyer, Daniel Hagimont, Sacha Krakowiak,
Noël De Palma, Vivien Quéma, and Jean-Bernard Stefani, Architecturebased
autonomous repair management : Application to j2ee clusters., ICAC,
IEEE Computer Society, 2005, pp. 369–370.
[12] Sara Bouchenak, Noël De Palma, Daniel Hagimont, and Christophe Taton,
Autonomic Management of Clustered Applications, IEEE International Conference
on Cluster Computing, CLUSTER ’06, September 2006, pp. 1–
11.
[13] Laurent Broto, Daniel Hagimont, Patricia Stolf, Noël Depalma, and Suzy
Temate, Autonomic management policy specification in Tune, Annual ACM
Symposium on Applied Computing (SAC), Fortaleza, Ceará, Brazil,
16/03/2008-20/03/2008 (http ://www.acm.org/), ACM, mars 2008,
pp. 1658–1663 (anglais).
[14] E. Bruneton, T. Coupaye, M. Leclercq, V. Quema, and J.-B. Stefani, The
Fractal component model and its support in java, Software – Practice and
Experience (SP&E) 36 (2006), no. 11-12.
148[15] Eric Bruneton, Thierry Coupaye, Matthieu Leclercq, Vivien Quéma, and
Jean-Bernard Stefani, The fractal component model and its support in java :
Experiences with auto-adaptive and reconfigurable systems, Softw. Pract.
Exper. 36 (2006), no. 11-12, 1257–1284.
[16] Christos G. Cassandras and Stephane Lafortune, Introduction to discrete
event systems, Springer-Verlag New York, Inc., Secaucus, NJ, USA, 2006.
[17] Emmanuel Cecchet, Anupam Chanda, Sameh Elnikety, Julie Marguerite,
and Willy Zwaenepoel, Performance comparison of middleware architectures
for generating dynamic web content, Proceedings of the ACM/IFIP/USENIX
2003 International Conference on Middleware (New
York, NY, USA), Middleware ’03, Springer-Verlag New York, Inc., 2003,
pp. 242–261.
[18] Shang-Wen Cheng, David Garlan, Bradley R. Schmerl, João Pedro Sousa,
Bridget Spitnagel, and Peter Steenkiste, Using architectural style as a
basis for system self-repair, Proceedings of the IFIP 17th World Computer
Congress - TC2 Stream / 3rd IEEE/IFIP Conference on Software
Architecture : System Design, Development and Maintenance (Deventer,
The Netherlands, The Netherlands), WICSA 3, Kluwer, B.V., 2002,
pp. 45–59.
[19] Jean-Louis Colaço, Bruno Pagano, and Marc Pouzet, A conservative extension
of synchronous data-flow with state machines, Proceedings of the 5th
ACM International Conference on Conference on Embedded Software
(New York, NY, USA), EMSOFT ’05, ACM, 2005, pp. 173–182.
[20] Rajarshi Das, Jeffrey O. Kephart, Charles Lefurgy, Gerald Tesauro, David W.
Levine, and Hoi Chan, Autonomic multi-agent management of power and
performance in data centers, Proceedings of the 7th International Joint
Conference on Autonomous Agents and Multiagent systems: industrial
track (Richland, SC), AAMAS ’08, International Foundation for
Autonomous Agents and Multiagent Systems, 2008, pp. 107–114.
[21] G. Delaval, N. De Palma, S.M.-K. Gueye, H. Marchand, and E. Rutten,
Discrete control of computing systems administration : A programming language
supported approach, Control Conference (ECC), 2013 European,
July 2013, pp. 117–124.
149BIBLIOGRAPHIE
[22] G. Delaval, É. Rutten, and H. Marchand, Integrating discrete controller synthesis
into a reactive programming language compiler, Discrete Event Dynamic
Systems 23 (2013), no. 4, 385–418.
[23] Gwenaël Delaval, Soguy Mak Karé Gueye, Éric Rutten, and Noël De
Palma, Modular coordination of multiple autonomic managers., CBSE’14,
Proceedings of the 17th International ACM SIGSOFT Symposium on
Component-Based Software Engineering (part of CompArch 2014),
Marcq-en-Baroeul, Lille, France, June 30 - July 4, 2014 (Lionel Seinturier,
Eduardo Santana de Almeida, and Jan Carlson, eds.), ACM, 2014, pp. 3–
12.
[24] Gwenaël Delaval, Hervé Marchand, and Éric Rutten, Contracts for modular
discrete controller synthesis, Proceedings of the ACM SIGPLAN/SIGBED
2010 Conference on Languages, Compilers, and Tools for Embedded
Systems (New York, NY, USA), LCTES ’10, ACM, 2010, pp. 57–66.
[25] Gwenaël Delaval, Éric Rutten, and Hervé Marchand, Integrating discrete
controller synthesis into a reactive programming language compiler, Discrete
Event Dynamic Systems 23 (2013), no. 4, 385–418.
[26] Noël Depalma, B. Claudel, R. Lachaize, S. Bouchenak, and Daniel Hagimont,
Self-Protected System : an experiment, Conference on Security
and Network Architectures (SAR), Seignosse, France, 06/06/2006-
09/06/2006 (http ://www.aw-bc.com/), Addison Wesley Longman,
juin 2006, p. (electronic medium) (anglais).
[27] Léonard Gérard, Adrien Guatto, Cédric Pasteur, and Marc Pouzet, A modular
memory optimization for synchronous data-flow languages, Proc. of the
ACM International Conference on Languages, Compilers, Tools and
Theory for Embedded Systems (LCTES’12) (Beijing, China), June 2012.
[28] Soguy Mak-karé Gueye, Noël Palma, Eric Rutten, Alain Tchana, and Daniel
Hagimont, Discrete control for ensuring consistency between multiple autonomic
managers, Journal of Cloud Computing : Advances, Systems and
Applications 2 (2013), no. 1, 16.
[29] Soguy Mak Karé Gueye, Noël De Palma, and Éric Rutten, Component-based
autonomic managers for coordination control., Coordination Models and
Languages, 15th International Conference, COORDINATION 2013,
Held as Part of the 8th International Federated Conference on Dis-
150tributed Computing Techniques, DisCoTec 2013, Florence, Italy, June
3-5, 2013. Proceedings (Rocco De Nicola and Christine Julien, eds.), Lecture
Notes in Computer Science, vol. 7890, Springer, 2013, pp. 75–89.
[30] Soguy Mak Karé Gueye, Noël De Palma, Éric Rutten, Alain Tchana, and
Nicolas Berthier, Coordinating self-sizing and self-repair managers for multitier
systems., Future Generation Comp. Syst. 35 (2014), 14–26.
[31] Ajay Gulati, Anne Holler, Minwen Ji, Ganesha Shanmuganathan, Carl
Waldspurger, and Xiaoyun Zhu, Vmware distributed resource management
: Design, implementation, and lessons learned.
[32] Ajay Gulati, Ganesha Shanmuganathan, Anne Holler, and Irfan Ahmad,
Cloud-scale resource management : Challenges and techniques, Proceedings
of the 3rd USENIX Conference on Hot Topics in Cloud Computing
(Berkeley, CA, USA), HotCloud’11, USENIX Association, 2011, pp. 3–3.
[33] N. Halbwachs, Synchronous programming of reactive systems, a tutorial and
commented bibliography, Tenth International Conference on ComputerAided
Verification, CAV’98 (Vancouver (B.C.)), LNCS 1427, Springer
Verlag, June 1998.
[34] N. Halbwachs, P. Caspi, P. Raymond, and D. Pilaud, The synchronous
dataflow programming language lustre, Proceedings of the IEEE, 1991,
pp. 1305–1320.
[35] David Harel and Amnon Naamad, The statemate semantics of statecharts,
ACM Trans. Softw. Eng. Methodol. 5 (1996), no. 4, 293–333.
[36] Joseph L. Hellerstein, Yixin Diao, Sujay Parekh, and Dawn M. Tilbury,
Feedback Control of Computing Systems, John Wiley & Sons, 2004.
[37] Jin Heo, Praveen Jayachandran, Insik Shin, Dong Wang, Tarek Abdelzaher,
and Xue Liu, OptiTuner: On Performance Composition and Server Farm
Energy Minimization Application, IEEE Trans. Parallel Distrib. Syst. 22
(2011), no. 11, 1871–1878.
[38] Timotheos Kastrinogiannis, Nikolay Tcholtchev, Arun Prakash, Ranganai
Chaparadza, Vassilios Kaldanis, Hakan Coskun, and Symeon Papavassiliou,
Addressing stability in future autonomic networking., MONAMI
(Kostas Pentikousis, Ramón Agüero Calvo, Marta García-Arranz, and
Symeon Papavassiliou, eds.), Lecture Notes of the Institute for Com-
151BIBLIOGRAPHIE
puter Sciences, Social Informatics and Telecommunications Engineering,
vol. 68, Springer, 2010, pp. 50–61.
[39] Jeffrey O. Kephart and David M. Chess, The vision of autonomic computing,
Computer 36 (2003), 41–50.
[40] Sanjay Kumar, Vanish Talwar, Vibhore Kumar, Parthasarathy Ranganathan,
and Karsten Schwan, vManage: loosely coupled platform and virtualization
management in data centers, Proceedings of the 6th International Conference
on Autonomic Computing (New York, NY, USA), ICAC ’09, ACM,
2009, pp. 127–136.
[41] Florence Maraninchi and Yann Rémond, Mode-automata : a new domainspecific
construct for the development of safe critical systems, Sci. Comput.
Program. 46 (2003), 219–254.
[42] H. Marchand, P. Bournai, M. Le Borgne, and P. Le Guernic, Synthesis of
discrete-event controllers based on the signal environment, j. Discrete Event
Dynamic System 10 (2000), no. 4.
[43] H. Marchand and M. Samaan, Incremental design of a power transformer
station controller using a controller synthesis methodology, IEEE Trans. on
Soft. Eng. 26 (2000), no. 8, 729 –741.
[44] Hervé Marchand, Patricia Bournai, Michel Le Borgne, and Paul Le Guernic,
Synthesis of Discrete-Event Controllers Based on the Signal Environment,
Discrete Event Dynamic Systems 10 (2000), 325–346.
[45] Ripal Nathuji and Karsten Schwan, VirtualPower: coordinated power management
in virtualized enterprise systems, Proceedings of twenty-first ACM
SIGOPS Symposium on Operating Systems Principles (New York, NY,
USA), SOSP ’07, ACM, 2007, pp. 265–278.
[46] E. Pinheiro, R. Bianchini, E. V. Carrera, and T. Heath, Load balancing and unbalancing
for power and performance in cluster-based systems, Proceedings
of the Workshop on Compilers and Operating Systems for Low Power
(COLP’01), September 2001.
[47] Ramya Raghavendra, Parthasarathy Ranganathan, Vanish Talwar, Zhikui
Wang, and Xiaoyun Zhu, No "power" struggles: coordinated multi-level
power management for the data center, Proceedings of the 13th International
Conference on Architectural Support for Programming Lan-
152guages and Operating Systems (New York, NY, USA), ASPLOS XIII,
ACM, 2008, pp. 48–59.
[48] P.J. Ramadge and W.M. Wonham, Supervisory control of a class of discrete
event processes, SIAM J. on Control and Optimization 25 (1987), no. 1,
206–230.
[49] Ivan Rodero, Juan Jaramillo, Andres Quiroz, Manish Parashar, Francesc
Guim, and Stephen Poole, Energy-efficient application-aware online provisioning
for virtualized clouds and data centers, Green Computing Conference,
August 2010, pp. 31–45.
[50] Ebada Sarhan, Atif Ghalwash, and Mohamed Khafagy, Specification and
implementation of dynamic web site benchmark in telecommunication area,
Proceedings of the 12th WSEAS International Conference on Computers
(Stevens Point, Wisconsin, USA), ICCOMP’08, World Scientific and
Engineering Academy and Society (WSEAS), 2008, pp. 863–867.
[51] Nikolay Tcholtchev, Ranganai Chaparadza, and Arun Prakash, Addressing
stability of control-loops in the context of the gana architecture : Synchronization
of actions and policies, IWSOS, 2009, pp. 262–268.
[52] Yin Wang, Terence Kelly, and Stéphane Lafortune, Discrete control for safe execution
of IT automation workflows, Proceedings of the 2nd ACM SIGOPS/EuroSys
European Conference on Computer Systems 2007 (New
York, NY, USA), EuroSys ’07, ACM, 2007, pp. 305–314.
[53] Yiqiao Wang and John Mylopoulos, Self-repair through reconfiguration : A
requirements engineering approach, Proceedings of the 2009 IEEE/ACM
International Conference on Automated Software Engineering (Washington,
DC, USA), ASE ’09, IEEE Computer Society, 2009, pp. 257–268.
153BIBLIOGRAPHIE
154Table des figures
2.1 Architecture d’un système autonome . . . . . . . . . . . . . . . . 11
2.2 Système de transitions . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3 Modélisation avec Heptagon/BZR: Tâche différable . . . . . . . 22
2.4 Modélisation avec Heptagon/BZR: programme BZR. . . . . . . . 23
2.5 Exemple de composition parallèle . . . . . . . . . . . . . . . . . 24
2.6 Exemple d’encapsulation . . . . . . . . . . . . . . . . . . . . . . . 24
2.7 Système de transitions contrôlé . . . . . . . . . . . . . . . . . . . 27
2.8 Heptagon/BZR contrat: exclusion mutuelle . . . . . . . . . . . . 28
2.9 Synthèse modulaire avec Heptagon/BZR. . . . . . . . . . . . . . 29
3.1 Comportement d’un gestionnaire . . . . . . . . . . . . . . . . . . 37
3.2 Gestionnaire contrôlable . . . . . . . . . . . . . . . . . . . . . . . 38
3.3 Modèle de la coexistence de gestionnaires . . . . . . . . . . . . . 39
3.4 Spécification de stratégie de coordination . . . . . . . . . . . . . 40
3.5 Spécification monolithique du contrôle . . . . . . . . . . . . . . . 41
3.6 Spécification modulaire du contrôle . . . . . . . . . . . . . . . . 42
3.7 Composant Fractal . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.8 Composant composite . . . . . . . . . . . . . . . . . . . . . . . . 45
3.9 Composant de gestionnaire contrôlable . . . . . . . . . . . . . . 47
3.10 Composants de gestionnaires coordonnés . . . . . . . . . . . . . 48
3.11 Composant composite . . . . . . . . . . . . . . . . . . . . . . . . 48
3.12 Extension de la contrôlabilité . . . . . . . . . . . . . . . . . . . . 51
3.13 Coordination hiérarchique . . . . . . . . . . . . . . . . . . . . . . 51
4.1 Gestionnaire d’auto-dimensionnement: self-sizing . . . . . . . . 57
4.2 Gestionnaire d’auto-régulation: Dvfs . . . . . . . . . . . . . . . . 58
155TABLE DES FIGURES
4.3 Modèle de contrôle de self-sizing . . . . . . . . . . . . . . . . . . 61
4.4 Modèle global du mode d’exécution des Dvfs . . . . . . . . . . . 63
4.5 Composition des modèles des gestionnaires self-sizing et Dvfs . 64
4.6 Coordination de gestionnaires self-sizing et Dvfs . . . . . . . . . 65
4.7 Seuil minimal pour self-sizing: ajout de serveur . . . . . . . . . . 68
4.8 Seuil minimal pour self-sizing: retrait de serveur . . . . . . . . . 68
4.9 Seuil minimal pour Dvfs . . . . . . . . . . . . . . . . . . . . . . . 70
4.10 Exécution non coordonnée avec: 4750 requêtes/sec . . . . . . . . . 71
4.11 Exécution non coordonnée avec: 5000 requêtes/sec . . . . . . . . . 71
4.12 Exécution coordonnée avec: 4750 requêtes/sec . . . . . . . . . . . 72
4.13 Exécution coordonnée avec: 5000 requêtes/sec . . . . . . . . . . . 73
4.14 Exécution non coordonnée avec: 5542 requêtes/sec . . . . . . . . . 74
4.15 Exécution coordonnée avec: 5542 requêtes/sec . . . . . . . . . . . 74
5.1 Application JEE . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.2 Gestionnaire d’auto-réparation . . . . . . . . . . . . . . . . . . . 80
5.3 Panne du serveur Apache . . . . . . . . . . . . . . . . . . . . . . 82
5.4 Panne du serveur Mysql-Proxy . . . . . . . . . . . . . . . . . . . 82
5.5 Panne d’un serveur Tomcat . . . . . . . . . . . . . . . . . . . . . 83
5.6 Panne d’un serveur MySQL . . . . . . . . . . . . . . . . . . . . . . 83
5.7 Modéle de contrôle de self-repair . . . . . . . . . . . . . . . . . . 85
5.8 Composition des modèles de self-sizing et self-repair . . . . . . 86
5.9 Coordination des instances de self-sizing et self-repair . . . . . . 89
5.10 Exécution non coordonnée: Panne du serveur Apache . . . . . . 92
5.11 Exécution non coordonnée: Panne d’un serveur Tomcat . . . . . 93
5.12 Exécution non coordonnée: Panne du serveur Mysql-proxy . . . 94
5.13 Exécution non coordonnée: Panne d’un serveur Mysql . . . . . 95
5.14 Exécution coordonnée: Panne du serveur Apache . . . . . . . . 96
5.15 Exécution coordonnée: Panne d’un serveur Tomcat . . . . . . . 96
5.16 Exécution coordonnée: Panne du serveur Mysql-proxy . . . . . 97
5.17 Exécution coordonnée: Panne d’un serveur Mysql . . . . . . . . 98
6.1 Modèle du gestionnaire self-sizing . . . . . . . . . . . . . . . . . 103
6.2 Modèle du gestionnaire self-repair . . . . . . . . . . . . . . . . . 104
6.3 Modèle du gestionnaire de consolidation . . . . . . . . . . . . . 105
1566.4 Synthèse monolithique . . . . . . . . . . . . . . . . . . . . . . . . 107
6.5 Réutilisation de modèles de contrôle . . . . . . . . . . . . . . . . 107
6.6 Tier dupliqué . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
6.7 Tier dupliqué avec aiguilleur en frontal . . . . . . . . . . . . . . 109
6.8 Multi-tiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
6.9 Centre de données avec deux applications multi-tiers. . . . . . . 110
6.10 Conception monolithique de la coordination . . . . . . . . . . . 110
6.11 Conception modulaire de la coordination . . . . . . . . . . . . . 111
6.12 Exécution non coordonnée: app 1: Panne Apache . . . . . . . . . 113
6.13 Exécution non coordonnée: app 2: Panne Tomcat . . . . . . . . . 114
6.14 Exécution coordonnée: app 1: Panne Apache . . . . . . . . . . . . 114
6.15 Exécution coordonnée: app 2: Panne Tomcat . . . . . . . . . . . . 115
7.1 Structure à l’exécution: Objet Java . . . . . . . . . . . . . . . . . . 118
7.2 Exécution distribuée synchronisée avec Java rmi . . . . . . . . 121
7.3 Exécution distribuée désynchronisée avec Message Queuing . . . 124
7.4 Spécification modulaire . . . . . . . . . . . . . . . . . . . . . . . 125
7.5 Exécution distribuée totalement synchronisée . . . . . . . . . . . 125
7.6 Tier dupliqué . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
7.7 Tier dupliqué avec aiguilleur en frontal . . . . . . . . . . . . . . 128
7.8 Multi-tiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
7.9 Exécution distribuée partiellement synchronisée . . . . . . . . . 129
7.10 Coordination modulaire désynchronisée . . . . . . . . . . . . . . 130
7.11 Exécution distribuée désynchronisée . . . . . . . . . . . . . . . . 131
7.12 Exécution centralisée . . . . . . . . . . . . . . . . . . . . . . . . . 135
7.13 Exécution distribuée totalement synchronisée . . . . . . . . . . . 135
7.14 Exécution centralisée: panne Apache et sous-charge Mysql . . . . 136
7.15 Exécution distribuée totalement synchronisée: panne Apache et
sous-charge Mysql . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
7.16 Exécution distribuée partiellement synchronisée: panne Apache
et sous-charge Mysql . . . . . . . . . . . . . . . . . . . . . . . . . 138
7.17 Exécution distribuée partiellement synchronisée: panne Apache
et sous-charge Tomcat . . . . . . . . . . . . . . . . . . . . . . . . 138
7.18 Exécution distribuée partiellement synchronisée: panne Apache
et sous-charge Tomcat, Mysql . . . . . . . . . . . . . . . . . . . . 139
157TABLE DES FIGURES
7.19 Exécution distribuée désynchronisée: panne Apache et sous-charge
Mysql . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
7.20 Exécution distribuée désynchronisée: panne Apache et sous-charge
Tomcat, Mysql . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
158Liste des tableaux
6.1 SCD: durée de la synthèse et la mémoire utilisée . . . . . . . . . 111
7.1 Durée moyenne de réaction . . . . . . . . . . . . . . . . . . . . . 134
159LISTE DES TABLEAUX
160161
Mod´elisation de la polydispersion des brouillards de
gouttes sous l’effet des interactions two-way turbulentes
pour l’injection directe `a haute pression dans les moteurs
Oguz Emre
To cite this version:
Oguz Emre. Mod´elisation de la polydispersion des brouillards de gouttes sous l’effet des interactions
two-way turbulentes pour l’injection directe `a haute pression dans les moteurs. Engineering
Sciences. Ecole Centrale Paris, 2014. French. .
HAL Id: tel-01089937
https://tel.archives-ouvertes.fr/tel-01089937
Submitted on 2 Dec 2014
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of scientific
research documents, whether they are published
or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destin´ee au d´epˆot et `a la diffusion de documents
scientifiques de niveau recherche, publi´es ou non,
´emanant des ´etablissements d’enseignement et de
recherche fran¸cais ou ´etrangers, des laboratoires
publics ou priv´es.THESE `
pr´esent´ee par
O˘guz EMRE
pour l’obtention du
GRADE de DOCTEUR
Formation doctorale : Energ´etique, Math´ematiques Appliqu´ees
Laboratoire d’accueil : Laboratoire d’Energ´etique Mol´eculaire
et Macroscopique, Combustion (EM2C)
du CNRS et de l’ECP
Modeling of spray polydispersion with two-way
turbulent interactions for high pressure direct
injection in engines
Soutenue le 21 Mars 2014
Jury : MM. Daniel E. Rapporteur
Demoulin F.-X. Rapporteur
Desjardins O. Rapporteur
Lance M. Examinateur
Som S. Examinateur
Murrone A. Examinateur
Fox R. O. Examinateur
Massot M. Directeur de th`ese
Mme. Laurent F. Co-Directrice de th`ese
MM. Jay S. Encadrant IFPEN
de Chaisemartin S. Encadrant IFPEN
Ecole Centrale des Arts et Manufactures
Grand Etablissement sous tutelle ´
du Minist`ere de l’Education Nationale ´
Grande Voie des Vignes
92295 Chˆatenay-Malabry Cedex
T´el : 33 (1) 41 13 10 00
T´elex : 634 991 F EC PARIS
Laboratoire d’Energ´etique ´
Mol´eculaire et Macroscopique,
Combustion (E.M2.C.)
UPR 288, CNRS et Ecole Centrale Paris
T´el : 33 (1) 41 13 10 31
Fax : 33 (1) 47 02 80 35
2014-2014ECAP0029ABSTRACT
The ability to simulate two-phase flows is of crucial importance for the prediction
of internal combustion engine (ICE) performance and pollutant emissions. The direct
injection of the liquid fuel inside the combustion chamber generates a cloud of polydisperse
droplets, called spray, far downstream of the injector. From the modeling point of
view, the emergence of Eulerian techniques for the spray description is considered promising
by the scientific community. Moreover, the bottleneck issue for Eulerian methods of
capturing the droplet size distribution with a reasonable computational cost, has been
successfully tackled through the development of Eulerian Multi Size Moment (EMSM)
method. Towards realistic ICE applications, the present PhD work addresses the modeling
of two-way turbulent interactions between the polydisperse spray and its surrounding
gas-phase through EMSM method. Following to the moving mesh formalism Arbitrary
Lagrangian Eulerian (ALE), the source terms arising in the two-phase model have been
treated separately from other contributions. The equation system is closed through the
maximum entropy (ME) reconstruction technique originally introduced for EMSM. A new
resolution strategy is developed in order to guarantee the numerical stability under very
fast time scales related to mass, momentum and energy transfers, while preserving the
realizability condition associated to the set of high order moments. From the academic
point of view, both the accuracy and the stability have been deeply investigated under
both constant and time dependent evaporation laws. All these developments have been
integrated in the industrial software IFP-C3D dedicated to compressible reactive flows. In
the context of 2-D injection simulations, very encouraging quantitative and qualitative results
have been obtained as compared to the reference Lagrangian simulation of droplets.
Moreover, simulations conducted under a typical 3-D configuration of a combustion chamber
and realistic injection conditions have given rise to fruitful achievements. Within the
framework of industrial turbulence modeling, a Reynolds averaged (RA) extension of the
two-way coupling equations is derived, providing appropriate closures for turbulent correlations.
The correct energy partitions inside the spray and turbulent interactions between
phases have been demonstrated through homogeneous test-cases. The latter cases gave
also some significant insights on underlying physics in ICE. This new RA approach is now
ready for ICE application simulations.
Keywords Evaporating spray, turbulent two-way coupling, polydispersity, Eulerian
models, high order moment method, Reynolds averaging, ALE formalismRESUM ´ E´
La simulation des ´ecoulements diphasiques rencontr´es dans les moteurs `a combustion
interne (MCI) est de grande importance pour la pr´ediction de la performance des moteurs
et des ´emissions polluantes. L’injection directe du carburant liquide `a l’int´erieur
de la chambre de combustion g´en`ere loin de l’injecteur un brouillard de gouttes polydisperses,
commun´ement appel´e spray. Du point de vue de la mod´elisation, l’´emergence
des m´ethodes Eul´eriennes pour la description du spray est consider´ee prometteuse par
la communaut´e scientifique. De plus, la prise en compte de la distribution en taille des
gouttes par les approches Eul´eriennes, de mani`ere peu coˆuteuse en temps de calcul, n’est
plus consid´er´ee comme un verrou depuis le d´eveloppement de la m´ethode Eulerian Multi
Size Moment (EMSM). Afin d’envisager la simulation de configurations r´ealistes de MCI,
ce travail de th`ese propose de mod´eliser les interactions turbulentes two-way entre le
spray polydisperse ´evaporant et la phase gazeuse environnante par la m´ethode EMSM.
Dans le contexte du formalisme Arbitrary Lagrangian Eulerian (ALE) d´edi´ee au traitement
du maillage mobile, les termes sources pr´esents dans le mod`ele diphasique sont
trait´es s´epar´ement des autres contributions. Le syst`eme d’´equations est ferm´e `a l’aide
d’une technique de reconstruction par maximisation d’entropie (ME), originellement introduite
pour EMSM. Une nouvelle strat´egie de r´esolution a ´et´e d´evelopp´ee pour garantir
la stabilit´e num´erique aux ´echelles de temps tr`es rapides introduites par les transferts de
masse, quantit´e de mouvement et ´energie, tout en r´espectant la condition de r´ealisabilit´e
associ´ee `a la pr´eservation de l’´espace des moments d’ordre ´elev´e. A l’aide des simulations
acad´emiques, la stabilit´e et la pr´ecision de la m´ethode ont ´et´e ´etudi´ees aussi bien pour des
lois d’´evaporation constantes que d´ependantes du temps. Tous ces d´eveloppements ont ´et´e
int´egr´es dans le code industriel IFP-C3D d´edi´e aux ´ecoulements compressibles et r´eactifs.
Dans le contexte de la simulation en 2-D de l’injection directe, les r´esultats se sont av´er´es
tr`es encourageants comme en t´emoignent les comparaisons qualitatives et quantitatives
de la m´ethode Eulerienne `a la simulation Lagrangienne de r´ef´erence des gouttes. De plus,
les simulations en 3-D effectu´ees dans une configuration typique de chambre de combustion
et des conditions d’injection r´ealistes ont donn´e lieu `a des r´esultats qualitativement
tr`es satisfaisants. Afin de prendre en compte la mod´elisation de la turbulence, une extension
moyenn´ee, au sens de Reynolds, des ´equations du mod`ele diphasique two-way est
d´eriv´ee, un soin particulier ´etant apport´e aux fermetures des corr´elations turbulentes. La
r´epartition de l’´energie dans le spray ainsi que les int´eractions turbulentes entre les phases
ont ´et´e ´etudi´ees dans des cas tests homog`enes. Ces derniers donnent un aper¸cu int´eressant
sur la physique sous-jacente dans les MCI. Cette nouvelle approche RANS diphasique est
maintenant prˆete `a ˆetre employ´ee pour les simulations d’application de MCI.
Mots Cl´es Spray ´evaporant, polydispersion, couplage two-way turbulent, mod`eles
Eul´eriens, m´ethode de moments d’ordre ´elev´e, moyenne de Reynolds, formalisme ALEREMERCIEMENTS
Cette th`ese est le produit d’une collaboration ´etroite entre IFP Energies nouvelles et le
laboratoire EM2C de l’Ecole Centrale Paris. Je salue vivement tous ceux qui ont particip´e
de pr`es ou de loin `a la r´ealisation de ce travail de longue haleine.
Mes premiers remerciements s’adressent ´evidemment `a l’´equipe de mes encadrants,
Marc Massot, Fr´ed´erique Laurent, St´ephane Jay et St´ephane de Chaisemartin, qui m’ont
permis de faire cette th`ese dans une ambiance amicale et agr´eable, tout en m’assurant les
meilleurs conditions pour r´eussir. Je salue mes directeurs de th`ese, Marc et Fr´ederique, qui
m’ont donn´e gˆout au sujet. Leur implication dans l’ensemble de mes travaux de th`ese, leur
excellence scientifique ainsi que leur disponibilit´e m’ont permis d’apprendre beaucoup. Je
retiens ´egalement nos discussions chaleureuses lors de mes passages `a EM2C. Passons
maintenant `a mes encadrants du cˆot´e de IFP Energies nouvelles. Je salue St´ephane Jay
pour les ´echanges amicaux que j’ai eu avec lui au cours de ces trois ann´ees et ses efforts
pr´ecieux sur la valorisation de mes travaux dans un contexte industriel. Je salue St´ephane
de Chaisemartin pour ses aides lors de mes timides d´ebuts dans le sujet mais aussi pour
son implication forte dans l’ensemble de mes travaux. Je le remercie ´egalement pour sa
gentillesse et sa disponibilit´e.
Je remercie vivement Eric Daniel, Fran¸cois-Xavier Demoulin et Olivier Desjardins
d’avoir accept´e la lourde tˆache d’ˆetre les rapporteurs de mon travail de recherche, leurs avis
sur ce travail permettra d’apporter des id´ees nouvelles pour les ´etudes futures. Je remercie
Michel Lance de m’avoir fait l’honneur de pr´esider mon jury de th`ese et pour l’int´erˆet
qu’il a manifest´e pour mon travail. Je remercie Rodney O. Fox, Sibendu Som et Angelo
Murrone autant pour leurs remarques sur le manuscrit que les questions pertinentes pos´ees
lors de la soutenance.
Au del`a de mon encadrement officiel, Il est important que j’´evoque les personnes avec
qui j’ai ´echang´e de pr`es. J’ai eu la chance de travailler avec Rodney O. Fox. Son expertise
exceptionnelle sur l’aspect mod´elisation de la turbulence a ´enormement contribu´e `a la
valorisation de ma th`ese. Il faudrait aussi que je remercie encore une fois Marc d’avoir
organis´e cette collaboration fructueuse avec Rodney. Je salue Huy Tran qui a consacr´e
une partie non n´egligeable de son temps pour m’initier aux aspects num´eriques de ma
th`ese. Il est ´egalement intervenu de nombreuses fois lors des diff´erentes ´etapes de mes
travaux. Je retiens nos sessions agr´eables avec Huy. Et enfin, je salue Anthony Velghe qui
m’a donn´e de l’appui plusieurs fois pour surmonter les difficult´es li´ees au d´eveloppement
du code IFP-C3D.
J’adresse toute ma gratitude `a IFP Energies nouvelles et au laboratoire EM2C qui, par
les moyens humains, mat´eriels et financiers m’ont apport´e un environnement de travail de
qualit´e. Je remercie Antonio Pires da Cruz, chef du d´epartement R102 (Mod´elisation et
Simulation Syst`eme) pour m’avoir accueilli dans son ´equipe. Je remercie Estelle Iacona,
directrice du laboratoire EM2C, ainsi qu’Olivier Gicquel qui lui a succ´ed´e et m’a permis
de finir mon travail de th`ese dans de bonnes conditions. Je remercie ´egalement l’ensemble
des ing´enieurs et des chercheurs `a IFP Energies nouvelles et `a EM2C pour leurs accueils2
chaleureux. Je retiens les ´echanges avec Nicolas Gillet, Julien Bohbot et Rajesh Kumar
que j’ai eu sur IFP-C3D. Je remercie ´egalement Damien Kah, Aymeric Vi´e et Adam Larat
pour nos ´echanges sur les m´ethodes des moments et les m´ethodes num´eriques.
Je salue les th´esardes et th´esards avec qui j’ai partag´e cette aventure. La liste est
longue, j’en oublie certainement. Du cˆot´e de IFP Energies nouvelles, je remercie Damien
et Sophie avec qui j’ai pass´e des moments agr´eables et amusants dans le mˆeme bureau.
Il m’est ´egalement impossible d’oublier les moments de partage, notemment au tour de
la machine `a caf´e, avec Stavros, Haifa, Betty, Benjamin, Nikola, Emre, Federico, Nicolas,
Carlo, Anthony, St´ephane, Adam, Ayoub, Jan, Lama, Elias, Pablo, Karl. Je salue
´egalement les th´esards et les postdoc avec qui j’ai eu de tr`es bons souvenirs lors de mes
passages au labortoire EM2C. Je pense en particulier Fran¸cois, Alaric, Macole, Gizem,
Pedro, Wassim, Haoxue, Marien, Jose.
Pour finir, je remercie de tout mon coeur mes parents de m’avoir soutenus durant ces
longues ann´ees d’´etudes et en particulier ma compagne Marguerite pour son soutien sans
faille et sa patience pour mes nombreux jours de travail. Elle a su me redonner de la force
quand il m’en manquait.Contents
1 Introduction 12
1.1 General context . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2 Numerical tools for ICE simulation . . . . . . . . . . . . . . . . . . . . . . 13
1.2.1 System simulation methods . . . . . . . . . . . . . . . . . . . . . . 13
1.2.2 CFD methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3 Injection physics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4 Injection flow description . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5 Disperse phase simulation at a glance . . . . . . . . . . . . . . . . . . . . . 17
1.6 Eulerian polydisperse modeling at a glance . . . . . . . . . . . . . . . . . . 19
1.7 Objectives of this PhD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.8 Organization of the manuscript . . . . . . . . . . . . . . . . . . . . . . . . 22
2 Two-phase flow modeling of high pressure direct injection 26
2.1 Two-phase flow regimes in ICE . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.1 Physical mechanisms behind two-phase flow dynamics . . . . . . . . 26
2.1.2 Separate-phase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1.3 Disperse-phase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.1.3.1 Basic disperse-flow regimes . . . . . . . . . . . . . . . . . 28
2.1.3.2 Polydispersity . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.1.3.3 Particle Trajectory Crossings (PTC) . . . . . . . . . . . . 30
2.2 Modeling approaches for disperse-phases . . . . . . . . . . . . . . . . . . . 31
2.2.1 Direct numerical simulation at the particle level . . . . . . . . . . . 31
2.2.1.1 Sharp interface tracking method . . . . . . . . . . . . . . 31
2.2.1.2 Fluid DNS around solid bodies . . . . . . . . . . . . . . . 31
2.2.1.3 Concluding remarks on DNS methods for the disperse-phase 32
2.2.2 Discrete Particle Simulation (DPS) . . . . . . . . . . . . . . . . . . 32
2.2.3 Two-fluid reduced models . . . . . . . . . . . . . . . . . . . . . . . 33
2.2.4 Kinetic spray modeling . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2.4.1 Fundamental assumption . . . . . . . . . . . . . . . . . . 34
2.2.4.2 Williams-Boltzmann Equation (WBE) . . . . . . . . . . . 35
2.2.4.3 Source term closure models . . . . . . . . . . . . . . . . . 36
2.3 Resolution strategies for the kinetic disperse phase modeling . . . . . . . . 37
2.3.1 Stochastic-Lagrangian resolution . . . . . . . . . . . . . . . . . . . 37
2.3.2 Shortcomings of Lagrangian methods . . . . . . . . . . . . . . . . . 38
2.3.3 Eulerian resolution . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
1CONTENTS 2
2.3.3.1 Derivation of the Eulerian model . . . . . . . . . . . . . . 39
2.3.3.2 Bottleneck issue for Kinetic based Eulerian methods . . . 40
2.3.4 Conclusion about the resolution technique adopted for ICE applications
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.4 Eulerian polykinetic modeling through kinetic
based models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.4.1 Modeling categories and hierarchies . . . . . . . . . . . . . . . . . . 42
2.4.2 Isotropic and Anisotropic Gaussian velocity closure for homo-PTC . 43
2.5 Turbulent disperse flow modeling through Eulerian kinetic based models . 44
2.5.1 Turbulence modeling at the kinetic level . . . . . . . . . . . . . . . 46
2.5.2 Turbulence modeling at macroscopic level . . . . . . . . . . . . . . 46
2.5.3 Concluding remarks . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.6 Kinetic based Eulerian simulation of polydisperse droplets . . . . . . . . . 48
2.6.1 Semi-kinetic modeling under a monokinetic assumption . . . . . . . 48
2.6.2 Eulerian polydisperse approach with size sampling . . . . . . . . . . 49
2.6.3 Eulerian Multi-fluid model . . . . . . . . . . . . . . . . . . . . . . . 50
2.6.3.1 Original MF assumptions and the model derivation . . . . 50
2.6.3.2 MF with two size moments per section . . . . . . . . . . . 52
2.6.3.3 PTC with MF method . . . . . . . . . . . . . . . . . . . . 53
2.6.3.4 Conclusion on MF method . . . . . . . . . . . . . . . . . . 54
2.6.4 High order moment methods through quadrature
approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.6.4.1 Quadrature Method Of Moments (QMOM) . . . . . . . . 54
2.6.4.2 Direct Quadrature Moment of Methods (DQMOM) . . . . 55
2.6.5 High order moment methods based on the Maximum entropy NDF
reconstruction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.7 Eulerian Multi-Size Moment (EMSM) method . . . . . . . . . . . . . . . . 57
2.7.1 Derivation of EMSM . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2.7.2 Moment space issue . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.7.3 NDF Reconstruction through an arbitrary number of moments . . . 59
2.7.3.1 Lower principal representation . . . . . . . . . . . . . . . . 60
2.7.3.2 NDF reconstruction through the Maximum Entropy formalism
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.7.3.3 Discussion on the EMSM closure . . . . . . . . . . . . . . 62
2.7.4 Numerical resolution issue . . . . . . . . . . . . . . . . . . . . . . . 62
2.7.4.1 Evaporation scheme . . . . . . . . . . . . . . . . . . . . . 62
2.7.4.2 Convection scheme . . . . . . . . . . . . . . . . . . . . . . 64
2.7.5 Academic realizations through EMSM method . . . . . . . . . . . . 64
2.7.6 Recent extension of EMSM method to capture hetero-PTC: CSVM
method . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.7.7 EMSM towards ICE applications . . . . . . . . . . . . . . . . . . . 66
3 Two-way coupling modeling between the polydisperse evaporation spray
and the compressible gas 69
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69CONTENTS 3
3.2 Derivation of the EMSM model . . . . . . . . . . . . . . . . . . . . . . . . 73
3.2.1 From the kinetic equation to a semi-kinetic system . . . . . . . . . 73
3.2.2 From the semi-kinetic system to the multi-size moment system . . . 76
3.2.3 Nondimensional formulation . . . . . . . . . . . . . . . . . . . . . . 79
3.2.4 Realizability of moments . . . . . . . . . . . . . . . . . . . . . . . . 80
3.3 Overview of the numerical method . . . . . . . . . . . . . . . . . . . . . . 83
3.3.1 Two-way coupling source terms . . . . . . . . . . . . . . . . . . . . 83
3.3.2 Arbitrary Lagrange Euler formalism . . . . . . . . . . . . . . . . . . 86
3.3.3 Elements of time-space discretization . . . . . . . . . . . . . . . . . 87
3.4 Verification of two claimed features for the new EMSM . . . . . . . . . . . 89
3.4.1 Source terms for two-way coupling . . . . . . . . . . . . . . . . . . 90
3.4.1.1 Drag force alone . . . . . . . . . . . . . . . . . . . . . . . 91
3.4.1.2 Drag force and evaporation . . . . . . . . . . . . . . . . . 91
3.4.2 Transport of moments in one-way coupling . . . . . . . . . . . . . . 93
3.4.2.1 Evaporating aerosol . . . . . . . . . . . . . . . . . . . . . 93
3.4.2.2 Non-evaporating spray . . . . . . . . . . . . . . . . . . . . 96
3.5 Implementation of EMSM in IFP-C3D . . . . . . . . . . . . . . . . . . . . 97
3.5.1 A glimpse of IFP-C3D . . . . . . . . . . . . . . . . . . . . . . . . . 97
3.5.2 Validation in one-way coupling configurations . . . . . . . . . . . . 98
3.5.2.1 Scheme robustness through mesh movement . . . . . . . . 98
3.5.2.2 Spray dynamics through evaporation and drag, comparison
with
MUSES3D . . . . . . . . . . . . . . . . . . . . . . . . . . 100
3.6 Feasibility of injection computations with IFP-C3D . . . . . . . . . . . . . 101
3.6.1 Description of the test case . . . . . . . . . . . . . . . . . . . . . . . 103
3.6.2 Initialization strategy of both Eulerian and Lagrangian computations105
3.6.3 Discussion on injection simulations . . . . . . . . . . . . . . . . . . 105
3.6.4 Injection of low inertia droplets . . . . . . . . . . . . . . . . . . . . 106
3.6.5 Injection of high inertia droplets . . . . . . . . . . . . . . . . . . . . 107
3.6.6 Concluding remarks on injection simulations . . . . . . . . . . . . . 109
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
4 Numerical analysis of a two-way coupled Eulerian high order moment
method for the simulation of polydisperse evaporating sprays 113
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
4.2 Eulerian polydisperse spray modeling in the gas . . . . . . . . . . . . . . . 115
4.2.1 Eulerian Multi-Size Moment (EMSM) method . . . . . . . . . . . . 115
4.2.1.1 Kinetic description of the spray inside the gas . . . . . . . 115
4.2.1.2 Non-isothermal EMSM model . . . . . . . . . . . . . . . . 117
4.2.2 Two-way coupling through EMSM method . . . . . . . . . . . . . . 119
4.2.2.1 Arbitrary Lagrangian and Eulerian (ALE) formalism . . . 119
4.2.2.2 Source terms reconstruction and global conservation of the
two-phase system in phase A . . . . . . . . . . . . . . . . 120
4.2.2.3 Stiffness issue of the two-phase flow . . . . . . . . . . . . . 122
4.3 Numerical strategy in phase A of ALE . . . . . . . . . . . . . . . . . . . . 122CONTENTS 4
4.3.1 Time integration strategy in case of a constant evaporation law . . 123
4.3.1.1 Resolution of system on size moments . . . . . . . . . . . 123
4.3.1.2 Global strategy . . . . . . . . . . . . . . . . . . . . . . . . 125
4.3.2 Time integration strategy in case of a time-dependent evaporation
law . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
4.4 Homogeneous test cases . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
4.4.1 0-D test case of evaporating polydisperse spray under the d-square
constant evaporation law . . . . . . . . . . . . . . . . . . . . . . . . 129
4.4.2 Variable (realistic) d-square law of evaporation . . . . . . . . . . . . 132
4.4.3 Order of convergence study of the numerical scheme . . . . . . . . . 134
4.5 2D Injection simulations in IFP-C3D code . . . . . . . . . . . . . . . . . . 136
4.5.1 A short description of IFP-C3D software . . . . . . . . . . . . . . . 137
4.5.2 Discussion on injection simulations . . . . . . . . . . . . . . . . . . 138
4.5.2.1 Injection of low inertia droplets . . . . . . . . . . . . . . . 138
4.5.2.2 Injection of high inertia droplets . . . . . . . . . . . . . . 138
4.6 Conclusion and perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . 140
5 Implementation of the two-way coupled EMSM algorithm in IFP-C3D
code for 3-D simulations 143
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
5.2 Implementation of the two-way coupled EMSM method . . . . . . . . . . . 144
5.2.1 Data structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
5.2.2 Initialization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
5.2.3 Numerical Scheme in phase A . . . . . . . . . . . . . . . . . . . . . 146
5.3 High pressure injection conditions: 3D configuration . . . . . . . . . . . . . 150
6 Turbulence modeling of polydisperse interactions between the spray and
the gas through the Eulerian high order moment method 154
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
6.2 Modeling approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
6.3 Turbulence models for spray and gas phases . . . . . . . . . . . . . . . . . 160
6.3.1 Reynolds-average equations for the spray . . . . . . . . . . . . . . . 160
6.3.1.1 RA moment equations . . . . . . . . . . . . . . . . . . . . 160
6.3.1.2 Spray-phase mean momentum equation . . . . . . . . . . 161
6.3.1.3 Spray-phase granular temperature equation . . . . . . . . 163
6.3.1.4 Spray-phase total granular energy equation . . . . . . . . 164
6.3.1.5 Spray-phase mean kinetic energy . . . . . . . . . . . . . . 165
6.3.1.6 Spray-phase fluctuating energy . . . . . . . . . . . . . . . 165
6.3.1.7 Spray-phase turbulent kinetic energy . . . . . . . . . . . . 165
6.3.1.8 Spray-phase turbulent kinetic energy dissipation . . . . . . 166
6.3.2 Reynolds-average equations for gas phase . . . . . . . . . . . . . . . 166
6.3.2.1 Gas-phase continuity equation . . . . . . . . . . . . . . . . 167
6.3.2.2 Gas-phase momentum equation . . . . . . . . . . . . . . . 167
6.3.2.3 Gas-phase total energy equation . . . . . . . . . . . . . . . 168
6.3.2.4 Gas-phase internal energy equation . . . . . . . . . . . . . 168CONTENTS 5
6.3.2.5 Gas-phase mean kinetic energy equation . . . . . . . . . . 170
6.3.2.6 Gas-phase turbulent kinetic energy equation . . . . . . . . 170
6.3.2.7 Gas-phase turbulent kinetic energy dissipation equation . 171
6.3.3 Final remarks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
6.4 Homogeneous turbulence of two-phase polydisperse flows . . . . . . . . . . 171
6.4.1 Dimensionless equations for homogeneous turbulent flow . . . . . . 172
6.4.2 Example results for fluctuating energy partition with decaying turbulence
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
6.4.3 Example results for typical ICE flow conditions . . . . . . . . . . . 177
6.5 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
7 General conclusions and perspectives 184
Appendices 202
A 203
A.1 Specific aspects of time-space discretization . . . . . . . . . . . . . . . . . . 204
A.1.1 Phase A in the one-way coupling framework . . . . . . . . . . . . . 204
A.1.2 Phase B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
A.1.3 Phase C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
B 209
B.1 Reynolds and Phase averaging . . . . . . . . . . . . . . . . . . . . . . . . . 210
B.1.1 Reynolds average . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
B.1.2 Phase average . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
B.2 Full RA equations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
B.2.1 RA moment equations . . . . . . . . . . . . . . . . . . . . . . . . . 211
B.2.2 RA spray momentum equation . . . . . . . . . . . . . . . . . . . . . 211
B.2.3 RA granular temperature equation . . . . . . . . . . . . . . . . . . 212
B.2.4 RA total granular energy equation . . . . . . . . . . . . . . . . . . 212
B.2.5 RA spray phase mean kinetic energy . . . . . . . . . . . . . . . . . 213
B.2.6 RA gas mass equation . . . . . . . . . . . . . . . . . . . . . . . . . 213
B.2.7 PA gas phase momentum equation . . . . . . . . . . . . . . . . . . 213
B.2.8 RA gas phase internal energy equation . . . . . . . . . . . . . . . . 214
B.2.9 RA gas phase mean kinetic energy equation . . . . . . . . . . . . . 215List of Figures
1.1 LES simulations of a multi-cycle engine XU10-PSA (left, [185]) and of a
multicylinder spark ignition engine (right, [91] . . . . . . . . . . . . . . . . 14
1.2 Experimental view of a direct liquid injection with various two-phase flow
topologies [49]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3 DNS simulation of a liquid jet atomization through the hybrid VOF/Level
Set sharp interface approach [126]. . . . . . . . . . . . . . . . . . . . . . . 17
1.4 Mass density field comparison between the Eulerian Multi-Fluid approach
(left) and Lagrangian (right) description of a polydisperse particle population
in a 3-D simulation context [66]. . . . . . . . . . . . . . . . . . . . . . 19
2.1 Illustration of separate and disperse phases in the injection flow [51] . . . . 27
2.2 Disperse-phase modeling hierarchy characterized through the volume fraction
(horizontal axis) and the ratio of the droplet characteristic length or
time scale over the gaseous characteristic turbulent length or time scale
(vertical axis) [7]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3 Eulerian turbulence modeling through Reynolds-averaging or LES methods
starting from the kinetic level of description. (i) denotes the turbulence
modeling at the kinetic level, whereas (ii) represents turbulence modeling at
macroscopic level . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.4 Size distribution with size sampling approach . . . . . . . . . . . . . . . . . 49
2.5 Size distribution with MF method . . . . . . . . . . . . . . . . . . . . . . . 50
2.6 Reconstruction of the size distribution through entropy maximisation (red
dashed line), the real size distribution (black solid line). . . . . . . . . . . . 56
2.7 Total mass density of the polydsiperse evaporating spray. (Top) Results
at time t = 15. (Bottom) Results at time t = 20. (Left) EMSM model.
(Right) Multi-fluid model with ten sections.) . . . . . . . . . . . . . . . . . 65
2.8 Comparison of Lagrangian and Eulerian results for a polydisperse flow
made of droplets of sauter mean radius 20µm within the context of oneway
coupling through EMSM. In each figure, the Lagrangian particles are
displayed on the left side on the domain, and the Eulerian field on the right
side. Left: droplet number m0; Right: particle velocity. (PhD of Damien
Kah [83]). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6LIST OF FIGURES 7
3.1 Evolution of spray and gas velocities according to the SDIRK method
(black dashed line) and the exact solution (solid red line). The time-step
∆t is taken to be 10−1
s (left) and 10−3
s (right). . . . . . . . . . . . . . . . 92
3.2 Evolution of various spray and gas properties. Results from analytical (solid
red lines) and numerical (dashed black lines) solutions. Cases for ∆t =
0.06 s (left column), for ∆t = 10−3
s (right column). Top row: moment of
order m3/2; second row: moment of order m1/2; third row: gas mass density
ρg; bottom row: velocities ud and ug. . . . . . . . . . . . . . . . . . . . . . 94
3.3 Left: Initial data for the moments m0 (blue line with stars), m1 (red line
with triangles), m2 (green line with squares), m3 (purple line with circles).
Right: Solution of the Riemann problem at t = 0.1 for non-evaporating
particles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
3.4 Left: Solution of the Riemann problem at t = 0.1 for evaporating particles,
containing the exact ρg (solid black line), the computed ρg (dashed brown
line), the computed m0 (blue curve with circles) and m1 (red curve with
triangles). Right: Close-up on the interfacial area and comparison between
various solutions for m0, namely, second-order solution without mesh movement
(solid blue line), second-order solution with mesh movement (dashed
red line), first-order solution without mesh movement (dotted-dashed purple
line), first-order solution with mesh movement (green line with squares). 96
3.5 Evolution of a spray in a discontinuous velocity field. Left: Initial data for
the moments and the velocity. Right: Analytical solutions (markers) and
computed solutions (lines) at time t = 0.225 in the first four moments, i.e.,
m0 (blue), m1 (red), m2 (green), m3 (purple). . . . . . . . . . . . . . . . . 97
3.6 Piston movement during the computation. The computation starts at
cad = −180◦ and ends at cad = 180◦
. . . . . . . . . . . . . . . . . . . . . . 99
3.7 Left: Results in the case of an aerosol, for m0 (solid black line) and m1
(dashed red line). Results for cad = −100◦
, −30◦
, 50◦
, 180◦
. Right: Results
in the case of a spray, for m0 (solid black line) and m1 (dashed red line).
Results for cad = −100◦
, −30◦
, 50◦
, 180◦
. . . . . . . . . . . . . . . . . . . . 100
3.8 Left: Taylor-Green configuration for the gaseous flow. Right: initial condition
for the moment m0 of the spray. . . . . . . . . . . . . . . . . . . . . 102
3.9 Results for m0 at time t = 1. Left: with IFP-C3D. Right: with MUSES3D. 102
3.10 Results for m0 at time t = 1.4. Left: with IFP-C3D. Right: with MUSES3D.103
3.11 Results for m0 at time t = 2. Left: with IFP-C3D. Right: with MUSES3D. 103
3.12 Illustration of Rosin-Rammler distributions actually used in the computations.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
3.13 Illustration of the 2-D plane geometry and boundary conditions . . . . . . 106
3.14 Results for a droplet population of rSMR = 5µm at time 1.4 · 10−2
s. Left:
Spray without evaporation. Right: Spray with constant evaporation velocity.
Spray volume fraction (top row), gas velocity along the y-axis (middle
row), spray velocity along the y-axis (bottom row). In each panel, Lagrangian
spray is displayed on the left side whereas Eulerian on the right
side. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107LIST OF FIGURES 8
3.15 Evaporated fuel mass fraction inside the gas-phase for a droplet population
of rSMR = 5µm under a constant evaporation velocity at time 1.4·10−2
s. In
the panel, Lagrangian spray is displayed on the left side whereas Eulerian
is displayed on the right side. . . . . . . . . . . . . . . . . . . . . . . . . . 108
3.16 Results from 1-D plots, taken along the x-direction which center point on
y-axis is 12 diameter far from the injector, in case of a droplet population
of rSMR = 5µm. Results from Eulerian (solid black lines) and Lagrangian
(dashed red lines) solutions. Left: Spray volume fraction for droplets without
evaporation. Right: Evaporated fuel mass fraction for evaporating
droplets with a constant evaporation velocity. . . . . . . . . . . . . . . . . 108
3.17 Results from 1-D plots, taken along the y-axis see Figure 3.13, in case of
a droplet population of rSMR = 5µm. Results from Eulerian (solid black
lines) and Lagrangian (dashed red lines) solutions. Left: Spray volume
fraction for droplets without evaporation. Right: Evaporated fuel mass
fraction for evaporating droplets with a constant evaporation velocity. . . . 109
3.18 Results for a droplet population of rSMR = 20µm at time 1.4 · 10−2
s. Left:
Spray without evaporation. Right: Spray with with constant evaporation
velocity. Spray volume fraction (top row), gas velocity field along the yaxis
(middle row), spray velocity along the y-axis (bottom row). In each
panel, Lagrangian spray is displayed on the left side whereas Eulerian is
displayed on the right side. . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
3.19 Evaporated fuel mass fraction inside the gas-phase for a droplet population
of rSMR = 20µm under a constant evaporation velocity at time 1.4 · 10−2
s.
In the panel, Lagrangian spray is displayed on the left side whereas Eulerian
is displayed on the right side. . . . . . . . . . . . . . . . . . . . . . . . . . 111
3.20 The results from 1-D plots, taken along the x-direction which center point
on Y axis is 12 diameter far from the injector, in case of a droplet population
of rSMR = 20µm. Results from Eulerian (solid black lines) and
Lagrangian (dashed red lines) solutions. Left: Spray volume fraction for
droplets without evaporation. Right: Evaporated fuel mass fraction for
evaporating droplets with a constant evaporation velocity. . . . . . . . . . 111
3.21 Results from 1-D plots, taken along the y-axis see Figure 3.13, in the case of
a droplet population of rSMR = 20µm. Results from Eulerian (solid black
lines) and Lagrangian (dashed red lines) solutions. Left: Spray volume
fraction for droplets without evaporation. Right: Evaporated fuel mass
fraction for evaporating droplets with a constant evaporation velocity. . . . 112
4.1 The spray mean radius evolution through time, given for cases of constant
evaporation (solid line) and time-dependent evaporation (dashed line) . . . 129
4.2 Evolution of the characteristic evaporation time τv (upper graph) and the
characteristic dynamic time scale τd (lower graph) based on the spray mean
size. Evolution under a time-dependent evaporation law (dashed line) and
under a the dynamic time τd (solid line). . . . . . . . . . . . . . . . . . . . 130LIST OF FIGURES 9
4.3 Spray density concentration (moment of order 3/2) evolution under the
constant evaporation. Solutions are given under the time steps ∆t = 10−6
s
(Solid line) and ∆t = 2.4910−3
s (empty squares). . . . . . . . . . . . . . . 131
4.4 Gas phase thermodynamics and vapor mass fraction against time,under the
constant evaporation. Gas temperature Tg (top left), gas pressure Pg (top
right), vapor mass fraction YC7H16 (down left) and gas mass density (down
right). Results under ∆t = 2.49 10−3
s are plotted by empty squares whereas
solid lines correspond to the solution with ∆t = 10−6
s. . . . . . . . . . . . 131
4.5 Velocity evolution under the constant evaporation. Gas velocity when ∆t =
10−6
s (solid line), ∆t = 10−5
s (empty circles) and spray velocity when
∆t = 10−6
(dashed line), ∆t = 10−5
s (empty squares). . . . . . . . . . . . 132
4.6 Spray density concentration (moment of order 3/2) evolution under the
time dependent evaporation. Solutions are given under the time steps ∆t =
10−6
s (Solid line) and ∆t = 2.4910−3
s (empty squares). . . . . . . . . . . . 133
4.7 Gas phase thermodynamics and vapor mass fraction against time,under the
time dependent evaporation. Gas temperature Tg (top left), gas pressure Pg
(top right), vapor mass fraction YC7H16 (down left) and gas mass density
(down right). Results under ∆t = 2.49 10−3
s are plotted by empty squares
whereas solid lines correspond to the solution with ∆t = 10−6
s. . . . . . . 133
4.8 Velocity evolution under the time dependent evaporation. Gas velocity when
∆t = 10−6
s (solid line), ∆t = 10−5
s (empty circles) and spray velocity
when ∆t = 10−6
s (dashed line), ∆t = 10−5
s (empty squares). . . . . . . . 134
4.9 (left) Rosin Rammler distribution (dashed line) and its reconstruction by
entropy maximization (solid line); (right) initial distribution given by (4.39)
“close” to the Rosin Rammler distribution . . . . . . . . . . . . . . . . . . 134
4.10 Logarithm of the error on the moments m0, m1, m2, m3 and m3/2 normalized
by the initial value of m0 as a function of the time step ∆t. . . . . . . 135
4.11 Error studies for the two-way coupling model: logarithm of the error on the
moment m3/2, the spray velocity ud, the gas velocity ug as a function of the
time step ∆t. Results from a constant d-square evaporation law given on
the left graph, whereas from a time dependent d-square evaporation law by
the right graph. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
4.12 Results for a droplet population of SMR = 5µm at time 1.4 · 10−2
s. Left:
spray-phase velocities. Right: gas-phase velocities. velocity component
along x-axis (top row), velocity component along the y-axis (bottom row).
In each panel, Lagrangian spray is displayed on the left side whereas Eulerian
on the right side . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
4.13 Results for a droplet population of SMR = 5µm at time 1.4 · 10−2
s. Left:
spray-phase volume fraction. Right:fuel vapor mass fraction.In each panel,
Lagrangian spray is displayed on the left side whereas Eulerian on the right
side . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
4.14 The gas-phase temperature field for a droplet population of SMR = 5µm
at time 1.4 · 10−2
s. In each panel, Lagrangian spray is displayed on the left
side whereas Eulerian on the right side . . . . . . . . . . . . . . . . . . . . 140LIST OF FIGURES 10
4.15 Results for a droplet population of SMR = 20µm at time 1.4 · 10−2
s. Left:
spray-phase velocities. Right: gas-phase velocities. Velocity component
along x-axis (top row), velocity component along the y-axis (bottom row).
In each panel, Lagrangian spray is displayed on the left side whereas Eulerian
on the right side . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
4.16 Results for a droplet population of SMR = 20µm at time 1.4 · 10−2
s. Left:
spray-phase volume fraction. Right:fuel vapor mass fraction.In each panel,
Lagrangian spray is displayed on the left side whereas Eulerian on the right
side . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
4.17 The gas-phase temperature field for a droplet population of SMR = 20µm
at time 1.4 · 10−2
s. In each panel, Lagrangian spray is displayed on the left
side whereas Eulerian on the right side . . . . . . . . . . . . . . . . . . . . 142
5.1 Injector hole geometry and chamber. One can notice the refined boundary
condition of the injection device revealing the multiscale nature of the
addressed case. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
5.2 Eulerian volume fraction of liquid computed with the EMSM approach. . . 151
5.3 Gaseous fuel mass fraction evaporated with the EMSM approach. . . . . . 151
5.4 Gaseous turbulent kinetic energy related to high jet velocities . . . . . . . 152
5.5 Radial profile of liquid volume fraction (left) and evaporated fuel mass
fraction (right) at different axial positions : z=4Dinj , z=16Dinj , z=32Dinj . 152
5.6 Axial profile of liquid volume fraction (left) and evaporated fuel mass fraction
(right) at different consecutive instants between t=0 (start of injection)
and t=2.4 ms. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
5.7 Liquid jet penetration with time for different initial conditions on charge
: low charge (Φv = 10−4
) - moderate charge (Φv = 10−2
) with two rSMR
values : 5µm and 20 µm. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
6.1 Dynamics of the dimensionless non-evaporating spray-phase energy components
with frozen gas-phase turbulence (one-way coupling). Curves correspond
to three initial conditions: (i) solid lines, (ii) dashed lines, and (iii)
stars. Curves corresponding to the fluctuating energy κ, the spray-phase
kinetic energy kd and the granular temperature Θ are respectively denoted
through circle, square and triangle symbols. . . . . . . . . . . . . . . . . . 175
6.2 Dynamics of the normalized non-evaporating spray-phase energy components
with two-way coupling. Curves correspond to three initial conditions:
(i) solid black lines, (ii) dashed blue lines, (iii) red dots. Curves corresponding
to the fluctuating energy κ, the spray-phase kinetic energy kd and the
granular temperature Θ are respectively denoted through circle, square and
triangle symbols. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
6.3 Dynamics of the gas-phase energy components for non-evaporating droplets
with two-way coupling. Curves correspond to gas-phase TKE (top) and
gas-phase internal energy (bottom) for three initial conditions: (i) solid
black lines, (ii) dashed blue lines, (iii) red dots. . . . . . . . . . . . . . . . 176LIST OF FIGURES 11
6.4 Gas-phase density evolution (top) and spray density concentration (bottom)
with polydisperse evaporating droplets. . . . . . . . . . . . . . . . . . 177
6.5 Dynamics of the normalized evaporating spray-phase energy components.
Curves correspond to three initial conditions: (i) solid black lines, (ii)
dashed blue lines, (iii) red dots. Curves corresponding to the fluctuating
energy κ, the spray-phase kinetic energy kd and the granular temperature
Θ are respectively denoted through circle, square and triangle symbols. . . 178
6.6 Dynamics of the gas-phase energy components with evaporating droplets.
Curves correspond to gas-phase TKE (top) and gas-phase internal energy
(bottom) for three initial conditions: (i) solid black lines, (ii) dashed blue
lines, (iii) red dots. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
6.7 Mean velocities versus time (top) for cases (ii) (solid black lines) and (iii)
(dashed red lines). Spray density concentration m3/2 versus time for case
(iii) (dashed red lines). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
6.8 Turbulence Reynolds number Re versus time. Cases (i) solid black lines,
(ii) dashed red lines, and (iii) blue dots. . . . . . . . . . . . . . . . . . . . . 181
6.9 Dimensionless gas-phase TKE kg (top) and gas-phase internal energy eg
(bottom) versus time. Cases (i) solid black lines, (ii) dashed red lines, and
(iii) blue dots. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
6.10 Normalized total fluctuating energy κ (top, circle), spray-phase TKE kd
(top, square), granular temperature Θ (top, triangle) and spray-phase TKE
dissipation εd (bottom) versus time. Cases (ii) (solid black lines) and (iii)
(dashed red lines). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182Chapter 1
Introduction
1.1 General context
In recent years, the global demand for energy has significantly increased with the rising
world population and emerging industrial sectors. Yet the fossil fuel energy supplies are
increasingly scarce and require advanced engineering techniques for their exploitation,
prompting economical challenges. Moreover, the high amount of greenhouse gases and
pollutant emissions continuously released in the atmosphere require to be limited in order
to avoid the global warming and the irremediable degradation of the air quality. In that
context, the road vehicle sector represents one of the main targets to deal with since the
conventional Internal Combustion Engine (ICE), highly consuming fossil fuels, is the leading
responsible for both CO2 emissions and pollutant formations. In the present decade
where fossil fuels will remain to be major energy sources for vehicles, many researchers
and engineers from both public and private institutions collaborate to create innovative
solutions for cleaner and energy efficient engines.
The high pressure direct injection system is actually widely recognized as efficient.
Its main role is to inject the liquid fuel under very high pressure, up to 2000 bars, and
release the required quantity of the fuel in the combustion chamber thanks to the very fast
opening-closing time of the injector valve. This system provides a great cycle efficiency,
controlling the amount of fuel injected in the combustion chamber. However, a good
control of the combustion regime is required in order not to generate high quantity of
pollutant emissions among which soot particles are an important preoccupation. A deep
understanding of flow physics underlying the combustion chamber is therefore of primary
importance in order to develop new engine configurations. There are many possible
methods to achieve this goal. Experimental setups are essential to test the final version of
a new engine concept before its industrialization phase. They also provide reliable data
for testing new physical models. However, they are not profitable since it becomes costly
to conduct many realizations. Moreover, they can not give enough information when the
characteristic time scales of interesting phenomena, such as the injection physics, are too
fast to capture. Given this limited number of experimental test benches, the numerical
simulation techniques are considered to be complementary tools. Yet the fact that there
are several numerical techniques which are classified according to the level of accuracy
they provide, a brief review is required to highlight their interesting points and limitations.
121.2 Numerical tools for ICE simulation 13
1.2 Numerical tools for ICE simulation
It is appropriate to classify these simulation techniques into two main categories: System
simulation and 3D Computational Fluid Dynamics (CFD) simulation.
1.2.1 System simulation methods
Based on 0D/1D models, system simulation tools have experienced rapid improvements
in the past ten years and today is used at all stages of the engine development from
concept design to powertrain control development and calibration. Contrary to 3D CFD
approaches, these tools provide only mean values of global variables such as temperature,
pressure, injection velocity, etc. 0-dimensional models are essentially based on empirical or
phenomenological approaches which are mainly developed to reach very low computational
times (real-time) as a target. Nevertheless, such models are often characterized by very
limited prediction levels. Although in recent years some fruitful developments of refined
physical models, based on the reduction of 3D approaches over a given domain volume as
for example the combustion chamber have been conducted in [15, 48, 90, 122], they do
not provide the resolution of complex 3D flows in ICE.
1.2.2 CFD methods
CFD allows a better understanding of physical phenomena taking place in combustion
chambers such as spray development, heat transfer, combustion, pollutant formation,
etc. All these phenomena are highly influenced by the high unsteady turbulent flow
motion. The turbulent flow field is defined by all characteristic length scales and kinetic
energies of the eddies describing the flow. Kolmogorov (1941) proposed a continuous
distribution of the energy of turbulent eddies as function of their wave number. In such a
representation, the flow energies supposed to be transfered from largest eddies to smaller
ones through division processes without dissipation. The range of scales lies between
the integral length scale (associated to the domain geometry) and the Kolmogorov scale
from which the turbulent energy is dissipated as heat through the influence of molecular
viscosity. During the last few years, numerical description of turbulent processes has
been the subject of several investigations in order to be able to solve a given problem
considering available computational resources. In that context, there are three different
approaches used to simulate flows inside ICE:
• DNS (Direct Numerical Simulation): This method is based on the direct resolution
of transport equations for the fluid flow without any complimentary models or approximations.
Within the validation limit of Navier Stokes equations, it provides
a detailed and high quality study of physical phenomena. This implies however
to resolve all turbulent scales with the help of mesh sizes of the order of the Kolmogorov
scale or smaller. The latter means that an important number of grid points
is required. Moreover, DNS needs highly precise numerical discretization schemes
to limit the necessary grid. All these constraints make DNS a very expensive tool,
prohibited for industrial applications. Let us precise that the DNS is widely used
despite its CPU costs since it is the most accurate CFD tool. It permits rigorous1.2 Numerical tools for ICE simulation 14
physical analysis [138, 134, 69], difficult to conduct experimentally. Moreover it is
widely used for the development of physical models aimed to be implemented in
industrial CFD softwares.
• LES (Large Eddy Simulation): In this case, not all the flow scales are resolved. The
main idea is to model energy dissipating flow scales which are small and isotropic
but resolve all bigger and energy containing scales which are highly anisotropic and
depending on the 3D geometry. This simulation technique requires coarser mesh
sizes than used in DNS and thus provides results using less CPU time. Yet, until
recent years its computational time was considered to be a bottleneck problem for
complex 3D studies. After recent advances on parallel computing and supercomputers,
it is nowadays considered as an emerging tool for industrial applications,
thanks to its ability to capture cycle to cycle variations, rotational motion of the
flow and the anisotropy under reasonable computational time [188]. Within the
context of ICE applications, some fruitful recent works have been conducted such
as in [108, 178] and displayed in Figure 1.1.
Figure 1.1: LES simulations of a multi-cycle engine XU10-PSA (left, [185]) and of a
multicylinder spark ignition engine (right, [91]
• RANS (Reynolds Averaged Navier Stokes equations): This approach is conceptually
different than the last two numerical techniques. While only one realization of the
flow is simulated through LES and DNS, RANS focuses on the ensemble average of
the flow realizations. This accounts for dealing with Reynolds equations instead of
Navier Stokes equations and ensemble averaged mean flow quantities. Within the
well known k-ε approach, all turbulence scales are modeled through the concept of
the mean turbulent kinetic energy and the turbulent energy dissipation rate [141].
Yet more accurate RANS models for complex flow simulations are also available for
industrial simulation purposes [50]. The main drawback of RANS as compared to1.3 Injection physics 15
DNS and LES is its inability to capture instantaneous flow variations and its lack
of accuracy for highly anisotropic flows. Yet RANS is widely used and preferred to
LES for industrial applications. Because its computational time is generally very
low and does not require high order numerical algorithms for the treatment of the
spatial discretization, which is also often difficult to implement in industrial CFD
softwares.
Conscious of the necessity for high accuracy CFD tools for the future of car engine production,
IFP Energies nouvelles has been leading a wide research and engineering activity
on ICE modeling through its industrial codes, AVBP (LES) and IFP-C3D (RANS), [12]
in order to provide innovative solutions for ICE and equipment producers.
Until now, a high maturity has been reached in the simulation of mono-phase gaseous
combustion or turbulent gaseous flow fields. Yet taking into account two-phase flow effects
has become a critical aspect for 3D ICE modeling. In fact, the two-phase flow coming
from the high pressure direct injection of liquid fuel significantly influence flame structure
and pollutant production.
Figure 1.2: Experimental view of a direct liquid injection with various two-phase flow
topologies [49].
1.3 Injection physics
The injection flow is not straightforward to be described due to complex phenomena,
which require a modeling effort to take into account coupled interactions inside the liquid
phase and between the liquid and the gas phases. A broad range of two-phase flow
structures are illustrated in Figure 1.2.
The phenomenon of cavitation is the main factor determining the two-phase flow
regime encountered inside the injector. It occurs when the absolute liquid pressure drop
down to the vapor saturation pressure which depends on the liquid temperature. Therefore,
the formation of vapor bubbles and pockets is observed inside the carrier liquid
phase [100]. The formation of cavitation inside the injector depends on the geometry of
the spray tip and impacts the flow characteristics inside the nozzle. The cavitation is also1.4 Injection flow description 16
one of the underlying physics impacting the liquid desintegration at downstream of the
injector.
The bulk fuel liquid jet coming out from the nozzle of the injector is disintegrated into
small droplets by internal and external forces as a result of the interaction between the
liquid and surrounding medium. The disintegration or breakup process starts right at the
exit of the nozzle when the disruptive forces, caused by the presence of the gas phase in the
combustion chamber and cavitating pockets already created inside the nozzle and mixed to
the liquid, exceed the liquid surface tension and viscous forces. The competition between
cohesive and disruptive forces will set up on the liquid surface, leading to oscillations
and perturbations in the liquid. Under favorable conditions, the oscillations may be
amplified to such an extent that the bulk liquid breaks up into ligaments, clusters and
small drops. This initial breakup process is often referred to as primary breakup or
primary atomization, happening right at the exit of the injector nozzle. Afterwards, the
gas phase keeps interacting with the resulting discontinuous liquid phase. Momentum
transfers occur through interactions between the spray and the gas turbulent eddies.
These interactions may lead to secondary break-up or secondary atomization of the liquid
ligaments and clusters into smaller spherical droplet of various in sizes, This cloud of
droplets is dispersed in the combustion chamber while exchanging momentum and energy
with the surrounding gas-phase. Due to ambiant thermodynamic conditions and twoway
coupling interactions between phases, these droplets evaporate while transferring
their mass to the gas-phase before disappearing completely. The remaining fuel species
vapor pockets pilot the combustion temperature and the equivalence ratio, defining the
combustion characteristics.
1.4 Injection flow description
In order to accurately describe injection physics, one can consider a resolution of the
entire flow, using DNS techniques. But the cost of these methods is the main stumbling
block for their use in industrial framework [100, 23, 22, 98] (Figure 1.3 illustrates a typical
DNS two-phase flow simulation). Therefore, in order to still enable a resolution of the
problem, reduced order models are derived despite the loose of information on the details
of the flow. In that context, some works have been addressed to the complete injection
modeling dealing with all types of two-phase flow structures. The technique so-called
ELSA (Eulerian-Lagrangian Spray Atomization) [33] has been proven to be a promising
option. Through the RANS formalism, some industrial simulations under the diesel engine
conditions for ICEs have been conducted [101]. Moreover, ELSA has been extended to
LES models, promising for the simulation of full injection process, although they are still
under a development stage [24, 25].
On the other hand, some other studies focus on a particular zone in the injection
flow. In that case, regarding physical phenomena driven by different characteristics of the
flow, different types of modeling best suited for each zone are used. In the primary and
secondary break-up zones, the liquid phase being either continuous or involves complex
interfaces between phases, it is necessary to adopt a separate-phase flow description. On
the other hand, far downstream of the injector, a disperse-phase flow description is more1.5 Disperse phase simulation at a glance 17
appropriate. In the latter case, the liquid phase is assumed to be composed of spherical
droplets, which are various in size. This leads to the notion of polydispersity.
The project of IFP Energies nouvelles involves the simulation of the fuel spray injection
in the entire combustion chamber, from the flow in the nozzle injector to the area
downstream of the injector. This simulation requires therefore the use of models correctly
describing the topology of the two-phase flow in different zones of the injection. Recent
works have adress the simulation of separate-phases at the dense zones of the injection
[182, 186, 8, 104, 105].
Yet, the present work aims at contributing to the modeling of polydisperse flow regime.
Therefore, it is interesting to briefly carry out modeling and resolution strategies for the
disperse phase simulations.
Figure 1.3: DNS simulation of a liquid jet atomization through the hybrid VOF/Level Set
sharp interface approach [126].
1.5 Disperse phase simulation at a glance
In the literature, one can distinguish three different disperse-phase modeling categories:
Microscale models, macroscale models derived from averaging of Navier Stokes equations
and kinetic based models.
• Microscale models: There are basically three categories of microscale models, presented
hereafter from the most to the least detailed one. The first one is the sharp
interface methods (VOF, Level Set), which directly solve Navier Stokes equations
[202, 70, 17, 76]. They allow to access all flow details in a two-phase flow, including
detailed mass, energy and momentum exhanges through interfaces. Therefore, they
are considered to be full DNS methods even if there are still stumbling blocks in
resolving properly all scales in the vicinity of the interface. The second one is the
DNS around solid bodies where, no detailed interface resolution is conducted. Yet
the fluid flow around each particle is completely resolved [5, 197] through DNS. The
third one is the Direct particle simulation (DPS) technique, which is less detailed
than DNS around solid bodies in the sense that the effect of particle volume occupation
on the surrounding fluid flow is not resolved [69, 135, 154, 203]. All these
models are used to understand complex physics. But their use in industrial simulations
face difficulties due to their excessive computational times required for their
resolution. They are therefore used to improve and validate models and correlations
for macroscopic and mesoscopic approaches.1.5 Disperse phase simulation at a glance 18
• Macroscale models derived from averaging of Navier Stokes equations of two-fluid
type: These are average models, which describe the two-phase flow topologies
through volume or ensemble averaged quantities. Conceptually, they do not provide
a detailed behavior of flows in the vicinity of interfaces. But they offer lower computational
time, which is viewed as an attractive point for their development. These
methods have been proven to be efficient for flows close to injector nozzle where
the description of interface dynamics and thus interface conditions of equilibrium or
non-equilibrium between the phases are of primary importance [6, 82, 32]. Through
the same modeling philosophy, there has been also an attempt to describe the cloud
of droplets at far down stream of the injector [186]. But in this case, since the fluid
topology is accessed, only through a volume fraction and a surface area density
variables, the polydispersity characteristic of these droplets could not be accounted
for, and so some essential pieces of information are missed since recent works have
shown that polydispersion has to be resolved in order to predict properly the physics
of such two-phase flows.
• Mesoscopic also called kinetic based models: In order to take into account the polydispersity
character of droplets under reasonable CPU time, the kinetic WilliamsBoltzmann
modeling of droplets developed in [193, 194] offers a good compromise.
It allows tracking all particles and their associated velocities, sizes, temperatures
and positions through the evolution of the number density function f.
In this thesis, we will therefore focus on kinetic based models for developing models
capturing the polydisperse character of the disperse-phase flows. Yet there are two possible
resolution approaches of the kinetic model, namely Lagrangian or Eulerian techniques.
• At present, Lagrangian methods are widely used for the disperse-phase simulation
since they combine an efficient modeling of the polydisperse phase, not introducing
any numerical diffusion, and an easiness of implementation. Nevertheless, they suffer
from important drawbacks. First, they raise the question of the coupling with the
Eulerian description of the gas phase. This question is still open since it involves two
ways of description that are fundamentally different even if some recent contributions
have pave the way to at least obtaining grid convergence of solutions. Sometimes a
very high number of statistical particles is needed for convergence issues. Moreover,
in the framework of domain decomposition for parallel computations it is needed
to use complex and costly dynamic partitioning methods, to ensure a good load
balancing between the different parallel processes. Let us recall also that some
advances have been obtained in this field [71]. Finally, as previously mentioned,
Lagrangian methods are restricted to disperse-phase flow only. In order to describe
a full spray injection, Lagrangian methods, when they are used, have to be coupled
with an Eulerian model for separate-phase flows [33].
• The Eulerian formalism consists in indirectly solving transport equations for the
NDF by solving for selected moments of the kinetic equation, using a moment
method. The use of moment methods results in the loss of some information but
for the following two reasons the cost of such methods can potentially be much1.6 Eulerian polydisperse modeling at a glance 19
lower than that of the Lagrangian alternative. The first is due to the fact that the
equation is solved for a limited number of unknowns, the second is related to the
high level of optimization one can reach, when both phases are solved within an
Eulerian framework [30, 68, 66]. Besides, for comparison with data in practice, the
principal quantities of interest are the moments of the NDF. Finally, it appears that
this kind of method allows a priori a much easier coupling with a separate-phase
two-fluid model than Lagrangian methods [83].
Figure 1.4: Mass density field comparison between the Eulerian Multi-Fluid approach
(left) and Lagrangian (right) description of a polydisperse particle population in a 3-D
simulation context [66].
1.6 Eulerian polydisperse modeling at a glance
In the literature, several types of Eulerian models for the description of spray polydispersity
are provided.
• The first one is called the size sampling also called Multi-Class approach, which
performs a discrete treatment of size so that the polydisperse solution is a superposition
of monodisperse solutions evaluated at nodes or classes [94, 9, 131]. But it is
intractable to tackle integral terms except at the cost of strong modal simplifications
[184, 145].
• The second class consists in a discretization of the size phase space into size intervals
called sections since the work of Tambour and coworkers [174, 163, 73]. There exists
a large variety of applications and methods such as Multi-Fluid (MF) models for
sprays (see [94, 92, 93, 95] extended from sectional models of Tambour, Greenberg et
al. and [174, 163, 73]). The original MF approach relies on the derivation of a semikinetic
model from the Williams-Boltzmann equation [193, 194] using a moment
method for velocity and temperature conditioned by size, but keeping the size as a1.6 Eulerian polydisperse modeling at a glance 20
variable [94]. This function is then discretized using a finite-volume approach that
yields conservation equations for mass, momentum, energy of droplets in fixed size
intervals called sections. It has led to very encouraging realizations [30] for DNS
simulations. However, partitioning the particle phase into size sections leads to a
high number of coupled fluids, and results in high computational cost. Yet, some
numerical efforts have been carried out to decrease the number of size intervals while
increasing the accuracy within each size [93, 45] depending on the physics involved
[40, 41].
• The third approach is the quadrature based moment methods. In terms of computational
cost, the possibility of high order moment method considering a single size
section is attractive. To this end, either Quadrature Method of Moment (QMOM)
where the dynamics of moments are evaluated after closing the source terms using
quadrature methods [123, 196] or Direct Quadrature Method of Moment (DQMOM)
wherein equations are directly written on the quadrature weights and abcissas which
describe the reconstructed distribution function having the same moments [65]. Such
methods have proved to be very efficient in a number of configurations. But, they
are not able to accurately predict the evaporating flux at zero droplet size, which
is a point-wise value to be reconstructed from the set of moments [65]. Some recent
contributions have improved the ability of such approaches using Extended
Quadrature Method of Moment (EQMOM) [199].
Within the context of typical ICE simulations, both the droplet evaporation and the
polydispersity need to be correctly captured in order to evaluate the fuel vapor distribution
inside the combustion chamber. The lack of accuracy of DQMOM approach in evaluating
the polydisperse droplet evaporation and the high computational cost associated to
Multi-Fluid method has encouraged recent fruitful works for the development of a new
high order moment method [83]. Kah et al. [83, 120, 87] have proposed a new strategy,
preserving the moment space, called Eulerian Multi-Size Moment model (EMSM). It consists
of taking advantage of continuous description of the size distribution to determine,
through an original kinetic scheme, the evaporation flux of disappearing droplets and to
evaluate the shift in size induced by evaporation. The reconstruction of the NDF is done
by Entropy Maximization through its moments [125]. Moreover, moments convection has
been achieved through either first or second order kinetic scheme while respecting the
moment conservation. The great potential of EMSM is demonstrated in [87], where it is
shown that the computational time for equivalent accuracy is clearly an advantage over
the Multi-fluid method. A first preliminary implementation of the EMSM in the industrial
code IFP-C3D [12] has been also conducted. Let us also emphasize that the size
velocity correlations, which was the missing aspect of EMSM have been also addressed
through the work of Vie et al. [189]. Yet, these developments conducted by Kah [83] were
in the context of one-way coupling, that is, a simple effect of the gas on droplets had been
considered. But in order to take into account physical phenomena observed in a typical
internal combustion engine, more numerical and modeling efforts need to be achieved
with high order moment methods. Taking into account coupled interactions between the
gas and the polydisperse spray under a Reynolds average or LES turbulence model are
primary aspects towards a full engine simulations in industrial codes (i.e. IFP-C3D soft-1.7 Objectives of this PhD 21
ware). Moreover, both quantitative and qualitative validations of the model compared to
either experimental or widely used Lagrangian formulation are still missing and need to
be conducted.
1.7 Objectives of this PhD
The are two main objectives for this PhD:
• Firstly, the two-way coupling modeling between the gas phase, described through
compressible Navier Stokes equations, and polydisperse spray phase, modeled through
EMSM method, has to be achieved. This involves to properly close source terms in
both phases. Moreover, a significant effort has to be done for numerical aspects: in
a combustion chamber mass, momentum and energy exchanges between the spray
and the gas occur under rapid variations; a global simulation time step bigger than
characteristic times related to different phenomena is expected to generate some
stability problems, if not well treated. In the context of Arbitrary Lagrangian Eulerian
(ALE) formalism [43, 78, 79, 57], which allows a splitted resolution of governing
equations for treating moving geometries, the convection and acoustic physics are
explicitly resolved in a separate manner. The stability is guaranteed thanks to
Courant-Friedrichs-Lewy (CFL) condition, imposing a simulation time step small
enough to capture the right physics. Yet two-way coupling interactions require a
coupled resolution of the drag, evaporation, and the heat transfer between the gas
and the spray, through source terms. The time characteristics associated to these
phenomena impose to deal with multiple scales. Moreover, disappearing sizes of
droplets due to the evaporation yield very small relaxation times which can not be
captured by the simulation time step. Under these underlying complex physics, an
accurate, unconditionally stable, while preserving the moment space two-way coupling
resolution strategy should be developed. Moreover, the latter should respect
the ALE formalism and preserve the robustness of the original method associated to
the EMSM method. As far as the required developments are achieved, preliminary
test cases and implementation under the IFP-C3D code first need to be conducted.
Afterwards, the new development should be assess and validated through injection
simulations under the IFP-C3D code.
• Secondly, the turbulence effects need to be taken into account in the two-way polydisperse
interactions between the gas and the spray. In the context of kinetic based
Eulerian models, Fevrier et al. [59] has shown, through DNS simulations, the necessity
to model the fluctuating energy partition inside the spray phase. Fevrier et
al. [59] showed that the instantaneous spray velocity contains two parts: spatially
correlated and uncorrelated velocities. All these achievements have been done in the
context of one-way coupling of mono-disperse spray with the gas. More recently,
the fruitful work conducted by Rodney Fox gave rise to a new Reynolds-averaged
two-phase k-ǫ model [64] for incompressible, non-evaporating, collisional two-way1.8 Organization of the manuscript 22
coupled mono-disperse spray. The new model proposed in [64] for turbulent velocity
correlations between phases agrees with the work of [59] and [175]. Offering a
significant possibilities for industrial RANS simulations, it needs to be improved for
ICE applications under IFP-C3D software. This requires to take into account the
polydisperse character of the evaporating spray and the compressibility of the gas.
For that aim, first of all, a significant effort on the derivation of complete gas-spray
turbulence model has to be conducted. This should be followed by preliminary
test-cases in the context of homogeneous turbulence to validate correct fluctuating
energy exchanges between phases.
1.8 Organization of the manuscript
Answer to all these questions are organized in the manuscript as follows:
• The Eulerian evaporating polydisperse spray simulation requires to be well understood
in order to appreciate the achievements of this PhD thesis detailed in this
manuscript. It is therefore useful to dedicate Chapter 2 to a review on modeling
aspects. Firstly, a review on the microscopic level of disperse-phase flow description
will be discussed to point out the necessity of a kinetic modeling for industrial applications.
Therefore the discussion conducted in section 1.5 will be further detailed.
Afterwards, the basic kinetic Williams-Boltzmann equation along with its main assumptions
will be presented. As far as resolution strategies are concerned, some
discussions on widely used Stochastic Lagrangian methods, also adopted for injection
simulations in Chapters 3 and 4, will be investigated while highlighting their
limitations which make Eulerian moment methods relevant to be used. The polydisperse
character of the spray along with its turbulent interactions are considered to
be two major bottleneck issues towards to two-way coupling modeling. Therefore,
an insightful review on disperse-phase turbulence modeling through Eulerian moment
methods is first carried out. Afterwards, we extend the discussion conducted
in section 1.6, making links between different Eulerian polydisperse methods. In
the final section, the Eulerian Multi Size Moment (EMSM) method originally introduced
during the PhD of Damien Kah [83] will be presented in details along
with its main achievements. This chapter will be concluded with a discussion about
applications towards industrial simulations through the use of EMSM method and
will guide the reader for the remaining chapters of the manuscript.
The scientific novelties provided through this PhD thesis are introduced respectively in
Chapters 3, 4 and 6 summarized in the following:
• Chapter 3 is dedicated to the first achievements of the present PhD, while includes
also some of the works conducted in connection and collaboration with Damien Kah1
[83]. The goal in this chapter is to develop a new numerical strategy for the full
Eulerian two-way coupling modeling between the polydisperse evaporating spray
and the compressible gas. The latter should respect the realizability condition of
1postdoctoral fellow at Center for Turbulence Research Stanford University1.8 Organization of the manuscript 23
the high order moment method (EMSM). Moreover, since the characteristic time
scales associated to evaporating droplets under strong mass and momentum coupling
between phases can be inevitably lower than the global time step during an
ICE simulation, the new method should also guarantee the numerical stability while
providing accurate solutions. The final goal being a direct injection application under
the IFP-C3D code, the method should also respect the Arbitrary Lagrangian
Eulerian (ALE) formalism already derived previously for EMSM method in [83] and
implemented in IFP-C3D code in the context of one-way coupling. Therefore, in
this chapter a detailed insights will be given for the two-way coupling resolution
strategy in the context of ALE formalism. Afterwards, some preliminary homogeneous
test cases to assess the EMSM method and the stability and the accuracy of
the two-way coupling have been discussed and shown. Then, more advanced studies
on multi-dimensional framework should be carried out. The first test case consists
in validating the ability to treat correctly the mesh motion effect on the spray
dynamics through ALE formalism in IFPC3D. Afterwards, through 2D test cases
and in the one-way context, comparisons between the academic code MUSES3D
[30] and IFPC3D software [12] have been carried out, aiming at validating EMSM
method under both structured and unstructured formalisms. Finally, the 2D injection
simulation under the two-way coupling model has been pointed out. Rigorous
comparisons between the Lagrangian and Eulerian simulations have been validated
qualitatively and quantitatively.
• In Chapter 4, a detailed numerical analysis of the two-way coupling strategy will
be conducted. Let us precise that the original method developed in Chapter 3 was
in the context of a constant d-square evaporation law [167, 72]. Yet in a realistic
context, the evaporation is in function of both gas-phase and spray-phase thermodynamic
conditions [2]. Moreover, some convection-correction terms added to source
terms can lead to even more complicated models. All these aspects require a deeper
investigation in the numerical sense. Therefore the aim of Chapter 4 is to conduct a
convergence and accuracy analysis of the numerical method. Through homogeneous
context, some simulations under both constant and time dependent evaporation laws
will be carried out. Afterwards the accuracy will be assessed through convergence
studies, varying the simulation time. Afterwards, under a rather realistic temperature
initial conditions, same injection configurations adopted in Chapter 3 will be
done and compared to the solution of the Lagrangian in a qualitative and quantitative
manner.
• Chapter 5 can be considered as the complimentary of Chapter 3 and 4 in the sense
that, first, one presents the implementation effort of the the two-way coupled EMSM
method in the code IFP-C3D. Then, a 3D injection configuration under realistic
injection boundary conditions will be assessed and results will be analyzed qualitatively.
• Chapter 6 is dedicated to the turbulent two-way coupling modeling between the
polydisperse spray and the compressible gas. Firstly, one discusses the derivation
of an Eulerian-Eulerian model, within the framework of laminar two-phase flows1.8 Organization of the manuscript 24
composed of an evaporating polydisperse spray and a compressible gas. The correct
behavior of the energy partition in the spray phase for the turbulence modeling
requires taking into account the granular temperature effect (also called uncorrelated
motion), as highlighted first in [59]. This accounts for considering a polykinetic
velocity distribution at the kinetic level. Based on this idea, first the original
monokinetic EMSM model is extended to polykinetic in the context of laminar
flow, through a transport equation for the granular temperature. Afterwards, a new
Reynolds-averaged (RA) turbulence model is derived from the two-phase model presented
in Chapter 3. This is based on the same philosophy introduced in [64] for
two-way coupled monodisperse flows. However, one must deal with new terms and
equations that arise due to size moment equations of the polydisperse evaporating
spray and the gas-phase internal energy equation. To overcome this difficulty, new
closure models are provided and discussed. The new turbulence model assessed
through homogeneous test cases. First, the new model is qualitatively validated
as compared to the test case of [59] for one-way coupling and then the extension
to two-way coupling is studied for both evaporating and non-evaporating sprays.
Next, the model is investigated under the conditions typical of high-pressure direct
injection in ICE applications.
General conclusions of this PhD work along with perspective works will be discussed in
Chapter 7
This present work was supported by a grant from IFP Energies nouvelles and S.A.
Centrale Recherche, and benefited from a support from EM2C Laboratory of Ecole Centrale
Paris. Furthermore, we wish to thank our collaborators Rodney O. Fox, Quang Huy
Tran and Anthony Velghe for their scientific and technical contributions to this thesis.
• Contributions of this PhD thesis resulted in publications in international journals:
– D. Kah, O. Emre, Q. H. Tran, S. de Chaisemartin, S. Jay, F. Laurent, and
M. Massot, High order moment method for polydisperse evaporating spray with
mesh movement: application to internal combustion engines, paper submitted
in International Journal of Multiphase flows.
– O. Emre, R. O. Fox, M. Massot, S. de Chaisemartin, S. Jay, and F. Laurent,
Eulerian modeling of a polydisperse evaporating spray under realistic internalcombustion-engine
conditions, paper published in Flow Turbulence and Combustion.
– O. Emre, D. Kah, S. Jay, Q.-H. Tran, A. Velghe, S. de Chaisemartin, R.O.
Fox, F. Laurent, M. Massot, Eulerian Moment Methods for Automotive Sprays,
accepted for a publication in Atomization and Sprays.1.8 Organization of the manuscript 25
– O. Emre, F. Laurent, S. de Chaisemartin, S. Jay, and M. Massot, Numerical
analysis of a two-way coupled Eulerian high order moment method for the simulation
of polydisperse evaporating sprays, paper in preparation for a submission
in Journal of Computational Physics.
• Presentations in the following international conferences have been done during the
PhD period
– O. Emre, F. Laurent, S. de Chaisemartin, S. Jay, D. Kah and M. Massot, Twoway
Coupling modeling through Eulerian moment method for spray injection in
engine simulations, European Congress on Computational Methods in Applied
Sciences and Engineering (ECCOMAS), Vienna, Austria, 2012, pp. 1-18,
– O. Emre, F. Laurent, S. de Chaisemartin, S. Jay, D. Kah and M. Massot,
Eulerian modeling of polydisperse evaporating spray under realistic internal
combustion engine conditions, International Conference on Multiphase Flow
(ICMF), Jeju, Korea, 2013, pp. 1-15.Chapter 2
Two-phase flow modeling of high
pressure direct injection
2.1 Two-phase flow regimes in ICE
2.1.1 Physical mechanisms behind two-phase flow dynamics
As mentioned in the introduction, the liquid fuel injection yields a complex flow, involving
the gas and the liquid phases, from the nozzle injector to the area downstream of the
injector. Each phase is characterized by its proper thermodynamic state and exchanges
mass, momentum and energy with the other phase through its spatial limiting border with
the other phase called “interface”. The topology of the interface is therefore a paramount
aspect to take into account in two-phase flow modeling.
The shape of the interface, its curvature and wrinkles, in brief its complexity are driven
by the competition between surface tension and strain, characterized through a Weber
number. Weber numbers compare the dynamic forces to surface ones, as estimated by
the surface tension σl,g. Such comparison can either resort to a liquid Weber if dynamic
forces on the interface are mostly provoked by the motion of the liquid as in case during
the primary atomization process:
Wel =
ρlL | ul − ug |
2
σl,g
(2.1)
or to an aerodynamic Weber number if the liquid topology is mainly driven by the impact
of the gaseous flow, observed in the secondary atomization process
Weg =
ρgL | ul − ug |
2
σl,g
, (2.2)
with L is a characteristic length of the interface, ρl and ρg are densities for the liquid and
gas phases respectively and ul − ug represents the velocity difference between the phases
[98, 51, 159]. These Weber numbers characterize the density of interface at equilibrium
as regards surface tension and dynamic efforts. So they reflect the intensity of the atomization
process and therefore its multi-scale character. Wel and Weg play a similar role
262.1 Two-phase flow regimes in ICE 27
for atomization as the Reynolds number Re does for turbulence, indicating the number
of relevant degrees of freedom of the system. Weber numbers are static criterions i.e accounting
for the interface equilibrium; whereas the interface dynamics come down to the
value of the Ohnsorge number Oh:
Ohl = p
µl
σl,gρlL
, (2.3)
implying the dynamic viscosity µl of the liquid material and which relates the viscous
forces to surface tension ones.
Yet the interface is not enough to determine the two-phase flow characteristics. The
volume occupied by each phase as well as the mass partition are some other required
parameters in qualifying the two-phase flow regimes. In fact, if the control volume Vc is
the total volume occupied by both phases and Mc is the total mass associated to Vc, the
volume fraction αi and the mass fraction Φmi of the phase denoted through the index i
are given as:
αi =
Vi
Vc
, Φmi =
Mi
Mc
, (2.4)
with Vi and Mi are respectively the volume and the mass of the phase i.
As a conclusion of this brief introduction on mechanisms driving two-phase flows, let
us mention the following definitions. When the interface is complex and none of the two
phases has a remarkable geometry, the flow is said to be separate-phase. On the contrary,
if the liquid-phase is diluted enough -i.e. with not too high a volume fraction α- to allow
distinct packets to form and the flow is smooth enough for the packets to be spherical,
this regime is referred to as disperse and the droplets phase is the disperse phase. Figure
2.1 illustrates separate and disperse flow zones in the injection proces.
Figure 2.1: Illustration of separate and disperse phases in the injection flow [51]
2.1.2 Separate-phase
During the injected liquid core breakup processes in ICE, the interface between the liquid
and the gas is complex and none of the two phases has a remarkable geometry. Therefore,2.1 Two-phase flow regimes in ICE 28
the flow is said to be separate-phase. The increase of the interface density under specific
flow conditions, is referred to as atomization: Let us discuss for now only the main aspects
of atomization, in the context of the present overview. The liquid Weber number Wel
is
the key parameter of primary atomization and the aerodynamic Weber number Weg rather
describes secondary breakup.
The completion of the atomization process results the formation of a disperse phase
flow. The modeling of pure disperse flows is eased by the fact that the interface topology
is fixed, that is both aerodynamic Weber number Weg and Ohnsorge number Ohl are
very low. This accounts for dealing with the cloud of droplets inside the gas. Yet both
inclusions and complex interfaces simultaneously appear, typically during the atomization
process itself, it is remarkably difficult to account in detail for the separated phase domain
and to account efficiently for the spray regime. The modeling of such transition is a key
point in mastering many separate-phase flows [83], especially those where atomization
is expected and where the resulting disperse phase is the desired final state, e.g. for
combustion. Yet the aim of the present manuscript is limited only to the disperse phase
modeling, which is essential to be correctly simulated to provide a future link with such
transition zones. In the following, we therefore focus on pure disperse flows, that is after
the secondary break-up process.
2.1.3 Disperse-phase
The pure disperse-phase flow regime corresponds, in the classification established in [133],
to a liquid volume fraction αl
, going from αl < 10−3 associated to a dilute regime to
αl = 10−2
, limit where it begins to be moderately dense. Moreover, the aerodynamic
Weber number Weg is small enough for droplets to remain spherical. This regime is
referred to as disperse and the non continuous phase is the disperse phase. Although the
liquid interface is not anymore a critical point determining the flow regime, there are other
complicated physical mechanisms, which impact flow dynamics: because the material
density of the liquid inside droplets is much bigger than the carrier gas density, the low
droplets volume fraction is balanced by the liquid mass fraction Φm. This implies strong
two-way interactions between phases in terms of mass, momentum and energy transfers.
Moreover, collisions between droplets occur in moderately dense zones of the flow leading
even to more complicated physics. The limit of these flow regimes are presented in [7].
2.1.3.1 Basic disperse-flow regimes
Within the dilute limit assumption made here, the dynamics of a gas-droplet flow is ruled
by two major effects.
First, droplet-droplet collisions may occur in a two-phase flow, depending on the collision
frequency. The flow can then be parameterized by the Knudsen number Kn
Kn = τc
τg
, (2.5)
with τc is the collision time of droplets and τg is the gas-phase characteristic time. This
number represents the importance of droplet-droplet collisions relative to free transport,2.1 Two-phase flow regimes in ICE 29
and is the equivalent of the Knudsen number defined from the gas kinetic theory [170].
Therefore, the flow behavior is characterized by Kn such as in the gas kinetic theory. The
particle flow can be considered as a continuous flow as long as Kn ≤ 1. On the contrary,
when Kn > 0.1, the rate of collisions is not significant enough to ensure that the flow is
at equilibrium, i.e the velocity distribution function is Maxwellian, or at a state close to
equilibrium.
Figure 2.2: Disperse-phase modeling hierarchy characterized through the volume fraction
(horizontal axis) and the ratio of the droplet characteristic length or time scale over the
gaseous characteristic turbulent length or time scale (vertical axis) [7].
Secondly, the drag is the leading phenomenon intervening in disperse phase flow, which
is the major actor allowing the distribution of droplets inside the combustion chamber.
There are two main dimensionless numbers characterizing this behavior: the Stokes number
St and the droplet Reynolds number Red.
The Stokes number expressed as:
St =
τd
τg
, (2.6)
with τd is the dynamic time scale associated to a droplet of size in surface S, represents
the response of a droplet to a change inside a gas flow. If the Stokes number is small
enough (St ≤ 1), the droplets will have nearly the same velocity as the gas. On the
other hand, for large Stokes numbers, droplets barely feel the gas, so that their trajectory
is hardly influenced by the gas. This issue will lead to the phenomenon called particle
trajectory crossing PTC, which will be further discussed in 2.1.3.3. For an isolated droplet
in a uniform gas, the droplet Reynolds number determines the net force of the gas on the
droplet and expressed as:
Red =
ρgS
1/2
| ug − u |
√
πµg
, (2.7)2.1 Two-phase flow regimes in ICE 30
where u is the droplet velocity. Red is important to characterize the flow regime around
a droplet. A finite particle with a diameter greater than the smallest length scale (Kolmogorov
scale) of the continuous flow can modulate the turbulence of the fluid in the
vicinity of its interface through a wake effect. Otherwise if the particle diameter is smaller
than the Kolmogorov length scale, it is a point particle and the fluid flow around it will
not be influenced by the motion of the particle. Let us also remind that even if a particle
has a smaller diameter than the smallest fluid length scale, its high inertia can lead a
Stokes number greater than 1. All these regimes of particles are important in choosing
the right disperse-phase models, illustrated in Figure 2.2, but also discussed further in
section 2.2.
2.1.3.2 Polydispersity
As far as the disperse-phase topology is concerned, various sizes of droplets determine the
flow regime. In fact, both phases and droplet-droplet interactions are governed by the
size. Characteristic time scales of physical phenomena occurring in the disperse-phase
are therefore driven by the size. For instance, the Stokes number St, depending on size
through dynamic time scale τd, previously given in Eq.(2.6) is one of the parameters
influencing the velocity relaxation between the continuous phase and droplets. Yet one
can also define other Stokes numbers in case where droplet evaporation and heating,
determining the mass and heat exchanges between phases, are governing physics:
Stv =
τv(S)
τg
, StΘ =
τΘ(S)
τg
(2.8)
with τv the evaporation time scale and τΘ the thermal relaxation time scale, depending on
size. The strength of polydispersity and the ways to quantify it depend on the application,
but for internal combustion engine applications considered here, it has a crucial impact
on the equivalence ratio, which conditions the combustions regime and the pollutant
formation.
2.1.3.3 Particle Trajectory Crossings (PTC)
Particle trajectory crossings (PTC), are linked to the ability of droplets to have signifi-
cantly different velocities in a same region of the flow. As the droplets tend to correlate
their velocities at different rates according to their size in a given flow, it is natural to
expect a major influence of size: while all the very small droplets have the gas velocity,
small, medium and large droplets have a velocity depending on their size so that they do
cross if their sizes are significantly different. This is referred to as hetero-PTC i.e. PTC
at different sizes [39]. In addition, medium and large droplets may encounter crossings
even for droplets of the same size, which is referred to as homo-PTC, PTC at same size
[39]: this is due to the fact that medium and large droplets are defined to take a large
time compared to that of the gas to correlate their velocities so these correlations weakly
or never occur.2.2 Modeling approaches for disperse-phases 31
2.2 Modeling approaches for disperse-phases
Disperse two-phase flows can be modeled with different levels of detail, which we present
from the most detailed, microscopic, to the coarsest, macroscopic ones. First, we briefly
present the so-called DNS at the particle level methods that can be used for separatephase
flows as well: they prove to yield too much detail and to be costly for a full ICE
computation. We then present the so-called Discrete Particle Simulation that provides a
less detailed description but sometimes too costly for industrial computations. Afterwards,
two-fluid models, that give a macroscopic, volume average description of disperse-phase
but also widely used for interfacial two-phase flows will be discussed. The latter approach
being considered not to be well adapted for the polydipersity modeling, we finally focus
on kinetic modeling of the disperse-phase.
2.2.1 Direct numerical simulation at the particle level
2.2.1.1 Sharp interface tracking method
The starting point of the derivations to obtain microscopic models, which describe all
scales within each phase and the two-phase flow topology in the vicinity of inter-phases,
requires to write down the following single fluid conservation equations for each of two
phases:
∂tρφ + ∇x · (ρφu) = ∇x · ψ + S, (2.9)
where the successive values of φ, ψ and S are given in the table 2.1: These equations are
Table 2.1: expressions for variables arose in Eq.(2.9)
φ 1 u E = e + 1/2u
2
ψ 0 -T = −P I + τ -T.u + q
S 0 F F.u
valid in the interior of each phase. Here ρ denotes the density, u velocity, T the stress
tensor, and F the body force density. One can directly solve the local instantaneous
equations presented above in the context of DNS. Moreover, the position of the interface
and associated discontinuities of properties across the interface must be solved accurately
to impose satisfactory boundary conditions for both fluid domains [159]. In the literature,
various sharp interface tracking or resolution methods have been designed to capture
interfaces. These methods rely on techniques such as Volume of Fluid (VOF), Level Set,
Ghost Fluid, or a combination of these techniques. Recent advances can be found in
[202, 70, 17, 76]. At this level, since all the flow details are solved, there is no distinction
between the disperse-phase and the separate-phase.
2.2.1.2 Fluid DNS around solid bodies
The principle of this second type of full DNS approach is to solve for a fluid around solid
(not deformable) bodies: the method is sometimes referred to as Fully Resolved Simulation
in the context of solid particles [5] but can also be used for a disperse liquid at low Weg.2.2 Modeling approaches for disperse-phases 32
The solid bodies can be fixed or may move depending on the forces from the surrounding
flow. The treatment of the solid bodies is done with appropriate boundary conditions
e.g. they are meshed or immersed boundary conditions are applied [197]. This approach
can be used to solve the settling of a group of particles/droplets, as the interaction of
particles through their wakes generates a long range interaction and modifies the physical
properties of the system (settling velocities). This approach is costly, its cost increasing
linearly with the number of particles. A less detailed approach should be considered
except when the modeling effort is important.
2.2.1.3 Concluding remarks on DNS methods for the disperse-phase
Full DNS approaches are used to capture complex physics: they notably allow to render
group effects [34], for instance, in group combustion which arises in specific conditions and
where the flame structure and the overall dynamics is strongly linked to the organization
of the cloud and its evolution at large scale [165]. The issue of group effects is also present
in other domains such as in sedimentation modeling [181] and crowd modeling [121]. For
all these group effects, the resolution of the flow at the level of each particle is required
as it strongly differs from that of a single particle and it has an influence on macroscopic
dynamics. Besides, the exact numerical resolution of interfaces is still a research topic,
especially for the purpose of DNS computations to improve and validate models and
correlations, mesoscopic approaches. Yet it is unfortunately very difficult to solve for a
macroscopic system with a full DNS approach, regarding the high cost of the methods,
so these methods are not considered for our problem.
2.2.2 Discrete Particle Simulation (DPS)
This method looks like the DNS around solid bodies except that the effect of particle
volume occupation on the surrounding fluid flow is not resolved [135, 154, 203] and the
fluid particle interactions are modeled under the form of a point particle assumption
global exchange. This means that each particle is tracked separately through ordinary
differential equations (ODE) on its internal variables which can contain the effects coming
from the surrounding continuous fluid phase (i.e. mass, momentum, heat transfer) and
other particles (i.e. collision, coalescence), the effect of return of particles can be taken
into account at this level through specific collision detection algorithms [177, 42]. In case
of the two-way coupling, the mass, momentum and heat-transfer effects of the particles
on the fluid phase are taken into account through source terms in conservation equations
Eq.(2.9). Most of the first numerical studies were dedicated to solid particle dispersion
[168, 52]. The extension to evaporating droplets in turbulent flows has been provided in
[111, 148, 127], and has been used in combustion applications in [110, 151, 128].
In the context of simulations through industrial tools where a very high number of
particles is involved, tracking each particle through DPS approach can be costly. Yet
let us precise that, one of widely used Stochastic Lagrangian method, further discussed
in section 2.3, provides a coarser resolution of DPS approach [46]. The latter is widely
adapted for the coupling with the continuous phase modeled through RANS or LES.2.2 Modeling approaches for disperse-phases 33
2.2.3 Two-fluid reduced models
So far in this section, we have focused on detailed resolution techniques of disperse-phase
flows. As conclusion, we have clarified that, details on the disperse-phase flow are not
required and not adapted for computations through industrial codes. In that case, the
use of volume averaged models can be considered as a promising option. The averaging
process is performed on a volume large enough to contain both phases, and small enough
compared to the length scales desired to be solved [132]. A number of macroscopic
quantities are then accounted for with distinct Eulerian conservation equations. So the
two phases are described as fluids that virtually coexist, for all the quantities are defined
at every location in space. Averaging approach generates closure problems as transfer
terms within the averaging volume have macroscopic effects that should be taken into
account, so that models are required for closure. Let us recall that some authors provided
closures through preliminary detailed studies on a single particle level [2, 160] which make
easier closures for disperse phase flow modeling through averaged methods [186].
There are mainly two different approaches employed to obtain averaged equations. A
first approach involves applying an averaging operator directly to the local conservation
system defined through (2.9). In the averaging process, the various terms appearing in
the macroscopic equations are shown to arise from appropriate microscopic considerations.
This method is used for example by authors such as Ishii [82] or Delhaye [32]. However,
this technique bypasses the discrete nature of the two-phase flow since it does not provide
a complementary equation on the volume fraction α which is crucial in determining the
probable volume occupied by each phase. In the other approach, the notion of phase
function is introduced. It follows the instantaneous interface between the two phases
and is thus convected by the instantaneous interface velocity. Conservation laws are
determined for each phase and they account for the exchanges of mass, momentum and
energy between phase. Closures are provided through a thermodynamic analysis of the
resulting system. This approach is used for example in [6]or in [107] and is taken up by
authors such as in [157, 158].
In the context of ICE simulations at IFP Energies nouvelles, the latter technique based
on the volume fraction equation along with the surface density approach has been used to
describe liquid atomization [104, 105] and disperse-phase modeling [186] dedicated to the
modeling for the dense zone of the injection. Yet it has been shown that the polydispersity
character of droplets is poorly captured since at a given time and position, one could only
access the mean size of the distribution [186]. Taking into account the size distribution
at sub-grid scale is mandatory to describe the right two-phase flow regimes. Therefore,
this technique is not adapted for our problem.
2.2.4 Kinetic spray modeling
The dispersed-phase assumption for the liquid, applicable for dilute sprays with volume
fraction α < 10−2
, allows the use of the so-called kinetic spray model. This model is
based on the Williams equation [193, 194]. Although this represents a mesoscopic level
of description, it is called kinetic by analogy with the mesoscopic kinetic theory of gases.
Indeed, the assumptions made for the spray droplets [62], are similar to the ones made2.2 Modeling approaches for disperse-phases 34
for the gas molecules when deriving the kinetic model. These assumptions are recalled
here. The model describes the transport of the NDF and its evolution, due to the physical
phenomena like evaporation, heat transfer or particle interactions applied to the spray, as
external forces. The source terms responsible for this phase space evolution of the NDF
are analyzed here. Due to the above disperse-phase assumption, the liquid influence on
the gas is obtained through source terms in the gas phase equations, as it was the case for
DPS approach. The expressions for such source terms are provided in the framework of
kinetic spray description. We present herein the framework which allows the derivation
of the Williams-Boltzmann Equation (WBE) for spray, see for example [193, 194].
2.2.4.1 Fundamental assumption
Statistical modeling relies on ensemble (or statistical) averages. The goal is to reduce
the information carried by the numerous particles to the only relevant one of ensemble
behaviors. Each particle, denoted by the subscript i, is described by few degrees of
freedom (DoF) that evolve in time, e.g. a minima its position xi(t) and velocity ui(t).
So the particle system has 6N DoFs in total and its state is exactly described by a point
in a 6N -dimensional space called the Γ phase space with Γ = R
6N . For classic particles
encountering an external force F
ext per unit mass and a particle-particle interaction force
Fi,j per unit mass that differs on the relative distance | xi - xj
|, the equations of motion
at the microscopic level read:
dtxi(t) = ui(t), (2.10a)
dtui(t) = F
ext(t) + X
N
(
j=1
j6=i)
Fi,j (t). (2.10b)
We want to avoid describing all the details of the system and, instead, to follow some of
the quantities that emerge at the macroscopic scale. These quantities define a state at the
macroscopic level and they are not as numerous as the micro-DoFs. So a macroscopic state
can be reached thanks to many different underlying microscopic configurations [143]. We
now focus only on these macroscopic variables: we compute them as ensemble averages,
i.e. an average over many copies of the initial system, possibly evolving differently at the
microscopic scale, but similarly at the macroscopic scale: this idea, due to Gibbs, allows
to smooth out the undesired fluctuations from the temporal behavior of the macroscopic
quantities. The number of ensembles to consider is large enough for the microscopic state
points to be dense in Γ. We thus adopt a statistical point of view, introducing a multipleparticle
joint distribution function f
N (t, x1, x2, · · · , xN , u1, u2, · · · , uN ). The evolution of
an N -particle system is then given by the Liouville equation for the NDF in 6N phase
space:
∂tf
N +
X
N
i
ui
· ∂xf
N +
X
N
i=1
F
ext
i +
X
N
(
j=1
j6=i)
Fi,j
· ∂ui
f
N = 0 (2.11)2.2 Modeling approaches for disperse-phases 35
which originates from the conservation of the number of points in Γ and renders all the
microscopic evolution equations of System (2.10). In practice the dimension of f
N is huge
(it might be infinite) and one has to come up with a reduced (or contracted) description.
Varying the number of particles retained in the state vector Γ, a reduced description
is given by the classical BBGKY hierarchy (the initials are those of the authors who
derived it independently: Bogoliubov, Born, Green, Kirkwood and Yvon) [21, 103]. It
consists of transforming the Liouville equation into a chain of equations in which the first
equation connects the evolution of one-particle PDF f
1
to the two-particle PDF f
2
, the
second equation connects f
2
to f
3 and so on. The system is an exact approach to the
Liouville equation. It is therefore redundant but it is practical to build approximations by
truncation of the chain when some particle correlations are neglected. The most celebrated
example of the utility of the BBGKY hierarchy consists in closing the first equation of
the hierarchy by assuming:
f
2
(t, x1, x2,u1,u2) = f
1
(t, x1,u1) f
1
(t, x2,u2) (2.12)
which means that the particles are totally uncorrelated. The BBGKY hierarchy is then
entirely defined by the knowledge of a one-particle Probability Density Function (PDF)
f
1
evolving in a 6-dimensional space called -phase space according to the equation:
∂tf
1 + u1 · ∂xf
1 + F
ext
1
· ∂u1
f
1 = −
Z
F1,2 · ∂u1
f
1
(t, x1,u1) f
1
(t, x2,u2) du2dx2 (2.13)
The number density function (NDF) f, obtained by summing the one-particle PDF in
order to describe N indiscernible particles [192]: f =
PN
i
f
i
. Its phase space variables are
x et u. Similarly to Eq.(2.13) for the evolution of f
1
, the Williams-Boltzmann equation
is classically used to describe the transport of NDF function.
2.2.4.2 Williams-Boltzmann Equation (WBE)
According to the kinetic spray modeling through Williams-Boltzmann equation (WBE),
each droplet is assumed to be spherical, and is characterized by the unique size and
temperature variables. Moreover, its velocity is defined at its mass center. The entire
information of the disperse phase is included in the number density function (NDF)
f (t, x, S,u, T) so that:
∂tf + ∇x · (uf) − ∂S (RSf) + ∇u · (Ff) + ∂T (Qf) = B + C (2.14)
is at time t the probable number of droplets at a location x in a dx-neighborhood of x,
with a velocity u in a du-neighborhood of u, with a temperature T in a dT-neighborhood
of T, and with a size parameter in surface S in a dS-neighborhood of S. The velocity u is
sometimes decomposed in Cartesian components u = (u1, u2, u3)
T
. If dx is an elementary
volume of the physical space, the infinitesimal volume dudTdS is an elementary volume
of the phase space. The kinetic equation or Williams-Boltzmann equation or sometimes
called Generalized Population Balance Equation simply expresses that the total derivative
of the NDF is due to integral source terms [193]: that are break-up B, usually depending
linearly on f, and collisions C, usually depending quadratically on f. The modeling effort
also consists in closing the different rates of change:2.2 Modeling approaches for disperse-phases 36
• F = dtu is the acceleration applied on droplets per unit mass,
• Q = dtT is the rate of change of droplet temperature due to heat transfer,
• RS = −dtS is the rate of change of the size S of droplets, or evaporation term,
• C is the rate of change of distribution function f due to collisions,
• B is the rate of change of f through particle formation by secondary break-up
process.
2.2.4.3 Source term closure models
Drag model
Among all the terms contained in the term of force applied by unit mass F (gravity and
buoyancy effects, drag force, virtual mass effect, Basset force, lift force) described in [30],
we will focus on the drag term. Indeed, as shown in [45], in a gas-liquid flow, where the
ratio of the gas-phase mass density over the liquid-phase mass density inside droplets is of
the order of 10−2 down to 10−3
, the only external forces that need to be accounted for are
drag force and gravity. Furthermore, in order to work in a simple modeling framework,
we neglect gravity in the studies presented in this work. Through the basic Stokes law
assumption [169], the drag force is commonly expressed in function of the droplet dynamic
time scale and the velocity difference between the surrounding gas-phase and droplet
F (t, x,u, S, T) = 1
τd
(ug (t, x) − u), τd =
ρlS
18πµg
. (2.15)
with ug is the gas-phase velocity, ρl the liquid mass density and µg is the gas-phase
dynamic viscosity. Stokes law is correct as far as Red < 1. Otherwise, the flow around
the droplet renders the convection effects dominants, that is some correction models such
as [160] are required for an accurate drag dynamics.
Evaporation and heating model
Theoritical derivation of the evaporation and the heat transfer coefficients are detailed in
[30]. These coefficients are modeled, based on the film theory around an isolated droplet
[165]. Let us now present their common expressions as:
RS (t, x,u, S, T) = 4π
ρg
ρd
ShcDYF
ln (1 + BM) (2.16)
and
Q (t, x,u, S, T) = 6π
ρg
ρdSCp,l
ShcDYF
ln (1 + BM)
Cp,g (Tg(∞) − [T]
s
)
BT
− Lv
(2.17)
with ρg the gas density, Tg(∞) the gas temperature beyond the diffusive thermal boundary
layer, [T]
s
the temperature at the droplet surface, Cp,g the gaseous specific heat capacity
at constant pressure, ρd the liquid density, Cp,l the liquid specific heat at constant pressure,
DYF Fick’s law binary diffusion coefficient, Lv the latent heat of vaporization, Shc2.3 Resolution strategies for the kinetic disperse phase modeling 37
the convective modified Sherwood number, BM the spalding dimensionless mass transfer
number and BT the spalding dimensionless heat transfer number. Let us give expressions
for spalding dimensionless transfer numbers and the relation between them,
BM =
[YF ]
s − [YF ]∞
1 − [YF ]
s
, BT =
ρgusCp,g
hc
, BT = (BM + 1)
Shc
Nuc
Sc
Pr (2.18)
with [YF ]
s
the fuel mass fraction at the droplet surface, [YF ]∞ the fuel mass fraction beyond
the diffusive mass boundary layer, hc the convective modified heat transfer coefficient, Nuc
the convective modified Nusselt number, Sc the Schmitt number, Pr the Prandtl number.
According to the film theory, the convection prompted by the relative velocity between
the gas and the droplet reduces boundary layers around the droplets. Therefore some
correction models on Sherwood and Nusselt numbers have been proposed in the literature
[2, 165, 56, 26] and reviewed in [30].
2.3 Resolution strategies for the kinetic disperse phase
modeling
Let us, in this section, discuss on the choice of the resolution method for the dispersephase
among two available approaches. The first and widely adopted choice for spray
resolution method is a Stochastic Lagrangian method where we track particles in the
flow. Lagrangian methods consist in tracking statistical particles in connection either
with kinetic equation (2.14) or physical droplets modeled through DPS approach. On
the other hand, Eulerian approach provides an alternative and promising solution to
Lagrangian techniques for the resolution of the kinetic equation (2.14).
In the reminder of this section, let us first present stochastic-Lagrangian and then
Eulerian methods before concluding on our choice for the present thesis.
2.3.1 Stochastic-Lagrangian resolution
The stochastic-Lagrangian description has been introduced in two different contexts.
• On the one hand it has been developed to supply DPS in configurations where the
high number of physical droplets prevents to use one numerical particle for each
droplet, given the high computational cost associated. In this framework, each
numerical particle, also called parcel, represents several physical droplets. This
approach has been first described in [28] and introduced for fuel spray and referred
to as Stochastic Parcel (SP) in [133], extending the work of [46]. This method is
referred in [29] as the discrete element method, and as a multi-continua method
in [165], where the parcels are defined as classes of droplets. The computational
cost of this method is obviously linked to the chosen number of tracked parcels: the
SP method aims at coarsening the DPS description and the number of statistical
parcels is thus set by the computational cost limitation, without drawing any links
with kinetic level of description. The cost of the method is thus well controlled, and2.3 Resolution strategies for the kinetic disperse phase modeling 38
it is therefore broadly used to compute industrial configurations but its rigorous
meaning is doubtful.
• On the other hand, the stochastic-Lagrangian method can be seen as a resolution
method of the Williams-Boltzmann kinetic Eq. (2.14) as stated by [172]. This
approach is called Direct Simulation Monte Carlo (DSMC) method and is also introduced
for rarefied gas in [11]. This approach aims at describing the evolution of
the spray NDF moments, and thus a high number of statistical particles [171] are
needed to obtain a converged solution. The numerical particle has a weight associated,
adapted to the needed refinement: this weight is a real number so a numerical
parcel may represent a fraction of physical droplet. This method provides directly
the ensemble average, in terms of initial condition, and then the reconstructed Eulerian
fields correspond to the same level of information than the one provided by a
Eulerian method.
In cases without collision, the difference between the two methods, is only the level of
refinements provided. Indeed, the convergence expected in the DSMC method demands
a high number of statistical particles, leading to a higher refinement level than in DPS.
On the contrary, the SP method aims at coarsening the DPS description. The number of
statistical parcels is thus set by the computational cost limitation, without drawing any
links with kinetic level of description. Stochastic-Lagrangian methods are implemented
for instance in the KIVA II code [4] and in the IFP-C3D code [12] and are used in many
industrial computational codes at present [81, 156, 36, 35].
2.3.2 Shortcomings of Lagrangian methods
To solve a disperse two-phase flow, the stochastic-Lagrangian approach is often coupled to
a Eulerian approach for the carrier gas phase: we refer to this strategy as Euler-Lagrange.
At present, SP methods are widely used for the disperse-phase simulation since they
combine an easy modeling of the phase polydispersity and particle trajectory crossings
(PTC), a high numerical efficiency, not introducing numerical diffusion, and an easiness of
implementation. Nevertheless, they suffer from some shortcomings, in terms of modeling
and computing. These shortcomings can be listed as follows:
• In some cases, the solution is impacted by the number of Lagrangian parcels used for
the computations. In case where this number is not enough to obtain a converged
solution, a statistical noise is observed. Convergence can be evaluated by performing
several realizations with the same initial and boundary conditions and comparing
the deviation of the solution according to the number of parcels used. However,
convergence studies are rarely performed for industrial computations due to the
limitations on resources.
• Accounting for two-way coupling with an Euler-Lagrange raises two issues.
– First, the ODEs for the parcels are no longer independent but coupled through
the gas equations. The quantities must ideally be relaxed simultaneously for all2.3 Resolution strategies for the kinetic disperse phase modeling 39
the particles at a given location and for the underlying gas, the latter transmitting
information at the velocity of its fastest eigenvalue to the surrounding gas
and parcels. Numerical procedures rarely achieve such strong coupling, since it
is interesting to keep the ODEs as decoupled so that splitting-like techniques
are employed. This can compromise the accuracy of two-way coupling which
is achieved with dedicated methods at the cost of additional efforts [16].
– Second, in a high performance computing context, possibilities of vectorization/parallelization
or implicitation are limited for Euler-Lagrange simulations.
The particle load balance is particularly difficult to achieve [71]. The parcels
must indeed often communicate with the underlying fluid but they move in
the domain in a way that is difficult to predict (at least for the load balance
algorithm). As a result parcels that are computed by a given CPU must be dispatched
to other ones according to a complex process, which does not comply
with efficiency requirements of parallel architecture.
2.3.3 Eulerian resolution
Instead of discretizing all the kinetic degrees of freedom (DoFs) with parcels as in the
stochastic-Lagrangian approach, we can resolve spray Eulerian conservative quantities, as
number or mass density, momentum. These Eulerian methods can be seen as moment
methods derived from the kinetic equation Eq.(2.14).
2.3.3.1 Derivation of the Eulerian model
The full resolution with finite volume of the kinetic equation, Eq.(2.14) can difficultly be
used given its cost related to the high number of phase space dimensions. Indeed in a
3-D case, the phase space is of dimension eight (3 for space, 3 for velocity, 1 for size, 1 for
temperature). Nevertheless, in many cases the knowledge of the full kinetic description
of the spray is not needed, and it is sufficient to know the evolution of global quantities,
the NDF moments. For an arbitrary function ψ(y), the k th order moment mk is defined
by
mk =
Z
y
kψ(y)dy. (2.19)
Therefore, for the NDF we introduce the moment M
Ml,n,i,j,k =
Z
S
Z
T
Z
u
S
lT
nu
i
xu
j
yu
k
z
f (t, x,u, S, T) dS dT du, (2.20)
of order l in size, n in temperature, (i, j, k) for each component of the velocity, respectively.
The evolution of these spray global quantities can therefore be derived from the Williams
kinetic equation Eq.(2.14), in the following way:
Z
S
Z
T
Z
u
S
lT
nu
i
xu
j
yu
k
z Eq.(2.14) dS dT du. (2.21)2.3 Resolution strategies for the kinetic disperse phase modeling 40
2.3.3.2 Bottleneck issue for Kinetic based Eulerian methods
One has to notice that the moment equation derivation leads to a loss of information and
that, without any peculiar assumption, the system of equations for moments is not closed,
even if the kinetic model was. Indeed, some quantities can not be expressed in function of
the set of moments resolved; for example with regard to velocity moments, the equation
for the pth order moment (with p = i + j + k) introduces the moments of order p + 1.
Therefore taking one first order moment M0,0,1,0,0 introduces the second order moments
M0,0,2,0,0, M0,0,1,1,0, M0,0,1,0,1. Assumptions have then to be done on the form of the NDF
to close the moment evolution system. Therefore, there are two major strategies in the
literature.
• For some of the spray Eulerian methods, the derivation of the moment system, along
with its associated closures can be divided into two steps. First a form for the NDF
in velocity and in temperature is presumed for each fixed size as follows:
f (t, x, T, S) = n (t, x, S) φu (t, x,u, S) φT (t, x, T, S) (2.22)
where φu and φT are the presumed PDF in velocity and temperature, that are
assumed independent of temperature and velocity, respectively. The variable n is
the number density of the spray. This leads to the derivation of an intermediate
closed system of conservation laws, the semi-kinetic system. The second step is
devoted to the size-phase space treatment, there exist several methods introducing
different types of system of conservation laws and closures.
• However, we can also find methods using quadrature-based approximations for the
NDF, obtaining the unclosed moments by quadrature formula.
2.3.4 Conclusion about the resolution technique adopted for
ICE applications
As discussed before, for reliable combustion applications, the project of IFP Energies
nouvelles is to resolve the direct injection of the fuel, from upstream to far downstream of
the injector. Yet this requires to resolve both the dense and dilute zones of the injection.
So far, the discussion on resolution strategies has been conducted for the disperse-phase
zone, which is treated either through Lagrangian or Eulerian approaches. Let us also
remind that due to complex interfaces between phases, the resolution for the separatephase
zone is achieved through Eulerian description.
For a complete resolution of the injection, there are basically two main strategies.
Either one resolves the disperse-phase zone through Lagrangian Stochasic method and
couple it to a Eulerian model dedicated to separate-phase zone description, or the complete
injection is fully described through Eulerian methods. In both cases, the transition zone,
where both complex interfaces and droplets are simultaneously present, is required to
be well treated. Through the development of the technique called Eulerian-Lagrangian
Spray Atomization (ELSA) conducted in [33], involving a Stochastic Lagrangian method
for the disperse-phase and a Eulerian interfacial flow model based on the work [183], an2.4 Eulerian polykinetic modeling through kinetic
based models 41
interesting development of a transition zone has been achieved. Yet we believe that a full
Eulerian description of the injection will help us to be more consistent for the development
of such transitions. In the present PhD thesis, we hereafter focus on Eulerian methods
for disperse-phase resolution.
But if Eulerian models appear to be a potential answer to the shortages of Lagrangian
methods, they nevertheless face difficulties in treating the polydispersity. As mentioned
previously, this issue along with the spray evaporation are the two most paramount aspects
required to be accurately described for combustion applications. Treating the droplets
trajectories crossings (PTC) in case of inertial droplets with high Stokes numbers is an
other difficulty for Eulerian kinetic based methods. Moreover, taking into account correct
turbulent interactions driving the spray-gas mixture is not straightforward issue and
requires an important modeling effort.
Among existing models, there are only several Eulerian polydisperse models for evaporating
droplets. Yet the issue of accurately capturing the evaporation characteristics
under a reasonable CPU time remain a bottleneck problem. When it comes to turbulence
disperse-phase modeling for industrial applications through Eulerian methods, most of
them make use of monodisperse droplet distribution and uses different approach for modeling
the particle-gas interactions. In the following of this chapter, we first discuss about
Eulerian concepts which are able to predict particle trajectory crossing events. Then one
moves on the Eulerian modeling strategies dedicated to predicting disperse-phase turbulence
interactions. Afterwards, we will go into details on Eulerian polydisperse models for
evaporating sprays.
2.4 Eulerian polykinetic modeling through kinetic
based models
The common aspect of Eulerian polykinetic models is the fundamental modeling of the
velocity distribution function φu in Eq.(2.22). The basic mono-kinetic assumption for the
velocity distribution that is a unique spray velocity for all droplets at a given time and
position, leading a dirac δ-function φu = δu, has been the starting point for some Eulerian
polydisperse models, discussed in section (2.6). Yet the latter approximation is not true
for two-phase flows with inertial droplets in a gaseous carrier phase. In such flows the
motion of droplets strongly depends on their inertia characterized by their Stokes number,
based on the smallest time scale of the carrier flow which is, in case of a turbulent flow, the
Kolmogorov scale or can be related to a strain rate as demonstrated by S. de Chaisemartin
in his PhD [30]. For low Stokes numbers, the spray phase velocity is strongly correlated to
the gas phase velocity and mono-kinetic velocity distribution is well adapted. Therefore,
one can work with only velocity moments of zero and first order. Yet regimes with higher
Stokes numbers St, droplets velocity are not well correlated locally with the gas velocity.
This leads to an uncorrelated droplet motion either called the Random Uncorrelated
Motion (RUM) [59] or the granular temperature [64]. The latter aspect drives the homoPTC
phenomenon (see part 2.1.3.3). It is important that the velocity distribution φu
locally reproduces polykinetic distribution, that is locally various velocities for same sized
droplets at time t and location x.2.4 Eulerian polykinetic modeling through kinetic
based models 42
2.4.1 Modeling categories and hierarchies
The complete hierarchy of Eulerian methods, aiming at capturing homo-PTC is discussed
in detail in [97]. We can divide up the Eulerian polykinetic approaches of the literature
into two categories:
• Algebraic-Closure-Based Moment Methods (ACBMM): A limited set of moments,
usually up to second order moments, are chosen and transported. Since their transport
involves higher order moments, these missing moments are computed from the
knowledge of the lower order moments through equilibrium assumptions inspired
from RANS turbulence modeling using explicit algebraic closures [166]. One example
of this class of methods introduced in [113, 115] considers and transports a
unique, scalar second order moment. Other second or third order moments are then
computed from the knowledge of the transported moments to get the most accurate
closure at a reduced cost. This type of approach has already reached the real
application level [189, 109, 152]. However it has to face local realizability problems
[162], i.e. the occurrence of moments not linked to a non-negative NDF, and the
design of adapted numerics is not straightforward and has never been conducted
since the mathematical structure of the underlying system of Eulerian equations is
not clearly identified.
• Kinetic-Based Moment Methods (KBMM): The main idea of this type of approach
is to consider a set of moments for which we can associate in a one-to-one correspondence
a unique kinetic velocity distribution with a sufficient number of parameters
to control the given set of moments. This presumed NDF must be non negative
and allows to evaluate high order moments needed in the system of moments for
transport. Closures have been proposed to control moments up to second order
[118, 187], up to the third order (CQMOM [198]), and up to the fourth order (Multi
Gaussian [97]). Among the KBMM two categories emerge; the first is based on
hydrodynamic equilibrium usually related to a given notional collision operator and
the second is based on quadrature methods. The first category allows a well-defined
mathematical structure and entropy inequality, whereas most of the time the second
leads to weakly hyperbolic systems [20]. The main advantage with KBMM is
the existence of dedicated numerical methods, which will guarantee the realizability
and the stable behavior of the numerical schemes, either classical hyperbolic solvers
[102, 179] or kinetic schemes [30, 198, 14].
In the following, let us be interested in KBMM rather than ACBMM methods since the
former presents advantages over the latter in terms of realizability, mathematical structure
and numerical scheme design. Although MG and CQMOM methods can capture a broad
range of homo-PTC scales, these methods are costly due to the high number of velocity
moments required to be transported. Towards the industrial applications framework,
the compromise between the PTC accuracy and CPU cost can be achieve thanks to the
transport of velocity moments up to second order. Let us precise that this implies that
the NDF function is presumed such that third or higher order moments, naturally arising
in the system derived form Eq.(2.14), are closed thanks to the lower order moments. In2.4 Eulerian polykinetic modeling through kinetic
based models 43
that context the Eulerian polykinetic models based on the anisotropic Gaussian (AG) or
the isotropic Gaussion (IG) function for φu in Eq.(2.14) are promising.
2.4.2 Isotropic and Anisotropic Gaussian velocity closure for
homo-PTC
For the sake of clarity on the methods discussed in this part, we consider a monodisperse
droplet population under a constant and uniform temperature which undergoes the
Stokes drag force through its one-way coupling interaction with the carrier gaseous flow.
Moreover, the spatial dimension of our problem is in 2-D. Therefore, the NDF distribution
presented in Eq.(2.22) reduces to the following form
f (t, x,u) = φ (u − ud (t, x)) n (t, x) (2.23)
where u = (u, v)
t
, while the kinetic equation becomes
∂tf + ∇x · (uf) + ∇u ·
1
τd
(ug (t, x) − u) f
= 0. (2.24)
The velocity distribution function is presumed through the Anisotropic Gaussian function
by the following expression
φ (u) = 1
(2π)
3/2
| Σ |
1/2
exp
−
1
2
(u)
t Σ
−1
(u)
(2.25)
where Σ =
1
n
Z
(u − ud) ⊗ (u − ud) fdu. Let us recall that, for an Isotropic Gaussian
(IG) distribution, Σ is isotropic Σ = σI.
Integrating Eq.(2.24) over the velocity phase space leads to the following system of
conservation laws with source terms related to the drag acceleration:
∂tM+ ∇x · F (M) = S (M) (2.26)
where the moment M and fluxes F = (F1, F2)
t
take the expression:
M = n
1
u
v
u
2 + σ11
uv + σ12
v
2 + σ22
, F1 = n
u
u + σ11
uv + σ12
u
3 + 3uσ11
u
2
v + 2uσ12 + vσ11
v
2u + uσ22 + 2vσ12
,S =
n
τd
0
ug − u
vg − v
2 (uug − u
2 − σ11)
uvg + vug − 2 (uv − σ12)
2 (vvg − v
2 − σ22)
(2.27)
and F2 is deduced by obvious substitutions. Let us recall that only four equations will
appear in 2.26 and be resolved if one works with an IG distribution instead of AG.
The system (2.26) has been shown to be hyperbolic and admit entropies [10]. These
properties allow to treat the shocks that can naturally appear in Eulerian moment models2.5 Turbulent disperse flow modeling through Eulerian kinetic based
models 44
and also to rely on the large literature devoted to Godunov-like scheme. Yet the spray
behavior under such models are complicated since one can observe both vacuum zones
and stiff accumulations of droplets. Therefore some high order, realizability preserving,
numerical schemes are developed to deal with such singularities [187].
In [187], it has been concluded, through comparisons with Lagrangian simulations, that
the Anisotropic Gaussion (AG) distribution reproduces well homo-PTC for disperse-flow
regimes characterized through small to moderate Stokes numbers. Moreover, its accuracy
is higher than Isotropic Gaussian (IG) distribution since the PTC is an anisotropic
phenomenon [187]. Yet IG requires less second order moments to be transported than
AG, while still capturing the uncorrelated motion (granular temperature). Within the
context of turbulence RANS or LES modeling, the last issue is necessary for modeling the
correct energy partition inside the spray, as discussed in part 2.5. Computational costs
being a bottleneck problem for industrial simulations, IG is a good candidate for deriving
such turbulence models from moment system of equations, while providing lower costs
compared to AG. IG will be also used for formulating a hybrid poydisperse-polykinetic
model in the present thesis through Chapter 6 within the framework of Reynolds average
modeling discussed in the next section.
2.5 Turbulent disperse flow modeling through Eulerian
kinetic based models
The NDF appearing in WBE is deterministic in a laminar flow but fluctuates in a turbulent
flow. These fluctuations generally arise in one of three ways: (i) the Reynolds number in
the continuous-phase model is large enough for the gas-phase velocity ug to be turbulent,
(ii) the Reynolds number associated to a single droplet Red in the continuous-phase is large
enough for the droplet velocity u to be turbulent, or (iii) the coupling terms between the
phases lead to flow instabilities and turbulence [63].
Given the very small length and time scales encountered in disperse two-phase flows,
the direct numerical simulation (DNS) of Eulerian models based on Eq.(2.14) is not affordable
for industrial computations. In recent years, significant effort on disperse-phase
turbulence modeling through Large Eddy Simulation (LES) or Reynolds-averaged (RA)
techniques have been carried out to resolve the latter difficulty. The former technique
consists in spatially filtering governing equations such that only energy containing large
scales of the turbulence are resolved and smaller scales modeled. It has been discussed
in [141, 63, 60, 142] that filtering-based LES formulations are not consistent with the
underlying concepts used in turbulence modeling since they do not provide any statistical
information on unresolved scales. The modeling concept of unresolved scales for disperse
flow is very important since it conditions the flow regime: in LES, the characteristic fluid
timescale used to define the Stokes number St is that of the smallest resolved scales. Because
the resolved timescales in LES are much larger than the Kolmogorov timescales,
the effective Stokes number in LES will be much smaller than in DNS. For this reason the
correct statistical information on unresolved scales is of great importance. The required
statistical consistence is rather obtained through the use of self-conditioned LES formulation
recently presented in [142]. On the other hand, RA techniques consist on averaging2.5 Turbulent disperse flow modeling through Eulerian kinetic based
models 45
an infinite realization of the same flow. Conceptually, this accounts for resolving only the
averaged fields while modeling all fluctuations around them. The small scale interactions
between particles and continuous-phase are modeled through these fluctuations. Moreover,
Stokes number is based on integral time scale much bigger then Kolmogorov time
scale and the time associated to the smallest resolved scale in LES. Therefore, both the
modeling of fluctuations and the energy partitioning should be carefully and accurately
achieved [64]. In case of either LES or RA turbulence modeling through Eulerian kinetic
based methods, there are basically two ideas in the literature:
• (i) turbulence modeling at the kinetic level: it consists of directly applying the adequate
turbulence averaging (i.e. LES self-conditioned or RA ) on Eq.(2.14), providing
appropriate closures at kinetic level. The second step is then to take moments
of turbulent kinetic equation to obtain an Eulerian system.
• (ii) turbulence modeling at macroscopic level: This method is to first derive moment
equations through phase space integration of Eq.(2.14) then apply the turbulence
averaging on the moment system and provide correct closures.
Figure 2.3: Eulerian turbulence modeling through Reynolds-averaging or LES methods
starting from the kinetic level of description. (i) denotes the turbulence modeling at the
kinetic level, whereas (ii) represents turbulence modeling at macroscopic level
In this part, let us give further details on both philosophies. For the sake of clarity, we
take a simplified form of Eq.(2.14) through following assumption: (a) as the unique source
term, the drag force under the Stokes law with constant τd is taken, (b) NDF function is
simplified to f = f (t, x,u) (c) only one spatial dimension is considered for our problem.
Eq.(2.14) is thus reduced to:
∂tf + ∂x (uf) + ∂u
1
τd
(ug − u) f
= 0. (2.28)2.5 Turbulent disperse flow modeling through Eulerian kinetic based
models 46
2.5.1 Turbulence modeling at the kinetic level
Taking the average of Eq.(2.28) gives rise to the following equation
∂t hfi + ∂x (u hfi) + ∂u
1
τd
(hugi − u)hfi
= −
1
τd
∂u
u
′
g
f
′
(2.29)
with the operator h·i denotes either self-conditioned or spatially filtered or RA averaging.
Therefore hfi is a probability density function (PDF) The final term in Eq.(2.29) is
well known in the literature on very dilute gas-particle flows, fluid seen by the particle,
and often modeled by the sum of a spatial flux and diffusion in velocity phase space
[146, 200, 201]
1
τd
u
′
g
f
′
= −µ∂x hfi − λ∂u hfi, (2.30)
for which details on the derivation of the diffusion coefficients µ and λ can be found in the
literature [146, 200, 201, 80, 136]. In theory, these coefficients can be functions of the phase
space variables or fluid-phase random variables. Yet let us point out that, in the context
of isotropic turbulence modeling, these coefficients have been most of the time taken as
constants either in LES or RA contexts [200, 201]. The turbulent kinetic equation closure
through Eq.(2.30) allows us to conduct the second step towards the Eulerian moment
system derivation. We therefore integrate Eq.(2.29) up to the second order in velocity,
yielding the following moment system
∂t hM0i + ∂x hM1i =0, (2.31a)
∂t hM1i + ∂x (hM2i + µ hM0i) = 1
τd
(hM0i hugi − hM1i), (2.31b)
∂t hM2i + ∂x (hM3i + 2µ hM1i)= 2
τd
(hM1i hugi − hM2i) + 2λ hM0i, (2.31c)
with
hMki =
Z
u
k
hfi du. (2.32)
Let us recall that the unknown moment M3 is classically calculated through rigorous
mathematical approximations, from the reconstruction of hfi through its lower order
moments [62]. It is straightforward to observe that the system (2.31) is completely closed,
since the physical modeling problem for the term
u
′
g
f
′
in Eq.(2.29) has been already
resolved through Eq.(2.30) at the kinetic level.
2.5.2 Turbulence modeling at macroscopic level
The second strategy consists of taking either self-conditioned or spatially filtered or RA
averaging of moment system of equation, see references [188, 114, 129, 153, 161] for LES
and [64] for RA modelings. The first step is therefore to take the velocity moments of2.5 Turbulent disperse flow modeling through Eulerian kinetic based
models 47
Eq.(2.28) yielding the system
∂tM0 + ∂xM1=0, (2.33a)
∂tM1 + ∂xM2=
1
τd
(M0ug − M1), (2.33b)
∂tM2 + ∂xM3=
2
τd
(M1ug − M2), (2.33c)
with
Mk =
Z
u
k
fdu. (2.34)
For turbulence modeling, one applies the RA or self-conditioning or spatially filtering
operator directly to the closed moment equation set (2.33) which gives rise to the following
moment system
∂t hM0i + ∂x hM1i=0, (2.35a)
∂t hM1i + ∂x hM2i=
1
τd
hM0i hugi − hM1i +
M′
0u
′
g
, (2.35b)
∂t hM2i + ∂x hM3i=
2
τd
hM1i hugi − hM2i +
M′
1u
′
g
, (2.35c)
where unknown terms
M′
0u
′
g
M′
1u
′
g
should be properly closed.
2.5.3 Concluding remarks
One can appreciate that unknown terms in system (2.35) should be consistent with the
system (2.31) closed through the correlations given by Eq.(2.30). Yet the latter issue is not
straightforward since it is not clear how to make the link between macroscopic variables
in (2.35) and the internal variables of the PDF hfi at the kinetic level [64]. From that
point of view, it is sometimes argued that finding a closure at the kinetic level would
provide more accuracy [63]. Yet In the context of RA models, the necessity of describing
the correct energy partitioning inside the spray requires separate models for the sprayphase
turbulent kinetic energy (TKE), (the spatially correlated large-scale motion), and
the granular-temperature (the spatially uncorrelated small-scale motion) [59, 175]. This
implies that the kinetic closure Eq.(2.30) should involve the TKE which is actually a
Eulerian quantity. Recalling that coefficients µ and λ in Eq.(2.30) are most of the time
considered as constants, such a closure is not obvious for the RA modeling at the kinetic
level.
As contrast to the lack of RA modeling at the kinetic level, the fruitful work done in
[64] has recently shown the potential of RA modeling at the macroscopic level. Through
the Full Eulerian Reynolds averaging of the two-way coupled monodisperse collisional
particles with the gas-phase, some consistent closures has been given in [64]. The correct
energy partition inside the spray has been taking into account thanks to equations on
the spray TKE, the temperature granular and adequate closures validated as compared
to the theory [59, 175]. This method is therefore promising for industrial disperse-phase
turbulence modeling.2.6 Kinetic based Eulerian simulation of polydisperse droplets 48
2.6 Kinetic based Eulerian simulation of polydisperse
droplets
We now focus on kinetic based Eulerian models able to describe both the polydispersity
and the droplets evaporation. The idea is to briefly discuss about each of the several
existing methods along their potential towards ICE applications.
The derivation of some of the Eulerian polydisperse models are done in two steps. The
first step consists of obtaining the semi-kinetic equation system through the integration
in velocity and temperature of WBE and the second step is the derivation of Eulerian
equations through the integration in size of the semi-kinetic system. Yet for the sake of
simplicity, these methods are originally derived, assuming a monokinetic assumption for
the NDF function but higher velocity moments could be considered. This implies that
there are locally unique velocity and temperature for all droplets. It is therefore useful to
first introduce the semi-kinetic modeling concept based on this strong assumption before
discussing about each of relevant polydisperse models.
2.6.1 Semi-kinetic modeling under a monokinetic assumption
We highlight here the main assumptions on the NDF and give its form under an equilibrium
assumption with no dispersion for the velocity and the temperature distribution:
• [H1] For a given droplet size, at a given point (t, x), there is only one characteristic
averaged velocity ud (t, x, S) and one characteristic temperature Td (t, x, S).
• [H2] The dispersion in the distribution function around the mean velocity is zero in
each direction, whatever the point (t, x, S).
• [H3] The dispersion in the distribution function around the mean temperature is
zero in each direction, whatever the point (t, x, S).
It is equivalent to presume the following NDF conditioned by droplet size:
f (t, x, T, S) = n (t, x, S) δ (u − ud (t, x, S)) δ (T − Td (t, x, S)). (2.36)
From this approximation, we can derive a system of moment equations for the spray
taking the moments in velocity of order 0 and 1 and in internal energy e(T) of Equation
(2.14). This gives rise to the semi-kinetic system of equations:
∂tn + ∇x · (nud) = ∂S (Rdn), (2.37a)
∂t (nud) + ∇x · (nud ⊗ ud) = ∂S (Rdudn) + Fd n, (2.37b)
∂t (ned) + ∇x · (nuded) = ∂S (Rdedn) + QdCv,l (Td) n, (2.37c)
with
Rd = RS (t, x,ud, S, Td), Qd = Q (t, x,ud, S, Td), ed = e (Td). (2.38)
Let us recall that the semi-kinetic system, derived from the monokinetic assumption on
the NDF, is weakly hyperbolic since no pressure like dispersion term arises in Eq.(2.37b)2.6 Kinetic based Eulerian simulation of polydisperse droplets 49
and Eq.(2.37c). Therefore, Eulerian methods which will be derived through system (2.37)
will follow this pressure-less formalism. This remark is particularly important since the
pressure-less system is known to generate delta-shocks and do not capture the homo-PTC
[30]. To overcome this difficulties, these polydisperse methods can be coupled to Eulerian
polykinetic approaches [39] which are already presented in part 2.4.
2.6.2 Eulerian polydisperse approach with size sampling
Let us start with the size sampling approach. The size sampling approach [94, 9] also
referred to as Multi-Class method, or Lagrangian-in-size method [131], considers the NDF
as sampled regarding the size variable, yielding I classes of particles of same size, illustrated
in Figure 2.4. The sampling approach is based on the following approximate NDF:
f (t, x, T, S) = X
I
i
Ni (t, x) δ (u − ui (t, x)) δ (S − Si (t, x)) δ (T − Ti (t, x)) (2.39)
where Ni
, Si
, Ti and ui are respectively the droplet number density, size, temperature and
velocity at the location (t, x). With this form, droplets with the same size are gathered
into classes where i is the index of a class: the classes perform a sampling of the NDF over
the whole phase space. The mass, momentum and energy conservation equation for each
Figure 2.4: Size distribution with size sampling approach
class i of the spray is obtained through the integration of Eq.(2.14) in size S, temperature
T and the velocity u. The mass, momentum and heat source terms are evaluated as they
depend on the sampled droplet variables.
The Multi-Class approach can yield a satisfactory representation of the disperse phase
size distribution, prevented that enough classes are considered and that they correspond
to relevant points. Choosing a satisfactory sampling of a given distribution is a classical
problem but here, it is coupled to the question of predicting the correct evolution of the2.6 Kinetic based Eulerian simulation of polydisperse droplets 50
spray, given such a distribution, which is a tough non-linear and implicit problem. So size
samples are often chosen empirically. Moreover, as the approach is discretized regarding
size with Dirac functions, the non-local transport cannot be accounted for properly:
the size evolution due to sources (coalescence, break-up) is poorly rendered due to the
fact that the samples have no particular reasons to match the new sizes. Conversely
this technique is avoided when it comes to modeling discrete size-changing phenomena.
Looking for the accurate evaporation, this method is not adapted for our problem.
2.6.3 Eulerian Multi-fluid model
The Eulerian Multi-Fluid model (MF), also referred to as sectional method, was developed
in [94] to account for the droplet size in a continuous and affordable manner. It is inspired
from the seminal work in [174], furthered in [163, 73]. But the origin and assumptions of
the Multi-Fluid model have been precisely presented in [94]. Based on the mono-kinetic
assumption, the original MF method is at first order in size for the evaporation [93]. Yet
it has been extended to a second order in size for the evaporation through the work of
[93, 40]. Moreover, recent advances in [39] took into account size-velocity correlations for
a rather precise description of hetero-PTC through two size moments. In this part, we
will first focus on the derivation of the original MF, then providing some information on
recent achievements and finally give a brief conclusion about the method.
Figure 2.5: Size distribution with MF method
2.6.3.1 Original MF assumptions and the model derivation
The original MF method is derived, adopting a mono-kinetic velocity and temperature
distribution. Therefore this accounts of working with the same system given through
Eq.(2.37). Yet, Eq.(2.37) has still a size phase-space S dependence.
The Multi-Fluid model relies indeed on the choice of a discretization for the droplet2.6 Kinetic based Eulerian simulation of polydisperse droplets 51
size phase space:
0 = S0 < S1 < · · · < SNsec = ∞ (2.40)
where Nsec is the number of sections. The system of conservation laws is then averaged
over each fixed size interval [Sk−1, Sk[, called section. The set of droplets in one section can
be seen as a “fluid” for which conservation equation are written, the sections exchanging
mass, momentum and energy. The principle of sectional discretization is shown in Figure
2.5 and can be seen as a finite volume method on the size dimension, continuous sizevariation
source terms (e.g. evaporation) resulting in fluxes at the edges of the size cells.
In the following, let us recall the strategy to obtain a closed conservation equation system
for each section through the integration in size of the semi-kinetic system (2.37).
The velocity and the temperature are supposed to be independent of size variable
within each section. Therefore the notation u(t, x, S) = u
(k)
(t, x) is chosen to designate
the constant velocity distribution in section k. Similarly, one introduces presumed
constant distribution within a section as T (t, x, S) = T
(k)
(t, x) which allows to define
the sectional specific heat capacity c
(k)
d = cd,l
T
(k)
. The validity of these assumptions is
linked to the strength of polydispersity in each section, which is quantified in a section
by comparing the smallest to the biggest Stokes numbers. If the dynamic Stokes number
spectrum is too wide, the discretization must then be refined [30, 41, 39] or or size-velocity
coupled high order moments should be used within each section to improve the accuracy
[39, 189].
For the polydispersity treatment, in each section, the form of n as a function of S is
presumed which allows to reduce the size distribution information in each section at (t, x)
to a set of moments of S.
In the original MF method [94], the One-size Moment (OSM) method which consists of
decoupling the contribution in size S from space-time (t, x) dependence by the following
way:
n (t, x, S) = κ
(k)
(S) m
(k)
3/2
(t, x) (2.41)
where κ
(k)
is a function of size S and m
(k)
3/2
is the size moment corresponding to the spray
mass density within the k th section which is expressed as:
m
(k)
3/2
(t, x) = Z Sk
Sk−1
ρl
6
√
π
S
3/2n (t, x, S) dS = 1 (2.42)
which gives us, for the form κ
(k)
in one section:
Z Sk
Sk−1
κ
(k)
(S)
ρl
6
√
π
S
3/2
dS = 1 (2.43)
As mentioned in [94], κ
(k)
(S) is taken as constant in size distribution .
Let us know derive macroscopic MF equations. For the sake of simplicity, the spray
temperature is assumed to be constant and uniform. From where, taking the integration
in
ρl
6
√
π
S
3/2
of the semi-kinetic system (2.37) within a section [Sk+1, Sk[ leads to the2.6 Kinetic based Eulerian simulation of polydisperse droplets 52
following system of conservation equations:
∂tm
(k)
3/2 + ∇x ·
m
(k)
3/2ud
(k)
= −
E
(k)
1 + E
(k)
2
m
(k)
3/2 + E
(k+1)
1 m
(k+1)
3/2
,
(2.44a)
∂t
m
(k)
3/2ud
(k)
+ ∇x ·
m
(k)
3/2ud
(k) ⊗ ud
(k)
= −
E
(k)
1 + E
(k)
2
m
(k)
3/2ud
(k)
+ E
(k+1)
1 m
(k+1)
3/2 ud
(k+1) + m
(k)
3/2F
(k)
d
, (2.44b)
where we define, in the kth section, the averaged velocity
ud
(k) =
1
m
(k)
3/2
Z Sk
Sk−1
ρl
6
√
π
S
3/2ud (t, x, S) n (t, x, S) dS, (2.45)
and the averaged drag term
F
(k)
d =
1
m
(k)
3/2
Z Sk
Sk−1
ρl
6
√
π
S
3/2Fd (t, x, S) n (t, x, S) dS. (2.46)
Expressions for the evaporation terms E
(k)
1
and E
(k)
2
are given as
E
(k)
1 =
5S
3/2
(k−1)
2
h
S
5/2
(k) − S
5/2
(k−1)iRd
S(k−1)
, (2.47)
and
E
(k)
2 =
5
2
h
S
5/2
(k) − S
5/2
(k−1)i
Z S(k)
S(k−1)
3
2
S
1/2Rd (S) dS, (2.48)
2.6.3.2 MF with two size moments per section
Yet the OSM yields a lack of accuracy in terms of the size distribution and requires a
great number of sections to counterbalance its drawback. An accurate method is therefore
needed to capture polydispersity at the compromise of computational cost, but also ease
of implementation and flexibility. Instead of increasing the number of sections, increasing
the number of moments per section is a promising option. The works done in [93, 40]
rely on solving two size moments in each section and the method is referred to as Two
Size Moment (TSM) method. It consists in transporting moments corresponding to both
the number m
(k)
0
and the mass m
(k)
3/2
instead of one unique moment per section. These
moments are expressed as:
m
(k)
0
m
(k)
3/2
!
=
Z Sk
Sk−1
1
ρl
6
√
π
S
3/2
!
n (t, x, S) dS (2.49)2.6 Kinetic based Eulerian simulation of polydisperse droplets 53
The only realizability condition for a couple of size moments
m
(k)
0
, m
(k)
3/2
in a section is
to be positive and to correspond to an average diameter that is in the size interval:
m
(k)
0 > 0 and m
(k)
3/2 > 0
or
m
(k)
0 = m
(k)
3/2 = 0
(2.50a)
ρl
S
k−1
3/2
6
√
π
≤
m
(k)
3/2
m
(k)
0
≤
ρl
S
k
3/2
6
√
π
Respecting this realizability condition, there are several strategies in presuming an appropriate
n. An exponential reconstruction called the exponential TSM (Exp-TSM) MF
method, suggested in [45], was a first method, respecting the realizability condition. It
has been proven to be well suited for evaporation, which requires mass flux information
at the section boundary. The affine TSM (Aff-TSM) MF method is also based on
a two-parameter approximation of the size distribution, through a positive affine function
reconstruction, in each section. An early version was suggested in [93] and its more
efficient extension has been recently proposed in [96].
2.6.3.3 PTC with MF method
As discussed before, droplets of different sizes can have different velocities due to the
correlations between their sizes and velocities which yield to the hetero-PTC. Moreover,
inertial droplets with the same size can have still different velocities, leading to the homoPTC.
Yet TSM method which captures the polydispersity resolution at a second order
accuracy under a lower number of sections than OSM method, is not well adapted for the
modeling of PTC. This is due to the fact that all droplets within a section share the same
velocity and temperature. In [39], this lack of PTC accuracy has been addressed and MF
method has been extended to capture the PTC.
• Hetero-PTC: Inspired from the work of Vi´e et al. [189] originally developed for high
order moment methods (further detailed in section 2.7.6), the approach called Correlated
Size-Velocity Two Size Moment (CSVTSM) method is designed to account
efficiently for size-conditioned dynamics [39]. CSVTSM method, expected to be second
order in size and velocity has been proven to suit well for coalescing cases. Yet
additional to the two size moments transported in the original TSM MF method,
two in 1D, four in 2D and six in 3D velocity moments per section are transported,
having a significant impact on the CPU time.
• Homo-PTC: Inspired from the Kinetic Based Moment Methods (KBMM) [97, 190],
MF extended and applied to moderate-inertia particle-laden flows in order to capture
small scale PTC [187]. The velocity distribution in the NDF function is no longer
taken as a Dirac function but based on an anisotropic Gaussian (AG) distribution
given. MF method under AG distribution is shown to be well-suited to account for
homo-PTC [39, 42]. The method is promising for moderately dense polydisperse
two-phase flows, to treat the portion of coalescing droplets that has a significant
enough inertia.2.6 Kinetic based Eulerian simulation of polydisperse droplets 54
2.6.3.4 Conclusion on MF method
So far in this part, one has discussed the capability of the MF model to capture the
physics of polydisperse evaporating sprays. However, even though this approach has been
extended to be more accurate by Laurent et al. [96] and [40] for evaporating sprays, the
necessity to discretize the size phase space can be a stumbling block. In that context,
the Eulerian Multi-Size Moment (EMSM) method developed in [83, 120, 87] provides to
increase the polydispersity accuracy within each section while diminishing the number of
sections. Yet it has been proven in [87], a very good accuracy under a shorter CPU time
then MF method is obtained even with the use of only one section. More detail on EMSM
method will be given in section 2.7.
2.6.4 High order moment methods through quadrature
approaches
An other way of describing the polydispersity is to track moments of WBE and to use
a quadrature formula to compute the unknown high order size moments as a function of
low order moments of the NDF.
2.6.4.1 Quadrature Method Of Moments (QMOM)
The original QMOM approach consists in transporting and conserving a set of 2Np size
moments M =
M0, . . . , M2Np−1
with Mk (t, x) = R
R+ ξ
k
f (t, x, ξ) dξ [196, 124, 106].
The NDF function is presumed by the following expression:
f (t, x, ξ) = X
Np
i=1
wi (t, x) δ (ξ − ξi (t, x)) (2.51)
with Np is the number of peaks, wi the weights, and ξi the abscissas. Thanks to the
moment-inversion algorithm provided in [123], weights and abscissas are found from the
relation
Mk =
X
Np
i=1
wiξ
k
i
, k ∈ 0, 1, . . . , 2Np − 1. (2.52)
To illustrate the QMOM method, let us work with a rather simplified WBE for the aerosols
transported through the gas velocity ug
∂tf + ∇x · (ugf) = Λ (t, x, ξ) f (t, x, ξ). (2.53)
After the size integrations of Eq.(2.53), the evolution of the kth order size moment is
given by:
∂tMk + ∇x · (Mkug) = Z
ξ
ξ
kΛ (t, x, ξ) f (t, x, ξ) dξ (2.54)
The evolution of the NDF is therefore described by 2Np equations. Yet, The form of the
function Λ can be complex and yields unclosed moments at the right hand side of system2.6 Kinetic based Eulerian simulation of polydisperse droplets 55
(2.54). The strategy adopted in QMOM method is to first reconstruct quadrature points
through Eq.(2.52) and then compute unclosed integral terms as:
Z
ξ
ξ
kΛ (t, x, ξ) f (t, x, ξ) dξ =
X
Np
i
ξ
k
i wi (t, x) Λ (t, x, ξi (t, x)) (2.55)
In particular, from the quadrature formula, the non-conserved moments can be computed
simply:
Mα =
X
Np
i=0
wiξ
α
i
(2.56)
Yet the QMOM has a limitation for practical applications under the spray evaporation
since the continous form of the distribution is required to be well described for an accurate
evaluation of the disappearing flux of droplets at zero size. This is not possible such
an expression given through Eq.(2.52). When using more quadrature nodes, QMOM is
expected to be more and more accurate, the counterpart being a higher cost and a more
difficult moment-inversion.
2.6.4.2 Direct Quadrature Moment of Methods (DQMOM)
This quadrature method has been originally developed for cases where a multi-variate
NDF function is required for WBE [106]. For example, the description of particle trajectory
crossings within the multi-dimensional context requires to consider a velocity
component for each spatial dimension. In order to evaluate its effectiveness in the context
of evaporating polydisperse spray modeling, it has been also compared to the MF method
in [65]. Let us now write down the form of the NDF for the DQMOM derivation as
f (t, x,u, ξ) = X
Np
i
wi (t, x) δ (u − ui (t, x, ξi)) δ (ξ − ξi (t, x)). (2.57)
In this case, instead of transporting moments of the distribution, one transports all abscissas
and weights of quadratures. This implies also transporting Np diracs. The following
Eulerian equation system is given as:
∂twi + ∇x · (wiui) = ai
, (2.58a)
∂t (wiξi) + ∇x · (wiξiui) = bi
, (2.58b)
∂t (wiξiui) + ∇x · (wiξiui ⊗ ui)= ci
, (2.58c)
where source terms (ai
, bi
, ci ) are obtained from WBE, writing conservation equations
on a set of chosen moments. Yet, in [65], it has been demonstrated that the DQMOM approach
shows inaccuracies when it comes to predict droplet evaporations since as QMOM,
it can not capture the pointwise value related to the number of disappearing droplets.
Therefore, it does not provide a solution to our ambition to accurately simulate polydisperse
evaporating droplets. Moreover, it has been proven to be inaccurate for PTC events
for which the CQMOM approach is rather preferred [198].2.6 Kinetic based Eulerian simulation of polydisperse droplets 56
2.6.5 High order moment methods based on the Maximum entropy
NDF reconstruction
A promising alternative to QMOM is to reconstruct, among the infinity of solutions in
the moment space, the unique NDF function, which maximizes the Shannon Entropy
(ME) through its low order moments [125, 173], see Figure 2.6. Yet there are also other
NDF reconstruction choices, like used in the description of aerosol Extended QMOM
(EQMOM): a sum of beta PDF or gamma PDF, with the possibility to degenerate on
quadratures, but sometimes with a loose of the highest moment in the reconstruction
[199].
ME reconstruction technique and its associated numerical strategy for the accurate
evaluation of evaporation dynamics has been proved to be very promising for applications
in relations with polydisperse sprays [120]. Therefore, inspired from the basic assumptions
of MF method [94], the Eulerian Multi Size Moment (EMSM) method has been developed
in [83, 120, 87]. The ability of spray simulations under the unstructured mesh motion
through EMSM has been successfully assessed in [86]. It has been shown in [87] that
EMSM can reach comparable levels of accuracy, with a reasonable space discretization,
with reference to a Lagrangian simulation, while leading to a much lower level of computational
cost compared to the standard MF approach. Let us also mention that a more
recent work called Coupled Size-Velocity Moment (CSVM) method has been developed,
in [190], as an extension model of the EMSM, taking into account size-velocity correlations
in the spray. In [190], a tabulation technique has been also developed to decrease
significantly the CPU time associated to size moment reconstruction.
Figure 2.6: Reconstruction of the size distribution through entropy maximisation (red
dashed line), the real size distribution (black solid line).2.7 Eulerian Multi-Size Moment (EMSM) method 57
2.7 Eulerian Multi-Size Moment (EMSM) method
It has been previously shown that, although the MF method offers an accurate resolution
for the evaporating polydisperse spray, the necessity to discretize the size phase space,
making use of several sections, requires to transport a system of governing equations for
each section, thus increasing the CPU time. Let us recall that the computational time can
be decreased through the use of a two-size moment MF method, while maintaining a good
accuracy on the size distribution. Yet still more than one section is required. In [120], a
four-size moment MF method has been developed, leading a very good accuracy both in
case of only two and even one size section. Since one section is enough to capture accurately
the polydisperse evaporating spray, this one-section technique has been adopted in
developing the high order moment method, called Eulerian Multi-Size Moment (EMSM)
method as already presented to be accurate in part 2.6.5, while providing lower CPU
time. In the reminder of this section, let us go into details of the EMSM method with
four-size moments1
. Firstly, its derivation strategy will be given. Then the bottleneck
points in working with several size moments along with the associated realizability condition
will be point out. Afterwards, we will discuss about dedicated numerical schemes
developed in the literature and recent fruitful realizations. Then, one will briefly discuss
about the recent work initiated from the basis of EMSM to capture the hetero-PTC. Finally,
its implementation in the industrial code IFP-C3D as well as required developments
towards ICE applications will be discussed. The latter aspect will guide the reader for
the remaining chapters of the present manuscript.
2.7.1 Derivation of EMSM
As was the case for MF method, the EMSM method is also based on a mono-kinetic
assumption for both the temperature and the velocity distribution. Yet deriving a size
moment system at macroscopic (Eulerian) level is rather different in EMSM compared to
MF since the size distribution function n is kept smooth and following assumptions are
done:
ud (t, x, S) = ud (t, x), Td (t, x, S) = Td (t, x). (2.59)
For the sake of simplicity, let us now take RS in Equation (2.14) as a constant, so that
RS = Rd, and neglect the heat transfer term Q = 0. One first takes the moments of
Eq.(2.37a) in size of order 0 up to 3. Then one takes the size moment of order one of
Eq.(2.37b). Then the governing equations are given as:
∂tm0 + ∇x (m0ud) = −Rdn (S = 0), (2.60a)
∂tm1 + ∇x (m1ud) = −m0Rd, (2.60b)
∂tm2 + ∇x (m2ud) = −2m1Rd, (2.60c)
∂tm3 + ∇x (m3ud) = −3m2Rd, (2.60d)
∂t (m1ud) + ∇x
m1ud
2
= −Rdm0ud +
18π
ρ
µgm0(ug − ud). (2.60e)
1EMSM can also be used in the context of a size discretization in each section as a hybrid approach
making the link between Multi-Fluid and high order moment method [189]2.7 Eulerian Multi-Size Moment (EMSM) method 58
with
mk =
Z Smax
0
S
kn (t, x, S) dS, (2.61)
and the unclosed term n (S = 0) represents the number of disappearing droplets due to
evaporation. Smax is the maximum size of the distribution. The system (2.60) has been
investigated in [83, 120, 87] from both modeling and numerical point of view. The realizability
issue is raised as the moment space in which the moment vector lives is a convex
subspace of (R+)
4 but with a quite complex shape, as explained in part 2.7.2. Numerical
methods (e.g. transport schemes) must be carefully developed to avoid approximations
of the moment vector that would be out of the moment space, resulting in failure of the
simulation.
Phenomena involved in (2.60) (i.e, evaporation and convection) can be decoupled
through an operator splitting approach [102]. Therefore, the subsystem that represents
the evolution due to the evaporation and Stokes drag is given as:
∂tm0 = −Rdn (S = 0), (2.62a)
∂tm1 = −m0Rd, (2.62b)
∂tm2 = −2m1Rd, (2.62c)
∂tm3 = −3m2Rd, (2.62d)
∂t (m1ud) = −Rdm0ud +
18π
ρ
µgm0(ug − ud), (2.62e)
whereas the one for the convection is expressed as:
∂tm0 + ∇x (m0ud) = 0, (2.63a)
∂tm1 + ∇x (m1ud) = 0, (2.63b)
∂tm2 + ∇x (m2ud) = 0, (2.63c)
∂tm3 + ∇x (m3ud) = 0, (2.63d)
∂t (m1ud) + ∇x
m1ud
2
= 0. (2.63e)
For the numerical resolution of both (2.62) and (2.63), the main issue is to keep the
integrity of moment set at anytime of the computation. An appropriate closure for the
term n (S = 0) in Eq.(2.62a) and an accurate evolution of moments mk through (2.62a)-
(2.62d) due to evaporation require particular numerical strategy which will be detailed in
part 2.7.4.1. The resolution of the pressure-less system (2.63) will be explained in section
2.7.4.2.
2.7.2 Moment space issue
The major challenge for numerical methods designed for evaporation and transport is to
keep the integrity of the moment vector m , i.e to ensure that m = (m0, m1, . . . , m3)
t
belongs to the moment space at any time of the resolution process. Yet, even if the
moment space M3
(0, Smax) where lies the size moment vector m is convex, it has a
complex geometry in the semi-open space (R
+)
3
[120]. A simpler space can be determined
by using the canonical moments [38]. The geometry of the space of the canonical moments2.7 Eulerian Multi-Size Moment (EMSM) method 59
vectors is much more simpler than the one of the moments since it is then the cube [0, 1]3
.
It is therefore interesting to know their expressions. Let us right down the first four
canonical moments:
p0 = 1, (2.64a)
p1 =
m1
Smaxm0
, (2.64b)
p2 =
m0m2 − m2
1
m1 (Smaxm0 − m1)
, (2.64c)
p3 =
(Smaxm0 − m1) (m1m3 − m2
2
)
Smax (m0m2 − m2
1
) (Smaxm1 − m2)
. (2.64d)
So the actual moments read:
m1 = m0p1Smax, (2.65a)
m2 = m0p1S
2
max [(1 − p1) p2 + p1] , (2.65b)
m3 = m0p1S
3
max
(1 − p1) (1 − p2) p2p3 + [(1 − p1) p2 + p1]
2
. (2.65c)
The canonical moments are then very useful in order to check the belonging to the moment
space and design numerical schemes for system (2.62) and (2.63). The Hausdorff finite
moment problem for the moments m is : finding a positive real valued function ˜n defined
on [0, Smax] such that:
m =
Z Smax
0
1
S
.
.
.
S
N
n˜ (m, S) dS (2.66)
Yet if m belongs to the interior of M3
(0, Smax), there is an infinity of solutions. Let us
recall that similar problems were tackled in different ways in the context of MF methods,
previously introduced in section 2.6.3. In the case of MF-OSM [94], the positivity of only
one size moment is enough to stay in the moment space, whereas for the case of MF-TSM
[93, 45], the preservation of the moment space is conditioned through a more restrictive
law given through (2.50).
In the following, some reconstructions are introduced for an arbitrary number of moments
in relation with the structure of the moment space.
2.7.3 NDF Reconstruction through an arbitrary number of moments
In this part, one will discuss about available techniques for NDF reconstruction through
its moments.
Etude des facteurs de pertinence dans la recherche de ´
microblogs.
Firas Damak
To cite this version:
Firas Damak. Etude des facteurs de pertinence dans la recherche de microblogs.. Information ´
Retrieval. Universit´e Paul Sabatier, 2014. French.
HAL Id: tel-01074732
https://tel.archives-ouvertes.fr/tel-01074732
Submitted on 15 Oct 2014
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of scientific
research documents, whether they are published
or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destin´ee au d´epˆot et `a la diffusion de documents
scientifiques de niveau recherche, publi´es ou non,
´emanant des ´etablissements d’enseignement et de
recherche fran¸cais ou ´etrangers, des laboratoires
publics ou priv´es.THESE
`
En vue de l’obtention du
DOCTORAT DE L’UNIVERSITE DE TOULOUSE ´
D´elivr´e par : l’Universit´e Toulouse 3 Paul Sabatier (UT3 Paul Sabatier)
Pr´esent´ee et soutenue le 15/07/2014 par :
Firas Damak
Etude des facteurs de pertinence dans la recherche de microblogs. ´
JURY
Claude CHRISMENT Professeur, Université Toulouse 3 Pr´esident du Jury
Patrice BELLOT Professeur, Aix-Marseille Université Rapporteur
Patrick GALLINARI Professeur, Université Pierre et Marie Curie Rapporteur
Brigitte GRAU Professeur, ENSIIE Examinatrice
Christian SALLABERRY MCF/HDR, UPPA Examinateur
Mohand BOUGHANEM Professeur, Université Toulouse 3 Directeur
Guillaume CABANAC MCF, Université Toulouse 3 Co-encadrant
Karen PINEL-SAUVAGNAT MCF, Université Toulouse 3 Co-encadrante
Ecole doctorale et sp ´ ´ecialit´e :
MITT : Image, Information, Hypermedia
Unit´e de Recherche :
Institut de Recherche en Informatique de Toulouse (UMR 5505)
Directeur(s) de Th`ese :
Mohand BOUGHANEM, Guillaume CABANAC et Karen PINEL-SAUVAGNAT
Rapporteurs :
Patrice BELLOT et Patrick GALLINARI2Du plus profond de mon cœur, je dédie ce travail,
À Mes parents Ridha et Sabeh Pour lesquels j’exprime mon amour et
ma gratitude pour leur sacrifice et leur soutien moral. Ils n’ont eu de cesse
de m’encourager et de m’offrir des conditions favorables durant la période
de mes études. Que DIEU leur préserve une bonne vie.
À Mes frères Farah et Mehdi Qu’ils trouvent dans ce travail
l’expression de ma reconnaissance en leur souhaitant un avenir plein
de succès et de bonheur.
À Ma meilleure amie Ines Pour son soutien moral et pour
les moments inoubliables que nous avons passés ensemble tout au long de ces
années.
À Toute personne qui m’a soutenu moralement durant la réalisation de ce
mémoire, En témoignage de ma fidélité et mon attachement en leur
souhaitant toute la joie et le bonheur du monde. . .4Remerciements
Il m’est agréable de manifester ici toute ma gratitude à tous ceux et à
toutes celles qui m’ont aidé de près ou de loin, afin d’aboutir au couronnement
de quatre années de travail et de labeur. Toutefois je ne peux
me permettre d’omettre de citer les honorables personnes auxquelles
j’adresse ma modeste reconnaissance. Il s’agit de Monsieur Mohand Boughanem,
Mme Karen Pinel-Sauvagnat et Monsieur Guillaume Cabanac,
qui m’ont été d’un grand apport durant les moments les plus difficiles
et ont atténué le poids du dépaysement. Elles m’ont permis de surpasser
des périodes difficiles et ont fait renaître en moi la volonté d ’aller de
l’avant et de continuer mon chemin vers la réussite.
Je remercie chaleureusement Monsieur Claude Chrisment, Monsieur Christian
Salaberry, Madame Brigitte Grau, Monsieur Patrick Gallinari et
Monsieur Patrice Bellot d’avoir accepté de juger ce travail.
Mes vifs remerciements s’adressent également à tous mes amis de l’IRIT
qui m’ont prêté main forte pour la réalisation du projet : Mădălina,
Dana, Ali, Mohamed, Rafik, Bilel, Lamjed, Arlind, Laure Eya, Ismail.
Je tiens à remercier mes amis quotidiens de Toulouse : Faeiz, Bou7a,
Marwa, Amine, Yessine, Faty, Sameh, Khouloud, Sami et Cycy.
Enfin, je souhaite remercier toute ma famille et mes amis en Tunisie.
i6Résumé
Notre travail se situe dans le contexte de recherche d’information (RI) sociale et
s’intéresse plus particulièrement à la recherche de microblogs. Les microblogs sont
des messages de faible longueur à travers lesquels les utilisateurs publient des informations
sur différents sujets : des opinions, des événements, des statuts... Les
microblogs occupent aujourd’hui une part considérable de l’information générée sur
le web. Dans Twitter, la plate-forme de microblogging la plus populaire, le nombre
de microblogs par jour peut atteindre 500 millions. Les microblogs ont une forme
différente des traditionnels documents. Leur taille est réduite par rapport aux blogs
et aux articles publiés sur le web (140 caractères pour Twitter). De plus, les microblogs
peuvent contenir une syntaxe spécifique telle que les #hashtags, les @citations
ou bien encore des URLs. Les plateformes de microblogging représentent également
un modèle de réseau social différent des autres réseaux sociaux. Les relations entre
les utilisateurs ne sont pas forcément réciproques et les abonnements sont sans restrictions
entre microbloggeurs.
Les utilisateurs de plateformes de microblogging, outre la publication de microblogs,
effectuent également des recherches. Les motivations de ces recherches sont
diverses. Certaines sont similaires à la recherche sur le web (comme par exemple
la recherche d’actualités), et d’autres sont spécifiques à la recherche de microblogs
(comme par exemple la recherche temps réel ou d’informations sociales). Dans Twitter,
1,6 milliards de requêtes sont ainsi émises chaque jour.
Les modèles de RI doivent s’adapter aux spécificités des microblogs : fraîcheur,
aspect social et spécificités syntaxiques doivent ainsi être pris en compte. C’est
dans ce contexte de recherche d’information dans les microblogs que se situent plus
particulièrement nos travaux. Nous nous plaçons plus précisément dans le cadre de
la recherche adhoc. L’objectif est de retrouver les microblogs répondant à un besoin
d’information spécifié par un utilisateur.
Nos travaux visent à améliorer la qualité des résultats de recherche d’information
adhoc dans les microblogs. Nos contributions se situent à plusieurs niveaux :
-Afin de déterminer exactement les facteurs limitant les performances des modèles
de recherche classiques dans un corpus de microblogs, nous avons mené à une
analyse de défaillance d’un modèle de recherche usuel. Nous avons sélectionné les
7RÉSUMÉ
microblogs pertinents mais non retrouvés par le modèle de recherche. Ensuite, nous
avons identifié les facteurs empêchant leur restitution. Nous avons trouvé que le problème
principal vient de la concision des microblogs. Cette concision engendre une
correspondance limitée entre les termes des microblogs et les termes des requêtes,
même s’ils sont sémantiquement similaires.
-Afin de compenser l’impact de la concision des microblogs, nous avons proposé
et testé plusieurs solutions. Nous avons proposé d’étendre les requêtes (i) en exploitant
des ressources de type actualités, (ii) en utilisant la base lexicale Wordnet, (iii)
en applicant des techniques de réinjection de pertinence de l’état de l’art qui ont
souvent prouvé leur efficacité : Rocchio pour identifier les termes susceptibles de ramener
la pertinence ainsi que pour la pondération des termes de la nouvelle requête,
et le mécanisme naturel d’extension de requêtes du modèle BM25. Dans Rocchio,
nous avons testé différentes méthodes de calcul de poids de termes d’expansion.
Nous avons enfin étendu les microblogs grâce aux liens (URLs) qu’ils contiennent.
Nos expérimentations ont montré que l’emploi des URLs et l’expansion de requêtes
sont primordiales pour la RI dans les microblogs. La plupart de ces expérimentations
(expansion de requêtes et de microblogs) ont été réalisées en se basant sur le modèle
vectoriel et sur le modèle probabiliste comme modèle de restitution. Ceci nous
a permis de comparer les comportements des deux modèles sur les microblogs et
avec les deux types d’expansion. De manière générale, nous avons trouvé que le modèle
vectoriel est plus performant que modèle probabiliste au niveau de la sélection
des microblogs pertinents (meilleur rappel). Cependant, le modèle probabiliste met
plus en valeur les microblogs pertinents restitués par rapport à tous les microblogs
restitués (meilleure précision).
-Un deuxième volet de notre travail concerne l’étude des critères utilisés pour
identifier les microblogs pertinents. Nous avons repris les critères souvent utilisés
dans l’état de l’art (critères de contenu, critères sur l’importance des auteurs, critères
sur les URLs) et nous les avons évalués. Nous avons réalisé cette analyse selon 3
axes. Dans le premier axe, nous avons analysé l’impact de la combinaison des scores
des critères avec le score de pertinence du contenu, calculé avec un modèle de RI
usuel. Dans le deuxième axe, nous avons étudié le comportement des critères dans
les documents pertinents et les avons comparés avec leurs comportements dans les
documents non pertinents. Dans le troisième axe, nous avons utilisé des techniques
d’apprentissage ainsi que des algorithmes de sélection de critères qui peuvent être
utiles en entrée de ces techniques d’apprentissages. De manière générale, nous avons
montré que les critères en relation avec les URLs publiées dans les tweets sont les
plus discriminants. Les critères liés aux auteurs ne reflètent pas la pertinence.
-Afin de prendre en compte l’aspect temporel dans la restitution des microblogs
pertinents vis-à-vis d’un besoin d’information, nous avons proposé trois méthodes
qui intègrent le temps dans le calcul de la pertinence. Cette intégration du temps
8RÉSUMÉ
n’a cependant pas montré son intérêt dans nos méthodes.
Pour réaliser nos expérimentations, nous nous sommes basés sur le corpus fourni
par la campagne d’évaluation internationale TREC (Text Retrieval Conference) dans
la tâche Microblogs des années 2011 et 2012. Nos différentes contributions ont également
fait l’objet de participations aux trois tâches de Microblogs de TREC (2011,
2012 et 2013).
9Abstract
This work deals with the context of social information retrieval (IR), more particularly
the retrieval of microblogs. Microblogs are messages of short length. They
contain information on various topics :opinions, events, articles... Microblogs represent
a significant part of the information generated on the Web. In the case of
Twitter, the most popular platform, the number of microblogs can reach 500 million
per day. Microblogs have a different form from traditional documents. Their
length is reduced compared to traditional blogs and articles on the web (only 140
characters in the case of Twitter). Moreover, microblogs can have specific syntax
such as #hashtags, @mentions or shortened URLs... Microblogging platforms are
a social network model different from other social networks. Relationships between
users are not necessarily reciprocal and subscriptions are unrestricted between microbloggers.
Users of microblogging platforms do not only produce but they also
search for information. The motivations of this research are diverse. Some are inspired
from Web search (e.g. the search for news) and others are specific to the search
for microblogs (e.g. real-time search or social information). In Twitter, 1.6 billion
queries are issued every day. Though, the IR models must adapt to the specificities
of microblogs : freshness, social aspect and syntactic characteristics must therefore
be taken into account. The aim of our work is to improve the quality of the results of
adhoc information retrieval in microblogs. Our contributions are at several levels :
- In order to accurately determine the factors limiting the performance of conventional
models of search in a corpus of microblogs, we conducted an analysis of failure
of a conventional model search. We selected relevant microblogs. However, they are
not found by the search pattern. Then, we identified the factors preventing their
return. We found that the main problem is the shortness of microblogs.
- To offset the impact of the shortness of microblogs, we proposed and tested
several solutions : to extend the queries by (i) exploiting news articles, (ii) using
the WordNet lexical database, (iii) applying techniques of relevance feedback of the
state of art which often proved effective : Rocchio to identify terms likely to bring
relevance and for weighting the terms of the new query, and the natural extension
mechanism queries of the BM25 model. Using Rocchio, we tested different methods
of calculating the weight of expansion terms. We finally extended microblogs thanks
10ABSTRACT
to the links (URLs) they contain. Our experiments have shown that the use of
URLs and the expansion of the query are crucial for IR in microblogs. Most of these
experiments (expansion of queries and microblogs) were performed on the basis of
the vector model and the probabilistic model, as a model of restitution. This allowed
us to compare the behavior of the two models on microblogs and with the two types
of expansion. In general, we found that the Vector Space Model is more efficient than
the probabilistic one in the selection of relevant microblogs (better recall). However,
the probabilistic model puts more value on relevant microblogs returned over all
returned microblogs (better precision).
- A second part of our work is concerned with the study of the features used
to identify relevant microblogs. We selected the features often used in the state of
art (content features, features on the importance of authors, URLs features and
quality features).Then, we evaluated them. We conducted this analysis in 3 axes. In
the first axis, (i) we studied the behavior of the features in the relevant documents
and compared them with their behavior in non-relevant documents. In the second
axis, (ii) we analyzed the impact of the combination of the features scores with
the content’s score, calculated with a model of conventional IR. In the third axis,
(iii) we used learning techniques as well as algorithms of feature selection that may
be useful as input to the learning techniques. In general, we have shown that the
features related to URLs posted in tweets are the most discriminating. The features
related to the authors do not reflect the relevance.
- To take into account the temporal aspect when selecting relevant microblogs, we
have proposed three methods that incorporate time in the calculation of relevance.
However, this integration of time did not show any positive impact in our methods.
To perform our experiments, we used the corpus provided by TREC (Text Retrieval
Conference) international survey in the task Microblogs for the years 2011
and 2012. Our various contributions have also been the subject of participations for
the three tasks of Microblogs TREC (2011, 2012 and 2013).
11ABSTRACT
12Table des matières
Résumé 7
Abstract 10
Table des matières 13
Table des figures 17
Liste des tableaux 19
Introduction 1
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
3 Problématiques de la RI dans les microblogs . . . . . . . . . . . . . . 4
4 Présentation des contributions . . . . . . . . . . . . . . . . . . . . . . 6
5 Organisation du mémoire . . . . . . . . . . . . . . . . . . . . . . . . . 7
1 RI Sociale 11
1 Information sociale dans le web . . . . . . . . . . . . . . . . . . . . . 12
1.1 Contenus générés par les utilisateurs (UGC) . . . . . . . . . . 12
1.2 Contenus générés par la pratique . . . . . . . . . . . . . . . . 14
2 RI : historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1 Processus de RI . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Modèles de RI . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3 Utilisation des informations sociales en RI :
RI sociale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.1 Côté utilisateur . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2 Côté documents . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
13TABLE DES MATIÈRES
2 RI dans les microblogs 35
1 Présentation et spécificités des plate-formes de microblogging : cas de
Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
1.1 Présentation générale de Twitter . . . . . . . . . . . . . . . . 36
1.2 Spécificités des microblogs . . . . . . . . . . . . . . . . . . . . 41
1.3 Spécificités des recherches dans les microblogs . . . . . . . . . 43
2 Accès à l’information dans les microblogs . . . . . . . . . . . . . . . . 45
2.1 Recherche temps-réel de microblogs . . . . . . . . . . . . . . . 45
2.2 Recherche de microbloggeurs . . . . . . . . . . . . . . . . . . . 46
2.3 Détection d’opinions . . . . . . . . . . . . . . . . . . . . . . . 47
2.4 Classification thématique des microblogs . . . . . . . . . . . . 48
2.5 Détection de tendances . . . . . . . . . . . . . . . . . . . . . . 48
3 Recherche adhoc de microblogs . . . . . . . . . . . . . . . . . . . . . 49
3.1 Facteur de pertinence textuelle . . . . . . . . . . . . . . . . . 50
3.2 Facteur de pertinence social . . . . . . . . . . . . . . . . . . . 51
3.3 Facteur de pertinence temporelle . . . . . . . . . . . . . . . . 52
3.4 Facteur de pertinence d’hypertextualité . . . . . . . . . . . . . 53
3.5 Autres facteurs de pertinence . . . . . . . . . . . . . . . . . . 54
3.6 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4 Évaluation de la RI dans les microblogs . . . . . . . . . . . . . . . . . 55
4.1 La tâche TREC Microblog . . . . . . . . . . . . . . . . . . . . 55
4.2 Discussion sur les mesures d’évaluation . . . . . . . . . . . . . 57
5 Bilan et limites de l’état de l’art . . . . . . . . . . . . . . . . . . . . . 58
3 Analyse de défaillance des modèles de RI classique sur les microblogs
61
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
2 Méthodologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3 Expérimentations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.1 Cadre expérimental . . . . . . . . . . . . . . . . . . . . . . . . 62
3.2 Observations . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4 Expansion de requêtes et de documents 71
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
2 Expansion de requêtes . . . . . . . . . . . . . . . . . . . . . . . . . . 71
2.1 Exploitation des articles d’actualités . . . . . . . . . . . . . . 72
2.2 Exploitation de la base lexicale WordNet . . . . . . . . . . . . 74
2.3 Suggestions orthographiques . . . . . . . . . . . . . . . . . . . 75
2.4 Réinjection de pertinence . . . . . . . . . . . . . . . . . . . . . 76
14TABLE DES MATIÈRES
3 Expansion de microblogs . . . . . . . . . . . . . . . . . . . . . . . . . 80
3.1 Expansion de hashtags dans les tweets . . . . . . . . . . . . . 80
3.2 Emploi des URLs . . . . . . . . . . . . . . . . . . . . . . . . . 81
4 Expansion de requêtes et de documents . . . . . . . . . . . . . . . . . 82
5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5 Analyse des facteurs de pertinence 89
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
2 Description des facteurs de pertinence . . . . . . . . . . . . . . . . . . 90
2.1 Facteurs de pertinence basés sur le contenu des tweets . . . . . 90
2.2 Facteurs de pertinence basés sur l’hypertextualité . . . . . . . 91
2.3 Facteurs de pertinence basés sur les hashtags . . . . . . . . . . 91
2.4 Facteurs de pertinence basés sur la popularité
des auteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
2.5 Facteurs de pertinence relatifs à la qualité des tweets . . . . . 92
3 Méthodologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
3.1 Étude de la distribution des scores . . . . . . . . . . . . . . . 93
3.2 Étude par la combinaison linéaire des scores . . . . . . . . . . 93
3.3 Étude avec les techniques de sélection d’attributs . . . . . . . 94
4 Expérimentations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.1 Étude par la distribution des scores . . . . . . . . . . . . . . . 94
4.2 Étude par la combinaison linéaire des scores . . . . . . . . . . 98
4.3 Étude avec les techniques de sélection d’attributs . . . . . . . 104
5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
6 Prise en compte du temps dans la recherche de microblogs 111
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
2 Emploi de la fraîcheur dans la restitution
des microblogs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
2.1 Favoriser des tweets récents . . . . . . . . . . . . . . . . . . . 112
2.2 Favoriser les termes récents . . . . . . . . . . . . . . . . . . . 113
2.3 Observations . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
3 Prise en compte de la fréquence temporelle . . . . . . . . . . . . . . . 117
4 Analyse requête par requête . . . . . . . . . . . . . . . . . . . . . . . 118
5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
7 Conclusion générale 123
Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
15TABLE DES MATIÈRES
16Table des figures
1.1 Processus en U de la recherche d’information . . . . . . . . . . . . . 16
1.2 Catégorisation des modèles de RI (Baeza-Yates et Ribeiro-Neto, 1999) 20
1.3 Exploitation de l’information sociale dans la RI . . . . . . . . . . . . 28
1.4 Résultats à partir du cercle social dans Google . . . . . . . . . . . . . 31
1.5 Recommandation de profils expert sur le sujet recherché sur Bing . . 31
2.1 L’interface graphique utilisateur de Twitter . . . . . . . . . . . . . . . 38
2.2 Informations des comptes utilisateurs sur Twitter . . . . . . . . . . . 39
2.3 Exemple d’utilisation de Twitter (avec tweets, retweets, abonnements
et hashtags) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.4 Notification sur l’apparition de nouveaux résultats dans Twitter . . . 40
2.5 Tweet posté par @florencesantrot contenant une image et des hashtags
(#Apple #iphone6cost1k). Il a été retweeté sept fois et favori une fois. 42
2.6 Suggestion de différents type de résultats dans le moteur de recherche
de Twitter : des mots-clés, des hashtags, des comptes utilisateurs sont
présentés. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.7 Les réseaux constituables à partir des données de Twitter . . . . . . . 52
2.8 Exemple de topic pour la tâche Microblog . . . . . . . . . . . . . . . 57
3.1 Répartition des tweets pertinents restitués avec le modèle vectoriel
par rapport à tous les tweets pertinents connus pour chaque requête
de 2011 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.2 Répartition des tweets pertinents restitués avec le modèle vectoriel
par rapport à tous les tweets pertinents connus pour chaque requête
de 2012. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.1 Distribution des scores des tweets pertinents et des tweets non pertinents
(requêtes de 2011 à gauche et celles de 2012 à droite). . . . . . 97
17TABLE DES FIGURES
6.1 Distribution temporelle des tweets pertinents et non pertinents pour
les requêtes de TREC Microblog 2012. Les rectangles représentent les
tweets pertinents tandis que les losanges représentent les tweets non
pertinents. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
18Liste des tableaux
2.1 Nombre de requêtes par jours (en milliard). Chiffres obtenus du site
http://statisticbrain.com . . . . . . . . . . . . . . . . . . . . . . 37
2.2 Critères de pertinence . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.1 Récapitulatif des différents facteurs limitant l’efficacité du modèle de
recherche sur les microblogs . . . . . . . . . . . . . . . . . . . . . . . 68
4.1 Emploi des articles de type actualité pour l’expansion de requêtes
(avec et sans pondération des termes d’expansion, 1500 résultats par
requête). Un astérisque indique une amélioration significative par rapport
à la baseline. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.2 Récapitulatif des différents runs testés sans pondération des termes
ajoutés aux requêtes. . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.3 Test de l’amélioration des performance via la correction orthographique
des requêtes. . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.4 Expansion de la requête initiale avec Rocchio. Les poids des termes
d’expansion sont calculés avec TF.IDF. Un astérisque indique une
amélioration significative par rapport à la baseline. . . . . . . . . . . 77
4.5 Expansion de la requête initiale avec Rocchio. Les poids des termes
d’expansion sont calculés avec BM25. Un astérisque indique une amé-
lioration significative par rapport à la baseline. . . . . . . . . . . . . . 77
4.6 Différentes configurations du modèle BM25. * montre une amélioration
significative par rapport à configuration de base (run BM25). . . 78
4.7 Résultats après l’expansion de hashtags, avec le modèle vectoriel et
le modèle BM25 (sans et avec paramétrage). . . . . . . . . . . . . . . 81
4.8 Apport de l’emploi des URLs avec le modèle vectoriel et le modèle
BM25. * montre une amélioration significative par rapport au run
précédent. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.9 Emploi des tweets et des URLs et expansion de requêtes uniquement à
partir des tweets.* montre une amélioration significative par rapport
au run précédent. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
19LISTE DES TABLEAUX
4.10 Emploi des tweets et des URLs pour l’expansion et pour la restitution.
* montre une amélioration significative par rapport au run précédent. 84
4.11 Résultats des meilleurs runs avec les tweets hautement pertinents. . . 86
4.12 Comparaison avec les résultats officiels de TREC 2012 . . . . . . . . 86
4.13 Emploi des tweets pour l’expansion et des tweets et des URLs pour
la restitution sur les topics de TREC 2011. . . . . . . . . . . . . . . . 86
4.14 Comparaison avec les résultats officiels de TREC 2011 . . . . . . . . 87
5.1 Apport de chaque facteur de pertinence par rapport au modèle vectoriel
(baseline VSM). . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.2 Apport de chaque groupe de facteurs de pertinence et de leurs combinaisons
par rapport modèle vectoriel (baseline VSM). . . . . . . . . 100
5.3 Comparaison avec les résultats officiels de TREC 2011 . . . . . . . . 101
5.4 Apport des facteurs de pertinence pour le cas général. . . . . . . . . . 102
5.5 Apport des groupes de facteur de pertinence et de leurs combinaisons
pour le cas général. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.6 Critères sélectionnés avec les techniques de sélection d’attributs . . . 106
5.7 Résultats (P@30), les scores en gras indiquent des améliorations significatives
par rapport à la baseline . . . . . . . . . . . . . . . . . . 107
6.1 Amplification des scores de pertinence de contenu en fonction de leur
fraîcheur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
6.2 Amplification des scores des termes en fonction de leur fréquence
d’apparition dans le temps . . . . . . . . . . . . . . . . . . . . . . . . 114
6.3 Prise en compte de la fréquence temporelle. . . . . . . . . . . . . . . 118
6.4 Requêtes améliorées sur la mesure MAP pour les 3 méthodes . . . . . 119
20Introduction
1 Introduction
Le web, créé au début des années 1990 et initialement composé de pages statiques
reliées entre elles par des hyperliens, s’est rapidement orienté vers un cadre beaucoup
plus collaboratif, dans lequel tous les internautes consultent, créent, partagent et
diffusent de l’information.
Ce changement est dû à la mise à disposition des internautes de plusieurs outils
collaboratifs : les blogs, les wiki (Wikipedia en 2001) et les plate-formes sociales
(Facebook en 2004 et Twitter en 2006), où les internautes ne se limitent plus à la
consommation, mais contribuent également à la production des contenus.
Ces outils prennent souvent la forme de réseaux sociaux qui se caractérisent par un
ensemble d’entités, telles que des individus ou des organisations, qui sont reliées par
des liens, d’amitié ou d’abonnement, permettant l’interaction sociale entre elles.
Des quantités de contenus, toujours plus volumineuses, sont de ce fait créées
tous les jours. Ce nouveau contexte de diffusion de l’information peut constituer un
moyen efficace pour cerner les besoins en information des utilisateurs du Web, et
permettre à la Recherche d’Information (RI) de mieux répondre à ces besoins. Les
Systèmes de Recherche d’Information (SRI) doivent ainsi s’adapter aux nouvelles
exigences et nécessités des utilisateurs, et aux spécificités de ces nouvelles sources
d’informations.
La prise en compte de ces informations sociales dans la restitution d’informations
a engendré un nouveau paradigme de recherche : la RI sociale. Elle consiste à adapter
les modèles et les algorithmes de la RI classique en exploitant les informations
sociales développées avec l’arrivée du web 2.0.
2 Contexte
Notre travail se situe dans le contexte de la recherche d’information sociale et
s’intéresse plus particulièrement à la recherche de microblogs. Les microblogs sont
des messages de faible longueur à travers lesquels les utilisateurs publient des informations
sur différents sujets : des opinions, des événements, des statuts. . . Les micro-
1INTRODUCTION
bloggeurs (les internautes qui publient des microblogs) utilisent des plate-formes de
microblogging pour cette pratique. Parmi les plate-formes de microblogging, Twitter
1
est sans conteste la plate-forme la plus utilisée. Ces plate-formes sont de plus
en plus exploitées (Kwak et al., 2010), aussi bien par des individus à titre personnel
que dans des organisations, qui génèrent à travers les messages qu’ils écrivent et les
liens qu’ils mettent en place des quantités importantes d’information. Nous pouvons
nous référer, pour montrer l’importance de la quantité d’information publiée sur ces
plate-formes, au 3 août 2013 lors d’une diffusion du dessin animé Castle in the Sky
de Miyazaki 2
: 143 199 tweets ont été envoyés la même seconde. Cet événement avait
cependant été préparé auparavant par les fans de Miyazaki. Ce jour-la, un record de
500 millions de tweets par jour est noté sur Twitter 3
.
Les approches de RI classiques, élaborées pour traiter les documents traditionnels
ou des documents de type page Web et qui se basent principalement sur le contenu
textuel des documents et sur des statistiques des fréquences de termes, ne sont plus
adaptées aux spécificités de cette nouvelle forme de contenu. Pour valoriser au mieux
l’ensemble des informations de cette nouvelle source, les méthodes existantes de
recherche d’information doivent être adaptées ou de nouvelles méthodes doivent être
proposées. Ces nouvelles approches doivent tenir compte aussi bien des spécificités
de ces informations que des motivations des internautes pour chercher dans ce type
de ressources.
Considérons les spécificités des microblogs. Tout d’abord, leur taille est réduite
par rapport aux blogs et aux articles publiés sur le web. Les tweets par exemple
sont limités à 140 caractères ; ils sont souvent composés d’une seule phrase, écrite
en mode SMS. Cette spécificité participe à la concrétisation du facteur temps-réel
des microblogs. En fait, elle encourage les microbloggeurs non seulement à partager
plus fréquemment, mais à signaler tout ce qui se déroule dans leur vie en temps-réel.
En outre, les plate-formes de microblogging sont aujourd’hui accessibles à travers
plusieurs types de dispositifs (tablettes, smartphones. . . ). Un microbloggeur peut
publier ainsi plusieurs microblogs chaque jour, contrairement à un bloggeur dont la
fréquence de publication des articles est de plusieurs jours.
De plus, afin de faciliter le suivi des sujets discutés, les plateformes de microblogging
utilisent une syntaxe spécifique telle que les #hashtags et les @citation.
Elles permettent également aux utilisateurs d’insérer des URLs et des images dans
les microblogs.
L’engouement pour les plate-formes de microblogging tient certainement aussi
à l’aspect réseau social induit par les liens possibles. Cependant, les plate-formes
de microblogging représentent un type de réseau social différent des autres réseaux
1. https://twitter.com
2. http://www.imdb.com/name/nm0594503/
3. https://blog.twitter.com/2013/new-tweets-per-second-record-and-how
2INTRODUCTION
sociaux. Les relations entre les utilisateurs ne sont pas forcément réciproques et les
abonnements sont sans restriction entre microbloggeurs.
D’autre part, les motivations pour exploiter ces sources sont particulières. Les
microbloggeurs, outre la publication de tweets, réalisent des recherches sur les plateformes
de microblogging. Dans Twitter, 1,6 milliards de requêtes sont émises chaque
jour 4
. La recherche sur les plateformes de microblogging est spécifique, et ce pour
deux raisons. Selon Teevan et al. (2011) la plate-forme de Twitter est utilisée non
seulement comme une source d’information parmi d’autres du web, mais également
comme une source d’information temps-réel qui permet d’obtenir des actualités,
de les commenter et de les partager à l’instant de leur déroulement (par exemple,
guerre à Gaza, bouchon sur l’autoroute A7). Pierre Guillou, dirigeant de la société
IDEOSE, spécialisée dans l’accessibilité et les nouveaux usages du Web définit
le web temps-réel comme :
« l’ensemble des informations envoyées sur le Web par des personnes de façon
instantanée et publique. Ces informations sont envoyées dans un même temps à
un groupe de destinataires, publiées sur le Web et analysables par des logiciels de
traitement de l’information. »
Plusieurs outils sont ainsi apparus pour extraire tout type d’information en temps
réel à partir des microblogs. Par exemple, en analysant près de 50 millions de tweets
chaque jour, l’hédonomètre 5
créé par des chercheurs américains permet de connaître
en temps-réel l’état d’esprit et l’humeur d’une grande partie de la population dans le
monde entier. Diakopoulos et Shamma (2010) ont proposé un analyseur temps-réel
permettant de visionner dynamiquement les sentiments des téléspectateurs au cours
d’un débat politique.
De plus, Teevan et al. (2011) ont montré que les utilisateurs cherchent des informations
sociales dans ces plate-formes (26 % des utilisateurs). Ils l’utilisent pour
plusieurs raisons telles que la recherche de personnes qui ont des intérêts similaires,
ou de ce qu’un utilisateur est en train de dire. . . Les utilisateurs emploient ces
plate-formes également pour suivre ce que les autres disent à propos du contenu
d’un microblog ou un sujet en particulier. Ils utilisent ainsi les #hashtags et les
@citation pour faire ces recherches verticales.
Pour conclure, le microblogging a été conçu de manière à faciliter l’accès et la
publication des informations. Par conséquent, cette source gagne de plus en plus
d’intérêt, que ce soit pour partager ou pour acquérir de l’information. Les informations
partagées dans ces plate-formes sont ainsi utilisées pour obtenir des opinions
des consommateurs (Jansen et al., 2009a ; O’Connor et al., 2010), des convictions
politiques (Tumasjan et al., 2010) et des actualités (Okazaki et Matsuo, 2010 ; Sa-
4. http://engineering.twitter.com/2011/05/engineering-behind-twitters-new
-search.html
5. http://hedonometer.org/
3INTRODUCTION
kaki et al., 2010 ; Sankaranarayanan et al., 2009 ; Phelan et al., 2009). Jansen et al.
(2009a) qualifient ces moyens de communication aujourd’hui comme la « bouche du
monde ».
Il est primordial pour les modèles de RI dans les microblogs de considérer les
facteurs simplifiant l’accès et la publication des informations employés par les plateformes
de microblogging. Ce sont en particulier, la fraîcheur, l’aspect social, et les
spécificités syntaxiques des microblogs. C’est dans le contexte de recherche d’information
dans les microblogs que se situent plus particulièrement nos travaux. Nous
nous plaçons plus précisément dans le cadre de la recherche adhoc. L’objectif est
de retrouver les microblogs répondant à un besoin d’information spécifié par un
utilisateur.
3 Problématiques de la RI dans les microblogs
Comme nous l’avons vu précédemment, un moteur de recherche de microblogs
doit prendre en compte leurs spécificités ainsi que de nouvelles exigences des utilisateurs
en termes de fraîcheur, de nouveauté d’information, et d’importance dans le
réseau social, par exemple.
D’un point de vue recherche d’information, si on projette les différentes spécificités
des microblogs dans une tâche de recherche d’information, on pourra facilement
identifier de nouvelles problématiques par rapport aux problématiques classiques de
la RI, que ce soit au niveau de l’indexation ou bien au niveau de la restitution des
informations, ou encore de l’évaluation des performances. Au niveau de l’indexation
dans un cadre temps-réel, les microblogs arrivent avec une fréquence très importante,
souvent par rafales correspondant à des événements, et doivent être indexés
dès leur arrivée. Ce même index doit permettre également une lecture avec un accès
rapide, afin de rendre disponible un microblog à l’instant de sa création et de satisfaire
les besoins en informations des utilisateurs. Ceci s’oppose à la majorité des
index ordinaires du web, qui sont souvent des index avec des architectures statiques
avec des taux de mise à jour réduits. En outre, les moteurs de recherche
usuels utilisent des robots qui se basent sur les liens hypertextes pour détecter les
nouvelles pages, ce qui rend l’organisation des documents dans l’index dépendante
des liens entre les pages. Cependant, pour une recherche temps-réel, les microblogs
doivent être ordonnés en fonction de leur date de publication dans l’index afin de
favoriser la fraîcheur des résultats au moment de la restitution. Ensuite, comme
nous l’avons déjà motionné, les microbloggeurs tendent à écrire en mode SMS. Les
messages peuvent contenir des termes mal-orthographiés, du jargon du net, beaucoup
d’émoticônes (Bamman et al., 2012). . . S’ajoute à ceci l’emploi de syntaxes
spécifiques à certaines plate-formes, tels que les hashtags et les mentions. Tous ces
4INTRODUCTION
facteurs introduisent de nouvelles difficultés et demandent de faire des choix sur
l’intérêt de les traiter au moment de l’indexation. À quel niveau le traitement est-il
possible, sans ralentir l’indexation, et en respectant les conditions du temps-réel ?
Ces mêmes caractéristiques des microblogs posent également des problèmes au
niveau de la recherche et de la restitution des données :
– Quelle est l’unité d’information la plus appropriée pour répondre
aux besoins en informations ? Si un utilisateur recherche des informations
concernant un sujet dans les plate-formes de microblogging, est-ce utile
de restituer des microblogs, des hashtags, des synthèses de microblogs, des
conversations, des profils, etc. ?
– Quel est le modèle le plus approprié pour gérer les spécificités des
microblogs et les exigences des utilisateurs ? Les modèles de RI, qui de
manière générale se basent sur des facteurs tels que la fréquence des termes
dans les documents et la longueur des documents, demeurent limités par la
faible longueur des microblogs où les termes n’apparaissent pas plus d’une fois.
Ces facteurs ont un sens quand la taille du document est importante. Quelles
sont alors les solutions pour compenser ce manque de contenu ? De plus, les
modèles usuels se basent sur le vocabulaire du document pour mesurer sa
pertinence vis-à-vis d’une requête, alors que la pertinence dans les microblogs
demeure théoriquement couplée avec d’autres facteurs tels que la fraîcheur de
l’information, la popularité de l’auteur de l’information, la qualité du langage
utilisé, etc., en complément de la pertinence sur le contenu.
– Quels sont les facteurs qui reflètent vraiment la pertinence dans
une tâche de recherche de microblogs ? Quels sont les moyens permettant
d’évaluer les facteurs ? La plupart des approches de recherche de
microblogs proposées dans l’état de l’art s’appuient sur différentes intuitions
et définissent ainsi la pertinence comme la composition de plusieurs facteurs,
en plus du facteur lié au contenu. Cependant, aucune évaluation individuelle
de ces facteurs n’a été réalisée à ce jour.
– Comment ces facteurs peuvent-ils être employés et combinés avec la
pertinence du contenu ? Efron (2011a) déclare que les critères de pertinence
reflètent certainement la pertinence. Cependant, il n’est pas toujours simple
de déterminer comment les employer. La popularité des auteurs, par exemple,
peut être considérée de différentes manières : l’activité de l’auteur, le nombre
de ses amis, sa centralité dans le réseau social, etc.
– La fraîcheur, est-elle vraiment un facteur crucial de pertinence ?
Teevan et al. (2011) ont montré que l’une des motivations pour chercher les
microblogs est la fraîcheur de l’information. Cependant, elle n’est pas l’unique
motivation. Plusieurs recherches sur les microblogs visent des informations sociales
ou des informations d’ordre général (des opinions de consommateurs par
5INTRODUCTION
exemple). Ainsi, est-il utile d’intégrer la fraîcheur comme facteur de pertinence
quel que soit le besoin d’information ?
En recherche d’information, la troisième étape fondamentale, après l’indexation
et la recherche, est l’évaluation. Cette phase permet de mesurer l’efficacité des approches
et des choix faits durant les deux étapes précédentes. Depuis des décennies,
le paradigme de Cranfield, qui établit l’évaluation des SRI à travers des corpus statiques,
a dominé sur les expérimentations de la RI moderne. Cette méthode ne
pose-t-elle pas un problème lorsqu’elle est appliquée dans une tâche pour
laquelle le facteur temps-réel est primordial ?
4 Présentation des contributions
Nos travaux visent à améliorer la qualité des résultats de recherche d’information
adhoc dans les microblogs et nous nous focalisons donc sur les problématiques liées
à la recherche. La tâche adhoc consiste en la restitution de microblogs pertinents
vis-à-vis d’un besoin en information exprimé sous forme de mots-clés formant la
requête. Nos contributions se situent à plusieurs niveaux :
1. Afin de déterminer exactement les facteurs limitant les performances des modèles
classiques de recherche dans un corpus de microblogs, nous avons conduit
une analyse de défaillance d’un modèle de recherche usuel. Nous avons
sélectionné les microblogs pertinents mais non retrouvés par le modèle de recherche.
Ensuite, nous avons identifié les facteurs empêchant leur restitution.
À l’issue de cette analyse, nous avons proposé et testé plusieurs solutions permettant
d’améliorer la qualité des moteurs de recherche.
2. Afin de compenser l’impact de la concision des microblogs, nous avons introduit
et testé plusieurs propositions. La première consiste à exploiter des
ressources de type actualités pour étendre les requêtes. Ensuite, nous
nous sommes basés sur la base lexicale WordNet souvent utilisée en RI comme
un moyen de désambiguïsation et d’extension de requêtes. Nous avons également
analysé l’impact des approches connues en RI sur ce type de ressources.
Nous avons appliqué des techniques de réinjection de pertinence de l’état de
l’art, telles que Rocchio (1971), pour identifier les termes susceptibles de favoriser
la restitution de microblogs pertinents, ainsi que la pondération des
termes de la nouvelle requête et le mécanisme naturel d’extension de requête
du modèle BM25. Nous avons testé différentes méthodes pour calculer les
poids des termes. D’autre part, nous avons exploité les liens publiés dans
les microblogs pour étendre les microblogs. Ces hyperliens représentent de
l’information additionnelle qui complète les contenus des microblogs. Ainsi,
nous les avons considérés pour enrichir la représentation du contenu textuel
6INTRODUCTION
des microblogs.
3. Un troisième volet de notre travail concerne l’étude des facteurs de pertinence
utilisés pour identifier les microblogs pertinents. Nous avons
repris les facteurs de pertinence souvent utilisés dans l’état de l’art (de contenu,
sur l’importance des auteurs, sur les URLs. . . ) et nous les avons évalués. Cette
analyse est conduite selon trois axes. Dans le premier axe, nous avons étudié le
comportement des facteurs de pertinence dans les microblogs pertinents et les
avons comparés avec leur comportement dans les documents non pertinents.
Dans le deuxième axe, nous avons analysé l’impact de la combinaison des
scores des facteurs de pertinence avec le score de pertinence du contenu, calculé
avec un modèle classique de RI. Dans le troisième axe, nous avons utilisé
des techniques d’apprentissage ainsi que des algorithmes de sélection d’attributs
pour identifier les facteurs de pertinence utiles, en entrée des techniques
d’apprentissage.
4. Afin de prendre en compte l’aspect temporel dans la restitution des microblogs
pertinents vis-à-vis d’un besoin en information, nous avons proposé trois mé-
thodes qui intègrent le facteur temporel des microblogs dans le calcul
de la pertinence. Chaque méthode prend en compte le temps à sa manière.
– La première favorise les documents récents en appliquant la technique Kernel
(Lv et Zhai, 2009) pour mesurer la distribution temporelle des documents.
– La deuxième privilégie les termes présents fréquemment au moment de la
soumission de la requête.
– La troisième favorise les termes qui apparaissent fréquemment au moment
de la publication du microblog.
Afin d’évaluer l’apport de nos différentes contributions, nous nous sommes basés sur
le corpus fourni par la campagne d’évaluation TREC (Text Retrieval Conference)
pour la tâche Microblog en 2011 et 2012.
5 Organisation du mémoire
Ce mémoire est constitué de deux parties : la première présente le contexte
général dans lequel se situe notre travail, à savoir la recherche d’information sociale
et plus précisément la recherche d’information dans les microblogs. La seconde partie
détaille notre contribution.
L’objectif de la première partie « De la recherche d’informations classique à
la recherche d’information sociale » est de présenter les principes de la recherche
d’information dans des contenus textuels, puis son application à l’environnement
social. Cette partie comprend deux chapitres.
7INTRODUCTION
Le chapitre 1 présente les nouveaux contenus sociaux, développés avec l’apparition
des technologies du Web 2.0. Ensuite, nous exposons les fondamentaux de
la RI classique pour arriver aux spécificités de la RI sociale. Les différents types
d’information sociale dans le web sont ainsi décrits, à savoir les contenus générés
par les utilisateurs et les contenus générés par les pratiques sociales. Nous abordons
ensuite les notions et les concepts de base de la RI classique. L’architecture géné-
rale d’un SRI y est présentée ainsi que les principaux modèles de recherche. Nous
décrivons par la suite l’impact de l’emploi de l’information sociale sur la recherche
d’information, en particulier dans la contextualisation des recherches ou bien dans
l’enrichissement des ressources documentaires.
Nous nous concentrons dans le chapitre 2 sur une source d’information particulière
: les microblogs. Nous présentons dans ce chapitre la recherche d’information
dans les microblogs. Nous commençons ainsi par la description des spécificités de
ce type de contenu et nous nous basons sur la plate-forme Twitter pour montrer les
différences avec les documents traditionnels du web . Nous détaillons les spécificités
du contenu des microblogs ainsi que les motivations des utilisateurs à chercher dans
cette source d’information. Nous listons ensuite les approches d’accès à l’information
à partir des microblogs proposées dans la littérature, en en particulier la recherche
d’information adhoc dans les microblogs (notre domaine de recherche).
La seconde partie du mémoire intitulé « étude des facteurs de pertinence
pour la RI dans les microblogs » expose nos contributions.
Le chapitre 3 décrit notre contribution à l’identification des facteurs limitant l’ef-
ficacité des modèles de RI classique dans un corpus de microblogs. Nous présentons
une analyse de défaillance réalisée sur les résultats d’un modèle de recherche classique,
dans une tâche de recherche de microblogs. Ce chapitre donne ainsi des pistes
sur les considérations à prendre en compte pour améliorer la qualité des résultats.
Le chapitre 4 présente des solutions pour certains problèmes soulevés dans le chapitre
3. Plusieurs méthodes d’expansion de requêtes sont proposées et employées.
Ces méthodes exploitent des ressources de différents type pour étendre les requêtes :
les articles de type actualité, la base lexicale WordNet et un outil de suggestion d’orthographe.
Le feedback est également utilisé à travers l’emploi des méthodes connues
d’expansion de requêtes : Rocchio et le modèle de recherche BM25. D’autre part, des
méthodes d’expansion de microblogs sont employées, à savoir l’expansion de hashtags
et l’emploi des contenus pointés par les URLs pour améliorer la représentation
des microblogs.
8INTRODUCTION
Le chapitre 5 présente une étude approfondie sur l’apport des facteurs de pertinence
souvent utilisés dans les approches de l’état de l’art. Cette étude est réalisée
en trois étapes : (i) la première étape consiste en la comparaison des distributions
des scores des facteurs de pertinence entre les résultats pertinents et les résultats non
pertinents. Les facteurs de pertinence ayant des comportements différents reflètent
ainsi la pertinence. La deuxième étape est réalisée par la combinaison linéaire des
scores des facteurs de pertinence. Les facteurs de pertinence améliorant la qualité
des résultats reflètent ainsi la pertinence. Finalement, la troisième étape emploie
les techniques de sélection d’attributs. Ces techniques permettent d’identifier automatiquement
les meilleures combinaisons de facteurs de pertinence pour obtenir les
meilleurs résultats.
Le chapitre 5 présente une étude approfondie sur un critère de pertinence particulier
: la fraîcheur du microblog. Trois approches qui emploient le temps dans la
restitution de microblogs sont proposées.
L’ensemble des évaluations se basent sur le corpus de tweets fourni par la campagne
d’évaluation TREC (Text Retrieval Conference) dans la tâche microblogs des
années 2011 et 2012.
En conclusion, nous dressons le bilan de nos travaux reliés à la recherche d’informations
dans les microblogs. Nous introduisons ensuite les limites et les perspectives
de ces travaux à court et à long terme.
9État de l'artChapitre 1
RI Sociale
Satisfaire un besoin d’information a été souvent couplé avec des pratiques sociales.
Ce couplage peut être perçu à plusieurs niveaux. D’une part, avant la naissance
des SRI, le chercheur d’information se basait sur ses liens sociaux pour satisfaire
son besoin. Le premier réflexe consistait à interroger les personnes qu’il
connaissait et qui avaient des intérêts similaires. Ceci pouvait être réalisé également
en interrogeant les amis, les proches ou simplement des bibliothécaires.
D’autre part, l’information est souvent produite dans des situations sociales, à
travers des discussions et des collaborations entre les différents membres de groupes
de personnes, partageant les mêmes objectifs et les mêmes centres d’intérêts.
L’arrivée de l’internet et en particulier les technologies du web 2.0 a complètement
révolutionné ces pratiques. L’internaute aujourd’hui consulte les plus grandes
bibliothèques et ressources scientifiques (Wikipédia 1
), utilise les moteurs de recherche
pour trouver instantanément les informations (Google, Bing), discute avec
d’autres utilisateurs ayant les mêmes centres d’intérêts (forum et blog), développe
ses connaissances et relations sociales (réseaux sociaux), commente et consulte les
avis des autres internautes (social bookmarking),. . . Les utilisateurs, en utilisant les
technologies du web 2.0, génèrent directement ainsi de nouveaux contenus appelés
contenus générés par les utilisateurs (UGC). D’autres types d’information
sont générés indirectement, comme par exemple, les liens sociaux, les profils ainsi
que leurs traces de navigations. Ces données sont appelées contenus générés par
la pratique.
L’exploitation et plus particulièrement l’accès à ces contenus, récemment générés,
très spécifiques en terme de nature, de format, de structure et de volume, demande
la définition de modèles de RI qui vont au-delà des modèles classiques définis dans
le domaine de la RI depuis quelques années. En effet, les documents visés par les
modèles de la RI classique se composent uniquement par leurs contenus textuels.
Cependant, avec le web 2.0, plusieurs éléments, en plus du contenu textuel, doivent
1. http://www.wikipedia.org/
11CHAPITRE 1. RI SOCIALE
être considérés, tels que les informations sociales, les commentaires et les notes des
internautes. . . Ces documents peuvent avoir un format spécifique (les microblogs par
exemple font au maximum 140 caractères) et une syntaxe particulière. Par consé-
quent, pour chercher dans ces contenus, le modèle de recherche doit gérer toutes ces
spécificités.
Dans ce chapitre, nous allons commencer par présenter les nouveaux contenus
sociaux, développés avec l’apparition des technologies du web 2.0. Nous exposerons
ensuite les principales bases de la RI classique pour arriver aux spécificités de la RI
sociale.
1 Information sociale dans le web
L’information sociale dans le web est basée sur l’internet de plus en plus influencé
par des services intelligents (présentés dans la suite), qui permettent à l’utilisateur de
contribuer au développement, d’annoter et de collaborer à la production du contenu.
Les utilisateurs sont passés de simples consommateurs à producteurs d’information.
Leurs contributions peuvent être de différentes natures : les contenus publiés dans les
plate-formes sociales telles que les blogs et les wikis, les réactions, les informations
publiées par les autres utilisateurs telles que les annotations et les commentaires, etc.
L’ensemble de ces informations est appelé contenus générés par des utilisateurs
(UGC : User Generated Content).
1.1 Contenus générés par les utilisateurs (UGC)
Le terme « contenu généré par les utilisateurs » est devenu populaire en 2005
grâce au développement des moyens de production collaboratifs tels que les Wiki, les
blogs, les forums, le social bookmarking, les plateformes de microblogging. . . Nous
définissons en détail ci-après ces moyens de production :
– Wiki : un wiki est une application web permettant à ses utilisateurs de créer,
modifier et supprimer des contenus de manière collaborative. L’information
par conséquent est construite avec la participation de plusieurs personnes. Les
wikis peuvent avoir plusieurs objectifs : outil de gestion de connaissances, outil
de prise de notes, site communautaire, Intranet. . . Le premier wiki s’appelait
Wikiwikiweb. Il a été développé par Ward Cunningham à Portland, Oregon,
en 1994. L’application a été mise en ligne en 1995. Aujourd’hui, l’exemple le
plus connu de wiki est Wikipedia 2
, qui contient plus de 22 millions d’articles
dans 278 langues différentes 3
. Un wiki se caractérise par l’encouragement à la
2. http://www.wikipedia.org/
3. http://en.wikipedia.org/wiki/WIKIPEDIA
12CHAPITRE 1. RI SOCIALE
création des liens hypertextes de sorte que chaque page soit reliée à plusieurs
autres pages et chaque terme clé ou concept avec sa définition.
– Blog : Le blog est un type de site web sur lequel un internaute tient une
chronique personnelle ou consacrée à un sujet particulier. Il s’agit d’un espace
individuel d’expression, créé pour donner la parole à tous les internautes
(particuliers, entreprises, artistes, hommes politiques, associations. . . ), d’une
part, et pour permettre à tous les visiteurs de réagir sur le sujet évoqué, en
postant leurs commentaires sur les articles, créant ainsi une relation privilégiée
entre l’auteur et ses lecteurs. Les plate-formes de blogs les plus connues sont
Overblog 4
, Blogger 5
, SkyrockBlog 6
et CanalBlog 7
.
– Forum : Un forum est un lieu d’échange d’informations où les internautes
posent ou répondent à une question donnée. Les différentes contributions
forment un fil de discussion (thread en anglais). Chaque forum de discussion
se consacre à un thème précis. Par exemple, CFPOI World 8
se spécialise sur
les animaux, alloforum 9
sur les voitures. . . Les messages publiés dans les forums
sont archivés. Ceci permet aux internautes d’y participer d’une manière
asynchrone. Contrairement aux blogs, les messages sont organisés chronologiquement,
du plus ancien au plus récent.
– Social bookmarking : Le social bookmarking est un moyen pour stocker, classer,
chercher et partager les liens favoris. Ces favoris seront ainsi accessibles à
partir de n’importe quel point d’accès à l’internet, et non pas forcément à partir
d’une machine personnelle. Ce principe simplifie ainsi leurs partages avec
les autres internautes et permet de les récupérer même à partir de différentes
machines. Un internaute a la possibilité de partager ses bookmarks, et également
de regarder ce que les autres ont trouvé intéressant pour annoter. Selon
Ebizmba 10, Delicious 11 est le site plus populaire de social bookmarking.
– Plate-forme de microblogging : Le microblogging dérive directement du concept
des blogs. La différence réside principalement dans la longueur des publications.
Les microbloggeurs sont souvent limités à un nombre de caractères qui
est de l’ordre de 140 caractères (cas de Twitter). Toutefois, les microbloggeurs
peuvent partager des images ou des liens externes dans leurs messages. Ce
facteur encourage par conséquent les internautes à partager des microblogs
plus fréquemment. Certaines plate-formes de microblogging se focalisent sur
4. http://www.over-blog.com/
5. http://www.blogger.com/
6. http://www.skyrock.com/blog/
7. http://www.canalblog.com/
8. http://www.animalforum.com/
9. http://ma850.alloforum.com/
10. http://www.ebizmba.com
11. http://delicious.com/
13CHAPITRE 1. RI SOCIALE
des thèmes spécifiques tels que Blipper 12 (livres, musiques, jeux, etc.) et Flixter
13 (films). Cependant, les sujet discutés dans Twitter, la plate-forme de
micrblogging la plus populaire, ne sont pas contraints.
1.2 Contenus générés par la pratique
Ce deuxième type d’information sociale est produit au travers des différentes
pratiques que les internautes réalisent tout au long de leurs sessions de navigations.
On peut citer :
– Les traces des utilisateurs : elles comportent les différentes pages web visitées
par les utilisateurs, les clics, les durées de visites. . . Ces données peuvent être
utilisées afin de déterminer les préférences des utilisateurs et leurs thématiques
de recherche.
– Les données personnelles : elles se composent des informations que l’utilisateur
fournit au moment de son inscription sur les réseaux sociaux.
– Les liens sociaux : la plupart des plate-formes sociales définissent des règles de
liaison entre leurs différents utilisateurs. Ces règles diffèrent d’une plate-forme
à une autre. Prenons par exemple le cas de Twitter, il n’y a pas de restriction
dans les liens sociaux. N’importe quel utilisateur peut s’abonner à un autre
utilisateur, sans avoir forcément son accord (à moins que le compte soit privé,
ce qui est rarement utilisé). Par opposition, dans le cas de Facebook, les deux
utilisateurs doivent être d’accord pour partager leurs informations.
L’explosion des ressources sociales avec de nouvelles spécificités a permis l’émergence
d’une nouvelle branche de la Recherche d’Information : la RI sociale. Il s’agit
d’adapter les modèles et les algorithmes de la RI classique afin d’exploiter les informations
sociales. Dans ce qui suit, avant de présenter les impacts de la prise en
compte de l’information sociale dans la RI, nous présentons brièvement les concepts
de base de la RI classique.
2 RI : historique
La recherche d’information (RI) traite de la représentation, du stockage, de l’organisation
et de l’accès à l’information (Manning et al., 2008). L’objectif de la RI
est de faciliter, pour un utilisateur, l’accès à l’information qui correspond à son
besoin. Selon Baeza-Yates et Ribeiro-Neto (1999), un système de recherche d’information
(SRI) doit fournir à l’utilisateur, d’une manière simple, l’information à
laquelle il s’intéresse. Un SRI doit ainsi comprendre exactement la nature du besoin
en information de l’utilisateur, sélectionner l’ensemble des documents qui traitent
12. http://blipper.com
13. http://flixter.com
14CHAPITRE 1. RI SOCIALE
de son besoin et finalement ordonner les éléments sélectionnés selon leur degré de
pertinence décroissant.
2.1 Processus de RI
Satisfaire un besoin en information se traduit concrètement par la mise en correspondance
d’un besoin d’information exprimé souvent sous forme de mots-clés,
d’une part, et des informations disponibles dans les documents textuels d’une collection.
Ce processus se déroule au sein d’un système de recherche d’informations
(SRI). Un SRI est un ensemble logiciel assurant l’ensemble des fonctions nécessaires
à la recherche d’information. Ces fonctions sont traduites via ce que l’on appelle le
« processus en U » de la recherche d’information. La figure 1.1 (Belkin et Croft,
1992) en montre ces trois phases principales :
– l’indexation : crée un index à partir d’un corpus de documents. L’objectif de
l’indexation est l’homogénéisation des représentations, tout en rendant l’accès
rapide et efficace à l’ensemble des documents. Elle permet d’extraire les mots
importants et caractéristiques d’un document.
– le requêtage : c’est l’étape durant laquelle l’utilisateur exprime son besoin
d’information. Cette étape peut engendrer une reformulation de la requête
initiale. La requête soumise par l’utilisateur subit les mêmes traitements que
ceux réalisés sur les documents au cours de leur indexation.
– l’appariement : consiste à mesurer la similarité entre le besoin d’information
et les descripteurs des documents dans l’index.
2.1.1 Indexation
Les documents à leur état brut sont difficiles à exploiter tels quels lors de la
phase de recherche. Ainsi, l’objectif principal de cette étape est de fournir des représentations
des documents et des requêtes facilement exploitables par la machine
dans la phase de recherche. Cette représentation est souvent une liste pondérée de
mots-clés significatifs que l’on nomme descripteurs du document (ou de la requête).
L’indexation peut être manuelle, semi-automatique ou automatique.
– Indexation manuelle : c’est un spécialiste ou un documentaliste qui analyse
le document et sélectionne par la suite les termes qu’il trouve représentatifs.
L’indexation manuelle fournit une terminologie spécifique pour indexer et
rechercher les documents, garantissant ainsi une meilleure représentation des
documents et une meilleure qualité des résultats. Cependant, ce type d’indexation
demande plus de temps et d’efforts que les autres. En outre, un degré de
subjectivité lié au facteur humain fait que le même document peut être indexé
de différentes façons par des personnes différentes, et même par la même
personne mais à des moments différents (Furnas et al., 1987).
15CHAPITRE 1. RI SOCIALE
Collection de documents
Indexation
Représentation des documents
Producteur de documents
Comparaison – Appariement
requête - document
Personne avec des buts,
des intentions, etc.
Besoin d’information ou
état anormal de connaissance
Requête
Indexation
Représentation des requêtes
Documents sélectionnés
Utilisation et/ou évaluation
Modification
Reformulation de
la requête
Figure 1.1 – Processus en U de la recherche d’information
– Indexation automatique : dans ce cas, c’est un ensemble de processus appelés
robots d’indexation, qui réalisent de manière automatisée la tâche. C’est
l’approche suivie par la majorité des SRI, en raison de sa rapidité et son coût
réduit par rapport à l’indexation manuelle.
– Indexation semi-automatique : elle se base sur l’indexation automatique. Toutefois,
une intervention humaine peut être réalisée afin d’effectuer des choix sur
les termes significatifs, et pour valider la représentation finale des descripteurs.
Ces choix sont souvent réalisés en utilisant un thésaurus ou une base terminologique
qui est une liste organisée de descripteurs (mots-clés) liés à des règles
terminologiques propres et reliés entre eux par des relations sémantiques.
D’une manière générale, l’indexation automatique comprend une chaîne de traitements
automatisés. Ils sont appliqués sur les documents et également sur les requêtes.
On distingue : l’extraction des mots, l’élimination des mots vides de sens, la
normalisation et la pondération.
– Extraction des mots : cette étape consiste, dans un premier temps, à traiter
chaque document afin de pouvoir extraire le texte comme une suite de caractères.
Autrement dit, elle vise à résoudre les problèmes résultants des différents
formats et encodages des documents, pour avoir en finalité uniquement le texte
sous forme d’une séquence linéaire de caractères et de rejeter les éléments de
forme. Ensuite, la séquence de caractères est découpée en une liste de termes
16CHAPITRE 1. RI SOCIALE
susceptibles d’être indexés par une analyse lexicale. Une analyse lexicale permet
d’identifier les termes en reconnaissant les espaces de séparation des mots,
des caractères spéciaux, des chiffres, les ponctuations, etc.
– Élimination des mots vides : les textes contiennent souvent des termes non
significatifs appelés mots vides (pronoms personnels, prépositions. . . ). Cette
étape est réalisée par l’utilisation d’une liste de mots vides ou par le rejet de
mots dépassant un certain nombre d’occurrences dans le document. L’élimination
des termes vides a ses avantages et ses inconvénients. D’une part, pour
certaines requêtes, la présence des termes vides joue un rôle très important.
C’est le cas par exemple des requêtes contenant des entités nommées ou des
expressions avec des prépositions (« Le Monde » qui est un journal). Cependant,
leurs élimination réduit considérablement la taille des index et limite
leurs effets négatifs sur les calculs statistiques.
– Lemmatisation : Cette étape vise à réduire un terme à une forme canonique.
La lemmatisation regroupe les différentes formes que peut revêtir un mot, soit :
le nom, le pluriel, le verbe à l’infinitif, etc. Par exemple, le mot « jouer », verbe
à l’infinitif ni accordé, ni conjugué est un lemme. Il possède différentes flexions
qui correspondent à ses formes conjuguées à diverses personnes et temps : « il
jouera », « nous jouons », « ils ont joué ». . . Grâce à la lemmatisation, les
documents contenant différentes formes d’un même terme auront les mêmes
chances d’être restitués. D’autre part, ceci va éviter à l’utilisateur de saisir
les différentes formes des termes lors de la recherche. Par conséquent, cette
étape réduit la taille de l’index et améliore le rappel (la part des documents
pertinents retrouvés par le SRI par rapport à tous les documents pertinents).
Cependant, elle peut réduire la précision (la part des documents pertinents par
rapport à tous les documents restitués). Par exemple, l’ensemble des termes
« operate operating operates operation operative operatives operational » va
devenir « oper », ce qui implique une perte de précision pour des requêtes
telles que : « operational and research ; operating and system ; operative and
dentistry ». On distingue quatre types principaux de lemmatisation : en consultant
un dictionnaire (ex. Tree-tagger (Schmid, 1994)), en utilisant les règles
de transformation (ex. Porter Stemmer (Porter, 1980)), par troncature après
X caractères et la méthode de n-grammes (Mayfield et McNamee, 2003).
– Pondération : Cette étape vient après l’identification des termes des documents
et leur normalisation. Les termes qui représentent un document n’ont
pas la même importance. De ce fait, un poids est associé à chaque terme.
Estimer l’importance d’un terme n’est pas une tâche simple. Prenons le cas
d’une collection d’un million de documents. Un terme qui existe dans tous
les documents n’est pas utile dans l’index parce qu’il ne peut fournir aucune
information sur le document qui pourrait intéresser un utilisateur. Cependant,
17CHAPITRE 1. RI SOCIALE
un terme qui apparaît dans 5 documents uniquement peut être de grande valeur
puisqu’il permet de pointer les documents pertinents. Pour ces raisons,
des mesures qualitatives sont calculées au moment de l’indexation pour chaque
terme. D’une part, ces mesures permettent d’estimer le degré d’importance des
termes dans les documents. D’autre part, elles permettent d’éviter un temps
de calcul supplémentaire durant la phase de l’appariement. La plupart de ces
mesures sont basées sur les facteurs TF et IDF, qui permettent de combiner
les pondérations locales (dans le document) et globales (dans la collection)
d’un terme.
TF (Term Frequency) : cette mesure est proportionnelle au nombre d’occurrences
d’un terme dans un document (pondération locale). Toutefois, il
existe différentes variantes de cette mesure qui dépendent de la façon dont la
pertinence est mesurée. L’inconvénient du TF se situe au niveau de la pertinence
globale. Certains termes sont plus significatifs que d’autres, bien qu’apparaissant
avec la même fréquence dans un document. Par exemple, dans une
collection de documents traitant de la compétition Roland Garros, le terme
Nadal est plus important que le terme tennis, même si ces deux termes apparaissent
équitablement dans un document. Pour cette raison le TF est souvent
couplé avec la mesure IDF.
IDF (Inverse Document Frequency) : se calcule selon la formule suivante :
IDFt = log
N
dft + 1!
(1.1)
N est le nombre de documents dans la collection et dft est le nombre de documents
dans lesquels le terme t apparaît. Cette mesure calcule la fréquence
d’un terme dans la collection (pondération globale). Comme le montre la formule
5.1, cette mesure met en valeur les termes rares et limite l’importance
des termes fréquents dans la collection.
La combinaison de TF et IDF fournit une autre mesure importante :
T F IDFt,d = T Ft,d ∗ IDFt (1.2)
Cette mesure donne pour un terme t un score important s’il apparaît fréquemment
dans peu de documents et un score faible si le terme apparaît rarement
dans un même document ou dans beaucoup de documents.
2.1.2 Requêtage
Les mêmes étapes que celles réalisées sur les documents sont répétées sur les
requêtes. Cependant, aucun index n’est créé.
Une fois la normalisation des termes effectuée, une représentation des termes est
préparée. Cette représentation dépend de la méthode de recherche (ou modèle de
18CHAPITRE 1. RI SOCIALE
recherche) utilisée au niveau de l’appariement. Par exemple, si le modèle utilisé est
le modèle vectoriel (discuté dans un prochain paragraphe), la requête va prendre la
forme d’un vecteur dans un espace où chaque terme distinct du corpus représente
une dimension. Si le modèle est le modèle booléen, alors le système doit créer des
formules logiques avec les termes de la requête en utilisant les opérateurs AND, OR
et NOT. . .
Les SRI modernes pratiquent également des traitements complémentaires comme
l’extension de requête (Vechtomova et Wang, 2006).
2.1.3 Appariement
Une fois les documents indexés et la requête analysée, le SRI procède à l’appariement
entre la requête et les documents. De cette mise en correspondance résulte un
score de pertinence reflétant le degré de similarité entre la requête et le document.
En d’autres termes, le système prédit si l’utilisateur trouvera des informations pertinentes
ou non dans le document. Ce score est calculé à partir d’une valeur appelée
RSV (q, d) (Retrieval Status Value), où q est une requête et d un document. Cette
mesure tient compte des poids des termes calculés au moment de l’indexation. Les
SRI actuels calculent des scores sous forme décimale. Ceci permet d’ordonner les
documents restitués. La qualité de cet ordonnancement est primordiale. En effet,
l’utilisateur se contente généralement d’examiner les premiers documents renvoyés
(les 10 ou 20 premiers). Si la qualité des informations présentes dans cette tranche
n’est pas satisfaisante, l’utilisateur considérera le SRI comme mauvais vis-à-vis de
sa requête.
Différents modèles de RI ont été proposés dans la littérature afin de formaliser
la pertinence, des modèles les plus naïfs basés sur l’appariement exact jusqu’aux
modèles plus élaborés basés sur l’appariement flou. Dans la suite, nous présentons
les principaux modèles de la littérature.
2.2 Modèles de RI
Les modèles de RI visent à fournir un cadre théorique pour interpréter la notion
de pertinence et permettent ainsi de classer les documents vis-à-vis un besoin d’information.
Un modèle de recherche d’information est représenté par le quadruplet
[D,Q,F, R(q,d)] :
– D est l’ensemble des représentations des documents dans la collection.
– Q est l’ensemble des représentations du besoin d’information de l’utilisateur.
– F représente le cadre de modélisation des documents et des requêtes, ainsi que
les relations entre eux. Les relations peuvent être des relations booléennes, des
vecteurs ou des distributions de probabilités des termes.
19CHAPITRE 1. RI SOCIALE
– R(q,d) est la fonction d’ordonnancement qui attribue un score de pertinence
pour le couple composé par une représentation de la requête q ∈ Q et d’une
représentation d’un document d ∈ D.
La fonction d’ordonnancement reflète l’intuition du modèle utilisé. Par exemple,
pour le modèle booléen, F correspond à la théorie des ensembles. Pour le modèle
vectoriel, F repose sur un espace vectoriel de N-dimensions, des représentations de
requêtes et de documents sous formes de vecteurs. . .
Il existe une multitude de modèles de RI. La figure 1.2 présente la classification
des modèles de RI selon (Baeza-Yates et Ribeiro-Neto, 1999). Comme illustré dans
cette figure, les modèles de RI peuvent être regroupés selon le type du modèle
mathématique utilisé, en trois grandes classes, à savoir :
Figure 1.2 – Catégorisation des modèles de RI (Baeza-Yates et Ribeiro-Neto, 1999)
– Les modèles ensemblistes : ces modèles trouvent leurs fondements théoriques
dans la théorie des ensembles. On distingue le modèle booléen pur (boolean
model), le modèle boolen étendu (extended boolean model) et le modèle basé
sur les ensembles flous (fuzzy set model).
– Les modèles vectoriels, basés sur l’algèbre, plus précisément le calcul vectoriel.
Ils englobent le modèle vectoriel (vector model), le modèle vectoriel généralisé
(generalized vector model), Latent Semantic Indexing (LSI) et le modèle
connexionniste.
– Les modèles probabilistes, qui se basent sur les probabilités. Ils comprennent
le modèle probabiliste général, le modèle de réseau de document ou d’inférence
(Document Network) et les modèles de langue.
Dans le modèle booléen, les documents et les requêtes sont représentés sous la
forme d’un ensemble de termes. Ainsi, comme suggéré dans (Gudivada et al., 1997),
20CHAPITRE 1. RI SOCIALE
il s’agit d’un modèle ensembliste. Dans le modèle vectoriel, les documents et les
requêtes sont représentés sous formes de vecteurs dans un espace de N-dimensions.
Pour le modèle probabiliste, le cadre de modélisation des documents et des requêtes
est basé sur la théorie des probabilités.
Nous présentons dans la suite les principaux modèles issus de chacune de ces
trois classes. Nous renvoyons le lecteur aux nombreux manuels introductifs à la RI
(Baeza-Yates et Ribeiro-Neto, 1999 ; Manning et al., 2008) pour des présentations
exhaustives des modèles de RI.
2.2.1 Modèle Booléen
Le modèle Booléen (Salton, 1968) est un modèle qui se base sur la théorie des
ensembles et l’algèbre de Boole. Le modèle Booléen prend en compte uniquement
la présence et l’absence d’un terme dans les documents : considérons le poids d’un
terme i dans un document j wi,j ∈ {0, 1}. Les poids des termes dans la matrice
terme-document sont binaires. La requête q est, elle aussi, composée de termes reliés
par des opérateurs logiques (ET, OU et NON). Ainsi le modèle vérifie si le document
satisfait les conditions représentées par les termes de la requête. Le modèle booléen
évalue si un document est pertinent ou non pertinent. Le score de chaque document
sera ainsi représenté respectivement par 0 ou 1.
La décision binaire de pertinence sans aucune notion de graduation (exact match)
réduit la qualité des résultats (notion de silence). En outre, les expressions booléennes
ont une sémantique précise, ce qui rend la traduction du besoin d’information
en une expression booléenne une tâche difficile. Ainsi, la majorité des expressions
booléennes formulées par les utilisateurs sont simples (1 seul opérateur).
Même si la définition du besoin d’information sous forme d’une expression booléenne
n’est pas toujours évidente pour les utilisateurs, le modèle booléen se caractérise
par un formalisme simple et clair (représentation binaire des termes dans
l’index). L’inconvénient principal est l’absence d’ordonnancement des résultats (car
tous les RSV = 1), ce qui résulte parfois en la restitution d’un nombre très important
ou très faible de documents.
2.2.2 Modèles vectoriels
Le modèle vectoriel (Salton et al., 1975) propose un cadre dans lequel la pertinence
partielle est possible. Le poids des termes des documents et des requêtes n’est
plus binaires. Le poids est utilisé pour mesurer la similarité entre les documents
et le besoin d’information. Les documents sont ainsi ordonnés selon leur degré de
similarité décroissant : du plus similaire au moins similaire ayant le score le plus
faible. Le modèle vectoriel prend en compte les documents répondant partiellement
21CHAPITRE 1. RI SOCIALE
au besoin d’information. En outre, le modèle fournit une réponse plus raffinée que le
modèle booléen dans le sens où il permet de sélectionner et de trier les documents.
Dans le modèle vectoriel, le document et la requête sont représentés par des
vecteurs. Le degré de similarité entre un document dj et une requête q est mesuré
comme la corrélation entre les vecteurs ~dj et ~q. Cette corrélation peut être calculée
par le cosinus entre les deux vecteurs.
sim(
~dj
, ~q) = d~
j .~q
|
~dj |×|~q|
=
Pt
i=1 q
wi,j×wi,q
Pt
i=1 w2
i,j×
qPt
i=1 w2
i,q
(1.3)
D’autres fonctions de similarité ont été proposées dans la littérature, parmi lesquelles
on peut citer les mesures de Jaccard et Dice (Manning et al., 2008).
Les poids des termes des requêtes et des documents dans les vecteurs sont géné-
ralement des scores basés sur T F.IDF. Ainsi,
wi,q =
(1 + log(tfi,q)) × log(
N
ni
)
qP
k
((1 + log(tfk,q)) × log(
N
nk
)
2
)
(1.4)
wi,dj =
(1 + log(tfi,dj
)) × log(
N
ni
)
qP
k
((1 + log(tfk,dj
)) × log(
N
nk
)
2
)
(1.5)
avec T F représenté par 1 +log(tfi,dj
) et IDF représenté par log(
N
ni
). Le reste de
la fonction est utilisé pour la normalisation des scores.
Les avantages principaux du modèle vectoriel sont les suivants : tout d’abord,
la pondération non binaire des termes favorise une meilleure qualité des résultats.
Ensuite, le modèle permet une correspondance partielle ou approximative entre les
documents et les requêtes (best match). Les documents sont triés selon leur degré
de similarité vis-à-vis de la requête. La longueur des documents est traitée naturellement
dans l’appariement, car elle est considérée dans le calcul des poids des
termes.
Théoriquement, le modèle vectoriel a l’inconvénient de considérer que les termes
de l’index sont tous indépendants. Cependant, en pratique, la prise en compte globale
de la dépendance des termes peut faire baisser la qualité des réponses d’un système
(Baeza-Yates et Ribeiro-Neto, 1999) car les dépendances sont généralement locales.
C’est pour toutes ces raisons que le modèle vectoriel est encore populaire de nos jours
en recherche d’information, et reste souvent utilisé comme une baseline (modèle de
référence) lors de l’évaluation d’autres méthodes.
2.2.3 Modèle probabiliste
Le modèle probabiliste a été proposé par Robertson et Sparck Jones (1988). Il
propose une solution à la problématique de la RI dans un cadre probabiliste : la
22CHAPITRE 1. RI SOCIALE
fonction de pertinence du modèle probabiliste se base sur le calcul de probabilités
de pertinence des documents pour les requêtes données. Le principe de base consiste
à retrouver des documents qui ont, dans le même temps, une forte probabilité d’être
pertinents, et une faible probabilité d’être non pertinents. Ainsi, on distingue deux
classes de documents pour une requête qi
: les pertinents (R) et les non pertinents
(R). Par conséquent, deux mesures de probabilité sont calculées : P(R|dj ) la probabilité
que le document dj soit dans R et P(R|dj ) la probabilité que ce document
soit dans R. Ainsi, la pertinence entre le document dj et la requête q est calculée
par :
RSV (q, dj ) = P(R|dj )
P(R|dj )
(1.6)
En appliquant la règle de Bayes et après quelques transformations, la formule
précédente donne :
RSV (q, dj ) = P(dj
|R)
P(dj
|R)
(1.7)
Dans le modèle probabiliste de base, la représentation des documents est composée
par des poids binaires indiquant la présence ou l’absence des termes, si on
suppose que les termes sont indépendants, la formule 1.7 devient :
RSV (q, dj ) = X
ti∈T
xi
· log pi(1 − qi)
qi(1 − pi)
(1.8)
avec T est l’ensemble de tous les termes, xi = 0 si le terme i n’apparaît pas
dans le document j ou bien xi = 1 si le terme i apparaît dans le document j.
pi = P(ti ∈ D|R), qi = P(ti ∈ D|R), 1 − pi = P(ti ∈/ D|R) et
1 − qi = P(ti ∈/ D|R).
Lorsque des données d’apprentissage pour l’évaluation ne sont pas disponibles,
on retrouve le facteur idf probabiliste intégré dans le modèle vectoriel :
RSV (q, dj ) = X
ti∈T
xi
· log N − Ri
Ri
(1.9)
avec N le nombre de tous les documents et Ri est le nombre de documents contenant
ti
.
Nous rappelons que, dans le modèle de base, les termes ont des poids binaires
dans les documents, indiquant leur présence ou absence. La prise en compte des
fréquences des termes dans les document a fait l’objet de plusieurs modèles variant
du modèle de base. Par exemple, dans le modèle BM25 (Robertson et al., 1996) le
calcul du poids d’un terme dans un document intègre différents aspects relatifs à la
23CHAPITRE 1. RI SOCIALE
fréquence locale des termes (tfi), leur rareté et la longueur des documents :
xi =
(k1 + 1) · tfi
k1 × ((1 − b) + b ×
dl
avgdl + tfi
(1.10)
avec dl est la taille du document dj
, avgdl est la moyenne des tailles des documents
dans la collection et k1 ,b sont des paramètres qui dépendent de la collection
ainsi que du type des requêtes.
2.3 Évaluation
L’évaluation des approches de RI est nécessaire afin d’estimer leur performance.
C’est un moyen qui permet également de comparer différents systèmes et d’étudier
l’impact des facteurs employés dans les approches. Un bon SRI doit satisfaire le
besoin d’information de l’utilisateur. La qualité des résultats par rapport à ce besoin,
la rapidité du système et la facilité d’utilisation du système représentent les
principaux facteurs à évaluer pour un SRI (Mandl, 2007). Nous nous intéressons ici
à celui qui nous semble le plus important : la capacité d’un système à sélectionner
des documents pertinents. Le mode d’évaluation généralement utilisé aujourd’hui
est basé sur celui développé dans le projet Cranfield (Cleverdon et al., 1966) communément
appelé le paradigme de Cranfield. Ce paradigme définit la méthodologie
d’évaluation des SRI en se basant sur 3 éléments : un corpus de documents sur
lequel les recherches sont effectuées, un ensemble de requêtes de test (besoins des
utilisateurs) et la liste des documents pertinents pour chacune des requêtes (la vérité
terrain). L’idée générale de ce paradigme est de créer un environnement unique afin
de pouvoir comparer les systèmes équitablement. Cet environnement est appelé la
collection de test.
2.3.1 Collection de test
Les collections de test permettent de comparer directement des résultats obtenus
par des systèmes en utilisant des modèles différents. Nous détaillons ci-dessous les
différentes parties de ces collections.
– Les requêtes sont un ensemble de besoins d’information utilisés pour le test.
Cet ensemble est appelé également topics dans le jargon des campagnes d’évaluations
telles que TREC, INEX. . . Le nombre de requêtes doit être important
afin d’être le plus représentatif possible de la réalité et pour avoir une évaluation
objective. Il faut au moins 25 requêtes pour garantir la qualité de l’évaluation
au regard de la statistique (Buckley et Voorhees, 2000). Les requêtes sont
souvent créées par les assesseurs des organismes qui organisent l’évaluation.
Toutefois, elles peuvent être de vraies requêtes extraites à partir des logs des
moteurs de recherche (Baeza-Yates et Ribeiro-Neto, 1999).
24CHAPITRE 1. RI SOCIALE
– Le corpus de documents est l’ensemble de documents présélectionnés. Il existe
plusieurs corpus disponibles. Ces corpus diffèrent selon plusieurs critères en
fonction de la tâche de recherche que l’on veut évaluer, des documents plus ou
moins vulgarisés, plus ou moins spécialisés dans un domaine, dans une langue
ou une autre. . .
– Les jugements de pertinence identifient les documents pertinents pour une requête
et représentent la vérité terrain. Un score de pertinence graduel peut
éventuellement être associé pour chaque couple document/requête. La réalisation
de ces jugements est loin d’être une tâche facile. Il s’agit d’un processus
long et coûteux impliquant des humains. Pour de petites collections comme
celle de Cranfield, il existe des jugements de pertinence exhaustifs pour chaque
paire requête-documents. Cependant, pour les grandes collections modernes,
les jugements ne se font généralement que pour un sous-ensemble des documents
pour chaque requête. L’approche la plus standard est celle du pooling
(Jones et Rijsbergen, 1976), où la pertinence est évaluée sur un sous-ensemble
de la collection formé à partir des premiers documents retournés par un certain
nombre de systèmes différents (généralement ceux à évaluer), et parfois
complété par d’autres sources telles que les résultats de recherches booléennes
par mots clés ou des documents trouvés par les chercheurs experts dans un
processus interactif.
De nombreux projets basés sur des corpus d’évaluation se multiplient depuis les
années 1970. On peut par exemple citer la collection Cranfield ou encore la campagne
CLEF (Cross Language Evaluation Forum) 14. La campagne la plus connue est sans
conteste TREC (Text REtrieval Conference) organisée annuellement depuis 1992 par
le NIST 15 et la DARPA 16. Elle a pour but d’encourager la recherche documentaire
basée sur de grandes collections de test, tout en fournissant l’infrastructure nécessaire
pour l’évaluation des méthodologies de recherche et de filtrage d’information. Dans
ce qui suit, nous présentons les corpus les plus populaires issus de différents projets
d’évaluation :
– Conférence Text Retrieval (TREC). Le US National Institute of Standards
and Technology (NIST) a organisé une grande série d’évaluations depuis
1992. Dans ce cadre, plusieurs tâches qui se basaient sur différentes collections
d’essais ont été définies. On peut par exemple citer les collections utilisées
pour la tâche adhoc entre 1992 et 1999. Au total, ces collections comprennent
6 CD contenant 1,89 millions de documents et les jugements de pertinence
pour 450 besoins d’information. Les premières collections étaient composées
chacune de 50 besoins d’information, évalués sur différentes ensembles de do-
14. http://www.clef-initiative.eu/
15. National Institue of Standards and Technology (www.nist.gov)
16. Defense Advanced Research Project Agency
25CHAPITRE 1. RI SOCIALE
cuments. TREC 6-8 fournit 150 besoins d’information sur environ 528 000
articles. Étant donné les collections de documents si grandes, il n’y a pas de
jugements de pertinence exhaustifs. Au contraire, les jugements de pertinence
sont disponibles uniquement pour les documents qui sont restitués parmi les
premiers documents retournés pour les systèmes qui ont participé à l’évaluation
(pooling).
– Le projet NTCIR a développé diverses collections d’essais de tailles similaires
aux collections de TREC, en se concentrant sur les langues d’Asie de
l’Est et la recherche d’information multilingue. Les requêtes sont faites dans
une langue, toutefois, les collections de documents contiennent des documents
dans une ou plusieurs autres langues.
– CLEF (La campange Cross Language Evaluation Forum) a également
proposé plusieurs collections. Elle s’est concentrée sur les langues européennes
et la recherche d’information multilingue.
On trouvera plus de détails sur l’évaluation à base de collections de test dans
(Sanderson, 2010).
2.3.2 Mesures d’évaluation
En RI, la mise au point des modèles passe par une phase expérimentale qui
suppose l’utilisation de métriques qui visent à comparer des modèles entre eux ou
à mettre au point leurs paramètres. Les deux métriques de base les plus utilisées
pour évaluer l’efficacité de la RI sont la précision et le rappel. Celles-ci sont définies
pour le cas simple où un système renvoie un ensemble de documents vis-à-vis d’une
requête (Voorhees, 2006).
La mesure de précision calcule la capacité du système à rejeter tous les documents
non pertinents pour une requête. Elle est donnée par le rapport entre les documents
sélectionnés pertinents et l’ensemble des documents sélectionnés :
Précision =
|Documents pertinents restitués|
|Documents restitués|
∈ [0, 1] (1.11)
Le rappel calcule la capacité du système à restituer le maximum de documents
pertinents pour une requête. Il mesure la proportion de documents pertinents restitués
par le système relativement à l’ensemble des documents pertinents contenus
dans la base documentaire. Il est exprimé par :
Rappel =
|Documents pertinents restitués|
|Documents pertinents|
∈ [0, 1] (1.12)
Le rappel et la précision sont calculés indépendamment de l’ordre dans lequel
les résultats sont représentés (ce sont des mesures ensemblistes). Des mesures tenant
compte de l’ordre des documents sont également nécessaires. Elles permettent
26CHAPITRE 1. RI SOCIALE
par exemple d’évaluer des systèmes tels que les moteurs de recherche du web où
l’ordre d’apparition des documents est crucial. À cet égard, les mesures principales
proposées sont la précision@X et la précision moyenne.
La précision@X est la précision à différents niveaux de coupe de la liste. Cette
précision mesure la proportion des documents pertinents retrouvés parmi les X premiers
documents restitués par le système.
La précision moyenne est la moyenne des valeurs de précisions après chaque
document pertinent. Elle se focalise en particulier sur les document pertinents classés
dans les premiers rangs.
APq =
1
R
X
N
i=1
p(i) × R(i) (1.13)
Où R(i) = 1 si le ième document restitué est pertinent, R(i) = 0 si le ième
document restitué est non pertinent, p(i) la précision à i documents restitués. R le
nombre de documents pertinents pour la requête q et N le nombre de documents
restitué par le système.
La moyenne des précisions moyennes (Mean Average Precision-MAP) est
obtenue sur l’ensemble des requêtes :
MAP =
P
q∈Q APq
|Q|
(1.14)
avec APq est la précision moyenne d’une requête q, Q est l’ensemble des requêtes
et |Q| est le nombre de requêtes. Cette mesure peut être qualifiée de globale
puisqu’elle combine différents points de mesure.
Il existe plusieurs autres mesures qui peuvent servir à évaluer les SRI. Nous
pouvons citer par exemple la F-mesure, la R-précision, la BPREF (Binary
PREFerence-based measure), la MRR (Mean Reciprocal Rank) détaillées dans
(Sanderson, 2010).
Nous avons vu dans cette section que les approches classiques de RI se basent
généralement sur la fréquence des termes, que ce soit dans les documents ou dans
le corpus, pour mesurer la pertinence. En outre, un document est considéré uniquement
par son contenu présenté comme un sac de mots. Cependant, avec l’évolution
des techniques du web 2.0, un document peut être représenté, non seulement par
son contenu, mais aussi par d’autres informations sociales telles que ses liens avec
les autres documents, des annotations, les commentaires des utilisateurs. . . Nous
présentons dans la section suivante les différentes approches de RI utilisant ces informations
sociales.
27CHAPITRE 1. RI SOCIALE
3 Utilisation des informations sociales en RI :
RI sociale
La RI sociale consiste à adapter les modèles et les algorithmes de la RI classique
en exploitant les informations sociales. Il s’agit de satisfaire les besoins d’information
des utilisateurs en exploitant par exemple les connaissances des utilisateurs experts
ou bien les expériences de recherche des autres utilisateurs. Cet objectif se réalise
concrètement en considérant les annotations sociales (Peters et al., 2011), l’analyse
des réseaux sociaux (Kazai et Milic-Frayling, 2008), les jugements de pertinence
subjectifs (Xu et al., 2007) et la recherche collaborative(Karamuftuoglu, 1998) dans
le processus de la RI. Comme le montre la figure 1.3, les informations sociales peuvent
être exploitées au sein même du modèle de RI (modèle de document et de requête,
fonction de pondération / de correspondance), ou en aval de ce modèle (reclassement
de la liste des résultats) et même comme une source parmi d’autres dans le web.
Document
Indexation
Représentation interne
des documents
annotations
blogs et microblogs
bookmarks
clics
Utilisateurs Interactions Information sociale
Requête
Interprétation
Représentation
interne de la requête
Fonction de correspondance
Côté utilisateur Côté documents
Exploitation
Reformulation de requêtes
Profil utilisateur
Facteurs de pertinence
Enrichissement des documents
Figure 1.3 – Exploitation de l’information sociale dans la RI
Dans cette section, nous nous focalisons sur l’impact de l’information sociale sur
le processus de RI. L’objectif étant d’améliorer la qualité des résultats, les informa-
28CHAPITRE 1. RI SOCIALE
tions sociales sont employées à plusieurs niveaux. Nous pouvons classer les approches
exploitant l’information sociale en fonction du niveau de leur utilisation (côté utilisateur
ou côté documents ; figure 1.3). D’une part, ces informations ont été ainsi
employées du côté de l’utilisateur pour reformuler les requêtes ou bien pour définir
un profil et contextualiser les résultats. D’autre part, du côté des documents, les
informations sociales ont été utilisées pour enrichir la représentation des ressources
documentaires.
3.1 Côté utilisateur
L’idée est d’améliorer l’efficacité des SRI en exploitant le contexte de l’utilisateur.
Ceci se réalise en tenant compte des informations sur l’utilisateur (telles que son
profil ou ses informations personnelles) dans le processus de recherche ou bien en
améliorant la représentation de son besoin d’information, dans le but de retrouver
des résultats plus spécifiques et plus raffinés. Ainsi, plusieurs travaux ont exploité
l’information sociale comme moyen de reformulation de requêtes ou de création de
profil pour une recherche personnalisée.
3.1.1 Information sociale pour la reformulation de requêtes
La reformulation de requêtes est vue comme un traitement pour élargir le champ
de recherche pour une requête. Une requête étendue va contenir plus de termes reliés
permettant d’une part de désambiguïser les mots initiaux et connaître exactement
leurs sens, et d’autre part d’augmenter les chances de restituer le maximum de
documents pertinents.
L’information sociale peut ainsi être utilisée pour étendre les requêtes. Koolen
et al. (2009) proposent une approche d’expansion de requêtes utilisant Wikipédia
comme collection externe. Ils appliquent ensuite cette approche dans la recherche
de livres. D’autres pistes concernant le « Pseudo-Relevance Feedback » à partir
de Wikipédia ont été explorées, notamment par l’approche de Y. Li et al. (2007)
qui traite les requêtes dites « faibles ». Ces requêtes ne permettent pas de récupérer
suffisamment de documents pertinents lors de la première recherche. Cette approche
a montré une amélioration de qualité, en particulier sur les premiers documents
renvoyés.
Bai et al. (2007) ont utilisé ODP (Open Directory Project) 17 afin de contextualiser
les besoins d’information. L’idée est d’étendre les requêtes avec des ensembles
de mots extraits de documents du feedback. L’ensemble du feedback est composé de
documents qui sont pertinents ou pseudo-pertinents par rapport à la requête initiale,
et qui sont à même de contenir des informations importantes sur le contexte
17. http://www.dmoz.org/
29CHAPITRE 1. RI SOCIALE
de la recherche. Les mots exprimant le plus d’information par rapport à la requête
sont traités comme des concepts implicites. Ils sont alors utilisés pour reformuler la
requête.
3.1.2 Information sociale pour la création de profil
et la recherche personnalisée
Un profil d’utilisateur est constituée des préférences de restitution de l’utilisateur,
ainsi que des contraintes sur les résultats présentés. Les informations sociales
ont également été utilisées pour créer les profils des utilisateurs. Les profils sont
par la suite utilisés pour définir un contexte de restitution permettant de sélectionner
des résultats personnalisés. Les éléments souvent utilisés pour créer le profil
d’un utilisateur sont ses relations sociales, ses annotations et ses activités dans les
plate-formes sociales. Les profils à base d’informations sociales ont été utilisés, par
exemple, pour faciliter la personnalisation des recherches à partir d’un environnement
de marquage collaboratif. Cai et Li (2010) se sont concentrés sur l’exploration
de recherches personnalisées à travers la proposition d’une approche qui permet de
créer des profils d’utilisateurs basés sur les tags, ainsi que la création de profils des
ressources à rechercher.
L’information sociale peut être utilisée pour personnaliser la recherche. Carmel
et al. (2009), de leur côté, exploitent les relations sociales de l’utilisateur. Les ré-
sultats d’une recherche sont de nouveau classés en fonction des relations avec des
personnes dans le réseau social de l’utilisateur. Les auteurs ont étudié l’impact de
plusieurs types de réseaux sociaux pour la personnalisation : (1) réseau basé sur
les connaissances liées à l’utilisateur via une connexion de familiarité ; (2) réseau de
personnes « similaires » à l’utilisateur et qui ont des activités sociales semblables,
(3) le réseau global représenté par les deux types de relations.
Les informations sociales sont également utilisées dans les moteurs de recherches
du web. Google, par exemple, propose un outil pour chercher dans les information du
réseau social. En choisissant « résultats personnels » (figure 1.4), un internaute est
susceptible de retrouver les profils et les documents partagés par son cercle social, que
ce soit celui de Google+ 18, de Twitter, de flickr 19. . . Google propose également des
utilisateurs qui semblent avoir les mêmes centres d’intérêts. Bing propose également
son outil de recherches social Bing social search (figure 1.5). Cette fonctionnalité
permet non seulement d’exploiter le réseau social pour valoriser les résultats du
cercle, mais également de retrouver des personnes expertes et susceptibles de disposer
des meilleures informations sur le sujet cherché. Bing exploite la majorité des plate-
18. https://plus.google.com/
19. https://www.flickr.com/
30CHAPITRE 1. RI SOCIALE
formes sociales tels que Facebook 20, Twitter, Klout 21 et même Google+.
Figure 1.4 – Résultats à partir du cercle social dans Google
Figure 1.5 – Recommandation de profils expert sur le sujet recherché sur Bing
3.2 Côté documents
L’idée sous-jacente à l’utilisation des informations sociales du côté des documents
est de ramener des informations supplémentaires pour enrichir la représentation des
contenus recherchés ou bien pour les utiliser comme des facteurs de pertinence.
3.2.1 Information sociale pour l’enrichissement des ressources
documentaires
Les commentaires et les tags réalisés par un utilisateur du web sur les contenus
publiés par les autres utilisateurs dépendent fortement de ses connaissances et ses
centres d’intérêts. Ainsi, ces données représentent une valeur ajoutée (des métadonnées),
que ce soit pour la création de profil de l’utilisateur ou bien pour enrichir
le contenu et la représentation des documents. Cai et Li (2010) ont utilisé les tags
pour générer des profils des ressources d’informations et des profils des utilisateurs.
20. https://www.facebook.com/
21. https://www.klout.com/
31CHAPITRE 1. RI SOCIALE
La correspondance des deux types de profils a permis d’améliorer la qualité des
résultats.
Les informations sociales ont été utilisées également pour enrichir la représentation
des ressources au moment de l’indexation. Attardi et Simi (2006) ont utilisé
les opinions obtenues de la base lexicale « SentiWordNet » pour enrichir l’index
des documents avec des étiquettes d’opinion. L’intuition est que l’utilisation des
étiquettes marquant l’opinion permet de surpondérer les scores pour les documents
qui ne seraient pas sélectionnées avec un simple calcul statistique sur les fréquences
d’occurrence. Cet enrichissement de l’index permet d’améliorer le rappel.
3.2.2 Information sociale comme facteur de pertinence
Le contenu social a démontré son avantage pour l’amélioration et l’enrichissement
des contenus. De même, ces contenus sont utilisés au niveau de la mesure de la
pertinence d’un document, comme un facteur parmi d’autres.
Bao et al. (2007) ont trouvé que le social bookmarking peut améliorer les recherches
sur le web selon deux aspects : 1) les annotations représentent généralement
de bons résumés pour les pages web correspondant ; 2) le nombre d’annotations indique
la popularité des pages web. Ainsi, deux nouveaux algorithmes sont proposés
pour intégrer les facteurs ci-dessus dans le classement de la page : 1) SocialSimRank
(SSR) calcule la similarité entre les annotations sociales et les requêtes ; 2) SocialPageRank
(SPR) capte la popularité des pages web en fonction des annotations qui
y sont réalisées (Bao et al., 2007).
D’autres travaux ont relié la pertinence avec l’importance de leurs auteurs. En
fait, plus l’auteur est populaire, plus l’information est fiable. La popularité d’un
auteur est ainsi mesurée à travers ses informations sociales. C’est l’exemple de l’approche
de Macdonald et Ounis (2006), qui ont proposé un modèle de recherche
d’information mesurant la pertinence en fonction de l’expertise de son auteur par
rapport au besoin d’information. Ils supposent que chaque document représente
un vote pour chaque personne qui le cite. C’est le cas également de l’approche de
Korfiatis et al. (2006) qui ont évalué les documents de Wikipédia à travers la popularité
de leurs auteurs. Pour ce faire, ils ont construit un modèle du réseau social de
Wikipédia et ont défini des mesures de qualité telles que la centralité des auteurs.
Les auteurs ont trouvé que cette méthode d’évaluation est prometteuse, particuliè-
rement avec les articles traitant de sujets susceptibles d’exposer différents points de
vus, tels que les sujet politiques. Kazai et Milic-Frayling (2008) ont défini la notion
de confiance accordée à un auteur. Cette confiance reflète la pertinence du document
publié par l’auteur. Elle se calcule à travers la centralité du nœud du sous-graphe
d’un auteur. Ce sous-graphe est obtenu à partir du graphe composé par plusieurs
acteurs (auteurs, éditeurs et consommateurs), ainsi que des liens de données (publi-
32CHAPITRE 1. RI SOCIALE
cations) et des différentes relations sociales (tels que les collaborations, les citations
et les annotations entre les différents acteurs).
Outre l’expertise, la popularité et la confiance, les informations sociales sont
utilisées comme facteur de pertinence relié à la fraîcheur de l’information. Dong,
Zhang, et al. (2010) ; Dong, Chang, et al. (2010) ont proposé d’utiliser les informations
publiées sur les plate-formes de microblogging pour détecter les nouvelles
URLs qui sont susceptibles de ne pas être encore indexées par les moteurs de recherche.
Les auteurs ont également utilisé les informations sociales obtenues à partir
des plate-formes de microblogging comme des mesures de pertinence et de qualité
des documents pointés par les URLs.
4 Conclusion
Nous avons présenté dans ce chapitre l’information sociale dans le Web, développée
avec l’évolution des technologies du Web 2.0. Nous avons ensuite décrit les
concepts de base de la RI classique et, en particulier, ceux que nous utilisons dans
nos travaux. Enfin, nous avons discuté l’impact de l’évolution de ces informations sociales
sur le processus de RI, ainsi que leur emploi dans le but d’améliorer l’efficacité
des SRI.
Outre l’amélioration des résultats de la RI, l’information sociale s’est imposée
comme une source d’information parmi d’autres dans le Web 22. La forte demande
en égard à cette source d’information réclame l’adaptation des approches de RI dans
les différentes tâches (par exemple, la détection d’opinion, la recherche d’expert, la
recherche adhoc. . . ) sur les informations sociales. Dans le chapitre suivant, nous
présentons un aperçu des différentes tâches de RI sur l’information sociale, ainsi
qu’un aperçu des approches de l’état de l’art. Nous nous focalisons uniquement
sur les informations publiées sur la plate-formes de microblogging Twitter, celle-ci
constituant le cadre applicatif de notre travail.
22. Par exemple, il y a en moyenne 2 milliards requêtes soumises sur Twitter par jour (contre 5
milliards sur Google) : http://www.statisticbrain.com/
33CHAPITRE 1. RI SOCIALE
34Chapitre 2
RI dans les microblogs
Nous présentons dans ce chapitre la recherche d’information dans les microblogs,
et en particulier, la recherche adhoc de microblogs. Les microblogs sont une forme
réduite des blogs. Ils représentent une source d’information récente. Les utilisateurs
emploient des plate-formes de microblogging pour partager et accéder à des microblogs.
Ces plate-formes prennent la forme de réseaux sociaux qui se distinguent par
des interactions sociales intenses et une diversité dans les sujet discutés, par rapport
aux autres sources d’information.
Il existe plusieurs plate-formes de microblogging. Les 5 plate-formes les plus
utilisées 1
sont Twitter, FriendFeed 2
, Tumblr 3
, Posterous 4
et Identi.ca 5
. Parmi elles,
Twitter est sans conteste la plus utilisée. Cette plate-forme compte plus de 650
millions d’utilisateurs, publiant en moyenne 58 millions de tweets par jour. Twitter
est utilisé également comme source d’information. En moyenne, 2,1 milliards de
requêtes sont soumises chaque jour sur son moteur de recherche.
La RI dans les microblogs est différente de la recherche dans le Web. Ceci est
dû aux différences de forme des microblogs par rapport aux documents du web, à
la spécificité de leur contenu et également aux motivations des recherches (information
fraîches. . . ). Les travaux de la littérature qui portent sur la RI dans les
microblogs peuvent être regroupés en deux catégories. La première porte sur l’étude
des caractéristiques et l’analyse statistique des microblogs. Kwak et al. (2010), par
exemple, ont étudié les spécificités linguistiques, démographiques, topographiques
et spatio-temporelles des microblogs. La seconde porte sur les tâches de recherche
d’information au sens large (accès à l’information) dans les microblogs. Notre travail
s’inscrivant dans la seconde catégorie, nous détaillerons plus particulièrement dans
ce chapitre les tâches de RI dans les microblogs. Auparavant, nous commençons
1. http://www.gurugrounds.com/uncategorized/top-10-microblogging-sites/
2. http://friendfeed.com/
3. https://www.tumblr.com/
4. http://www.posterous.com/
5. https://identi.ca/
35CHAPITRE 2. RI DANS LES MICROBLOGS
par présenter les spécificités des plate-formes de microblogging et des microblogs,
en s’attachant au cas de Twitter. Nous considérons cette plate-forme étant donné
qu’elle représente le cadre applicatif de tous les travaux de la RI dans les microblogs
de l’état de l’art, d’une part, et, d’autre part, parce qu’elle est la plus utilisée dans le
monde réel. Les autres plate-formes de microblogging ont pratiquement les mêmes
spécificités et le même principe de fonctionnement.
1 Présentation et spécificités des plate-formes de
microblogging : cas de Twitter
1.1 Présentation générale de Twitter
Twitter est l’exemple le plus populaire des plate-formes de microblogging. Ces
plate-formes sont les réseaux sociaux les plus récents du Web 2.0. Elles sont considé-
rées comme une nouvelle forme de blogs, où les informations diffusées sont courtes et
publiées plus rapidement. Ces informations concernent différents sujets. Les utilisateurs
parlent de leur quotidien, des événements, des tendances. . . parfois à la mode
SMS et en partageant des messages de faible longueur (par exemple 140 caractère
au plus dans le cas de Twitter).
Twitter a connu une croissance exponentielle durant ces dernières années. Nous
présentons ci-dessous les principales spécificités de cette plate-forme, ainsi que l’information
qui y est produite.
1.1.1 Lancement et évolution
L’idée de base de Twitter est de permettre aux amis, aux familles et aux collaborateurs
de communiquer et de rester connectés en partageant des réponses rapides et
fréquentes (tweets) à la question : Quoi de neuf ? Plusieurs études (Java et al., 2007 ;
Mischaud, 2007) ont cependant montré que les utilisateurs de Twitter dépassent ce
premier objectif, en documentant dans leurs messages leur vie quotidienne, en partageant
des hyperliens et en commentant des événements. Ces pratiques ont transformé
le microblogging. C’est désormais un moyen de partager son état d’esprit personnels,
mais aussi de publier des histoires et des nouvelles, pour exprimer ses opinions,
pour discuter sur différents sujets dans des contextes sociaux, économiques et même
politiques. . .
Lancée en octobre 2006, la plate-forme comptait 94,000 utilisateurs en avril 2007 6
pour atteindre 200 millions en 2012 7
. Au début de 2014, Twitter compte plus de
6. http://usatoday.com/tech/webguide/2007-05-28-social-sites_N.htm
7. http://www.bbc.co.uk/news/business-12889048
36CHAPITRE 2. RI DANS LES MICROBLOGS
645 millions d’utilisateurs actifs 8
.
Concernant le trafic, le nombre de tweets publiés croît tous les jours. En mars
2007, en moyenne, les microbloggeurs publient 20 000 tweets par jour 9
. Ce nombre
a évolué pour atteindre 50 millions en janvier 2010. Aujourd’hui, le nombre de
tweets par jour peut atteindre 500 millions 10
.
Outre la publication de tweets, les microbloggeurs exploitent cette plate-forme
pour chercher des informations récentes sur des sujets particuliers. En 2011, le
nombre de requêtes soumises au moteur de recherche de Twitter était de l’ordre
de 1,6 millions de requête par jour 11. Ce nombre a évolué pour atteindre 2,1 milliards
de requêtes 12 par jour en 2013.
Avec cette évolution, Twitter s’est rapidement positionné parmi les premières
sources d’information utilisées sur le Web. Le tableau 2.1 liste le nombre de requêtes
soumises à Google, Twitter et Facebook chaque jour. Le nombre de requêtes soumise
à Twitter correspond à 42 % des requêtes soumises à google. Ce chiffre montre
l’importance de Twitter en tant que source d’informations et la dépendance des
utilisateurs à cette source d’information.
Source Année Nb de requêtes
Google 2013 5,1
Twitter 2013 2,1
Facebook 2012 1,0
Tableau 2.1 – Nombre de requêtes par jours (en milliard). Chiffres obtenus du site
http://statisticbrain.com
1.1.2 Concepts et fonctionnement des plate-formes de microblogging
La figure 2.1 montre l’interface de Twitter. L’interface est composée de plusieurs
sections. Dans la section Tweets appelée également Timeline, un utilisateur peut
voir le flux de ses tweets ainsi que ceux de ses amis, triés par ordre chronologique
inverse. On peut remarquer également une section de tendances qui contient les
10 sujets les plus populaires dans Twitter à un moment donné. L’utilisateur peut
consulter les tendances du monde entier, comme il peut se focaliser sur un endroit
8. http://www.statisticbrain.com/twitter-statistics/
9. http://www.begeek.fr/twitter-90-millions-de-tweets-par-jours-21210
10. http://www.blogdumoderateur.com/statistiques-twitter-entree-en-bourse/
11. http://engineering.twitter.com/2011/05/engineering-behind-twitters-new
-search.html
12. http://www.statisticbrain.com/twitter-statistics/
37CHAPITRE 2. RI DANS LES MICROBLOGS
plus spécifique. La plate-forme suggère également des utilisateurs qui ont des centres
d’intérêts similaire à l’utilisateur courant dans la section suggestions.
Figure 2.1 – L’interface graphique utilisateur de Twitter
En s’inscrivant sur une plate-forme de microblogging, un utilisateur fournit plusieurs
informations telles que sa photo, sa localisation, son site Web et une courte
bibliographie (figure 2.2). Dans la bibliographie, les utilisateurs décrivent généralement
leurs activités et leurs centres d’intérêt. Ces informations sont ensuite probablement
utilisées par les plate-formes dans la recommandation des utilisateurs.
La figure 2.3 donne un exemple d’utilisation d’une plate-forme de microblogging.
Un utilisateur A peut suivre le flux de microblogs envoyés par un utilisateur C sans
lui demander la permission (sauf pour les comptes privés que nous ne détaillons pas
ici). Les relations entre utilisateurs des réseaux sociaux sont appelées des abonnements.
Si A est abonné à C, alors A est appelé abonné (follower) de C (followee)
et reçoit automatiquement toutes les publications de C dans sa timeline. Les relations
d’abonnement peuvent être unilatérales (dans un seul sens), mais également
bilatérales (dans les deux sens) si C s’abonne à son tour à A. On parle dans ce cas
d’une relation d’amitié. Si un microbloggeur diffuse un message, tous ses abonnés
38CHAPITRE 2. RI DANS LES MICROBLOGS
Figure 2.2 – Informations des comptes utilisateurs sur Twitter
le reçoivent. Un microbloggeur peut également envoyer un message direct et privé
à l’un de ses amis (direct message). Si le microbloggeur partage un message pour
la première fois, le message sera un tweet, sinon, s’il le rediffuse, le message sera un
retweet et il va contenir dans ce cas la mention RT. En rediffusant un microblog,
un microbloggeur peut y ajouter de l’information complémentaire. Finalement, et
comme indiqué plus tôt, un utilisateur peut en mentionner un autre dans un message
(@mention).
Les individus ne sont pas les seuls propriétaires de comptes. Les entreprises ou
encore les sites d’information sont aujourd’hui très présents sur les plate-formes de
microblogging.
1.1.3 Système temps-réel
L’une des spécificités fondamentale des plate-formes de microblogging est leur
nature temps-réel : la présentation des publications (timeline), la présentation des
résultats de recherches, le traitement du contenu publié. . .
39CHAPITRE 2. RI DANS LES MICROBLOGS
Figure 2.3 – Exemple d’utilisation de Twitter (avec tweets, retweets, abonnements
et hashtags)
1.1.3.1 Timeline Twitter, comme les autres plate-formes de microblogging, est
un système temps-réel par excellence dont la fraîcheur est la spécificité la plus importance.
Cette spécificité peut être aperçue à plusieurs niveaux :
– Un utilisateur, en accédant à sa page, reçoit en temps-réel les microblogs de
ses abonnés. Ces microblogs défilent sur sa page et le plus récent s’affiche au
début de la file.
– Pour répondre à un besoin d’information, le moteur de recherche de Twitter
affiche les tweets-résultats par ordre chronologique inverse (des plus récents
aux plus anciens). Si à un moment donné un nouveau microblog pertinent est
publié, l’utilisateur reçoit une notification pour l’afficher (figure 2.4).
Figure 2.4 – Notification sur l’apparition de nouveaux résultats dans Twitter
– En dépit de la quantité de microblogs publiée chaque seconde, un système de
microblogging indexe ces contenus et les rend disponibles à tous les utilisa-
40CHAPITRE 2. RI DANS LES MICROBLOGS
teurs à l’instant même de leur publication. Ceci représente une révolution par
rapport aux autres sources d’information du Web. Google, par exemple, met
jusqu’à une semaine pour indexer une page Web 13. Wikipédia met jusqu’à une
année pour inclure des modifications sur ses pages (Frank et al., 2013, 2012).
1.1.3.2 Usage temps-réel Alors que les blogueurs mettent à jour leurs blogs
une fois tous les quelques jours, les microbloggeurs postent généralement plusieurs
microblogs chaque jour (Java et al., 2007), en particulier pour décrire des événements
qui se déroulent au moment de l’écriture du microblog. Ainsi, les microblogueurs
peuvent savoir à tout moment ce que les autres microblogueurs sont en train de
faire ou à quoi ils sont en train de penser.
Un grand nombre de tweets publiés sur Twitter ont rapport à des événements.
Il peut s’agir d’événements sociaux tels que des fêtes, des compétitions sportives et
des campagnes présidentielles. Il peut également s’agir de catastrophes telles que
des tempêtes, des incendies, des émeutes, des fortes pluies et des tremblements de
terre, ou bien tout simplement d’informations sur des embouteillages (Endarnoto
et al., 2011). Twitter est un outil de notification temps-réel de tous se qui se passe
dans le monde. C’est un moyen rapide et fiable pour transmettre les informations
dans des situations critiques nécessitant des interventions d’urgence (incendies par
exemple). Twitter a été ainsi utilisé par les victimes des incendies en Californie 14 et
en Australie en 2009, pour décrire exactement la situation et aider les autres victimes
en transmettant les informations utiles aux secours. Twitter peut également être
utilisé pour faire du reportage temps-réel, comme cela a été le cas lors des conflits
produits à la suite des élections présidentielles en Iran en 2009, malgré le contrôle
imposé aux médias traditionnels par les autorités iraniennes 15
.
Outre sa fonction de moyen de diffusion de l’information, la quantité gigantesque
d’information publiée dans Twitter est utilisée aussi comme ressource statistique
pour détecter, de manière continue, les tendances, l’humeur des gens, les opinions
des consommateurs (Jansen et al., 2009a ; O’Connor et al., 2010) et même leurs
convictions politiques (Tumasjan et al., 2010).
1.2 Spécificités des microblogs
Jansen et al. (2009b) ont réalisé une étude linguistique sur Twitter. Ils ont trouvé
qu’un tweet contient en moyenne 15 mots. Ce chiffre est extrêmement faible comparé
aux autres sources d’information du Web. Les articles de Wikipédia, par exemple,
13. http://referencement-alsace.fr/
14. A. Bloxham, “Facebook more effective than emergency services in a disaster,” The Daily
Telegraph, December 20, 2008.
15. M. Musgrove, “Twitter is a player in Iran’s drama” The Washington Post, July 09, 2009.
41CHAPITRE 2. RI DANS LES MICROBLOGS
possèdent en moyenne 320 termes par article 16. Cette particularité représente un
défi pour les techniques de recherche d’information classiques qui se basent principalement
sur les fréquences des termes dans les documents.
Figure 2.5 – Tweet posté par @florencesantrot contenant une image et des hashtags
(#Apple #iphone6cost1k). Il a été retweeté sept fois et favori une fois.
Un microbloggeur peut inclure différents types de signes dans un tweet, en plus
du contenu textuel. Ces pratiques ont peu à peu évoluées pour devenir des « normes
de balisage » :
– @ suivi du nom d’utilisateur permet d’indiquer qu’on mentionne ou s’adresse
à une personne particulière (représenté par son compte),
– # suivi par un mot est un hashtag. Un hashtag indique un mot important que
le système peut utiliser pour permettre une recherche par navigation (figure
2.5). Les hashtags permettent de catégoriser les microblogs selon un contexte
(événement, lieu, etc.) : par exemple, certaines émissions télévisées définissent
des hashtags spécifiques à utiliser par les microbloggeurs souhaitant exprimer
leurs avis sur le sujet de l’émission. Les conférences scientifiques définissent
également des hashtags permettant, d’une part, aux participants de partager
leurs remarques et, d’autres part, aux gens de l’extérieur de suivre ce qui se
passe dans la conférence en temps-réel.
– Les microblogs peuvent également contenir des URL. Ces hyperliens prennent
16. http://en.wikipedia.org/wiki/Wikipedia:Words_per_article
42CHAPITRE 2. RI DANS LES MICROBLOGS
une forme courte en raison du nombre limité de caractères autorisés par microblog.
Il existe deux services très connus pour créer la forme réduite des URL :
bit.ly et tinyurl.com. Dans le cas où l’URL correspond à une image, Twitter af-
fiche un aperçu de cette image dans l’interface de l’utilisateur comme le montre
la figure 2.1.
– Les internautes peuvent mettre des photos dans leurs microblogs (figure 2.5).
En cliquant dessus, l’utilisateur pourra voir la photo en taille normale.
Outre les données postées explicitement par les microbloggeurs, les microblogs
contiennent également des méta-données de différentes natures :
– de géolocalisation : les microblogs publiés à travers les terminaux mobiles équipés
de GPS fournissent des informations de géolocalisation. Ces informations
permettent de localiser l’endroit duquel lequel le microblog a été publié.
– d’horodatage : chaque microblog est caractérisé par sa date de publication.
Cette information est utilisée pour mesurer sa fraîcheur s’il fait partie d’une
liste de résultats d’une recherche.
– d’auteur : Les plate-formes de microblogging stockent le compte depuis lequel
est publié chaque microblog. Ceci permet aux utilisateurs de trouver les
microblogs d’un auteur en particulier.
– de favoris : on peut savoir, pour chaque microblog, combien de fois il a été
choisi dans les listes de favoris des autres utilisateurs (figure 2.5) ainsi que
l’ensemble des utilisateurs qui l’ont sélectionné.
– de rediffusion : RT indique que le message est rediffusé. Le mécanisme de rediffusion
permet aux utilisateurs de partager de nouveau des microblogs qu’ils
trouvent intéressants parmi les microblogs publiés par leurs amis (par exemple,
RT @mashable Top 10 Twitter Trends This Week http ://on.mash.to/eA2jY5).
Dans Twitter, on peut connaître le nombre de fois qu’un tweet a été retweeté
(figure 2.5). On peut également accéder à la liste des utilisateurs qui ont retweeté
un tweet donné.
1.3 Spécificités des recherches dans les microblogs
Le moteur de recherche de microblogs est spécifique au niveau des données en
entrée ou des résultats. D’une part, outre des mots-clés, un utilisateur peut mélanger
des comptes utilisateurs, des hashtags et même des URLs, dans sa recherche. La
figure 2.6 montre les suggestions de différents types de données de recherche de
Twitter.
D’autre part, les résultats affichés diffèrent en fonction du type de données utilisées
: si l’utilisateur sélectionne un compte utilisateur parmi la liste des suggestions,
l’interface affichera le profil de ce compte (ses informations et ses tweets). Dans les
autres cas, l’interface affichera une liste de microblogs contenant les termes, le hash-
43CHAPITRE 2. RI DANS LES MICROBLOGS
Figure 2.6 – Suggestion de différents type de résultats dans le moteur de recherche
de Twitter : des mots-clés, des hashtags, des comptes utilisateurs sont présentés.
tag ou l’URL recherchée. Les résultats sont présentés par défaut dans l’ordre chronologique
inverse. Cependant, l’utilisateur peut choisir d’afficher tous les résultats,
comme le montre la figure 2.4. Les microblogs sont alors triés selon toute probabilité
de pertinence telle que leur popularité (fréquence de favoris et de retweets).
Teevan et al. (2011) ont étudié les motivations des utilisateurs pour chercher les
informations sur Twitter. Ils ont également identifié les pratiques de recherche des
microblogueurs. En observant les pratiques de 54 utilisateurs actifs de Twitter, ils
ont constaté que les internautes cherchent dans Twitter pour avoir :
– Des informations récentes : 49 % des participants ont cherché des informations
sur les actualités, les sujets « tendance », les événement récents, le trafic routier,
les accidents du quartier. . . .
– Des information sociales : 26 % des participants ont cherché des informations
sur d’autres utilisateurs, tels que ceux qui ont des intérêts similaires, ou même
ce que dit un utilisateur en particulier.
– Des information sur des sujets, qui s’apparentent aux recherches souvent effectuées
sur les moteurs de recherche du Web. 36 % des participants ont cherché
des sujets spécifiques.
Les auteurs ont également analysé les logs de moteurs de recherche pour identifier
44CHAPITRE 2. RI DANS LES MICROBLOGS
les différences entre les recherches effectuées sur Twitter et celles effectuées sur les
moteurs de recherche du Web. Les différences se manifestent à plusieurs niveaux :
– au niveau des requêtes (Twitter/Web) : sur la longueur des requêtes (1,6/3
mots), sur la présence de noms de célébrités (15 %/3 %), ou de « # » (21 %/0,1 %).
– au niveau de l’importance des requêtes : en moyenne, chaque requête est soumise
2 fois sur le web, et 3 fois dans Twitter. Ceci peut être dû aux tendances
présentées par la plate-forme sous forme de liens permettant d’obtenir les
tweets récents sur les sujet tendances.
– au niveau des sessions de recherches de Twitter qui sont plus courtes que celles
réalisées sur le Web, que ce soit sur le temps ou sur le nombre de requêtes.
Dans Twitter, une session consiste souvent en la surveillance des tweets sur
une requête particulière, en actualisant les résultats sur une période de temps.
En d’autre termes, les utilisateurs ont tendance à actualiser les résultats pour
avoir l’information récente, sans attendre les notifications de la plate-forme.
Pour conclure, les plate-formes de microblogging (Twitter en particulier), repré-
sentent un nouveau type de source d’information en pleine évolution grâce à un
ensemble de caractéristiques spécifiques :
– de fonctionnalité, telles que le partage d’information temps-réel, les abonnements
sans restriction, etc. Ces nouvelles fonctionnalités ont popularisé de
nouvelles pratiques comme le suivi de l’actualité de célébrités, la réalisation de
campagnes électorales, l’analyse de l’humeur et des avis des gens en temps-réel,
la participation à distance à des conférences, etc.
– de forme, telles que la faible longueur des messages, l’utilisation du jargon du
net, une syntaxe spécifique, etc.
La quantité et la nature des tweets ont suscité de nouveaux usages tant de la
part des individus que des organisations. La section suivante synthétise les travaux
de littérature traitant de l’accès à l’information dans les microblogs.
2 Accès à l’information dans les microblogs
Dans ce paragraphe, nous listons les travaux de l’état de l’art sur la problématique
de l’accès à l’information via Twitter. Nous classons ces travaux en fonction
du type d’information recherché.
2.1 Recherche temps-réel de microblogs
Pour cette tâche, l’utilisateur souhaite obtenir de l’information pertinente la plus
fraîche possible vis-à-vis d’un besoin en information (Ounis et al., 2011). Générale-
45CHAPITRE 2. RI DANS LES MICROBLOGS
ment, un certain temps s’écoule avant que cette information soit disponible sur le
web et qu’elle soit indexée par les moteurs de recherche (Dong, Zhang, et al., 2010).
Dans la RI temps-réel, la date de publication d’un document est considérée comme
un facteur de pertinence très important, si ce n’est pas le plus pertinent. Une interprétation
possible de cette tâche consiste à trier anti-chronologiquement tous les
documents publiés avant la date de soumission de la requête, et ensuite, à écarter
les documents non pertinents (Ounis et al., 2011). La tâche se réduit donc à l’identi-
fication des caractéristiques des documents pertinents à restituer. Plusieurs travaux
ont proposé des critères utilisés comme facteurs de pertinence supplémentaires à la
pertinence textuelle : la fraîcheur (Magnani et al., 2012 ; Vosecky et al., 2012), la
popularité de l’auteur (Zhao et al., 2011 ; Massoudi et al., 2011), la présence d’URLs
(Vosecky et al., 2012). . . Des études empiriques ont montré que ces critères reflètent
la pertinence lorsqu’ils sont employés en plus de la pertinence textuelle (Damak et
al., 2013). Nous présenterons dans la section suivante un état de l’art des différentes
approches de recherche de microblogs et des approches qui ont utilisé les critères
de pertinence supplémentaires. Nous détaillerons également les différentes manières
avec lesquelles ces critères de pertinences ont été employés.
2.2 Recherche de microbloggeurs
La recherche de microbloggeurs s’apparente à la tâche de recherche d’experts de
la RI classique. Les objectifs sont l’identification des utilisateurs les plus populaires,
ceux qui ont les mêmes centres d’intérêts que l’utilisateur courant, ou bien les experts
dans des domaines spécifiques.
Plusieurs travaux se sont focalisés sur l’identification des utilisateurs les plus populaires
dans les plate-formes de microblogging. Ils se basent sur des méthodes telles
que la centralité calculée au travers du graphe social. À titre d’exemple, TwitterRank
(Weng et al., 2010) est une approche inspirée de l’algorithme PageRank (Brin
et Page, 1998) qui mesure l’influence des utilisateurs sur Twitter. Le score de chaque
utilisateur est mesuré en fonction des scores de ses abonnés. Cette approche prend en
compte les similarités des sujets discutés entre les utilisateurs, ainsi que la structure
des liens d’abonnements. Ben Jabeur, Tamine, et Boughanem (2012) ont mesuré
la popularité d’un auteur en proposant un algorithme semblable à PageRank. Cet
algorithme mesure la popularité d’un auteur dans un réseau formé par les retweets,
les mentions et les réponses. Tunkelang 17 a proposé un modèle qui se base également
sur l’algorithme PageRank. Cependant, il a introduit le facteur de renvoi des
17. http://thenoisychannel.com/2009/01/13/a-twitter-analog-to-pagerank/
46CHAPITRE 2. RI DANS LES MICROBLOGS
messages par les abonnés d’un utilisateur :
P opularité(u) = X
v ∈ abonnés(u)
1 + p ∗ popularité(v)
||Abonnements(v)|| (2.1)
avec abonnés(u) est l’ensemble des utilisateurs abonnés à u, Abonnements(v)
est l’ensemble des utilisateurs auxquels v est abonné et p est la probabilité que
l’utilisateur v va retweeter les tweets de u.
D’autres approches mesurent l’importance des utilisateurs autrement. En analysant
les habitudes de diffusion d’information dans Twitter, Lee et al. (2010) ont
découvert que la diffusion d’information atteint son maximum à son apparition. Le
pic dans le taux de publication est observé au moment de l’apparition de l’information.
Ensuite, ce taux diminue en avançant dans le temps. Par conséquent, ils
ont proposé une approche considérant l’ordre temporel de diffusion de l’information
pour détecter le meilleur diffuseur d’information. L’utilisateur le plus important est
celui qui diffuse souvent les informations en premier.
La majorité des approches proposées prend en compte un ordonnancement statique
de l’importance des utilisateurs. Cependant, Cappelletti et Sastry (2012) considèrent
que, dans un environnement temps-réel, l’importance d’un utilisateur doit
être évolutive. Ainsi, ils ont proposé un modèle qui se base sur le potentiel d’un
utilisateur à amplifier la diffusion d’une information. Cette importance varie avec
l’évolution du réseau social de l’utilisateur. Un utilisateur est d’autant plus important
que l’information qu’il partage est susceptible d’atteindre un grand nombre
d’utilisateurs. Concrètement, ceci est calculé en fonction de deux facteurs : le premier
calcule à quel degré un utilisateur peut être retweeté ou cité par ses abonnés et le
deuxième mesure la taille de l’audience des retweets et des citations de l’utilisateur.
2.3 Détection d’opinions
La détection d’opinion a été souvent étudiée en recherche d’information, particulièrement
dans la recherche de blogs (Pang et Lee, 2008 ; Missen et al., 2009). L’objectif
est de retrouver les documents exprimant des opinions sur le sujet de la requête. La
majorité des approches proposées se basent sur des ressources lexicales comportant
les termes d’opinions telles qu’opinionFinder (Wilson et al., 2005), General Inquirer
lexicon (Hatzivassiloglou et McKeown, 1997) ou SentiWordnet (Baccianella et Sebastiani,
2010). La plupart des approches spécifient des critères (présence de termes
et leurs fréquences, Parts of speech, de syntaxe, de négation. . . ) et exploitent des
techniques d’apprentissage automatique. Les mêmes principes ont été ainsi utilisées
sur les microblogs.
Comme les blogs, les microblogs expriment des opinions (Jansen et al., 2009a).
Shamma et al. (2009) ont montré que la plupart des tweets ont un ton négatif, et
47CHAPITRE 2. RI DANS LES MICROBLOGS
que les microblogs permettent d’obtenir des opinions immédiates et des réactions
sur des produits. Ils ont trouvé également que les tweets peuvent être utilisés pour
annoter les débats politiques avec les opinions des téléspectateurs. Plus précisément,
ils ont constaté que le taux de messages contenant des opinions dans Twitter peut
servir comme un prédicateur de l’évolution des sujets dans l’événement médiatisé.
Bollen et al. (2009) ont modélisé les phénomènes socio-économiques à travers
l’analyse des opinions dans les tweets. Leur liste de phénomènes est composée de
vingt événements de la vie quotidienne, en intégrant le comportement des marchés
boursiers correspondant à l’indice Dow Jones Industrial Average et les indices des
prix du pétrole de West Texas Intermediate. Ils ont trouvé que l’humeur globale
des gens est corrélée avec ces événements. Par exemple, à Thanksgiving, il y avait
plutôt une humeur de joie et rarement des sentiments de fatigue. Durant les élections
présidentielles aux États Unis, il y avait au début beaucoup de doute avant les
élections (sentiments de confusion et de dépression), suivi de sentiments de joie et
de bonheur après la publication des résultats. Un dernier exemple est celui de la
baisse de l’indice de Dow Jones qui coïncide avec les sentiments de dépression.
2.4 Classification thématique des microblogs
L’objectif de la classification thématique de microblogs est de créer des filtres thé-
matiques sur les flux d’information. Ceci est réalisé en identifiant les sujets discutés
dans les microblogs. La classification thématique des microblogs nous permettra,
par extension, de classer les utilisateurs en fonction de leurs centres d’intérêts.
Une première solution pour ce type de problème est de regrouper les microblogs
en fonction des hashtags qu’ils contiennent (Efron, 2010). Ramage et al. (2010)
ont utilisé une implémentation étiquetée et évolutive de Latent Dirichlet Allocation
(Blei et al., 2003) afin d’extraire les tags et de les utiliser pour caractériser les
utilisateurs et les microblogs. Song et al. (2010) se sont basés sur des informations
spatio-temporelles afin d’identifier des tags corrélés. Ces tags sont utilisés par la suite
pour regrouper les tweets et les classifier. Enfin, Bernstein et al. (2010) ont proposé
un algorithme pour détecter précisément les sujets des microblogs. Ce dernier consiste
à détecter les entités nommées dans un microblog et les soumettre à un moteur de
recherche. Le sujet du microblog correspondra alors au terme le plus important dans
les résultats, calculé à travers un algorithme de pondération (T F IDF (Robertson,
2004)).
2.5 Détection de tendances
La détection de tendances vise à identifier automatiquement les thèmes émergeant
qui apparaissent dans le flux de microblogs en temps-réel (R. Li et al., 2012).
48CHAPITRE 2. RI DANS LES MICROBLOGS
Les tendances sont généralement des événements émergents, les dernières nouvelles
et les sujets qui attirent l’attention des utilisateurs. La détection des tendances revêt
donc une grande utilité pour les journalistes et les analystes, car elle leur permet
d’être rapidement actifs sur les sujets « tendances ». Par exemple, lors de l’annonce
de la mort de Michael Jackson le 25 juin 2009, Twitter a été immédiatement inondé
par un énorme volume de commentaires. La détection de tendances est également
importante pour les professionnels du marketing en ligne et les sociétés de suivi
d’opinion, puisque les tendances indiquent des sujets qui captent l’attention du public.
Plusieurs applications ont été développées pour détecter les tendances à partir
de Twitter : Trendsmap 18, What The Trend 19, Twinitor 20 et Twendr 21. D’autres
travaux ont même utilisé Twitter comme un système préventif aux catastrophes. Par
exemple, Sakaki et al. (2010) se sont basés sur Twitter pour créer un système d’avertissement
des tremblements de terre et Lampos et Cristianini (2010) ont utilisé les
tweets pour suivre la propagation des épidémies.
3 Recherche adhoc de microblogs
Le principe de la recherche adhoc de microblogs est similaire à la RI adhoc classique.
Il s’agit de répondre à une requête via un index de microblogs et sélectionner
ceux qui sont pertinents (Efron, 2011a). La différence entre la RI adhoc dans les
tweets et la RI adhoc dans les documents du Web réside dans la nature de l’information
traitée et des sessions de recherches. Ces différences sont principalement
dues aux spécificités des microblogs par rapport aux autres sources d’information et
les motivations des utilisateurs pour chercher dans cette source d’information.
Efron (2011a) a posé la question : quels sont les facteurs reflétant la pertinence
dans la recherche de microblogs ? Les facteurs tels que la popularité de l’auteur et
l’horodatage ont probablement leur importance pour juger l’utilité d’un microblog
par rapport à un autre. Cependant, la manière de considérer ces qualités n’est pas
évidente.
Ainsi, il existe plusieurs facteurs de pertinence à prendre en compte dans la
conception des approches de recherche de microblogs, en plus de la pertinence textuelle
: facteurs sociaux, facteurs de popularité des auteurs, facteurs de fraîcheur,
facteurs liées aux URLs. . . Nous présentons dans cette section les principaux facteurs
de pertinence employés dans la recherche de microblogs ainsi que leurs différents objectifs.
18. http://trendsmap.com/
19. http://whatthetrend.com/
20. http://twinitor.com/
21. http://twendr.com/
49CHAPITRE 2. RI DANS LES MICROBLOGS
3.1 Facteur de pertinence textuelle
Le problème principal de la pertinence textuelle dans la recherche de microblogs
réside dans leur faible longueur. Les modèles de RI classiques qui, de manière géné-
rale, se basent sur des facteurs tels que la fréquence des termes dans les documents
et la longueur des documents, sont limités par la faible longueur des microblogs, où
les termes n’apparaissent pas plus d’une fois.
La majorité des approches de RI dans les microblogs ne tiennent ainsi pas compte
des facteurs de normalisation et de fréquence utilisés dans les modèles de RI classique
: par exemple Che Alhadi et al. (2011) emploient le modèle vectoriel en éliminant
le facteur de la normalisation de la longueur. Massoudi et al. (2011) de leur
coté utilisent uniquement la présence ou l’absence du terme dans le modèle de langue
(LM) à la place de sa fréquence dans le document.
Ferguson et al. (2012) ont étudié l’impact des fréquences et leur normalisation
dans la mesure de la pertinence avec le modèle BM25. Ils ont trouvé que ces facteurs
sont non seulement inefficaces, mais dégradent aussi les résultats d’une tâche de
recherche de microblogs.
Certains travaux ont proposé des méthodes plus sophistiquées pour résoudre le
problème de fréquences et de normalisation. Lin et al. (2012) emploient une méthode
qui se base sur la co-occurrence des termes. Ils construisent un graphe pondéré dont
les nœuds représentent les termes et les liens représentent leurs co-occurrences dans
les tweets de la collection. Ainsi, le score de chaque terme de la requête dans un
microblog est calculé en fonction des poids des liens de ce terme avec les termes du
tweet.
Au lieu d’ignorer les facteurs de fréquences, certaines approches ont essayé d’amé-
liorer la représentation des termes, que ce soit des requêtes ou des microblogs afin de
réduire l’effet de leur faible taille. Plusieurs techniques d’expansion de requêtes ont
été proposées. Kumar et Carterette (2013) ont étendu les requêtes avec les termes
les plus fréquents dans les résultats de la requête initiale. D’autres approches ont exploitées
des critères temporels dans le choix des termes d’extension (Efron, 2011b ;
Miyanishi et al., 2013). Du côté des microblogs, Efron et al. (2012) ont proposé
deux approches pour améliorer leur représentation. La première consiste à enrichir
chaque microblog dans l’index avec les microblogs ayant des contenus similaires.
La deuxième approche exploite les microblogs similaires à chaque microblog pour
lui créer un profil temporel. Ce profil sera utilisé au moment de la restitution des
résultats. McCreadie et Macdonald (2013) et Ben Jabeur et al. (2013), quant à eux,
ont fusionné le contenu du microblog avec le contenu de l’URL, s’il existe.
50CHAPITRE 2. RI DANS LES MICROBLOGS
3.2 Facteur de pertinence social
Étant donné que le microblogging est une forme de réseau social, il est ainsi possible
de traiter le problème de tri des microblogs en exploitant un critère particulier
qui n’est pas (aussi facilement) disponible dans la recherche sur le Web traditionnel,
à savoir le réseau social sous-jacent aux plate-formes. Cette catégorie d’approches
considère que la pertinence est liée à la crédibilité de la source d’information.
La plupart des approches exploitant le réseau social ont défini des critères de
pertinence reflétant l’importance des utilisateurs. Ces critères sont : le nombre de
tweets d’un auteur, le nombre de fois qu’un utilisateur a été retweeté, le nombre de
citations, le nombre d’abonnements, le nombre d’abonnés. . . Si certains travaux ont
combiné ces critères linéairement (Nagmoti et al., 2010 ; Zhao et al., 2011 ; Damak
et al., 2011), d’autres ont utilisé des techniques d’apprentissage : SVM (Joachims,
2005) et Linear Regression dans l’approche de Duan et al. (2010) et RankSVM dans
l’approche de Cheng et al. (2013).
Dans une deuxième catégorie d’approches, des graphes représentant les liens sociaux
ont été générés à partir des plate-formes. Ces graphes représentent différents
types de liens comme le montre la figure 2.7 : utilisateur × utilisateur et dans ce cas
les liens sont les relations d’amitiés (abonnements ou abonnés ou citation), utilisateur
× tweet et dans ce cas les liens représentent les statuts des utilisateurs, tweet
× tweet et dans ce cas les liens représentent les retweets. . . L’approche présentée
dans (Yamaguchi et al., 2010) utilise, par exemple, l’algorithme PageRank (Brin et
Page, 1998) pour mesurer l’importance d’un microbloggeur dans un graphe composé
par les utilisateurs et les tweets. Jabeur et al. (2012) utilisent un modèle bayésien
pour mesurer la pertinence d’un tweet représenté dans un graphe composé par les
termes, les tweets, les utilisateurs et même des périodes temporelles. Ravikumar et
al. (2012), quant à eux, représentent les URLs publiées dans les tweets et les liens
d’hypertextualité entre elles en plus des tweets et des utilisateurs.
Les approches de la deuxième catégorie ont exploité des liens sociaux, de tout
genre, mais en relation avec le tweet lui même. Une troisième catégorie d’approches
exploite les informations sociales de celui qui cherche l’information en plus des informations
sociales reliées aux tweets. L’idée ainsi est de comparer les informations
sociales des deux côtés afin de restituer des résultats personnalisés. Uysal et Croft
(2011) ont mesuré la distance entre l’auteur du tweet et le chercheur d’information
à travers plusieurs critères tels que : l’existence d’une relation directe entre eux,
l’existence d’un retweet ou d’une citation de l’un à l’autre, l’emploi de mêmes hashtags,
la publication de mêmes URLs dans leurs tweets. . . C’est le principe aussi de
l’approche proposée dans (Feng et Wang, 2013). Les auteurs ont utilisé des critères
comme la similarité entre les abonnés de l’auteur du tweet et celui qui le cherche,
puis la similarité entre la date de la dernière interaction entre eux.
51CHAPITRE 2. RI DANS LES MICROBLOGS
Disciple
Retweet
Hypertexte
Microbloggeurs
Tweets Web
Termes
Périodes
Co-occurences
Tweeté par
URL
Cite
Figure 2.7 – Les réseaux constituables à partir des données de Twitter
Les intuitions diffèrent d’une méthode à une autre. Cependant, peu de travaux
ont essayé de comparer les différentes approches. Kwak et al. (2010) ont comparé
deux approches pour mesurer l’importance des utilisateurs. Dans la première approche,
ils ont appliqué l’algorithme PageRank sur le réseau composé par les liens
d’amitié. La deuxième approche estime l’importance d’un utilisateur en fonction de
la fréquence des messages d’un utilisateur retweetés par ces abonnés. L’analyse a
montré un désaccord total entre les résultats de ces deux approches, ce qui montre
que la définition de l’importance d’un utilisateur, dans le cas des microblogs, nécessite
encore beaucoup de recherche.
3.3 Facteur de pertinence temporelle
Pour les requêtes qui concernent les événements et les « buzz », il est crucial de
prendre en compte la fraîcheur des résultats dans la mesure pertinence. Le microblogging,
système temps-réel par excellence, incite les utilisateurs à exprimer leurs
opinions et discuter en temps-réel. Ainsi, la prise en compte du temps est primordiale
dans la recherche de microblogs.
La caractéristique temporelle des microblogs a été employée de différentes manières
et avec différentes intuitions. Les premiers travaux ont tout simplement essayé
de favoriser les microblogs récents. Plus un microblog est proche de la requête, plus
il est susceptible d’être pertinent. Cette intuition est concrétisée en calculant un
score de fraîcheur du document, en termes de différence temporelle entre la date
de la soumission de la requête et la date de publication du document. Ce score est
ensuite intégré dans le modèle de recherche (Massoudi et al., 2011) ou bien utilisé
52CHAPITRE 2. RI DANS LES MICROBLOGS
comme un attribut parmi d’autres dans un modèle d’apprentissage (Cheng et al.,
2013).
Le facteur temporel a été employé également dans les modèles de RI classiques.
Par exemple, Efron et Golovchinsky (2011) se sont basés sur les microblogs récents
pour lisser les scores dans le modèle de langue : le degré de lissage des résultats les
plus éloignés temporellement était plus élevé, afin de favoriser les résultats récents.
Enfin, les résultats récents ont été utilisés pour sélectionner les microblogs représentant
le modèle de pertinence (Efron et Golovchinsky, 2011 ; Kumar et Carterette,
2013).
Outre pour le calcul de pertinence, le temps a été employé dans l’extension des
requêtes. Plus précisément, il est utilisé pour sélectionner le fragment de temps
contenant les documents susceptibles d’avoir des termes utiles pour l’extension. La
meilleure période contenant les documents les plus prometteurs pour l’extension a
été choisie en fonction du taux de tweets publiés sur le sujet de la requête (Efron,
2011b), du taux des tweets retweetés sur le sujet de la requête (Choi et Croft, 2012),
ou bien des tweets qui sont proches temporellement de la requête (Massoudi et al.,
2011). D’autres travaux sont allés plus loin en analysant les variations temporelles
dans la liste des résultats initiaux (Miyanishi et al., 2013). Ainsi, le nombre de
résultats utilisés pour étendre les requêtes de chaque période est proportionnel au
taux de tweets publiés dans cette période sur le sujet de la requête.
Finalement, le temps a été utilisé pour enrichir la représentation et extraire
de l’information supplémentaire des microblogs et des requêtes. En considérant les
dates de publication des microblogs similaires à un microblog, Efron et al. (2012)
génèrent le profil temporel d’un microblog. Ce profil permet de mesurer l’implication
du microblog à des événements qui ont été discutés à différents moments dans le
temps. Ensuite, cette mesure va être comparée avec la distribution temporelle de la
requête en tant que mesure de similarité.
3.4 Facteur de pertinence d’hypertextualité
Les microbloggeurs peuvent partager plusieurs URLs dans leurs microblogs. En
fait, les microbloggeurs partagent également des URLs dans leurs statuts pour attirer
l’attention de leurs amis sur une nouvelle information contenue dans une page
web, souvent pas encore indexée par les moteurs de recherche classiques. Ces pages
représentent ainsi de l’information enrichissante par rapport au seul contenu du
tweet.
Les URLs ont souvent été utilisées dans la restitution des microblogs en réponse
à une requête. La finalité est d’améliorer la qualité des résultats, certes, mais les
manières d’intégrer ces URLs diffèrent d’une approche à une autre. Les URLs ont
été employées dans un premier temps comme facteur de pertinence. En réalité, c’est
53CHAPITRE 2. RI DANS LES MICROBLOGS
leur présence qui reflète la pertinence du tweet pour (Cheng et al., 2013). D’autres
approches ont raffiné le critère en calculant la fréquence plutôt que la présence d’une
URL (Zhao et al., 2011 ; Duan et al., 2010). Ces deux critères ont été employés
avec d’autres, que ce soit dans des combinaisons linéaires ou dans des algorithmes
d’apprentissage. Malgré leur simplicité, ces critères ont montré un fort impact dans
l’amélioration de la qualité des résultats (Damak et al., 2013).
D’autre part, les URLs ont été utilisées comme des éléments parmi d’autres pour
caractériser l’écosystème des plate-formes de microblogging. Le réseau formé par ces
éléments est utilisé pour mesurer la centralité des tweets, ainsi que leur fiabilité
(Ravikumar et al., 2012).
Enfin, le contenu des URLs est utilisé pour enrichir le vocabulaire des tweets,
limités en longueur. Certaines approches ont utilisé le contenu dans la définition du
modèle du document avec le modèle de langue (Zhongyuan et al., 2012). D’autres,
comme McCreadie et Macdonald (2013), ont représenté chaque microblog comme
une composition multidimensionnelle dont les dimensions sont le contenu du microblog
et le contenu des URLs si elles existent. . . . Généralement, quelle que soit la
manière avec laquelle les URLs sont exploitées, elles améliorent remarquablement la
qualité des résultats.
3.5 Autres facteurs de pertinence
D’autres facteurs peuvent être utilisés pour la recherche de microblogs. Les facteurs
de qualité des microblogs sont indépendants de la requête. Avec les particularité
des microblogs (qualité du langage, longueur faible . . . ), ces critères sont essentiels
pour estimer la qualité d’un microblog. Voici les critères les plus populaires dans la
littérature :
– Longueur du microblog : nombre de termes dans le microblog. La longueur
d’une phrase reflète la quantité d’information qu’elle véhicule (Zhao et al.,
2011 ; Magnani et al., 2012 ; Metzler et Cai, 2011 ; Duan et al., 2010).
– Fréquence de Retweets : nombre de fois qu’un tweet a été retweeté. Si un
utilisateur repartage un tweet, alors ceci suggère qu’il a trouvé son contenu
intéressant (Zhao et al., 2011 ; Magnani et al., 2012 ; Vosecky et al., 2012 ;
Duan et al., 2010).
– Fréquence de hashtags : nombre de hashtags dans un tweet. Les hashtags
sont utilisés pour définir un topic pour le tweet, ou bien pour s’intégrer à une
conversation (Duan et al., 2010).
– Réponse : indique que le microblog est une réponse à un autre. Ceci montre
qu’il ne s’agit pas d’un message isolé et sans interaction (Vosecky et al., 2012 ;
Metzler et Cai, 2011 ; Duan et al., 2010).
– Qualité du langage : les microbloggeurs ne font pas en général très attention
54CHAPITRE 2. RI DANS LES MICROBLOGS
en écrivant les tweets. Il peuvent également abréger certains mots à cause de la
contrainte liée à la longueur restreinte des tweets. Ce critère calcule le ratio des
termes correctement orthographiés par rapport à tous les termes du microblogs
(Metzler et Cai, 2011). Han et Baldwin (2011) ont proposé d’améliorer la
qualité des microblogs en corrigeant les termes mal-orthographiés. Ils tiennent
compte du contexte du tweet pour proposer les corrections convenables pour
les termes erronés.
– Sentiment : les microblogs reflétant des sentiments sont pertinents lorsqu’un
utilisateur cherche des avis sur des produits ou des événements. Ce critère est
mesuré en calculant le ratio des termes exprimant des sentiments par rapport
à la longueur du tweet (Cheng et al., 2013).
3.6 Bilan
Le tableau 2.2 résume la majorité des critères de pertinence que nous venons
de décrire, souvent utilisés en complément de la pertinence textuelle. Certaines approches
qui les emploient les combinent linéairement (Zhao et al., 2011 ; Massoudi
et al., 2011). D’autres approches ont employé des techniques d’apprentissage pour
les considérer dans la restitution (Duan et al., 2010 ; Cheng et al., 2013 ; Uysal et
Croft, 2011).
4 Évaluation de la RI dans les microblogs
Comme nous l’avons vu au chapitre 1, l’évaluation en RI se fait principalement
à travers les collections de tests, souvent construites dans le cadre de campagnes
d’évaluation. La RI dans les microblogs ne déroge pas à cette règle, avec la mise en
place de la tâche Microblog dans la campagne d’évaluation TREC.
4.1 La tâche TREC Microblog
Il s’agit, pour un moteur de recherche, de fournir les tweets dont le contenu
satisfait un besoin en information exprimé sous forme de mots clés (tâche adhoc).
Les systèmes proposés doivent retrouver les résultats pertinents, mais aussi les plus
récents, par rapport à la date de soumission de la requête (real-time retrieval). Les
résultats doivent être publiés avant la date de la soumission de la requête. Depuis
2011, trois versions de cette tâche ont été mises en œuvre (2011, 2012 et 2013).
La collection de test Tweets2011 comprend :
– 16 millions de tweets (0,5 Go) exprimés dans diverses langues et publiés sur
Twitter entre le 23 janvier 2011 et le 8 février 2011,
55CHAPITRE 2. RI DANS LES MICROBLOGS
Tableau 2.2 – Critères de pertinence
Critère Références
Popularité du tweet dans la liste de résultats (Duan et al., 2010 ;
Ben Jabeur, Damak,
et al., 2012)
Nombre de termes en commun entre le tweet et la requête (Damak et al., 2011)
Nombre de fois que le tweet à été retweeté (Zhao et al., 2011 ;
Magnani et al., 2012 ;
Vosecky et al., 2012 ;
Duan et al., 2010)
Nombre de hashtags dans le tweet (Duan et al., 2010)
Présence de hashtags dans le tweet (Vosecky et al., 2012 ;
Metzler et Cai, 2011)
Popularité des hashtags dans la collection (Vosecky et al., 2012)
Longueur du tweet (Zhao et al., 2011 ;
Magnani et al., 2012 ;
Metzler et Cai, 2011 ;
Duan et al., 2010)
Présence d’URLs dans le tweet (Vosecky et al., 2012 ;
Massoudi et al., 2011 ;
Metzler et Cai, 2011 ;
Duan et al., 2010)
Nombre D’URLs dans le tweet (Zhao et al., 2011)
Popularité de l’URL dans la collection (Vosecky et al., 2012)
Le tweet est-il une réponse ? (Vosecky et al., 2012 ;
Metzler et Cai, 2011 ;
Duan et al., 2010)
Nombre de tweets de l’auteur (Zhao et al., 2011)
Nombre d’abonnés de l’auteur (Magnani et al., 2012 ;
Massoudi et al., 2011 ;
Duan et al., 2010 ;
Zhao et al., 2011)
Nombre de mentions de l’auteur (Vosecky et al., 2012 ;
Duan et al., 2010)
Différence temporelle entre le tweet et la requête (Magnani et al., 2012 ;
Vosecky et al., 2012 ;
Metzler et Cai, 2011)
Qualité du language du tweet (Metzler et Cai, 2011)
Sentiment positif/négatif dans le tweet (Cheng et al., 2013)
– 49 topics dont on trouvera un exemple en figure 2.8. La balise title décrit
le besoin exprimé à un moment donné (querytime). Ce moment correspond
concrètement à la date de publication du tweet le plus récent de la requête,
56CHAPITRE 2. RI DANS LES MICROBLOGS
– les jugements de pertinence (qrels) associées aux 49 topics. La pertinence de
chaque tweet est ternaire : non pertinent, moyennement pertinent et hautement
pertinent. Tout tweet exprimé dans une langue autre que l’anglais est non
pertinent. Il en est de même pour les retweets et les tweets identifiés comme
spam par les assesseurs.
< top >
< num > Number: MB007 num >
< title > Pakistan diplomat arrest murder title >
< querytime > Tue Feb 08 22 :56:33 +0000 2011 querytime >
< querytweettime > 35109758973255680 querytweettime >
top >
Figure 2.8 – Exemple de topic pour la tâche Microblog
La collection de test Tweets2012 comprend :
– le même corpus de tweets que celui de 2011,
– 60 nouvelles requêtes avec leurs jugements de pertinence. Seuls les tweets hautement
pertinents ont été considérés dans l’évaluation des systèmes.
La collection de test Tweets2013 comprend :
– une nouvelle collection de 240 millions de tweets (70 Go), publiés dans la
période du 1er février 2013 au 31 mars 2013. Cette collection est accessible
uniquement à travers une API (contrairement à l’ancienne collection).
– 60 nouvelles requêtes avec les jugements de pertinence associés.
En 2012, une deuxième évaluation a été introduite, real-time filtering. L’objectif
est d’évaluer la capacité des systèmes à indexer le flux des tweets en temps reél et d’en
extraire les tweets pertinents pour un besoin en information. Cette tâche n’entrant
pas dans notre problématique de recherche, nous ne la détaillons pas davantage.
4.2 Discussion sur les mesures d’évaluation
De façon usuelle, les moteurs de recherche trient les résultats en fonction du
score de pertinence des documents. Ce n’est pas le cas dans la tâche Microblog de
TREC, qui promeut la recherche temps réel (real-time search). Cela se traduit par
une préférence pour les tweets les plus proches temporellement de la requête. Au
niveau de la procédure d’évaluation en 2011, cette contrainte est mise en œuvre en
réordonnant les résultats (runs) d’un moteur de recherche en fonction de l’attribut
querytweettime des tweets (le champ sim – score de similarité – du run est recalculé
en fonction). Cette prise en compte a suscité une ambiguïté dans l’interprétation des
scores des participants : il n’y a pas de moyen pour identifier les systèmes qui ont
considéré la fraîcheur dans la mesure de pertinence. Nous notons, à titre indicatif,
que les meilleurs systèmes de cette édition sont les systèmes qui se basent sur la
57CHAPITRE 2. RI DANS LES MICROBLOGS
pertinence textuelle en réalisant une coupure (cut-off ) agressive (càd. X tweets).
Cette prise en compte temporelle a été écarté à partir de l’édition de 2012.
Deux mesures officielles ont été considérées dans les trois versions de la tâche :
la précision à 30 documents (P@30) et la précision moyenne (AP). Notons que ces
mesures ont été calculées en considérant tous les tweets pertinents (all-rel) en 2011 et
2013 ou uniquement les tweets hautement pertinents (high-rel) en 2012. Les valeurs
de ces mesures, pour chaque requête, sont moyennées pour obtenir le score global
d’un système (P@30 moyennée et MAP). Le classement des systèmes a été réalisé
sur la P@30 moyennée, la MAP étant uniquement donnée à titre indicatif. En 2012,
les courbes ROC ont été également données à titre indicatif. Notons également que
les systèmes ont des caractéristiques différentes : intervention manuelle ou pas (run
automatique), utilisation de sources externes ou pas, utilisation de sources futures
(dont la publication est postérieure à la date de la requête) ou pas. Bien évidemment,
les résultats sont à apprécier en groupant au préalable les systèmes possédant des
caractéristiques similaires.
5 Bilan et limites de l’état de l’art
Le microblogging est une nouvelle source d’information en pleine croissance,
fortement exploitée par les utilisateurs pour partager et trouver de l’information.
Plusieurs chercheurs se sont focalisés sur l’accès à l’information à partir de cette
source. Les travaux réalisés extraient différents types d’informations (personnes,
tendance, opinion. . . ). Dans cette thèse, nous nous concentrons uniquement sur la
recherche adhoc de microblogs. Pour ce type d’information, plusieurs approches avec
différentes intuitions ont été proposées. La grande majorité des travaux ont défini
des facteurs de pertinence supplémentaires par rapport à celui de la seule pertinence
textuelle. Cependant, les chercheurs n’ont pas examiné de près les problèmes des
approches de la RI classique.
C’est pourquoi, dans nos travaux, nous avons commencé dans un premier temps
par (i) la réalisation d’une analyse de défaillance des modèles de RI classiques afin
d’identifier les facteurs principaux limitant leur efficacité sur ce type de contenu
(chapitre 3). Nous avons trouvé que la majorité des problèmes sont dus au vocabulaire
limité induit par la faible longueur des tweets. C’est pourquoi (ii) nous avons
compensé ce problème en appliquant des techniques d’expansion de requêtes et de
microblogs (chapitre 4).
Nous avons montré dans l’état de l’art que la majorité des approches emploient
une multitude de facteurs de pertinence en plus de la pertinence textuelle. Cependant,
peu de travaux ont essayé d’évaluer leurs impact réel dans la restitution. Nous
avons ainsi (iii) réalisé une étude des critères souvent utilisés dans les travaux afin
58CHAPITRE 2. RI DANS LES MICROBLOGS
de déterminer ceux qui reflètent vraiment la pertinence (chapitre 5). Par définition,
la recherche d’information dans les microblogs implique automatiquement la prise
en compte de la fraîcheur dans la mesure de la pertinence. Le dernier chapitre de
notre contribution (chapitre 6) (iv) traite particulièrement ce facteur et l’impact de
son emploi sur la qualité des résultats.
59ContributionChapitre 3
Analyse de défaillance des modèles
de RI classique sur les microblogs
1 Introduction
La majorité des approches présentées dans la littérature pour la recherche de microblogs
emploient différents facteurs de pertinence en plus de la pertinence textuelle
comme, par exemple, la popularité de l’auteur du microblog, la qualité du langage
utilisé, la fraîcheur, etc. Toutefois, la pertinence textuelle est toujours considérée
comme le facteur principal de pertinence. Cette pertinence textuelle est généralement
calculée avec des modèles de RI classiques (Ounis et al., 2011, 2012). Ces
modèles se basent principalement sur les fréquences des termes et les longueurs des
documents (modèles sac de mots). Cependant, dans le cas des microblogs, le nombre
de termes par microblog est en moyenne égal à 15 et chaque terme n’apparaît qu’une
seule fois.
Dans ce chapitre, nous présentons une analyse de défaillance réalisée pour dé-
terminer le comportement des modèles de RI classiques sur les microblogs. Les observations
tirées de cette analyse nous permettront d’identifier les pistes à exploiter
pour gérer cette forme de contenu de façon plus pertinente.
2 Méthodologie
Notre analyse a pour but de déterminer les facteurs pénalisant les modèles de
RI classiques dans la restitution de microblogs. Pour ce faire, nous avons analysé
les microblogs pertinents mais non restitués avec un modèle de RI classique. Nous
nous sommes basés, dans notre analyse, sur la collection TREC Microblog et sur les
requêtes des tâches de 2011 et 2012. Nous avons employé le modèle vectoriel comme
modèle de RI classique, et ce pour deux raisons : d’une part, ce modèle est souvent
utilisé en RI et a toujours prouvé son efficacité (Baeza-Yates et Ribeiro-Neto, 1999).
61CHAPITRE 3. ANALYSE DE DÉFAILLANCE DES MODÈLES DE RI CLASSIQUE
SUR LES MICROBLOGS
En outre, ce modèle est considéré comme baseline dans les éditions 2011 et 2012 de
la tâche Microblog de TREC.
La question de recherche liée à cette analyse est la suivante : les facteurs limitant
les modèles de recherche classiques sont-ils dus :
– à la taille réduite des microblogs ?
– au vocabulaire limité des microblogs ?
– à la syntaxe (@mention et #hashtag) fréquemment utilisée dans les microblogs
?
– à la qualité du langage utilisé par les utilisateurs ?
Dans un deuxième temps, nous avons examiné le contenu pointé par les URLs
accompagnant les tweets. L’objectif est d’avoir une idée de l’impact de leur prise
en compte dans la restitution et de leur potentiel d’enrichissement du contenu des
tweets.
3 Expérimentations
3.1 Cadre expérimental
Nos expérimentations ont reposé sur le moteur de recherche open source Lucene 1
,
qui implémente une version modifiée du modèle vectoriel présentée dans (Cohen et
al., 2007). La version de Lucene que nous utilisons intègre le lemmatiseur Porter
(1980) et utilise une liste de mots vides. Nous avons modifié cette version de sorte
que la recherche ne tienne compte que des tweets publiés avant le querytime de
chaque topic, que ce soit dans la mesure de la pertinence ou bien au niveau de la
restitution des résultats. En effet, dans la recherche de microblogs et afin de respecter
la contrainte de recherche en temps-réel, nous devons nous positionner à l’instant où
la requête est soumise. Dans un contexte réaliste d’emploi du moteur de recherche de
microblogs, les tweets publiés après le querytime de la requête ne sont évidemment
pas connus !
Pour nos analyses, nous avons conservé les 1500 premiers tweets restitués par
Lucene pour chaque requête.
3.2 Observations
Lucene, dans sa configuration décrite ci-dessus, obtient un rappel moyen de
0,7188 avec les requêtes de 2011 et de 0,6340 avec les requêtes de 2012. Même si le
modèle vectoriel arrive à restituer une bonne proportion des documents pertinents,
le nombre des documents pertinents non restitués varie d’une requête à une autre.
1. http://lucene.apache.org
62CHAPITRE 3. ANALYSE DE DÉFAILLANCE DES MODÈLES DE RI CLASSIQUE
SUR LES MICROBLOGS
Les deux figures 3.1 et 3.2 montrent les proportions des tweets pertinents restitués
par le modèle vectoriel par rapport à tous les tweets pertinents pour les requêtes des
éditions de 2011 et de 2012.
Feuille1_2
Page 1
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
0
20
40
60
80
100
120
140
160
180
200
Pertinents non retrouvés Pertinents retrouvés
Nombre de tweets
Figure 3.1 – Répartition des tweets pertinents restitués avec le modèle vectoriel
par rapport à tous les tweets pertinents connus pour chaque requête de 2011
Feuille1
Page 1
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
0
100
200
300
400
500
600
700
Pertinents non retrouvés Pertinents retrouvés
Nombre de tweets
Figure 3.2 – Répartition des tweets pertinents restitués avec le modèle vectoriel
par rapport à tous les tweets pertinents connus pour chaque requête de 2012.
Dans la suite, on note chaque requête par « son numéro »/« édition de TREC ».
Sur l’ensemble des 109 requêtes de 2011 et 2012, le modèle vectoriel restitue tous les
tweets pertinents de 22 requêtes. Pour 30 requêtes, moins de 5 documents pertinents
63CHAPITRE 3. ANALYSE DE DÉFAILLANCE DES MODÈLES DE RI CLASSIQUE
SUR LES MICROBLOGS
sont manquants. C’est le cas par exemple des requêtes BBC World Service staff
cuts (1/2011), MSNBC Rachel Maddow (34/2011), release of "Known and Unknown"
(14/2011), Starbucks Trenta cup (12/2012) et Tea Party caucus (53/2012).
Pour les autres requêtes, le nombre de documents pertinents non retrouvés
varie d’une requête à une autre. Par exemple, sept documents pour Giffords’
recovery (37/2011), 23 pour Holland Iran envoy recall (42/2011), 68 pour
Mexico drug war (4/2011), 78 pour release of "The Rite" (14/2011) , 179
pour smartphone success (31/2012) et 345 pour fishing guidebooks (10/2012)
qui représentent le nombre le plus grand de tweets non restitués pour une requête.
Nous notons également que le nombre de tweets non restitués n’est pas proportionnel
avec le nombre de tweets pertinents de la requête. Par exemple, le modèle
vectoriel n’a pas restitué uniquement 5 tweets pertinents pour la requête Moscow
airport bombing (36/2011) ayant pourtant 151 documents pertinents et 44 documents
pour la requête reduce energy consumption (27/2011) ayant pourtant
74 documents pertinents en totalité. Ou encore, pour la requête farmers markets
opinion (21/2012), le modèle vectoriel identifie 68 tweets pertinents sur 76, soit
90 % de rappel. Cependant, pour le topic The daily (4/2012) 66 tweets pertinents
parmi les 266 ont été restitués, soit un rappel de 25 %.
Nous avons analysé les résultats requête par requête pour identifier les problèmes
auxquels les modèles de RI sont confrontés et qui pénalisent notamment le rappel.
Le problème le plus remarquable observé à l’issue de notre analyse est la différence
de vocabulaire (vocabulary mismatch) entre la requête et les tweets pertinents. Ce
problème est bien connu en recherche d’information (Furnas et al., 1988). Dans notre
cas, on le rencontre sous plusieurs formes.
1. Absence totale des termes de la requête dans les documents pertinents.
Nous avons observé qu’un nombre important de tweets traite du
sujet de la requête sans avoir, pour autant, aucun terme en commun avec
cette dernière. C’est le cas par exemple de la requête Amtrak train service
(23/2011). Ce phénomène concerne 29 documents pertinents parmi 35 non
retrouvés. Ces documents traitent des fonds réservés pour construire une nouvelles
ligne de train ou relatent les difficultés des voyageurs. C’est le cas également
de la requête Obama birth certificate (41/2011). Certains documents
évoquent des confusions sur la nationalité du président. Nous pouvons
également citer le topic British Government Cuts (1/2012), pour lequel ont
été jugés pertinents des tweets qui traitent des licenciements dans le secteur
public, de la baisse des salaires des employés dans certains secteurs, des coupes
de budgets consacrés aux Jeux Olympiques, etc.
Ce phénomène est présent pour 58 requêtes sur 109 (53 %), à hauteur de 40 %
64CHAPITRE 3. ANALYSE DE DÉFAILLANCE DES MODÈLES DE RI CLASSIQUE
SUR LES MICROBLOGS
des tweets pertinents non restitués. Plus précisément, ce problème apparaît
pour au moins 1 800 tweets pertinents non restitués parmi les 4 448 tweets
pertinents non restitués que nous avons au total sur toutes les requêtes.
2. Problèmes des noms propres et des entités nommées. Une première
remarque concerne les noms propres orthographiés de différentes manières.
Par exemple, pour le topic Glen Beck (9/2012), dans certains tweets pertinents
les utilisateurs emploient Glenn plutôt que Glen. Également, pour le
topic Bieber and Stewart trading places (13/2012), les utilisateurs emploient
les prénoms justin et jon. Les entités nommées peuvent également
être écrites de différentes manières : dans le topic anti-bullying (40/2012)
les tweets non restitués contiennent cyberbulling plutôt que bullying. C’est
le cas également du topic Superbowl commercials (49/2012), pour lequel les
auteurs utilisaient généralement super bowl en deux termes, ou encore Bed
bug au lieu de bedbug (2/2012).
D’autre part, nous avons remarqué que certaines requêtes contiennent des entités
nommées contenant des prépositions. Cependant, Lucene prend en compte
les prépositions comme des termes vides et les élimine, ce qui modifie le sens
de la requête. C’est le cas par exemple de la requête release of "the Rite"
(14/2011). C’est la cas également de la requête the daily, le moteur de recherche
a extrait des tweets contenant le terme daily plutôt que des tweets
traitant du journal the daily (266 tweets pertinents non retrouvés parmi les
332 pertinents du topic). Ceci résulte de notre utilisation d’une liste de mots
vides. Cette requête aurait probablement conduit à de meilleurs résultats si
elle avait été traitée sous forme d’expression.
Les problèmes liés aux entités nommées sont présents dans 7 topics sur 119
(5 %), à hauteur de 50 % des tweets pertinents non restitués. Plus précisé-
ment, au moins 546 tweets pertinents non restitués sur les 4 448 présentent ce
phénomène.
3. Problèmes de lemmatisation. Une première remarque est que des termes
différents ne sont pas appariés, alors qu’ils relèvent d’une même racine. Par
exemple, pour la requête somalian piracy (57/2012) étaient présents dans
les tweets jugés pertinents les termes pirates ou pirate. La requête global
warming and weather (29/2011) contient le terme « warmism » et non pas
« warming ».
Nous avons constaté également ce problème avec les requêtes contenant des
termes qui reflètent la nationalité ou des noms de pays. Les documents pour
ces requêtes contiennent les noms des pays et non pas les nationalités telles
qu’elles apparaissent dans les requêtes ou l’inverse. C’est le cas par exemple de
la requête Mexico drug wars (4/2011). Les documents non restitués de cette
65CHAPITRE 3. ANALYSE DE DÉFAILLANCE DES MODÈLES DE RI CLASSIQUE
SUR LES MICROBLOGS
requête contiennent souvent le terme « Mexican ». C’est le cas également de la
requête Pakistan diplomat arrest (7/2011) où les documents contiennent
le terme « pakistani ».
D’autre part, nous avons remarqué l’apparition des termes de la requête concaténés
sous forme de #hashtags ou de @citation. Par exemple, dans le topic
texting and driving (54/2012) tous les tweets pertinents non restitués
contiennent les termes de la requête mais concaténés en un hashtag
(#donttextanddrive). C’est le cas de la requête BBC World Service staff
cuts (1/2011) le document non restitué contient le hashtag #BBCWorldService.
Pour la requête Taco Bell filling lawsuit (20/2011) certains documents
non restitués contiennent le hashtag #TacoBell ou la citation @TacoBell. . .
Les lemmatiseurs utilisés par les moteurs de recherche — Porter (1980) dans
notre cas — sont incapables de résoudre ce type de problème, ce qui explique
l’impossibilité de Lucene à restituer ces tweets.
Ce phénomène est clairement présent dans 13 topics sur 109. Plus précisément,
cela représente au moins 210 tweets pertinents non retrouvés sur les 4 448.
4. Acronymes écrits de différentes manières. C’est le cas du topic FDA
approval of drugs (8/2012), pour lequel les tweets pertinents contenaient
également l’acronyme USFDA. Nous avons également constaté que pour le topic
NCIS (27/2012) plusieurs tweets pertinents contenaient la signification de
l’acronyme : Naval Criminal Investigative Service. Ce phénomène est
présent clairement dans deux topics sur 109, à hauteur de 50 % des tweets
pertinents non restitués. Cela représente au moins 50 tweets pertinents non
restitués sur les 4 448.
Outre la différence de vocabulaire, nous avons remarqué que tous les termes des
requêtes n’apparaissent pas avec la même importance dans les requêtes.
Certains termes des requêtes n’aident ainsi pas à sélectionner les tweets pertinents.
Ce phénomène apparaît de trois manières : (i) des requêtes contenant des termes
qui n’apparaissent pas dans la majorité des documents pertinents non restitués,
(ii) des requêtes contenant des termes qui apparaissent toujours, même dans les
document non pertinents retrouvés et (iii) des requêtes composées uniquement de
termes concernés par (i) ou (ii).
Par exemple du premier cas (i), les documents non retrouvés de la requête 2022
FIFA soccer (2/2011) ne contiennent jamais le terme “soccer”. Les documents
non retrouvés de la requête phone hacking British politicians (7/2011) ne
contiennent jamais le terme “politicians”. Dans la requête fishing guidebooks
(10/2012), 345 tweets pertinents non retrouvés parmi les 524 pertinents du topic
66CHAPITRE 3. ANALYSE DE DÉFAILLANCE DES MODÈLES DE RI CLASSIQUE
SUR LES MICROBLOGS
ne contiennent pas le terme guidebooks, ni un dérivé de ce terme.
Comme exemple du deuxième cas, les documents non retrouvés de la requête
Super Bowl, seats (24/2011) où Super bowl apparaît dans tous les documents
restitués et les documents pertinents non restitués. Toutefois, ce phénomène n’a été
observé que pour cette requête. Pour le troisième cas, les documents non restitués de
la requête Emanuel residency court rulings (21/2011) ne contiennent jamais
les termes Emanuel, residency et ruling, mais contiennent tous le terme court.
C’est également le cas de la requête reduce energy consumption (27/2011) pour
lequel les documents non restitués ne contiennent jamais les termes reduce et
consumption mais contiennent toujours le terme energy. Ce phénomène a été observé
dans 17 requêtes sur les 50 et a empêché la restitution d’au moins 200 documents
pertinents.
De façon identique, nous avons constaté que, dans le cas des requêtes contenant
des entités nommées, les tweets pertinents non retrouvés contiennent ces entités
nommées, mais sans les autres termes des requêtes. Par exemple, pour le topic
McDonalds food (28/2012), tous les tweets non restitués contiennent seulement le
terme McDonalds parmi tous les termes de la requête (350 tweets pertinents non
restitués parmi 572 tweets pertinents de cette requête).
Suite à ces observations, nous avons voulu savoir pour combien de tweets la prise
en compte des contenus des URL qu’ils contiennent permettrait de régler ce problème
de vocabulaire. En d’autres termes, nous avons voulu savoir si les termes des requêtes
non présents dans des tweets pertinents étaient présents dans les documents pointés
par les URL. Nous avons donc analysé le contenu des URL des tweets pertinents
non restitués et nous avons constaté que leur prise en compte aiderait à retrouver
des tweets pertinents dans 41 topics sur 109 (37 %). Cela représente au moins 800
tweets pertinents non restitués.
4 Synthèse
Le tableau 3.1 résume les différentes observations de notre analyse, qui sont
des problèmes classiques de la RI. Leurs effets sont cependant amplifiés avec les
microblogs à cause de leur faible longueur, ce qui implique un vocabulaire limité.
Quel que soit le modèle de RI utilisé, mesurer la similarité entre une requête qui
ne dépasse souvent pas quatre termes et un microblog composé en moyenne de 15
termes revient à une présence ou absence des termes de la requête dans un microblog,
dans la majorité des cas.
Au niveau des analyses des facteurs limitant l’efficacité du modèle de recherche
sur les microblogs, nous avons montré que le problème principal, comme attendu,
67CHAPITRE 3. ANALYSE DE DÉFAILLANCE DES MODÈLES DE RI CLASSIQUE
SUR LES MICROBLOGS
Cause de la défaillance Pourcentage de
tweets non restitués
sur 4 448
pertinents au total
Pourcentage de
requêtes
concernées sur
109 requêtes
Absence totale des termes des topics
dans les tweets pertinents
' 40,46 % 51,21 %
Termes des requêtes avec des
importances différentes
' 20,12 % 16,51 %
Termes des requêtes à traiter sous
forme d’expression et/ou sans liste de
mots vides
' 7,77 % 2,75 %
Noms propres et entités nommées
orthographiés de différentes manières
' 4,49 % 4,58 %
Termes non appariés mais dérivant
d’une même racine
' 4,04 % 8,25 %
Termes de la requête concaténés sous
forme de hashtag ou de citation
' 1,79 % 6,42 %
Acronymes écrits de différentes manières
' 1,12 % 1,83 %
Tableau 3.1 – Récapitulatif des différents facteurs limitant l’efficacité du modèle de
recherche sur les microblogs
provient de la concision des microblogs. Cette concision engendre une correspondance
limitée entre les termes des microblogs et les termes des requêtes, même s’ils
sont sémantiquement similaires. Ce fait est apparu de différentes manières : absence
totale des termes de certaines requêtes dans les tweets pertinents, noms propres et
entités nommés orthographiés de différentes manières. . . Nous avons fréquemment
identifié des problèmes de lemmatisation : termes non appariés même si dérivant
d’une même racine ou des termes concaténés pour former des hashtags ou des citations.
Outre les problèmes de vocabulaire, nous avons remarqué que, pour certaines
requêtes, les termes n’ont pas un caractère discriminant. Ces termes sont fréquemment
présents dans les documents pertinents et les documents non pertinents ou
bien ils n’apparaissent jamais.
De manière générale, les problèmes soulevés avec les requêtes de 2011 sont les
mêmes pour les requêtes de 2012. Cependant, les requêtes de 2012 contiennent un
nombre plus important de tweets pertinents, ce qui les rend plus difficiles (2 864
68CHAPITRE 3. ANALYSE DE DÉFAILLANCE DES MODÈLES DE RI CLASSIQUE
SUR LES MICROBLOGS
tweets pertinents pour les 49 requêtes de 2011 / 6 286 tweets pertinents pour les 60
requêtes de 2012).
Nous avons montré que la plupart des problèmes de la recherche d’informations
dans les microblogs ne dépend pas du modèle de recherche. Ces problèmes ne
concernent pas les fréquences des termes dans les microblogs, ou bien la distribution
des termes dans les microblogs. Ce sont plutôt des problèmes de vocabulaire et des
problème de lemmatisation. Le problème de vocabulaire, avec ses différentes formes
observées, ou bien les problèmes de lemmatisation, peuvent affecter l’efficacité de
n’importe quel modèle qui se base uniquement sur le contenu textuel brut des microblogs
et avec les requêtes avec leurs descriptions initiales. Cependant, un problème,
tel que les termes de requêtes qui ont des importances différentes, regarde exactement
le fonctionnement des modèles de recherche, et sa gravité dépend fortement
de la manière avec laquelle un modèle calcule les scores de pertinence. La prise en
compte de la fréquence du terme dans la collection (IDF) joue ainsi un rôle très
important ici.
Le problème de vocabulaire semble surmontable avec l’expansion de requêtes et
de documents. Les termes à caractère non discriminant peuvent être pondérés en
exploitant le feedback. C’est pourquoi, dans le chapitre suivant, nous présenterons
les différentes méthodes d’expansion de requêtes et de documents que nous avons
appliquées pour surmonter le problème du vocabulaire souvent rencontré dans la
recherche d’information dans les microblogs.
69CHAPITRE 3. ANALYSE DE DÉFAILLANCE DES MODÈLES DE RI CLASSIQUE
SUR LES MICROBLOGS
70Chapitre 4
Expansion de requêtes et de
documents pour la recherche de
microblogs
1 Introduction
À travers l’analyse de défaillance conduite et présentée dans le chapitre précé-
dent, nous avons montré que le vocabulaire limité lié à la taille réduite des microblogs
est le facteur empêchant le plus les SRI de restituer des microblogs pertinents.
Notre objectif, dans ce chapitre, est de proposer des éléments de solutions pour
surpasser ces limites : absence de termes en commun entre les requêtes et
les microblogs, termes des requêtes n’ayant aucun caractère discriminant,
entités-nommées orthographiées de différentes manières, problèmes de
lemmatisation, termes concaténés. . .
Une solution au problème du vocabulaire est l’expansion de requêtes ou de documents
(technique connue en RI). Nous proposons ici d’améliorer la représentation
des requêtes. Dans un premier temps, nous exploitons des ressources externes
pour étendre les requêtes. Ces ressources comprennent des articles d’actualité ainsi
que la base lexicale WordNet. Nous testons également l’impact de méthodes de
ré-injection de pertinence (telles que Rocchio et BM25). Nous proposons également
d’améliorer la représentation des microblogs. Nous testons quelques méthodes
pour améliorer la représentation des microblogs, telles que l’expansion des hashtags
et l’exploitation des contenus des URLs publiées dans les microblogs.
2 Expansion de requêtes
Pour améliorer la représentation des requêtes, nous avons considéré différentes
ressources. Certaines sont externes par rapport à la collection de tweets. L’infor-
71CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS
mation dans les tweets étant très dépendante du temps, nous avons employé des
ressources sensibles au temps pour étendre les requêtes, telles que les articles des
actualités publiés dans les journaux les plus populaires dans le monde. D’autre part,
nous avons exploité la base lexicale WordNet pour trouver les différents aspects des
requêtes et l’API de correction orthographique du moteur de recherche Bing pour
trouver les différentes formes des entités nommées. En outre, nous avons étendu les
requêtes à partir des tweets en appliquant des techniques de ré-injection de pertinence
(relevance feedback).
Pour réaliser les expérimentations qui suivent , nous nous sommes basés sur les
60 requêtes de TREC Microblog 2012. Pour chaque requête, nous avons considéré
les 1500 premiers tweets restitués avec le modèle vectoriel. La validation des améliorations
ou des dégradations est réalisée selon le test t de Student pairé et bilatéral
avec p < 0,05. Nous nous sommes basés sur le run obtenu avec le modèle vectoriel
implémenté dans Lucene comme baseline.
2.1 Exploitation des articles d’actualités
La première source que nous avons considérée est constituée des actualités publiées
de façon concomitante aux requêtes. Nous avons en effet remarqué que la
majorité des topics des requêtes portent sur des actualités (50 % des topics). Pour
cette raison, nous proposons d’étendre les requêtes avec des mots-clés extraits à
partir des articles de presse publiés sur le sujet du topic. Les API du NYTimes 1
et
du Guardian 2 permettent d’obtenir des articles de ces journaux en fonction d’une
requête. Étant donné que les articles restitués sont classés selon leur pertinence dé-
croissante, nous avons considéré les cinq premiers articles restitués par chaque source
et publiés avant la date du topic pour produire un méga-document (Klas et Fuhr,
2000). Ensuite, nous avons utilisé l’API Alchemy 3 pour extraire les mots-clés représentatifs
de ce méga-document. L’API Alchemy réalise une analyse linguistique,
un traitement du langage naturel et un apprentissage automatique pour analyser
le contenu et en extraire des mots-clés. Nous avons évalué l’extension de la requête
avec trois (3Act) ou sept(7Act) termes renvoyés par Alchemy. Les nouvelles requêtes
sont formées par les termes initiaux des requêtes et les termes d’expansion. Dans un
premier temps, nous ne pondérons pas les termes ajoutés dans la requête (tous les
termes de la requête étendue ont un poids égal à 1). Dans un second temps, nous
pondérons uniquement les termes ajoutés aux requêtes (3Act(pond) et 7Act(pond))
avec un poids de 0,8 (choix arbitraire pour ces premières expérimentations). Les ré-
sultats sont présentés dans le tableau 4.1. La colonne Run contient le nom des runs.
1. http://developer.nytimes.com/
2. http://www.guardian.co.uk/open-platform/
3. http://www.alchemyapi.com/
72CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS
Ils sont présenté sous la forme Modèle-Requête-Champ utilisé. Le champ utilisé spé-
cifie le contenu employé pour la restitution. À ce niveau, nous utilisons uniquement
le contenu textuel des tweets (Tweets) dans la restitution. Notons dès à présent que
dans les sections suivantes, nous exploiterons d’autres contenus pour la restitution
des résultats, hormis le contenu textuel des tweets.
Run Modèle Requête étendue Champ utilisé P@30 Rappel MAP
Baseline VSM — Tweets 0,2842 0,6340 0,1871
VSM-3Act-Tweets VSM 3Act Tweets 0,2689 0,5691 0,1699
VSM-7Act-Tweets VSM 7Act Tweets 0,3040* 0,5985 0,1923*
VSM-3Act(pond)-Tweets VSM 3Act(pond) Tweets 0,2785 0,5923 0,1806
VSM-7Act(pond)-Tweets VSM 7Act(pond) Tweets 0,3079* 0,6156 0,1962*
Tableau 4.1 – Emploi des articles de type actualité pour l’expansion de requêtes
(avec et sans pondération des termes d’expansion, 1500 résultats par requête). Un
astérisque indique une amélioration significative par rapport à la baseline.
Concernant le rappel, nous constatons que la pondération améliore les résultats
par rapport à la non pondération (runs Modèle-X(pond)-Champ par rapport aux
runs Modèle-X-Champ). Par exemple le run « VSM-3Act(pond)-Tweets » améliore
le run « VSM-3Act-Tweets » de 3,91 %. Cependant, aucune amélioration significative
n’est à remarquer par rapport au run Baseline utilisant la requête originale.
Concernant la P@30 et la MAP, le fait d’étendre les requêtes avec trois termes
uniquement dégrade les résultats, que ce soit avec ou sans pondération. Cependant,
en étendant les requêtes avec sept termes, nous observons des améliorations significatives
par rapport à la « baseline ». Cette amélioration est légèrement plus importante
en pondérant les termes d’expansion. Le run « VSM-7Act(pond)-Tweets » est celui
qui a obtenu la meilleure amélioration par rapport à la baseline : 8,33 % en p@30 et
4,86 % en MAP.
De manière générale, l’emploi des articles d’actualités comme source pour étendre
les requêtes a amélioré la précision et a dégradé le rappel. En d’autre termes, cette
approche a amélioré les rangs des premiers microblogs pertinents (P@30 améliorée
de 8,33 %), sans pouvoir retrouver autant de nouveaux tweets pertinents. Nous avons
comparé les tweets pertinent des runs « VSM-7Act(pond)-Tweets » et « Baseline » :
sont également présent 91 % des tweets pertinents du run « Req7ActPondTweet »
dans le run « Baseline ». Nous avons également remarqué que cette méthode d’expansion
a renforcé la pertinence d’une partie des documents pertinents. Cette partie
se compose des microblogs contenant totalement ou partiellement les termes initiaux
des requêtes. Cependant, elle n’a pas aidé à restituer de nouveaux tweets pertinents,
en particulier ceux qui ne contiennent pas les termes des requêtes.
La dernière observation peut être expliquée par le fait que nous nous sommes
basés sur les premiers articles d’actualités résultant d’une recherche avec les termes
73CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS
des requêtes sur les deux API (NYTimes et Guardian). Ces APIs utilisent leurs
moteurs de recherche pour trouver des articles en fonction des termes de nos requêtes.
Ceci implique que les termes les plus importants retrouvés à partir de ces
articles correspondent en premier lieu aux termes initiaux des requêtes, ou bien aux
termes fortement dépendant des termes des requêtes (les termes présentant l’aspect
sémantique général des requêtes). Ainsi, cette méthode permet de mieux représenter
les requêtes initiales, sans donner d’autres aspects sémantiques des requêtes,
permettant ainsi de restituer les microblogs pertinents et portant sur les sujets des
requêtes, tout en n’ayant aucun terme en commun avec elles. Ceci explique ainsi la
dégradation du rappel et l’amélioration de la précision.
Afin de retrouver des termes d’expansion représentant d’autres aspects des requêtes,
nous avons testé l’expansion avec la base lexicale WordNet.
2.2 Exploitation de la base lexicale WordNet
La base de données lexicale WordNet a été souvent utilisée en RI comme un
moyen de désambiguïsation et d’extension de requêtes. Nous avons testé cette stratégie
en étendant chaque terme de la requête avec le premier synset retrouvé. Chaque
requête étendue va ainsi être composée des termes de la requête initiale et des termes
d’expansion. De la même manière que dans le paragraphe précédent, dans un premier
temps, nous ne pondérons pas les termes ajoutés dans la requête. Tous les termes
ont un poids égal à 1. Dans un second temps, nous avons pondéré (WN(pond))
uniquement les termes ajoutés aux termes initiaux des requêtes avec un poids de
0,8 (choix arbitraire pour observer l’impact de la pondération). Les résultats sont
présentés dans le tableau 4.2.
Run Modèle Requête étendue Champ utilisé P@30 Rappel MAP
Baseline VSM — Tweets 0,2842 0,6340 0,1871
VSM-WN-Tweets VSM WN Tweets 0,2797 0,6305 0,1854
VSM-WN(Pond)-Tweets VSM WN(pond) Tweets 0,2881 0,6362 0,1878
Tableau 4.2 – Récapitulatif des différents runs testés sans pondération des termes
ajoutés aux requêtes.
L’expansion avec WordNet n’améliore non plus pas les résultats par rapport à
la baseline (0,37 % d’amélioration sur la MAP, 1,37 % sur la P@30 et 0,34 % sur
le rappel entre le run « Baseline » et « VSM-WN(pond)-Tweets »). En outre, les
améliorations sur les trois mesures ne sont pas significatives. En fait, au niveau des
tweets pertinents restitués, 59/60 des requêtes ont renvoyé exactement les mêmes
tweets pertinents. La différence est uniquement présente au niveau de la requête
somalian piracy. Avec l’expansion, cette requête s’est transformée en somalian somali
piracy. En réalité, WordNet a compensé une faiblesse de Porter. Dans l’analyse de
74CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS
défaillance, nous avons signalé ce problème : plusieurs tweets pertinents de cette
requête contiennent le terme somalia ou somalis. Porter n’arrive pas à traiter et
correspondre ces variances. Ainsi, l’ajout du terme somali dans la requête a permis
la restitution de 42 nouveaux tweets pertinents. D’où la faible amélioration globale.
Concernant la pondération, nous avons observé le même impact que celui observé
dans le paragraphe précédent. Elle améliore les résultats par rapport à la non pondération.
Nous avons comparé les runs « VSM-WN-Tweets » et « VSM-WN(pond)-
Tweets » et nous avons trouvé que 100 % des tweets pertinents du premier run
apparaissent dans le deuxième run. En contre partie, le deuxième run a restitué
uniquement 14 nouveaux tweets pertinents par rapport au premier run.
De manière générale, l’emploi de WordNet n’a servi à améliorer ni le rappel ni
la précision. Pour 59 requêtes parmi 60, aucun nouveau tweet pertinents n’a été
observé. Nous avons également testé l’emploi de plusieurs termes d’expansion mais
ceci n’a fait que dégrader les résultats.
2.3 Suggestions orthographiques
Nous avons remarqué, dans certaines requêtes, des entités nommées orthographiées
de manières différentes à celles dans les tweets pertinents. C’est pourquoi
nous avons testé l’outil « Bing spelling suggestions 4 ». Cette API permet de corriger
les termes mal orthographiés et de retrouver les autres écritures des entités
nommées. Pour chaque terme d’une requête, nous avons ajouté ses autres formes
d’écriture dans la requête initiale (sans pondération). Cependant, seules deux requêtes
parmi les 60 ont été modifiées. Ce sont la requête « Bedbug epidemic » qui
est devenue « Bedbug epidemic bed bug » et la requête « Glen Beck » qui est devenue
« Glen Beck Glenn ». Les résultats de ces deux requêtes ont un rappel plus élevé
que celui de la baseline (19,91 % et 2,08 % respectivement). En considérant toutes
les requêtes, nous avons obtenu une amélioration du rappel de 0,28 % (tableau 4.3).
Cependant, ni cette amélioration, ni les améliorations des autres mesures ne sont
significatives.
Run Modèle Requête étendue Champ utilisé P@30 Rappel MAP
Baseline VSM — Tweets 0,2842 0,6340 0,1871
VSM-ReqBing-Tweet VSM ReqBing Tweets 0,2893 0,6358 0,1884
Tableau 4.3 – Test de l’amélioration des performance via la correction orthographique
des requêtes.
4. http://www.bing.com/developers/
75CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS
2.4 Réinjection de pertinence
Une source typique pour étendre les requêtes est constituée de l’ensemble des
termes présents dans les premiers documents restitués en réponse aux requêtes initiales.
Cette technique s’appelle la réinjection de pertinence (Relevance Feedback).
Nous avons testé et analysé l’impact de deux approches classiques de la RI afin de
voir leur efficacité sur ce genre de documents : Rocchio et le modèle BM25.
2.4.1 Expansion de requêtes avec Rocchio
Nous avons utilisé la version améliorée (Salton et Buckley, 1997) de la formule
originale de Rocchio (1971). Cette version prend en compte uniquement les documents
qui ont obtenu les meilleures scores dans la reformulation. La formule est la
suivante :
Qnouv = α.Qorig +
β
|R|
.
X
~r∈R
~r (4.1)
Qnouv est le vecteur des termes pondérés de la requête étendue. Qorig est le
vecteur de termes pondérés de la requête initiale. R est l’ensemble des documents
pertinents. ~r est le vecteur des termes obtenus de R pour l’expansion. Nous avons
gardé les valeurs par défaut des paramètres : α = 1 and β = 0, 75. La taille de R
est fixée à 10. Ce choix est consistant à la vu des expérimentations réalisées sur
les collections de TREC (Carpineto et al., 2001). Le nombre de termes ajoutés est
également limité à 10. Ce choix correspond au résultat d’une étude sur l’expansion
de requête à partir du feedback, pour la recherche de microblogs. Cette étude est
réalisée par Aboulnaga et Clarke (2012).
L’objectif de l’emploi de Rocchio est double : d’une part, il permet de résoudre
le problème de vocabulaire en améliorant la représentation des requêtes avec un
vocabulaire plus riche. D’autre part, il permet, au travers des meilleurs résultats de
la première restitution, de pondérer les termes des requêtes. Ceci pourrait résoudre
le problème noté dans l’analyse de défaillance : les termes de la requête n’ont pas
tous la même importance.
Dans un premier temps, le poids des termes d’expansion dans le vecteur ~r ont
été calculés avec TF-IDF (Rocch(TF.IDF)). Les résultats sont présentés dans le
tableau 4.4.
Nous remarquons que la technique de Rocchio améliore significativement les ré-
sultats par rapport à la baseline, que ce soit au niveau du Rappel, de la P@30 ou
la MAP : respectivement 8,00 %, 13,72 % et 18,17 %. Nous avons comparé les tweets
pertinents du run « VSM-Rocch(TF.IDF)-Tweets » avec les tweets pertinents du
run « Baseline ». Nous avons trouvé que 14 % des tweets pertinents du run « VSMRocch(TF.IDF)-Tweets
» n’existaient pas dans le run « Baseline ». Ceci correspond
76CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS
Run Modèle Requête étendue champ utilisé P@30 Rappel MAP
Baseline VSM — Tweets 0,2842 0,6340 0,1871
VSM-Rocch(TF.IDF)-Tweets VSM Rocch(TF.IDF) Tweets 0,3232* 0,6822* 0,2211*
Tableau 4.4 – Expansion de la requête initiale avec Rocchio. Les poids des termes
d’expansion sont calculés avec TF.IDF. Un astérisque indique une amélioration significative
par rapport à la baseline.
à 589 nouveaux tweets pertinents. Ces nouveaux tweets pertinents sont répartis sur
42 requêtes parmi les 60. Ce sont souvent des tweets contenant un seul terme de
la requête initiale et certains termes d’expansion. Cependant, l’expansion a ignoré
77 tweets pertinents qui existaient déjà dans le run « Baseline ». Ces tweets sont
répartis sur toutes les requêtes avec un ou deux tweets non retrouvés pour chacune.
Dans un deuxième temps, les poids des termes d’expansion sont calculés avec le
modèle BM25.
Run Modèle Requête étendue champ utilisé P@30 Rappel MAP
Baseline VSM — Tweets 0,2842 0,6340 0,1871
VSM-Rocch(TF.IDF)-Tweets VSM Rocch(TF.IDF) Tweets 0,3232* 0,6822* 0,2211*
VSM-Rocch(BM25)-Tweets VSM Rocch(BM25) Tweets 0,3311* 0,6764* 0,2304*
Tableau 4.5 – Expansion de la requête initiale avec Rocchio. Les poids des termes
d’expansion sont calculés avec BM25. Un astérisque indique une amélioration signi-
ficative par rapport à la baseline.
Le tableau 4.5 présente les nouveaux résultats. Par rapport à la « baseline », nous
avons obtenu des améliorations significatives sur les trois mesures : 6,70 %, 16,50 %
et 23,14 % respectivement sur le rappel, la P@30 et la MAP. Par rapport au run
qui emploie TF.IDF pour pondérer les termes d’expansion (« VSM-Rocch(TF.IDF)-
Tweets »), nous remarquons des améliorations significatives uniquement sur la P@30
et la MAP : 2,44 % et 4,20 % respectivement. Les tweets pertinents du run « VSMRocch(BM25)-Tweets
» sont à 99 % ceux du run « VSM-Rocch(TF.IDF)-Tweets ».
Ce sont également les mêmes termes d’expansion qui ont été sélectionnés et ajoutés
dans les requêtes initiales en calculant les poids avec BM25, que ceux sélectionnés
avec TF.IDF. Toutefois, la pondération des termes d’expansion avec les scores de
BM25 à permis de mieux classer les tweets pertinents, ce qui a amélioré la précision
et la MAP.
2.4.2 Expansion de requêtes via le modèle BM25
Une des méthodes classiques de réinjection de pertinence est le mécanisme « naturel
» du modèle BM25. Naturellement, le facteur approximatif de IDF dans le
77CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS
modèle BM25 est :
IDF∗∗ = log
r + 0.5/n − r + 0.5
R − r + 0.5/N − R − n + r + 0.5
!
(4.2)
avec r est le nombre de documents pertinents contenant le terme t, R est le nombre de
tous les documents contenant le terme t, n est le nombre de documents pertinents et
N est la taille de la collection. En absence d’information de pertinence au préalable,
ce facteur devient :
IDF∗ = log N − R
R
(4.3)
L’emploi de IDF∗∗ nécessite une connaissance préalable des documents pertinents.
Ainsi, l’idée est de considérer les premiers résultats de la première restitution
réalisée en considérant IDF∗
. Cet ensemble est supposé être l’ensemble de pertinence
(feedback). Ensuite, on réalise une deuxième restitution, mais toujours avec
la requête initiale, en considérant IDF∗∗ et le feedback pour le calcul des scores. En
se basant sur des expérimentations réalisées sur les collections de TREC (Carpineto
et al., 2001), le feedback est constitué des 10 premiers tweets restitués avec la requête
initiale.
Pour étudier l’impact de l’expansion de requêtes avec le modèle BM25, il est
évident de comparer les différentes propositions (emploi du feedback et expansion)
avec les résultats du modèle BM25 de base (équation 5.12). Ceci nous a permis
également de comparer les résultats des modèles BM25 et vectoriel.
Le tableau 4.6 montre les résultats. BMX25fb indique que le modèle emploie le
feedback dans le calcul du score de pertinence.
La première remarque est que le modèle BM25 (run « BM25- — -Tweets ») a
obtenu des résultats plus faibles que le modèle vectoriel.
Run Modèle Requête étendue champ utilisé P@30 Rappel MAP
Baseline VSM — Tweets 0,2842 0,6340 0,1871
BM25- — -Tweets BM25 — Tweets 0,2836 0,6043 0,1654
BM25fb- — -Tweets BM25fb — Tweets 0,2655 0,5940 0,1604
BMX25- — -Tweets BMX25 — Tweets 0,3186* 0,6643* 0,2170*
BMX25fb- — -Tweets BMX25fb — Tweets 0,3135 0,6364 0,2163
BMX25fb-Reqexp-Tweets BMX25fb Reqexp Tweets 0,3571* 0,6369 0,2300*
Tableau 4.6 – Différentes configurations du modèle BM25. * montre une amélioration
significative par rapport à configuration de base (run BM25).
Motivés par le travail de Ferguson et al. (2012), nous avons modifié les paramètres
initiaux du modèle BM25 afin de limiter au maximum la prise en compte des
facteurs de normalisation et la fréquence des termes dans le calcul du score. En fait,
78CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS
comme nous l’avons déjà mentionné, dans la recherche de microblogs, la fréquence
des termes n’améliore vraiment pas les résultats. De plus, la normalisation de la
longueur des documents dégrade les résultats 5
. Nous avons ainsi paramétré k1 =
0,1 et b = 0. BMX25 indique la prise en compte de ces paramètres dans le modèle
BM25. « BMX25- — -Tweets » et « BMX25fb- — -Tweets » représentent respectivement
les runs sans et avec l’emploi du feedback, mais avec les nouveaux paramètres.
On peut remarquer, dans un premier temps, que le nouveau paramétrage améliore
considérablement les résultats : 10,0 %, 12,3 % et 31,2 % d’amélioration respectivement
pour le rappel, la p@30 et la MAP, entre le run « BM25- — -Tweets » et le
run « BMX25- — -Tweets ». Le run « BMX25- — -Tweets » est également meilleur
que le run « Baseline ». Les améliorations sont respectivement de 4,8 %, 12,1 % et de
16,0 % dans le rappel, la p@30 et la MAP. Le run « BMX25- — -Tweets » contient
707 nouveaux tweets pertinents par rapport au run « Baseline » et contient 92,0 %
des tweets pertinents du run « Baseline ». Ceci correspond à 390 tweets pertinents
non retrouvés. Ces tweets se caractérisent de manière générale par leur longueur
très réduite (un ou deux termes et une URL). La différence au niveau du nombre
de tweets restitués entre les run « BMX25- — -Tweets » et « Baseline » correspond
approximativement au nombre de tweets non restitués à la cause des différences dans
les importance des termes des requêtes (695 sur les requêtes de 2012), observé dans
le chapitre précédent. Le fait de se baser principalement sur le facteur IDF dans la
restitution de microblog a résolu ce problème.
Le run « BM25fb- — -Tweets » est celui qui emploie le feedback avec le modèle
BM25 de base. À ce niveau, aucune amélioration n’a été constatée. Concernant
le run « BMX25fb- — -Tweets », les résultats montrent que, encore une fois, le
feedback n’améliore pas les résultats. Nous avons comparé les tweets pertinents des
runs « BMX25- — -Tweets » et « BMX25fb- — -Tweets ». 99% des tweets pertinents
du run « BMX25fb- — -Tweets » existaient dans le run « BMX25- — -Tweets » (13
nouveaux tweets). Cependant, l’emploi du feedback a négligé 161 tweets pertinents.
En réalité, 110 de ces tweets non restitués avaient un rang supérieur à 1500. Pour
cette raison, ils n’ont pas été considérés dans le rappel. Nous pouvons ainsi constater
que l’emploi du feedback ne permet pas de restituer de nouveaux tweets pertinents
et ne résout pas le problème de vocabulaire.
Au lieu de fournir simplement une méthode de pondération des termes de la
requête d’un utilisateur, la réinjection de pertinence peut également impliquer l’expansion
de la requête avec certains termes (dans ce cas dix termes pour les raisons
expliquées dans le paragraphe précédent) à partir du feedback (dix premiers tweets
de la première restitution). Ces termes sont choisis par le facteur de pertinence de
5. Ceci coïncide avec les résultats du chapitre suivant où nous allons montrer que la longueur
des microblogs est un facteur de pertinence dans la recherche de microblogs.
79CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS
l’équation 4.2. Le run réalisant l’expansion et le feedback est « BMX25fb-ReqexpTweets
». Au niveau du rappel, aucune amélioration n’a été observée par rapport au
run « BMX25- — -Tweets ». Cependant, la p@30 a progressé de 12,0 % et la MAP de
6,3 %. Nous avons comparé les tweets pertients des deux runs « BMX25fb-ReqexpTweets
» et « BMX25- — -Tweets ». Même si le rappel s’est dégradé de manière
significative, le run « BMX25fb-Reqexp-Tweets » contient 467 nouveaux tweets pertinents
(13 %). En contrepartie, il a négligé 813 tweets pertinents qui existaient dans
le run « BMX25- — -Tweets ».
Nous avons comparé également les runs « BMX25fb-Reqexp-Tweets » et « BMX25fb-
— -Tweets ». Même si ces deux runs ont pratiquement le même nombre de tweets
pertinents, ils diffèrent d’un ensemble considérable de tweets pertinents (de l’ordre
de 470 tweets pertinents). L’expansion améliore considérablement le rang des tweets
pertinents.
Ainsi, pour le modèle BM25 employé dans le cas de recherche de microblogs,
nous pouvons conclure que le feedback dégrade le rappel. En outre, il n’améliore
ni la MAP ni la précision, tant qu’il n’est pas accompagné d’une expansion de
requêtes. L’expansion de requêtes améliore les rangs des tweets pertinents et réduit
partiellement l’effet négatif du feedback au niveau du rappel.
3 Expansion de microblogs
Outre l’expansion des requêtes, nous avons évalué l’impact de l’expansion de
microblogs, et ce de plusieurs façons : expansion de hashtags et emploi des URLs.
3.1 Expansion de hashtags dans les tweets
Dans l’analyse de défaillances du chapitre 2, nous avons constaté qu’un nombre
important de tweets pertinents non restitués contient les termes de la requête collés
ensemble sous forme de hashtags (par exemple, #TextAndDrive). Nous avons
mis l’index à jour en étendant chaque hashtag composé avec les termes qui le composent.
Nous avons remarqué que les auteurs mettaient parfois le premier caractère
de chaque terme composant en majuscule. Ainsi, nous nous sommes basés sur cette
observation pour étendre les hashtags composés. Pour chaque tweet contenant un
hashtag composé, nous avons ajouté les termes composants au tweet (champ utilisée
: TweetsHashExp). Une légère amélioration mais non significative dans le rappel
(tableau 4.7) est constatée.
80CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS
Run Modèle Requête étendu champ utilisée P@30 Rappel MAP
BMX25- — -Tweets BMX25 — Tweets 0,3186 0,6643 0,2170
BMX25- — -TweetsHashExp BMX25 — TweetsHashExp 0,3198 0,6681 0,2166
Baseline VSM — Tweets 0,2825 0,6340 0,1871
VSM- — -TweetsHashExp VSM — TweetsHashExp 0,2785 0,6361 0,1859
Tableau 4.7 – Résultats après l’expansion de hashtags, avec le modèle vectoriel et le
modèle BM25 (sans et avec paramétrage).
3.2 Emploi des URLs
À l’issue de notre analyse de défaillances et plus particulièrement de l’analyse
des URLs publiées dans les tweets pertinents, nous avons remarqué que la prise en
compte des pages web pointées par les URLs en complément des contenus des tweets
pourrait améliorer la restitution des tweets pertinents. Le contenu des URLs présente
souvent les termes des requêtes, même si le tweet ne les contient pas. Une première
proposition consiste alors à la prise en compte d’un tweet selon 1) son contenu
(champ utilisée : Tweets) ainsi que 2) le contenu des documents pointés par les URLs
(champ utilisée : Tweets+URL) présentes dans le tweet (2 646 611 tweets contiennent
une URL dans la collection). Nous avons commencé par considérer les deux champs
(Tweets+URL) dans la recherche avec les requêtes originales. Le tableau 4.8 montre
que l’emploi les URLs dans la restitution améliore significativement les résultats,
que ce soit avec le modèle vectoriel ou bien BM25.
Run Modèle Requête étendue Champ utilisé P@30 Rappel MAP
Baseline VSM — Tweets 0,2825 0,6340 0,1869
VSM- — - Tweets+URL VSM — Tweets+URL 0,3814* 0,7171* 0,2593*
BM25- — -Tweets BM25 — Tweets 0,2836 0,6043 0,1654
BM25- — -Tweets+URL BM25 — Tweets+URL 0,3816* 0,6686* 0,2267*
BMXx25- — -Tweets+URL BMXx25 — Tweets+URL 0,3944* 0,6879* 0,2360*
Tableau 4.8 – Apport de l’emploi des URLs avec le modèle vectoriel et le modèle
BM25. * montre une amélioration significative par rapport au run précédent.
Dans le cas du modèle vectoriel, le run « VSM- — - Tweets+URL » a eu des
améliorations de 13,1 %, 35,0 % et 38,7 % sur le rappel, la P@30 et la MAP. En
comparant les tweets pertinents des runs « VSM- — - Tweets+URL » et « baseline
», nous avons remarqué que l’effet des URLs n’était pas totalement positif,
en particulier au niveau de la sélection des tweets pertinents. Le run « VSM- — -
Tweets+URL » contient 1013 (22,85 %) nouveaux tweets pertinents par rapport au
run « Baseline ». Cependant, 275 tweets pertinents du run « Baseline » n’ont pas
été de nouveau restitués.
81CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS
Les mêmes améliorations sont constatées avec le modèle BM25 : 10,6 %, 34,6 %
et 37,0 % respectivement sur le rappel, la p@30 et la MAP. Encore une fois, nous
pouvons affirmer que l’effet des URLs n’est pas totalement positif sur la sélection
des tweets pertinents. Cette observation est plus claire avec le modèle BM25. Le run
« BM25- — -Tweets+URL » contient 1039 nouveaux tweets pertinents par rapport
au run « BM25- — -Tweets ». Cependant, 670 tweets pertinents du run « BM25-
— -Tweets » n’ont pas été de nouveau restitués.
Le double effet de l’emploi des URLs revient au fait qu’une quantité importante
de tweets non pertinents contient les termes des requêtes dans les contenus des URLs.
Nous avons remarqué cette observation même au niveau des contenus des tweets :
plusieurs tweets non pertinents contiennent les termes des requêtes et traitent les
sujet des requêtes. . .
Finalement, nous avons testé une configuration qui définit les paramètres du
modèle BM25 en fonction du champ recherché. Les paramètres k1 et b sont initialisés
respectivement à 1,2 et 0,75 lorsque la recherche des termes d’une requête est
effectuée sur le champ UrlText (BMXx25 ). Ils ont été initialisés à 0,1 et 0 lorsque
la recherche est effectuée sur le champ Tweets. Le run avec cette configuration est
« BMXx25- — -Tweets+URL ». Nous pouvons observer des améliorations de 2,9 %,
3,3 % et de 4,1 % respectivement sur le rappel, la P@30 et la MAP, par rapport
au run « BM25- — -Tweets+URL ». Le parametrage a permis de restituer 215
nouveaux tweets pertinent. Cependant, 166 tweets pertinents du run « BM25- —
-Tweets+URL » n’ont pas été de nouveau restitués.
De manière générale, nous pouvons remarquer que le modèle BM25 est plus performant
au niveau de la précision. En d’autre termes, les rangs des tweets pertinents
avec le modèle BM25 sont meilleurs (plus proche de la tête de liste) que les rangs
des tweets pertinents avec le modèle vectoriel. En contrepartie, le modèle vectoriel
restitue une quantité plus importante de tweets pertinents : il est meilleur au niveau
du rappel. Concernant l’emploi des URLs, les résultats montrent qu’elles ont un rôle
très important et améliorent les résultats de manière remarquable, même si elles
sont la cause de la perte d’une quantité non négligeable de tweets pertinents.
Nous avons montré dans la section 2 que l’expansion des requêtes améliore les
performances, et dans cette section, que l’emploi des URLs améliore les résultats.
Dans la section suivante, nous présenterons les résultats de la combinaison de ces
deux facteurs.
4 Expansion de requêtes et de documents
À ce niveau, nous avions le choix entre l’expansion des requêtes avec le feedback
composé uniquement par le contenu des premiers tweets restitués ou bien avec le
82CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS
feedback composé par le contenu des tweets et des URLs ensemble.
Le tableau 4.9 montre les résultats de l’emploi du contenu des tweets uniquement
dans l’expansion et du contenu des tweets et des URLs dans la restitution
(première de nos possibilités). Nous avons testé trois configurations : les deux premières
se basent sur le modèle vectoriel comme modèle de restitution. La diffé-
rence réside au niveau de l’expansion. (i) Dans un premier temps nous calculons
les poids des termes avec TF.IDF (« VSM-Rocch(TF.IDF)-Tweets+URL ») et (ii)
dans un deuxième temps avec BM25 (« VSM-Rocch(BM25)-Tweets+URL »). (iii) La
troisième configuration emploie le modèle BM25 dans la restitution (« BMXx25fbReqexp-Tweets+URL
»). Pour le run « BMXx25fb-Reqexp-Tweets+URL », nous
avons initialisé les paramètres en fonction du champ de restitution comme expliqué
dans le paragraphe précédent.
Run Modèle Requête étendue Champ utilisé P@30 Rappel MAP
VSM-Rocch(TF.IDF)-Tweets VSM Rocch(TF.IDF) Tweets 0,3232 0,6822 0,2211
VSM-Rocch(TF.IDF)-Tweets+URL VSM Rocch(TF.IDF) Tweets+URL 0,3894* 0,7506* 0,2777*
VSM-Rocch(BM25)-Tweets VSM Rocch(BM25) Tweets 0,3311 0,6764 0,2304
VSM-Rocch(BM25)-Tweets+URL VSM Rocchio(BM25) Tweets+URL 0,3960* 0,7524* 0,2869*
BMX25fb-Reqexp-Tweets BMX25fb Reqexp Tweets 0,3571 0,6369 0,2300
BMXx25fb-Reqexp-Tweets+URL BMXx25fb Reqexp Tweets+URL 0.3712* 0,6294 0.2333
Tableau 4.9 – Emploi des tweets et des URLs et expansion de requêtes uniquement
à partir des tweets.* montre une amélioration significative par rapport au run
précédent.
La première observation que nous pouvons tirer est que les runs considérant
les URLs et les tweets en plus de l’expansion de requêtes sont meilleurs que les
runs considérant les tweets. Toutefois, l’intensité de cette amélioration dépend du
modèle de restitution. Nous pouvons remarquer des améliorations importantes avec
le modèle vectoriel sur les trois mesures. Cependant, les améliorations avec le modèle
BM25 sont moins importantes (notons même une dégradation du rappel).
Lorsqu’on utilise le modèle vectoriel pour la restitution, nous remarquons encore
une fois que la pondération des termes d’expansion avec BM25 donne de meilleurs
résultats qu’avec TF.IDF. Nous avons comparé les tweets pertinents des deux runs
« VSM-Rocch(BM25)-Tweets+URL » et « VSM-Rocch(BM25)-Tweets ». L’emploi
des URLs a résulté des améliorations de 11,2 %, 19,6 % et de 24,5 % respectivement
sur le rappel, la P@30 et la MAP. Le run « VSM-Rocch(BM25)-Tweets+URL »
contient 809 nouveaux tweets pertinents (17 %) et a échoué à restituer 259 (6 %)
tweets qui existaient dans « VSM-Rocch(BM25)-Tweets ». Nous remarquons ainsi de
nouveau le double effet de l’emploi des URLs pour les mêmes raisons précédemment
expliquées. Toutefois, la quantité de nouveaux tweets pertinents dépasse la quantité
83CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS
des tweets non restitués.
Concernant le modèle BM25, l’emploi des URLs a amélioré de manière significative
uniquement la P@30 (4,0 %). Les deux runs « BMXx25fb-Reqexp-Tweets+URL »
et « BMX25fb-Reqexp-Tweets » contiennent pratiquement le même nombre de
tweets pertinents. Cependant, ces deux runs diffèrent d’un certain nombre de tweets
pertinents (de l’ordre de 650 tweets). Nous pouvons ainsi conclure que, avec le modèle
BM25, le double effet de l’emploi des URLs est plus important. Il n’y a pas
ainsi d’effet positif sur le rappel. Cependant, ce facteur améliore considérablement
le rang des documents pertinents (effet positif sur la précision).
Finalement, nous avons voulu tester l’impact de l’emploi des URLs même dans
l’expansion de requêtes (deuxième de nos propositions citées au début de la section
4). En d’autres termes, les termes d’expansion seront sélectionnés à partir du
contenu des tweets et des URLs des résultats formant le feedback. Le tableau 4.10
montre les résultats de l’emploi du contenu des tweets et des URLs dans l’expansion
de requêtes avec le modèle vectoriel (Rocchio(BM25)(T+U)) et avec le modèle BM25
(Reqexp(T+U)). (T+U) indique l’emploi de Tweets et des URLs dans l’expansion.
Run Modèle Requête étendue Champ utilisé P@30 Rappel MAP
VSM-Rocchio(BM25)-Tweets+URL VSM Rocchio(BM25) Tweets+URL 0,3960 0,7524 0,2869
VSM-Rocchio(BM25)(T+U)-Tweets+URL VSM Rocchio(BM25)(T+U) Tweets+URL 0,2633 0,5892 0,1841
BMXx25fb-Reqexp-Tweets+URL BMXx25fb Reqexp Tweets+URL 0,3712 0,6294 0,2333
BMXx25fb-Reqexp(T+U)-Tweets+URL BMXx25fb Reqexp(T+U) Tweets+URL 0,3966* 0,5208 0,2143
Tableau 4.10 – Emploi des tweets et des URLs pour l’expansion et pour la restitution.
* montre une amélioration significative par rapport au run précédent.
Pour le modèle vectoriel, nous avons remarqué une dégradation remarquable en
employant les URLs dans l’expansion. Cependant, avec le modèle BM25, l’emploi
des URLs conduit à des effets différents. D’une part, le rappel et la MAP se sont
dégradés considérablement. D’autre part, la P@30 s’est améliorée pour atteindre le
meilleur score parmi toutes nos configurations précédentes. Ces observations sont
expliquées ainsi : le fait de considérer les URLs dans l’expansion a dévié le sens des
requêtes et généré des dégradations. Cependant, cette dégradation s’est transformée
en amélioration, en particulier avec le modèle BM25, étant donné que ce modèle
exploite le feedback (composé par les tweets et les contenus des URLs) dans la
nouvelle restitution. Ceci a conduit, d’une part, à une perte importante dans le
nombre de tweets pertinents restitués, mais, d’autre part, à une mise en valeur
maximale des tweets pertinents restitués (reclassement vers la tête de la liste).
84CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS
5 Discussion
La conclusion principale des expérimentations de ce chapitre est que l’expansion
de requêtes et la prise en compte des contenus des URL dans la restitution
paraissent indispensables pour la recherche des microblogs, que ce soit au
niveau du rappel ou la précision. Les URLs permettent non seulement de fournir
des informations supplémentaires pour les internautes, mais présentent également
un vocabulaire très utile pour les moteurs de recherche, qui sera utilisé pour mesurer
la pertinence du microblog vis-à-vis d’un besoin en information. L’expansion
de requêtes permet de mieux représenter les besoins d’information (améliore le
rappel), et de mettre en valeur les tweets pertinents (améliore la précision). La
pondération des termes de la requête, elle aussi, joue un rôle très important
dans l’amélioration des résultats. Elle permet de mettre en valeur les tweets pertinents
en relation avec les termes importants des requêtes (améliore la précision).
Ceci est aperçu, d’une part, en regardant les runs utilisant l’expansion de requêtes
avec les articles des actualités (tableau 4.1), avec et sans pondération, ou en comparant
les runs se basant sur TF.IDF avec les runs se basant sur BM25 pour pondérer
les termes d’expansion (tableau 4.5).
Concernant le modèle de restitution, la supériorité d’un modèle par rapport
à un autre dépend des facteurs supplémentaires utilisés et aussi des résultats à
analyser (rappel ou précision). De manière générale, BM25 obtient de meilleures
précisions et VSM obtient les meilleurs rappels.
Le paramétrage est crucial pour le modèle BM25. Le fait d’initialiser k1 à 0,1 et
b à 0 (on ne prend pas en compte la normalisation par la longueur) lui permet de
prendre un avantage par rapport au VSM. Cependant, l’emploi du feedback dégrade
ses résultats, que ce soit avec ou sans paramétrage, à moins que ce feedback soit
accompagné d’une expansion de requêtes (tableau 4.6). Dans ce cas, nous arrivons à
obtenir les meilleures P@30. Cette dernière observation reste valide que ce soit avec
ou sans l’emploi des URLs.
Les améliorations avec le modèle vectoriel sont plus équilibrées. En employant
des facteurs supplémentaires (Rocchio ou URLs), nous apercevons des améliorations
sur le rappel ou bien sur la précision. Concernant l’expansion, la pondération des
termes avec BM25 ou avec TF.IDF fait ressortir, dans la plupart des cas, les mêmes
termes d’expansion. Cependant, la pondération de ces termes avec BM25 permet de
restituer plus de tweets pertinents et de les ranger de façon plus pertinente qu’avec
TF.IDF.
Concernant l’emploi des URLs dans l’appariement, l’impact de ce facteur
dépend du modèle de restitution. De manière générale ce facteur améliore
toutes les mesures avec le modèle vectoriel. Cependant, il améliore uniquement la
P@30 avec le modèle probabiliste (tableau 4.9). L’emploi des URLs, en plus des
85CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS
tweets, dans l’expansion de requêtes n’a pas montré un effet positif avec le modèle
vectoriel. Cependant, il a permis d’avoir la meilleure P@30 parmi toutes nos
expérimentations, même s’il a dégradé considérablement le rappel (tableau 4.10).
Nous avons comparé les deux meilleurs runs au niveau de la P@30 « VSMRocch(BM25)-Tweets+URL
» et « BMXx25fb-Reqexp(T+U)-Tweets+URL », avec
les résultats officiels de la tâche Microblog de TREC 2012 (Ounis et al., 2012).
L’évaluation des résultats officiels des participants de la tâche microblogs 2012 est
réalisée en considérant uniquement les tweets hautement pertinents. Le tableau 4.11
montre les résultats de ces deux runs considérant les tweets hautement pertinents.
D’ailleurs, ces deux runs ont conservé leur avantage par rapport aux autres runs,
même avec cette considération.
Run Modèle Requête étendue Champ utilisé P@30 Rappel MAP
VSM-Rocch(BM25)-Tweets+URL VSM Rocchio(BM25) Tweets+URL 0,2531 0,7722 0,2264
BMXx25fb-Reqexp(T+U)-Tweets+URL BMXx25fb Reqexp(T+U) Tweets+URL 0,2531 0,6087 0,2113
Tableau 4.11 – Résultats des meilleurs runs avec les tweets hautement pertinents.
Le tableau 4.12 montre les résultats des deux meilleurs runs officiels des participants
de 2012. Chacun de nos deux runs nous aurait permis de nous placer à la 2ème
position des participants selon la P@30. Nous n’avons bien évidemment considéré
que les runs automatiques dans cette comparaison.
Groupe Run P@30 MAP
HIT MTLAB hitURLrun3 0.2701 0.2642
IRIT VSM-Rocch(BM25)-Tweets+URL 0.2531 0.2264
IRIT BMXx25fb-Reqexp(T+U)-Tweets+URL 0.2531 0.2113
HIT MTLAB hitLRrun1 0.2446 0.2411
Tableau 4.12 – Comparaison avec les résultats officiels de TREC 2012
Run Modèle Requête étendue Champ utilisé P@30 Rappel MAP
VSM-Rocch(BM25)-Tweets+URL VSM Rocchio(BM25) Tweets+URL 0.4701 0.8752 0.4700
Tableau 4.13 – Emploi des tweets pour l’expansion et des tweets et des URLs pour
la restitution sur les topics de TREC 2011.
Le tableau 4.13 montre les résultats du run « VSM-Rocch(BM25)-Tweets+URL »
sur les requêtes de 2011. Les jugements des runs officiels de la tâche de 2011 sont
réalisés en considérant tous les tweets pertinents. Ce run nous aurait permis de nous
86CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS
placer à la 1ère position des participants selon la P@30 (tableau 4.14). Notons la
présence de notre run officiel (Damak et al., 2011).
Groupe Run P@30 MAP
IRIT VSM-Rocch(BM25)-Tweets+URL coupé à 30 0,4701 0,2966
isi isiFDL 0,4551 0,1923
FUB DFReeKLIM30 0,4401 0,2348
CLARITY_DCU clarity1 0,4211 0,2139
Purdue_IR myrun2 0,3993 0,2003
IRIT Run officiel (Damak et al., 2011) 0,2565 0,1940
Tableau 4.14 – Comparaison avec les résultats officiels de TREC 2011
6 Bilan
Dans ce chapitre nous avons proposé quelques méthodes pour améliorer la qualité
des résultats d’une tâche de recherche de micrblogs. Nous avons exploité les
articles des actualités et la base lexicale WordNet pour étendre les requêtes. En
outre, nous avons analysé l’impact des techniques de RI classique sur ce nouveau
type de document. Nous avons particulièrement testé le modèle vectoriel et le modèle
probabiliste. Avec le modèle vectoriel, nous avons étendu les requêtes avec la
technique de Rocchio. Avec le modèle BM25, nous avons utilisé son mécanisme naturel
de feedback et d’expansion. Ensuite, nous avons testé l’effet de l’emploi du
contenu des URLs en complément du contenu des tweets. L’emploi des URLs était
avantageux uniquement pour la restitution (et non pour l’expansion). De manière
générale, le modèle BM25 fournit de meilleures précisions. Le modèle vectoriel arrive
à restituer plus de tweets pertinents. L’expansion de requêtes améliore le rappel et la
précision avec le modèle vectoriel. Cependant, avec le modèle BM25, son effet positif
est clair surtout sur la P@30. L’emploi des URLs pour la restitution est primordial.
En contrepartie, elles n’ont pas montré d’intérêt pour l’expansion des requêtes.
87CHAPITRE 4. EXPANSION DE REQUÊTES ET DE DOCUMENTS
88Chapitre 5
Analyse des facteurs de pertinence
de l’état de l’art
1 Introduction
Nous avons montré dans l’état de l’art que les approches de RI dans les microblogs
emploient une multitude de critères de pertinence : critères de fraîcheur, critères
sur les auteurs, critères du réseau social, des différentes données présentes dans
microblogs (hashtags, URLs). . . , en plus de la pertinence textuelle. Ces différents
critères sont concrètement pris en compte dans les modèles de recherche proposés
en combinant des facteurs de pertinence pour mesurer la pertinence des microblogs
vis-à-vis d’un besoin en information. Par exemple, en considérant le critère importance
de l’auteur, les facteurs de pertinence associés pourraient être le nombre de
microblogs de l’auteur et le nombre de ses abonnés (Nagmoti et al., 2010). Nous
pouvons également considérer le nombre de fois qu’un utilisateur a été mentionné
ou bien le score de l’auteur selon un algorithme semblable à PageRank basé sur des
relations de rediffusion des messages (Ben Jabeur et al., 2011).
Même si les intuitions justifiant l’emploi de ces facteurs de pertinence encouragent
leur exploitation, la valeur réelle de ces facteurs de pertinence n’a jamais été
démontrée. En outre, nous avons montré dans le chapitre 3 (analyse de défaillances)
que, dans la recherche de microblogs, la plupart des problèmes remontés par les
modèles de recherche sont des problèmes de vocabulaire (Damak, 2013), problèmes
pour lesquels nous avons proposé des solutions dans le chapitre 4. La question qui se
pose maintenant est : si le modèle arrive à restituer tous les microblogs pertinents,
est-ce que l’emploi de facteurs de pertinence supplémentaires permet de promouvoir
les microblogs pertinents parmi l’ensemble des résultats ?
Dans ce chapitre, nous évaluons l’impact réel des facteurs de pertinence souvent
utilisés dans les approches de l’état de l’art sur la qualité des microblogs restitués
vis-à-vis d’un besoin en information.
89CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE
2 Description des facteurs de pertinence
Nous décrivons dans cette section les 14 facteurs de pertinence que nous considé-
rons, classés par groupe. Nous considérons cinq groupes de facteurs de pertinence :
celui lié au contenu des microblogs, celui lié à leur hypertextualité, celui qui se base
sur les hashtags, celui lié aux auteurs des microblogs et enfin un groupe de facteurs
relatifs à la qualité des microblogs. Nous cherchons à évaluer l’impact de ces facteurs
de pertinence comme précédemment, c’est-à-dire sur l’évaluation de la pertinence
d’un tweet par rapport à une requête.
Nous utiliserons les notations suivantes dans la suite :
– q est la requête (composée de mots-clés ‘topic’ et caractérisée par une date),
– Cq est le corpus des tweets publiés avant la date de la requête,
– Tq est l’ensemble des tweets restitués par un moteur de recherche donné calculant
la pertinence par rapport à q uniquement sur le contenu des tweets
(Tq ⊆ Cq),
– t est un tweet ∈ Tq sur lequel on applique le facteur de pertinence.
2.1 Facteurs de pertinence basés sur le contenu des tweets
Nous avons considéré quatre facteurs de pertinence relatifs à certaines spécificités
de contenu des microblogs : la popularité d’un tweet (5.1), la longueur faible des
tweets (5.2), la correspondance des termes entre les tweets et la requête (5.3) et la
qualité du langage d’écriture du tweet (5.4).
– Popularité du tweet (Duan et al., 2010) : ce facteur de pertinence estime la popularité
d’un tweet dans Tq. On suppose qu’un tweet est populaire si on trouve
plusieurs autres tweets ayant un contenu similaire. La similarité sim(ti
, tj )
entre chaque paire de tweets est calculée avec un modele vectoriel qui prend
également en compte la fréquence des termes de la requête dans le tweet (Cohen
et al., 2007). On note le vecteur contenant les termes du tweet courant par ti
.
Ce facteur de pertinence est calculé de la manière suivante :
f1(ti
, q) =
P
tj∈Tq,i6=j sim(ti
, tj )
|Tq| − 1
(5.1)
– Longueur du tweet (Duan et al., 2010) : intuitivement, plus une phrase est
longue, plus elle contient de l’information. Nous avons calculé ce facteur de
pertinence en comptant le nombre de termes dans un tweet. On note l(ti) le
nombre de termes dans un tweet ti dans Tq. Ce facteur de pertinence est calculé
de la manière suivante :
f2(ti) = l(ti)
maxtj∈Tq
l(tj )
(5.2)
90CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE
– Correspondance exacte des termes : ce facteur favorise les tweets qui contiennent
les termes de la requête q. La valeur nb(ti
, q) correspond au nombre de termes
en commun entre ti et q :
f3(ti
, q) = nb(ti
, q)
maxtj∈Tqnb(tj
, q)
(5.3)
– Qualité du langage (Duan et al., 2010) : ce facteur de pertinence représente la
proportion des termes qui existent dans un dictionnaire 1 par rapport à tous
les termes du tweet ti
. La valeur dic(term) est binaire : 1 si le terme existe
dans le dictionnaire, 0 sinon :
f14(ti) =
P
term∈ti
dic(term)
l(ti)
(5.4)
2.2 Facteurs de pertinence basés sur l’hypertextualité
Nous considérons trois facteurs de pertinence additionnels qui peuvent indiquer
la qualité de l’information publiée dans les tweets :
– Présence d’une URL dans le tweet (Nagmoti et al., 2010 ; Zhao et al., 2011) :
partager des URLs est une manière de confirmer l’information publiée dans un
tweet. Ceci permet également d’attirer l’attention sur un contenu présent sur
le web. Ainsi, on fait l’hypothèse que la présence d’une URL indique que le
tweet a un caractère informatif renforcé. Ce facteur de pertinence est binaire :
f4(ti) =
1 si ti contient une URL
0 sinon
(5.5)
– Fréquence des URLs (Zhao et al., 2011) : compte le nombre d’URLs publiées
dans un tweet ti
:
f5(ti
, q) = |{w ∈ ti/isURL(w)}|
maxtj∈Tq
|{w ∈ tj/isURL(w)}| (5.6)
– Fréquence de l’URL dans le corpus : ce facteur de pertinence permet de calculer
la popularité des URLs publiées dans un tweet ti dans le corpus Cq. On note
par freq(url) le nombre de fois ou une URL apparaît dans le corpus Cq :
f6(ti
, q) =
P
url∈ti
freq(url)
maxtj∈Tq
P
url∈tj
freq(url)
(5.7)
2.3 Facteurs de pertinence basés sur les hashtags
– Présence de hashtag (Metzler et Cai, 2011).
f7(ti) =
1 si ti contient un hashtag
0 sinon
(5.8)
1. http://code.google.com/p/language-detection/
91CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE
– Fréquence de hashtags du tweet (Duan et al., 2010). On note la fréquence d’un
hashtag dans le corpus Cq par freq(h) :
f8(ti) = X
h∈ti
freq(h) (5.9)
– Hashtags de la requête dans le tweet : calcule le nombre de termes d’une
requête q qui apparaissent sous forme d’un hashtag dans un tweet ti
.
f9(ti
, q) = |{w ∈ q/#w ∈ ti}|
maxtj∈Tq
|{w ∈ q/#w0 ∈ tj}| (5.10)
2.4 Facteurs de pertinence basés sur la popularité
des auteurs
Afin de tenir compte de la popularité des auteurs, nous avons considéré deux
facteurs de pertinence spécifiques aux auteurs de microblogs.
– Nombre de tweets de l’auteur (Nagmoti et al., 2010) : l’objectif de ce facteur de
pertinence est de valoriser les tweets publiés par des auteurs actifs par rapport
aux tweets publiés par des auteurs moins actifs. On note par a(ti) l’auteur du
tweet ti et N(a(ti)) le nombre de tweets publiés par l’auteur du tweet ti dans
le corpus Cq.
f10(ti) = N(a(ti)) (5.11)
– Nombre de citations de l’auteur (Zhao et al., 2011) : plus un auteur est mentionné,
plus il est populaire. M(a(ti)) indique combien de fois un auteur du
tweet ti a été mentionné dans le corpus Cq :
f11(ti) = M(a(ti)) (5.12)
2.5 Facteurs de pertinence relatifs à la qualité des tweets
Nous avons également analysé deux autres critères particularisant les tweets :
– Retweet (Metzler et Cai, 2011). Si un utilisateur aime un tweet publié par un
de ses amis, il va probablement le commenter et le partager de nouveau. Dans
ce cas, le nouveau message va être précédé par RT (ou marqué en tant que
retweet).
f12(ti) =
1 si ti contient RT
0 sinon
(5.13)
– Fraîcheur (Magnani et al., 2012). C’est la différence entre la date de la publication
du tweet ti et la date de la soumission de la requête q, mesurée en
secondes. tmp(ti) est le timestamp en seconde d’un tweet ti (c’est-à-dire sa
date de publication).
f13(ti
, q) = tmp(q) − tmp(ti)
maxtj∈Tq
tmp(q) − tmp(tj )
(5.14)
92CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE
3 Méthodologie
Notre analyse est réalisée en trois phases : tout d’abord, nous avons évalué les
facteurs de pertinence en nous basant sur les distributions de leurs scores, ensuite,
en combinant linéairement leurs scores avec le score du modèle de restitution, et
finalement en utilisant les techniques de sélection d’attributs pour des algorithmes
d’apprentissage.
3.1 Étude de la distribution des scores
L’intuition derrière cette étude est que les facteurs de pertinence reflétant la
pertinence distinguent les tweets pertinents des non pertinents. Ces facteurs de pertinence
n’aurons pas le même comportement avec les tweets pertinents et les tweets
non pertinents. Pour évaluer un facteur, nous avons observé la distribution de ses
scores dans les tweets. Si la distribution des scores d’un facteur de pertinence est la
même pour les tweets pertinents et non pertinents, ce facteur ne permettra pas ainsi
de différencier les deux classes de tweets, et ne sera pas considéré comme facteur
utile à cette tâche. Dans le cas contraire, lorsque la distribution des scores d’un
facteur de pertinence est différente entre les tweets pertinents et non pertinents, ce
facteur permettra dans ce cas de différencier les deux classes de tweets, et il sera par
conséquent considéré comme facteur utile.
3.2 Étude par la combinaison linéaire des scores
Dans un deuxième temps, nous avons évalué l’impact direct de chacun des facteurs
de pertinence sur la qualité des résultats. Nous avons ainsi combiné linéairement
le score de chaque facteur de pertinence avec le score du modèle de restitution
textuel employé. L’intuition derrière cette étude est que les facteurs de pertinence
utiles vont promouvoir les tweets pertinents dans l’ensemble des résultats et ceci, de
manière générale, va améliorer la qualité des résultats.
Ensuite, nous avons testé la complémentarité des facteurs de pertinence : peuventils
se compléter afin d’améliorer les résultats ? L’idée est de voir si les facteurs de pertinence
ont des comportements différents lorsqu’ils sont combinés avec d’autres facteurs
de pertinence, par rapport à leur comportement lorsqu’ils sont employés seuls.
Afin d’étudier ce dernier point, il faudrait effectuer toutes les combinaisons possibles
des facteurs de pertinence entre eux, ceci impliquant un nombre très important de
runs (C
2
14 +C
3
14 +C
4
14 +C
5
14 +C
6
14 +C
7
14 +C
8
14 +C
9
14 +C
10
14 +C
11
14 +C
12
14 +C
13
14 = 16 368
runs).
Afin de réduire le nombre de cas à prendre en compte, nous avons décidé d’observer
le comportement des différents groupes qu’ils forment :
93CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE
– Groupe G1 lié au contenu des tweets, composé des facteurs de pertinence f1,
f2 et f14,
– Groupe G2 lié à l’hypertextualité, composé des facteurs de pertinence f4, f5
et f6,
– Groupe G3 lié aux hashtags publiés dans tweets, composé des facteurs de
pertinence f7, f8, et f9.
– Groupe G4 lié aux auteurs des tweets, composé des facteurs de pertinence f10,
et f11,
– Groupe G5 lié aux critères qualitatifs des tweets, composé des facteurs de
pertinence f12 et f13.
3.3 Étude avec les techniques de sélection d’attributs
Le problème de l’étude précédente réside dans la sélection des groupes des facteurs
de pertinence. Tant que nous n’avons pas essayé toutes les combinaisons des
facteurs de pertinence possible, il est impossible de juger convenablement la complémentarité
des facteurs de pertinence, et d’identifier les meilleures combinaisons.
En outre, l’étude précédente se base simplement sur des combinaisons de scores.
Dans cette troisième étude plus approfondie, nous nous sommes ainsi appuyés
sur des techniques de sélection d’attributs pour déterminer les meilleurs facteurs de
pertinence à considérer dans une tâche de recherche de microblogs.
Les techniques de sélection d’attributs visent à identifier et enlever le maximum
d’information redondante et non pertinente en amont d’un processus à base
d’apprentissage (Hall et Holmes, 2003). Elles permettent également de sélectionner
de manière automatique les sous-ensembles de facteurs de pertinence permettant
d’avoir les meilleurs résultats.
Cette phase a fait ressortir plusieurs ensembles de facteurs. Ensuite, nous avons
évalué l’efficacité de ces ensembles en les appliquant sur des techniques d’apprentissage
dans un contexte de recherche de microblogs.
4 Expérimentations
4.1 Étude par la distribution des scores
4.1.1 Cadre expérimental
Nous nous sommes basés sur le modèle vectoriel comme modèle de restitution.
Les scores des facteurs de pertinence sont ensuite calculés pour chaque tweet résultat.
Nous avons utilisé les requêtes des deux éditions 2011 et 2012 de la tâche microblog
de TREC. Dans les expérimentations de cette étude, nous considérons les
tweets moyennement pertinents et hautement pertinents (qrels all-rel) L’ensemble
94CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE
des tweets à analyser est construit de la manière suivante : d’abord, nous avons
sélectionné uniquement les requêtes ayant au moins 100 tweets pertinents (ce qui
représente 14 requêtes de 2011 et 13 requêtes de 2012). Nous avons fait ce choix pour
avoir un nombre suffisant de tweets à étudier. Pour chacune d’entre elles, nous avons
gardé tous les tweets pertinents en nous référant aux jugements de pertinence. Pour
chaque requête, nous avons ajouté le même nombre de tweets non pertinents que de
tweets pertinents. Les tweets non pertinents sont sélectionnés en fonction de leurs
scores du modèle vectoriel. Nous avons gardé ceux ayant les scores les plus importants.
Les tweets de toutes les requêtes ont été fusionnés pour tracer la distribution
globale dans les figures qui suivent.
4.1.2 Résultats
95CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE
96CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE
Figure 5.1 – Distribution des scores des tweets pertinents et des tweets non pertinents
(requêtes de 2011 à gauche et celles de 2012 à droite).
La figure 5.1 montre la distribution des scores de tweets pertinents et des tweets
non pertinents pour cette première étude. Les intervalles ont été calculés avec la
loi de Sturges (1926). À part le facteur fraîcheur (f13), aucune différence dans les
distributions entre les requêtes de 2011 et de 2012 n’est constatée.
Nous pouvons observer que les facteurs de pertinence popularité du tweet (f1),
longueur du tweet (f2), correspondance exacte des termes (f3), présence d’URL (f2),
fréquence d’URLs (f5), importance d’URLs (f6) et fraîcheur (f13) ne présentent pas
la même distribution des scores entre les tweets pertinents et les tweets non per-
97CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE
tinents. Ces critères obtiennent leurs meilleurs scores avec les tweets pertinents et
reflètent probablement ainsi la pertinence. La différence entre les deux populations
de scores (des tweets pertinents et des tweets non pertinents) est statiquement significative
selon le test t pairé et bilatéral avec p < 0, 05.
4.2 Étude par la combinaison linéaire des scores
Dans cette section, nous comparons tout d’abord l’apport des différentes facteurs
de pertinence pour raffiner le processus de RI sur les microblogs. Puis, nous
positionnons nos résultats par rapport aux résultats officiels de la tâche Microblog à
TREC 2011 et 2012. Enfin, nous généralisons nos conclusions en faisant abstraction
du moteur de recherche Lucene utilisé jusqu’alors (Damak et al., 2012).
4.2.1 Cadre expérimental
Le score final d’un tweet (équation 5.16) est calculé en combinant le score du
modèle vectoriel et les scores des facteurs de pertinence (équation 5.15). Le score
facteurs de pertinence est calculé par une combinaison linéaire. On réalise différentes
normalisations de sorte que fn(ti
, q) ∈ [0, 1] et fsources(ti
, q) ∈ [0, 1]. Nous avons exclu
le facteur de pertinence f3 (correspondance exacte de termes) des sources à évaluer
afin de l’utiliser par la suite pour la généralisation des résultats. Cette source est
nommée dans les expérimentations « Base ». Nous avons utilisé les requêtes des
deux éditions 2011 et 2012 de la tâche Microblog.
fsources(ti
, q) = f(f1(ti
, q), f2(ti
, q), f4(ti
, q), f5(ti), ..., f12(ti), f13(ti), f14(ti)) (5.15)
score(ti
, q) = α ∗ V SM(ti
, q) + (1 − α) ∗ fsources(ti
, q) α ∈ [0, 1] (5.16)
Dans nos expérimentations, nous considérons les tweets moyennement pertinents
et hautement pertinents (qrels all-rel). Les résultats présentés par la suite sont évalués
en fonction d’un classement sur le score de pertinence, contrairement à la tâche
Microblog de l’édition de 2011 qui évalue en réordonnant les résultats sur la date
des tweets au préalable, ce qui ne rend pas compte de la qualité des facteurs de
pertinence. Pour nos analyses, nous utilisons les 5000 premiers résultats renvoyés
par Lucene.
4.2.2 Résultats
4.2.2.1 Combinaison source par source. Le tableau 5.1 montre les résultats
obtenus en considérant les facteurs de pertinence décrits dans la section 2 un par
un. Un astérisque indique que la différence est statistiquement significative selon le
test t de Student (1908) pairé et bilatéral avec p < 0, 05.
98CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE
Système
édition 2011 édition 2012
P@30 MAP P@30 MAP
VSM 0,3544 0,3141 0,2842 0,1871
VSM + f1 0,3027* 0,2280* 0,1966* 0,1371*
VSM + f2 0,2701* 0,2241* 0,2729* 0,1616*
VSM + f4 0,3986* 0,3348* 0,3463* 0,2202*
VSM + f5 0,3517 0,3062* 0,3260* 0,2062*
VSM + f6 0,3238 0,2570* 0,2469* 0,1645*
VSM + f7 0,1619* 0,1067* 0,1542* 0,0905*
VSM + f8 0,2823* 0,2078* 0,2379* 0,1517*
VSM + f9 0,2275* 0,1903* 0,2246* 0,1478*
VSM + f10 0,1850* 0,1724* 0,2040* 0,1311*
VSM + f11 0,3245* 0,2475* 0,2627* 0,1625*
VSM + f12 0,0299* 0,0867* 0,0362* 0,0845*
VSM + f13 0,3456* 0,3134* 0,2808 0,1860*
VSM + f14 0,3517* 0,3067* 0,2842 0,1813*
Tableau 5.1 – Apport de chaque facteur de pertinence par rapport au modèle vectoriel
(baseline VSM).
Comme nous pouvons le constater, et de façon assez surprenante, l’utilisation de
tous les critères, sauf f4 (2011) et f4, f5 (pour 2012), conduit à une dégradation des
résultats. Concernant f4 (présence d’une URL dans le tweet), on observe une hausse
sensible des résultats (+12,4 % sur la P@30 sur les requêtes de 2011 et +21,85 % sur
les requêtes de 2012).
4.2.2.2 Combinaison de plusieurs facteurs de pertinence. Les résultats
précédents ne nous permettent pas de voir les interactions entre les facteurs de
pertinence. Nous évaluons maintenant les groupes des facteurs de pertinence.
Les résultats sont décrits dans les tableau 5.2. Les combinaisons qui améliorent la
P@30 sont les combinaisons qui mobilisent G2, qui contient le facteur de pertinence
f4. Ceci tend à confirmer que seul le facteur de pertinence f4 a un intérêt dans
notre système. Nous pouvons remarquer également que le groupe G1 n’améliore pas
les résultats lorsqu’il est utilisé seul, mais améliore les résultats lorsqu’il est combiné
avec l’un des autres groupes, en particulier G2. Le contraire de cette observation se
manifeste pour le groupe G3. Ce groupe dégrade les résultats en le combinant avec
n’importe quel autre groupe.
99CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE
Système
édition 2011 édition 2012
P@30 MAP P@30 MAP
VSM 0,3544 0,3141 0,2842 0,1871
VSM + G1 0,3449* 0,2996* 0,2938* 0,1816*
VSM + G2 0,3694 0,3233 0,3249 0,2091
VSM + G3 0,1833* 0,1332* 0,1643* 0,0973*
VSM + G4 0,2197* 0,1832* 0,1876* 0,1254*
VSM + G5 0,1578* 0,1797* 0,1390* 0,1134*
VSM + G1 + G2 0,4014* 0,3431* 0,3441* 0,2235*
VSM + G1 + G3 0,2920* 0,2374* 0,2298* 0,1421*
VSM + G1 + G4 0,3374* 0,2965* 0,2864* 0,1770*
VSM + G1 + G5 0,2769* 0,2520* 0,2288* 0,1551*
VSM + G2 + G3 0,2848* 0,2382* 0,2678* 0,1659*
VSM + G2 + G4 0,3306* 0,2947* 0,3085* 0,1968*
VSM + G2 + G5 0,2973* 0,2763* 0,2740* 0,1841*
VSM + G3 + G4 0,1906* 0,1395* 0,1608* 0,0976*
VSM + G3 + G5 0,2159* 0,1793* 0,1596* 0,1111*
VSM + G4 + G5 0,2170* 0,2064* 0,1644* 0,1182*
VSM + G1 + G2 + G3 0,3623* 0,3005* 0,3029* 0,1909*
VSM + G1 + G2 + G4 0,3946* 0,3354* 0,3390* 0,2178*
VSM + G1 + G2 + G5 0,3544* 0,3113* 0,2853* 0,1994*
VSM + G1 + G3 + G4 0,2906* 0,2388* 0,2205* 0,1409*
VSM + G1 + G3 + G5 0,2804* 0,2398* 0,2094* 0,1416*
VSM + G1 + G4 + G5 0,2864* 0,2538* 0,2282* 0,1552*
VSM + G2 + G3 + G4 0,3043* 0,2545* 0,2573* 0,1623*
VSM + G2 + G3 + G5 0,3087* 0,2608* 0,2520* 0,1669*
VSM + G2 + G4 + G5 0,3252* 0,2839* 0,2644* 0,1819*
VSM + G3 + G4 + G5 0,2159* 0,1802* 0,1684* 0,1116*
VSM + G1 + G2 + G3 + G4 0,3638 0,2991 0,2959 0,1859
VSM + G1 + G2 + G3 + G5 0,3478 0,2929 0,2731 0,1822
VSM + G1 + G2 + G4 + G5 0,3517 0,3108 0,2853 0,1977
VSM + G1 + G3 + G4 + G5 0,2906 0,2409 0,2041 0,1403
VSM + G2 + G3 + G4 + G5 0,3109 0,2602 0,2491 0,1629
VSM + G1 + G2 + G3 + G4 + G5 0,3464 0,2909 0,2690 0,1790
Tableau 5.2 – Apport de chaque groupe de facteurs de pertinence et de leurs combinaisons
par rapport modèle vectoriel (baseline VSM).
100CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE
4.2.3 Comparaison avec les résultats officiels de TREC
Nous avons comparé notre meilleur run résultat (VSM + G1 + G2) avec les résultats
officiels de la tâche Microblog de TREC 2011. Les résultats sont présentés dans
le tableau 4.1. Afin que la comparaison soit équitable, seuls sont présents dans le
tableau les runs officiels automatiques n’utilisant pas de source externe et fonctionnant
en temps réel, c’est à dire n’utilisant pas d’information future. Nous rappelons
que lors de l’évaluation officielle, les tweets doivent être ordonnés par ordre chronologique
inverse. Notre run est coupé à 30 résultats afin d’éviter le biais introduit
par le tri chronologique, assimilable à l’introduction d’un critère indépendant de la
pertinence qui introduit un paramètre aléatoire non souhaitable. Par conséquent,
les résultats du tableau 5.3 diffèrent sur la MAP par rapport au tableau 5.1. À titre
informatif, les résultats sans coupe de notre run sont également présentés dans le
tableau. On note l’effet négatif sur les résultats du tri chronologique des tweets, et
ce sur les deux mesures.
Groupe Run P@30 MAP
isi isiFDL 0,4551 0,1923
FUB DFReeKLIM30 0,4401 0,2348
CLARITY_DCU clarity1 0,4211 0,2139
IRIT VSM + G1 + G2 coupé à 30 0,4014 0,1857
Purdue_IR myrun2 0,3993 0,2003
IRIT VSM + f4 coupé à 1000 0,1272 0,1549
IRIT Run officiel (Damak et al., 2011) 0,2565 0,1940
Tableau 5.3 – Comparaison avec les résultats officiels de TREC 2011
Le run « VSM + G1 +G2 coupé à 30 » nous aurait permis de nous placer à la 4e
position des participants selon la P@30. Ces résultats améliorent notre participation
officielle dont les détails sont donnés dans (Damak et al., 2011). Sur les requêtes de
2012, le run (VSM + f4) nous aurait permis de nous placer à la 36e position des
participants selon la P@30. Ceci s’explique par le fait que les participants de la tâche
de 2012 ont employé d’autres moyens, en particulier l’exploitation des contenus des
URLs et l’expansion de requêtes dans leurs systèmes, dont nous avons montré leurs
intérêts dans le chapitre précédent, ce qui a mis la barre de la pertinence très haute.
101CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE
4.2.4 Généralisation des résultats
Les résultats que nous avons obtenus et présentés dans les sections précédentes
sont liés à la performance du modèle vectoriel : ce sont sur les tweets renvoyés par
ce modèle que nous appliquons les facteurs de pertinence. On pourrait donc penser
que le score final d’un tweet dépend fortement du score du modèle vectoriel. Nous
avons donc cherché à généraliser nos résultats précédents, en mettant en place une
méthodologie d’évaluation indépendante du modèle vectoriel. Pour ce faire, nous
avons sélectionné 5000 tweets avec Lucene, desquels nous avons enlevé le score associé.
Ensuite, nous avons ajouté à cet ensemble les tweets pertinents manquants
obtenus à partir des jugements de pertinence officiels (qrels). Comme il semble obligatoire
d’avoir au moins un facteur de pertinence basé sur le contenu de la requête,
la contribution du modèle vectoriel a été remplacée par un score très simple : le
pourcentage de termes de la requête présents dans le tweet (Base). Ce score correspond
au critère f3. Le score final de chaque tweet est ensuite calculé selon la formule
5.16 dans laquelle le score du modèle vectoriel est remplacé par Base. Les résultats
généralisés sur l’apport des facteurs de pertinence un à un sont présentés dans le
tableau 5.4.
Système
édition 2011 édition 2012
P@30 MAP P@30 MAP
Base 0,2184 0,1785 0,1793 0,1001
Base + f1 0,2034 0,1629* 0,1339 0,0762*
Base + f2 0,1531* 0,1155* 0,1741* 0,0909*
Base + f4 0,2449* 0,2019* 0,2316* 0,1298*
Base + f5 0,2565* 0,1876* 0,2126 0,1216*
Base + f6 0,2095 0,1610* 0,1816 0,1065*
Base + f7 0,1150* 0,0687* 0,1103 0,0638*
Base + f8 0,1755* 0,1214* 0,1586* 0,0871*
Base + f9 0,1884* 0,1424* 0,1591 0,0957*
Base + f10 0,1190* 0,0980* 0,1339* 0,0819*
Base + f11 0,2054 0,1481* 0,1638 0,0866*
Base + f12 0,0245* 0,0634* 0,0241 0,0537*
Base + f13 0,2068* 0,1536* 0,1839 0,1030*
Base + f14 0,2367* 0,1790* 0,1764 0,0945*
Tableau 5.4 – Apport des facteurs de pertinence pour le cas général.
Nous constatons une nouvelle fois que seuls les facteurs de pertinence f4 et f5
semblent avoir un intérêt car les autres dégradent les résultats.
102CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE
Système
édition 2011 édition 2012
P@30 MAP P@30 MAP
Base 0,2184 0,1785 0,1793 0,1001
Base + G1 0,2150* 0,1578* 0,1776* 0,0965*
Base + G2 0,2646* 0,2002* 0,2213* 0,1209*
Base + G3 0,1370* 0,0886* 0,1386* 0,0679*
Base + G4 0,1544* 0,1081* 0,1322* 0,0787*
Base + G5 0,0558* 0,0736* 0,0667* 0,0609*
Base + G1 + G2 0,2558* 0,1930 0,2195* 0,1286
Base + G1 + G3 0,2007* 0,1229* 0,1643* 0,0870*
Base + G1 + G4 0,2170* 0,1549* 0,1684* 0,0952*
Base + G1 + G5 0,1646* 0,1245* 0,1402* 0,0822*
Base + G2 + G3 0,2413* 0,1635* 0,1936* 0,1099*
Base + G2 + G4 0,2395* 0,1791* 0,1966* 0,1162*
Base + G2 + G5 0,2027* 0,1537* 0,1741* 0,1076*
Base + G3 + G4 0,1471* 0,0912* 0,1421* 0,0693*
Base + G3 + G5 0,1210* 0,0925* 0,1088* 0,0665*
Base + G4 + G5 0,1136* 0,0978* 0,0908* 0,0639*
Base + G1 + G2 + G3 0,2565* 0,1746* 0,2012* 0,1187*
Base + G1 + G2 + G4 0,2544* 0,1888* 0,2063* 0,1249*
Base + G1 + G2 + G5 0,2306* 0,1741* 0,1885* 0,1157*
Base + G1 + G3 + G4 0,1971* 0,1270* 0,1643* 0,0872*
Base + G1 + G3 + G5 0,1732* 0,1194* 0,1427* 0,0823*
Base + G1 + G4 + G5 0,1782* 0,1294* 0,1414* 0,0829*
Base + G2 + G3 + G4 0,2283* 0,1599* 0,1871* 0,1081*
Base + G2 + G3 + G5 0,2355* 0,1487* 0,1649* 0,1032*
Base + G2 + G4 + G5 0,2061* 0,1603* 0,1816* 0,1076*
Base + G3 + G4 + G5 0,1355* 0,0959* 0,1140* 0,0684*
Base + G1 + G2 + G3 + G4 0,2486 0,1737 0,1994 0,1161
Base + G1 + G2 + G3 + G5 0,2449 0,1637 0,1842 0,1094
Base + G1 + G2 + G4 + G5 0,2374 0,1725 0,1845 0,1140
Base + G1 + G3 + G4 + G5 0,1717 0,1200 0,1392 0,0828
Base + G2 + G3 + G4 + G5 0,2167 0,1483 0,1690 0,1026
Base + G1 + G2 + G3 + G4 + G5 0,2391 0,1629 0,1842 0,1085
Tableau 5.5 – Apport des groupes de facteur de pertinence et de leurs combinaisons
pour le cas général.
Si l’on prend maintenant en compte les différents groupes de facteurs de perti-
103CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE
nence (tableau 5.5), le meilleur groupe est G2, contenant le facteur f4. Ces résultats
correspondent aux résultats obtenus dans le paragraphe précédent.
4.2.5 Discussion
La conclusion principale de ces expérimentations est que la présence de liens
hypertextes dans les tweets semble être un indicateur de pertinence, en complément
à la pertinence textuelle. Ceci est cohérent avec les résultats du chapitre 4, dans
lequel nous avons montré l’apport important de la prise en compte des URLs dans
la restitution.
De manière générale, les mêmes observations ont été remarquées avec les requêtes
de 2011 et de 2012. En outre, ces observations persistent, que ce soit avec le modèle
vectoriel ou avec Base, ce qui montre qu’elles ne dépendent pas forcément du modèle
vectoriel et qu’elles sont généralisables.
Concernant maintenant le protocole expérimental utilisé, les résultats que nous
avons présentés dans cet article sont basés sur un ensemble de N = 5000 tweets
renvoyés par Lucene. Nous avons fait ce choix dans le but de maximiser le rappel
des tweets pertinents (environ 80 %). Nous avons également mené d’autres expérimentations
avec une valeur plus petite pour N (1500), sans que nos conclusions ne
changent.
D’autre part, nous avons constaté qu’il n’y a pas au moins 30 tweets pertinents
par topic. Par exemple, le système idéal pour les requêtes de 2011, atteindrait une
P@30 de 0,7619. Par ailleurs, la P@30 étant une mesure ensembliste, elle ne tient
pas compte du classement des résultats. Pour ces deux raisons, la MAP, qui est
une mesure sensible au rang, nous semblerait plus appropriée afin de classer les
participations officielles.
Dans la section suivante, nous présentons une étude plus approfondie sur l’apport
des facteurs de pertinence. Nous allons en effet nous baser sur les techniques de sé-
lection d’attributs afin de détecter les groupes de facteurs de pertinence qui reflètent
la pertinence et qui sont susceptibles d’être utiles dans la recherche de microblogs
avec les techniques d’apprentissage.
4.3 Étude avec les techniques de sélection d’attributs
4.3.1 Cadre expérimental
Nous avons utilisé Weka 2 pour ces expérimentations. Weka est un outil opensource
écrit entièrement en Java et qui rassemble la plupart des techniques d’apprentissage
et des techniques de sélection d’attributs.
2. http://www.cs.waikato.ac.nz/ml
104CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE
Nous avons procédé ainsi : les premiers 1500 tweets pour chaque topic ont été restitués
avec le modèle vectoriel. Ensuite, les scores de tous les facteurs de pertinence
ont été calculés pour chaque tweet. Nous avons identifié les tweets pertinents et les
tweets non pertinents. L’ensemble obtenu contient 72 614 tweets, répartis en 2 129
tweets pertinents et 70 485 tweets non pertinents. On peut remarquer que les classes
de cet ensemble sont déséquilibrées. Or lorsque le nombre d’éléments d’une classe
dans une collection d’apprentissage dépasse considérablement les autres échantillons
des autres classes, un classifieur tend à prédire les échantillons de la classe majoritaire
et peut ignorer complètement les classes minoritaires (Yen et Lee, 2006). Pour
cette raison, nous avons appliqué une approche de sous-échantillonnage pour générer
une collection équilibrée composé de 2 129 tweets pertinents et 2,129 tweets non pertinents.
Les tweets non pertinents pour cette étude ont été sélectionnés de manière
aléatoire. Finalement, nous avons appliqué les techniques de sélection d’attributs
sur l’ensemble obtenu.
Cette phase a fait ressortir plusieurs ensembles de critères. Ensuite, nous avons
évalué l’efficacité de ces ensembles en les appliquant sur des techniques d’apprentissage
dans un contexte de recherche de microblogs. Nous avons utilisé dans cette
deuxième phase les requêtes de 2011 pour l’apprentissage et les requêtes de 2012
pour l’évaluation.
4.3.2 Résultats de l’étude
Le tableau 5.6 montre les facteurs de pertinence sélectionnés par les techniques
de sélection d’attributs. Les facteurs de pertinence mis en avant par l’étude de la
distribution des scores (section 3.3) correspondent à ceux ressortissant de cette étude
(f1, f2, f3, f4, f5, f6, f13). Ceci confirme l’importance de cet ensemble par rapport au
reste des facteurs. Nous avons également effectué cette étude sans échantillonnage
du corpus. Nous n’avons remarqué aucune différence sur les résultats de l’étude avec
les techniques de sélection d’attributs.
Nous avons trouvé que les mêmes facteurs de pertinence sont mis en avant par
l’étude de la distribution des scores et l’étude avec les techniques de sélection d’attributs.
Ces facteurs de pertinence sont : facteurs de pertinence de contenu (popularité
du tweet, longueur du tweet, correspondance exacte des termes), facteurs de pertinence
d’hypertextualité (présence d’URL, importance d’URLs, fréquence d’URLs)
et facteur de pertinence temporelle (fraîcheur).
D’autres facteurs de pertinence ont été sélectionnés pas les techniques de sélection
d’attributs, quoique moins fréquemment : facteurs de pertinence de l’auteur (nombre
de tweets, nombre de citations) et la qualité du langage. Finalement, les facteurs de
pertinence des hashtags (popularité du hashtag, présence de hashtags) n’ont jamais
été sélectionnés et semblent complètement non pertinents.
105CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE
Algorithme VSM f1 f2 f3 f4 f5 f6 f7 f8 f9 f10 f11 f12 f13 f14
Cfssubseteval + + + + + + + + +
ChisquaredAtt.Eval + + + + + + + + + + + + +
FilteredAtt.Eval + + + + + + + + + + + + +
FilteredSubsetEval + + + + + + + +
Gain ration att eval + + + + + + + + + + + + +
Info gain att eval + + + + + + + + + + + + +
One att eval + + + + + + + + + + + + +
ReliefFAttribute Eval + + + + + + + + + + + + +
SVM Attribute Eval + + + + + + + + + + + +
SymetricalUncertEval + + + + + + + + + + + + +
Consistency subset Eval + + + + + + + + + + + + +
Wrapper subset Eval + + + + +
LatentSymanticAnalysis + + + +
Total 13 12 12 13 12 12 12 0 0 9 8 9 10 11 9
Tableau 5.6 – Critères sélectionnés avec les techniques de sélection d’attributs
4.3.3 Application des résultats de l’étude dans la recherche
Dans cette section, nous évaluons certaines techniques d’apprentissage avec l’ensemble
de facteurs identifiés lors des études précédentes. L’objectif est double : d’une
part, nous cherchons à valider si la sélection d’attributs améliore effectivement les
résultats d’une tâche de recherche de microblogs. D’autre part, nous cherchons à
mesurer la performance de certaines techniques d’apprentissage dans ce type de
classification.
Pour évaluer les techniques d’apprentissage, nous utilisons les résultats des requêtes
de l’édition de 2011 comme collection d’apprentissage et les résultats de
l’édition de 2012 pour les tests. Les modèles appris prédisent la classe de pertinence
pour chaque tweet (pertinent ou non pertinent). Les tweets classés comme non pertinents
sont ainsi supprimés. Les tweets classés comme pertinents sont triés selon
les scores d’efficacité de la classification produit pas la technique d’apprentissage.
Pour évaluer nos runs obtenus, nous nous basons sur la P@30 (la mesure officielle
des tâches de 2011 et 2012).
Nous avons choisi de tester trois techniques d’apprentissage. Ce choix s’explique
par le fait qu’elles sont les plus utilisées pour classer des documents de faible longueur.
Par ailleurs, elles ont souvent montré leur efficacité dans la recherche de
microblogs : SVM (Duan et al., 2010 ; Vosecky et al., 2012), J48 (Yuan et al., 2012)
et Naive Bayes (Yuan et al., 2012).
Hall et Holmes (2003) ont étudié l’efficacité de certaines techniques de sélection
d’attributs en les confrontant avec les techniques d’apprentissage. Étant donné que la
performance des facteurs diffère d’une technique d’apprentissage à une autre, ils ont
106CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE
identifié les meilleures techniques de sélection d’attributs permettant de retrouver les
facteurs les plus performants en fonction des techniques d’apprentissage à utiliser.
En se basant sur leur étude, nous avons utilisé les mêmes couples des techniques
d’apprentissage et des techniques de sélection d’attributs :
– Naive Bayes et Wrapper Subset Evaluation (WRP) qui utilise l’algorithme
d’apprentissage ciblé afin d’estimer les meilleurs attributs. Ainsi, les facteurs
sélectionnés dans ce cas sont le score de Lucene, f3, f4, f5 et f6.
– Naive Bayes et Correlation-based feature Selection (CFS) (Lucene, f1, f2, f3,
f4, f5, f6, f12, f13).
– J48 et ReliefFAttribute Eval (RLF) (Lucene, f1, f2, f3, f5, f6, f9, f10, f11, f12,
f13, f14).
– SVM et SVM Attribute Eval qui évaluent les attributs en utilisant le classifieur
SVM (Lucene, f1, f2, f3, f4, f5, f6, f9, f11, f12, f13, f14).
Lucene 0,2842
Distribution de scores Techniques de sélection Tous les critères
J48 0,1627 0,0983 (RLF) 0,1000
Naive Bayes 0,3305
0,3311 (WRP)
0,2372
0,3356 (CFS)
SVM 0,1689 0,1746 (SVM) 0,1729
Tableau 5.7 – Résultats (P@30), les scores en gras indiquent des améliorations significatives
par rapport à la baseline
Le tableau 5.7 montre les résultats des trois techniques d’apprentissage appris
avec les facteurs issus de l’étude de la distribution des scores, les facteurs ressortis
de l’étude avec les techniques de sélection d’attributs et avec tous les facteurs. Les
résultats ont été comparés avec le run nommé Lucene dans lequel seulement les scores
de Lucene ont été utilisés pour trier les tweets et qui représente notre baseline.
4.3.4 Discussion et limites
L’objectif principal de cette étude était d’identifier la meilleure combinaison de
facteurs de pertinence. Les facteurs de pertinence mis en évidence sont les mêmes
que celles de l’étude par la distribution des scores.
Cette étude nous a permis également de vérifier si la sélection des attributs
améliore l’efficacité des techniques d’apprentissage. Les critères identifiés par SVM
attribute Eval, WRP, CFS, et par l’étude de la distribution des scores confirment
l’hypothèse. À part J48 appris avec les critères sélectionnés avec RLF, tous les résultats
ont été améliorés par rapport aux runs créés avec tous les critères. Nous notons
107CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE
également que les techniques d’apprentissage, à part J48, ont été plus efficaces avec
les techniques de sélection d’attributs qu’avec les critères ressortis de la distribution
des scores.
Nous avons pu identifier également la meilleure technique d’apprentissage pour
une tâche de recherche de microblogs. Nous pouvons remarquer que seul Naive Bayes
dépasse Lucene (+18 % avec les critères sélectionnés en utilisant CFS et +16 % avec
les critères ressortis de la distribution des scores). Les autres techniques d’apprentissage
n’ont pas réussi à améliorer les résultats.
Nous avons comparé le run obtenu en utilisant Naive Bayes appris avec les critères
obtenus de CFS avec les autres participants de la tâche Microblog de 2011. Nous
avons fait apprendre Naive Bayes avec les critères de CFS et nous avons réalisé une
validation croisée avec les requêtes de 2011. Nous avons obtenu une P@30 moyenne
de 0,3707, ce qui nous aurait classé à la 5e place parmi tous les participants qui
n’ont pas utilisé des informations futures et qui ont soumis des runs automatiques.
Cette précision est réduite de 10 % en utilisant le même modèle sur les requêtes de
l’édition de 2012. En outre, les techniques d’apprentissage telles que J48 et SVM
ont obtenu un gain de 80 % d’efficacité lorsqu’elles sont testées et croisées sur les
requêtes de l’édition de 2011. Cependant, elles n’ont pas fonctionné comme prévu
sur les requêtes de 2012. Toutes ces observations soulèvent la question suivante :
les requêtes et les jugements de pertinence des tâches des deux années ont-ils été
construits de la même manière ?
Dans le but de contrôler ce biais potentiel de la collection, nous avons fusionné les
requêtes de 2011 et 2012 et nous avons répété les mêmes étapes. Nous avons obtenus
une P@30 moyenne de 0,3435. Ce bon résultat confirme que Naive Bayes appris avec
les critères obtenus avec CFS est le plus adapté à la recherche de microblogs.
5 Conclusion
Nous avons évalué dans ce chapitre les facteurs de pertinence souvent utilisés
pour évaluer la pertinence des microblogs vis-à-vis d’un besoin en information. Nous
avons montré expérimentalement ceux qui reflètent la pertinence. Nous avons calculé
les scores des facteurs de pertinence. Ces scores ont été employés dans des
combinaisons linéaires ou avec des techniques d’apprentissages, ou bien pour étudier
leurs distributions dans les tweets pertinents et dans les tweets non pertinents. Les
trois analyses ont montré l’importance des facteurs de pertinence liés aux URLs des
tweets, ce qui complète encore une fois nos conclusions du chapitre précédent. Les
facteurs liés aux hashtags ou à l’importance des auteurs n’ont cependant pas montré
leur intérêt.
L’emploi de certains facteurs de pertinence permet d’améliorer les résultats d’une
108CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE
tâche de recherche de microblogs lorsqu’ils sont utilisés afin de réordonner les résultats
fournis par un modèle de RI classique. Cependant ces améliorations demeurent
dépendantes du modèle de RI : les facteurs interviennent pour le classement des
tweets candidats (identifiés au préalable).
Nous notons que le meilleur résultat de toutes les expérimentations de ce chapitre
est obtenu par la combinaison linéaire du score du modèle vectoriel avec les scores
des facteurs de pertinence des groupes G1 et G2, et non pas avec l’apprentissage.
Notre travail présente cependant quelques limites. D’abord, nous n’avons pas
calculé des poids quantifiant les importances des critères de pertinence (même avec
les techniques de sélection d’attributs). Intuitivement, il semblerait que certains
soient plus pertinents que d’autre pour la restitution de microblogs. De même, nous
n’avons aucune idée de la manière dont les critères sont combinés dans les techniques
d’apprentissage (boite noire). Ensuite, nous n’avons pas pu évaluer d’autres
facteurs utilisés dans certaines approches de recherche de microblogs, tels que la
fréquence de retweet, le nombre d’abonnés d’un auteur. Ces facteurs nécessitent des
informations supplémentaires que nous ne possédons pas dans le corpus utilisé pour
nos expérimentations. Un accès ouvert à Twitter semble nécessaire pour obtenir ces
informations et les évaluer, ce qui n’est pas possible.
La recherche d’information dans les microblogs implique la prise en compte automatique
de la fraîcheur dans la pertinence. Ce facteur à été sélectionné 11 fois par
les 13 techniques de sélection d’attributs que nous avons employé dans la section 4.3
(tableau 5.6). Nous traitons plus finement ce facteur dans le chapitre suivant.
109CHAPITRE 5. ANALYSE DES FACTEURS DE PERTINENCE
110Chapitre 6
Prise en compte du temps dans la
recherche de microblogs
1 Introduction
Ounis et al. (2011) ont défini la recherche de microblogs de la façon suivante :
en cherchant dans les microblogs, l’utilisateur cherche à avoir l’information la plus
récente, et pertinente, par rapport à un besoin d’information. Teevan et al. (2011),
quand à eux, ont également montré que l’une des principales motivations des utilisateurs
qui utilisent un moteur de recherche de microblogs concerne l’information
récente. Nous avons, de notre part, montré dans le chapitre précédent que le facteur
temps est souvent sélectionné comme facteur pertinent pour la recherche de
microblogs.
Ces trois constats suggèrent que la fraîcheur est un facteur de pertinence crucial
pour la restitution de microblogs. Dans un premier temps, nous avons intégré la
fraîcheur de deux manières différentes dans le calcul de la pertinence des tweets.
Nous avons (i) renforcé les scores de pertinence des tweets récents par rapport à
la date de soumission de la requête. Ensuite, nous avons (ii) favorisé les termes
qui apparaissent fréquemment au moment de soumission de la requête. Dans un
deuxième temps (iii) nous avons exploité les distributions temporelles des termes
des tweets potentiellement pertinents dans le calcul de la pertinence. L’idée ainsi est
de promouvoir un tweet restitué contenant des termes fréquemment utilisés le jour
de sa publication.
111CHAPITRE 6. PRISE EN COMPTE DU TEMPS DANS LA RECHERCHE DE
MICROBLOGS
2 Emploi de la fraîcheur dans la restitution
des microblogs
Nous prenons en compte à ce niveau le facteur fraîcheur par rapport à la date de
soumission de la requête dans la mesure de la pertinence. Ce facteur peut être pris en
compte de différentes manières. Dans un premier temps, nous proposons d’amplifier
les scores de pertinence du contenu d’un tweet en fonction de sa proximité temporelle
avec la date de la requête. Dans un deuxième temps, nous proposons de favoriser les
termes fréquemment utilisés au moment de la soumission de la requête. Nous avons
choisi d’utiliser la méthode de Kernel Laplace utilisée dans (Lv et Zhai, 2009) pour
amplifier les scores du modèle de restitution 1
en fonction de la fraîcheur du tweet.
La formule de Kernel est :
k(i, j) = 1
2b
exp
−|i − j|
b
!
avec σ2 = 2b
2
(6.1)
Dans notre cas, i et j représentent respectivement les dates en jour de la soumission
de la requête et la date de publication du tweet. le facteur σ est le facteur
qui permet de modifier le degré d’amplification des scores.
2.1 Favoriser des tweets récents
Une façon simple de prendre en compte la fraîcheur d’un tweet est d’amplifier
son score de pertinence de contenu en fonction de sa date de proximité temporelle
avec la requête. L’intuition ici est que certains tweets, même ayant un score de
pertinence de contenu faible, sont pertinents du fait de leur fraîcheur par rapport à
la date de soumission de la requête. En contrepartie, d’autres tweets, même ayant
des scores de pertinence de contenu élevés, ne sont pas pertinents du fait de leur
distance temporelle importante par rapport à la date de la soumission de la requête.
Le score de chaque tweet devient ainsi :
RSV T1(q, d, σ) = RSV (q, d) ∗ kσ(tq, td) (6.2)
avec kσ(tq, td) est le score du facteur de Kernel. Nous avons fait varier la valeur de
σ pour observer l’impact de l’amplification sur les résultats. Le tableau 6.1 montre
l’ensemble des résultats.
1. Les méthodes que nous proposons sont basées sur le modèle BM25 avec K1 = 0, 1 et
b = 0. Nous avons choisi cette configuration car elle a obtenu de meilleurs résultats que le modèle
vectoriel et que le modèle BM25 de base (chapitre 4). Nous n’avons pas employé d’autres facteurs
comme l’expansion de requêtes ou de documents (l’objectif ici est d’étudier uniquement le facteur
temporel). Nous nous sommes basés sur les 60 requêtes de l’édition 2012 de la tâche Microblog de
TREC.
112CHAPITRE 6. PRISE EN COMPTE DU TEMPS DANS LA RECHERCHE DE
MICROBLOGS
σ Rappel P@30 MAP
RSV (q, d) 0,6643 0,3186 0,2170
RSV T1(q, d, 2) 0,2388 0,0432 0,1175
RSV T1(q, d, 14) 0,4849 0,2305 0,1178
RSV T1(q, d, 18) 0,5427 0,2379 0,1362
RSV T1(q, d, 28) 0,5950 0,2729 0,1695
RSV T1(q, d, 32) 0,6082 0,2797 0,1782
RSV T1(q, d, 50) 0,6295 0,2910 0,1938
RSV T1(q, d, 90) 0,6520 0,2960 0,2024
RSV T1(q, d, 230) 0,6597 0,3119 0,2111
RSV T1(q, d, 350) 0,6633 0,3153 0,2155
Tableau 6.1 – Amplification des scores de pertinence de contenu en fonction de leur
fraîcheur
Comme les résultats le montrent, l’amplification des scores du modèle de restitution
n’a pas amélioré les résultats. En faisant augmenter σ, l’effet de l’amplification
diminue, et les résultats se rapprochent des résultats du modèle de recherche de
base.
2.2 Favoriser les termes récents
L’intuition ici est de considérer que les termes les plus représentatifs pour exprimer
un besoin en information dans les microblogs sont des termes fréquemment
utilisés au moment de la soumission de la requête : un document, même ancien par
rapport à la date de soumission de la requête, contenant des termes fréquemment
utilisés au moment de la requête est plus pertinent qu’un document récent, contenant
des termes fréquemment utilisés dans des périodes lointaines par rapport à la
requête. Pour prendre en compte cette intuition, nous avons modifié le facteur IDF
du modèle de restitution (RSV T2(q, d, σ)) :
IDF = log
N − (Ri)temps
(Ri)temps !
(6.3)
(Ri)temps =
X
t
(|Ri
|t ∗ kσ(tq, t)) (6.4)
avec t correspond à une fenêtre temporelle exprimée en jours et |Ri
|t correspond
au nombre de documents dans cette fenêtre temporelle. Le tableau 6.2 présente les
résultats. Nous avons fait varier σ :
113CHAPITRE 6. PRISE EN COMPTE DU TEMPS DANS LA RECHERCHE DE
MICROBLOGS
σ Rappel P@30 MAP
RSV (q, d) 0,6643 0,3186 0,2170
RSV T2(q, d, 2) 0,6640 0,3130 0,2156
RSV T2(q, d, 10) 0,6647 0,3130 0,2159
RSV T2(q, d, 20) 0,6657 0,3136 0,2160
RSV T2(q, d, 30) 0,6657 0,3136 0,2160
RSV T2(q, d, 40) 0,6659 0,3119 0,2157
RSV T2(q, d, 50) 0,6659 0,3085 0,2128
Tableau 6.2 – Amplification des scores des termes en fonction de leur fréquence
d’apparition dans le temps
Encore une fois, la prise en compte de la fraîcheur n’a pas montré une amélioration
significative (à part une légère amélioration de 0,28 % au niveau du rappel).
2.3 Observations
De manière générale, l’emploi de la fraîcheur dans les deux méthodes proposées
n’apporte pas d’amélioration. Afin de vérifier si la fraîcheur a un impact sur les
résultats, nous avons regardé la distribution temporelle des tweets pertinents et des
tweets non pertinents pour l’ensemble des requêtes.
La figure 6.1 montre les ratios des distributions temporelles des tweets pertinents
et non pertinents de chaque requête, ainsi que la distribution générale des tweets sur
l’ensemble des requêtes (nommée somme). Nous nous sommes basés sur les jugements
de pertinence (qrels) pour sélectionner ces tweets. Les courbes présentent le ratio des
quantités de tweets pertinents (bleu/carrés inclinés) et des non pertinents (rouge)
par jour. Nous pouvons remarquer que les distributions diffèrent d’une requête à une
autre. Les tweets pertinents ne sont pas toujours récents par rapport à la date de
la soumission des requêtes. En analysant chaque requête séparément, nous pouvons
affirmer que la prise en compte de la fraîcheur pénalise les résultats de plusieurs
requêtes dont les dates de la plupart des tweets pertinents sont relativement éloignés
de sept jours de la date de soumission des requêtes (ex. MB088, MB089, MB095. . . ).
Par ailleurs, nous remarquons que les tweets pertinents arrivent par rafales. Les
positions de ces rafales sont différentes d’une requête à une autre. Nous avons ainsi
testé une troisième méthode qui, pour le calcul du score d’un tweet, tient compte de
la fréquence des tweets publiés le jour de sa publication. L’objectif est de promouvoir
un tweet s’il est publié dans une période qui correspond à une rafale de tweets. Par
exemple, pour la requête MB065, la plupart des tweets pertinents sont apparus dix
jours avant la date de soumission de la requête. Ainsi, l’idée est de favoriser les
114CHAPITRE 6. PRISE EN COMPTE DU TEMPS DANS LA RECHERCHE DE
MICROBLOGS
tweets publiés dans cette fenêtre temporelle.
115CHAPITRE 6. PRISE EN COMPTE DU TEMPS DANS LA RECHERCHE DE
MICROBLOGS
116CHAPITRE 6. PRISE EN COMPTE DU TEMPS DANS LA RECHERCHE DE
MICROBLOGS
Figure 6.1 – Distribution temporelle des tweets pertinents et non pertinents pour
les requêtes de TREC Microblog 2012. Les rectangles représentent les tweets pertinents
tandis que les losanges représentent les tweets non pertinents.
3 Prise en compte de la fréquence temporelle
Nous prenons en compte à ce niveau les distributions temporelles des résultats.
Nous essayons ainsi de favoriser les résultats qui apparaissent dans les périodes de
rafales. Cette troisième méthode amplifie le score d’un terme dans un tweet publié
à un instant t en fonction de la fréquence d’emploi de ce terme dans cette période t.
Un même terme aura des scores différents en fonction de la date de soumission du
document auquel il appartient. Ce score sera plus important si le terme appartient
à un document publié dans une période de rafale de ce terme, que dans le cas où il
appartient à un document publié dans une période où le terme n’est pas fréquemment
utilisé. De cette manière, nous favorisons les résultats publiés dans des périodes de
rafales.
Pour mettre en application cette intuition, nous avons employé un nouveau facteur
: IDFnew.
IDFnew = IDF ∗ 1/IDFlocal (6.5)
et
IDFlocal = log
N − (Ri)t
(Ri)t
!
(6.6)
avec (Ri)t est le nombre de tweets contenant le terme i le jour de la publication du
tweet. IDFlocal est le IDF d’un terme, mais sur une fenêtre temporelle d’un jour
(est non pas sur toute la collection). Ainsi, un terme va avoir un IDFlocal différent
117CHAPITRE 6. PRISE EN COMPTE DU TEMPS DANS LA RECHERCHE DE
MICROBLOGS
pour chaque jour. Ce facteur est plus important dans un jour où le terme n’est
pas fréquemment utilisé, que dans un jour où il est fréquemment utilisé (supposé
correspondant à un jour de rafale). Pour cette raison, nous employons l’inverse de
ce facteur : 1/IDFlocal. Le modèle qui prend en compte IDFnew dans le modèle de
restitution est nommé RSV T3(q, d).
Rappel P@30 MAP
RSV (q, d) 0,6643 0,3186 0,2170
RSV T3(q, d) 0.6469 0.3198 0.2087
Tableau 6.3 – Prise en compte de la fréquence temporelle.
Le tableau 6.3 montre que cette méthode n’a pas donné d’amélioration significative
sur l’ensemble des requêtes.
Afin de mieux comprendre l’impact de nos méthodes, nous avons analysé les
résultats requête par requête afin de voir si l’effet négatif de nos méthodes apparaît
sur toutes les requêtes ou uniquement sur certaines. L’objectif est de voir si la prise en
compte de la fraîcheur ou du temps dans la restitution permet d’améliorer certaines
requêtes en particulier, et d’identifier des spécificités de ces requêtes.
4 Analyse requête par requête
Dans cette section, nous analysons l’impact de nos trois méthodes, requête par
requête. Nous considérons la mesure MAP, car elle tient compte à la fois du rappel
et de la précision.
Le tableau 6.4 montre les requêtes pour lesquelles nous avons eu des améliorations
avec chacune des trois méthodes. De manière générale, la modification de σ dans
Kernel ne change pas les différentes observations.
La première remarque est que la deuxième approche améliore 51 requêtes parmi
les 60. Cependant, nous n’avons identifié aucune particularité commune, que ce soit
au niveau des distributions temporelles des résultats ou bien de la sémantique des requêtes,
pour les requêtes n’ayant pas obtenu d’amélioration. Nous n’avons également
pas trouvé de spécificités communes pour les requêtes améliorées avec la première
et la dernière méthode. Par exemple, la première méthode a amélioré les requêtes
MB059 « Glen Beck » et MB085 « Best Buy improve sales ». Ces deux requêtes
n’ont aucune sensibilité temporelle. De même, pour la troisième approche, nous notons
des améliorations pour les requêtes MB060 « fishing guidebook », MB064 « red
light cameras », MB102 « school lunches ». . . Ces requêtes n’ont également aucune
sensibilité temporelle.
118CHAPITRE 6. PRISE EN COMPTE DU TEMPS DANS LA RECHERCHE DE
MICROBLOGS
RSV T1(q, d, σ) MB058, MB059, MB063, MB066, MB067, MB071,
MB075, MB079, MB080, MB085, MB091, MB093,
MB107
RSV T2(q, d, σ) MB051, MB052, MB053, MB054, MB056, MB057,
MB059, MB060, MB062, MB063, MB064, MB065,
MB067, MB069, MB070, MB071, MB072, MB073,
MB074, MB075, MB076, MB077, MB078, MB079,
MB080, MB081, MB083, MB084, MB085, MB086,
MB087, MB088, MB089, MB090, MB091, MB092,
MB093, MB094, MB095, MB098, MB099, MB100,
MB101, MB102, MB103, MB105, MB106, MB107,
MB108, MB109, MB110
RSV T3(q, d) MB051, MB054, MB057, MB059, MB066, MB069,
MB070, MB075, MB077, MB079, MB080, MB081,
MB085, MB086, MB088, MB089, MB092, MB093,
MB094, MB095, MB096, MB098, MB100, MB101,
MB102, MB107, MB108, MB109
Tableau 6.4 – Requêtes améliorées sur la mesure MAP pour les 3 méthodes
Ensuite, nous avons identifié manuellement les requêtes sensibles au temps. L’objectif
est de voir si, pour ces requêtes et avec la prise en compte du temps, les ré-
sultats ont été améliorés. Dans le cas contraire, nous essayons de comprendre les
raisons. Ces requêtes correspondent principalement à des événements (par exemple :
« Hu Jintao visit to the United States », « Autralian Open Djokovic vs. Murray »,
« fashion week in NYC ». . . ). Nous avons sélectionné 13 requêtes qui parlent explicitement
d’événements et qui sont clairement sensibles au temps (MB051, MB057,
MB061, MB065, MB067, MB071, MB075, MB079, MB086, MB093, MB096, MB098,
MB106).
L’impact de la prise en compte du temps pour ces requêtes diffère d’une approche
à une autre :
– 8/13 (MB051, MB057, MB061, MB065, MB086, MB096, MB098, MB106)
n’ont pas été améliorées avec la première approche.
– 11/13 (MB051, MB057, MB065, MB067, MB071, MB075, MB079, MB086,
MB093, MB098, MB106) n’ont pas été améliorées avec la deuxième approche.
– 5/13(MB061, MB065, MB067, MB071, MB106) n’ont pas été améliorées avec
la troisième approche.
La première remarque est que la troisième approche est celle qui arrive à amélio-
119CHAPITRE 6. PRISE EN COMPTE DU TEMPS DANS LA RECHERCHE DE
MICROBLOGS
rer le nombre le plus important de requêtes sensibles au temps (8/13). Concernant
les deux premières approches (se basant sur la fraîcheur par rapport à la date de la
soumission de la requête), la cause principale pour laquelle il n’y avait pas d’amé-
lioration consiste en la concentration des tweets pertinents dans des dates lointaines
par rapport à la date de la requête. C’est la cas des requêtes MB057, MB061, MB065,
MB067, MB079, MB086, MB093, MB098 et MB106. Ainsi, la prise en compte de
la fraîcheur n’a pas montré d’intérêt. Concernant les requêtes MB071, MB075 et
MB096, nous pouvons remarquer à partir des courbes de distributions temporelles
que les tweets pertinents sont proches de la date de la soumission de la requête.
Cependant, nous notons que, pour ces requêtes, les courbes des tweets pertinents
sont très similaires aux courbes des tweets non pertinents. Ainsi, le fait de favoriser
les tweets récents va impliquer les tweets pertinents et les tweets non pertinents, ce
qui explique la dégradation des résultats pour elles. Finalement, la requête MB051
se caractérise par l’apparition de la grande partie des tweets pertinents à une date
récente par rapport à la date de la requête, et les distributions des tweets pertinents
et des tweets non pertinents ne sont pas similaires. Nous avons ainsi regardé les
résultats restitués pour cette requête et nous avons remarqué que le modèle de RI
employé n’a pas restitué une grande partie des tweets pertinents apparus récemment
par rapport à la date de la requête. Ceci est du aux problèmes de vocabulaires étudiés
dans le chapitre 3. Par conséquent, la prise en compte de la fraîcheur n’a pas
montré son effet.
Concernant la troisième approche (qui prend en compte des distributions temporelles
des résultats), nous avons étudié les résultats des requêtes pour lesquelles
il n’y avait pas eu d’amélioration. Nous avons trouvé que le modèle de restitution
de base (sans l’intégration de la fraîcheur) a restitué tous les tweets pertinents apparus
dans les périodes de rafales. Par conséquent, la prise en compte du temps a
favorisé uniquement la restitution des tweets non pertinents, pour ces périodes, ce
qui a engendré une dégradation des résultats.
5 Conclusion
Nous avons étudié l’impact de la prise en compte du temps dans la recherche de
microblogs. Nous avons proposé trois méthodes qui prennent en compte le temps de
façons différentes. De manière générale, nous avons trouvé que la fraîcheur n’est pas
un facteur de pertinence. Ce constat vient à l’encontre la définition de la tâche de
recherche de microblogs dans TREC et aussi de l’état de l’art. Dans la collection utilisée
pour nos expérimentations, la date de la soumission des requêtes correspond à la
date de publication du tweet pertinent le plus récent. Cependant, nous avons trouvé,
que pour plusieurs requêtes, la majorité des tweets pertinents sont publiés sept jours
120CHAPITRE 6. PRISE EN COMPTE DU TEMPS DANS LA RECHERCHE DE
MICROBLOGS
avant la date de soumission de la requête. Nous avons également proposé une mé-
thode qui se focalise sur les fenêtres de concentration temporelle des termes des
requêtes dans la restitution. Cette approche n’a également pas montré d’amélioration
significative. Toutefois, c’est la seule approche qui a obtenu une P@30 meilleure
que celle du modèle BM25. Des études plus approfondies sur ce point doivent être
réalisées. De plus, nous avons regardé les résultats de chaque requête avec chacune
des trois approches. Nous avons trouvé que chaque approche améliore les résultats
de certaines requêtes et dégrade les résultats d’autres. Cependant, nous n’avons pas
trouvé de spécificités communes pour les requêtes ayant obtenu des améliorations,
ni pour celles qui ont subi des dégradations. Finalement, nous avons identifié manuellement
les requêtes sensibles au temps. Nous avons trouvé que c’est la troisième
approche qui a amélioré la plus grande partie de ces requêtes. Ces résultats nous
encouragent à prendre en compte le temps dans la restitution, en particulier avec
les requêtes sensibles au temps. Il reste maintenant à savoir comment les identifier.
121CHAPITRE 6. PRISE EN COMPTE DU TEMPS DANS LA RECHERCHE DE
MICROBLOGS
122Chapitre 7
Conclusion générale
Synthèse
Nous nous sommes intéressés dans ces travaux à la RI adhoc dans les microblogs.
L’objectif est de retrouver les microblogs répondant à un besoin d’information
spécifié par un utilisateur. Pour réaliser nos expérimentations, nous nous sommes
basés sur le corpus fourni par la campagne d’évaluation internationale TREC (Text
Retrieval Conference) dans la tâche Microblog des éditions de 2011 et 2012. Nos différentes
contributions ont également fait l’objet de participations aux trois tâches de
Microblogs de TREC (2011, 2012 et 2013). Nos contributions se situent à plusieurs
niveaux :
– Afin de déterminer exactement les facteurs limitant les performances des modèles
classiques de RI dans un corpus de microblogs, nous avons mené une analyse
de défaillance d’un modèle de recherche usuel. Nous avons sélectionné les
microblogs pertinents mais non retrouvés par le modèle de recherche. Ensuite,
nous avons identifié les facteurs empêchant leur restitution. Nous avons trouvé
que le problème principal vient de la concision des microblogs. Cette
concision engendre une correspondance limitée entre les termes des microblogs
et les termes des requêtes, même s’ils sont sémantiquement semblables. Toutefois,
ce facteur est apparu sous différentes formes : absence totale des
termes de certaines requêtes dans les documents pertinents, caractère
non discriminant des termes de requêtes. . . Nous avons également
identifié des problèmes de lemmatisation : termes non appariés quoique
dérivant d’une même racine, ou des termes concaténés sous formes
de hashtags ou de citations. Outre le problème de vocabulaire, nous avons
remarqué que, pour plusieurs requêtes, certains termes n’ont pas un caractère
discriminant. Par conséquent, ces termes n’aident pas à sélectionner
les résultats pertinents.
– Afin de compenser l’impact de la concision des microblogs, nous avons pro-
123CHAPITRE 7. CONCLUSION GÉNÉRALE
posé et testé plusieurs solutions. Nous avons proposé d’étendre les requêtes
(i) en exploitant des ressources de type actualités, (ii) en utilisant la base
lexicale WordNet, (iii) en appliquant des techniques de réinjection de pertinence
de l’état de l’art. Ces techniques ont souvent prouvé leur efficacité :
Rocchio pour identifier les termes susceptibles de ramener la pertinence ainsi
que pour la pondération des termes de la nouvelle requête, et le mécanisme
naturel d’extension de requêtes du modèle BM25. Dans Rocchio, nous avons
testé différentes méthodes de calcul de poids de termes d’expansion. Nous
avons enfin étendu les microblogs grâce aux liens (URLs) qu’ils contiennent.
Nos expérimentations ont montré que l’emploi des URLs et l’expansion
de requêtes a partir du feedback sont primordiales pour la RI dans
les microblogs. L’expansion de requêtes avec les articles d’actualité améliore
uniquement la précision. La plupart de ces expérimentations (expansion de
requêtes et de microblogs) ont été réalisées en se basant sur le modèle vectoriel
et sur le modèle probabiliste comme modèle de restitution. Ceci nous a
permis de comparer les comportements des deux modèles sur les microblogs
et avec les deux types d’expansion. De manière générale, nous avons trouvé
que le modèle vectoriel est plus performant que modèle probabiliste
au niveau de la sélection des microblogs pertinents (meilleur rappel).
Cependant, le modèle probabiliste met davantage en valeur les microblogs
pertinents restitués par rapport à tous les microblogs restitués
(meilleure précision).
– Un deuxième volet de notre travail concerne l’étude des facteurs de pertinence
utilisés pour identifier les microblogs pertinents. Nous avons repris les facteurs
souvent utilisés dans l’état de l’art (facteurs liés au contenu, facteurs liés aux
auteurs, facteurs liés aux URLs, facteurs liés aux hashtags et facteurs liés à la
qualité des tweets) et nous les avons évalués. Nous avons réalisé cette analyse
selon trois axes. Dans le premier axe, nous avons étudié le comportement des
facteurs de pertinence dans les documents pertinents et les avons comparés à
leur comportement dans les documents non pertinents. Dans le deuxième axe,
nous avons analysé l’impact de la combinaison des scores des facteurs avec le
score de pertinence du contenu, calculé avec un modèle de RI usuel. Dans le
troisième axe, nous avons utilisé des techniques d’apprentissage ainsi que des
algorithmes de sélection d’attributs qui peuvent être utiles en entrée de ces
techniques d’apprentissages. De manière générale, nous avons montré que les
facteurs liés aux URLs publiées dans les tweets sont les plus discriminants.
Les facteurs liés aux auteurs ou aux hashtags ne reflètent
pas la pertinence. Nous avons également comparé différentes techniques
d’apprentissage souvent utilisées dans l’état de l’art pour la recherche de microblogs.
Nous avons trouvé que Naive Bayes est le plus adapté pour ce
124CHAPITRE 7. CONCLUSION GÉNÉRALE
type de recherche et ceci en considérant les meilleurs critères de pertinence
identifiés.
– Afin de prendre en compte l’aspect temporel dans la restitution des microblogs
pertinents vis-à-vis d’un besoin en information, nous avons proposé trois
méthodes qui intègrent le temps dans le calcul de la pertinence. Cette inté-
gration du temps n’a cependant pas montré son intérêt dans nos méthodes.
Une analyse plus poussée, requête par requête, nous a permis de voir que la
fraîcheur ne représente en effet pas un facteur de pertinence pour la restitution
de microblogs.
Limites et perspectives
Nous commençons par présenter nos perspectives à court terme pour arriver à
celles à long terme :
– Dans un premier temps, nous aimerions compléter le traitement des différentes
formes du problème de vocabulaire soulignées dans le chapitre 3. Nous avons
trouvé que, dans plusieurs cas, les tweets pertinents contiennent les termes
des requêtes concaténés sous forme de hashtags. Nous avons testé une mé-
thode pour décomposer ces hashtags. Cette méthode se basait sur les lettres
majuscules pour identifier le début de chaque terme composant. Cependant,
elle ne nous a pas permis d’améliorer les résultats. Une solution à ce problème
consiste à employer l’algorithme de segmentation proposé dans le livre « Beautiful
Data » (Segaran et Hammerbacher, 2009), permettant de décomposer les
termes concaténés. La même approche peut être employée également pour ré-
soudre les problèmes reliés aux lemmatiseurs : termes non appariés dérivant
d’une même racine.
– Dans le chapitre 5, nous n’avons pas pu évaluer certains facteurs de pertinence
tels que le nombre de fois un tweet a été retweeté ou le nombre de fois il a
été favori. Nous n’avons pas ces informations dans la collection d’évaluation
utilisée. La solution ainsi consiste à créer une nouvelle collection contenant
toutes les informations requises.
– Considérer la fraîcheur dans la restitution des microblogs n’a pas montré un
intérêt. Toutefois, nous avons trouvé que, dans la plupart des cas, les tweets
arrivent par rafales. L’idée ainsi est de trouver un moyen pour identifier les
fenêtres temporelles correspondant aux rafales de tweets au préalable et les
utiliser comme feedback ou comme source d’expansion de requêtes.
– La grande majorité des travaux réalisés sur les microblogs, et en particulier nos
travaux, emploient Twitter comme cadre applicatif. Notre objectif est d’étudier
ainsi si nos résultats et nos observations sont valables également sur les autres
125CHAPITRE 7. CONCLUSION GÉNÉRALE
plate-formes de microblogging telles que Blipper et Tumblr.
– La tâche de recherche de microblogs consiste à restituer des microblogs pertinents
vis-à-vis d’un besoin en information. Nous avons trouvé, regardant les
résultats des qrels de la tâche Microblog de TREC, que plusieurs tweets pertinents
ont exactement le même contenu et ramènent les mêmes informations.
Dans le cas idéal, un utilisateur devra ainsi consulter tous les tweets pertinents
(parfois des centaines) pour s’assurer d’avoir vu tous les aspects d’une
requêtes. Pour simplifier la tâche, créer un synthétiseur de résultats permettant
d’une part d’éliminer les informations qui se répètent, et d’autre part de
représenter les résultats d’une manière plus lisible.
– Une des principales caractéristiques des plate-formes de microblogging est leur
aspect social. Les utilisateurs ne produisent pas uniquement du contenu informatif,
mais ils peuvent s’impliquer dans des conversations avec d’autres utilisateurs,
en commentant, aimant et partageant leurs publications. Ainsi, il est
important dans ce cas de pouvoir restituer tout le contexte d’un tweet. Une
méthode de présenter le contexte est d’extraire la conversation à laquelle un
tweet appartient. L’identification des critères permettant d’extraire des conversations
à partir des microblogs représente un vrai défi. Les microbloggeurs discutent
entre eux sans utiliser forcément les moyens explicites de conversations
donnés par les plate-formes (retweet, hashtag, citation, réponse. . . ).
– Finalement, agréger des informations de différentes sources (Web, images, wiki,
actualités. . . ) pour répondre aux besoins en information, a montré son intérêt
(Kopliku et al., 2011). Cette technique permet de présenter à l’utilisateur des
résultats variés et complémentaires. Considérer les microblogs (information
fraîche) en plus des sources employées dans (Kopliku et al., 2011) semble très
utiles, étant donné l’importance des microblogs aujourd’hui, en particulier, en
tant que source d’information. L’objectif ainsi est d’étudier l’apport de la prise
en compte des microblogs en complément des autres sources d’information du
Web, pour répondre aux besoins en informations.
Références
Aboulnaga, Y., et Clarke, C. L. (2012). Frequent Itemset Mining for Query Expansion
in Microblog Ad-hoc Search. In TREC’12 : 21th Text Retrieval Conference.
National Institute of Standards and Technology (NIST).
Attardi, G., et Simi, M. (2006). Blog mining through opinionated words. In
E. M. Voorhees et L. P. Buckland (Eds.), Trec (Vol. Special Publication 500-
272). National Institute of Standards and Technology (NIST).
Baccianella, A. E. S., et Sebastiani, F. (2010). Sentiwordnet 3.0 : An enhanced lexical
126CHAPITRE 7. CONCLUSION GÉNÉRALE
resource for sentiment analysis and opinion mining. In Proceedings of the seventh
conference on international language resources and evaluation (lrec’10).
Valletta, Malta : European Language Resources Association (ELRA).
Baeza-Yates, R. A., et Ribeiro-Neto, B. (1999). Modern information retrieval.
Boston, MA, USA : Addison-Wesley Longman Publishing Co., Inc.
Bai, J., Nie, J.-Y., Cao, G., et Bouchard, H. (2007). Using query contexts in
information retrieval. In Proceedings of the 30th annual international acm
sigir conference on research and development in information retrieval (pp.
15–22). New York, NY, USA : ACM.
Bamman, D., Eisenstein, J., et Schnoebelen, T. (2012). Gender in twitter : Styles,
stances, and social networks. CoRR, abs/1210.4567 .
Bao, S., Xue, G., Wu, X., Yu, Y., Fei, B., et Su, Z. (2007). Optimizing web search
using social annotations. In Proceedings of the 16th international conference
on world wide web (pp. 501–510). New York, NY, USA : ACM.
Belkin, N. J., et Croft, W. B. (1992). Information filtering and information retrieval :
Two sides of the same coin ? Commun. ACM, 35 (12), 29–38.
Ben Jabeur, L., Damak, F., Tamine, L., Cabanac, G., Pinel-Sauvagnat, K., et Boughanem,
M. (2013). IRIT at TREC Microblog Track 2013. In E. M. Voorhees
et (Eds.), Text REtrieval Conference (TREC), Gaithersburg, USA,. National
Institute of Standards and Technology (NIST).
Ben Jabeur, L., Damak, F., Tamine, L., Pinel-Sauvagnat, K., Cabanac, G., et
Boughanem, M. (2012). IRIT at TREC Microblog 2012 : Adhoc Task. In
E. M. Voorhees et L. P. Buckland (Eds.), Text REtrieval Conference (TREC),
Gaithersburg, USA,. National Institute of Standards and Technology (NIST).
Ben Jabeur, L., Tamine, L., et Boughanem, M. (2011). Un modèle de recherche
d’information sociale dans les microblogs : cas de twitter. In Conférence sur les
modèles et l’analyse des réseaux : Approches mathématiques et informatique.
Ben Jabeur, L., Tamine, L., et Boughanem, M. (2012). Active microbloggers :
Identifying influencers, leaders and discussers in microblogging networks. In
L. Calderón-Benavides, C. González-Caro, E. Chávez, et N. Ziviani (Eds.),
String processing and information retrieval (Vol. 7608, p. 111-117). Springer
Berlin Heidelberg.
Bernstein, M., Suh, B., Hong, L., Chen, J., Kairam, S., et Chi, E. (2010). Eddi :
interactive topic-based browsing of social status streams. In Acm symposium
on user interface software and technology (p. 303-312). New York, NY : ACM.
Blei, D. M., Ng, A. Y., et Jordan, M. I. (2003). Latent dirichlet allocation. J. Mach.
Learn. Res., 3 , 993–1022.
Bollen, J., Pepe, A., et Mao, H. (2009). Modeling public mood and emotion : Twitter
sentiment and socio-economic phenomena. CoRR, abs/0911.1583 .
Brin, S., et Page, L. (1998). The anatomy of a large-scale hypertextual web search
127CHAPITRE 7. CONCLUSION GÉNÉRALE
engine. Comput. Netw. ISDN Syst., 30 , 107–117.
Buckley, C., et Voorhees, E. M. (2000). Evaluating evaluation measure stability.
In Proceedings of the 23rd annual international conference on research and
development in information retrieval (pp. 33–40). New York, NY, USA : ACM
SIGIR.
Cai, Y., et Li, Q. (2010). Personalized search by tag-based user profile and resource
profile in collaborative tagging systems. In Proceedings of the 19th acm international
conference on information and knowledge management (pp. 969–978).
New York, NY, USA : ACM.
Cappelletti, R., et Sastry, N. (2012). Iarank : Ranking users on twitter in near realtime,
based on their information amplification potential. In Proceedings of the
2012 international conference on social informatics (pp. 70–77). Washington,
DC, USA : IEEE Computer Society.
Carmel, D., Zwerdling, N., Guy, I., Ofek-Koifman, S., Har’el, N., Ronen, I., et al.
(2009). Personalized social search based on the user’s social network. In Proceedings
of the 18th acm conference on information and knowledge management
(pp. 1227–1236). New York, NY, USA : ACM.
Carpineto, C., Mori, R. de, Romano, G., et Bigi, B. (2001). An information-theoretic
approach to automatic query expansion. ACM Trans. Inf. Syst., 19 (1), 1–27.
Che Alhadi, A., Gottron, T., Kunegis, J., et Naveed, N. (2011). Livetweet : Microblog
retrieval based on interestingness and an adaptation of the vector space model.
In Proc. text retrieval conference (TREC).
Cheng, F., Zhang, X., He, B., Luo, T., et Wang, W. (2013). A survey of learning
to rank for real-time twitter search. In Proceedings of the 2012 international
conference on pervasive computing and the networked world (pp. 150–164).
Berlin, Heidelberg : Springer-Verlag.
Choi, J., et Croft, W. B. (2012). Temporal models for microblogs. In Proceedings
of the 21st acm international conference on information and knowledge
management (pp. 2491–2494). New York, NY, USA : ACM.
Cleverdon, C. W., Mills, J., et Keen, M. (1966). Factors determining the performance
of indexing systems.
Cohen, D., Amitay, E., et Carmel, D. (2007). Lucene and juru at trec 2007 : 1-million
queries track. In TREC’07 : 7th Text Retrieval Conference (pp. -1–1).
Damak, F. (2013). Recherche d’information dans les microblogs : que manque-til
aux approches classiques ? In Rencontres Jeunes Chercheurs en Recherche
d’Information (RJCRI), Neuchâtel, 03/04/2013-05/04/2013 (pp. 475–480).
Association Francophone de Recherche d’Information et Applications (ARIA).
Damak, F., Jabeur, L. B., Cabanac, G., Pinel-Sauvagnat, K., Lechani, L., et Boughanem,
M. (2011). IRIT at TREC Microblog 2011. In E. M. Voorhees
et (Eds.), Text REtrieval Conference (TREC), Gaithersburg, USA,. National
128CHAPITRE 7. CONCLUSION GÉNÉRALE
Institute of Standards and Technology (NIST).
Damak, F., Pinel-Sauvagnat, K., et Cabanac, G. (2012). Recherche de microblogs :
quels critères pour raffiner les résultats des moteurs usuels de RI ? In Confé-
rence francophone en Recherche d’Information et Applications (CORIA), Bordeaux,
France, 21/03/2012-23/03/2012 (pp. 317–328). LABRI.
Damak, F., Pinel-Sauvagnat, K., Cabanac, G., et Boughanem, M. (2013). Effectiveness
of State-of-the-art Features for Microblog Search. In SAC’13 : ACM
Symposium on Applied Computing. ACM.
Diakopoulos, N. A., et Shamma, D. A. (2010). Characterizing debate performance
via aggregated twitter sentiment. In Proceedings of the sigchi conference on
human factors in computing systems (pp. 1195–1198). New York, NY, USA :
ACM.
Dong, A., Chang, Y., Zheng, Z., Mishne, G., Bai, J., Zhang, R., et al. (2010). Towards
recency ranking in web search. In Proceedings of the third acm international
conference on web search and data mining (pp. 11–20). New York, NY, USA :
ACM.
Dong, A., Zhang, R., Kolari, P., Bai, J., Diaz, F., Chang, Y., et al. (2010). Time is
of the essence : improving recency ranking using twitter data. In In www.
Duan, Y., Jiang, L., Qin, T., Zhou, M., et Shum, H.-Y. (2010). An empirical study on
learning to rank of tweets. In Proceedings of the 23rd international conference
on computational linguistics (pp. 295–303).
Efron, M. (2010). Hashtag retrieval in a microblogging environment. In Proceedings
of the 33rd international acm sigir conference on research and development in
information retrieval (pp. 787–788). New York, NY, USA : ACM.
Efron, M. (2011a). Information search and retrieval in microblogs. In (Vol. 62, pp.
996–1008). New York, NY, USA : John Wiley & Sons, Inc.
Efron, M. (2011b). The university of illinois graduate school of library and information
science at TREC 2011. In TREC’11 : 20th Text Retrieval Conference.
National Institute of Standards and Technology (NIST).
Efron, M., et Golovchinsky, G. (2011). Estimation methods for ranking recent
information. In Proceedings of the 34th international acm sigir conference on
research and development in information retrieval (pp. 495–504). New York,
NY, USA : ACM.
Efron, M., Organisciak, P., et Fenlon, K. (2012). Improving retrieval of short texts
through document expansion. In Proceedings of the 35th international acm
sigir conference on research and development in information retrieval (pp.
911–920). New York, NY, USA : ACM.
Endarnoto, S., Pradipta, S., Nugroho, A., et Purnama, J. (2011). Traffic condition
information extraction amp ; visualization from social media twitter for
android mobile application. In Electrical engineering and informatics (iceei),
129CHAPITRE 7. CONCLUSION GÉNÉRALE
2011 international conference on (p. 1-4).
Feng, W., et Wang, J. (2013). Retweet or not ? : Personalized tweet re-ranking. In
Proceedings of the sixth acm international conference on web search and data
mining (pp. 577–586). New York, NY, USA : ACM.
Ferguson, P., O’Hare, N., Lanagan, J., Phelan, O., et McCarthy, K. (2012). An
investigation of term weighting approaches for microblog retrieval. In Proceedings
of the 34th european conference on advances in information retrieval
(pp. 552–555). Berlin, Heidelberg : Springer-Verlag.
Frank, J. R., Bauer, S. J., Kleiman-Weiner, M., Roberts, D. A., Tripuraneni, N.,
Zhang, C., et al. (2013). Evaluating stream filtering for entity profile updates
for trec 2013. In TREC’13 : 22th Text Retrieval Conference.
Frank, J. R., Kleiman-Weiner, M., Roberts, D. A., Niu, F., Zhang, C., Re, C., et al.
(2012). Building an Entity-Centric stream filtering test collection for TREC
2012. In Proc. of trec. National Institute of Standards and Technology (NIST).
Furnas, G. W., Deerwester, S., Dumais, S. T., Landauer, T. K., Harshman, R. A.,
Streeter, L. A., et al. (1988). Information retrieval using a singular value
decomposition model of latent semantic structure. In Proceedings of the 11th
annual international acm sigir conference on research and development in information
retrieval (pp. 465–480). New York, NY, USA : ACM.
Furnas, G. W., Landauer, T. K., Gomez, L. M., et Dumais, S. T. (1987). The vocabulary
problem in human-system communication. Commun. ACM, 30 (11),
964–971.
Gudivada, V., Raghavan, V., Grosky, W. I., et Kasanagottu, R. (1997). Information
retrieval on the world wide web. Internet Computing, IEEE, 1 (5), 58-68.
Hall, M. A., et Holmes, G. (2003). Benchmarking attribute selection techniques
for discrete class data mining. IEEE Trans. on Knowl. and Data Eng., 15 (6),
1437–1447.
Han, B., et Baldwin, T. (2011). Lexical normalisation of short text messages : Makn
sens a #twitter. In Proceedings of the 49th annual meeting of the association
for computational linguistics : Human language technologies - volume 1 (pp.
368–378). Stroudsburg, PA, USA : Association for Computational Linguistics.
Hatzivassiloglou, V., et McKeown, K. R. (1997). Predicting the semantic orientation
of adjectives. In Proceedings of the 35th annual meeting of the association
for computational linguistics and eighth conference of the european chapter of
the association for computational linguistics (pp. 174–181). Stroudsburg, PA,
USA : Association for Computational Linguistics.
Jabeur, L., Tamine, L., et Boughanem, M. (2012). Featured tweet search : Modeling
time and social influence for microblog retrieval. In IEEE/WIC/ACM International
Conference on Web Intelligence, Macau, China (pp. 166–173). IEEE
Computer Society - Conference Publishing Services.
130CHAPITRE 7. CONCLUSION GÉNÉRALE
Jansen, B. J., Zhang, M., Sobel, K., et Chowdury, A. (2009a). Micro-blogging
as online word of mouth branding. In Chi ’09 extended abstracts on human
factors in computing systems (pp. 3859–3864). New York, NY, USA : ACM.
Jansen, B. J., Zhang, M., Sobel, K., et Chowdury, A. (2009b). Twitter power :
Tweets as electronic word of mouth. J. Am. Soc. Inf. Sci. Technol., 60 (11),
2169–2188.
Java, A., Song, X., Finin, T., et Tseng, B. (2007). Why we twitter : understanding
microblogging usage and communities. In WebKDD’07 : Proceedings of the
9th webkdd and 1st sna-kdd 2007 workshop on web mining and social network
analysis (pp. 56–65).
Joachims, T. (2005). A support vector method for multivariate performance measures.
In Proceedings of the 22nd international conference on machine learning
(pp. 377–384). New York, NY, USA : ACM.
Jones, K. S., et Rijsbergen, C. van. (1976). Information retrieval test collections
(Rapport technique).
Karamuftuoglu, M. (1998). Collaborative information retrieval : toward a social
informatics view of ir interaction. J. Am. Soc. Inf. Sci., 49 (12), 1070–1080.
Kazai, G., et Milic-Frayling, N. (2008). Trust, authority and popularity in social
information retrieval. In Proceedings of the 17th ACM conference on information
and knowledge management (pp. 1503–1504). New York, NY, USA :
ACM.
Klas, C.-P., et Fuhr, N. (2000). A new effective approach for categorizing Web
documents. In Proceedings of the 22th bcs-irsg colloquium on ir research.
Koolen, M., Kazai, G., et Craswell, N. (2009). Wikipedia pages as entry points for
book search. In In proceedings of the second acm international conference on
web search and data mining (wsdm 2009). ACM Press.
Kopliku, A., Damak, F., Pinel-Sauvagnat, K., et Boughanem, M. (2011). Interest
and Evaluation of Aggregated Search. In IEEE/WIC/ACM International
Conference on Web Intelligence, Lyon. ACM.
Korfiatis, N., Poulos, M., et Bokos, G. (2006). Evaluating authoritative sources
using social networks : an insight from wikipedia. Online Information Review,
30 (3), 252-262.
Kumar, N., et Carterette, B. (2013). Time based feedback and query expansion for
twitter search. In Proceedings of the 35th european conference on advances in
information retrieval (pp. 734–737). Berlin, Heidelberg : Springer-Verlag.
Kwak, H., Lee, C., Park, H., et Moon, S. (2010). What is twitter, a social network
or a news media ? In Proceedings of the 19th international conference on world
wide web (pp. 591–600). New York, NY, USA : ACM.
Lampos, V., et Cristianini, N. (2010). Tracking the flu pandemic by monitoring the
social web. In Cognitive information processing (cip), 2010 2nd international
131CHAPITRE 7. CONCLUSION GÉNÉRALE
workshop on (p. 411-416).
Lee, C., Kwak, H., Park, H., et Moon, S. (2010). Finding influentials based on the
temporal order of information adoption in twitter. In Www’10 : Proceedings
of the 19th international conference on world wide web (pp. 1137–1138). New
York, NY, USA : ACM.
Li, R., Lei, K. H., Khadiwala, R., et Chang, K.-C. (2012). Tedas : A twitter-based
event detection and analysis system. In Data engineering (icde), 2012 ieee
28th international conference on (p. 1273-1276).
Li, Y., Luk, W. P. R., Ho, K. S. E., et Chung, F. L. K. (2007). Improving weak ad-hoc
queries using wikipedia asexternal corpus. In Proceedings of the 30th annual
international acm sigir conference on research and development in information
retrieval (pp. 797–798). New York, NY, USA : ACM.
Lin, Y., Li, Y., Xu, W., et Guo, J. (2012). Microblog retrieval based on term
similarity graph. In Computer science and network technology (iccsnt), 2012
2nd international conference on (p. 1322-1325).
Lv, Y., et Zhai, C. (2009). Positional language models for information retrieval.
In Proceedings of the 32nd international acm sigir conference on research and
development in information retrieval (pp. 299–306). New York, NY, USA :
ACM.
Macdonald, C., et Ounis, I. (2006). Voting for candidates : Adapting data fusion
techniques for an expert search task. In Proceedings of the 15th acm international
conference on information and knowledge management (pp. 387–396).
New York, NY, USA : ACM.
Magnani, M., Montesi, D., et Rossi, L. (2012). Conversation retrieval for microblogging
sites. Inf. Retr., 15 (3-4), 354-372.
Mandl, T. (2007). Recent developments in the evaluation of information retrieval
systems : Moving towards diversity and practical relevance.
Manning, C. D., Raghavan, P., et Schütze, H. (2008). Introduction to information
retrieval. New York, NY, USA : Cambridge University Press.
Massoudi, K., Tsagkias, E., Rijke, M. de, et Weerkamp, W. (2011). Incorporating
query expansion and quality indicators in searching microblog posts. In
Ecir 2011 : 33rd european conference on information retrieval (pp. 362–367).
Dublin : Springer.
Mayfield, J., et McNamee, P. (2003). Single n-gram stemming. In Proceedings of
the 26th annual international ACM SIGIR conference on research and development
in informaion retrieval (pp. 415–416). New York, NY, USA : ACM.
McCreadie, R., et Macdonald, C. (2013). Relevance in microblogs : Enhancing tweet
retrieval using hyperlinked documents. In Proceedings of the 10th conference
on open research areas in information retrieval (pp. 189–196). Paris, France,
France : Le centre de hautes études internationales d’informatique documen-
132CHAPITRE 7. CONCLUSION GÉNÉRALE
taire.
Metzler, D., et Cai, C. (2011). USC/ISI at TREC 2011 : Microblog Track (Notebook
Version). In TREC’11 : 20th Text Retrieval Conference. National Institute of
Standards and Technology (NIST).
Missen, M. M. S., Boughanem, M., et Cabanac, G. (2009, juin). Challenges for
Sentence Level Opinion Detection in Blogs (regular paper). In International
Conference on Computer and Information Science (ICIS), Shanghai, China,
01/06/2009-03/06/2009 (pp. 347–351). IEEE Computer Society.
Miyanishi, T., Seki, K., et Uehara, K. (2013). Combining recency and topicdependent
temporal variation for microblog search. In Ecir (p. 331-343).
Nagmoti, R., Teredesai, A., et De Cock, M. (2010). Ranking approaches for microblog
search. In Proceedings of the 2010 ieee/wic/acm international conference
on web intelligence and intelligent agent technology (pp. 153–157). Washington,
USA : IEEE Computer Society.
O’Connor, B., Balasubramanyan, R., Routledge, B. R., et Smith, N. A. (2010).
From tweets to polls : Linking text sentiment to public opinion time series. In
Icwsm.
Okazaki, M., et Matsuo, Y. (2010). Semantic twitter : analyzing tweets for real-time
event notification. In Proceedings of the 2008/2009 international conference on
social software : recent trends and developments in social software (pp. 63–74).
Berlin, Heidelberg : Springer-Verlag.
Ounis, I., Lin, J., et Soboroff, I. (2011). Overview of the TREC-2011 Microblog
Track. In TREC’11 : 20th Text Retrieval Conference.
Ounis, I., Lin, J., et Soboroff, I. (2012). Overview of the TREC-2012 Microblog
Track. In TREC’12 : 21th Text Retrieval Conference.
Pang, B., et Lee, L. (2008). Opinion mining and sentiment analysis. Found. Trends
Inf. Retr., 2 (1-2), 1–135.
Peters, I., Kipp, M. E. I., Heck, T., Gwizdka, J., Lu, K., Neal, D. R., et al. (2011).
Social tagging & folksonomies : Indexing, retrievingâĂę and beyond ? Proceedings
of the American Society for Information Science and Technology, 48 (1),
1–4.
Phelan, O., McCarthy, K., et Smyth, B. (2009). Using twitter to recommend realtime
topical news. In Recsys’09 : Proceedings of the third acm conference on
recommender systems (pp. 385–388). New York, NY, USA : ACM.
Porter, M. (1980). An algorithm for suffix stripping. Program, 14 (3), 130-137.
Ramage, D., Dumais, S. T., et Liebling, D. J. (2010). Characterizing microblogs
with topic models. In ICWSM’10 (pp. -1–1).
Ravikumar, S., Balakrishnan, R., et Kambhampati, S. (2012). Ranking tweets considering
trust and relevance. In Proceedings of the ninth international workshop
on information integration on the web (pp. 4 :1–4 :4). New York, NY, USA :
133CHAPITRE 7. CONCLUSION GÉNÉRALE
ACM.
Robertson, S. (2004). Understanding inverse document frequency : On theoretical
arguments for idf. Journal of Documentation, 60 , 2004.
Robertson, S., et Sparck Jones, K. (1988). Document retrieval systems. In P. Willett
(Ed.), (pp. 143–160). London, UK, UK : Taylor Graham Publishing.
Robertson, S., Walker, S., Jones, S., Hancock-Beaulieu, M., et Gatford, M. (1996).
Okapi at trec-3. In (pp. 109–126).
Rocchio, J. J. (1971). Relevance feedback in information retrieval.
Sakaki, T., Okazaki, M., et Matsuo, Y. (2010). Earthquake shakes twitter users :
real-time event detection by social sensors. In Proceedings of the 19th international
conference on world wide web (pp. 851–860). New York, NY, USA :
ACM.
Salton, G. (1968). A comparison between manual and automatic indexing methods
(Rapport technique). Ithaca, NY, USA.
Salton, G., et Buckley, C. (1997). Readings in information retrieval. In
K. Sparck Jones et P. Willett (Eds.), (pp. 355–364). San Francisco, CA, USA :
Morgan Kaufmann Publishers Inc.
Salton, G., Wong, A., et Yang, C. S. (1975). A vector space model for automatic
indexing. Commun. ACM, 18 (11), 613–620.
Sanderson, M. (2010). Test collection based evaluation of information retrieval
systems. Foundations and Trends in Information Retrieval, 4 (4), 247-375.
Sankaranarayanan, J., Samet, H., Teitler, B. E., Lieberman, M. D., et Sperling, J.
(2009). Twitterstand : news in tweets. In Proceedings of the 17th acm sigspatial
international conference on advances in geographic information systems (pp.
42–51). New York, NY, USA : ACM.
Schmid, H. (1994). Probabilistic part-of-speech tagging using decision trees. In
International conference on new methods in language processing (p. 44-49).
Manchester, UK.
Segaran, T., et Hammerbacher, J. (2009). Beautiful Data : The Stories Behind
Elegant Data Solutions (Original éd.). O’Reilly Media. Paperback.
Shamma, D. A., Kennedy, L., et Churchill, E. F. (2009). Tweet the debates :
Understanding community annotation of uncollected sources. In Proceedings
of the first sigmm workshop on social media (pp. 3–10). New York, NY, USA :
ACM.
Song, S., Li, Q., et Zheng, N. (2010). A spatio-temporal framework for related topic
search in micro-blogging. In Proceedings of the 6th international conference
on active media technology (pp. 63–73). Berlin, Heidelberg : Springer-Verlag.
Student. (1908). The probable error of a mean. Biometrika, 6 (1), 1–25.
Sturges, H. A. (1926). The Choice of a Class Interval. Journal of the American
Statistical Association, 21 (153), 65–66.
134CHAPITRE 7. CONCLUSION GÉNÉRALE
Teevan, J., Ramage, D., et Morris, M. R. (2011). #twittersearch : a comparison
of microblog search and web search. In Wsdm’11 : Proceedings of the fourth
acm international conference on web search and data mining (pp. 35–44). New
York, NY, USA : ACM.
Tumasjan, A., Sprenger, T. O., Sandner, P. G., et Welpe, I. M. (2010). Predicting
elections with twitter : What 140 characters reveal about political sentiment.
In Icwsm.
Uysal, I., et Croft, W. B. (2011). User oriented tweet ranking : a filtering approach
to microblogs. In C. Macdonald, I. Ounis, et I. Ruthven (Eds.), Cikm (p. 2261-
2264). ACM.
Vechtomova, O., et Wang, Y. (2006). A study of the effect of term proximity on
query expansion. J. Information Science, 32 (4), 324-333.
Voorhees, E. M. (2006). Overview of the trec 2006. In TREC’06 : 6th Text Retrieval
Conference.
Vosecky, J., Leung, K. W.-T., et Ng, W. (2012). Searching for quality microblog
posts : Filtering and ranking based on content analysis and implicit links. ,
397-413.
Weng, J., Lim, E.-P., Jiang, J., et He, Q. (2010). Twitterrank : finding topic-sensitive
influential twitterers. In Wsdm’10 : Proceedings of the third acm international
conference on web search and data mining (pp. 261–270). New York, NY,
USA : ACM.
Wilson, T., Wiebe, J., et Hoffmann, P. (2005). Recognizing contextual polarity
in phrase-level sentiment analysis. In Proceedings of the conference on human
language technology and empirical methods in natural language processing (pp.
347–354). Stroudsburg, PA, USA : Association for Computational Linguistics.
Xu, S., Bao, S., Cao, Y., et Yu, Y. (2007). Using social annotations to improve language
model for information retrieval. In Proceedings of the sixteenth acm
conference on conference on information and knowledge management (pp.
1003–1006). New York, NY, USA : ACM.
Yamaguchi, Y., Takahashi, T., Amagasa, T., et Kitagawa, H. (2010). Turank :
Twitter user ranking based on user-tweet graph analysis. In Wise’10 (p. 240-
253).
Yen, S.-J., et Lee, Y.-S. (2006). Under-sampling approaches for improving prediction
of the minority class in an imbalanced dataset. In Intelligent control and
automation (Vol. 344, p. 731-740). Springer Berlin / Heidelberg.
Yuan, Q., Cong, G., et Thalmann, N. M. (2012). Enhancing naive bayes with
various smoothing methods for short text classification. In Proceedings of the
21st international conference companion on world wide web (pp. 645–646).
New York, NY, USA : ACM.
Zhao, L., Zeng, Y., et Zhong, N. (2011). A weighted multi-factor algorithm for
135CHAPITRE 7. CONCLUSION GÉNÉRALE
microblog search. In Proceedings of the 7th international conference on active
media technology (pp. 153–161). Berlin, Heidelberg : Springer-Verlag.
Zhongyuan, H., Xuwei, L., Muyun, Y., Hoaliang, Q., Sheng, L., et Tiejun, Z. (2012).
HIT at Trec 2012 Microblog Track. In TREC’12 : 21th Text Retrieval Conference.
National Institute of Standards and Technology (NIST).
136Résumé
Notre travail se situe dans le contexte de recherche d’information (RI) sociale et s’inté-
resse plus particulièrement à la recherche de microblogs. Les microblogs sont des messages
de faible longueur à travers lesquels les utilisateurs publient des informations sur différents
sujets : des opinions, des événements, des statuts... Les microblogs occupent aujourd’hui
une part considérable de l’information générée sur le web. Dans Twitter, la plate-forme
de microblogging la plus populaire, le nombre de microblogs par jour peut atteindre 500
millions. Les microblogs ont une forme différente des traditionnels documents. Leur taille
est réduite par rapport aux blogs et aux articles publiés sur le web (140 caractères pour
Twitter). De plus, les microblogs peuvent contenir une syntaxe spécifique telle que les
#hashtags, les @citations ou bien encore des URLs. Les plateformes de microblogging représentent
également un modèle de réseau social différent des autres réseaux sociaux. Les
relations entre les utilisateurs ne sont pas forcément réciproques et les abonnements sont
sans restrictions entre microbloggeurs.
Les utilisateurs de plateformes de microblogging, outre la publication de microblogs,
effectuent également des recherches. Les motivations de ces recherches sont diverses. Certaines
sont similaires à la recherche sur le web (comme par exemple la recherche d’actualités),
et d’autres sont spécifiques à la recherche de microblogs (comme par exemple la
recherche temps réel ou d’informations sociales). Dans Twitter, 1,6 milliards de requêtes
sont ainsi émises chaque jour.
Les modèles de RI doivent s’adapter aux spécificités des microblogs : fraîcheur, aspect
social et spécificités syntaxiques doivent ainsi être pris en compte. C’est dans ce contexte
de recherche d’information dans les microblogs que se situent plus particulièrement nos
travaux. Nous nous plaçons plus précisément dans le cadre de la recherche adhoc. L’objectif
est de retrouver les microblogs répondant à un besoin d’information spécifié par un
utilisateur.
Nos travaux visent à améliorer la qualité des résultats de recherche d’information adhoc
dans les microblogs. Nos contributions se situent à plusieurs niveaux :
-Afin de déterminer exactement les facteurs limitant les performances des modèles de
recherche classiques dans un corpus de microblogs, nous avons mené à une analyse de dé-
faillance d’un modèle de recherche usuel. Nous avons sélectionné les microblogs pertinents
mais non retrouvés par le modèle de recherche. Ensuite, nous avons identifié les facteurs
empêchant leur restitution. Nous avons trouvé que le problème principal vient de la concision
des microblogs. Cette concision engendre une correspondance limitée entre les termes
des microblogs et les termes des requêtes, même s’ils sont sémantiquement similaires.
-Afin de compenser l’impact de la concision des microblogs, nous avons proposé et
testé plusieurs solutions. Nous avons proposé d’étendre les requêtes (i) en exploitant des
ressources de type actualités, (ii) en utilisant la base lexicale Wordnet, (iii) en applicant
des techniques de réinjection de pertinence de l’état de l’art qui ont souvent prouvé leur
efficacité : Rocchio pour identifier les termes susceptibles de ramener la pertinence ainsi que
pour la pondération des termes de la nouvelle requête, et le mécanisme naturel d’extensionCHAPITRE 7. CONCLUSION GÉNÉRALE
de requêtes du modèle BM25. Dans Rocchio, nous avons testé différentes méthodes de
calcul de poids de termes d’expansion. Nous avons enfin étendu les microblogs grâce aux
liens (URLs) qu’ils contiennent. Nos expérimentations ont montré que l’emploi des URLs et
l’expansion de requêtes sont primordiales pour la RI dans les microblogs. La plupart de ces
expérimentations (expansion de requêtes et de microblogs) ont été réalisées en se basant sur
le modèle vectoriel et sur le modèle probabiliste comme modèle de restitution. Ceci nous a
permis de comparer les comportements des deux modèles sur les microblogs et avec les deux
types d’expansion. De manière générale, nous avons trouvé que le modèle vectoriel est plus
performant que modèle probabiliste au niveau de la sélection des microblogs pertinents
(meilleur rappel). Cependant, le modèle probabiliste met plus en valeur les microblogs
pertinents restitués par rapport à tous les microblogs restitués (meilleure précision).
-Un deuxième volet de notre travail concerne l’étude des critères utilisés pour identifier
les microblogs pertinents. Nous avons repris les critères souvent utilisés dans l’état de l’art
(critères de contenu, critères sur l’importance des auteurs, critères sur les URLs) et nous
les avons évalués. Nous avons réalisé cette analyse selon 3 axes. Dans le premier axe, nous
avons analysé l’impact de la combinaison des scores des critères avec le score de pertinence
du contenu, calculé avec un modèle de RI usuel. Dans le deuxième axe, nous avons étudié
le comportement des critères dans les documents pertinents et les avons comparés avec
leurs comportements dans les documents non pertinents. Dans le troisième axe, nous avons
utilisé des techniques d’apprentissage ainsi que des algorithmes de sélection de critères qui
peuvent être utiles en entrée de ces techniques d’apprentissages. De manière générale, nous
avons montré que les critères en relation avec les URLs publiées dans les tweets sont les
plus discriminants. Les critères liés aux auteurs ne reflètent pas la pertinence.
-Afin de prendre en compte l’aspect temporel dans la restitution des microblogs pertinents
vis-à-vis d’un besoin d’information, nous avons proposé trois méthodes qui intègrent
le temps dans le calcul de la pertinence. Cette intégration du temps n’a cependant pas
montré son intérêt dans nos méthodes.
Pour réaliser nos expérimentations, nous nous sommes basés sur le corpus fourni par
la campagne d’évaluation internationale TREC (Text Retrieval Conference) dans la tâche
Microblogs des années 2011 et 2012. Nos différentes contributions ont également fait l’objet
de participations aux trois tâches de Microblogs de TREC (2011, 2012 et 2013).
Title
Étude des facteurs de pertinence dans la recherche de microblogs.
Abstract
This work deals with the context of social information retrieval (IR), more particularly
the retrieval of microblogs. Microblogs are messages of short length. They contain information
on various topics :opinions, events, articles... Microblogs represent a significant part of
the information generated on the Web. In the case of Twitter, the most popular platform,
the number of microblogs can reach 500 million per day. Microblogs have a different form
from traditional documents. Their length is reduced compared to traditional blogs and
3CHAPITRE 7. CONCLUSION GÉNÉRALE
articles on the web (only 140 characters in the case of Twitter). Moreover, microblogs can
have specific syntax such as #hashtags, @mentions or shortened URLs... Microblogging
platforms are a social network model different from other social networks. Relationships
between users are not necessarily reciprocal and subscriptions are unrestricted between
microbloggers. Users of microblogging platforms do not only produce but they also search
for information. The motivations of this research are diverse. Some are inspired from Web
search (e.g. the search for news) and others are specific to the search for microblogs (e.g.
real-time search or social information). In Twitter, 1.6 billion queries are issued every day.
Though, the IR models must adapt to the specificities of microblogs : freshness, social
aspect and syntactic characteristics must therefore be taken into account. The aim of our
work is to improve the quality of the results of adhoc information retrieval in microblogs.
Our contributions are at several levels :
- In order to accurately determine the factors limiting the performance of conventional
models of search in a corpus of microblogs, we conducted an analysis of failure of a
conventional model search. We selected relevant microblogs. However, they are not found
by the search pattern. Then, we identified the factors preventing their return. We found
that the main problem is the shortness of microblogs.
- To offset the impact of the shortness of microblogs, we proposed and tested several
solutions : to extend the queries by (i) exploiting news articles, (ii) using the WordNet
lexical database, (iii) applying techniques of relevance feedback of the state of art which
often proved effective : Rocchio to identify terms likely to bring relevance and for weighting
the terms of the new query, and the natural extension mechanism queries of the BM25
model. Using Rocchio, we tested different methods of calculating the weight of expansion
terms. We finally extended microblogs thanks to the links (URLs) they contain. Our
experiments have shown that the use of URLs and the expansion of the query are crucial
for IR in microblogs. Most of these experiments (expansion of queries and microblogs)
were performed on the basis of the vector model and the probabilistic model, as a model
of restitution. This allowed us to compare the behavior of the two models on microblogs
and with the two types of expansion. In general, we found that the Vector Space Model
is more efficient than the probabilistic one in the selection of relevant microblogs (better
recall). However, the probabilistic model puts more value on relevant microblogs returned
over all returned microblogs (better precision).
- A second part of our work is concerned with the study of the features used to
identify relevant microblogs. We selected the features often used in the state of art (content
features, features on the importance of authors, URLs features and quality features).Then,
we evaluated them. We conducted this analysis in 3 axes. In the first axis, (i) we studied
the behavior of the features in the relevant documents and compared them with their
behavior in non-relevant documents. In the second axis, (ii) we analyzed the impact of
the combination of the features scores with the content’s score, calculated with a model of
conventional IR. In the third axis, (iii) we used learning techniques as well as algorithms
of feature selection that may be useful as input to the learning techniques. In general, we
have shown that the features related to URLs posted in tweets are the most discriminating.
4CHAPITRE 7. CONCLUSION GÉNÉRALE
The features related to the authors do not reflect the relevance.
- To take into account the temporal aspect when selecting relevant microblogs, we have
proposed three methods that incorporate time in the calculation of relevance. However,
this integration of time did not show any positive impact in our methods.
To perform our experiments, we used the corpus provided by TREC (Text Retrieval
Conference) international survey in the task Microblogs for the years 2011 and 2012. Our
various contributions have also been the subject of participations for the three tasks of
Microblogs TREC (2011, 2012 and 2013).
ISBN : t t t t t t t t t t t t t
5
Evaluation de la sˆuret´e de syst`emes dynamiques hybrides
complexes. Application aux syst`emes hydrauliques
Perrine Broy
To cite this version:
Perrine Broy. Evaluation de la sˆuret´e de syst`emes dynamiques hybrides complexes. Application
aux syst`emes hydrauliques. Modeling and Simulation. Universit´e de Technologie de Troyes,
2014. French. .
HAL Id: tel-01006308
https://tel.archives-ouvertes.fr/tel-01006308
Submitted on 15 Jun 2014
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of scientific
research documents, whether they are published
or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destin´ee au d´epˆot et `a la diffusion de documents
scientifiques de niveau recherche, publi´es ou non,
´emanant des ´etablissements d’enseignement et de
recherche fran¸cais ou ´etrangers, des laboratoires
publics ou priv´es.THESE
pour l’obtention du grade de
DOCTEUR de l’UNIVERSITE
DE TECHNOLOGIE DE TROYES
Spécialité : OPTIMISATION ET SURETE DES SYSTEMES
présentée et soutenue par
Perrine BROY
le 12 mars 2014
Evaluation de la sûreté de systèmes dynamiques hybrides complexes.
Application aux systèmes hydrauliques
JURY
M. F. PÉRÈS PROFESSEUR DES UNIVERSITES Président
M. C. BERENGUER PROFESSEUR DES UNIVERSITES Directeur de thèse
M. N. BRINZEI MAITRE DE CONFERENCES Examinateur
M. M. CEPIN PROFESSOR Rapporteur
M. H. CHRAIBI INGENIEUR CHERCHEUR Directeur de thèse
M. Y. DIJOUX MAITRE DE CONFERENCES Examinateur
M. J.-M. THIRIET PROFESSEUR DES UNIVERSITES Rapporteur
Personnalité invitée
M. R. DONAT INGENIEUR CHERCHEUR 2Remerciements
Faire une thèse CIFRE, c’est bénéficier d’un double encadrement, académique et
industriel. Mais lorsque chacun de ces encadrements est assuré par deux personnes,
toutes compétentes et sympathiques, cela fait beaucoup de remerciements à rédiger, et
personne ne m’a dit si j’avais le droit de quadrupler le nombre de pages de remerciements
ou d’occurrences du mot « merci »...
Mes premiers remerciements vont donc à mon « comité encadrant » constitué de
Christophe Bérenguer, Yann Dijoux, Hassane Chraïbi et Roland Donat. Christophe,
merci d’avoir accepté la direction de cette thèse, merci pour ta disponibilité sans faille
et pour ton suivi malgré l’éloignement. Yann, merci de m’avoir aidée lors des calculs
analytiques douloureux, mais aussi pour la découverte d’un bon nombre de restaurants
troyens ! Hassane, merci pour ta patience et ta gentillesse ; l’initiation au fonctionnement
des évacuateurs de crues ou à la structure de PyCATSHOO n’était pas une affaire
gagnée d’avance. Roland, merci de m’avoir guidée et motivée si souvent ! Merci à vous
quatre, j’ai beaucoup appris à vos côtés et cela a été un réel plaisir de travailler avec
vous !
Je remercie l’ensemble des membres du jury pour leur participation à ma soutenance
et pour l’intérêt porté à mes travaux de recherche. Je remercie tout particulièrement
François Pérès d’avoir endossé le rôle de président du jury. Je tiens à exprimer ma
reconnaissance à Marko Cepin et Jean-Marc Thiriet pour m’avoir fait l’honneur d’être
rapporteurs de ces travaux et pour leurs questions constructives. Je tiens également à
remercier Nicolae Brinzei pour sa minutieuse relecture.
Alors que j’étais encore élève-ingénieur, j’ai longtemps muri ce projet de thèse avant
de m’y lancer. Je voudrai remercier Frédéric et Anick de m’avoir encouragée à partir
dans cette voie qu’est la recherche, et Hermann, Marine, Fabiano, Fatiha, Paul, Geoffrey,
Lise et William de m’avoir fait part de leurs expériences de doctorants lors de discussions
enrichissantes. Grâce à vous, j’ai construit ce projet de thèse en connaissance de cause.
Une fois ma décision prise, c’est une autre équipe qui m’a permis de concrétiser ce
projet. Je tiens à remercier l’équipe hiérarchique du département MRI d’avoir initié et
prolongé cette thèse mais aussi de m’avoir permis de faire de belles conférences. Quitte
à être au sein du département MRI, je vais continuer en remerciant les chercheurs qui le
constituent pour leur accueil, leurs conseils et leur sympathie. Je ne me risquerai pas à
34
vous nommer pour n’oublier personne, mais j’ai été heureuse de vous côtoyer le temps
d’un café, à la cantine ou dans les vestiaires de la gym. La bonne humeur ambiante
a égayé mes travaux et je vous remercie pour vos encouragements tout au long de ces
trois années.
Mes remerciement vont devenir encore plus locaux avec une pensée à tous ceux
qui ont eu la « chance » de partager mon bureau : Linh, Carine, Pierre-Yves, Antonello,
Stéphanie, Nicolas, Martin, Tazio : merci d’avoir supporté mes bavardages et mes
bougonnements !
Je tiens à remercier les membres du LM2S pour leur acceuil chaleureux à chacune
de mes venues troyennes.
En parallèle de ces trois ans de recherche, j’ai eu l’occasion de progresser en course
à pieds, danse et autres renforcements musculaires. Mention spéciale à tous les coachs
qui m’ont permis de me défouler et de décompresser !
Merci à Jane-Marie, bonne fée viroflaysienne, de m’avoir menée à bon port chaque
matin !
Bon courage à mes compatriotes de thèse, vous verrez, on finit toujours par y arriver,
la preuve !
Mes derniers remerciements vont à ma famille, ma belle-famille et à mes proches.
Il est temps de vous remercier d’avoir accepté soit de me voir si rarement, soit de me
voir squatter la table ronde pour de longues séances de débuggage et rédaction. Même
le chat Peluche en avait pris son parti et m’encourageait par quelques ronronnements...
Je ne serai pas là où j’en suis sans mes parents : merci pour votre amour, votre
confiance sans faille, votre relecture de ce manuscrit. Merci aussi à toi Maxime !
Tout ceci ne serait rien sans Gaël. Tu m’as suivie au bout du monde lors des
conférences, tu m’as épousée avant même de savoir à quoi ressemblait une troisième
année de thèse, tu as toujours répondu placidement « oui... » à chaque fois que je te
demandais « Est-ce que tu crois que je vais y arriver ? » dans mes périodes de doute,
tu m’as littéralement entretenue pendant le mois de décembre, tu as scrupuleusement
relu ce manuscrit et tu as géré mes pots de thèse comme un roi... Pour tout ça, le nom
« Hesters » aurait bien mérité de figurer sur la première page de ce manuscrit. A
défaut, je tenais à ce que les derniers mots de cette page soit pour toi... Mille mercis
donc.Table des matières
Introduction générale 19
I De la problématique industrielle aux enjeux méthodologiques
23
1 Position du problème et motivation industrielle 25
1.1 Problématique industrielle : les évacuateurs de crues et l’estimation de
leur sûreté de fonctionnement . . . . . . . . . . . . . . . . . . . . . . . 25
1.1.1 L’hydroélectricité en France . . . . . . . . . . . . . . . . . . . . 26
1.1.2 Rôle des évacuateurs de crues . . . . . . . . . . . . . . . . . . . 26
1.1.3 Composition d’un évacuateur de crues . . . . . . . . . . . . . . 27
1.1.4 La sûreté de fonctionnement dans l’hydraulique . . . . . . . . . 29
1.1.5 Quelques notions d’hydrologie et d’hydraulique . . . . . . . . . 30
1.1.5.1 Origine des hydrogrammes des crues . . . . . . . . . . 30
1.1.5.2 Cotes de la retenue d’un barrage . . . . . . . . . . . . 31
1.2 Enjeux industriels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.2.1 La méthode GASPART et l’outil associé . . . . . . . . . . . . . 32
1.2.2 Réalisations et limites de l’outil GASPART . . . . . . . . . . . . 32
1.2.3 Objectifs de ces travaux . . . . . . . . . . . . . . . . . . . . . . 33
1.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2 Enjeux méthodologiques 37
2.1 Principales notions de sûreté de fonctionnement et introduction à la fiabilité
dynamique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.1.1 Principales notions de sûreté de fonctionnement . . . . . . . . . 37
5TABLE DES MATIÈRES 6
2.1.1.1 Grandeurs caractéristiques de la sûreté de fonctionnement 37
2.1.1.2 Durées fondamentales en sûreté de fonctionnement . . 39
2.1.1.3 Taux de défaillance et de réparation . . . . . . . . . . 40
2.1.1.4 Relations fondamentales . . . . . . . . . . . . . . . . . 40
2.1.1.5 Méthodes classiques utilisées en sûreté de fonctionnement 40
2.1.1.6 Mesures d’importance . . . . . . . . . . . . . . . . . . 42
2.1.2 Introduction à la fiabilité dynamique . . . . . . . . . . . . . . . 43
2.1.2.1 Définition d’un système dynamique hybride . . . . . . 43
2.1.2.2 Définition de la fiabilité dynamique . . . . . . . . . . . 44
2.2 État de l’art en fiabilité dynamique . . . . . . . . . . . . . . . . . . . . 45
2.2.1 Méthodes de description . . . . . . . . . . . . . . . . . . . . . . 46
2.2.1.1 Les méthodes analytiques et semi-analytiques . . . . . 47
2.2.1.2 Les méthodes reposant sur les arbres d’événements dynamiques
. . . . . . . . . . . . . . . . . . . . . . . . . 47
2.2.1.3 Les méthodes basées sur un formalisme graphique . . . 52
2.2.1.4 Autres méthodes de description . . . . . . . . . . . . . 57
2.2.1.5 Discussion et conclusion . . . . . . . . . . . . . . . . . 58
2.2.2 Méthodes de quantification . . . . . . . . . . . . . . . . . . . . . 58
2.2.2.1 Les méthodes de discrétisation . . . . . . . . . . . . . 58
2.2.2.2 Les méthodes de simulation de Monte Carlo . . . . . . 60
2.2.2.3 Discussion et conclusion . . . . . . . . . . . . . . . . . 62
2.2.3 Place de l’information temporelle dans les résultats de fiabilité
dynamique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.3 Conclusion : choix d’une méthodologie et contributions de la thèse . . . 63
3 Outils de modélisation pour la sûreté de fonctionnement des évacuateurs
de crues 65
3.1 Les Processus Markoviens Déterministes par
Morceaux (PDMP) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.1.1 Quelques processus utilisés en fiabilité . . . . . . . . . . . . . . 66
3.1.1.1 Chaînes de Markov . . . . . . . . . . . . . . . . . . . . 66
3.1.1.2 Processus markoviens de sauts . . . . . . . . . . . . . 677 TABLE DES MATIÈRES
3.1.1.3 Processus de renouvellement . . . . . . . . . . . . . . . 67
3.1.1.4 Processus de renouvellement markovien . . . . . . . . 67
3.1.1.5 Processus semi-markovien . . . . . . . . . . . . . . . . 68
3.1.2 Les Processus Markoviens Déterministes par Morceaux (PDMP) 69
3.1.2.1 Définition de Cocozza et al. . . . . . . . . . . . . . . . 69
3.1.2.2 Définition de Davis . . . . . . . . . . . . . . . . . . . . 70
3.1.3 Les PDMP communicants (CPDMP) . . . . . . . . . . . . . . . 71
3.2 Automates Stochastiques Hybrides (ASH) . . . . . . . . . . . . . . . . 72
3.2.1 De la théorie des automates aux ASH . . . . . . . . . . . . . . . 72
3.2.2 Composition et synchronisation des ASH . . . . . . . . . . . . . 75
3.3 L’outil PyCATSHOO . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.3.1 Le logiciel PyCATSHOO . . . . . . . . . . . . . . . . . . . . . . 76
3.3.2 Construction d’une base de connaissances . . . . . . . . . . . . 76
3.3.2.1 Les différents types de transitions . . . . . . . . . . . . 78
3.3.2.2 Contrôle de la variable continue . . . . . . . . . . . . . 79
3.3.3 Élaboration du modèle . . . . . . . . . . . . . . . . . . . . . . . 80
3.4 Machines à vecteurs support (SVM) . . . . . . . . . . . . . . . . . . . . 81
3.4.1 Problématique et notations . . . . . . . . . . . . . . . . . . . . 81
3.4.1.1 Cas linéairement séparable . . . . . . . . . . . . . . . . 82
3.4.1.2 Cas non séparable . . . . . . . . . . . . . . . . . . . . 83
3.4.2 La librairie libsvm . . . . . . . . . . . . . . . . . . . . . . . . . 84
II Prise en compte de l’information temporelle de la modé-
lisation à la synthèse d’indicateurs fiabilistes 85
4 Description et modélisation des évacuateurs de crues 87
4.1 Fonctionnement des évacuateurs de crues . . . . . . . . . . . . . . . . . 88
4.1.1 Prise en compte du temps dans le déroulement d’une crue . . . 88
4.1.2 Caractérisation d’une crue . . . . . . . . . . . . . . . . . . . . . 89
4.1.2.1 Fréquence d’une crue . . . . . . . . . . . . . . . . . . . 89
4.1.2.2 Forme et débit d’une crue . . . . . . . . . . . . . . . . 89TABLE DES MATIÈRES 8
4.1.2.3 Durée de la crue et délais de détection et d’établissement 89
4.1.3 Fonctionnement de deux évacuateurs de crues . . . . . . . . . . 90
4.1.4 Rôle de l’opérateur . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.1.5 Données de fiabilité . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.1.6 Hypothèses de modélisation de la méthode GASPART et des travaux
de thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.2 Modélisation des évacuateurs de crues . . . . . . . . . . . . . . . . . . . 93
4.2.1 Modélisation d’un cas-test simple . . . . . . . . . . . . . . . . . 94
4.2.1.1 Évolution du niveau dans le réservoir . . . . . . . . . . 94
4.2.1.2 Modélisation par les Automates Stochastiques Hybrides 100
4.2.1.3 Modèle global du système simple . . . . . . . . . . . . 105
4.2.1.4 Chronologie d’une histoire . . . . . . . . . . . . . . . . 106
4.2.2 Modélisation du problème industriel . . . . . . . . . . . . . . . . 107
4.2.2.1 Modélisation d’un objet manoeuvré . . . . . . . . . . . 107
4.2.2.2 Modélisation d’un objet alimenté . . . . . . . . . . . . 108
4.2.2.3 Modélisation d’un objet réparable . . . . . . . . . . . . 110
4.2.2.4 Modélisation d’un opérateur . . . . . . . . . . . . . . . 112
4.2.2.5 Modélisation d’une vanne . . . . . . . . . . . . . . . . 112
4.2.2.6 Représentation des deux évacuateurs de crues . . . . . 114
4.2.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
5 Analyse des histoires et quantification probabiliste de la fiabilité 117
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
5.1.1 Objectifs de la quantification . . . . . . . . . . . . . . . . . . . . 117
5.1.2 Démarche : de KB3 à PyCATSHOO . . . . . . . . . . . . . . . 118
5.1.3 Formalisation des résultats : séquences, histoires et vecteurs de
durées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
5.1.3.1 Définition d’une séquence . . . . . . . . . . . . . . . . 120
5.1.3.2 Définition d’une histoire . . . . . . . . . . . . . . . . . 121
5.1.3.3 Définition d’un vecteur de durées de fonctionnement
sans défaillance . . . . . . . . . . . . . . . . . . . . . . 122
5.1.4 Description des systèmes étudiés . . . . . . . . . . . . . . . . . . 1249 TABLE DES MATIÈRES
5.2 Probabilité d’occurrence de l’événement redouté . . . . . . . . . . . . . 126
5.2.1 Calcul analytique . . . . . . . . . . . . . . . . . . . . . . . . . . 127
5.2.1.1 Évolution du niveau dans la retenue . . . . . . . . . . 127
5.2.1.2 Instant d’atteinte du seuil de sûreté en fonction du temps
de défaillance . . . . . . . . . . . . . . . . . . . . . . . 129
5.2.1.3 Temps de défaillance en fonction de l’instant d’atteinte
du seuil de sûreté . . . . . . . . . . . . . . . . . . . . . 129
5.2.1.4 Expression de PER(t) . . . . . . . . . . . . . . . . . . 129
5.2.2 Estimation par simulation de Monte Carlo sur le modèle ASH . 130
5.2.2.1 Évolution du niveau . . . . . . . . . . . . . . . . . . . 130
5.2.2.2 Dépendance de l’instant de panne et de l’instant d’atteinte
du seuil de sûreté . . . . . . . . . . . . . . . . . 130
5.2.2.3 Évolution de la probabilité PER . . . . . . . . . . . . . 130
5.2.3 Comparaison des résultats analytiques et du produit des simulations
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
5.2.3.1 Évolution du niveau . . . . . . . . . . . . . . . . . . . 131
5.2.3.2 Dépendance de l’instant de panne et de l’instant de
l’événement redouté . . . . . . . . . . . . . . . . . . . 132
5.2.3.3 Évolution de la probabilité PER . . . . . . . . . . . . . 132
5.2.4 Vers un cas-test plus proche de la réalité : allure et interprétation
de courbes de niveau h et de PER . . . . . . . . . . . . . . . . . 133
5.2.4.1 Vers une modélisation réaliste des débits entrant et sortant133
5.2.4.2 Vers des lois de probabilités variées : introduction de la
loi de Weibull . . . . . . . . . . . . . . . . . . . . . . . 136
5.2.4.3 Vers un système de taille réaliste . . . . . . . . . . . . 138
5.3 Coupes équivalentes prépondérantes . . . . . . . . . . . . . . . . . . . 141
5.3.1 Méthodologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
5.3.2 Applications aux exemples « fil rouge » . . . . . . . . . . . . . . 144
5.3.2.1 Système composé d’une alimentation et deux vannes . 144
5.3.2.2 Système composé d’une alimentation et six vannes . . 144
5.4 Classification des histoires . . . . . . . . . . . . . . . . . . . . . . . . . 145
5.4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
5.4.2 Détermination analytique de la frontière . . . . . . . . . . . . . 146TABLE DES MATIÈRES 10
5.4.2.1 Réservoir vidangé par une vanne : calcul analytique de
l’instant tsep . . . . . . . . . . . . . . . . . . . . . . . . 146
5.4.2.2 Réservoir vidangé par deux vannes : calcul analytique
de la frontière u
sep
2
(u1) . . . . . . . . . . . . . . . . . . 147
5.4.3 Classification des histoires simulées . . . . . . . . . . . . . . . . 147
5.4.3.1 Cas d’un composant défaillant . . . . . . . . . . . . . . 148
5.4.3.2 Cas de plusieurs composants . . . . . . . . . . . . . . . 148
5.4.4 Comparaison des résultats . . . . . . . . . . . . . . . . . . . . . 150
5.4.4.1 Système simple à une vanne . . . . . . . . . . . . . . . 150
5.4.4.2 Système simple à deux vannes . . . . . . . . . . . . . . 150
5.4.5 Application aux exemples « fil rouge » et conclusion . . . . . . 152
5.5 Conclusion et perspectives . . . . . . . . . . . . . . . . . . . . . . . . . 153
6 Importance dynamique d’un composant 155
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
6.1.1 Définition d’une mesure d’importance dynamique . . . . . . . . 156
6.1.2 Systèmes étudiés . . . . . . . . . . . . . . . . . . . . . . . . . . 157
6.2 Calcul analytique de l’importance dynamique pour le système à deux
composants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
6.2.1 Expression littérale de l’importance dynamique de Birnbaum pour
l’alimentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
6.2.2 Expression littérale de l’importance dynamique de Birnbaum pour
la vanne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
6.3 Estimation à partir des histoires simulées . . . . . . . . . . . . . . . . 162
6.4 Résultats : comparaison et interprétation, pour un système à deux composants
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
6.4.1 Importance au début de la mission du composant . . . . . . . . 163
6.4.2 Importance à la fin de la mission du composant . . . . . . . . . 165
6.4.3 Allure de la courbe . . . . . . . . . . . . . . . . . . . . . . . . . 165
6.4.4 Comparaison avec l’importance dynamique obtenue à partir des
histoires simulées . . . . . . . . . . . . . . . . . . . . . . . . . . 166
6.4.5 Application aux systèmes « Fil Rouge » . . . . . . . . . . . . . . 169
6.4.5.1 Système composé d’une alimentation et de deux vannes 169
6.4.5.2 Système composé d’une alimentation et de six vannes . 17011 TABLE DES MATIÈRES
Conclusion générale et perspectives 175
A Déroulement de l’algorithme de PyCATSHOO 181
B Démonstrations du chapitre 5 185
B.1 Instant d’atteinte du seuil de sûreté en fonction du temps de défaillance 185
B.2 Expression de PER(t) . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
B.3 Réservoir vidangé par deux vannes : calcul analytique de la frontière
u
sep
2
(u1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
C Démonstrations du chapitre 6 189
C.1 Démonstration de la proposition 6.2 . . . . . . . . . . . . . . . . . . . . 189
C.2 Expression littérale de l’importance dynamique de Birnbaum pour l’alimentation
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
C.2.1 Calcul de P(ER/Talim ≤ t) . . . . . . . . . . . . . . . . . . . . . 189
C.2.2 Calcul de P(ER/Talim > t) . . . . . . . . . . . . . . . . . . . . . 190
C.3 Expression littérale de l’importance dynamique de Birnbaum pour la vanne191
C.3.1 Calcul de P(ER/TV ≤ t) . . . . . . . . . . . . . . . . . . . . . . 191
C.3.2 Calcul de P(ER/TV > t) . . . . . . . . . . . . . . . . . . . . . . 192
Bibliographie 194TABLE DES MATIÈRES 12Table des figures
1.1 Photographie d’un évacuateur de crues . . . . . . . . . . . . . . . . . . 27
1.2 Représentation schématique d’un évacuateur de crues . . . . . . . . . . 28
1.3 Exemple d’hydrogramme de crue . . . . . . . . . . . . . . . . . . . . . 31
2.1 Durées fondamentales en sûreté de fonctionnement . . . . . . . . . . . 39
2.2 Diagramme de fiabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3 Arbre de défaillances . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.4 Exemple d’arbre d’événements, inspiré du domaine nucléaire . . . . . . 42
2.5 Exemple de DDET . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.6 Extrait du modèle DFM d’un benchmark. . . . . . . . . . . . . . . . . . 50
2.7 Franchissement d’une transition dans un RdP . . . . . . . . . . . . . . 52
2.8 Exemple de réseau bayésien . . . . . . . . . . . . . . . . . . . . . . . . 54
2.9 Exemple de réseau bayésien dynamique . . . . . . . . . . . . . . . . . . 55
3.1 Graphe de Markov représentant une chaîne de Markov . . . . . . . . . 66
3.2 Construction d’un PDMP à partir de processus stochastiques classiques 68
3.3 Exemple de trajectoire d’un PDMP . . . . . . . . . . . . . . . . . . . . 70
3.4 Exemple d’automate fini déterministe . . . . . . . . . . . . . . . . . . . 73
3.5 Exemple d’automate hybride . . . . . . . . . . . . . . . . . . . . . . . . 74
3.6 Exemple d’automate stochastique hybride . . . . . . . . . . . . . . . . 75
3.7 Représentation des quatre types de transitions. . . . . . . . . . . . . . . 77
3.8 Exemple d’automate utilisant les quatre types de transitions. . . . . . . 78
3.9 Objet PyCATSHOO décrit par trois automates . . . . . . . . . . . . . 79
3.10 Construction d’un SVM . . . . . . . . . . . . . . . . . . . . . . . . . . 81
13TABLE DES FIGURES 14
3.11 Choix du meilleur séparateur . . . . . . . . . . . . . . . . . . . . . . . . 83
3.12 Projection des données dans un espace où elles sont linéairement séparables. 84
4.1 Chronologie d’une crue . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.2 Représentation schématique d’une vanne de surface . . . . . . . . . . . 90
4.3 Représentation schématique d’une vanne de surface associée à un clapet 90
4.4 Illustration du cas-test simple . . . . . . . . . . . . . . . . . . . . . . . 94
4.5 Évolution du débit entrant pour une crue en forme d’échelon . . . . . . 95
4.6 Évolution du débit sortant pour une débitance constante, en fonction de
l’instant de panne u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.7 Évolution du débit entrant pour un hydrogramme de crue . . . . . . . 97
4.8 Évolution du débit sortant pour une débitance réaliste, en fonction de
l’instant de panne u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4.9 Automate de la crue . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4.10 Automate d’une vanne . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.11 Automate du réservoir . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
4.12 Modèle global du système simple . . . . . . . . . . . . . . . . . . . . . 106
4.13 Automate d’un objet manoeuvré . . . . . . . . . . . . . . . . . . . . . . 108
4.14 Automate d’un objet alimenté . . . . . . . . . . . . . . . . . . . . . . . 109
4.15 Automate d’un objet réparable . . . . . . . . . . . . . . . . . . . . . . 110
4.16 Automate d’un opérateur . . . . . . . . . . . . . . . . . . . . . . . . . . 111
4.17 Automate Stochastique Hybride d’une vanne . . . . . . . . . . . . . . . 113
5.1 Événement redouté en fonction des instants de défaillance de deux vannes118
5.2 Probabilité de l’événement redouté en fonction de la frontière et des
densités de probabilités des instants de défaillance de deux composants 119
5.3 Crue en forme d’échelon et débitance constante : évolution du niveau
dans le réservoir . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
5.4 Dépendance de l’instant de défaillance de la vanne et de l’instant de
l’événement redouté . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
5.5 Évolution de la probabilité d’occurrence de l’événement redouté . . . . 133
5.6 Influence de la levée des hypothèses simplificatrices sur l’évolution du
niveau dans le réservoir, pour quatre scénarios de défaillance . . . . . . 13415 TABLE DES FIGURES
5.7 Influence de la levée des hypothèses simplificatrices sur la probabilité
d’occurrence de l’événement redouté . . . . . . . . . . . . . . . . . . . . 136
5.8 Influence de la loi de Weibull sur l’évolution de la probabilité d’occurrence
de l’événement redouté . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
5.9 Répartition des instants de défaillance pour la loi de Weibull et la loi
exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
5.10 Influence de l’introduction d’une seconde vanne sur l’évolution de la probabilité
d’occurrence de l’événement redouté . . . . . . . . . . . . . . . 139
5.11 Évolution de la probabilité d’occurrence de l’événement redouté pour les
deux systèmes « Fil Rouge » . . . . . . . . . . . . . . . . . . . . . . . . 140
5.12 Précision et taux de faux négatifs en fonction de la taille de l’échantillon
d’apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
5.13 Séparation des histoires en fonction des TTF de deux vannes . . . . . . 151
6.1 Calcul analytique de l’importance dynamique pour l’alimentation et la
vanne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
6.2 Importance dynamique obtenue à partir des simulations, pour l’alimentation
et pour la vanne . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
6.3 Comparaison des importances dynamiques de l’alimentation et de la
vanne obtenues par calcul analytique et à partir des simulations . . . . 168
6.4 Importance dynamique des composants du système FR1 . . . . . . . . 169
6.5 Importance dynamique de chaque composant du système FR2, obtenue
à partir des simulations . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
6.6 Importance dynamique de chaque groupe de composants du système FR2
obtenue à partir des simulations . . . . . . . . . . . . . . . . . . . . . . 172Principaux acronymes 16Principaux acronymes
IB Indicateur de Birnbaum
TFN Taux de Faux Négatifs
SSA Seuil de Sûreté Atteint
ARSHY Analyse des Risques des Systèmes HYdrauliques
ASH Automate Stochastique Hybride
BdC Base de Connaissances
CCl Contrôle-Commande local
CPDMP Communicating PDMP
EdC Évacuateur de Crues
EPS Étude Probabiliste de Sûreté
ER Événement Redouté
FR Fil Rouge
GASPART GAted Spillway System - Probabilistic Assessment of Reliability Tool
MRI Management des Risques Industriels
PDMP Piecewise Deterministic Markov Process
PyCATSHOO PythoniC AuTomates Stochastiques Hybrides Orientés Objets
RMB Receiving Message Box
SDH Système Dynamique Hybride
SMB Sending Message Box
SVM Support Vector Machine
TTF Time To Failure
VTTF Vecteur de TTF
17Principaux acronymes 18Introduction générale
L’utilisation d’eau par des aménagements hydrauliques fournit une énergie propre et
renouvelable. L’hydroélectricité représente la deuxième source de production d’électricité
en France en 2012. EDF est exploitant de 435 centrales hydroélectriques. A ce titre,
il participe au programme de rénovation et de modernisation du parc hydraulique. Afin
d’améliorer la sûreté des ouvrages hydrauliques, des études de danger sont réalisées en
confrontant leur dimensionnement à des crues exceptionnelles ou au dysfonctionnement
des évacuateurs de crues vannés.
En cas de crue, il est nécessaire d’évacuer le volume d’eau déversé en amont du
dispositif afin de maintenir le plan d’eau de la retenue sous un niveau acceptable. Les
évacuateurs de crues (EdC) sont les structures dédiées au déversement des eaux en
excédent. Pour cela, les EdC vannés requièrent la mobilisation de vannes. L’événement
redouté (ER) est réalisé lorsqu’un seuil de sûreté est atteint par le niveau de la retenue.
L’étude de la sûreté des EdC se traduit par des indications sur la fiabilité de ces dispositifs.
Par exemple, les EdC sont hiérarchisés vis-à-vis du risque lié à l’ER, ou des leviers
d’amélioration de la sûreté sont proposés, tels que des stratégies de maintenance.
Au sein du département Management des Risques Industriels (MRI) d’EDF R&D, le
projet ARSHY (Analyse des Risques des Systèmes HYdrauliques) développe des méthodologies
d’analyse de risque systèmes pour le parc hydraulique d’EDF. En particulier, la
méthode d’évaluation de la fiabilité des EdC vannés est consolidée par la prise en compte
du facteur temps. La dynamique du processus de crue et de son évacuation est telle que
l’évolution physique et déterministe du niveau d’eau dans la retenue est intimement
liée aux événements discrets aléatoires qui vont affecter l’ouverture des vannes. En ce
sens, les EdC sont des Systèmes Dynamiques Hybrides (SDH) et rentrent dans le cadre
de la fiabilité dynamique. La prise en compte de l’information temporelle est corrélée à
l’introduction d’une variable déterministe continue dans le processus stochastique.
A travers les EdC, ce sont donc les SDH qui sont concernés par la problématique :
comment estimer la sûreté des EdC ? Nous proposons une méthodologie qui accompagne
l’utilisateur tout au long de la modélisation et de l’exploitation des résultats, pour des
SDH de taille industrielle. Les EdC constituent un support et une illustration pour ces
travaux mais la méthodologie proposée est adaptable au cadre général de la fiabilité
dynamique.
19Introduction générale 20
En fiabilité dynamique, une classe de processus est généralement utilisée pour modé-
liser les SDH. Il s’agit des Processus de Markov Déterministes par Morceaux (PDMP).
Cette modélisation prend en compte la dynamique induite par la dépendance au temps
du fonctionnement de ce type de système. En accord avec ce cadre théorique, les Automates
Stochastiques Hybrides (ASH) distribués présentent le double avantage d’un
formalisme riche et d’une représentation graphique intuitive et flexible pour décrire des
systèmes complexes. La complexité des EdC est due au nombre élevé de composants,
aux interactions composant-composant et composant-environnement, et à l’évolution
simultanée de l’état du système et de la variable déterministe continue en fonction de
l’état des composants. Les ASH sont ensuite associés à la simulation de Monte Carlo
pour la quantification probabiliste de la fiabilité.
La méthode d’évaluation de la fiabilité des EdC vannés, nommée GASPART (de
l’anglais Gated Spillway System - Probabilistic Assessment of Reliability Tool) est associée
à un outil du même nom. Cet outil est développé à partir d’un langage initialement
conçu pour traiter les systèmes à états discrets. La prise en compte des phénomènes
continus et transitoires n’est possible qu’au prix d’hypothèses de modélisation conservatives
et en adoptant des méthodes simplifiées de résolution des équations différentielles.
Par ailleurs, GASPART possède deux modules de quantification distincts. La conception
d’un nouvel outil nommé PyCATSHOO écarte les limites identifiées de l’outil
GASPART. En étant dédié à l’évaluation de la fiabilité des SDH dès sa conception, PyCATSHOO
lève les hypothèses de modélisation conservatives et propose une démarche
capable de caractériser les résultats en conservant l’information temporelle.
Il est important d’identifier et de quantifier l’intérêt de prendre en compte de nouvelles
informations temporelles dans l’évaluation des performances fiabilistes. En effet,
la débitance des vannes dépend de la hauteur de leur ouverture. La position d’une vanne
dépend elle-même de la progression du processus d’ouverture, interrompue ou non par la
défaillance d’un composant nécessaire à ce processus. Une défaillance précoce entraîne
une débitance faible susceptible de provoquer l’événement redouté. Contrairement à un
problème de fiabilité classique, l’état du système n’est pas une fonction de l’état de ses
n composants. Ce sont les dates de défaillance en fonctionnement (T1, ..., Tn) qui défi-
nissent l’occurrence ou non de l’événement redouté pour le système. Cette dépendance
est effective par le biais d’une fonction f(T1, ..., Tn) = s où s ∈ {ER, ER} désigne
l’état du système (occurrence ou non de l’événement redouté ER). Ainsi, pour un même
ensemble de composants en panne, le système peut être en panne ou en marche, selon
les dates de panne des composants. Certaines notions de sûreté comme celles de coupes
ou de mesures d’importance sont à redéfinir. Ces notions doivent être adaptées aux SDH
dans l’objectif d’identifier la fonction f et de caractériser les histoires de défaillances.
Cette démarche est rarement associée à la fiabilité dynamique, aussi les indicateurs
proposés dans cette thèse sont-ils innovants.
Les différentes étapes de cette méthodologie, exposées ci-dessous, permettent la
modélisation du système puis l’exploitation des résultats obtenus.
1. La compréhension du fonctionnement du système implique la décomposition des21 Introduction générale
sous-systèmes, l’identification des composants similaires par classes et la définition
d’hypothèses de modélisation.
2. Chaque classe de composants est décrite par un automate dont les états sont
les différentes phases de son fonctionnement. Les transitions entre ces états sont
caractérisées par un ensemble de conditions.
3. Une Base de Connaissances (BdC) répertorie les classes ainsi définies. Les boîtes
à messages destinataires et expéditrices participent à la synchronisation des automates,
assurant la communication entre les objets qui interagissent. Le dispositif
de calcul de la variable continue fait partie de cette construction. L’élaboration
d’une BdC doit être suffisamment générale pour représenter plusieurs systèmes
d’une même catégorie, mais suffisamment détaillée pour être proche de la réalité.
4. Les informations spécifiques à la topologie d’un système en particulier sont regroupées
dans un script principal. Chaque composant y est déclaré en tant qu’instance
d’une classe PyCATSHOO. Ces objets sont ensuite reliés entre eux par des liens,
qui matérialisent les boîtes à messages. L’exécution de ce script génère aléatoirement
des simulations.
5. L’analyse des résultats fournit des indicateurs de fiabilité classique, tels que l’évolution
de la probabilité d’occurrence de l’ER par rapport au temps. Les combinaisons
d’événements les plus contributeurs dans la réalisation de l’ER sont
également identifiées.
6. Le fruit des simulations est une liste d’histoires. Une histoire est la séquence des
états visités par chaque automate le temps d’une crue, associés à la date de chacune
de ces transitions. Nous proposons une méthode pour extraire, synthétiser
et utiliser l’information issue de la simulation du modèle. La séparation des histoires
par rapport à l’occurrence ou non de l’événement redouté, en fonction des
durées de fonctionnement avant défaillance de chaque composant du système, est
un modèle qui exploite au maximum les données temporelles contenues dans les
histoires simulées. Cette classification pronostique, à partir d’un jeu de nouvelles
durées de fonctionnement avant défaillance, l’issue de l’histoire associée.
7. L’estimation de l’importance dynamique permet de savoir à tout instant quel est
le composant dont la défaillance à cet instant précis aurait le plus d’impact sur
la probabilité de l’ER, par rapport à une situation de référence. Cette définition
est généralisable à un groupe de composants.
Ce mémoire est structuré en six chapitres :
– Le chapitre 1 positionne le problème industriel et les travaux de thèse.
– Le chapitre 2 confronte un état de l’art des méthodes utilisées en fiabilité dynamique
aux enjeux méthodologiques impliqués par le problème industriel.
– Le chapitre 3 détaille les différents outils de modélisation pour la sûreté de fonctionnement.
– Le chapitre 4 décrit le fonctionnement des deux EdC étudiés et présente la modélisation
de ces systèmes par les ASH distribués et l’élaboration de la BdC qui
en découle.Introduction générale 22
– Le chapitre 5 propose une démarche prévisionnelle fondée sur la classification des
histoires et l’estimation de la probabilité d’occurrence de l’ER.
– Le chapitre 6 définit l’importance dynamique comme un indicateur de fiabilité
dynamique destiné à l’aide à la décision.Première partie
De la problématique industrielle
aux enjeux méthodologiques
23Chapitre 1
Position du problème et motivation
industrielle
Ce chapitre positionne le problème industriel, et par conséquent, ces travaux de
thèse. La section 1.1 introduit la motivation de cette thèse, c’est-à-dire l’évaluation de
la sûreté de fonctionnement des évacuateurs de crues. Ces systèmes hydrauliques ont
la particularité de dépendre d’événements aléatoires discrets, mais aussi de l’évolution
d’une variable déterministe continue. A ce titre, ce sont des systèmes dynamiques hybrides.
A travers les évacuateurs de crues, ce sont donc tous les systèmes dynamiques
hybrides qui sont concernés par la problématique : comment évaluer la sûreté de fonctionnement
des évacuateurs de crues ?
La section 1.2 énumère ensuite les enjeux de la thèse en dressant le « cahier des
charges » de la méthodologie recherchée.
1.1 Problématique industrielle : les évacuateurs de
crues et l’estimation de leur sûreté de fonctionnement
Cette section a pour but de présenter la problématique industrielle de la thèse. Après
une brève présentation de l’hydroélectricité (section 1.1.1) et une introduction sur le
rôle des évacuateurs de crues (section 1.1.2), la section 1.1.3 résume la structure des
évacuateurs de crues. Puis la section 1.1.4 dresse un rapide état de l’art de la sûreté de
fonctionnement dans le domaine de l’hydraulique. Finalement, la section 1.1.5 introduit
quelques notions d’hydrologie et d’hydraulique, notamment sur les hydrogrammes des
crues et sur les cotes de la retenue d’un barrage.
25Chapitre1. Position du problème et motivation industrielle 26
1.1.1 L’hydroélectricité en France
En France, l’hydroélectricité est l’une des principales énergies [EDF, 2011]. L’hydraulique,
qui représente 11,7% de l’énergie électrique totale produite en France en 2012,
y est ainsi la deuxième source de production d’électricité. L’utilisation du potentiel de
l’eau par des aménagements hydrauliques fournit un double avantage. D’une part, c’est
une énergie propre et renouvelable, sans impact sur le climat car elle émet très peu de
gaz à effet de serre. D’autre part, à défaut de savoir stocker l’électricité, c’est un moyen
écologique et économique de répondre rapidement aux variations de la consommation
d’électricité.
En France métropolitaine, EDF exploite 435 centrales hydroélectriques. L’eau retenue
derrière un barrage est amenée par une conduite forcée vers une turbine. La force
de l’eau fait tourner la turbine qui entraîne à son tour un alternateur, générant ainsi un
courant électrique alternatif. Le transformateur élève ensuite la tension pour faciliter le
transport de l’électricité sur de longues distances [EDF, 2011].
1.1.2 Rôle des évacuateurs de crues
En cas de crue, le volume d’eau déversé en amont de la retenue peut provoquer une
montée d’eau incompatible avec la capacité de stockage et d’absorption du dispositif de
production hydroélectrique recevant cette eau. Le volume d’eau en excédent représente
une menace pour la sécurité du barrage et il est nécessaire de l’évacuer afin de maintenir
le plan d’eau de la retenue (bassin amont du barrage) sous un niveau acceptable et
d’éviter la submersion de la digue. Aussi les barrages sont-ils dotés de structures dédiées
au déversement des eaux en excédent. Ces dispositifs, illustrés par la figure 1.1, sont
appelés évacuateurs de crues (EdC). Certains EdC fonctionnent par déversement
naturel lorsque le niveau d’eau dépasse celui du réservoir. Ce sont des EdC passifs. En
revanche, les EdC vannés requièrent la mobilisation de vannes pour déverser le volume
d’eau excédentaire.
Les évacuateurs de crues vannés sont au centre de cette thèse. L’objectif de ces
travaux est de modéliser les EdC et de les simuler du point de vue fiabiliste, puis
d’exploiter les résultats obtenus pour l’évaluation de la sûreté de fonctionnement et la
prise de décision. L’exploitation des résultats prend la forme d’indications sur la fiabilité
de ces dispositifs pour donner des pistes d’amélioration de la sûreté.
L’événement redouté (ER) est défini par l’atteinte du seuil maximal par le niveau
de la retenue. Cet événement indésirable sera par la suite également nommé « débordement
» ou OF pour « OverFlow ».27 1.1. Problèmatique industrielle
Figure 1.1 – Évacuateur de crues. Crédit photo : EDF, Patrice Dhumes
1.1.3 Composition d’un évacuateur de crues
Un évacuateur de crues est constitué d’une installation hydromécanique, d’un
contrôle-commande et d’un système d’alimentation électrique, comme l’illustre la fi-
gure 1.2. Un ou plusieurs opérateurs, alertés si besoin par un dispositif d’alarme,
contrôlent le reste de l’aménagement. Par le biais d’un contrôle-commande (local ou
non), l’opérateur sollicite un actionneur (moteur ou pompe). Cet actionneur déclenche
le mouvement de la transmission (vérin, chaîne, crémaillère, etc.). Cette transmission
communique ensuite ce mouvement aux vannes. Une passe est constituée du dispositif
actionneur - transmission - vanne.
Cette description est représentée schématiquement sur la figure 1.2 et s’applique
à tous les évacuateurs de crues. Des subtilités apparaissent dès que l’on considère des
évacuateurs différents ou que l’on rentre dans le détail de ces sous-systèmes. Chaque
composant peut tomber en panne à la sollicitation ou en fonctionnement. La plupart du
temps, la structure d’un système est telle que ce composant est relayé en cas de panne.
Ces redondances forment un réseau d’interactions complexes à modéliser. La réaction
de l’opérateur à ces pannes se traduit par la recherche du composant de secours et la
sollicitation de celui-ci. Ce type d’action de l’opérateur est associé à une probabilité
d’échec. Inversement, ces actions sont parfois automatisées.
L’objectif industriel de cette thèse est de proposer une méthodologie pour la modélisation
des EdC. Cette modélisation devra représenter le processus de crue, le rôle
de chaque composant en cas de défaillance et les réactions de l’opérateur. L’élaboration
d’un modèle suffisamment général pour représenter différents évacuateurs, mais suffi-Chapitre1. Position du problème et motivation industrielle 28
Figure 1.2 – Représentation schématique d’un évacuateur de crues
Ex´ecution efficace de syst`emes multi-agents sur GPU
Guillaume Laville
To cite this version:
Guillaume Laville. Ex´ecution efficace de syst`emes multi-agents sur GPU. Distributed, Parallel,
and Cluster Computing. Universit´e de Franche-Comt´e, 2014. French.
HAL Id: tel-01087226
https://hal.archives-ouvertes.fr/tel-01087226
Submitted on 25 Nov 2014
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of scientific
research documents, whether they are published
or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destin´ee au d´epˆot et `a la diffusion de documents
scientifiques de niveau recherche, publi´es ou non,
´emanant des ´etablissements d’enseignement et de
recherche fran¸cais ou ´etrangers, des laboratoires
publics ou priv´es.Thèse de Doctorat
é c o l e d o c t o r a l e s c i e n c e s p o u r l ’ i n g é n i e u r e t m i c r o t e c h n i q u e s
U N I V E R S I T É D E F R A N C H E - C O M T É
n
Exécution efficace de systèmes
multi-agents sur GPU
Guillaume LavilleThèse de Doctorat
é c o l e d o c t o r a l e s c i e n c e s p o u r l ’ i n g é n i e u r e t m i c r o t e c h n i q u e s
U N I V E R S I T É D E F R A N C H E - C O M T É
THÈSE présentée par
Guillaume Laville
pour obtenir le
Grade de Docteur de
l’Université de Franche-Comté
Spécialité : Informatique
Exécution efficace de systèmes multi-agents sur GPU
Soutenue le 27 juin 2014 devant le Jury :
Christophe Cambier Rapporteur Chargé de recherche (HDR) à l’Université Pierre et
Marie Curie, Paris
Michaël Krajecki Rapporteur Professeur à l’Université de Reims ChampagneArdenne
Stéphane Genaud Examinateur Professeur à l’Université de Strasbourg
Fabrice Bouquet Examinateur Professeur à l’Université de Franche-Comté
Laurent Philippe Directeur de thèse Professeur à l’Université de Franche-Comté
Kamel Mazouzi Encadrant Ingénieur de Recherche au Mésocentre de calculs de
Franche-Comté
Christophe Lang Encadrant Maître de Conférences à l’Université de Franche-Comté
N° X X XSommaire
Table des matières 6
Remerciements 7
Introduction 9
I Contexte 13
1 Les systèmes multi-agents 17
1.1 Science et simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2 Les systèmes multi-agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2 Modèles d’exécution et de programmation parallèles 27
2.1 Une réponse à des besoins en calcul . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2 Parallélisation en mémoire partagée . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3 Parallélisation en mémoire distribuée . . . . . . . . . . . . . . . . . . . . . . . . 31
2.4 Parallélisation hybride . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.5 Une nouvelle architecture d’exécution : le GPU . . . . . . . . . . . . . . . . . . 34
2.6 Vers une convergence many-core . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.7 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3 Parallélisation de systèmes multi-agents 47
3.1 Stratégies de parallélisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2 Plates-formes multi-agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3 État de la simulation multi-agents sur GPU . . . . . . . . . . . . . . . . . . . . 54
3.4 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
II Contribution 61
4 Problématique 65
4.1 Portabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66SOMMAIRE 6
4.2 Réutilisation d’algorithmes et de structures . . . . . . . . . . . . . . . . . . . . 66
4.3 Intégration avec l’existant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.4 Extensibilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.5 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5 Adaptation d’un modèle multi-agents sur GPU : Proie-Prédateur 69
5.1 Présentation du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.2 Stratégies de déplacement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.3 Adaptation OpenCL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.4 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6 Méthodes d’adaptation SMA sur GPU 79
6.1 Gestion de la dimension spatiale . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.2 Développement d’un modèle sur GPU . . . . . . . . . . . . . . . . . . . . . . . 80
6.3 Parallélisation de certains traitements . . . . . . . . . . . . . . . . . . . . . . . 85
6.4 Utilisation de traitements parallélisés existants . . . . . . . . . . . . . . . . . . . 88
6.5 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
7 MCMAS, une bibliothèque d’exécution générique 93
7.1 Présentation générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
7.2 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
7.3 Implémentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
7.4 Utilisation de l’interface de haut niveau . . . . . . . . . . . . . . . . . . . . . . 105
7.5 Développement de nouveaux plugins . . . . . . . . . . . . . . . . . . . . . . . . 109
7.6 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
8 Validation sur des modèles existants 113
8.1 Parallélisation de modèles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
8.2 Etudes de performances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
8.3 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
9 Conclusion et perspectives 145
9.1 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
9.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
Bibliographie 156Remerciements
Je tiens à remercier en premier lieu le Professeur Laurent Philippe, mon directeur de thèse, pour sa
sympathie, sa disponibilité, ses idées, ses conseils et ses encouragements durant mes quatre années
de thèse. Je voudrais également le remercier pour sa relecture et sa patience à corriger cette thèse.
Je remercie M. Kamel Mazouzi, Ingénieur de Recherche au Mésocentre de Calculs, pour son
soutien indéfectible et ses conseils précieux tout au long de cette thèse. Son aide et ses remarques
sur MCMAS ont en particulier eu une influence déterminante sur l’architecture et l’interface de la
bibliothèque obtenue.
Je remercie M. Christophe Lang pour son aide au cours et en dehors de nombreuses réunion,
et en particulier pour ses contributions et son expertise en systèmes multi-agents, qui m’ont été
d’une assistance précieuse dans mes travaux et mon mémoire. J’exprime également ma plus profonde
gratitude à M. Nicolas Marilleau pour avoir été un acteur clé du choix de ce sujet et de sa
réalisation, en tant que personne également confrontée aux problématiques d’implémentations de
systèmes multi-agents au quotidien.
M. Christophe Cambier et M. le Professeur Michaël Krajecki ont accepté d’être les rapporteurs de
cette thèse, et je les en remercie, de même que pour leur participation au Jury. Ils ont également
contribué par leurs nombreuses remarques et suggestions à améliorer la qualité de ce mémoire, et
je leur en suis très reconnaissant.
MM. les professeurs Fabrice Bouquet et Stéphane Genaud m’ont fait l’honneur de participer au
Jury de soutenance ; je les en remercie profondément.
Tous mes remerciements vont également au Mésocentre de Calcul de Franche-Comté, qui m’a
recruté en 2009 et sans lequel je n’aurais eu la chance unique d’être dans un cadre me permettant
d’entreprendre et de réaliser cette thèse. Je remercie en particulier Cédric pour l’ambiance
quotidienne dans le bureau et son expertise technique qui a été très utile à plusieurs reprises.
J’adresse également mes remerciements à tous les membres du DISC pour leur accueil au sein du
Département d’Informatique des Systèmes Complexes de l’institut FEMTO-ST. Cela a été pour
moi un honneur de devenir leur collègue après les avoir rencontrés en tant qu’enseignants au cours
de ma formation.
Je tiens à remercier le personnel de l’école doctorale SPIM pour son aide précieuse dans les dé-
marches administratives.
Je tiens enfin à remercier ma famille pour son soutien indéfectible au cours de la rédaction de cette
thèse, tant d’un point de vue humain que rédactionnel, pour quelqu’un comme moi qui apprécie
un peu trop les longues phrases...Introduction
Ces dernières années ont consacré l’émergence du parallélisme dans de nombreuses branches
de l’informatique, tant au niveau matériel que logiciel. Elle s’est manifestée au niveau matériel,
tout d’abord, du fait de la stagnation de l’augmentation des fréquences de fonctionnement des
unités de calcul, avec l’apparition d’architectures dotées de très grands nombres de coeurs. Elle
s’est ensuite manifestée au niveau logiciel avec la démocratisation de plates-formes d’exécution
parallèle telles que MPI ou OpenMP, ou l’apparition de nouvelles solutions comme OpenCL et
CUDA, pour exploiter ce parallélisme matériel croissant.
Cette démarche de parallélisation de l’exécution peut être rapprochée du parallélisme conceptuel
mis en œuvre dans les modèles multi-agents pour faciliter la description de systèmes complexes.
Dans ce type de modèle, l’approche choisie est de décomposer un problème difficile ou impossible
à appréhender de manière globale en sous-problèmes dont la résolution est plus simple, de
manière à obtenir une solution globale. Ces sous-problèmes sont associés à des entités, ou agents,
accomplissant chacun leurs tâches de manière simultanée et faisant évoluer le système dans son ensemble.
Si l’adéquation entre un parallélisme d’exécution logiciel et conceptuel semble naturelle,
la parallélisation reste une démarche difficile, du fait du déroulement séquentiel des opérations et
des dépendances présents dans de très nombreux modèles agents. Les plates-formes d’exécution
évoquées dans le paragraphe précédent sont généralistes, et ne sont pas spécifiquement adaptées
aux problématiques multi-agents. Cette absence de support spécialisé impose au concepteur de
nombreux développements de structures de données ou de traitements propres à son modèle, ou
l’utilisation d’une plate-forme multi-agents parallélisée fournissant déjà ces outils.
L’objectif de cette thèse est de proposer une solution commune pour faciliter l’implémentation
de tels modèles sur une plate-forme d’exécution massivement parallèle telle que le GPU,
dont le nombre important de coeurs permet d’envisager l’exécution simultanée de grands nombres
d’agents. Notre mémoire est pour cela découpé en deux parties : la présentation de notre contexte,
puis celle de nos contributions.
Pour cerner notre contexte, nous présentons dans un premier temps les concepts de simulation
et de modèle. Nous décrivons leur rôle en complément ou en remplacement de l’expérience
pour permettre une meilleure compréhension du monde qui nous entoure. Cette présentation est
également l’occasion d’introduire l’amélioration constante en précision et en taille des simulations
nécessaire à l’avancée des connaissances et l’augmentation correspondante des ressources
requises. Ce besoin motive à l’heure actuelle la recherche de nouvelles solutions d’exécution pour
des simulations même modestes, exploitant efficacement plusieurs ressources matérielles.
Nous décrivons ensuite un type de système particulier, au coeur de notre sujet de thèse : les
systèmes multi-agents. Ces systèmes permettent, en décomposant le modèle à simuler en entités
indépendantes, les agents, d’appréhender des modèles sans loi globale de comportement. La
dynamique de ces systèmes ne dépend plus alors uniquement de règles générales, mais de l’interaction
entre un ou plusieurs algorithmes s’exécutant en parallèle. La simulation de ces systèmes
rencontre, comme la simulation de manière générale, un problème de disponibilité de ressources
en calcul et en mémoire dans le cas de grands espaces ou nombres d’individus, que nous illustrons
sur quelques exemples connus.Introduction 10
L’identification de ce besoin en ressources nous amène à considérer les différentes approches
de parallélisation permettant d’y répondre, avec leurs avantages et leurs contraintes en termes
d’exécution et de programmation. Cette présentation est l’occasion d’introduire les GPU, ou cartes
graphiques, qui offrent une capacité de calcul normalement inaccessible sur le CPU d’une seule
machine. Ces matériels permettent au programme de partager aisément des données dans une
même mémoire globale tout en offrant l’accès à plusieurs centaines de coeurs. Leur utilisation est
cependant associée à de nombreuses contraintes, tant en termes de découpage de l’exécution qu’en
termes d’utilisation et d’accès aux données, pour permettre une exécution efficace.
À la suite de cette présentation des solutions de parallélisation, nous évoquons leur application
dans les simulations multi-agents. Pour cela, nous commençons par présenter les différentes
approches de découpage de l’exécution et des données généralement utilisées dans le cas de modèles
multi-agents. Nous présentons ensuite des plates-formes multi-agents supportant l’exécution
parallèle du modèle comme MadKit, Repast HPC, JADE ou encore FLAME. Nous décrivons ensuite
l’état de l’art des solutions permettant actuellement d’utiliser le GPU pour exécuter tout ou
partie d’un modèle multi-agents. Ces solutions peuvent être classées en deux catégories principales,
l’utilisation directe de modèles de programmation génériques comme CUDA ou OpenCL
ou l’utilisation d’une bibliothèque d’abstraction telle que FLAME-GPU.
Ces deux catégories laissent cependant une ouverture pour une approche intermédiaire qui faciliterait
la réalisation de simulations ou de traitements multi-agents sur GPU sans imposer l’utilisation
d’une plate-forme de développement multi-agents particulière, contrairement à FLAME-GPU
avec le formalisme FLAME. La définition de cette problématique nous sert de transition pour la
présentation de nos contributions, en seconde partie, et en particulier de MCMAS 1
, une bibliothèque
d’exécution multi-agents sur GPU développée pour répondre à ces besoins.
Notre première contribution est la présentation de l’adaptation d’un modèle multi-agents connu,
le système proie-prédateur, sur GPU, pour mettre en évidence sur un cas concret les changements
en termes de structures de données et de découpage de l’exécution nécessaires au portage de ce
type de simulation.
Cet exemple concret nous sert ensuite de fil rouge pour définir trois grandes approches de parallélisation
du modèle sur GPU : une adaptation complète de la simulation, une délégation manuelle
de certains traitements, ou la réutilisation de fonctions de haut niveau existantes. Ces approches
nous permettent de définir les interfaces attendues par ces scénarios. L’adaptation complète ou partielle
du modèle nécessite en effet une connaissance ainsi qu’un contrôle fin d’un modèle d’exécution
tel que OpenCL ou CUDA. Au contraire, la parallélisation de certains traitements uniquement
encourage une interface de programmation la plus simple possible pour le concepteur, de manière
à faciliter son intégration et son utilisation dans de nombreux modèles existants sans connaissance
particulière des détails d’implémentation.
Notre bibliothèque MCMAS vient répondre à ces types d’utilisations au moyen de deux interfaces
de programmation, une couche de bas niveau MCM 2
et un ensemble de plugins utilisables
sans connaissances GPU. Nous présentons tout d’abord l’architecture qui résulte de ces deux perspectives
d’utilisation, ainsi que la manière dont certaines de ces fonctions sont assurées, avant de
décrire l’utilisation de l’interface haut niveau de notre bibliothèque et l’ajout de fonctionnalités au
moyen de nouveaux plugins.
Nous étudions ensuite l’utilisation de cette bibliothèque sur trois systèmes multi-agents distincts
: le modèle proie-prédateur, notre fil rouge, le modèle MIOR et le modèle Collemboles. Ces
1. Many-Core Multi-Agent Systems
2. Many-Core ManagerIntroduction 11
applications sont l’occasion d’effectuer une étude des performances obtenues sur plusieurs types
et générations de cartes graphiques par chaque modèle et des facteurs contribuant à une exécution
efficace sur GPU.
Nous présentons également une synthèse de l’expérience acquise en proposant quelques
conseils pour implémenter un modèle sur cette architecture. Ces observations, tant en termes de
ressources ou de stockage de données qu’en termes de précision des traitements, visent à faciliter
une utilisation efficace du grand nombre de supports d’exécution gérés par MCMAS.
Nous dressons enfin un bilan du travail et des réflexions présentées dans notre mémoire, avant
d’évoquer quelques pistes possibles d’amélioration de notre solution. L’objectif de ces pistes est de
favoriser l’extension et l’utilisation de notre bibliothèque, en proposant des couches d’adaptations
dans des plates-formes existantes, la gestion de nouvelles structures de données, ou encore le
support transparent d’une plus grande variété de configurations d’exécution.I
Contexte15
Dans cette première partie, nous présentons tout d’abord le contexte de nos travaux, de manière
à définir la portée de notre sujet et à introduire la problématique à laquelle nous avons souhaité
répondre : la parallélisation efficace de systèmes multi-agents sur architecture à grand nombre de
cœurs.
Nous commençons par introduire le domaine de la simulation et des systèmes multi-agents et
ce qu’ils représentent. Nous abordons ensuite la problématique du besoin en ressources rencontrées
par ces modèles, lorsque nous cherchons à améliorer la précision et/ou la taille du modèle,
et en quoi la parallélisation est une solution à ce besoin. Nous évoquons alors en quoi les moyens
matériels associés à cette parallélisation peuvent être coûteux, et présentons les GPU, une architecture
matérielle permettant de disposer de plusieurs centaines de coeurs d’exécution sur une
machine locale. Après avoir présenté cette architecture, nous dressons un état de l’art des développements
et portages de systèmes multi-agents déjà réalisés sur GPU, ainsi que la présentation
d’une plate-forme multi-agents générique d’exécution sur GPU, FLAME-GPU.1
Les systemes multi ` -agents
Avant de présenter les systèmes multi-agents et l’utilisation que nous en feront, il est nécessaire
de présenter le rôle d’une simulation, mais également de définir les concepts de modèle et de
modélisation qui seront utilisés très largement dans la suite de notre propos.
1.1 Science et simulation
Dans cette section, nous commençons par présenter le contexte d’apparition de la simulation
numérique, puis son principe. Nous définissons ensuite les termes de modèle et simulation avant
d’étudier plusieurs classifications possibles des approches de modélisation permettant de passer
d’un modèle à une simulation.
1.1.1 Principe de la simulation
La résolution de problèmes est l’un des moteurs de la recherche et de l’innovation technique.
Si cette résolution a longtemps été effectuée manuellement, elle est de plus en plus confiée aux
ordinateurs à même de réaliser d’importants volumes d’opérations. Avant de pouvoir résoudre un
problème, il est cependant essentiel de disposer d’outils permettant de le décrire puis de le mesurer.
C’est le rôle de l’expérience et de la simulation.
Une simulation est par nature la reproduction d’un phénomène en dehors du contexte dans lequel
il se déroule habituellement. Cette simulation peut être de nature physique, sous la forme
d’une expérience, ou dématérialisée sur un support informatique, auquel cas on parlera de simulation
numérique. L’objectif est généralement de pouvoir étudier le phénomène en le reproduisant
et en l’observant.
Un premier moyen d’observer et de décrire un phénomène est la mise en place d’un protocole
expérimental. Ce protocole décrit un ensemble de conditions fixées ou variables où sera observé
l’évolution de certaines métriques. Son objectif est de permettre un contrôle des résultats en assurant
que l’observation soit ciblée et reproductible.
La réalisation ou la reproduction d’un phénomène dans sa globalité n’est cependant pas toujours
financièrement ou pratiquement réalisable. Il est alors nécessaire de recourir à une représentation
alternative généralement simplifiée du réel, le modèle. Dans le cas d’études topographiques
sur l’érosion, il n’est ainsi pas possible de mettre sous serre une vaste étendue de territoire de
manière à assurer des conditions contrôlées et reproductibles. De la même manière, le fait de demander
à plusieurs milliers d’individus de reproduire à loisir un comportement pré-établi implique
une coordination stricte faussant les résultats attendus.CHAPITRE 1. LES SYSTÈMES MULTI-AGENTS 18
L’objectif d’un modèle est de proposer une représentation de la réalité, de manière à en faciliter
la compréhension. Sa conception se base sur des lois déduites d’un corpus d’observations et
d’expériences.
Ce modèle peut ensuite être associé à des scénarios d’exécution reproduisant le phénomène
observé correspondants à des conditions particulières pour en faire une simulation informatique.
Après cette courte introduction, nous allons maintenant définir formellement ces concepts.
1.1.2 Définitions : modèle, simulation
Le modèle est une représentation d’un phénomène ou d’un système permettant de le rendre
plus aisément manipulable, comme souligné par cette définition proposée par Peter Haggett en
1973 [Hag73] :
Définition (modèle) : les modèles sont des représentations schématiques de la réalité, élaborés
en vue de la comprendre et de la faire comprendre.
Cette simplification implique une approximation du système simulé : un modèle est donc une
vision simplifiée de la réalité.
Wilson [Wil74] propose de son côté une définition de la simulation indépendante de toute
notion de modèle :
Définition (simulation) : par nature, une simulation est quelque chose pouvant être lancé, modifié,
et produisant des résultats (exemple du crash-test). Peut être de nature physique (expérience
dans un environnement contrôlé) ou dématérialisée (informatique).
Cette définition met en avant l’indépendance entre les concepts de modèle et de simulation :
une simulation est avant tout un moyen de produire des résultats, que ce soit à de manière physique
ou informatique.
Le passage d’un système concret à un modèle de simulation correspond à un processus nommé
modélisation.
1.1.3 Un continuum d’approches de modélisation
Notre contexte de travail est celui des systèmes multi-agents. Afin de situer ce contexte, nous
rappelons ici les caractéristiques des principales approches de modélisation, qu’elles reposent
sur l’utilisation de lois mathématiques de type équations différentielles ou statistiques ou sur la
conception d’algorithmes représentant le comportement d’entités individuelles.
Nous proposons ici deux axes possibles de caractérisation de ces approches de modélisation.
Ces caractérisations ne doivent pas être considérées comme hermétiques, car certaines démarches
reprennent des éléments de chacune de ces approches de modélisation pour décrire des aspects
différents d’un même modèle.CHAPITRE 1. LES SYSTÈMES MULTI-AGENTS 19
Modélisation ascendante ou modélisation descendante
Un premier axe de classification des approches de modélisation est la direction, descendante
ou ascendante, dans laquelle cette démarche est appliquée au système simulé [CKQ+07, Jac98].
Dans une approche descendante (ou top-down), un comportement global est appliqué à tous les
éléments particuliers du modèle. Il est par exemple possible, en observant l’évolution de la quantité
d’oxygène présente dans l’environnement de bactéries aérobies, d’en déduire une loi décrivant la
dynamique générale du système. Cette loi peut alors être utilisée pour reproduire cette évolution de
manière informatique sous forme de modèle, sans avoir à réaliser à nouveau l’expérience concrète.
En appliquant les mêmes lois à tout le système, cette modélisation rend cependant difficile la
description de comportements émergents des entités simulées entraînant une évolution non linéaire
du modèle du fait de conditions particulières.
Dans le cas de ces comportements émergents en effet, seul le comportement de chaque élément
est connu : il devient nécessaire d’adopter une approche ascendante (ou bottom-up). Le comportement
du modèle dans son ensemble n’est alors plus globalement décrit par des lois globales mais
par une combinaison d’algorithmes représentant les comportements locaux présents dans le système.
Dans de nombreux systèmes biologiques, l’équilibre du métabolisme est basé sur l’interaction
de processus antagonistes tels que la constitution de réserves de nutriments et la reproduction.
L’évolution du système est alors directement déterminée par les conditions environnementales et
l’impact résultant de chacun de ces mécanismes, ce qui rend une prévision a priori de l’évolution
globale du système moins accessible. L’approche ascendance permet alors une modélisation plus
adaptée, basée sur la description des comportements de chaque sous-élément du système.
Le choix de l’une ou l’autre de ces approches de modélisation est fonction du niveau de connaissance
initial du système et du type de résultats souhaités, locaux ou portant sur l’évolution globale
du modèle.
Simulation continue et simulation à événements discrets
Une autre distinction est effectuée dans la littérature [BPL+06, Fuj03] entre les simulations
continues et les simulations à événements discrets (DES).
Une simulation continue permet de représenter des phénomènes par nature ininterrompus dits
continus. Dans le cas d’une diffusion thermique dans un solide, il est ainsi possible de définir
l’état du système à n’importe quel instant au moyen de fonctions mathématiques, généralement
des équations différentielles. Dans ce cas, le choix de l’échelle de temps retenue est arbitraire et
dépend uniquement de la durée et de la fréquence de l’observation demandée.
Une simulation à événements discrets permet au contraire de décrire des systèmes dont l’évolution
dépend d’événements particuliers : en l’absence de ces éléments déclencheurs, la simulation
demeure statique. Un exemple de système à événements discret est une chaîne de production, inactive
en l’absence de tâches à traiter. Ce type de simulation peut être décrit sous la forme de réseaux
de Petri conçus pour la description de systèmes basés sur des variables discrètes, ou encore sous
forme de systèmes multi-agents.
Certaines simulations peuvent présenter à la fois des comportements discrets et continus. L’évolution
de la position d’une balle en chute libre obéit ainsi à une loi continue, mais le sens du mouvement
de cette balle est modifié de manière discrète par tout contact avec un autre objet, qu’il
s’agisse du sol ou d’un autre obstacle. Il est dans ce cas possible de recourir à des simulations
continues à événements discrets, ou simulations hybrides, associant ces deux fonctionnements.CHAPITRE 1. LES SYSTÈMES MULTI-AGENTS 20
1.2 Les systèmes multi-agents
Après avoir présenté la simulation de manière générale, nous nous intéressons plus spécifi-
quement aux systèmes et aux simulations multi-agents. La simulation à base d’agents centre le
modèle sur des entités indépendantes nommées agents. Des comportements et des données sont
associés à chacun de ces agents, de manière à obtenir des informations sur le modèle global : la
modélisation à base d’agents est donc une modélisation de type ascendante permettant de simuler
un environnement à partir de ses composants élémentaires.
Les modèles basés sur ce paradigme de conception sont dits modèles multi-agents. Les simulations
réalisées à partir de ce type de modèles sont alors appelées simulations multi-agents.
Ce type particulier de simulations peut être décomposé en deux sous-classes [Fuj03] de simulations
à événément discrets :
— Les simulations discrètes par pas de temps (time-driven). Dans ce cas l’évolution du système
est guidée par le temps découpé en pas réguliers parcourus par la simulation.
— Les simulations discrètes par événément (event-driven). Dans ce cas l’évolution du système
est guidée par une chaîne chronologique d’événements.
1.2.1 Définition et concepts
Il est important de définir le concept d’agent pour comprendre celui de système multi-agents.
Pour cela, nous nous référons à la définition proposée par Jacques Ferber dans [Fer95] :
On appelle agent une entité physique ou virtuelle
— qui est capable d’agir dans un environnement,
— qui peut communiquer directement avec d’autres agents,
— qui est mue par un ensemble de tendances (sous la forme d’objectifs individuels ou d’une
fonction de satisfaction, voire de survie, qu’elle cherche à optimiser),
— qui possède des ressources propres, et qui est capable de percevoir (mais de manière limitée)
son environnement,
— qui ne dispose que d’une représentation partielle de cet environnement (et éventuellement
aucune),
— qui possède des compétences et offre des services,
— qui peut éventuellement se reproduire,
— dont le comportement tend à satisfaire ses objectifs, en tenant compte des ressources et des
compétences dont elle dispose, et en fonction de sa perception, de ses représentations et
des communications qu’elle reçoit.
Cette définition met en avant les capacités d’action sur l’environnement et de communication
associées à ces agents. Elle souligne également la vision partielle de l’environnement associée
à chaque agent, dont l’évolution est déterminée par cette perception partielle plutôt que par une
connaissance globale du modèle.
Cette notion d’agent n’a de sens que comme partie d’un système plus large, le système multiagents,
sans lequel ces possibilités de communication sont inutiles. Ferber propose également,
dans le même ouvrage, une définition de ces systèmes :
On appelle système multi-agents (ou SMA) un système composé des éléments suivants :
— Un environnement E, c’est-à-dire un espace disposant généralement d’une métrique.
— Un ensemble d’objets O. Ces objets sont situés, c’est-à-dire que, pour tout objet, il estCHAPITRE 1. LES SYSTÈMES MULTI-AGENTS 21
possible, à un moment donné, d’associer une position dans E. Ces objets sont passifs,
c’est-à-dire qu’ils peuvent être perçus, créés, détruits et modifiés par les agents.
— Un ensemble A d’agents, qui sont des objets particuliers (A ∈ O), lesquels représentent les
entités actives du système.
— Un ensemble de relations R qui unissent des objets (et donc des agents) entre eux.
— Un ensemble d’opérations Op permettant aux agents de A de percevoir, produire, consommer,
transformer et manipuler des objets de O.
— Des opérateurs chargés de représenter l’application de ces opérations et la réaction du
monde à cette tentative de modification, que l’on appellera les lois de l’univers.
L’implémentation d’un système multi-agents débute par la conception ou le choix d’un modèle
multi-agents basé sur des agents, un environnement et les interactions entre ces entités [DSJD02].
Ces interactions et cette organisation définissent la fonction, le type et les scénarios de communication
possibles dans le système simulé [JOF03]. En fonction du modèle, ces communications
peuvent être directes ou indirectes, par le biais des mises à jour de l’environnement perçues ensuite
par d’autres individus.
Les systèmes multi-agents représentent un continuum de simulation très large, s’étendant
d’exemples très simples à des problèmes proches de l’intelligence artificielle. Cette diversité des
problématiques est reflétée par le vaste vocabulaire employé par cette communauté scientifique,
mêlant des concepts tels que celui d’agent à des notions moins directes d’objectif, de croyance ou
de perception.
Un aspect présent dans de nombreux systèmes multi-agents est celui d’environnement. L’environnement
décrit l’espace dans lequel évoluent les agents, sa structure (composition, agencement)
et sa dynamique. Il peut être considéré comme un agent spécifique ou comme un simple ensemble
de structures de données partagées. Il est typiquement chargé du stockage des propriétés globales
au modèle, mais peut être associé à d’autres fonctions :
— Il peut remplir des fonctions à l’échelle du modèle telles que la gestion du temps ou la mise
à jour des paramètres globaux à chaque itération.
— Il peut servir d’espace de stockage de tout ou partie des informations des agents.
— Il peut également remplir le rôle de médium de communication.
Des normes telles que FIPA [fip] ont été proposées pour standardiser l’implémentation de ce
type de simulations. Cette norme, publiée en 1997, établit de nombreuses règles liées aux modes
de communications et d’interactions entre agents par le biais d’échanges de messages. Elle est
basée autour de trois rôles particuliers :
— Le système de gestion d’agents (Agent Management System, ou AMS), responsable de la
supervision de l’accès et de l’usage de la plate-forme. Il assure en particulier l’authentifi-
cation des agents présents et le contrôle des nouveaux enregistrements.
— Le canal de communications entre agents (Agent Communication Channel, ou ACC) fournit
l’infrastructure de communication entre agents. Cette interface doit être compatible
avec le protocole IIOP, pour garantir l’interopérabilité entre plates-formes multi-agents.
— L’assistant d’annuaire (Directory Facilitator, ou DF) propose un service de recherche aux
agents de la plate-forme pour découvrir facilement les autres agents présents dans le modèle.CHAPITRE
1. LES SYSTÈMES MULTI-AGENTS 22
1.2.2 Agents réactifs, agents cognitifs
Il est courant d’effectuer dans les systèmes multi-agents une distinction entre agent cognitif et
réactif [WD92, CDJM01] en fonction de leurs capacités d’action et de raisonnement.
Un agent cognitif dispose d’une mémoire de son passé et de son environnement lui permettant
d’effectuer des déductions sur celui-ci et d’en prédire de futures évolutions. Le comportement de
l’agent est déterminé par des intentions, correspondant à des objectifs à atteindre, et orientant les
choix effectués entre plusieurs actions possibles. Ce type d’agent est utilisé pour représenter des
individus dotés d’une intelligence propre. Celle-ci est alors souvent décrite sous la forme d’un
moteur d’inférence intégré dans l’agent. Un exemple d’agent cognitif est ainsi le modèle proposé
par J. Doran [DP93] pour décrire les évolutions sociales des sociétés du Paléolithique dans le
sud-ouest de la France en fonction de la répartition des ressources. Cet article met en évidence
l’importance des décisions prises par des individus particuliers sur la base d’une vision à moyen et
long terme, plutôt qu’en simple réaction à une situation immédiate, pour expliquer les évolutions
de peuplement observées en archéologie.
Un agent réactif ne peut au contraire que réagir à l’état instantané du système. Son comportement
peut être caractérisé en se basant sur la psychologie comportementale comme purement
S-R (Stimulus-Reaction), où S représente un état particulier de l’environnement et R une série
d’actions élémentaires entreprises par l’agent en réaction à cet état. De tels comportements sont
rencontrés aussi bien pour des animaux [McF87] que pour des créatures artificielles [Mae90].
La séparation entre agents réactifs et cognitifs n’est pas très nette, et certains agents mélangent
donc des comportements réactifs et cognitifs. Cette vision à plus ou moins long terme de l’environnement
a un impact important sur la complexité de chaque agent et donc sur celle de son
implémentation.
1.2.3 Implémentation de modèles agents
Les systèmes multi-agents les plus simples peuvent être implémentés sous forme d’automates
cellulaires. Ces automates sont également souvent utilisés pour représenter l’environnement de
systèmes multi-agents plus complexes [SFS10].
Comme toute simulation informatique, l’exécution de simulations multi-agents requiert des
ressources tant en termes de mémoire, pour stocker les données du système, qu’en temps de calcul
pour le faire évoluer. Dans le cas des simulations multi-agents, ces besoins dépendent de deux
facteurs principaux :
— Des ressources requises par l’environnement. S’il s’agit d’un environnement stockant des
données pour chaque unité de l’espace de simulation, les ressources mémoires requises
pour représenter cet espace seront alors proportionnelles à sa taille. Si un traitement est
associé sur chacune de ces unités, le temps d’exécution associé aux processus de l’environnement
va également en augmentant.
— Des ressources requises par les agents. Une augmentation du nombre d’agents implique
une augmentation du nombre d’attributs à représenter, ainsi que du nombre d’individus à
faire évoluer.
D’autres parties de la simulation, comme la récupération ou le stockage de résultats, contribuent
également à ces besoins en ressource. Leur impact n’est cependant pas nécessairement lié à la taille
du système simulé. Dans la suite de cette section, nous allons illustrer dans le cadre de quelque
simulations multi-agents connues l’impact des agents ou de l’environnement sur la consommationCHAPITRE 1. LES SYSTÈMES MULTI-AGENTS 23
en ressources en fonction de la taille du système simulé.
1.2.4 Exemples de modèles
Jeu de la vie
L’exemple le plus connu de modèle multi-agents simple implémenté sous la forme d’automate
cellulaire est probablement le Jeu de la Vie (Game of Life), imaginé en 1970 par John Horton
Conway [Gar70]. Ce modèle est constitué d’une simple grille dont chaque cellule est soit "vivante"
soit "morte". L’évolution de l’état de chaque cellule à la prochaine itération est déterminé par le
nombre de ses voisines vivantes à l’itération précédente :
— Une cellule morte possédant exactement trois voisines vivantes devient vivante.
— Une cellule vivante possédant deux ou trois voisines vivantes le reste.
— Une cellule vivante meurt dans le reste des cas.
Ce système simple est souvent employé comme exemple d’introduction à l’utilisation de platesformes
agent [Mic02, net], pour en présenter les concepts et la syntaxe fondamentale dans le cadre
d’un modèle connu.
La seule structure de données du système dans ce cas est l’environnement. Comme cet environnement
décrit toutes les cellules possibles, la mémoire requise est directement fonction de sa
taille : si celle-ci double, la consommation en mémoire sera alors multipliée par quatre (espace en
deux dimensions).
Le temps d’exécution est également directement lié à la taille de cet environnement grille, le
même traitement devant systématiquement être appliqué à chaque cellule. Comme chaque traitement
ne s’applique qu’à la cellule locale, la quantité totale de traitements à exécuter à chaque
itération est proportionnelle à la taille de l’environnement. Ce modèle très simple peut donc devenir
coûteux à grande échelle et, de ce fait, nécessiter des ressources de calculs parallèle pour
explorer de grandes tailles de modèles [MCM12].
Abeilles
Un autre modèle largement représenté dans les différentes plates-formes multi-agents et la littérature
est le mouvement d’essaims d’abeilles. Dans cet essaim, chaque agent est associé à une
position dans un espace de simulation en deux ou trois dimensions, l’environnement. La position
de chaque individu est ensuite mise à jour à chaque itération de manière à pouvoir observer le
comportement global de l’essaim.
Ce modèle met en jeu deux types d’agents :
— La reine : cet agent particulier se déplace aléatoirement dans l’espace.
— L’abeille ouvrière : cet agent tend à se rapprocher de la reine de l’essaim en ajustant sa
direction de déplacement. Si plusieurs reines sont en présence, l’individu sélectionne l’une
de ces reines, ce qui peut induire des changements d’essaim.
Ce modèle est une excellente illustration de l’apparition d’un comportement émergent complexe,
la création, la fusion et l’évolution de la forme d’un ou plusieurs essaims, à partir d’algorithmes
simples. Le comportement observé varie en fonction des paramètres de la simulation et en
particulier de la vitesse de déplacement ou du champ de vision de chaque individu.
Dans ce modèle, contrairement au jeu de la vie, l’environnement n’est plus une véritable struc-CHAPITRE 1. LES SYSTÈMES MULTI-AGENTS 24
ture de données séparées, mais un espace dans lequel une position est associée à chaque agent. Il
n’est pas non plus associé à ses propres traitements.
Les besoins en mémoire et en calcul sont donc cette fois directement dépendants du nombre
d’agents présents dans le système. Les besoins en mémoire évoluent de manière linéaire avec le
nombre total d’agents présents dans le système, et donc la quantité d’attributs à stocker. L’évolution
des besoins en calcul est cette fois encore linéaire, mais proportionnelle au nombre d’abeilles
ouvrières présentes dans le modèle, plutôt qu’à la taille de l’environnement.
Fourmis
Un autre modèle multi-agents connu est celui de la colonie de fourmis, représentant le déplacement
des individus d’une fourmilière à la recherche de nourriture. Il est possible d’identifier trois
types d’agents dans ce système :
— La fourmilière. Cet agent fixe représente le point de départ et de retour des fourmis. Il est
souvent responsable du stockage de la nourriture de manière à permettre la présence de
plusieurs colonies dans une même simulation.
— Le dépôt de nourriture. Il est représenté soit sous la forme d’un agent fixe dans le cas d’un
espace de simulation continu, soit sous la forme d’une donnée associée à chaque unité de
l’environnement.
— La fourmi, seul agent mobile capable de se déplacer dans l’environnement. Sa fonction est
de localiser et de ramener de la nourriture à sa fourmilière.
L’évolution globale de la simulation est déterminée par le mouvement des fourmis et la répartition
géographique des fourmilières et des ressources dans l’environnement. La vitesse de collecte
de nourriture peut alors être utilisée comme métrique d’évaluation de différentes stratégies de dé-
placement appliquées aux fourmis. Dans les cas les plus simples, ces déplacements sont effectués
de manière aléatoire, mais un comportement plus réaliste est le dépôt et la prise en compte de
phéromones dans l’environnement. Ces marqueurs chimiques encouragent l’individu à privilégier
certaines directions de déplacement, et permettent l’émergence puis l’optimisation de chemins
particuliers pour la récolte des ressources sans intelligence centrale directrice. Dans ce cas, l’environnement
joue à la fois le rôle de mémoire et de médium d’interaction indirect entre individus.
Ce troisième exemple représente un cas où l’environnement et les agents correspondent chacun
à des structures de données et des traitements distincts, et contribuent donc tous deux aux besoins
en termes de mémoire et de calcul. L’évolution des ressources en fonction de la taille du modèle
et du nombre d’agents reprend à la fois des aspects du jeu de la vie et des abeilles :
— La consommation en mémoire est proportionnelle à la taille de l’environnement et du
nombre d’agents : si la taille du modèle est multipliée par deux, le nombre de cellules devant
être stockées est multiplié par quatre, si une grille discrète de phéronomes est utilisée.
De même, si le nombre d’agents fourmis est multiplié par deux, la mémoire est également
multipliée par deux, pour stocker les données de ces individus supplémentaires.
— La consommation en temps de calcul est proportionnelle de la même manière à la taille
de l’environnement, du fait de la nécessité de calculer la diffusion des phéromones dans la
grille à chaque itération. Elle est également proportionnelle au nombre d’individus dont le
déplacement doit être géré.
Il est important de noter que ces constatations ne sont valables que si l’environnement utilisé est
une grille. Dans le cas où les phéromones seraient considérées comme des agents fixes, l’évolution
des besoins en ressources se rapproche à nouveau de celle du modèle des abeilles.CHAPITRE 1. LES SYSTÈMES MULTI-AGENTS 25
1.2.5 Représentation de l’espace de simulation
Si les modèles évoqués jusqu’à présent stockent les informations de positionnement soit sous
forme de coordonnées à l’intérieur de chaque agent, soit sous forme de structures de grille en
deux ou trois dimensions, de nombreuses autres solutions de représentation sont possibles pour
l’environnement du système et l’emplacement des agents.
Galland et all [GGDK09] proposent ainsi pour le positionnement en milieu urbain deux approches
complémentaires :
— L’utilisation d’une carte de hauteur (heighmap), où chaque pixel indique l’altitude du point
de l’espace simulé correspondant. L’information est alors encore une fois représentée sous
forme de grille, ici une image.
— L’utilisation d’un modèle de positionnement des objets.
L’objectif de cette seconde représentation est de permettre un accès rapide à la position et à
l’orientation des objets présents dans le modèle. L’environnement est découpé en zones décrites
par un graphe, pour un environnement en une dimension, ou par un arbre spatial. Chacun des
objets du système est alors associé au noeud correspondant aux zones où il est situé, de manière
à rapidement pouvoir déterminer les objets présents ou non dans un espace donné. Il est possible
à un objet d’appartenir à plusieurs zones, s’il se trouve sur une frontière : dans ce cas, l’objet est
copié et stocké à plusieurs endroits de la structure.
Si dans ce cas la représentation sous forme de graphe est utilisée en complément d’une grille,
de nombreux environnements multi-agents basés sur des axes de circulation discrets peuvent être
entièrement représentés sous forme de graphe. Ces structures se retrouvent au sein de nombreux
modèles de recherche de chemin dans la littérature agent, en particulier dans le cas de simulations
de trafic routier [SN09].
1.2.6 Synthèse
L’étude des modèles du jeu de la vie, des abeilles ou des fourmis permet de mettre en évidence
que l’exécution d’une simulation multi-agents peut rapidement devenir coûteuse, particulièrement
dans le cas où l’environnement est représenté sous la forme d’une structure de données
de type grille ou si le temps d’exécution de chaque agent est proportionnel à la quantité d’individus
présents dans le modèle. Plusieurs scénarios sont à même d’imposer des simulations de taille
importante, en espace de simulation ou en nombre d’agents.
Un premier scénario est la volonté de simuler des systèmes mettant eux-même en jeu des espaces
géographiques ou des populations importantes. C’est par exemple le cas de la simulation
d’une ville : une simulation doit alors idéalement être capable de traiter tout son espace et ses
habitants dans une même exécution, pour garantir une bonne représentation du système. Cette
problématique est au coeur de projets comme MIRO [BBMC+10], qui vise à étudier la mobilité
urbaine.
Un deuxième scénario est celui des systèmes multi-échelles, où des simulations de portées très
différentes doivent être couplées. Un exemple de tel système est Sworm [BMD+09], dédié à la
modélisation de l’évolution des sols. Dans ce modèle, les principaux intervenants sont les vers
de terre, à même de consommer et diffuser de la matière organique dans le sol. Cette matière
organique fait également l’objet d’une évolution d’origine microbienne. Dans ce cas, la simulation
même d’un petit volume de sol implique la réalisation de très grands nombres de simulations
microscopiques MIOR.CHAPITRE 1. LES SYSTÈMES MULTI-AGENTS 26
Un dernier scénario enfin est de vouloir garantir l’apparition des comportements observés en
pratique au sein de la simulation. Une simulation de trafic proposée par Strippgen [SN09] met
en avant, même dans le cas où le système peut être décomposé à loisir, l’importance de taille ou
de populations minimales pour voir émerger certains comportements. Dans ce cas, utiliser une
simulation de trop petite taille, même quand c’est possible, est susceptible de fausser les résultats
observés par rapport à une situation de taille plus importante.
Cette utilisation d’environnements de grande taille ou de populations agents importantes est
susceptible d’amener deux types de problèmes :
— Des besoins en mémoire ne pouvant plus être assurés par une seule machine.
— Des temps d’exécution très longs. Ces temps sont ainsi de l’ordre de la semaine dans le cas
du modèle Sworm.
Le recours à la parallélisation de l’exécution du système est une solution possible à ces deux
limitations, comme nous l’abordons dans la suite.2
Modeles d ` ’execution et de programmation ´
paralleles `
La parallélisation est une solution pour accélérer l’exécution d’un programme ou pour permettre
le traitement de données de taille plus importante en les répartissant sur plusieurs machines.
Il est possible de distinguer deux grands modèles d’exécution en parallèle : la parallélisation en
mémoire partagée et la parallélisation en mémoire distribuée. Dans ce chapitre, nous présentons
ces deux modèles de parallélisation ainsi que des exemples d’outils en facilitant l’exploitation.
Nous illustrons également leur impact sur le découpage des données et de l’exécution d’un programme.
Dans les sections suivantes, nous présentons tout d’abord en quoi cette parallélisation vient en
réponse aux besoins en ressources de calcul. Nous nous focalisons ensuite sur la parallélisation
en mémoire partagée, et son exploitation par le biais des interfaces de programmation OpenMP
et OpenACC. Nous présentons ensuite la parallélisation en mémoire distribuée et l’interface de
programmation MPI, avant d’évoquer la parallélisation hybride combinant ces deux approches.
Nous nous intéressons enfin à une nouvelle architecture d’exécution, le GPU, et voyons son modèle
de programmation et ses apports par rapports aux architectures d’exécution traditionnelles
en mémoire partagée ou en mémoire distribuée. Ces présentations nous permettent de définir les
concepts utilisés pour la parallélisation des systèmes multi-agents.
2.1 Une réponse à des besoins en calcul
Une constante universelle de la recherche scientifique est la nécessité permanente d’avancer
plus loin dans la connaissance. Ce progrès peut être obtenu en ouvrant de nouvelles voies de recherches
ou en améliorant les connaissances existantes, au moyen d’expérimentations plus précises
ou de taille plus importante.
A l’origine, ce processus a été purement mécanique, motivant l’invention de capteurs ou de
méthodes de mesure du temps toujous plus fiables. Son application aux simulations informatiques
se traduit désormais en besoins croissants en ressources mémoires et d’exécution.
La progression en puissance de calcul du matériel a longtemps été assurée par l’accroissement
des fréquences de fonctionnement des processeurs. Une augmentation en fréquence a en effet
pour avantage de permettre à un programme limité par la vitesse du processeur de s’exécuter plus
rapidement sans la moindre adaptation, à performance constante par cycle d’horloge.
Cette augmentation de la fréquence a toutefois été freinée par l’apparition de multiple obstacles
physiques, notamment en termes de miniaturisation et de densité thermique. L’accroissement de
la puissance de calcul implique à présent une multiplication du nombre de coeurs d’exécutionCHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 28
soit de manière locale (processeur multi-coeurs), soit de manière distante en interconnectant de
nombreuses machines (clusters de calculs). La parallélisation des programmes est alors un moyen
de tirer parti de cette nouvelle répartition des ressources d’exécution.
La démarche de parallélisation est également motivée par l’accroissement des besoins en mé-
moire des programmes. Si le passage de nombreuses architectures au 64 bits permet maintenant
l’adressage de très grands espaces de travail, les quantités de mémoire physiquement utilisables
sur une même machine restent limitées. Dans ce cas la parallélisation permet d’additionner les
capacités mémoires fournies par plusieurs machines.
Ce besoin croissant en puissance de calcul est illustré par l’augmentation d’année en année
des capacités offertes par les plus puissants clusters mondiaux du TOP500 1
. Les premières places
de ce classement étaient ainsi occupées par des solutions de l’ordre de la centaine de TeraFlops
(1000 milliards, ou 1012 opérations flottantes par seconde) en juin 2005, puis du PetaFlops (1015
opérations) en juin 2009. En novembre 2013, les premières machines du classement proposent
maintenant des puissances de plusieurs dizaines de PetaFlops.
Si cette parallélisation est un moyen d’accéder à davantage de ressources d’exécution, les gains
en termes de temps obtenus dépendent directement de la fraction de temps d’exécution du programme
à même d’être parallélisée par rapport à celle devant demeurer séquentielle. La loi d’Amdahl
[Amd67], énoncée en 1967, rappelle que le gain de performance pouvant être attendu de la
parallélisation d’une partie d’un programme est directement proportionnel à la fraction du temps
d’exécution correspondant.
Ta = (1 − s)T +
sT
Ac
S =
T
Ta
=
1
(1 − s) +
s
Ac
Où sont représentés :
— T le temps d’exécution du programme avant parallélisation.
— Ta le temps d’exécution du programme après parallélisation.
— s la fraction du temps T concernée par l’amélioration.
— Ac le facteur d’accélération obtenue sur la portion concernée.
— S le facteur d’accélération globale.
En pratique, l’application de cette loi se manifeste par une stagnation des performances au-delà
d’un certain nombre de coeurs. Celle-ci survient d’autant plus rapidement que la fraction de temps
parallélisée diminue, tel qu’illustré par la Figure 2.1.
2.2 Parallélisation en mémoire partagée
2.2.1 Modèle d’exécution
La parallélisation en mémoire partagée est un modèle d’exécution permettant de tirer parti de
ressources de calcul parallèles sur une même machine en découpant l’exécution du programme en
plusieurs fils d’exécutions disposant d’un accès à un espace mémoire commun (Figure 2.2).
1. http ://www.top500.org/CHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 29
20.00
18.00
16.00
14.00
12.00
10.00
8.00
6.00
4.00
2.00
0.00
Accélération
1
2
4
8
16
32
64
128
256
512
1024
2048
4096
8192
16384
32768
65536
Nombre d'unités d'exécution
Loi d'Amdahl
Portion parallélisable
50%
75%
90%
95%
Figure 2.1 – Exemples d’applications de la loi d’Amdhal
Une première manière de paralléliser l’exécution du programme est de faire appel à des processus
légers, ou threads. Ces processus sont dit légers car ils partagent l’ensemble de leur espace
mémoire, ce qui réduit les coûts de création ou de destruction associés à ces threads par rapport à
des processus distincts, dits lourds.
Une autre manière de paralléliser une exécution est de partager des portions de mémoires entre
processus indépendants, soit en recopiant les données d’un processus parent au moment de la création
d’une processus fils (fork), soit en utilisant les primitives de mémoire partagée proposées par
le système. Cette technique est souvent employée pour des services où un unique processus parent
demeure en attente de traitements à confier à un ou plusieurs processus fils. Ce fonctionnement est
qualifié de maître-esclave.
La parallélisation en mémoire partagée n’implique par nécessairement la création de plusieurs
processus et peut également être réalisée au niveau de l’instruction. Dans ce cas, une même opération
est appliquée à plusieurs données (SIMD) indiquées sous forme de vecteurs. Ces instructions
sont pour cette raison dites vectorielles. Ce mode d’exécution est à la base de l’exécution sur GPU.
La parallélisation en mémoire partagée est le modèle de parallélisation le plus aisé à exploiter
car il permet de conserver un seul espace mémoire pour toutes les tâches. Ce partage facilite
l’adaptation d’un algorithme séquentiel avec un minimum de modifications, sans répartition particulière
des données. Comme pour toute ressource partagée, il devient cependant nécessaire de
gérer la cohérence des données mémoires puisque plusieurs tâches peuvent les modifier de manière
simultanée. Suivant le langage de programmation utilisé, cette synchronisation de l’accès
aux données peut être intégrée au niveau des structures de données fournies (structure de données
"thread-safe") ou être de la responsabilité du développeur.
L’obligation de conserver toutes les ressources sur une même machine rend difficile l’utilisation
de ce type de parallélisation au-delà de quelques dizaines de coeurs et d’une centaine de gigaoc-CHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 30
tets de mémoire vive avec des processeurs traditionnels. Ces limites correspondent de plus à des
machines dédiées à ce type de parallélisation et sont donc en pratique beaucoup plus basses pour
des machines de bureau ou des ordinateurs portables.
CPU1
Mémoire du programme
Tâche 1
CPU2
Tâche 2
CPU3
Tâche 3
CPU4
Tâche 4
Figure 2.2 – Découpage d’une exécution en mémoire partagée
L’utilisation de la parallélisation en mémoire partagée est grandement facilitée par des bibliothèques
génériques telles que OpenMP, utilisé par de nombreuses simulations agents.
2.2.2 OpenMP, un modèle de programmation
OpenMP [CDK+01] est un modèle de programmation pour les langages C, C++ et Fortran
permettant le calcul parallèle en mémoire partagée. Il a été pour la première fois proposé en 1997.
La parallélisation offerte par ce modèle repose sur la création et l’exécution implicite de sections
parallèles d’un programme par un ensemble de threads, ou workers, alloués et gérés automatiquement
par OpenMP. Ces sections parallèles sont indiquées par le biais de directives de
préprocesseur classées en instructions de contrôle d’exécution (boucles parallèles), en directives
de partage des données (privées, partagées), en outils de synchronisation permettant de coordonner
la progression de l’exécution des threads et en fonctions de gestion de l’environnement.
La possibilité d’annoter un code source existant facilite grandement l’utilisation d’OpenMP
pour paralléliser de manière incrémentale un programme séquentiel. OpenMP permet également
de configurer le nombre de coeurs d’exécution locaux à utiliser, pour mesurer aisément l’impact
de la parallélisation sur les performances obtenues.CHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 31
2.3 Parallélisation en mémoire distribuée
Les ressources fournies par une seule machine ne suffisent pas toujours à atteindre les objectifs
en termes de temps d’exécution ou de mémoire requis par le programme. Dans ce cas, il
devient intéressant de pouvoir exploiter simultanément plusieurs machines. Cette parallélisation
est souvent utilisée sur des grilles (machines hétérogènes reliées par un réseau informatique) ou
des clusters (ensemble de noeuds de calculs homogènes, souvent reliés par un réseau informatique
haute performance tel que Infiniband).
2.3.1 Modèle d’exécution
La parallélisation en mémoire distribuée requiert une distribution explicite des données entre
tâches d’exécution (Figure 2.3) de manière à permettre la répartition des tâches sur plusieurs machines
dotées de mémoire indépendantes. Cette distribution des données permet également de
s’affranchir des limitations en termes de taille mémoire imposées par une seule machine, en ne
stockant pour chaque unité de traitement que les données nécessaires à son exécution. Cette répartition
implique cependant la copie de certaines données communes dont la modification doit être
ensuite répercutée dans les autres processus.
La parallélisation en mémoire partagée impose également des modifications en profondeur de
l’algorithme pour prendre en compte ce découpage mémoire, ce qui rend son utilisation pour un
programme existant moins aisée que la parallélisation en mémoire partagée.
CPU1
Mémoire
Tâche 1
Tâche 1
CPU2
Mémoire
Tâche 2
Tâche 2
CPU1
Mémoire
Tâche 1
Tâche 1
Réseau
CPU3
Mémoire
Tâche 3
Tâche 3
CPU4
Mémoire
Tâche 4
Tâche 4
Figure 2.3 – Découpage d’une exécution en mémoire distribuée
La parallélisation en mémoire partagée requiert une prise en compte explicite du découpage des
données par le concepteur du programme, mais peut elle aussi être facilitée au moyen de modèles
de programmation comme MPI, capables d’abstraire la localisation et les communications entres
portions du programme.
2.3.2 Un modèle de programmation standard : MPI
MPI [Mes09] est une norme définissant un ensemble de fonctions de communication entre
processus locaux ou distants. Des implémentations pour les langages C, C++ et Fortran en sontCHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 32
disponibles sur de nombreuses plates-formes, ce qui en fait un standard pour la réalisation de
parallélisations distribuées.
L’objectif de ces fonctions est de permettre de bonnes performances d’exécution aussi bien sur
une même machine qu’entre des machines distantes. MPI repose pour cela sur un ensemble de
primitives de communication de haut niveau susceptibles d’exploiter les mécanismes optimisés
d’échange de données offerts par le système d’exploitation et le matériel.
Une exécution MPI est constituée d’un ensemble de processus associés à des numéros de rang
indépendants de leur localisation physique (Figure 2.4). Ces numéros de rang permettent à chaque
processus d’adapter ses traitements en fonction de son rôle dans le groupe, en se comportant par
exemple en maître distribuant des tâches ou en esclave traitant ces calculs.
0 1
2
3
CPU1 CPU2
Nœud 1
CPU1 CPU2
Nœud 2
CPU1 CPU2
Nœud 3
MPI_COMM_WORLD
Rang de processus
Machines physiques
Figure 2.4 – Exemple d’association entre processus MPI et matériel physique
MPI propose deux catégories d’opérations de communications :
— Les opérations point-à-point : ces communications mettent en jeu un unique émetteur et
destinataire dans le groupe de processus.
— Les opérations de groupe, également qualifiées de collectives ou de multicast, impliquent
la participation d’une partie ou de tous les processus MPI pour réaliser un même traitement.
Un exemple de tel traitement commun est la diffusion d’une donnée en début de calcul, ou
la mise en commun de résultats partiels à la fin de l’exécution MPI.
La plupart de ces opérations de communication possèdent des variantes synchrones et asynchrones,
de manière à faciliter la gestion du déroulement de l’exécution ou la poursuite de traitements
en tâche de fond dans l’attente de communications.
La seconde version de MPI sortie en 1997 apporte la possibilité d’intégrer ou de créer dynamiquement
des processus en cours d’exécution MPI. Elle permet également la gestion en parallèle
de flux d’entrée/sortie vers des fichiers à l’aide des fonctions MPI-IO.
Les implémentations libres les plus connues du standard MPI sont MPICH 2
et OpenMPI 3
. A
côté de ces implémentations généralistes, de nombreux constructeurs proposent des alternatives
optimisées pour leurs solutions logicielles et matérielles telles que IntelMPI pour les processeurs
Intel. Si le standard MPI officiel est dédié aux langages C et C++, des solutions équivalentes pour
Java telles que MPJ Express [SMH+10] ou JACE [BDM04] existent également.
2. http ://www.mcs.anl.gov/project/mpich-high-performance-portable-implementation-mpi
3. http ://www.open-mpi.org/CHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 33
2.4 Parallélisation hybride
2.4.1 Modèle d’exécution
La récente popularisation des processeurs multi-coeurs et l’apparition de nouvelles solutions
d’exécution comme les cartes graphiques ont favorisé l’apparition de parallélisations dites hybrides,
mettant à contribution dans un même programme plusieurs modèles de programmation
distincts comme OpenMP, MPI ou le GPGPU 4
.
L’utilisation judicieuse de ces différentes solutions permet d’exploiter l’ensemble des ressources
présentes sur une même machine mais impose toutefois un certain nombre de précautions
pour éviter tout conflit entre les modèles d’exécution. L’utilisation simultanée de MPI et
d’OpenMP (Figure 2.5) requiert en particulier une certaine vigilance pour éviter tout problème de
cohérence de l’état des processus ou des données.
processus 0
thread 1
thread 2
thread 3
...
OpenMP
processus 1
thread 1
thread 2
thread 3
...
OpenMP
processus 2
thread 1
thread 2
thread 3
...
OpenMP
processus 3
thread 1
thread 2
thread 3
...
OpenMP
Découpage MPI
Figure 2.5 – Parallélisation associant OpenMP et MPI
Certains modèles, comme OpenACC, visent encore une fois à faciliter l’utilisation de ce type
de distribution en regroupant les deux approches de parallélisation au sein d’un même formalisme,
inspiré de OpenMP.
2.4.2 OpenACC, un modèle de programmation
OpenACC [WSTaM12] est un modèle de programmation soutenu par les sociétés Gray, CAPS,
PGI et NVIDIA permettant de tirer parti à la fois d’architectures processeurs traditionnelles et de
4. General-Purpose Computing on Graphics Processing Units.CHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 34
cartes graphiques (Figure 2.6). Il se différencie d’OpenMP par le support des cartes graphiques
comme architecture d’exécution. Son utilisation, à base de directives de pré-processeur, est par
ailleurs très similaire, de manière à faciliter son adoption en remplacement de la solution précé-
dente pour des architectures CPU ou hybrides.
// Code séquentiel
#pragma acc parallel loop
for (int i = 0; i < n; i++) {
// Section parallèle
}
// Code séquentiel
Processeur
multi-coeurs
Carte graphique
NVIDIA
Figure 2.6 – Exemple d’utilisation du processeur et de la carte graphique avec OpenACC
Le support d’OpenACC est pour l’instant limité à quelques compilateurs commerciaux fournis
par les société participantes au standard, dont le compilateur PGI. Il est néanmoins disponible
sous forme de branche expérimentale depuis septembre 2013 dans le compilateur libre GCC. Un
implémentation de recherche nommée accULL 5
est également en phase de développement.
2.5 Une nouvelle architecture d’exécution : le GPU
Après ce panorama des différents types de parallélisation connus, nous allons maintenant pré-
senter une architecture d’exécution spécifique, le GPU. Cette architecture reprend à la fois des
concepts de parallélisation en mémoire partagée et en mémoire distribuée à l’intérieur d’un même
modèle de programmation. Elle nécessite toutefois une bonne connaissance des contraintes matérielles
de la carte pour tirer parti efficacement des ressources fournies, particulièrement sur les
architectures les plus anciennes.
Pour cela, nous commençons par présenter l’origine et l’architecture matérielle des GPU. Nous
étudions ensuite le modèle de programmation associé à cette architecture, avant d’évoquer les
contraintes posées par ce modèle d’exécution. Nous présentons ensuite des bibliothèques permettant
d’utiliser cette architecture dans des programmes existants sans connaissance directe de ce
modèle de programmation. Enfin, nous replaçons l’exécution GPU dans le contexte d’une évolution
plus large de la parallélisation vers des architectures matérielles dites many-cores, proposant
de nombreux coeurs d’exécution.
5. http ://accull.wordpress.com/CHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 35
2.5.1 Genèse des GPU
Les cartes graphiques ou GPU 6 ont été à l’origine conçues pour décharger le CPU des calculs
coûteux liés à l’introduction de rendus graphiques dans les programmes. Ces calculs, qu’il s’agisse
de compositions de texture ou de calculs dans l’espace, se caractérisent en effet par l’application
vectorielle d’une même opération à d’importants volumes de données. En proposant plusieurs dizaines
ou centaines de coeurs d’exécution, le GPU permet d’appliquer ces traitements en parallèle
et ainsi de réduire le temps total nécessaire pour effectuer ces opérations. Cette spécialisation permet
également de réduire la complexité de chaque coeur et ainsi d’en augmenter la densité sur une
surface donnée.
Au départ, les premières cartes graphiques ne déchargeaient le processeur que de certains traitements
graphiques. L’augmentation de la résolution d’une part, et des attentes en qualité de
rendu graphique d’autre part, ont rapidement amené la délégation de plus en plus d’opérations
à ces cartes, jusqu’à l’apparition des premiers GPU programmables, c’est à dire capables d’exé-
cuter des portions de programme. Ces possibilités de programmation, initialement très limitées,
n’ont été accessibles dans un premier temps que par le biais de bibliothèques de rendu graphique
comme OpenGL et DirectX. Elles ont été pour la première fois pleinement accessibles au développeur
en 2008, avec la GeForce 8, par le biais du modèle de programmation CUDA. Le modèle
OpenCL [Khr08] apparaît également la même année et permet l’utilisation des matériels graphiques
d’autres fabriquants, notamment Intel et AMD, ainsi que l’exécution sur processeur traditionnel
par le biais de OpenMP. Un autre modèle de programmation GPU, DirectCompute [Joh12],
a depuis été proposé par Microsoft dans sa bibliothèque DirectX pour les systèmes d’exploitation
Windows.
2.5.2 Architecture matérielle
Une carte graphique est constituée d’un très grand nombre de coeurs graphiques organisés
en multi-processeurs. Chacun de ces coeurs dispose d’un accès à une vaste hiérarchie mémoire.
Une partie de cette mémoire lui est propre, et une autre partie est partagée avec les autres coeurs
du multi-processeur ou de la carte. L’apparition de la programmation GPGPU 7
a eu un impact
sur l’architecture matérielle des cartes graphiques, où il est possible de déceler deux générations
principales (Figure 2.8) :
— Les cartes graphiques antérieures à l’architecture Fermi, basées sur une hiérarchie mémoire
complexe sans caches implicites. Dans ce cas, la gestion des latences d’accès aux données
pour éviter un ralentissement de l’exécution est du ressort du programme.
— Les cartes graphiques plus récentes qui introduisent un mécanisme de caches mémoire L1
et L2 analogues à ceux présents sur CPU. Ces caches permettent le stockage dans une
mémoire rapide, de manière transparente, des données les plus fréquemment utilisées par
les unités de calcul.
Il est possible d’identifier trois niveaux de mémoires principaux dans cette hiérarchie :
— Les registres : chaque multi-processeur dispose de plusieurs centaines de registres. Ces
registres sont partagés de manière statique entre les coeurs graphiques en début de programme.
Ils sont d’accès très rapide et permettent le stockage des données intermédiaires
entre les instructions consécutives du même programme.
6. (Graphical Processing Unit)
7. General-Purpose Processing on Graphics Processing UnitsCHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 36
Coeur
Mémoire globale
Multi-processeur
Registres
Mémoire partagée
Cache mémoire constante
Cache mémoire texture
Figure 2.7 – Architecture matérielle pre-Fermi Coeur
Mémoire globale
Multi-processeur
Cache L2
Registres
Cache L1
Mémoire partagée
Cache mémoire constante
Cache mémoire texture
Figure 2.8 – Architecture matérielle Fermi, Kepler
— La mémoire partagée : cette mémoire est partagée entre tous les coeurs situés dans un
même multi-processeur. Sa latence d’accès reste faible et permet de partager des données
temporaires ou souvent réutilisées.
— La mémoire globale : cette mémoire est accessible à l’ensemble des coeurs graphiques
de la carte. Elle permet le stockage de la plupart des données d’entrée ou de sortie du
programme, avec ses quelques gigaoctets de capacité. Elle se caractérise toutefois par des
temps de latence d’accès beaucoup plus importants, de plusieurs centaines de cycles d’horloge.
Cette mémoire est la seule accessible depuis le CPU pour l’échange de données.
Avant l’apparition du cache L1 et L2 sur les architectures GPU les plus récentes, différentes
techniques ont été imaginées pour dissimuler les latences d’accès à cette mémoire globale. L’une
d’elles [RRB+08] est l’utilisation de zones de mémoire globale d’utilisation spécifiques, pour faciliter
l’optimisation de ces scénarios par le matériel.
— Mémoire locale : cette zone, accessible en lecture/écriture, permet de stocker d’éventuelles
informations ne tenant pas en registre.
— Mémoire constante : cette zone permet de stocker des données accessibles en lecture seule
par l’ensemble des coeurs graphiques. La plupart des matériels utilisent alors une mémoire
cache spécialisée pour réduire la latence d’accès aux données constantes les plus utilisées.
— Mémoire texture : cette zone permet le stockage de textures graphiques. Comme pour
la mémoire constante, elle est associée sur de nombreux matériels à une mémoire cache
spécialisée au niveau de chaque multi-processeur. Chacune de ces textures n’est accessible
qu’en lecture ou en écriture seule au niveau d’un même programme.
Ce système peut toujours être utilisé sur les cartes récentes en complément d’un cache L1
propre à chaque multi-processeur et d’un cache L2 global à la carte. La gestion du partage des
ressources mémoires entre ces deux mécanismes est également possible sur les cartes NVIDIA.
Les copies de données entre CPU et GPU sont réalisées par le biais de l’interface PCI-Express
de la carte graphique. Les restrictions d’accès en lecture ou écriture à ces différentes mémoires ne
s’appliquent qu’aux programmes en exécution sur le GPU : le CPU dispose toujours d’un accès
complet à l’ensemble de la mémoire globale.CHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 37
2.5.3 Modèle de programmation
Le modèle de programmation GPU se caractérise par l’utilisation la plus large possible du
découpage en threads en remplacement des boucles présentes dans l’algorithme. Cette démarche
de parallélisation fine se justifie par les coûts d’exécution différents rencontrés sur CPU et sur
GPU.
Un processeur traditionnel est conçu pour traiter un nombre limité de processus s’exécutant sur
une longue durée à l’échelle du matériel : secondes, minutes, heures. La création et la destruction
de processus est ainsi un traitement coûteux, car elle requiert l’allocation ou la libération d’un environnement
mémoire et système complet. Les threads, ou processus légers, permettent de réaliser
des traitements ponctuels en évitant cette allocation d’environnement, comme évoqué dans notre
section sur la parallélisation en mémoire partagée.
Au contraire, un GPU est conçu pour permettre l’application d’un petit nombre d’opérations
sur de grands volumes de données. Ce type d’exécution se caractérise par des tâches brèves et
remplacées très fréquemment de manière à assurer le remplissage des centaines de coeurs proposés
par l’architecture. Les latences mémoires, importantes en regard du temps de traitement de
chaque tâche, encouragent également la ré-allocation des ressources matérielles de calculs bloqués
en attente d’opérations mémoire à d’autres traitements. Dans ces circonstances, l’utilisation de
nombres très importants de threads permet à l’ordonnanceur GPU de disposer d’un grand nombre
de candidats pour optimiser le remplissage des ressources d’exécution fournies par la carte. Ces
candidats sont regroupés en warp, ou paquet d’exécution, au moment de leur attribution à un
multi-processeur matériel particulier.
Pour permettre ce découpage de l’exécution, les modèles de programmation CUDA et OpenCL
sont tous deux basés sur trois concepts fondamentaux illustrés par la figure 2.9 :
— le kernel représente la suite d’instructions à exécuter sur le GPU. Il se présente sous la
forme d’une fonction admettant un ensemble de paramètres en entrée et en sortie. Il est
possible au kernel d’utiliser les primitives fournies par la plate-forme de programmation
elle-même, mais il ne peut faire appel à aucune bibliothèque ou fonctionnalité offerte par
le CPU.
— le work-item (OpenCL) / thread (CUDA) (ou tâche) représente le support d’exécution d’une
instance de kernel. Chaque thread a accès à son propre espace mémoire, comme évoqué
dans la présentation de l’architecture matérielle GPU, mais également aux données partagées
de la carte.
— le work-group (OpenCL) / bloc (CUDA) (ou groupe de tâches) représente une grille de une
à trois dimensions de tâches d’exécution GPU. Ce bloc permet de gérer le partage de ressources
entre les traitements manipulant des données proches en mémoire et le découpage
des données du traitement. Dans le cas d’une matrice, par exemple, il est possible d’associer
un bloc de tâches à chaque ligne de la matrice, de manière à permettre l’échange de
données et des synchronisations locales entre ces tâches.
La nature déportée de la carte graphique impose une préparation de l’exécution et des données,
puis une récupération des résultats et des ressources après l’exécution sur GPU. La réalisation d’un
traitement est ainsi découpée en cinq phases (Figure 2.10) :
— Chargement du programme. Les traitements à exécuter sont envoyés sur la carte graphique
sous forme de binaires pré-compilés (CUDA) ou de code source (OpenCL, CUDA)
devant auparavant passer par une compilation gérée par la plate-forme de programmation.
— Allocations mémoires des paramètres et copie des données d’entrée. Les paramètres duCHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 38
ND-Range
(ensemble de work-group) Périphérique
Work-group Multi-processeur
Work-item Coeur graphique
Figure 2.9 – Correspondances entre les structures de découpage OpenCL et l’architecture maté-
rielle GPU
programme sont alloués par le processeur central dans la mémoire globale de la carte, et
les données d’entrée recopiées ou rendues accessibles sous forme de partage mémoire au
GPU.
— Lancement de l’exécution d’un ou de plusieurs kernels. Une fois les paramètres préparés
sur la carte, le processeur soumet un ou plusieurs kernels d’exécution à l’ordonnanceur
GPU. Ces soumissions peuvent être effectuées de manière synchrone, auquel cas le programme
CPU demeurera bloqué jusqu’à la fin de l’exécution, ou asynchrone. Des dépendances
peuvent être définies entre kernels d’exécution, de manière à garantir leur ordre de
passage sur GPU.
— Exécution non interruptible sur la carte graphique Les traitements sont lancés par la
plate-forme GPU dès que des ressources sont disponibles, à la discrétion de l’ordonnanceur.
Il n’est pas possible, une fois un traitement lancé, de l’interrompre depuis le CPU,
ce qui peut causer un blocage du programme de durée importante en cas de lancement
synchrone. Plusieurs kernels sont susceptibles d’être lancés simultanément par l’ordonnanceur.
— Récupération des résultats et libération des ressources. Une fois l’exécution terminée,
les données résultats stockées dans la mémoire globale de la carte peuvent être récupérées
par le programme CPU, en vue de traitements supplémentaires, d’affichage, ou de stockage
des résultats. La libération des ressources n’est pas automatique, et doit également être
effectuée explicitement pour ne pas bloquer ou pénaliser de futures exécutions.
CUDA et OpenCL permettent l’utilisation de plusieurs cartes graphiques par un même programme.
Dans ce cas, l’utilisation de soumissions asynchrones permet la gestion simultanée de
plusieurs files d’exécution. L’utilisation efficace des ressources matérielles GPU requiert toutefois
une connaissance de ce mécanisme de soumission et des optimisations mémoires effectuées à
l’exécution.
Si les interfaces de programmation CUDA et OpenCL ne sont directement accessibles que
depuis des programmes C ou C++, l’utilisation du calcul sur GPU n’est pas limitée à ces deux langages
de programmation, grâce aux couches de liaisons avec des bibliothèques natives proposéesCHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 39
Chargement des données
et des programmes
Chargement des données
et des programmes
Copie des données d'entrée
et allocation des espaces résultats
Copie des données d'entrée
et allocation des espaces résultats
Lancement de l'exécution
d'un ou plusieurs kernels
Lancement de l'exécution
d'un ou plusieurs kernels
Exécution non interruptible
sur le périphérique
Exécution non interruptible
sur le périphérique
Récupération des résultats Récupération des résultats
Figure 2.10 – Démarche d’exécution GPGPU
par de nombreux langages de plus haut niveau. Il est ainsi possible d’exploiter CUDA ou OpenCL
en Java à l’aide des bibliothèques JCUDA 8 ou JOCL 9 pour ne citer que quelques solutions disponibles.
2.5.4 Synchronisation des opérations
Après avoir évoqué les deux modèles de programmation, nous allons maintenant présenter
quelques aspects plus spécifiques d’OpenCL en termes de synchronisation des opérations.
Une première caractéristique d’OpenCL est le mode de lancement des opérations à réaliser de
manière asynchrone. Après l’obtention d’un contexte d’exécution, une des premières opérations
d’un programme OpenCL est de créer une ou plusieurs files d’attente dans lesquelles soumettre les
différentes tâches à exécuter. La soumission de chaque tâche permet d’obtenir en retour un objet
événement (cl_event), qui peut être utilisé pour construire un arbre de dépendances (DAG) entre les
tâches à exécuter. Ces dépendances peuvent être utilisées pour s’assurer que la copie des données,
les traitements et la copie des résultats auront lieu en séquence, ou encore pour chaîner plusieurs
opérations, sans intervention intermédiaire du programme, comme illustré par la Figure 2.11.
OpenCL fournit également des opérations de synchronisation permettant d’attendre de manière
bloquante la fin du traitement de la file d’attente ou d’une tâche particulière, pour synchroniser le
8. http ://www.jcuda.org
9. http ://www.jocl.orgCHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 40
op1
op2
op3
op4
e1 = enqueue(op1)
e2 = enqueue(op2, e1)
e3 = enqueue(op3, e2)
e4 = enqueue(op4, e3)
waitForEvent(e4)
e1
e2
e3
Instructions OpenCL
Graphe d'exécution
OpenCL
Synchronisation
bloquante
e4
Figure 2.11 – Utilisation des dépendances pour gérer la synchronisation en OpenCL
flux du reste du programme. Si les options de suivi des performances sont activées, ces événements
stockent également les informations de passage associées à chaque tâche : temps d’attente, temps
d’exécution sur le périphérique.
Ce premier type de dépendance est extérieur au kernel OpenCL, et ne permet donc pas de
contrôler l’accès aux données partagées par chaque thread d’exécution. Pour cela, un second type
de synchronisation est utilisé, à base de barrières d’exécution. Celles-ci permettent au développeur
de s’assurer que tous les threads concernés atteindront un point de l’algorithme au même moment.
Elles sont indispensables dans de nombreuses parallélisations de traitements comme la multiplication
de matrices, où chaque thread sera responsable du traitement d’une ligne avant de récupérer
les informations de ses voisins pour la suite de l’opération. Dans ce cas, une barrière d’exécution
permet de s’assurer que la première opération est bien terminée, de manière à éviter de fausser le
résultat.
Une barrière d’exécution OpenCL peut être appliquée à l’ensemble (barrière globale) ou un
groupe particulier de threads (barrière locale). Dans ce dernier cas, elle peut par exemple être
utilisée pour protéger la création et l’utilisation d’un cache de données locales.
Un intérêt de ces files d’attente OpenCL est de permettre une gestion explicite des ressources
pour chaque périphérique d’exécution : en créant plusieurs contextes d’exécution et files d’attente,
il est ainsi possible de gérer directement le flux d’exécution de plusieurs matériels. En contrepartie,
cette gestion est exclusivement du ressort du développeur : OpenCL ne fournit à l’heure actuelleCHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 41
pas de mécanisme qui permette de répartir la charge de calcul de manière transparente sur plusieurs
matériels distincts.
2.5.5 Regroupement des accès mémoire
La mémoire embarquée sur carte graphique se caractérise, comme nous l’avons vu dans la pré-
sentation de l’architecture matérielle, par une bande passante et des latences importantes. Si les
mécanismes de recouvrement d’exécution évoqués dans la présentation du modèle de programmation
permettent d’amortir l’impact de ces latences, ils n’améliorent pas l’utilisation de cette bande
passante.
Pour cela, un autre mécanisme intervient sur GPU au niveau de chaque multi-processeur, le
regroupement des accès mémoire (memory collapsing). L’objectif de ce mécanisme est de grouper
les lectures de données proches en mémoire en requêtes de lecture de taille plus importante, tel
qu’illustré par la Figure 2.12. Ces requêtes consolidées mettent à meilleure contribution la bande
passante offerte par la mémoire et permettent également de regrouper les latences de chaque accès
individuel.
Lecture 128 bits Lecture 128 bits
Mémoire globale
Warp d'exécution
Figure 2.12 – Mécanisme de regroupement des accès mémoire sur GPU
La détection de ces accès contigus est dépendante, sur les architectures matérielles les plus
anciennes, d’accès mémoires très réguliers (tâche n accédant à l’adresse n + 1 en mémoire). Les
matériels plus récents permettent le regroupement d’accès moins ordonnés, ainsi que leur consolidation
en requêtes de taille plus importante, pour maximiser l’utilisation de ce mécanisme sur des
programmes plus irréguliers.
Il est important de prendre en compte ce mécanisme lors de la conception d’un programme sur
GPU, particulièrement sur des architectures dénuées de cache L1 et L2. Une mauvaise exploitation
de ces regroupements peut en effet multiplier le nombre de lectures mémoires nécessaires pour
traiter les mêmes instructions et brider l’exploitation des coeurs d’exécution offerts par la carte
graphique, indépendamment de tout gain lié à la parallélisation.
2.5.6 Bibliothèques d’exécution sur GPU
L’utilisation des ressources GPU ne requiert pas nécessairement une connaissance des concepts
ou des modèles de programmation GPU : de nombreuses bibliothèques de traitement vectoriel ouCHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 42
matriciel traditionnellement utilisées sur CPU sont maintenant disponibles pour cette architecture.
Ces bibliothèques fournissent souvent une interface de programmation similaire à leur équivalent
CPU, de manière à faciliter leur utilisation dans un programme parallélisé existant.
Voici quelques exemples de bibliothèques de ce type basées sur CUDA :
— cuBLAS est une implémentation du standard d’algèbre linéaire BLAS. Certaines opérations
deviennent ainsi 6x à 17x plus rapides que leur équivalent CPU. Cette bibliothèque
fait partie des bibliothèques optimisées GPU fournies par la société NVIDIA 10
.
— cuFFT, pour CUDA Fast Fourier Transform library, permet le calcul de transformées rapides
de Fourrier sur GPU. Cette bibliothèque est également fournie par la société NVIDIA.
— CUSP (C++ Templated Sparse Matrix Library) est une bibliothèque d’algèbre linéaire
à faible densité. Elle permet également la manipulation et le traitement de graphes. Son
utilisation repose sur le mécanisme des templates C++ pour permettre la génération de
code GPU parallélisé en fonction des traitements demandés par l’utilisateur.
— cuSparse est une bibliothèque de traitements matriciels fournie par NVIDIA. Les formats
de représentations de matrice creuses les plus courants (COO, CSR, CSC, ELL/HYB) et
leur manipulation sont gérés de manière native en CUDA.
Si de nombreuses bibliothèques utilisent le modèle de programmation CUDA, des alternatives
basées sur OpenCL existent également :
— clMath (anciennement AMD APPML) [amd] recouvre à la fois les opérations proposées
par BLAS et le traitement des transformées de Fourrier. L’utilisation de cette bibliothèque
est souvent combinée à cette de clMAGMA [CDD+13], qui fournit de nombreux solveurs
linéaires et solutions de factorisation, réduction ou transformation de matrices.
— clpp [clp] est un autre projet fournissant des primitives de traitement en parallèle de structures
de données. Ces traitements incluent notamment la recherche par préfixe (“scan”), le
tri, ou la réduction de valeurs, de manière à faciliter la parallélisation de traitements plus
complexes sur des structures telles que des graphes ou des arbres.
— VexCL [Dem] facilite également le traitement de matrices et de vecteurs en OpenCL. Cette
bibliothèque est plus particulièrement orientée vers la réduction de la quantité de code né-
cessaire à la préparation et à la gestion des traitements sur GPU, au moyen de l’architecture
objet C++.
Certaines bibliothèques supportent plusieurs plates-formes d’exécution comme OpenCL,
CUDA ou OpenMP avec une même interface de programmation. C’est notamment le cas
d’OpenCV [Bra00], pour la manipulation d’images en temps réel, ou ViennaCL [RWR10], pour la
résolution de problèmes d’algèbre linéaire. Des comparaisons de l’utilisation et des performances
de VexCL et ViennaCL sont disponibles dans la littérature [DARG12].
Une bibliothèque logicielle particulièrement intéressante est SnuCL [KSL+12]. Cette solution
propose des opérations parallèles similaires à MPI pouvant être utilisées de manière transparente
sur des clusters de CPU ou de GPU. Ces opérations permettent au concepteur de totalement se
détacher de la plate-forme d’exécution, mais reste toutefois réservée pour l’instant aux langages C
et C++.
10. https://developer.nvidia.com/gpu-accelerated-librariesCHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 43
2.5.7 Optimisation de la soumission de tâches sur GPU
La possibilité de soumettre des tâches de manière asynchrone et de définir des dépendances
entre ces tâches rapproche l’utilisation efficace du GPU des problématiques d’ordonnancement
présentes dans la littérature.
Dans [TPO10], les auteurs analysent ainsi l’impact de différentes stratégies d’ordonnancement
sur le temps nécessaire pour traiter un lot de tâches irrégulières. Pour cela, les traitements à réaliser
sont groupées en kernels de manière dynamique, plutôt que directement soumises sur la plateforme,
pour optimiser l’occupation des ressources.
Plutôt que d’intervenir sur le regroupement des traitements, d’autres études reposent sur l’utilisation
de l’historique d’exécution pour optimiser le passage des tâches sur GPU. Les auteurs de
[ATN09] proposent ainsi un ordonnancement basé sur la mémorisation du temps d’exécution des
tâches sur plusieurs architectures distinctes. De cette manière, les prochaines tâches peuvent alors
être soumises sur la plate-forme permettant la terminaison la plus rapide. Les résultats obtenus sont
très intéressants, mais très dépendants de cette prévisibilité pour assurer un bon remplissage des
ressources. L’utilisation du processeur en parallèle du GPU permet de gagner 30% en performance
par rapport à l’utilisation du seul GPU dans un autre article [GBHS11]. L’utilisation de l’historique
dans cet article permet également d’assurer un remplissage à 80% des ressources, malgré la forte
disparité en performance entre matériel CPU et GPU.
Les auteurs de [MGR+11] étudient également l’impact de la décomposition des traitements
en un ou plusieurs kernels sur l’ordonnancement OpenCL à l’aide de la plate-forme
SURF [BETVG08] adaptée à instrumentalisation de traitements d’images. Les mesures effectuées
illustrent l’impact du nombre, de la durée et de la dimension de chaque kernel sur les performances
obtenues. L’interface de soumissions asynchrone proposée par OpenCL est utilisée pour gérer fi-
nement les dépendances entre chaque kernel et obtenir les informations de temps précises de début
et fin des traitements. La mesure du décalage entre temps de soumission et temps de lancement du
kernel permet de déterminer le moment le plus pertinent pour lancer les prochaines requêtes, de
manière à ne pas pénaliser l’exécution.
Un défi de l’optimisation du passage de tâches sur GPU est l’absence de contrôle sur l’ordonnanceur
lui-même. Si certains articles [NSL+11] suggèrent des améliorations possibles en termes
d’exécution des warps pour une meilleure occupation des ressources des coeurs d’exécution, il est
difficile de savoir si ces améliorations sont ou seront reprises dans les implémentations CUDA ou
OpenCL existantes. La mesure des performances est donc un outil indispensable pour guider l’optimisation
de l’exécution sur GPU, même en présence d’outils proposés par des sociétés comme
NVIDIA permettant de déterminer à priori les ressources utilisées par un programme GPU donné.
2.5.8 Bonnes pratiques de programmation sur GPU
Au vu de ces éléments sur l’architecture d’exécution GPU, de nombreux ensembles de recommandations
existent sur la bonne manière de programmer sur GPU pour obtenir un programme
efficace [cud09, Cor12, AG13].
Ces recommandations s’articulent autour de quatre objectifs principaux :CHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 44
Minimisation des coûts de transferts
Cette minimisation peut être effectuée à deux niveaux, soit en réduisant le nombre de transferts
effectués, soit en regroupant ces transferts.
La réduction du nombre de transferts n’est pas toujours possible, chaque donnée utilisée sur le
périphérique devant être explicitement copiée avant son utilisation. Elle peut toutefois être obtenue
en réduisant la fréquence de synchronisation de la valeur de cette donnée entre CPU et GPU, ou
en augmentant le temps passé sur le périphérique entre chaque retour sur le CPU.
Le regroupement est un autre moyen de minimiser le temps total des transferts, en utilisant la
bande passante importante fournie par l’interface PCI-Express pour mettre en commun plusieurs
copies de données. Cette mise en commun est facilitée par les mécanismes de copies asynchrone
proposés par les modèles de programmation GPU.
Optimisation des accès mémoires
L’optimisation des accès mémoires correspond à deux problématiques distinctes sur GPU : la
minimisation des latences d’accès et la maximisation de l’utilisation de la bande passante mémoire.
La minimisation des latences d’accès est possible au moyen des mémoires spécifiques
(constantes, globales, locales) proposées par l’architecture matérielle. L’utilisation de la mémoire
partagée permet également d’éviter de récupérer à plusieurs reprises des données fréquemment
utilisées par chaque traitement.
La maximisation de l’utilisation de la bande passante mémoire est dépendante du mécanisme de
regroupement des accès mémoires de l’ordonnanceur et du l’ordre et de la proximité des données
accédées en mémoire. Pour faciliter ce regroupement, il est recommandé d’utiliser les structures
de données les plus régulières possibles sur GPU.
Maximisation de l’occupation
Un dernier point essentiel pour l’obtention de bonnes performances sur GPU est d’utiliser
le plus efficacement possible les nombreux coeurs d’exécution offerts par l’architecture. Cette
occupation dépend de trois paramètres :
Les ressources consommées par chaque thread. Chaque multi-processeur ne dispose que d’un
nombre limité de registres, partagés de manière statique au lancement du programme. L’utilisation
d’un trop grand nombre de registres par threads est susceptible d’empêcher l’utilisation de tous les
coeurs d’exécution disponibles.
Le nombre de conditions présentes dans l’algorithme. Du fait des limitations en termes de
branchements de l’architecture, l’utilisation de conditions impose l’évaluation des deux branches
par le matériel, pour ne conserver ensuite que les résultats de la branche effectivement retenue.
L’utilisation de nombreuses branches est alors susceptible de cause une réduction important de
l’occupation des coeurs d’exécution.
Le nombre de threads total lancé. Comme évoqué précédemment, l’ordonnanceur d’exécution
GPU est capable de dissimuler des latences d’exécution en attribuant automatiquement plusieursCHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 45
threads à un même coeur d’exécution. Ce mécanisme de recouvrement dépend de la présence de
nombreux threads à exécuter pour être pleinement efficace.
2.6 Vers une convergence many-core
Tandis que l’exécution sur GPU devient toujours plus générique, avec l’apparition de mécanismes
de cache ou l’implémentation de toujours plus d’opérations au niveau de la plate-forme,
d’autres architectures dotées de grands nombres de coeurs (dites architectures many-core) se dé-
mocratisent également.
Les circuits programmables ou FPGA sont ainsi de plus en plus étudiés comme support d’exé-
cutions parallèles économes en énergie et peu coûteux [WLL+
, BRT11]. La puissance offerte par
les circuits les plus récents permet notamment d’envisager l’utilisation de compilateurs et de modèles
de programmation existants plutôt que d’une expertise individuelle des instructions pour
réduire le temps et les coûts de développement. La société Altera propose ainsi depuis 2011 une
implémentation d’OpenCL sur ses matériels FPGA 11
.
Intel propose également depuis 2013 la première architecture many-core basée sur des CPU
traditionnels, le Xeon Phi. Cette nouvelle plate-forme peut être utilisée en tant qu’accélérateur
séparé, par le biais des modèles de programmation OpenCL ou OpenACC, ou directement comme
un processeur multi-coeurs traditionnel à l’aide du modèle de programmation OpenMP.
La possibilité d’utiliser OpenCL sur ces trois plates-formes illustre la tendance actuelle à la
convergence entre ces solutions many-core, de manière à permettre à un même programme de
s’exécuter sur une grande variété de plates-formes matérielles. Cette convergence est également
illustrée par celle des supports physiques, toutes ces nouvelles plates-formes étant basées sur l’utilisation
de cartes connectées en PCI-Express à un ordinateur existant (Figure 2.6).
Figure 2.13 – Carte graphique
NVIDIA Tesla
Figure 2.14 – Carte Intel
Xeon Phi
Figure 2.15 – Accélérateur
FPGA Altera
2.7 Synthèse
Les cartes graphiques sont un type d’architecture matérielle permettant une exécution en mé-
moire partagée. Leur utilisation s’intègre dans le cadre d’un mouvement récent des problématiques
de parallélisation vers les architectures many-core, proposant un très grand nombre de coeurs
d’exécution sur un même matériel. Ce parallélisme matériel peut être exploité indirectement, par
11. http ://www.altera.com/products/software/opencl/opencl-index.htmlCHAPITRE 2. MODÈLES D’EXÉCUTION ET DE PROGRAMMATION PARALLÈLES 46
le biais de bibliothèques de parallélisation proposant des opérations de haut niveau, ou via des
plates-formes telles que OpenCL ou CUDA. Dans ce dernier cas se posent toutefois de nombreuses
considérations d’implémentations pour obtenir un programme performant, exploitant les
ressources offertes par le matériel de manière efficace.
L’utilisation de cette architecture d’exécution est déjà possible dans le cadre de nombreuses
bibliothèques d’algèbre linéaire. Si ce type de problème n’est pas forcément directement utilisé
dans les systèmes multi-agents, cette possibilité de proposer des traitements parallélisés en fait
une piste intéressante pour l’accélération de programmes existants. Les cartes graphiques se distinguent
également par leur disponibilité sur de nombreuses machines personnelles, par opposition
à des solutions matérielles spécialisées comme les grilles ou les clusters, ce qui en fait une piste
intéressante pour la parallélisation de systèmes multi-agents.3
Parallelisation de syst ´ emes multi ` -agents
Comme évoqué dans notre présentation des systèmes multi-agents, l’utilisation de simulations
de tailles importantes peut rapidement engendrer des besoins en temps d’exécution et en mémoire
importants. L’objectif du recours à la parallélisation est de résoudre ces problèmes en permettant
l’accès à davantage de ressources mémoires ou d’exécution.
Comme nous venons de le voir, la démarche de parallélisation d’un programme implique une
répartition de son exécution et parfois de ses données. Ce découpage est facilité dans le cas des
modèles multi-agents par la décomposition du système en agents indépendants dotés de comportements
et de données propres. La parallélisation d’une simulation multi-agents est un processus
complexe en temps et en ressources, du fait de l’exécution naturellement synchrone de nombreux
modèles sur la base de pas de temps ou d’événements. Ce synchronisme impose en effet de nombreux
échanges de données en cours de simulation. La délégation d’une partie de la simulation à
chaque hôte ou l’exécution en mémoire partagée du système sont donc généralement les parallélisations
les plus aisées à réaliser [Ble09] car elles minimisent le nombre d’échanges nécessaires à la
synchronisation. L’environnement représente alors la seule structure globale devant être partagée
entre l’ensemble de l’exécution.
Dans les sections suivantes, nous présentons ces différentes approches de parallélisation de
systèmes multi-agents pour souligner les problématiques qui devront être abordées dans notre proposition.
Pour chacune, nous évoquons son principe ainsi que ses indications ou contre-indications.
Nous voyons ensuite leur utilisation dans le cadre de plates-formes multi-agents parallèles qui dé-
chargent le concepteur d’une partie importante de la gestion de cette parallélisation. Enfin, nous
présentons des applications de ces techniques de parallélisation au GPU dans le cadre de divers
types de systèmes multi-agents, avant de présenter FLAME-GPU, une première plate-forme multiagents
générique pour l’exécution sur GPU.
3.1 Stratégies de parallélisation
Il est possible de décomposer l’exécution d’un système multi-agents en trois grandes dynamiques
[MFD09], illustrées sur la Figure 3.1 :
— Celle de l’environnement, qui définit l’évolution de l’espace simulé.
— Celle des comportements des différents agents présents dans le système.
— Celle de l’ordonnanceur, qui contrôle l’exécution et la synchronisation des deux dynamiques
précédentes. C’est cet ordonnanceur qui détermine si l’exécution de la simulation
est guidée par des pas de temps (time-driven) ou par des événements (event-driven).CHAPITRE 3. PARALLÉLISATION DE SYSTÈMES MULTI-AGENTS 48
La parallélisation du modèle multi-agents implique une intervention sur une ou plusieurs de
ces dynamiques en conservant la cohérence du modèle découlant de leur interaction.
Comportements Environnement
Ordonnanceur
Contrôle Contrôle
Moyens d'action
et de perception
Figure 3.1 – Rôle de l’ordonnanceur multi-agents
3.1.1 Parallélisation de l’ordonnanceur
Une première manière de paralléliser le déroulement d’une simulation multi-agents est d’en
lancer plusieurs instances séquentielles simultanément [BCC+11, CDFD10]. Cette parallélisation
de lancement très simple, dite par lots, permet d’exploiter aisément plusieurs processeurs ou machines
sans apporter aucune modification à la simulation. Elle est particulièrement intéressante
pour tester de vastes ensembles de scénarios, en permettant d’obtenir une quantité plus importante
de résultats dans la même période de temps.
Il est cependant important de noter que cette parallélisation par lots ne réduit ni le temps, ni
la quantité de mémoire nécessaires à l’exécution de chaque simulation. Elle ne représente donc
pas une solution dans le cas où les ressources mémoires locales empêchent le lancement d’une
simulation. Elle ne permet pas non plus d’obtenir les premiers résultats plus rapidement qu’une
implémentation séquentielle, et en augmente simplement la quantité.
Une approche de parallélisation de l’ordonnancement moins naïve consiste à répartir l’exécution
de l’environnement et des agents entre plusieurs ordonnanceurs. Dans ce cas, un ordonnanceur
est lancé pour chaque ressource d’exécution et collabore avec les autres ordonnanceurs pour traiter
la simulation. Cette approche requiert toutefois la possibilité de pouvoir découper le système
multi-agents en ensembles d’exécution distincts, de manière à minimiser les échanges de données
et les synchronisations entre ordonnanceurs. Elle est proposée par plusieurs plates-formes multiagents
parallèles, comme nous le verrons plus loin.
Certaines simulations multi-agents [BMD+09] sont dites multi-échelles : dans ce cas l’évolution
du modèle est gouvernée par plusieurs modèles agents représentant des échelles de simulation
ou des aspects distincts d’un même système. Si chacun de ces modèles évolue de manière semiindépendante,
une approche de parallélisation intuitive consiste à confier l’exécution des différents
aspects de la simulation à plusieurs acteurs, de manière à permettre l’exécution en parallèle de la
simulation sans modifier fondamentalement chaque modèle.CHAPITRE 3. PARALLÉLISATION DE SYSTÈMES MULTI-AGENTS 49
3.1.2 Parallélisation des comportements
Une seconde approche de parallélisation consiste à paralléliser l’exécution des comportements
des agents du modèle. Cette parallélisation peut être effectuée au niveau du système dans son
ensemble, au niveau de l’agent, ou au niveau de chaque comportement.
Dans le premier cas, l’ensemble des traitements de même type dans le système sera exécuté
simultanément. Pour des raisons d’équité, l’exécution des agents demeure synchronisée, ce qui
permet d’assurer que tous les agents se déplacent, respirent, ou consomment de l’énergie en même
temps. Ce type de parallélisation, consistant à lancer le même traitement pour un grand nombre
d’agents, est bien adapté à une exécution sur GPU.
Dans le second cas, la parallélisation permet le traitement simultané de plusieurs types de comportements,
de manière à gérer l’évolution de manière asynchrone à l’intérieur d’un pas d’évolution.
Il est dans ce cas impossible de garantir que tous les agents progressent à la même vitesse
dans leurs traitements : un agent est ainsi susceptible de se déplacer avant qu’un autre ne respire
ou inversement. Cette seconde approche est sans doute l’une des plus réaliste pour des modèles où
l’équité est introduite par la modélisation, mais elle est en pratique une des plus difficiles à mettre
en place et à contrôler.
Dans le dernier cas, enfin, l’algorithme d’évolution des agents n’est pas modifié et seul le
traitement du comportement lui-même est parallélisé. Cette dernière approche est particulièrement
intéressante dans le cas d’agents effectuant des actions coûteuses, à même d’être parallélisées, dans
le cadre de leur évolution. Des exemples d’actions candidates à la parallélisation sont la collecte
de données dans un périmètre étendu, ou encore le calcul de déplacements complexes mettant en
jeu de nombreux paramètres.
3.1.3 Parallélisation de l’environnement
Un dernier axe de parallélisation concerne la dynamique de l’environnement. En fonction du
système multi-agents décrit, cette dynamique peut être inexistante, si l’environnement est utilisé
comme un simple repère spatial comme dans le cas des modèles d’essaims, ou au contraire très
complexe comme dans le cas de modèles comme les fourmis. Si le temps de traitement de la mise
à jour de l’environnement représente une portion significative du temps d’exécution du modèle, il
devient dans ce cas intéressant de paralléliser cette mise à jour.
La parallélisation de l’environnement est également souvent requise parce qu’il s’agit de la
structure de données dont taille est la plus importante dans le modèle. Dans ce cas, la parallélisation
ne vise plus uniquement l’obtention de meilleures performances, mais également la possibilité de
simuler des environnements de taille plus importante. Le découpage de l’environnement implique
généralement la répartition des agents présents dans le modèle, de manière à pouvoir conserver les
portions d’environnements et leurs agents associés sur les mêmes unités d’exécution. Ce type de
partitionnement est également proposé par de nombreuses plates-formes agents parallèles.
3.2 Plates-formes multi-agents
La parallélisation de simulations multi-agents rencontre de nombreuses difficultés liées à
l’adaptation d’un programme en mémoire partagée ou distribuée. Il est ainsi possible de citer la
nécessité d’identifier les sections parallèles de l’algorithme et de synchroniser l’accès aux données
partagées en mémoire partagée, ou la décomposition explicite des données et de l’algorithme ainsiCHAPITRE 3. PARALLÉLISATION DE SYSTÈMES MULTI-AGENTS 50
que la prise en compte des échanges et des communications requises par l’exécution en mémoire
distribuée.
Heureusement, le formalisme multi-agents propose une décomposition du système en agents
ou en environnement dont la gestion et les échanges peuvent être traités par des plates-formes
multi-agents spécialisées. Cette prise en charge d’une partie de l’exécution permet également à de
telles plates-formes de faciliter cette démarche de parallélisation.
3.2.1 Madkit
MadKit (Multi-Agent Development Kit) 1
est une plate-forme générique de développement et
d’exécution de systèmes multi-agents [GF00a] réalisée en Java. Elle est développée au sein du
LIRRM 2
.
Le modèle AGR (Agent, Groupe, Rôle) [Gut01] est à la base des modèles et de l’architecture de
la plate-forme, dont les différents services sont implémentés par des agents pour un maximum de
flexibilité. Le noyau de Madkit se caractérise par sa légèreté et n’assure que les services nécessaires
à la mise en place de ces agents : la gestion des groupes et des rôles, un ordonnancement synchrone,
et une infrastructure d’échange de messages entre agents locaux.
Par défaut MadKit associe un thread à chaque agent autonome présent dans le système. Pour
éviter l’utilisation de milliers de threads dans le cas de nombres importants d’agents, il est possible
de créer des agents découplés de l’ordonnanceur, gérés et mis à jour par un ou plusieurs agents
observateurs associés à des threads d’exécution. Ce modèle multi-thread permet une parallélisation
aisée des agents en mémoire partagée.
La parallélisation du modèle en mémoire distribuée est rendue possible par la possibilité de
lancer plusieurs noyaux MadKit et de surcharger le service d’échange de messages pour permettre
à toutes ces simulations de communiquer [GF00b]. Cette surcharge d’un service système est permise
par la présence de points d’accroche (hook) permettant de surveiller les messages échangés
ou de remplacer un service particulier. Un agent permettant ce fonctionnement nommé Communicator
est fourni par défaut avec MadKit. Chaque noyau exécute alors une instance de cette agent
Communicator pour gérer l’échange des messages. Un nouveau mécanisme de distribution permettant
le dialogue par le biais d’un agent réseau sans connaître l’emplacement des instances
distantes, NetComm [RHK06], a depuis également été proposé. Ces mécanismes de communication
permettent soit une distribution maître-esclave, où un noyau possède le modèle de référence
mis à jour par les agents distants, soit sur une duplication du modèle sur chaque instance. Ces deux
approches de distribution sont étudiées plus en détail dans [MBF02].
3.2.2 JADE
La plate-forme JADE [BCG07] est une plate-forme multi-agents développée en Java par le
groupe de recherche CSELT (partie de Gruppo Telecom). Elle permet la réalisation de systèmes
multi-agents conformes à la norme FIPA [fip].
Les services FIPA sont fournis directement par la plate-forme JADE, ce qui rend le support de
la norme transparent pour le concepteur de modèle.
L’intégration d’un nouvel agent dans un modèle JADE en cours d’exécution est décomposée
1. http://www.madkit.org
2. Laboratoire d’Informatique, de Robotique et de Microélectronique de MontpellierCHAPITRE 3. PARALLÉLISATION DE SYSTÈMES MULTI-AGENTS 51
en plusieurs étapes :
— L’enregistrement de l’agent auprès de la plate-forme agent.
— L’attribution d’un nom et d’une adresse unique à l’agent.
— L’utilisation des services de recherche et de communication pour s’interfacer avec les
autres agents.
Ce découplage des agents de leur emplacement physique rend possible la migration d’agents
entre machines en cours d’exécution, au moyen d’un ensemble d’outils prenant en charge le dé-
ploiement et le suivi du modèle. La distribution est assurée par l’utilisation des threads et une
interface de communication proposée par JADE. Cette interface repose sur le protocole RMI proposé
par Java pour communiquer entre instances distantes [VQC02].
JADE ne prend en charge que la création, l’évolution et la communication entre agents, et
ne propose aucune structure de données pour la représentation de l’environnement ou d’autres
données partagées. La représentation de ces éléments est néanmoins possible sous forme d’objets
indépendant ou d’agents spécifiques dans la simulation. Il est ensuite possible d’utiliser des
messages pour envoyer ou recevoir des informations sur ces structures partagées.
En prenant en compte toutes les communications, JADE facilite l’utilisation d’une architecture
en mémoire partagée ou distribuée pour la simulation multi-agents. Cette plate-forme se limite
toutefois à ce rôle, et ne propose pas de mécanisme de synchronisation ou de partage automatique
des données entre instances d’exécution : cette gestion reste de la responsabilité du concepteur du
modèle, en utilisant les structures de données fournies par le langage Java.
3.2.3 FLAME
FLAME 3
[HCS06] est un générateur de simulations multi-agents parallélisées. Il se base pour
cela sur la description des modèles sous la forme de machines à états (X-Machine) en XMML,
version étendue du XML. Cette description abstraite permet de découpler l’exécution du système
multi-agents de toute plate-forme d’exécution spécifique.
La description d’un modèle FLAME repose sur la spécification d’un état initial, d’un ensemble
d’états intermédiaires et d’un ou plusieurs état finaux. Le passage entre ces états est décrit sous
forme de fonctions de transition, exécutées pour chaque agent à chaque pas de temps de la simulation.
Une itération, ou pas de temps, est définie comme la fenêtre de temps nécessaire à chaque
agent pour progresser de son état initial à l’un des états finaux du graphe de transitions. Ce processus
est reproduit à chaque itération.
En parallèle de ces états représentant les stades d’exécution de chaque agent, FLAME associe
à chaque agent une mémoire pouvant contenir des variables lues et modifiées par les différentes
fonctions de transition.
La communication entre agents est assurée par la possibilité d’envoyer et de recevoir des messages
au niveau de ces mêmes fonctions de transition. Leur transmission est réalisée de manière
synchrone, pour garantir la réception simultanée de chaque message par tous ses destinataires :
cette synchronisation est particulièrement importante lors de l’exécution d’un modèle sur une architecture
distribuée HPC pour permettre qu’aucun agent ne soit favorisé ou défavorisé par son
ordre de passage. Les messages sont distribués à l’ensemble des agents du modèle par la bibliothèque
Libmboard basée sur MPI pour les échanges de messages [KRH+10]. Il est ensuite possible
à chaque agent de filtrer les seuls messages le concernant.
3. FLexible Large-scale Agent-based Modeling EnvironmentCHAPITRE 3. PARALLÉLISATION DE SYSTÈMES MULTI-AGENTS 52
La modélisation d’un modèle en FLAME est décomposée en quatre étapes :
— La description de chaque agent et de sa fonction.
— La description des états correspondant à leur évolution à chaque itération
— L’identification des variables utilisées pour le déclenchement et dans le traitement de
chaque fonction de transition définie dans le modèle.
— L’identification des messages émis ou reçus par ces fonctions de transition.
Ce processus peut être représenté sous la forme d’un diagramme de transition. La Figure 3.2
illustre une représentation possible d’un modèle d’essaim (Swarm) avec FLAME.
début Diffusion
de la position état 1 état 2 Réception
autres positions fin Mise à jour
position
Nouvelle itération
Figure 3.2 – Représentation conceptuelle d’une itération de modèle Swarm
L’implémentation du modèle économique européen EURACE, mettant en jeu des agents intervenants
sur plusieurs marchés économiques, prévoit d’utiliser ces mécanismes [DvdHD08].
La plate-forme FLAME permet de s’abstraire totalement de la démarche de parallélisation en
mémoire partagée ou en mémoire distribuée, en prenant en charge la totalité de la génération de
la simulation. Cette abstraction dépend toutefois d’une description très fine du modèle et de ses
interactions par le concepteur, qui contraint fortement la définition des modèles.
3.2.4 Repast HPC
Repast HPC [CN11] est une bibliothèque dédiée au calcul sur architectures hautes performances.
Elle propose une implémentation des concepts fondamentaux de RepastSimphony sur des
architectures mémoire distribuées et plus particulièrement sur les clusters de calculs. Le développement
de modèles agents avec Repast HPC peut être effectué directement à l’aide des composants
de la bibliothèque ou en manipulant des concepts d’emplacements et de tortues inspirés de Logo.
L’implémentation des agents est réalisée sous forme d’instances de classes C++ encapsulées
dans un Contexte représentant leur environnement. Leur organisation dans le modèle est assurée
par la définition de Projections. Une projection grille place ainsi les agents dans une structure grille
où chaque agent correspond à une cellule, tandis qu’une projection réseau permet la mise en place
de relations entre agents. Une simulation Repast HPC est ainsi composée d’agents, d’au moins un
contexte, et de zéro ou plusieurs projections.
La distribution des agents en Repast HPC est basée sur un parallélisme à mémoire distribuée.
Les agents du modèle sont répartis entre plusieurs processus responsables du traitement de leurs
agents locaux. L’interaction avec un agent distant requiert sa copie en mémoire locale, la modification
de cette copie, puis sa synchronisation avec l’agent original, pendant que l’exécution
de l’agent distant est suspendue [rep]. Pour faciliter la gestion de ces copies, chaque agent est
identifié de manière unique par trois informations : un identifiant attribué par l’utilisateur, l’index
de son processus de lancement et son type. Chaque agent stocke également l’index du processusCHAPITRE 3. PARALLÉLISATION DE SYSTÈMES MULTI-AGENTS 53
l’exécutant actuellement.
La synchronisation et l’échange des agents entre processus sont assurés via le protocole de
communication MPI [rep] par le biais de son implémentation BoostMPI 4
.
Ce mécanisme de découpage permet à Repast HPC de prendre en charge de nombreuses problématiques
de la parallélisation en mémoire distribuée et en particulier la copie et l’exécution des
agents présents sur les différents noeuds d’exécution.
3.2.5 D-MASON
La plate-forme D-MASON [CCC+12] est une version parallèle de la bibliothèque MASON,
ajoutant une couche supplémentaire permettant la distribution de la simulation en mémoire distribuée
sur des machines hétérogènes.
La distribution de la simulation en D-MASON est basée sur trois blocs fonctionnels, un gestionnaire,
des travailleurs (workers) correspondant à des threads Java et des communications. Le rôle
de gestionnaire est assuré par une application maîtresse qui prépare la simulation et gère ensuite
son déroulement en pas de temps synchrones en coordonnant les différents processus travailleurs.
Cette répartition des tâches repose sur le partitionnement de l’espace à simuler en régions pouvant
être assignées à un worker particulier. Chaque worker est ensuite responsable de l’exécution
des agents présents dans sa région, ainsi que de la synchronisation des traitements ou de la migration
des agents entre régions. Les échanges requis pour ces opérations sont gérés par le biais
de JMS [CCM+11], une interface de programmation permettant d’envoyer et de recevoir des messages
asynchrones entre composants Java.
Cette répartition automatique de l’environnement par la plate-forme, associée à celle de l’ordonnancement
et des traitements, permet la gestion des trois approches de parallélisation de systèmes
multi-agents. D-MASON se caractérise de manière générale par la volonté d’introduire la
distribution à tous les niveaux du système, plutôt que de se focaliser uniquement sur les performances,
pour résoudre les limitations en ressources, en particulier mémoires, de manière transparente
pour le concepteur.
3.2.6 Pandora
Une dernière plate-forme permettant la distribution d’un système multi-agents sur plusieurs
noeuds de cluster est Pandora [pan]. Cette plate-forme permet le prototypage rapide de modèles à
l’aide du langage de programmation Python, ou la réalisation de modèles plus complexes à l’aide
de C++. Ces deux langages d’implémentation partagent la même interface de programmation et
les mêmes concepts, de manière à faciliter l’adaptation de modèles entre les deux syntaxes. Il est
plus particulièrement conçu pour la simulation de milliers d’agents dans un espace géographique.
La distribution en mémoire partagée des systèmes Pandora repose sur la distribution de portions
de l’environnement et des agents sur chaque noeud du système à l’aide de OpenMP et de
MPI [ASÁ01]. La parallélisation locale de la simulation est basée sur l’observation par ses concepteurs
d’une décomposition standard du cycle agent dans de nombreux modèles multi-agents :
— Évaluation de l’environnement et des stimulis.
— Prise de décision quant à l’action à effectuer.
— Réalisation de l’action.
4. http://www.boost.org/CHAPITRE 3. PARALLÉLISATION DE SYSTÈMES MULTI-AGENTS 54
— Mise à jour des variables internes.
Pandora permet la parallélisation de l’évaluation de l’environnement et de la prise de décision
de manière automatique avec OpenMP. La suite des traitements est séquentialisée pour garantir
la cohérence des mises à jour du modèle. L’originalité de cette plate-forme réside dans la gestion
automatique de la distribution et de la copie des informations situées à la frontière de deux portions
voisines de l’environnement à l’aide des champs d’action [WRC12].
3.3 État de la simulation multi-agents sur GPU
La simulation de systèmes multi-agents met en jeu la parallélisation, qu’elle soit en mémoire
partagée ou distribuée. Cette démarche de parallélisation peut être effectuée manuellement ou à
l’aide de plates-formes multi-agents parallélisées. Dans les deux cas, elle implique la répartition
des traitements du modèle sur plusieurs coeurs d’exécution, que ce soit au niveau de l’ordonnancement,
de l’environnement, ou des agents.
L’utilisation de nombres importants de coeurs CPU requiert toutefois le recours à des environnements
HPC spécialisés, grilles ou clusters de calculs. Ces clusters de calculs ne sont pas
forcément à la portée de tout chercheur, soit pour des raisons techniques, soit pour des raisons
financières. Dans ces circonstances, les GPU sont une alternative intéressante pour exécuter des
nombres importants d’agents, avec leur coût réduit et leurs centaines de coeurs d’exécution. Ils
présentent également l’intérêt d’être présents dans la totalité des machines personnelles actuelles.
Dans ce chapitre, nous présentons tout d’abord les différents domaines de simulation multiagents
ayant déjà fait l’objet d’adaptations sur GPU. Nous évoquons ensuite FLAME-GPU, une
première plate-forme d’exécution générique sur GPU, et en montrons les caractéristiques et les
limites permettant d’envisager d’autres approches d’exécution de systèmes multi-agents sur GPU.
3.3.1 Parallélisations indépendantes
De nombreux systèmes multi-agents ont déjà été parallélisés de manière indépendante sur architecture
GPU, dans le cadre d’optimisations de modèles existants ou d’étude de cette plateforme.
Ces adaptations peuvent être rassemblées en grandes thématiques, souvent associées à la
modélisation agent dans la littérature. La diversité de ces thématiques se retrouve dans les approches
d’adaptations retenues, mais permet toutefois de dégager quelques grandes tendances de
modélisation sur GPU.
Automates cellulaires
Les automates cellulaires sont un premier type d’implémentation utilisée pour les systèmes
multi-agents se prêtant naturellement à une parallélisation du fait de leur découpage en grille et
de l’application du même algorithme d’évolution à chacune des cellules de cette grille. Une telle
exécution est dite SPMD (Single Program, Multiple Data ou "Un seul programme, de nombreuses
données") et favorise le découpage du traitement sur de multiples unités de calculs. L’utilisation
de grilles pour le stockage du système facilite également le partage des données en un ou plusieurs
lancements, dans le cas où les besoins en mémoire du modèle seraient trop importants pour un seul
GPU.
Le Jeu de la Vie est un exemple d’automate cellulaire souvent utilisé pour illustrer ce type deCHAPITRE 3. PARALLÉLISATION DE SYSTÈMES MULTI-AGENTS 55
Buffer A Buffer B
Lecture état n Écriture état n + 1
Buffer B Buffer A
Lecture état n + 1 Écriture état n + 2
Itération n
Itération n + 1
Figure 3.3 – Concepts de double bufferisation des données entre itérations
parallélisation, du fait de ses règles simples d’évolution et de l’indépendance de l’évolution de
chaque cellule. La seule synchronisation de l’exécution du modèle a lieu entre chaque itération,
de manière à assurer la progression de tous les agents au même rythme et la prise en compte
des modifications effectuées à l’itération précédente. Cette synchronisation peut être implémentée
au moyen d’une barrière d’exécution ou en découpant le traitement en plusieurs lancements. Un
découpage en plusieurs lancements permet alors d’utiliser les mécanismes de dépendances fournis
par OpenCL et CUDA pour inclure d’autres opérations dans le déroulement de la simulation, telles
que l’échange d’une grille d’entrée et d’une grille de sortie (Figure 3.3) entre chaque itération.
Un autre exemple d’automate cellulaire parallélisé est SugarScape, un modèle décrivant l’évolution
de populations d’individus en fonction de la répartition de glucose dans un environnement
en grille. Une parallélisation en CUDA proposée pour ce modèle [DLR07] repose sur l’utilisation
de textures graphiques pour représenter cette grille, en tirant parti de la possibilité d’utiliser les
canaux de couleurs pour stocker les propriétés de chaque cellule dans un seul pixel, et ainsi de
représenter l’environnement dans un seul objet texture. La mise à jour du modèle est effectuée en
associant une tâche GPU à chaque cellule de la grille. L’utilisation, comme dans le cas du Jeu de la
Vie, d’une texture d’entrée et d’une texture de sortie permet de gérer plus facilement l’affichage de
la simulation pendant les traitements, et de contourner la limitation des accès en lecture seule ou
écriture seule à ces textures au sein d’un même kernel. Cette impossibilité de lire et d’écrire dans la
même texture au cours du même lancement empêche, contrairement au Jeu de la Vie, l’utilisation
d’une simple barrière d’exécution entre deux itérations.
Cette parallélisation de SugarScape met en avant les problèmes rencontrés par le stockage des
agents dans une structure en liste indépendante. Le décès et l’apparition de nouveaux agents nécessitent
des mécanismes efficaces de mise à jour de cette liste sur GPU, et en particulier de recherche
d’emplacements libres pour stocker les nouveaux individus. La solution retenue dans cette adaptation
est de rechercher un emplacement libre décalé de n cases par rapport à l’emplacement de
chaque agent en attente de reproduction, et de faire varier ce décalage jusqu’à ce qu’une case libre
se dégage pour toutes les reproductions en attente. Cette approche stochastique repose sur l’observation
qu’une solution est généralement trouvée en quelques itérations et permet d’éviter de
synchroniser chaque reproduction, au prix de la perte d’un peu de temps de calcul.CHAPITRE 3. PARALLÉLISATION DE SYSTÈMES MULTI-AGENTS 56
Ces deux exemples illustrent l’importance des traitements et des échanges de grilles pour paralléliser
ce type d’implémentation.
Agents indépendants
Un autre modèle souvent parallélisé sur GPU est celui des fourmis [CGU+11, UIN12], dont
la mise à jour peut être décomposée en deux processus distincts, comme nous l’avons vu dans la
description du modèle :
— La mise à jour de l’environnement, et en particulier la simulation de la diffusion et de
l’évaporation au cours du temps des phéromones déposées par les fourmis.
— La gestion du déplacement des fourmis (agents) elles-mêmes, au vu de ces données environnementales
et de leur état actuel, à la recherche de nourriture ou en train de rapporter
des ressources. Ce second état conditionne le dépôt ou non de phéromones par l’individu.
La parallélisation de ce modèle sur GPU pose le problème de synchroniser l’exécution de
ces deux processus à chaque itération. L’utilisation de textures impose, comme dans le cas du
modèle SugarScape, le recours à plusieurs kernels d’exécution distincts pour pouvoir accéder à
ces textures alternativement en écriture, pour la mise à jour des quantités de phéromones, puis en
lecture au moment de la détermination du comportement de chaque individu. Cette parallélisation
met l’accent sur l’importance de la synchronisation, et plus généralement de la possibilité de mettre
en place un graphe de dépendance, pour l’exécution de la simulation en parallèle sur GPU.
Un autre exemple de modèle multi-agents avec des agents indépendants est le mouvement de
volées de différentes espèces d’oiseaux dans un espace en deux dimensions [Wei13]. Ce mouvement,
inspiré du modèle Boids décrit par Craid Reynolds en 1987 [Rey87], illustre l’apparition
de comportements émergents au niveau de volées d’oiseaux à partir de règles simples assignées à
chaque individu, aboutissant à un compromis de déplacement à chaque itération. Les règles utilisées
sont les suivantes :
— Séparation : choix de la direction de manière à éviter une trop grande agglomération avec
les oiseaux voisins.
— Alignement : choix de la direction de manière à adopter la même direction de déplacement
que les oiseaux voisins.
— Regroupement : choix de la direction de manière à se rapprocher du centre de masse des
oiseaux à proximité.
Les oiseaux décrits sont positionnés dans un espace continu et il n’existe donc plus cette fois
aucune grille sur laquelle baser un découpage pour GPU. Le positionnement de chaque agent
dans l’environnement est à la place indiqué par un jeu de coordonnées associé à chaque individu.
Le mouvement de chaque individu est également stocké dans ses propriétés sous la forme d’un
vecteur. Dans ce cas, le découpage d’exécution retenu n’est plus basé sur une sous-division de
l’environnement, mais sur l’association d’une tâche de traitement à chaque individu. La synchronisation
entre les individus est effectuée à l’aide de barrières d’exécution dans un même lancement
de kernel d’exécution. Pour minimiser le nombre et donc les coûts d’accès à la mémoire globale,
les oiseaux sont regroupés en ensembles (clusters) dont les positions et les vitesses sont recopiées
en mémoire partagée.
Un dernier modèle d’agent concerne la simulation de la propagation de la tuberculose dans
les cellules du système immunitaire [DLMK09]. Cet exemple réintroduit un découpage de l’environnement
en espace discret, sous la forme d’une grille d’agents représentant alternativement des
macrophages ou des lymphocytes-T. Chacun de ces agents est associé à un automate à états finisCHAPITRE 3. PARALLÉLISATION DE SYSTÈMES MULTI-AGENTS 57
déterminant les états accessibles à chaque agent en fonction de son état actuel. La parallélisation
du modèle est effectuée par le biais de plusieurs kernels lancés à des fréquences différentes. Un
premier kernel, exécuté cent fois plus fréquemment que les autres traitements, gère ainsi la diffusion
des marqueurs chimiques dans l’environnement. Un second kernel gère la reproduction des
bactéries dans l’environnement de simulation, tandis que quatre autres kernels gèrent la mise à jour
de l’état de chaque macrophage et lymphocyte T, puis leur déplacement et le recrutement de nouveaux
individus. Cet exemple met en avant le nombre importants d’opérations différentes pouvant
être présentes dans un même modèle agent, et l’importance de pouvoir exécuter ces traitements à
la suite sur GPU, après initialisation et copie des données depuis le CPU.
Recherche de chemins (pathfinding)
Un autre domaine d’application multi-agents souvent rencontré dans les exemples de parallélisation
sur GPU est la recherche de chemins en deux ou trois dimensions, dans des environnements
continus ou discrets [FSN09, GCK+09]. La popularité de ce type de traitement s’explique par
l’existence d’une forte demande au niveau de ce type d’algorithme dans l’industrie vidéo-ludique
(déplacement d’unités) et les simulations urbaines ou de transport.
Ces modèles agents considèrent généralement un individu associé à une position dans l’espace,
et éventuellement une taille, se déplaçant dans un environnement constitué de points de passage
et d’obstacles. Dans le cadre d’un découpage de l’environnement en grille, des algorithmes de
recherche de chemin dans des grilles et des graphes comme l’algorithme A* [HNR68] peuvent
alors être utilisés pour déterminer le plus court chemin vers un point destination. Ce type de modèle
implique encore une fois de disposer de facilités de traitement de grilles sur GPU, ainsi que
la possibilité de mettre à jour ces grilles de manière concurrente pour gérer la cohérence des dé-
placements de chaque agent. Cette grille peut être intrinsèque au repère de positionnement, ou
être appliquée à chaque itération pour discrétiser des positions réelles, de manière à permettre
l’application des algorithmes de recherche de plus court chemin.
Un premier exemple de modèle parallélisé concerne le déplacement des unités dans des jeux
de stratégie sur la base de champs de potentiels [SFF+10]. L’utilisation de champs de potentiels,
et donc de vecteurs de déplacement, permet dans ce cas non seulement d’obtenir des chemins effi-
caces (distance) mais également plus naturels en adoucissant notamment les courbes ou en limitant
les comportements peu réalistes (virage à 90°) déclenchés par la détection soudaine d’un obstacle.
La difficulté de parallélisation de ce modèle est la nécessité de prendre en compte l’ensemble de
l’espace de simulation pour déterminer le mouvement calculé par chaque tâche GPU. Pour limiter
le nombre d’accès mémoire à effectuer, une carte locale des obstacles et de la direction projetée
de son objectif est préalablement créée pour chaque agent et un vecteur associé à chacun de ces
éléments. Le déplacement de l’agent est ensuite calculé à partir de la combinaison de ces vecteurs,
puis projeté sur l’environnement de simulation. L’utilisation du GPU permet ici de considérer ces
cartes locales et ces opérations vectorielles en parallèle pour chaque agent, plutôt que d’effectuer
un parcours linéaire de chaque individu intégrant un autre parcours des cellules voisines à cet
individu.
Une simulation de déplacement de piétons [RR08] se base sur le découpage des données de
chaque agent en canaux de textures. Cet exemple met également en valeur, dans le cas de la recherche
de chemins, l’utilité du découpage des données en structures d’entrée et structures de
sortie déjà rencontré pour les automates cellulaires.
Le portage de ce type de simulation sur GPU, notamment par Bleiweiss [Ble09], a également
amené des réflexions sur d’autres architectures vectorielles [GCK+09] telles que SSE, mettant enCHAPITRE 3. PARALLÉLISATION DE SYSTÈMES MULTI-AGENTS 58
avant le potentiel de ce type de parallélisation sur architecture many-core massivement parallèle
de manière générale.
Il est également possible de citer, pour une réflexion approfondie sur la comparaison de diffé-
rentes heuristiques permettant de résoudre ce type de problèmes sur GPU, le mémoire de thèse de
A. Delévacq [Del13]. L’auteur commence pour cela par établir une présentation des métaheuristiques
parallèles existantes sur GPU, avant d’en proposer une taxonomie orientée autour de deux
axes, en fonction du niveau d’utilisation du GPU dans la métaheuristique d’une part (population,
solution ou élément), et en fonction de l’utilisation faite de chaque type de mémoire proposé par
le modèle de programmation d’autre part (globale, texture, constante, partagée, registres). Une
fois cette taxonomie posée, l’auteur compare alors deux approches différentes de la résolution du
problème du voyageur de commerce, tout d’abord à base de colonies de fourmis, puis à base de
recherche locale (RL) de solutions. L’approche à base de colonies de fourmis repose sur l’utilisation
d’individus, les fourmis, parcourant le graphe selon une heuristique de type min-max, de
manière à construire progressivement des listes solutions. L’approche RL repose, quant à elle,
sur l’amélioration d’une solution existante en évaluant l’impact de modifications locales à certaines
positions de la liste. Elle est ainsi susceptible de compléter d’autres métaheuristiques pour
la recherche de solutions efficaces. Les résultats obtenus montrent des gains de performance signi-
ficatifs avec une implémentation GPU, avec un impact sur la qualité des solutions demeurant entre
−1.33% et 1.64%. Au contraire, des dégradations significatives sont observées sur la parallélisation
de l’approche RL, liées aux découpages en termes de synchronisation rendues nécessaires par
l’adaptation sur GPU. Ce mémoire met en évidence l’importance des adaptations dans ce modèle
de programmation et celle de la validation par des mesures de leurs conditions d’utilisation.
Réflexions sur des exécutions hybrides GPU et CPU
La parallélisation de systèmes multi-agents a également donné lieu à des réflexions plus
génériques, orientées sur la distribution de la charge en général sur des plates-formes parallèles
[CCDCS11], ou sur le cas plus particulier de clusters de GPU et de machines multi-coeurs.
En particulier dans [APS10], l’auteur propose la comparaison d’une implémentation à base de
threads et de CUDA du même modèle agent. Pour minimiser le nombre d’échanges nécessaires
dans le cas de systèmes multi-agents, où des portions de l’environnement sont réparties dans de
multiples copies distantes, l’article propose la mise en place d’un système de zone-frontière au
niveau du découpage des données. Ces zones frontières situées autour des données directement
utilisées par les agents exécutés en local permettent de prendre en compte la diffusion des erreurs
de mise à jour liées à l’exécution indépendante de chaque portion du modèle. La largeur de ces
frontières permet de déterminer le nombre de cycles pouvant être exécutés avant que les divergences
n’impactent d’autres portions de l’environnement simulé, et donc le temps pendant lequel
une synchronisation peut être reportée sans impact sur le résultat de la simulation générale. En
réduisant le nombre d’échanges de données nécessaires, ce système d’isolation permet de maximiser
le temps passé en calcul pour chaque tâche et donc d’améliorer les performances obtenues.
L’implémentation GPU proposée est basée sur le modèle de programmation CUDA et des blocs
mémoires pour chaque agent ou groupe d’agent. L’utilisation d’OpenCL est toutefois prévue, pour
pouvoir tirer parti d’une plus grandes variété d’architectures. Cet article met en évidence l’impact
important que peut avoir la fréquence de synchronisation des données sur les performances obtenues,
en variant la largeur des frontières autour de la copie de l’environnement de chaque agent.CHAPITRE 3. PARALLÉLISATION DE SYSTÈMES MULTI-AGENTS 59
3.3.2 Une plate-forme multi-agents orientée GPU : FLAME-GPU
Si l’utilisation du GPU est à l’étude pour des plates-formes comme JADE [ZG12] ou TurtleKit
[Mic13], seule FLAME-GPU [Ric11], une extension pour la plate-forme FLAME [CGH+12],
permet à l’heure actuelle l’utilisation du GPU pour l’ensemble du modèle.
FLAME-GPU permet la génération d’implémentations GPU de modèles FLAME avec un minimum
d’adaptations, de manière à afficher ou exploiter plus facilement de grandes quantités
d’agents. Cette utilisation transparente du GPU est rendue possible du fait de la décomposition
très fine de la simulation en états et en traitements. La syntaxe XXML, proposée par FLAME, est
également étendue pour permettre d’indiquer le nombre maximum d’agents présents dans le modèle,
de manière à pouvoir allouer à l’avance les structures de données sur GPU. Ces extensions
incluent également des directives permettant de choisir les algorithmes de traitement des fonctions
de transition à utiliser en CUDA.
L’application d’une fonction de transition sur GPU aux agents d’un modèle FLAME est dé-
composée en deux étapes :
— Un premier kernel vérifie les pré-conditions d’application de la fonction de transition pour
chaque agent du modèle. Si les conditions d’application sont remplies pour cet agent, il est
ajouté à la liste des agents devant être traités.
— Une fois ce filtrage effectué, la fonction de transition est appliquée à tous les agents en
attente de traitement.
Cette décomposition facilite le lancement de traitements réguliers sur le GPU dont l’exécution
peut être ensuite parallélisée aisément par l’ordonnanceur CUDA.
FLAME-GPU a déjà établi les gains en performance pouvant être obtenus dans plusieurs types
de systèmes multi-agents [RWCR10, KRR10] mais impose, tout comme FLAME, un cadre très
strict de modélisation. Ce cadre est basé sur la décomposition du modèle en chacun de ces comportements,
des données et de toutes leurs interactions, pour permettre à la plate-forme de générer le
programme capable de les exécuter. Son utilisation n’est donc pas envisageable dans le cadre d’une
plate-forme multi-agents ou d’une implémentation existante, et requiert une réécriture complète
du modèle. Cette absence de portage incrémental impose une barrière d’entrée à l’utilisation du
GPU et rend également plus difficile la comparaison du modèle obtenu avec l’original, la gestion
du programme même n’étant plus directement du ressort du concepteur.
Si le formalisme et les plates-formes supportées par FLAME sont extensibles, comme l’illustre
l’existence de FLAME-GPU, cette extension se limite également à l’utilisation de CUDA, ce qui
limite son utilisation aux seuls matériels NVIDIA, et ne permet pas de tirer parti des cartes graphiques
d’autres fabriquants présents sur des machines personnelles.
3.4 Synthèse
Dans ce chapitre, nous avons montré les différentes approches de parallélisation possibles pour
des systèmes multi-agents, au niveau de l’ordonnanceur, des comportements ou de l’environnement.
Nous avons ensuite présenté la manière dont ces approches sont gérées et rendues plus
aisément accessibles pour le concepteur par quelques plates-formes multi-agents parallélisées. La
plupart de ces plates-formes permettent une exécution aussi bien en mémoire distribuée ou partagée,
en distribuant le passage des traitements à l’aide d’une collaboration de plusieurs ordonnanceurs.
Certaines de ces plates-formes gèrent aussi automatiquement la répartition de l’environne-CHAPITRE 3. PARALLÉLISATION DE SYSTÈMES MULTI-AGENTS 60
ment entre chaque tâche, pour résoudre tout problème de taille mémoire. De nombreuses solutions,
comme JADE, laissent toutefois cette responsabilité au concepteur, plus à même de décider si ces
structures doivent être recopiées ou accédées de manière distante dans sa simulation.
Si la parallélisation sur CPU est aujourd’hui supportée par de nombreuses plates-formes, la parallélisation
sur carte graphique est moins répandue. Cette architecture montre pourtant son intérêt,
dans le cadre de milliers d’agents à exécuter, par sa possibilité de disposer de plusieurs centaines
de coeurs sur une machine personnelle. Des modèles comme SugarScape, ou des implémentations
sous forme d’automates cellulaires ou de recherche de chemin mettent ainsi en avant l’intérêt
en termes de performance du GPU pour l’exécution de traitements homogènes, de type SIMD,
souvent rencontrés dans les systèmes multi-agents réactifs.
Le support du GPU n’est cependant pas totalement absent des plates-formes agents : des solutions
permettant d’utiliser CUDA existent déjà dans des modèles comme JADE. Des couches
d’abstraction, soit des perceptions dans le cas de TurtleKit, soit de tout le modèle dans le cas de
FLAME-GPU, existent également.II
Contribution63
Dans la première partie de notre mémoire nous avons présenté notre contexte, les systèmes
multi-agents et les GPU, et mis en avant l’intérêt de cette nouvelle architecture en termes d’accessibilité
et de performance, par rapport aux solutions de parallélisation classiques basées sur la
distribution en mémoire partagée ou en mémoire distribuée.
Dans cette seconde partie, nous introduisons et décrivons maintenant nos contributions à cette
problématique. Pour cela, nous commençons par étudier la parallélisation sur GPU d’un modèle
concret, le modèle proie-prédateur. Cette parallélisation est pour nous l’occasion d’une réflexion
sur les différentes représentations en termes de données et de comportements de ce système, et
leur impact sur une adaptation GPU.
Les contraintes rencontrées dans l’adaptation de ce modèle ouvrent alors la voie à une définition
des principales considérations nécessaires pour le portage d’un système multi-agents sur GPU.
Cette présentation est en particulier l’occasion de décrire les différents types de découpages des
données ou d’exécution devant être supportés par une bibliothèque pour permettre son utilisation
dans les systèmes multi-agents.
Ces contraintes nous servent de préambule pour présenter notre solution, MCMAS, et la manière
dont cette bibliothèque répond à ces problématiques d’exécution et de données. Pour cela,
nous commençons par présenter les principaux objectifs de MCMAS et leur traduction en termes
d’architecture de la bibliothèque. Nous présentons ensuite l’utilisation de MCMAS en tant que
bibliothèque de fonctions génériques, puis l’ajout de nouvelles fonctionnalités à cette solution.
L’utilisation de MCMAS est ensuite illustrée de manière expérimentale sur trois modèles :
— Proie-prédateur qui nous a servi de fil rouge dans notre propos.
— MIOR, un modèle d’évolution microscopique de sol s’intégrant dans le cas de la simulation
multi-échelles Sworm.
— Collemboles, enfin, un modèle permettant de décrire la diffusion de populations entre parcelles
de terrain importées depuis un système d’information géographique.
Une fois ces applications présentées, nous proposons quelques recommandations d’implémentation,
de manière à prendre en compte les éventuels différences en traitements des données et en
performance associées à chaque matériel d’exécution.4
Problematique ´
Comme nous l’avons vu dans le chapitre précédent de nombreux systèmes multi-agents ont
déjà été adaptés sur GPU. Dans la plupart des cas, ces adaptations sont basées sur une réécriture
complète du programme, directement à l’aide d’un modèle de programmation comme OpenCL ou
au moyen du formalisme spécialisé proposé par l’environnement FLAME-GPU.
La première approche, l’implémentation directe du modèle avec la programmation GPGPU,
permet un contrôle fin sur le programme obtenu mais requiert une expertise et un investissement en
temps conséquents pour pouvoir tirer parti efficacement des possibilités offertes par l’architecture
matérielle. Ces contraintes s’expliquent par la nécessité d’implémenter la totalité du système agent,
sans aucune infrastructure existante pour ce type de simulation.
La seconde approche, l’utilisation de FLAME-GPU, apporte une abstraction totale du mode
d’exécution en permettant au concepteur de n’avoir qu’à décrire les opérations de son modèle.
Elle repose sur l’utilisation de l’approche FLAME pour générer automatiquement le programme
GPU liant ces différentes actions. Cette abstraction présente cependant un coût, en contraignant la
structure des modèles multi-agents décrits dans un formalisme existant strict. Ce formalisme peut
être aisément utilisé pour la conception de nouveaux modèles mais rend difficile la comparaison
des simulations obtenues avec des simulations plus traditionnelles, du fait de la nature radicale
des changements apportés à l’algorithme. Il permet toutefois la disponibilité d’un support robuste
adapté aux agents, et ne laisse donc pas le concepteur livré à lui-même comme un modèle de
programmation plus générique.
Ces deux approches laissent place à une solution intermédiaire qui permettrait au chercheur de
disposer d’un support incrémental pour les traitements agents sur GPU, de manière à pouvoir y
exécuter tout ou partie de la simulation. Une telle solution doit également être capable de s’inté-
grer et de complèter une plate-forme multi-agents existante. Cette facilité d’intégration implique la
proposition d’une interface orthogonale à la modélisation du système, à même d’être utilisée aussi
bien dans des cadres basés sur la décomposition du système en messages et en comportement
que dans des simulations agents moins segmentées. Elle permet également de tirer parti des nombreuses
facilités d’implémentation et d’exécution déjà offertes par les plates-formes multi-agents
existantes.
Dans les sections suivantes nous présentons les propriétés nous paraissant particulièrement
importantes pour notre proposition, MCMAS 1
.
1. Many-Core Multi-Agent SystemsCHAPITRE 4. PROBLÉMATIQUE 66
4.1 Portabilité
Un premier élément nécessaire à l’intégration d’une nouvelle bibliothèque dans des systèmes
multi-agents existants est sa portabilité sur plusieurs systèmes d’exploitation. De nombreux chercheurs
utilisent en effet différents systèmes d’exploitation pour réaliser leurs simulations, comme
l’illustre la portabilité de plates-formes multi-agents telles que Repast, Madkit ou NetLogo.
Une nouvelle bibliothèque doit également être portable en termes d’utilisation, en se basant sur
les langages de programmation largement utilisés dans le domaine. Si C, C++ et Java sont présents
parmi les plates-formes multi-agents décrites dans notre contexte, c’est surtout ce dernier langage
qui est utilisé par de nombreuses plates-formes comme NetLogo, JADE, MadKit ou D-MASON.
Cette large utilisation s’explique par plusieurs avantages associés à l’environnement Java :
— La portabilité des programmes sans recompilation. Il est ainsi possible de distribuer une
seule version de la plate-forme pour tous les systèmes d’exploitations supportés.
— La disponibilité d’une bibliothèque graphique intégrée, Swing. Cette bibliothèque facilite
la réalisation de plates-formes interactives sans dépendances ou binaires externes.
— La possibilité de programmer en objet, de manière à représenter de manière intuitive les
différentes entités du modèle agent.
— La disponibilité de nombreux mécanismes d’exécution (threads) ou de communication
(RMI, JMS) et de nombreuses structures de données dynamiques directement dans la bibliothèque
standard.
— Une gestion de la mémoire automatique, qui facilite à la fois le développement de la plateforme
de simulation et des modèles multi-agents.
— La disponibilité de bibliothèques de gestion de données géographiques comme GIS, permettant
un import aisé d’informations externes dans la simulation.
Il est toutefois nécessaire de coupler Java à des couches d’adaptation native comme JOCL
pour permettre l’accès au modèle d’exécution GPU. Le choix du modèle de programmation utilisé
est également un élément de cette portabilité d’utilisation : si CUDA et OpenCL sont tous deux
disponibles sur de nombreux systèmes d’exploitations, OpenCL offre un plus grand choix de périphériques
d’exécution CPU ou many-cores que CUDA, qui reste limité à l’utilisation de matériels
Nvidia. Au vu de cette large disponibilité, le choix d’OpenCL paraît naturel pour notre solution,
en gardant toutefois à l’esprit que chaque architecture d’exécution ne fournira pas forcément les
mêmes performances pour les mêmes programmes.
4.2 Réutilisation d’algorithmes et de structures
Comme évoqué au début de notre problématique, l’utilisation directe de modèles de programmation
tels que OpenCL et CUDA pour l’adaptation d’un système multi-agents impose le redé-
veloppement par le concepteur de l’ensemble de ses traitements et de ses structures de données.
Ce développement requiert des connaissances poussées en programmation C ou C++ et un travail
important en termes d’adaptation de l’exécution et des structures de données.
Mené correctement, ce type d’adaptation permet d’obtenir une solution optimisée, au plus
proche des contraintes des données et des algorithmes utilisés par le modèle source. Cette solution
encourage toutefois, en imposant leur développement, l’utilisation de structures spécifiques
à chaque modèle adapté et difficilement réutilisables. Elle représente également un coût en temps
important devant être réinvesti à l’adaptation de chaque nouveau modèle. Dans ces circonstances,
l’intérêt d’une bibliothèque est de permettre et favoriser la réutilisation d’algorithmes et de struc-CHAPITRE 4. PROBLÉMATIQUE 67
tures de données.
Cette réutilisation peut être grandement facilitée en fournissant des implémentations optimisées
des traitements multi-agents les plus courants, prêtes à être employées par le modèle agent.
L’objectif de cette démarche est de proposer, à l’image de bibliothèques comme CUBLAS, des
fonctions de haut-niveau déjà adaptées aux principales problématiques rencontrées dans les systèmes
multi-agents. Ces problématiques peuvent aussi bien concerner la mise à jour de l’environnement
que le calcul de distances entre agents, la génération de nombres aléatoires ou encore le
regroupement des données à chaque pas d’exécution, de manière à pouvoir observer la dynamique
du modèle.
4.3 Intégration avec l’existant
De nombreuses plates-formes multi-agents ont pour objectif d’être une solution "tout en un"
aux problèmes de modélisation du chercheur. Elles comprennent dans cette optique de nombreuses
fonctionnalités annexes de conception et d’édition de modèle, d’affichage de l’environnement simulé
ou de courbes représentant l’évolution du modèle, ou de production de fichiers résultats.
Une solution pour les GPU visant à remplacer totalement ces plates-formes impliquerait d’intégrer
toutes ces fonctionnalités avant de constituer une alternative crédible, et représenterait une
nouvelle solution concurrente, ce qui n’est pas l’objectif de notre contribution.
La bibliothèque doit donc être capable de s’intégrer dans ces plates-formes à plusieurs niveaux
d’encapsulation du modèle. Elle ne doit notamment pas imposer un paradigme d’exécution particulier,
de manière à ne pas entrer en conflit avec le fonctionnement de la simulation. Cette transparence
est également importante pour permettre son utilisation dans des plates-formes n’employant
pas directement le langage Java, au moyen de modules additionnels (plugins) ou d’extension de la
syntaxe agent proposée. Pour décharger totalement le modèle de la gestion de cette bibliothèque,
il est possible d’envisager son intégration sous la forme d’agents services fournissant l’accès à des
services implémentés sur GPU au reste du modèle.
4.4 Extensibilité
La simulation orientée agent est un domaine en perpétuelle évolution, tant au niveau conceptuel,
dans le domaine par exemple de l’intelligence artificielle, qu’en termes d’implémentation,
avec l’arrivée de nouvelles architectures matérielles et de nouveaux modèles de programmation.
Ce dynamisme et cette flexibilité expliquent la popularité de cette approche de modélisation pour
la résolution de nombreux problèmes, mais soulignent également l’importance de proposer des
solutions modulaires et si possible génériques. Les avantages de cette modularité sont illustrés par
le succès des nombreuses plates-formes agents traditionnelles, fournissant un vaste ensemble de
fonctionnalités indépendantes pouvant être ou non exploitées par un modèle particulier : c’est ainsi
le cas de plates-formes comme D-MASON ou NetLogo [Skl11], qui proposent un découpage des
structures de données implicite, de JADE, avec la possibilité d’ajouter de nouveaux composants
de manière dynamique au système, ou encore de MadKit qui permet la surcharge de nombreux
comportements de la plate-forme. La généricité est également présente dans ces plates-formes
sous forme de cadre de modélisation et d’opérations facilitant la conception de nouveaux modèles
agents. Ce cadre peut être très souple, dans le cas par exemple de Madkit, ou beaucoup plus strict,
dans le cas des plates-formes FLAME ou FLAME-GPU.CHAPITRE 4. PROBLÉMATIQUE 68
Notre solution doit donc, au-delà de la flexibilité d’utilisation, permettre l’ajout aisé de fonctionnalités
et d’extensions sans remettre en cause son architecture fondamentale, de manière à
pouvoir traiter de nouveaux problèmes agents sur GPU.
4.5 Synthèse
Dans notre présentation du contexte, nous avons eu l’occasion d’évoquer le besoin en ressources
toujours plus important rencontré par les simulations en général et en particulier par les
simulations multi-agents. S’il est en effet courant de commencer par valider un système à petites
échelles, l’observation de certains comportements émergents requiert parfois un nombre minimal
d’individus [SN09]. L’amélioration des résultats obtenus par la simulation agent implique, de manière
plus générale, une augmentation en taille des modèles, que ce soit en termes de dimension
de l’environnement ou de nombres d’agents, et des comportements toujours plus complexes.
La parallélisation de l’exécution en mémoire partagée ou en mémoire distribuée est une réponse
à ce besoin toujours croissant en ressources mémoires et de calcul. Les architectures many-core
et GPU en particulier offrent l’accès à plusieurs centaines de coeurs d’exécution à des tarifs comparables
à ceux d’une machine de bureau, via des modèles de programmation comme CUDA et
OpenCL.
L’utilisation de ces architectures pour la simulation multi-agents n’est pas une idée nouvelle
et a déjà été explorée pour de nombreux modèles, sous forme de développement de nouvelles
implémentations complètes. Ces adaptations requièrent cependant une connaissance approfondie
des modèles de programmation et d’exécution GPU pour permettre l’obtention de programmes
efficaces. De nombreux concepteurs agents, théoriciens, n’ont pas le temps d’acquérir ces compé-
tences pour la réalisation de nouveaux modèles.
FLAME-GPU permet, a contrario, la génération de modèles agents basés sur CUDA sans
connaissance de ce modèle de programmation à partir de modèles FLAME. Cette solution impose
cependant l’utilisation du formalisme strict de cette plate-forme, et n’est donc pas accessible
à des modèles basés sur d’autres plates-formes agents parallèles ou séquentielles telles que Madkit,
NetLogo ou GAMA sans un redéveloppement complet.
Notre thèse est de montrer qu’une bibliothèque de ce type peut être développée de manière indépendante
et générique par rapport à ces plates-formes d’exécution multi-agents, pour permettre
son utilisation dans un large nombre d’environnements et de modèles existants.
Dans la suite de ce mémoire, nous présentons la démarche qui nous a mené à la conception
de MCMAS, une bibliothèque permettant de réaliser tout ou partie d’une simulation multi-agents
sur GPU. L’objectif de cette bibliothèque est de permettre une utilisation de cette nouvelle architecture
d’exécution de manière indépendante ou en complément de plates-formes de conception
et d’exécution multi-agents existantes. Elle reprend en compte, pour cela, les problématiques de
portabilité, de réutilisation, d’intégration et d’extensibilité évoquées dans ce chapitre dans un tout
cohérent, proposant deux niveaux d’utilisation, l’un adapté à son utilisation sans connaissances
GPU, l’autre à une extension aisée des fonctionnalités offertes par la bibliothèque.5
Adaptation d’un modele multi ` -agents sur
GPU : Proie-Predateur ´
Le modèle proie-prédateur est un modèle multi-agents inclus à titre de démonstration dans de
très nombreuses plates-formes agents. Il présente l’intérêt d’offrir un grand choix de niveaux de
représentation, mais également de nombreuses implémentations possibles. Dans ce chapitre, nous
l’utilisons comme illustration des types de problématiques agents devant être traitées pour une
adaptation sur GPU, tant en termes de mémoire que d’exécution.
5.1 Présentation du modèle
Le modèle proie-prédateur a été pour la première fois décrit de manière indépendante par Alfred
James Lotka en 1925 et par Vito Volterra en 1926 sous la forme d’un couple d’équations différentielles.
Ces équations, basées sur des observations effectuées au 19me siècle sur des populations
d’animaux sauvages, permettent d’estimer l’évolution en fonction du temps de deux populations,
carnivore et herbivore, en fonction des paramètres définis pour la simulation du modèle :
dx(t)
dt
= x(t)(α − βy(t))
dy(t)
dt
= −y(t)(δ − γx(t))
où
— t est le temps ;
— x(t) est le nombre de proies en fonction du temps ;
— y(t) est le nombre des prédateurs en fonction du temps ;
— les dérivées dx(t)/dt et dy(t)/dt représentent la variation des populations au cours du temps.
Les paramètres suivants décrivent les interactions entre les deux espèces :
— α le taux de reproduction des proies ;
— β le taux de mortalité des proies dû aux prédateurs ;
— γ le taux de mortalité des prédateurs ;
— δ le taux de reproduction des prédateurs.
Pour des paramètres d’entrée évitant la disparition totale de l’une ou l’autre des populations,
l’évolution du nombre d’individus de chaque type tend alors rapidement à osciller de manière
régulière entre périodes de faste et de famine. La Figure 5.1 illustre ces oscillations dans le temps.CHAPITRE 5. ADAPTATION D’UN MODÈLE MULTI-AGENTS SUR GPU : PROIE-PRÉDATEUR 70
α = 2
β = 0.5
γ = 0.2
δ = 6
0 20 40 60 80 100
0
5 10 15 20
Temps
Nombre d'individus
Proies
Prédateurs
Figure 5.1 – Exemple de courbes obtenues par l’application des équations de Lotka-Volterra
Cette première approche, mathématique, ne considère que les nombres d’individus du modèle
et des paramètres synthétisant leur évolution générale. Une autre approche de modélisation, orientée
agent, reproduit ces tendances en décrivant le comportement des individus mis en présence au
moyen d’actions élémentaires de bas niveau décrites sous forme d’algorithme.
Une approche agent possible est ainsi d’isoler trois niveaux d’évolution dans le modèle proieprédateur
:
— L’environnement, modélisant les ressources consommées par les proies (végétation). Il
s’agit d’un agent passif, modifié par les autres agents du système. Le seul traitement propre
lui étant associé est l’augmentation des ressources d’un facteur fixé entre chaque pas de
simulation, de manière à refléter la croissance et le remplacement des végétaux dans le
temps.
— Les proies, capables de se déplacer et de se reproduire. Lors de ce second processus, la
proie modifie l’environnement, pour répercuter la nourriture consommée.
— Les prédateurs, capables de se déplacer, de consommer des proies et de se reproduire. Ces
agents n’interviennent que sur les proies, et ne modifient pas directement l’environnement.
L’ajout d’un environnement basé sur les ressources en végétation s’inscrit dans l’optique de
décrire le système selon une approche montante, comme nous l’avons vu dans notre présentation
des approches de modélisation, plutôt que de se baser sur une observation de haut niveau pour
extrapoler le comportement de chaque individu, avec une approche descendante.
Ce modèle agent se caractérise par une relation stricte entre les populations, à sens unique.
Seuls les prédateurs sont à même d’influer sur les proies, qui sont seules à pouvoir influer sur
l’environnement. Par rapport à la modélisation mathématique du modèle proie-prédateur, cette re-CHAPITRE 5. ADAPTATION D’UN MODÈLE MULTI-AGENTS SUR GPU : PROIE-PRÉDATEUR 71
présentation agent introduit aussi une prise en compte de l’accès aux ressources de chaque agent,
en introduisant une répartition géographique des différentes entités du système. Cet aspect supplémentaire
permet non seulement d’obtenir des valeurs de population, comme le modèle mathé-
matique, mais ouvre également l’accès à des résultats plus précis, permettant de mettre en avant
l’influence de la répartition des ressources sur la position des agents dans l’environnement.
5.2 Stratégies de déplacement
Un facteur important de l’évolution du système proie-prédateur est l’algorithme de déplacement
utilisé. Cet algorithme détermine en effet non seulement la manière dont chaque agent considérera
les données de son voisinage, mais également le nombre de branchements et la régularité
du nombre d’opérations à effectuer, pour un bon remplissage des ressources GPU.
5.2.1 Déplacement aléatoire
Une première implémentation du déplacement des proies et prédateurs est la sélection d’une
destination aléatoire à chaque itération. Cette approche évite le parcours du voisinage de chaque
agent pour la recherche d’une cible, et donc de nombreux accès mémoire, mais est peu intéressante
à implémenter en termes de modèle et d’adaptation GPU :
— En termes de modélisation, elle est très peu cohérente avec le comportement de nombreuses
espèces animales capables de détecter et poursuivre des proies. Elle minimise également
artificiellement la population pouvant être supportée par le modèle, en ne laissant qu’une
chance minime, en fonction de la densité des ressources dans l’environnement, à chaque
individu de disposer des ressources nécessaires à sa survie.
— En termes d’adaptation sur GPU, ce comportement réduit la démarche de chaque individu
au simple tirage aléatoire d’un jeu de coordonnées. Ce tirage rend inutile tout parcours
de données sur GPU, et ne requiert plus qu’une gestion des conflits et la génération de
nombres aléatoires. Ces deux processus sont difficiles à réaliser sans rendre partiellement
séquentiels les deux traitements, ce qui limite l’intérêt des centaines de coeurs offerts par
l’architecture.
Cette stratégie de déplacement aléatoire est surtout utilisée pour valider le fonctionnement
d’une nouvelle simulation.
5.2.2 Proie la plus proche
Cette seconde stratégie implique un parcours pour chaque individu de l’ensemble des cases du
modèle qui sont à sa portée, suivi par un déplacement sur la position de la proie la plus proche. Elle
requiert un grand nombre d’accès mémoires pour évaluer toutes les cases destinations possibles,
ainsi qu’une notion de priorité entre ces cases : une case proche contenant une proie doit être
préférée à une autre case solution plus éloignée.
Une manière d’éviter le calcul de la distance de chaque proie est d’effectuer le parcours des
cases voisines sous forme d’une spirale comme illustré par la Figure 5.2. Ce parcours en spirale
permet non seulement de garantir que les proies seront automatiquement considérées par ordre
d’éloignement, mais offre également l’avantage de pouvoir arrêter l’évaluation à la première proie
détectée (court-circuit).CHAPITRE 5. ADAPTATION D’UN MODÈLE MULTI-AGENTS SUR GPU : PROIE-PRÉDATEUR 72
individu
cible
rayon
Figure 5.2 – Principe de recherche de la proie la plus proche
Cet algorithme est aisément parallélisable sur GPU en attribuant une tâche à chaque individu,
puis en effectuant le parcours des cellules voisines sous forme de boucle à l’intérieur de chacune de
ces tâches. Il implique néanmoins, du fait de la condition d’arrêt, une forte variabilité du nombre
de cellules à parcourir et donc du temps d’exécution de chaque tâche.
Il n’est pas facile de paralléliser davantage ce parcours en spirale en confiant l’examen de
chaque case candidate à un thread distinct. Cet algorithme de déplacement requiert en effet la prise
en compte des cases dans un ordre particulier, qui n’est pas garanti par l’ordonnanceur GPU. Une
solution à ce problème est d’introduire un calcul de la distance pour chaque destination potentielle,
suivie d’une réduction pour ne conserver que la cible détectée la plus proche de l’individu.
Cette stratégie minimise la distance de déplacement de chaque prédateur, mais n’est pas forcé-
ment la meilleure en termes de survie à moyenne ou longue échéance, car la proie la plus proche
n’est pas forcément la plus dotée en énergie.
5.2.3 Proie la plus énergétique
Une autre stratégie de déplacement possible est de sélectionner cette fois systématiquement
la proie à portée disposant de la plus grande quantité d’énergie. Cette stratégie, qui permet de
toujours sélectionner la proie la plus intéressante immédiatement accessible, garantit la sélection
d’une proie équivalente ou supérieure en énergie par rapport à la sélection de la cible la plus
proche. Elle impose cependant le parcours de l’ensemble des cases à portée avant de pouvoir tirer
une conclusion, tel qu’illustré par la Figure 5.3. Le nombre d’accès à la mémoire est d’autant plus
important, en comparaison avec la recherche de la proie la plus proche, que le modèle est dense.
Ce parcours obligatoire de l’ensemble des cellules à portée rend cette stratégie beaucoup plus
coûteuse en nombres d’accès mémoire. L’absence de priorité entre les différentes cases voisines
permet cependant des accès plus réguliers sur GPU, ligne par ligne ou colonne par colonne, pour
mieux tirer parti du chargement des données par paquet ou du regroupement des accès mémoire
réalisés à l’exécution.
5.2.4 Compromis et stratégies avancées
En fonction de l’intelligence du prédateur modélisé, il peut être pertinent de combiner une ou
plusieurs des stratégies suggérées ci-dessus. Ainsi, si aucune proie n’est à portée d’un individu,
un déplacement aléatoire par défaut offre une chance de se rapprocher de densités de proie plusCHAPITRE 5. ADAPTATION D’UN MODÈLE MULTI-AGENTS SUR GPU : PROIE-PRÉDATEUR 73
individu
cible
rayon
Figure 5.3 – Principe de recherche de la proie la plus énergétique
importantes. Ce déplacement comporte cependant également le risque d’éloigner l’individu des
ressources recherchées, et son intérêt est donc très dépendant des paramètres du modèle et de la
répartition géographique des agents. Nous avons fait le choix dans notre modèle de ne pas déplacer
l’individu en l’absence de cible, pour éviter ce problème.
Au-delà de ces compromis instantanés entre plusieurs comportements, la recherche de cible
ouvre également la voie à de véritables intelligences, avec mémorisation des proies. Il est ainsi
possible d’intégrer la possibilité pour le prédateur de suivre sa proie si celle-ci quitte son champ
de vision immédiat. Un autre mécanisme pouvant être implémenté est un comportement de persistance
: si plusieurs cibles offrent des caractéristiques très similaires, mais deviennent tour à tour
les plus intéressantes du fait de micro-variations du modèle entre chaque itération, il est alors pertinent
de pousser l’individu à se concentrer sur une seule cible, plutôt que de dépenser son énergie
à courir dans diverses directions.
5.3 Adaptation OpenCL
Après avoir présenté les principales approches de modélisation possibles pour le modèle proieprédateur
et en particulier les différents algorithmes de déplacement et leur influence sur la simulation,
tant en termes de modèle que de parallélisation, nous étudions dans cette section les choix
d’implémentation effectués pour notre implémentation OpenCL.
5.3.1 Algorithme retenu
Pour évaluer l’efficacité de l’adaptation de ce type d’algorithme sur plate-forme GPGPU, nous
avons choisi d’implémenter l’algorithme proie-prédateur décrit dans l’algorithme 1.
Cette implémentation est caractérisée par la simulation de trois populations, dont deux repré-
sentent des prédateurs :
— L’herbe, ou végétation représente les ressources végétales pouvant être consommées par
la population herbivore du modèle.
— Les proies représentent la première population prédatrice du modèle, capables de consommer
des végétaux, de se déplacer et de se reproduire. Cette population est caractérisée par
son abondance, liée à des besoins limités et un taux de fertilité important.
— Les prédateurs représentent la seconde population prédatrice du modèle, capable de
consommer des proies de la première population. Cette seconde catégorie d’individus estCHAPITRE 5. ADAPTATION D’UN MODÈLE MULTI-AGENTS SUR GPU : PROIE-PRÉDATEUR 74
Algorithme 1 : Algorithme proie-prédateur retenu
Data : grass Grille de flottants représentant la couche herbe
Data : preys Grille de flottants représentant la couche proies
Data : preds Grille de flottants représentant la couche prédateurs
Data : n Largeur de chacune des trois grilles d’entrée
Data : m Hauteur de chacune des trois grilles d’entrée
1 for i = 0 to n do
2 for j = 0 to m do
3 grass[i][j] ← grass[i][j] + growth;
4 end
5 end
6 for (i, j) ∈ (proiesX, proiesY) do
7 x, y ← f indT arget(i, j);
8 if preys[i][j] vide then
/* Déplacement de la proie en x, y */
9 preys[x][y] ← preys[i][j];
10 preys[i][j] ← 0;
11 end
/* Consommation des végétaux */
12 preys[x][y] ← clamp(preys[x][y] + grass[x][y], prey_min, prey_max);
/* Diminution de l’énergie de la proie */
13 preys[i][j] ← preys[i][j] − delta;
14 if preys[i][j] < 0 then
/* Décès de la proie */
15 preys[i][j] ← 0;
16 end
17 end
18 for (i, j) ∈ (predateursX, predateursY) do
19 x, y ← f indT arget(i, j);
20 if preds[i][j] vide then
/* Déplacement du prédateur en x, y */
21 preds[x][y] ← preds[i][j];
22 preds[i][j] ← 0;
23 end
/* Consommation de la proie */
24 preys[x][y] ← 0;
/* Diminution de l’énergie du prédateur */
25 preds[i][j] ← preys[i][j] − delta;
26 if preds[i][j] < 0 then
/* Décès du prédateur */
27 preds[i][j] ← 0;
28 end
29 endCHAPITRE 5. ADAPTATION D’UN MODÈLE MULTI-AGENTS SUR GPU : PROIE-PRÉDATEUR 75
associée à des besoins plus importants, et un taux de fertilité relativement plus faible.
Cet algorithme pose plusieurs problèmes de parallélisation :
— L’évolution de chaque population dépend des mises à jour des populations précédentes.
— Plusieurs individus d’une même population peuvent tenter de se déplacer au même endroit.
— L’algorithme repose sur le parcours des positions des proies et des prédateurs. Cette liste
de positions doit être mise à jour au fur et à mesure de la disparition et de l’apparition de
nouveaux individus.
5.3.2 Représentation mémoire
Dans notre implémentation OpenCL, nous avons fait le choix de représenter les données globales
du modèle sous la forme d’une unique structure mémoire accessible en lecture seule à toutes
les tâches GPU. Ces informations comprennent l’ensemble des données d’entrée de la simulation :
taux de métabolisme et de croissance des ressources végétales, énergie minimale et maximale pour
chaque individu...
Chaque population est stockée sous forme de grille à deux dimensions (Figure 5.4). Toutes ces
grilles font la même taille, et peuvent être considérées comme une vision particulière de l’espace
de simulation. La présence d’un agent est indiquée par une énergie strictement positive dans une
cellule, et l’absence d’individu correspond à une valeur d’énergie négative ou nulle.
Prédateurs
Proies
Végétation
Figure 5.4 – Stockage retenu pour les populations et les niveaux d’énergie du modèle proieprédateur
Pour éviter un parcours complet de chaque grille pour localiser les individus, quatre tableaux
statiques indiquant la position des agents proies et prédateurs du modèle sont également spécifiés
en paramètres des traitements de mise à jour et de déplacement :
— Un tableau comprenant les positions en x des proies.
— Un tableau comprenant les positions en y des proies.
— Un tableau comprenant les positions en x des prédateurs.
— Un tableau comprenant les positions en y des prédateurs.
Ces tableaux de positions sont mis à jour par le CPU entre chaque itération de la simulation
pour prendre en compte l’apparition de nouveaux individus ou les décès d’agents existants. Cette
mise à jour sur le processeur hôte permet d’éviter toute problématique de réallocation mémoire
non supportée sur GPU.CHAPITRE 5. ADAPTATION D’UN MODÈLE MULTI-AGENTS SUR GPU : PROIE-PRÉDATEUR 76
5.3.3 Extraction de sections parallèles
Il est possible de paralléliser le modèle proie-prédateur de deux manières sur GPU :
— Soit en réalisant l’ensemble de la simulation sur GPU.
— Soit en n’intervenant que sur les traitements coûteux et parallélisables.
La première approche implique de gérer la totalité des problèmes de parallélisation posés par le
modèle en OpenCL, et en particulier la gestion des structures de données dynamiques comprenant
les positions des proies. Elle implique également le traitement de populations agents très diverses
en nombre, qu’il s’agisse de l’herbe, des proies, ou des prédateurs. Cette diversité impose soit une
réalisation de la simulation en plusieurs lancements OpenCL, soit une occupation très disparate
des threads d’exécution lancés sur la carte graphique aux différents stades de l’exécution.
Nous avons donc fait le choix de privilégier la seconde approche, où la simulation est au départ
intégralement réalisée sur CPU, pour en adapter ensuite un ou plusieurs traitements sur GPU. Dans
ce cas, un point central de l’adaptation est de sélectionner les portions du programme à même de
bénéficier d’une parallélisation sans modification fondamentale de l’algorithme. Cette sélection est
favorisée par l’existence dans le modèle d’opération de transformation ou de réductions analogues
à celles proposées par des bibliothèques telles que BLAS ou MPI. C’est en particulier le cas de
l’opération de mise à jour des ressources végétales, qui correspond à l’application d’une même
fonction mathématique à chaque cellule de l’environnement, et le cas de la réduction de la quantité
d’énergie présente dans le modèle.
Dans l’algorithme décrit, trois traitements semblent de bons candidats à une telle extraction :
— La mise à jour des ressources végétales. L’application d’une transformation mathématique
simple à chaque cellule, sans dépendance sur ses voisines, permet l’utilisation d’une
tâche OpenCL pour la mise à jour de chaque cellule. L’absence de synchronisation permet
ainsi de tirer aisément parti du grand nombre de coeurs du GPU. Le coût de cette section
est également directement proportionnel à la taille de l’environnement de simulation, plutôt
qu’au nombre d’individus présents dans le modèle, ce qui garantit un temps de calcul
important et aisément prévisible en connaissant les dimensions du modèle d’entrée. Cette
opération revient à l’application d’une même fonction mathématique à chaque cellule de
l’environnement.
— La recherche des nouvelles positions pour chaque individu. Si la gestion des individus
est malaisée à implémenter de manière intégrale sur GPU, du fait de l’apparition ou de
la disparitions des agents, ou des nombreuses conditions rencontrées dans l’algorithme, la
recherche de cibles de déplacement implique le parcours d’un nombre de cellules d’autant
plus important que le nombre et la portée de chaque agent augmentent. Réaliser ce calcul
sur GPU permet le parcours de cellules en parallèle pour chaque position d’individu du
modèle, et laisse ensuite la possibilité au CPU d’intervenir au niveau de la prise en compte
de cette valeur brute, en l’ignorant ou l’adaptant si nécessaire.
— Totalisation des quantités d’énergie présentes dans le modèle. Le choix de représentation
de chaque population dans une grille spécialisée, enfin, permet aisément d’effectuer
la somme des valeurs de l’ensemble des cellules de la grille pour obtenir l’énergie totale
à une itération donnée représentée sous forme de végétaux, de proies ou de prédateurs.
Ce traitement revient à une forme de réduction cas de la quantité d’énergie présente dans
chaque grille du modèle.CHAPITRE 5. ADAPTATION D’UN MODÈLE MULTI-AGENTS SUR GPU : PROIE-PRÉDATEUR 77
5.4 Synthèse
Dans ce chapitre, nous avons évoqué une parallélisation possible du modèle proie-prédateur
reposant sur la délégation de certaines fonctions au GPU. La parallélisation d’une partie du modèle
est motivée par deux observations :
— Certains traitements correspondent directement à des opérations déjà parallélisées par des
bibliothèques telles que BLAS ou MPI. C’est en particulier le cas de l’opération de mise à
jour des ressources végétales, qui revient à l’application de la même fonction mathématique
à chaque cellule de l’environnement, et le cas de la réduction de la quantité d’énergie
présente dans le modèle.
— D’autres traitements, comme le déplacement, impliquent la réalisation d’un grand nombre
d’itérations de boucle pour chaque agent dans le modèle. Dans ce cas, cette opération
de recherche peut être parallélisée, de manière à permettre à tous les agents de consulter
l’environnement simultanément.
Au vu de notre contexte et de cette première démarche de parallélisation d’un système multiagents,
il est maintenant possible de présenter les différentes approches pouvant être utilisées pour
l’adaptation de ce type de système sur GPU.6
Methodes d ´ ’adaptation SMA sur GPU
Au vu de notre contexte et de notre démarche de parallélisation du modèle proie-prédateur
en OpenCL, il est possible de dégager trois méthodes principales d’utilisation du GPU pour des
simulations multi-agents : l’adaptation de la totalité du modèle, la parallélisation de certaines opé-
rations, ou le recours à des opérations parallélisées existantes.
La première approche, l’adaptation de la totalité du modèle, implique l’implémentation de l’ensemble
de l’algorithme sur GPU par le concepteur. Dans ce cas, l’essentiel de la simulation utilise
le langage et les structures de données OpenCL pour son exécution, et la gestion de l’allocation,
de la copie et de la manipulation des structures de données est directement effectuée par le programme.
Cette solution permet également un contrôle total de l’exécution par le programme.
La seconde approche, la parallélisation de certaines opérations seulement sur GPU, vise à maximiser
le gain en performance obtenue tout en conservant une démarche de parallélisation incré-
mentale. Cette approche partielle permet de conserver les aspects complexes de la simulation sur
le CPU, comme dans le cas de la gestion des listes de positions de chaque individu dans le modèle
proie-prédateur. Elle requiert elle aussi une expertise en programmation pour implémenter
ces opérations parallélisées.
La troisième approche, enfin, est de réutiliser des opérations de haut niveau déjà parallélisées
sur GPU. Cette approche permet l’utilisation de la puissance des cartes graphiques dans une simulation
multi-agents sans connaissance particulière de l’architecture. Elle implique toutefois de
se conformer à l’interface de ces fonctions existantes en visant une certaine généricité des traitements.
Dans le modèle proie-prédateur, il est ainsi intéressant de se ramener à des opérations
matricielles, plutôt que d’effectuer le traitement de chaque case de manière indépendante.
Dans les sections suivantes, nous présentons dans un premier temps comment l’espace de simulation
utilisé par le système multi-agents est susceptible d’orienter le choix du concepteur vers
l’une ou l’autre de ces approches. Nous évoquons ensuite, pour chacune de ces trois solutions, les
contraintes associées pour permettre une utilisation efficace de la parallélisation sur GPU.
6.1 Gestion de la dimension spatiale
L’algorithme d’évolution d’un système multi-agents ne fixe généralement pas de bornes particulières
au nombre d’individus ou à la taille de l’environnement utilisé dans le modèle. Ces deux
paramètres sont déterminés par le scénario de la simulation.
Une connaissance même approximative de ces paramètres au moment de la conception d’un
programme permet cependant au développeur de privilégier a priori certaines structures de données.
Le choix d’utiliser un dictionnaire se justifie ainsi pour indexer un grand nombre d’éléments,CHAPITRE 6. MÉTHODES D’ADAPTATION SMA SUR GPU 80
mais s’avère au contraire pénalisant pour une très petite quantité de données, du fait des traitements
supplémentaires requis par la gestion de la structure.
Cette connaissance préalable est également importante dans le cadre de l’implémentation d’un
système multi-agents : si certaines portions de l’algorithme présentent un coût constant, comme
l’initialisation des variables globales, d’autres sont directement liées à ces paramètres d’exécution.
La mise à jour des agents peut ainsi présenter un coût linéaire par rapport au nombre d’agents
présents dans le modèle. Au contraire, la recherche dans un voisinage dans un espace de simulation
en deux dimensions représente un coût évoluant de manière quadratique.
Suivant les modèles, cette topologie spatiale est présente sous forme de structure de données
explicite, dans le cas du modèle proie-prédateur, ou de manière plus abstraite. Ce second type est
illustré par le graphe d’accessibilité utilisé pour le modèle MIOR plus loin dans ce mémoire.
Cette variation des coûts en fonction des paramètres d’entrée influence directement les performances
obtenues par une implémentation particulière, et en particulier par une adaptation sur le
GPU, en application de la loi d’Amdhal. Si les portions adaptées sur GPU sont parallélisables et
deviennent de plus en plus coûteuses avec l’augmentation du nombre d’agents ou de la taille de
l’espace de simulation, l’utilisation de cette plate-forme sera alors d’autant plus avantageuse en
regard au CPU que ces deux paramètres augmentent. Au contraire, si le coût de ces portions parallélisées
reste constant ou très limité dans la plage de paramètres qui intéresse le chercheur, les
gains offerts par telle adaptation seront plus limités.
Dans toute expérimentation, il apparaît donc prometteur d’identifier les traitements dont le coût
augmente rapidement en regard de l’espace de simulation du système, puis d’évaluer l’impact sur
les performances de ces traitements sur différentes tailles du système, si possible avec un facteur
de mise à l’échelle assurant un comportement identique de la simulation.
6.2 Développement d’un modèle sur GPU
La première approche de parallélisation d’un système multi-agents sur GPU est de réaliser l’ensemble
du modèle sur ce support. De nombreuses réalisations de ce type ont été présentées dans
la section 3.3.1. Cette approche requiert toutefois la maîtrise du modèle de programmation GPU,
ainsi que la gestion de nombreuses problématiques par le concepteur du modèle. Nous détaillons
ces différentes problématiques dans la suite de cette section.
6.2.1 Implémentation des structures de données
OpenCL ne spécifie pas, en tant que standard basé sur le langage C, de structures telles que les
listes chaînées ou les grilles : les seules structures de données gérées directement par le langage
sont les types primitifs, les structures et les tableaux statiques. Pour pouvoir adapter un modèle
multi-agents sur GPU, il est donc nécessaire de convertir toutes les structures décrites dans le
modèle en combinaison d’un ou plusieurs de ces types de données.
Cette restriction limite le modèle à l’utilisation de tableaux statiques à une dimension ou à
des structures spécifiques telles que les textures pour représenter les grilles souvent rencontrées
dans les systèmes multi-agents. Cette conversion en structures de données implique des choix de
représentation. La Figure 6.1 illustre ainsi deux manières possibles de représenter une matrice en
OpenCL, sur la base d’une linéarisation ligne par ligne ou colonne par colonne. Chacune de ces alternatives
est adaptée à un mode particulier d’accès aux données. La linéarisation par ligne permetCHAPITRE 6. MÉTHODES D’ADAPTATION SMA SUR GPU 81
1 2 3
4 5 6
7 8 9
1 2 3 4 5 6 7 8 9
1 4 7 2 5 8 3 6 9
Linéarisation par lignes
Linéarisation par colonnes
Figure 6.1 – Linéarisation par lignes ou par colonnes d’une grille à deux dimensions
de tirer un meilleur parti de la localité des données en cas de traitements sur des lignes complètes
de matrice, et en particulier du chargement des données par paquet par la carte graphique. Elle
est également adaptée à la répartition des cellules de chaque ligne entre plusieurs traitements, en
permettant à la carte graphique de grouper l’accès aux données voisines en mémoire. Ces deux
avantages disparaissent dans le cas d’un traitement de la matrice colonne par colonne où il sera
alors nécessaire de préférer une linéarisation par colonnes, pour les mêmes raisons.
La conversion de ces structures est rendue plus difficile en OpenCL, par rapport au C, par
l’impossibilité d’utiliser des pointeurs à l’intérieur des structures de données GPU [ope]. Toute
structure basée sur ce concept (liste chaînée, graphe...) doit également être représentée sur GPU
sous forme d’un ou plusieurs tableaux statiques ou d’objets texture avec une perte en flexibilité
d’utilisation.
La gestion de ces représentations alternatives doit être prise en charge à la fois au niveau du
système hôte, pour permettre l’allocation et l’initialisation de ces structures de données, et au
niveau du périphérique d’exécution. La plupart des bibliothèques OpenCL décrites dans notre
contexte se focalisent sur l’utilisation de structures et d’opérations du côté hôte uniquement, en
délégant à l’implémentation le soin de gérer les données indiquées, même si des bibliothèques
comme ELMO [FVSS13] facilitent certains traitements au niveau de l’exécution GPU.
6.2.2 Allocation et gestion de la mémoire
OpenCL requiert également une gestion totalement manuelle de la mémoire de la part du dé-
veloppeur, au contraire de langages comme Java ou de nombreuses plates-formes multi-agents qui
intègrent un mécanisme de ramasse-miettes chargé de la libération automatique des ressources.
Cette gestion manuelle de la mémoire est basée sur un mécanisme de comptage des références
à chaque objet natif OpenCL, où la mémoire est libérée une fois que plus aucune référence n’existe
sur l’objet. Ce mécanisme implique une vigilance importante de la part du développeur pour s’assurer
que les ressources natives sont effectivement libérées après utilisation.
Une dernier aspect important de la gestion en mémoire est que son allocation repose, comme
en C, sur la demande d’un espace de taille fixée au système. La zone mémoire obtenue n’est pas
typée, et peut être utilisée indifféremment pour n’importe quel type de donnée. Si cette généricité
permet d’envisager la réutilisation du même espace mémoire pour plusieurs données du modèle,
elle empêche également toute vérification automatique de son utilisation par le compilateur ou la
plate-forme d’exécution.
Les espaces mémoires obtenus sont également caractérisés, comme en C, par l’absence de toute
vérification de la validité des accès. Il est ainsi aisément possible, en manipulant des tableauxCHAPITRE 6. MÉTHODES D’ADAPTATION SMA SUR GPU 82
de données, d’écrire ou de lire à des adresses mémoires invalides. Ce type d’erreur n’est pas
nécessairement détecté par la plate-forme d’exécution, et impose une grande vigilance dans l’accès
aux structures de données pour éviter de corrompre silencieusement les données de la simulation.
6.2.3 Gestion de l’exécution
Au-delà de la gestion de la représentation des données du modèle, la réalisation d’un modèle
multi-agents directement sur GPU pose la question de la granularité de parallélisation de l’exécution
et du type de distribution des données à retenir : est-il préférable d’effectuer la totalité de la
simulation en un seul lancement de kernel ? Vaut-il mieux, au contraire, découper l’exécution en
plusieurs kernels correspondants à des données et des traitements différents ? Comment découper
l’algorithme utilisé en threads ?
Granularité de parallélisation
La décomposition du traitement à effectuer en nombreux threads est un pré-requis important
pour une exécution efficace du nombre important de coeurs fournis par l’architecture matérielle
GPU. L’exécution d’un agent à la fois n’a ainsi aucun intérêt si l’exécution de cet agent n’est pas
parallélisable et coûteuse en soi, du fait des coûts de transfert, du faible taux d’occupation et des
temps d’exécution obtenus.
Une manière d’assurer ce découpage est d’exécuter tous les agents du modèle de manière simultanée
(parallélisation "en largeur"), en associant chaque agent à un thread d’exécution. Une
alternative est une parallélisation dite "en profondeur", dans laquelle chaque agent réalise un ou
plusieurs calculs coûteux à même d’être largement parallélisés, de manière à justifier son exécution
indépendante sur GPU.
Le choix du nombre de kernels devant être utilisés pour la réalisation de la simulation dépend
de plusieurs facteurs :
L’algorithme a un impact primordial sur le type de parallélisation retenue. Il peut être aisément
parallélisable, s’il s’agit par exemple d’un traitement indépendant sur chaque élément d’une grille
d’entrée, ou au contraire imposer de nombreuses synchronisations entre agents. Si tous les threads
d’une exécution doivent conclure les mêmes opérations avant de pouvoir continuer l’exécution
de la simulation, des barrières d’exécution deviennent nécessaires. Le découpage en programmes
distincts est un autre moyen d’obtenir implicitement ce type de synchronisation.
Le nombre de threads (work-items) devant être lancés. Le nombre et l’organisation des
threads associés à un kernel sont fixés au niveau du lancement et ne peuvent pas être modifiés en
cours d’exécution. Si plusieurs populations d’agents de tailles variées, ou des structures de taille
très variées, existent dans le modèle, il est préférable d’utiliser un découpage adapté à chaque
population, plutôt qu’un unique découpage peu adapté, de manière à maximiser l’utilisation des
threads lancés. Le lancement en un seul kernel d’une simulation proie-prédateur comprenant 2000
proies et 100 prédateurs implique ainsi l’utilisation de 2000 works-items, si chaque population doit
être traitée en parallèle. Si ce découpage est optimal en regard du nombre de proies, seuls 5% des
threads seront effectivement utilisés pour la simulation les prédateurs, ce qui induit une irrégularité
importante en temps de traitement sur GPU.
Les dépendances de données. Le type des données manipulées et leur utilisation dans les
différentes phases de l’exécution ont également leur importance en termes de découpage. Ainsi,
les objets textures ne sont accessibles qu’en lecture ou en écriture au sein d’un même lancement.CHAPITRE 6. MÉTHODES D’ADAPTATION SMA SUR GPU 83
Les dépendances de transfert. Certaines données peuvent également demander des traitements
intermédiaires sur CPU avant de poursuivre l’exécution sur GPU. Dans ce cas, l’application
de ces traitements requiert une récupération des données par le CPU, un calcul, puis une nouvelle
copie sur GPU, et les coûts de transferts associés.
La fréquence et le nombre des transferts devant être réalisés. Le fait de déléguer une partie
de la simulation au GPU impose l’échange régulier de données entre les deux plates-formes d’exé-
cution, pour la mise à jour de la simulation ou la récupération de résultats. S’il est plus intéressant
d’effectuer tous les traitements en un minimum de lancements, pour limiter les coûts associés à ces
transferts, des contraintes en termes de découpage d’exécution, évoqués dans le paragraphe précé-
dent, ou en termes de visualisation de la simulation peuvent imposer le découpage de la simulation
en plusieurs étapes de traitement.
Distribution des données
L’exécution en OpenCL est basée sur le découpage de la tâche en une grille à une, deux ou trois
dimensions de threads (ou work-items) exécutant le même traitement pour l’accès aux données.
Chacun de ces threads est associé à une position dans cette grille. Dans ces circonstances, il est
naturel de souhaiter adapter ce découpage d’exécution au découpage retenu pour les données, de
manière à pouvoir utiliser ces positions dans les traitements. Pour les systèmes multi-agents, cette
association revient souvent à associer un thread à chaque agent en cours de traitement du système.
Cette association entre index dans la grille d’exécution et agent ouvre la voie à deux possibilités
de représentation des données des agents dans le modèle, illustrées par la Figure 6.2.
positionX
positionY
positionZ
positionX
positionY
positionZ
positionX
positionY
positionZ
positionX
positionY
positionZ
x1 x2 x3 x4 ... xn
x
y
z
x2
y2
z2
x3
y3
z3
...
xn
yn
zn
x1
y1
z1
y1 y2 y3 y4 ... yn
z1 z2 z3 z4 ... zn
x4
y4
z4
Agent 1
Agent 2
Agent 3
Agent 4
positionX
positionY
positionZ
positionX
positionY
positionZ
positionX
positionY
positionZ
positionX
positionY
positionZ
Agent 1
Agent 2
Agent 3
Agent 4
Figure 6.2 – Représentations possibles des propriétés multi-agents en termes de structures OpenCL
La première approche pour le stockage de ces données est d’associer à chaque ensemble de
propriétés son propre tableau à une dimension. Dans le cas où chaque agent est associé à un triplet
de coordonnées réelles (x, y,z) représentant sa position dans l’espace de simulation, ce processus
se traduit par le stockage de ces informations sous forme de trois tableaux de réels, un parCHAPITRE 6. MÉTHODES D’ADAPTATION SMA SUR GPU 84
coordonnées. Le nombre de tableaux à une dimension obtenu est directement lié au nombre de
propriétés différentes associées à chaque agent : si ce nombre augmente, le nombre de tableaux
nécessaires, et donc le nombre de paramètres devant être passés au programme, augmente également.
Si le modèle agent décrit plusieurs types d’individus différents, dotés ou non de certaines
propriétés, un choix se pose alors au concepteur du stockage mémoire : soit d’effectuer l’union de
tous les ensembles de propriétés stockés dans le modèle, soit de dédier à chaque type d’agent son
ensemble de tableau, sans réutilisation. Le premier cas permet de limiter l’explosion du nombre
de paramètres quand de nombreuses informations sont communes à toutes les catégories d’agents,
comme une position. Elle signifie cependant que chaque tableau de propriétés n’est plus applicable
à l’ensemble des agents, et comprendra donc des “lacunes” correspondant aux agents pour
lesquels cette propriété n’est pas définie. Ces lacunes peuvent avoir à être ignorées au moyen de
tests nuisant à l’utilisation effective des coeurs d’exécution en forçant le matériel à évaluer les
deux branches de la condition. Le second cas évite ce problème, chaque propriété étant définie
pour l’ensemble du type d’agent décrit, au prix d’une multiplication du nombre de structures de
données devant être gérées dans la programmation du modèle.
Une seconde approche est une programmation “objet”, où chaque ensemble de propriétés est
stocké dans sa propre structure spécialisée. Il est dans ce cas important de prendre en compte
l’augmentation de l’espace mémoire engendré par l’alignement des attributs de chaque structure.
Une règle simple pour minimiser ces pertes mémoires est, autant que possible, d’organiser les
propriétés par ordre de taille dans la description de la structure. Cette opération n’est pas effectuée
automatiquement par la plupart des compilateurs pour éviter de produire des représentations
binaires différentes, et donc des incompatibilités, en fonction du logiciel utilisé pour compiler
chaque portion de programme.
Le choix de l’une ou l’autre de ces solutions est à la fois gouverné par les considérations dé-
crites en termes de stockage (nombre de paramètres nécessaires, de types distincts, recouvrement
ou non de nombreuses propriétés entre les agents) et par l’algorithme lui-même, et plus particuliè-
rement l’ordre et le mode d’accès aux données. Ainsi, dans le cadre d’un kernel où tous les agents
accèdent à une seule propriété, un stockage des propriétés par tableaux permet de récupérer cette
information pour tous les agents voisins en une seule requête, du fait des lectures par paquet effectuées
par le GPU. Si l’exécution de chaque agent est au contraire basée sur l’accès à ses propres
données uniquement, l’utilisation de tableaux de structures permet dans ce cas de récupérer toutes
les propriétés associées à l’agent de manière simultanée.
6.2.4 Diagnostic des erreurs
Le développement et le diagnostic des erreurs de modèles complets sur GPU sont rendus diffi-
cile par l’impossibilité d’écrire des informations de diagnostic dans une sortie ou dans un fichier
pendant l’exécution OpenCL.
La récupération des erreurs est également rendue ardue par la nature asynchrone de l’exécution
sur GPU. Cette asynchronisme se traduit par une vérification des erreurs sur de nombreuses implémentations
d’OpenCL au moment de la soumission de la prochaine opération seulement. Cette
soumission peut n’avoir aucun rapport avec l’exécution fautive ou être éloignée, ce qui retarde la
découverte du dysfonctionnement.
Enfin, la remontée des erreurs est effectuée, comme en C, sous forme de codes de retours
prédéfinis n’indiquant pas la source et la position précise de l’erreur dans le programme. Ces
codes d’erreurs sont de plus susceptibles de varier entre implémentations d’OpenCL.CHAPITRE 6. MÉTHODES D’ADAPTATION SMA SUR GPU 85
Il est possible de pallier, dans une certaine mesure, à ces difficultés de diagnostic en examinant
régulièrement l’évolution des structures de données de la simulation au cours du processus de
développement, ou en écrivant des informations de diagnostic dans des structures de données de
sorties spécialisées. Cette solution ne fonctionne cependant pas en cas d’interruption du kernel
d’exécution, et permet surtout la validation du bon fonctionnement de la simulation.
6.3 Parallélisation de certains traitements
Une seconde approche de parallélisation d’un système multi-agents sur GPU est de ne réaliser
que certains traitements sur carte graphique et de conserver le reste de la simulation sur CPU.
Cette approche permet de conserver les aspects complexes de la simulation sur le CPU, comme
dans le cas de la gestion des listes de positions de chaque individu dans le modèle proie-prédateur.
Elle permet de tirer parti de la puissance du GPU pour des traitements parallélisables et coûteux
en temps de calcul, et donc d’accélérer l’exécution du modèle dans son ensemble, mais requiert
elle aussi une expertise en programmation pour implémenter ces opérations. L’utilisation de deux
langages et architecture d’exécution différentes dans la même simulation impose également de
pouvoir transformer les structures de données utilisées sur CPU en structures équivalentes sur
GPU, et inversement, pour les informations communes aux deux modes d’exécution.
6.3.1 Adaptation des structures de données CPU
Le langage Java est associé à une très vaste bibliothèque de structures de données prédéfinies
à la disposition des développeurs. Cette base commune permet au concepteur de nouvelles bibliothèques
Java de disposer des structures les plus courantes, comme les dictionnaires, les listes ou
des files d’attente sans avoir besoin d’en développer sa propre implémentation ou de recourir à
des bibliothèques externes. Cette standardisation des structures de données facilite également leur
partage et leur adaptation sous forme de structure OpenCL.
6.3.2 Exécution synchrone ou asynchrone
Les simulations multi-agents sont basées sur le découpage de leur évolution en étapes discrètes
déclenchées de manière régulière (pas de temps) ou par certains événements. L’exécution du modèle
ou de la plate-forme est également souvent synchrone, pour faciliter la gestion de la mise à
jour de la vue ou des résultats de la simulation.
Le modèle d’exécution offert par OpenCL est, pour sa part, basé sur une exécution asynchrone
par le biais d’un mécanisme de file d’attente. L’utilisation d’opérations asynchrones favorise la
réalisation de tâches en parallèle de l’exécution de traitements et l’indication de dépendances entre
tâches, tandis que l’exécution synchrone permet un blocage implicite de l’exécution du modèle
multi-agents dans l’attente de résultat.
Dans ces circonstances, une première approche est d’interrompre le déroulement de la simulation
sur CPU pour chaque traitement sur GPU en effectuant des soumissions synchrone. Le
déroulement de l’exécution obtenue est illustré par la Figure 6.3. Cette approche revient à bloquer
l’exécution de la totalité du modèle tant que le traitement GPU n’est pas terminé, alors qu’il serait
par exemple possible d’exploiter le CPU pour réaliser des opérations d’affichage ou encore la mise
à jour ou l’exécution d’autres parties du modèle.CHAPITRE 6. MÉTHODES D’ADAPTATION SMA SUR GPU 86
Traitement CPU 1
Traitement CPU 4
Traitement GPU 1
Traitement GPU 2
Traitement CPU 2
Traitement CPU 3
Traitement CPU 3bis
Figure 6.3 – Synchronisation bloquante de chaque traitement GPU
Une seconde approche est de lancer l’ensemble des traitements GPU en une seule fois pour
obtenir le type de déroulement de l’exécution illustré par la Figure 6.4. Dans ce cas, les opérations
GPU sont lancées à la suite, au moyen du système de dépendances fourni par OpenCL, et
le programme CPU attend la fin de l’ensemble des traitements plutôt que chaque opération intermédiaire.
Cette approche permet de tirer parti du CPU et du reste des ressources matérielles de
la machine pendant l’exécution sur GPU, au prix toutefois d’une certaine désynchronisation des
traitements à l’intérieur de l’itération, du fait de l’exécution de plusieurs traitements consécutifs
en arrière plan, avant leur réintégration dans la simulation.
Traitement CPU 1
Traitement CPU 4
Traitement GPU 1
Traitement GPU 2
Traitement CPU 2
Traitement CPU 3
Figure 6.4 – Synchronisation bloquante à la fin des traitements GPUCHAPITRE 6. MÉTHODES D’ADAPTATION SMA SUR GPU 87
Ces deux approches offrent comme avantage la conservation de l’ensemble des traitements
au sein de la même itération. Dans les deux cas, l’ensemble des traitements GPU est terminé et
réintégré à chaque pas de temps. Elles montrent cependant leurs limites dans deux situations :
— Pour des traitements de fond très longs. Dans ce cas, la poursuite de l’itération est susceptible
d’être bloquée pendant un temps important.
— Si le recours au GPU à chaque itération ne permet pas une exécution efficace. Il est dans ce
cas possible de recourir à un système de mise en attente des traitements pour grouper par
lots les lancements à effectuer.
Une troisième solution est donc de désynchroniser l’exécution des itérations de la simulation
sur CPU et des traitements GPU. De cette manière, il devient possible d’exécuter plusieurs ité-
rations avant de récupérer les données résultats, ou encore de rassembler les travaux de plusieurs
itérations avant exécution sur GPU. Cette approche est la plus délicate à gérer, et demande une
connaissance fine du modèle simulé, pour déterminer le nombre d’itérations de décalage pouvant
être admises entre traitements CPU et GPU, puisque le découpage en pas de temps n’est plus
respecté.
Ce choix du niveau de synchronisation implique également un choix du nombre d’étapes de
lancements utilisées pour effectuer les traitements, en fonction du taux de contrôle et des différents
découpages de parallélisation pour chaque portion de calculs, comme nous l’avons vu dans le
choix de la granularité de parallélisation pour l’implémentation d’un modèle sur GPU.
Dans des modèles qui ne requièrent que des mises à jours partielles ou sporadiques du système,
il peut être difficile de rassembler d’assez grandes quantités de traitements pour bénéficier d’une
exécution sur GPU. La mise en place d’un mécanisme de file d’attente est alors nécessaire, de
manière à rassembler les traitements en attente et les exécuter par lot de manière asynchrone,
plutôt que sous forme de lancements indépendants. Cette approche, illustrée par la Figure 6.5,
permet ensuite la récupération des résultats par la simulation au moyen d’une autre file de données.
Modèle
agent
File de traitements en attente
Exécution parallèle
avec OpenCL
Récupération des résultats
Figure 6.5 – Regroupement des traitements en attente pour une exécution par lot sur GPUCHAPITRE 6. MÉTHODES D’ADAPTATION SMA SUR GPU 88
6.3.3 Gestion de la mémoire
Dans le cas où seuls certains traitements sont parallélisés sur GPU, il est possible de distinguer
trois cycles de vie distincts pour les structures mémoires OpenCL :
— Tout la durée d’utilisation du GPU. Ce cycle de vie comprend les structures de données,
telles que le contexte d’exécution OpenCL ou les files de soumission de traitement, qui
sont utilisées pour toute la durée de la simulation. La création d’un nouveau contexte est
effectuée soit au moment de l’initialisation du modèle ou de la plate-forme, soit au moment
du premier lancement OpenCL. Sa libération peut être gérée de la même manière,
soit implicitement par la plate-forme ou la sortie du programme, soit explicitement par
la simulation. La libération explicite du contexte d’exécution est importante dans le cas
où le même programme créerait d’autres contextes par la suite, pour éviter toute perte de
ressources liée aux anciens contextes d’exécution GPU encore présents en mémoire.
— Le lancement d’un ensemble de fonctions apparentées ou de la même fonction à plusieurs
reprises. La même opération peut être utilisée à chaque itération du modèle, ou plusieurs
fois dans une même itération pour des fonctions différentes. C’est le cas, par exemple,
dans le modèle proie-prédateur, de la fonction de déplacement utilisée à la fois pour les
proies et les prédateurs. Dans ces circonstances, il est intéressant de ne pas avoir de nouveau
à préparer et compiler les mêmes programmes GPU à chaque appel de la fonction.
Cette réutilisation impose cependant, une fois de plus, la gestion de la mémoire par la
plate-forme ou la simulation. Une solution est de permettre au développeur d’indiquer s’il
est souhaitable de conserver les programmes entre chaque exécution, ou si la totalité des
structures nécessaires au lancement doit être de nouveau préparée à chaque traitement.
— Le lancement d’un seul traitement. Comme nous l’avons vu dans notre présentation du
modèle de programmation GPU, l’exécution du lancement d’un programme implique une
copie des données d’entrée sur le périphérique avant l’exécution, suivi d’une récupération
des résultats une fois l’exécution terminée. Cette démarche donne lieu à l’utilisation de
nombreux objets temporaires, susceptibles d’être alloués et libérés automatiquement par
l’implémentation du traitement sur GPU, de manière transparente pour le reste de la simulation.
La prise en compte de ces trois cycles de vie est importante pour permettre une gestion correcte
de l’allocation et de la libération de la mémoire native, tout en minimisant la quantité de gestion
manuelle de la mémoire devant être effectuée par le reste de la simulation, souvent basée sur un
mécanisme de ramasse-miettes. L’utilisation de ce mécanisme n’est hélas pas possible pour automatiser
toutes ces libérations, car son invocation n’est pas garantie par de nombreux langages
et de nombreuses plates-formes tant qu’il reste de la mémoire disponible. Les structures natives
n’étant que partiellement situées dans les données visibles par le programme, la saturation des
ressources GPU ne déclenche pas ce mécanisme de récupération mémoire. La prise en compte du
ramasse-miettes peut cependant venir en complément de cette gestion du cycle de vie des diffé-
rentes structures GPU, en filet de sécurité supplémentaire permettant la libération de la mémoire.
6.4 Utilisation de traitements parallélisés existants
Les deux approches précédentes correspondent à un premier scénario de parallélisation, où le
concepteur dispose d’une expertise GPU à même de lui permettre de réaliser tout ou partie de la
simulation sur cette architecture. Elles ne permettent cependant pas directement un second scénario
d’utilisation, le recours au GPU sans connaissance particulière de l’architecture d’exécution ouCHAPITRE 6. MÉTHODES D’ADAPTATION SMA SUR GPU 89
d’un langage de programmation GPGPU.
Une troisième approche possible d’adaptation d’une simulation multi-agents est de réutiliser
des opérations de haut niveau déjà parallélisées sur GPU, en considérant ainsi la programmation
GPGPU comme une boîte opaque permettant d’améliorer les performances du programme. Elle
ne requiert pas une gestion directe des ressources ou de l’exécution GPU par la simulation ou la
plate-forme multi-agents.
L’utilisation de fonctions génériques implique cependant, comme dans le cas de l’utilisation de
bibliothèques matricielles ou d’algèbre linéaire, de ramener les portions de la simulation à paralléliser
à des opérations et des structures de données standards pour pouvoir utiliser un traitement
générique.
Dans le modèle proie-prédateur, il est ainsi intéressant de ramener la mise à jour des végétaux
ou la somme des énergies à des opérations matricielles, plutôt qu’à un traitement ponctuel par
chaque agent dans l’algorithme.
6.4.1 Contrôle du contexte d’exécution
OpenCL sélectionne par défaut automatiquement une périphérique d’exécution local présent
sur la machine, CPU ou GPU, si aucun type de matériel n’est indiqué. Ce comportement facilite le
lancement de calculs sans avoir à choisir explicitement un support parmi les solutions d’exécution
disponibles.
Il est toutefois important, dans le l’utilisation de traitements parallélisés pré-implémentés, que
le concepteur de modèle ait la possibilité de contrôler le type de périphérique d’exécution utilisé,
pour plusieurs raisons :
— Dans le cas d’une parallélisation hybride, pour garantir que l’exécution des opérations aura
bien lieu sur GPU, Xeon Phi, ou FPGA plutôt que sur le processeur déjà utilisé pour le
reste de la simulation.
— Pour permettre la comparaison entre différents matériels, de manière à mesurer l’impact
sur les performances de différentes alternatives d’exécution.
Pour faciliter au maximum l’utilisation de ces traitements agents parallélisés, et assurer leur
portabilité sur de nombreuses machines, quelles que soient les ressources locales disponibles de
manière générale, il est toutefois important de laisser la possibilité d’une sélection implicite du
type de périphérique utilisé. Ce choix par défaut peut alors être celui du premier périphérique disponible,
ou reposer sur des heuristiques plus complexes, privilégiant la solution disponible considérée
comme la plus rapide en calcul.
6.4.2 Gestion de la mémoire
L’utilisation de traitements parallélisés existants libère l’utilisateur de la responsabilité de la
gestion des structures mises en jeu de manière interne par les traitements, mais requiert toujours la
prise en compte des structures persistantes entre plusieurs traitements.
Le fait de devoir préparer à nouveau un contexte d’exécution et compiler un programme GPU
pour chaque opération peut poser problème dans le cas de calculs courts. Ces préparations prennent
alors en effet un temps important en regard du temps effectivement passé en calcul sur le périphé-
rique.
Une solution à ce problème est de regrouper les traitements de même type sous forme de mo-CHAPITRE 6. MÉTHODES D’ADAPTATION SMA SUR GPU 90
dule, à même d’être préparé une seule fois et réutilisé pour lancer plusieurs fois le même traitement.
Dans ce cas, le lancement d’un traitement parallélisé sur GPU peut être décomposé très
simplement :
— Création d’un contexte.
— Instantiation d’un module d’exécution.
— Lancement de n traitements fournis par ce module.
— Libération du module après utilisation.
— Libération du contexte.
Il est possible d’envisager une libération automatique de toutes les ressources associées à ce
contexte au moment de sa destruction. Cette démarche simplifie alors encore davantage ce type
d’utilisation dans une simulation ou une plate-forme multi-agents existants.
6.4.3 Conception de nouveaux traitements génériques
Si l’utilisation de traitements génériques permet l’utilisation du GPU sans expertise de l’architecture,
elle requiert également une démarche de conception particulière pour le développement
de ces traitements. Si ce processus se rapproche de la seconde approche de parallélisation d’une
simulation multi-agents, une adaptation partielle sur GPU, elle s’en différencie toutefois par la
volonté de proposer une interface générique, découplée de tout modèle spécifique.
Cette volonté de proposer une opération utilisable le plus largement possible se retrouve à la
fois dans le choix des structures de données, de type grille, vecteur ou scalaires plutôt qu’objet, et
dans l’interface d’appel. Cette dernière est conçue de manière à permettre au concepteur d’indiquer
tous les paramètres d’entrée et de sortie de l’exécution sur GPU en une seule fois, en minimisant
autant que possible les transformations ou préparations à effectuer. De cette manière, la totalité de
l’exécution (préparation, copie des données, exécution et récupération des résultats) peut être prise
en charge une seule fois par la fonction générique, plutôt que par le concepteur.
Il est possible d’illustrer cette démarche de généralisation sur la mise à jour des ressources
végétales de l’environnement dans le modèle proie-prédateur.
Une première approche de mise à jour de cette grille est d’indiquer directement les facteurs de
croissance devant être appliqués sous forme de constantes dans l’implémentation OpenCL. Cette
solution lie cependant fortement cette mise à jour au modèle proie-prédateur : pour pouvoir utiliser
ce traitement dans un autre modèle, il est nécessaire d’effectuer une copie du code associée à ce
traitement, et de modifier la valeur de ces constantes.
Une manière de rendre ce traitement générique et directement utilisable par d’autres simulations
multi-agents est d’indiquer ces facteurs de croissance dans l’appel de la fonction. L’opération
de mise à jour devient alors un moyen d’appliquer une transformation affine sur une grille quelconque,
plutôt qu’uniquement sur un environnement proie-prédateur.
Ce type de traitement générique peut être rapproché des opérations proposées par des bibliothèques
comme CuBLAS : il peut alors être exploité sans connaissance particulière du fonctionnement
de l’algorithme ou du GPU avec une simple structure de grille et deux facteurs indiquant
l’opération à appliquer à chaque cellule.CHAPITRE 6. MÉTHODES D’ADAPTATION SMA SUR GPU 91
6.5 Synthèse
Ce chapitre nous a permis de mettre en avant deux scénarios d’utilisation du GPU dans des
modèles et des plates-formes multi-agents existants.
Le premier scénario repose sur une utilisation directe des concepts de programmation GPU
pour implémenter tout le modèle agent sur cette architecture. Cette utilisation de bas niveau impose
cependant de nombreuses contraintes, tant en termes de représentation des données qu’en termes
d’exécution, pour lesquelles il est toutefois possible de fournir des mécanismes venant en aide au
développeur.
Le second scénario repose sur l’utilisation de traitements agents parallélisés existants ou implémentés
par le concepteur. L’utilisation du GPU est alors totalement abstraite pour le reste de
la simulation, ce qui facilite son intégration dans des modèles ou des plates-formes multi-agents
pour accélérer des portions de traitements. Cette seconde utilisation, de beaucoup plus haut niveau,
pose également ses propres problématiques pouvant être en partie résolues par une bibliothèque
adaptée.
L’étude de ces deux scénarios a conduit notre réflexion lors de la conception de la bibliothèque
MCMAS, conçue pour permettre ces deux types d’utilisations.7
MCMAS, une bibliotheque d ` ’execution ´
gen´ erique ´
Dans le chapitre précédent, nous avons mis en avant les deux méthodes de parallélisation de modèles
multi-agents sur GPU, le portage de la totalité du modèle sur cette architecture d’exécution
ou la seule adaptation de certains traitements. Dans ce chapitre, nous présentons notre bibliothèque
MCMAS, qui vise à répondre à ces deux scénarios en facilitant à la fois l’utilisation du GPU sans
connaissance approfondie de la plate-forme, et la réutilisation d’algorithmes et de structures pour
des modèles qui souhaiteraient utiliser OpenCL.
Dans une première section, nous détaillons les objectifs auxquels répond notre bibliothèque.
Nous étudions ensuite l’influence de ces objectifs sur l’architecture de MCMAS, basée sur une
interface de programmation haut niveau, ne mettant pas en jeu de connaissances GPU, et une
interface plus bas niveau permettant un accès complet à OpenCL. Nous présentons ensuite l’implémentation
par MCMAS de la gestion du contexte d’exécution et des principales structures de
données rencontrées dans les systèmes multi-agents. Nous abordons également la manière donc la
bibliothèque permet le recours à des types plus spécifiques spécialisés pour l’exécution sur GPU.
Enfin, nous présentons l’utilisation de MCMAS par le biais de son interface de haut niveau, puis
par le biais de son interface de bas niveau pour développer de nouvelles fonctionnalités de manière
indépendante ou au sein de la bibliothèque.
7.1 Présentation générale
MCMAS 1
est une bibliothèque Java développée pour permettre la parallélisation efficace de
systèmes multi-agents sur GPU. Son exécution est basée sur le modèle de programmation OpenCL,
de manière à permettre l’utilisation une variété de supports la plus large possible, allant d’architectures
many-cores comme les GPU aux processeurs traditionnels le cas échéant.
La volonté centrale derrière la conception de MCMAS est d’offrir deux niveaux d’utilisation
au développeur, basés sur des interfaces de programmation distinctes :
— Une interface d’utilisation OpenCL accessible en Java incluant tous les éléments nécessaires
à l’accès au modèle de programmation, dans le cadre d’une programmation objet,
ainsi que des structures de données et des mécanismes d’aide à l’exécution prêts à être
utilisés.
— Une interface de haut niveau permettant l’appel d’implémentations optimisées des traitements
multi-agents les plus courants. Cette interface permet la parallélisation aisée de
modèles existants sans connaissance GPU, tant depuis des modèles d’agents directement
1. Many-Core Multi Agent SystemsCHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 94
réalisés en Java, que depuis des plates-formes existantes telles que MadKit, NetLogo ou
GAMA. L’utilisation de ces fonctions est conçue pour être la moins intrusive possible et
réduire au minimum le nombre de structures de données manipulées pour réaliser un traitement.
Cette volonté de fournir deux interfaces d’utilisation a une influence directe sur l’architecture
retenue pour la bibliothèque, que nous présentons dans la section suivante.
7.2 Architecture
L’architecture de MCMAS peut être vue comme l’empilement de deux couches applicatives
distinctes et complémentaires en termes d’utilisation :
— Une base commune, MCM 2
. Cette couche permet l’accès au modèle de programmation
OpenCL par le biais d’une interface objet. Elle comprend de nombreux outils de gestion de
l’exécution et des structures de données communément utilisées pour l’implémentation de
modèles et de traitements multi-agents utilisables sur GPU. Elle représente l’interface de
bas niveau de MCMAS, permettant la réalisation de nouveaux traitements avec la bibliothèque.
— Un ensemble de plugins fournissant des traitements génériques réutilisables. Cette couche
applicative repose sur l’interface de programmation MCM pour proposer des traitements
multi-agents déjà implémentés sous la forme de fonctions de haut niveau, comme la mise
à jour de l’environnement ou le calcul de déplacements. Cet ensemble de plugins est extensible
au moyen de la couche applicative MCM ou en encapsulant l’appel à d’autres
plugins, de manière à ajouter le support de nouvelles opérations et de nouvelles structures
de données à la bibliothèque.
Ces deux couches applicatives sont représentées dans la Figure 7.1, qui illustre également les
concepts de plugins et de contexte d’exécution proposés par notre bibliothèque. Des fonctions
différentes sont dévolues à chacune de ces deux couches, comme nous le présentons par la suite.
7.2.1 Une interface de bas niveau : MCM
MCM représente la base de la bibliothèque MCMAS, et offre l’accès à l’interface de programmation
de bas niveau de notre bibliothèque et à tous les mécanismes de l’exécution sur GPU. Elle
reprend la gestion d’un grand nombre de problématiques liées au développement et au lancement
de programmes OpenCL.
MCM facilite la gestion de la mémoire native en intégrant la gestion du ramasse-miettes et en
permettant de manière optionnelle d’associer toutes les structures mémoires et applicatives à leur
contexte d’allocation, de manière à assurer leur libération automatique au moment de la destruction
de ce contexte.
Cette couche applicative fournit les structures de données communes de type grille, vecteur ou
objet proposées par MCMAS, à la fois du côté Java et OpenCL de l’exécution. La conversion de
ces structures MCMAS vers et depuis les types de données Java les plus courants est également
incluse à ce niveau de la bibliothèque.
MCM repose sur la couche d’adaptation JOCL pour l’accès à l’interface de programmation
2. Many-Core ManagerCHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 95
JOCL (adaptateur OpenCL)
Plugin
Gestionnaire MCM
Files d'attentes, structures de données,
programmes OpenCL...
Contexte
MCMAS Plugin
Plate-forme ou modèle multi-agent
Interface
haut niveau
Interface
bas niveau
Figure 7.1 – Architecture de MCMAS
native. Le choix de cette solution est motivée par son minimalisme illustrée par une interface de
programmation identique à OpenCL transposée en Java. D’autres bibliothèques, telles que LWJGL,
proposent des implémentations OpenCL déjà orientées objets, sur lesquelles il est cependant
plus malaisé de redéfinir une autre gestion de l’allocation ou de la libération de la mémoire.
7.2.2 Une interface de haut niveau basée sur des plugins
MCMAS propose, au dessus de la couche logicielle MCM, une interface de haut niveau basée
sur l’utilisation d’un contexte d’exécution abstrait MCMAS et de plugins regroupant des fonctions
multi-agents apparentées.
Un contexte d’exécution abstrait
Le contexte d’exécution MCMAS représente un environnement d’exécution doté de tous les
mécanismes nécessaires au lancement d’un traitement OpenCL. Ce contexte vient répondre au
besoin de personnaliser l’exécution des traitements en permettant au concepteur de modèle multiagents
de sélectionner le type de périphérique d’exécution souhaité et d’activer différents mécanismes
à l’exécution tels que l’enregistrement du temps consacré à chaque opération (profiling). En
l’absence d’indication, MCMAS favorise par défaut l’utilisation des cartes graphiques présentesCHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 96
en local, et recourt, le cas échéant, à l’utilisation du processeur traditionnel.
Ce contexte offre également l’accès aux objets MCM sous-jacents, de manière à permettre la
combinaison des deux interfaces de programmation offertes par MCMAS dans un même environnement
d’exécution.
Des plugins spécialisés
Les opérations de haut niveau proposées par MCMAS sont regroupées en plugins spécialisés
par thématiques, de manière à faciliter la découverte de l’interface de haut niveau de la bibliothèque
et d’assurer un découpage clair des responsabilités de chaque module.
Ces plugins gèrent la réutilisation des ressources mémoires entre fonctions apparentées de manière
transparente, et implémentent des classes de traitements agents pouvant être parallélisées.
Cette décomposition en modules indépendants facilite l’ajout de nouvelles fonctionnalités à
MCMAS, pour gérer de nouveaux traitements ou de nouvelles structures de données rencontrés
dans les systèmes multi-agents.
Une grande partie des plugins proposés avec MCMAS est incluse dans la même archive que
la bibliothèque logicielle. Les plugins MCMAS peuvent également être distribués de manière indépendante
: l’enregistrement de ces nouvelles opérations n’impose pas de contrainte particulière,
de manière à faciliter leur intégration dans tout programme ou plate-forme multi-agents existant.
7.3 Implémentation
Après ce panorama de l’architecture proposée par MCMAS, nous présentons dans la suite
quelques points d’implémentation de cette bibliothèque et nous justifions les choix correspondants
qui ont été effectués.
7.3.1 Contexte d’exécution
La première fonction essentielle pour MCMAS est la création d’un contexte d’exécution et des
structures correspondantes. Ce processus implique le choix d’un périphérique d’exécution sur la
machine, qui est susceptible d’offrir de manière simultanée l’accès à des architectures matérielles
many-core ou à des architectures multi-coeurs CPU plus traditionnelles.
Le choix de ce périphérique d’exécution peut être effectué de trois façons différentes avec
MCMAS :
— En l’absence d’indication, MCMAS sélectionne automatiquement une solution d’exécution.
Dans ce cas, les cartes graphiques sont retenues en priorité, avant de considérer à
défaut l’exécution sur le processeur local.
— En indiquant un type de matériel d’exécution. Dans ce cas, MCMAS recherche tous les
périphériques OpenCL de ce type présents sur la machine, et sélectionne par défaut le
premier matériel rencontré. Une erreur est retournée le cas échéant par la bibliothèque.
Il est possible d’indiquer plusieurs types de matériel à rechercher, pour reproduire une
recherche en cascade similaire à celle effectuée en l’absence d’indication.
— En indiquant une implémentation et un matériel OpenCL particulier. Cette dernière approche
permet de contrôler le périphérique d’exécution effectivement utilisé par MCMAS.CHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 97
Elle est indispensable pour exploiter plusieurs cartes graphiques qui seraient présentes sur
la même machine.
En parallèle du choix du périphérique, de nombreux paramètres de l’exécution OpenCL
peuvent également être contrôlés, parmi lesquels :
— Le niveau d’optimisation à utiliser pour la compilation des programmes OpenCL.
— L’activation du support du profiling, pour permettre l’obtention de statistiques de temps sur
chaque opération.
— L’utilisation par défaut d’opérations flottantes en double ou simple précision.
— Le respect strict ou non du standard IEEE sur les opérations flottantes, pour permettre
l’obtention de meilleures performances sur les opérations les plus courantes.
MCMAS permet le contrôle simple de la disponibilité et de l’activation de ces fonctionnalités
indépendamment des spécificités liées aux différentes versions d’OpenCL et aux extensions proposées
par les implémentations du standard de chaque fabriquant. Par défaut, les fonctionnalités ne
pénalisant ni les performances ni la précision des calculs sont activées, pour permettre un meilleur
diagnostic au moment de la compilation d’erreurs de syntaxe ou des ressources consommées sur
GPU.
7.3.2 Structures de données agents
De nombreuses structures de données, telles que les vecteurs ou les grilles, sont très couramment
utilisées par les systèmes multi-agents.
Si ces structures sont fournies de manière standard sous forme de collection ou aisément réalisables
par le développeur sous forme de tableaux statiques à plusieurs dimensions en Java, l’absence
de support objet et les restrictions sur les types de données imposées par OpenCL rendent
moins aisée leur représentation sur GPU, particulièrement en l’absence de véritable bibliothèque
de données standard.
OpenCL ne permet en effet le passage et l’utilisation sur GPU que de trois catégories de données
:
— Des données scalaires de type primitif ou structure.
— Des tableaux statiques à une dimension.
— Des textures.
Dans ces circonstances, il est nécessaire pour supporter les principaux types de données agents
de pouvoir les convertir et les manipuler sous la forme d’une combinaison d’une ou plusieurs des
structures ci-dessus.
L’approche retenue par MCMAS est de tirer parti des outils de conversion déjà fournis par
JOCL entre buffers binaires Java NIO et buffers OpenCL, en facilitant la conversion et la récupération
des autres types scalaires à partir de ce format. Pour ce faire, de nombreuses classes
constituées de fonctions statiques de conversion sont fournies.
Dans les sous-sections suivantes, nous allons présenter quelques structures de données fournies
par MCMAS, ainsi que leur implémentation.CHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 98
Types primitifs
Le langage OpenCL étant directement basé sur le standard C99, l’ensemble des types primitifs
communs à C et à Java sont directement utilisables dans MCMAS, à l’exception notable du type
booléen.
Les types non signés disponibles en C et en OpenCL doivent cependant être manipulés avec
précaution, Java ne gérant que les types signés. L’interprétation automatique du premier bit comme
un indicateur de signe signifie en effet que leur valeur sera interprétée de manière différente entre
le système hôte et les kernels d’exécution.
Types objets
Il est possible de passer des objets à l’exécution d’un programme OpenCL en les représentant
sous forme de structure. Ces structures reprennent alors les propriétés de l’objet devant être
accessibles sur le GPU.
Ces structures sont générées automatiquement par introspection à partir de toute classe Java
héritant de la classe Struct. Seuls les attributs publics associés à la classe sont pris en compte,
OpenCL ne proposant pas de contrôle d’accès. Le Listing 7.2 illustre un exemple d’objet Java et
de la structure équivalente associée au niveau d’OpenCL.
1 public class Coord extends
Struct {
2
3 public int x;
4 public int y;
5 public int z;
6
7 public Coord(int x, int y, int
z) {
8 this.x = x;
9 this.y = y;
10 this.z = z;
11 }
12 }
1 struct {
2 int x;
3 int y;
4 int z;
5 } Coord;
Figure 7.2 – Exemple d’objet Java et de sa représentation en OpenCL avec MCMAS
Vecteurs
Le langage OpenCL propose un type de tableau statique hérité du langage C. Ces tableaux
peuvent non seulement stocker les types communs à ces deux langages (primitifs et structures),
mais également les types vectoriels introduits par l’architecture GPU. Ces tableaux, contrairement
à leur équivalent Java, ne stockent cependant aucune information de taille. Dans ces conditions,
deux choix sont possibles :
— L’utilisation directe de tableaux OpenCL. Dans ce cas, la taille du tableau doit être stockée
et indiquée aux différentes fonctions de manière indépendante. Cette approche similaire à
celle employée en C/C++ est grandement facilitée dans le cas de problèmes où la taille des
structures est directement liée aux propriétés du modèle, et peut donc être déduite de manière
aisée à partir de ces informations. Le nombre de positions d’individus à déplacer peutCHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 99
ainsi facilement être déduit, dans le cadre du modèle proie-prédateur, à partir du nombre
total de threads lancés, puisqu’un thread correspond à un agent à déplacer. Dans le cas où
plusieurs structures de données partageraient une même taille, comme l’addition de deux
vecteurs, le passage de la taille de la structure comme donnée importante permet de n’avoir
à spécifier qu’une seule fois l’information.
— L’utilisation d’une structure de type vecteur, représentant un tableau natif OpenCL associé
à une information entière de taille.
Dans ce dernier cas, une structure OpenCL peut être utilisée pour le stockage des méta-données
du vecteur associée à un tableau contenant les données brutes du vecteur. Une autre solution est de
stocker cette information de taille au début ou à la fin des données du tableau, sous forme d’élé-
ment supplémentaire : cette seconde approche requiert cependant que les éléments stockés dans
le tableau soient d’un type compatible avec la représentation de cette taille, ainsi qu’une vigilance
particulière lors du parcours des données du vecteur pour ignorer cet élément supplémentaire. La
définition de fonctions d’accès spécifiques, ou d’une condition de terminaison particulière, devient
alors nécessaire.
Le fait qu’OpenCL interdise l’emploi de pointeurs dans les structures de données [ope] rend
l’utilisation d’une structure séparée stockant les méta-données peu pratique. Deux approches sont
possibles pour contourner cette limitation, avec cependant certains problèmes :
— La déclaration de structures de tableaux dont la taille est déclarée à la compilation. Cette solution
requiert la connaissance de toutes les tailles de vecteur au moment du chargement du
programme, et la génération d’une structure pour chaque taille de vecteur du programme.
Une alternative est la définition d’une taille maximale pour les vecteurs utilisés, et la défi-
nition à la compilation d’une seule structure de données. Cette approche peut cependant, en
fonction des variations de tailles de données, occasionner des pertes mémoires importantes.
— L’utilisation de deux variables, l’une associée aux méta-données, l’autre au tableau comprenant
les éléments du vecteur. Cette second approche, plus simple, ne réduit pas le
nombre de variables distinctes nécessaire par rapport à un stockage séparé de la taille
du tableau dans l’algorithme, et peut rapidement favoriser une explosion du nombre de
paramètres requis pour le fonctionnement du programme.
Au vu de ces problématiques, deux implémentations des vecteurs sont proposées par défaut par
MCMAS, dont la représentation mémoire est illustrée sur la Figure 7.3 :
taille e1 e2
e3 etaille -1
e1 e2 e3
e4
Taille en début de tableau
Marqueur de fin
Figure 7.3 – Représentations de vecteurs proposées par MCMAS
— Une représentation basée sur un tableau statique contenant comme premier élément le
nombre d’éléments stockés. Ce stockage au début du tableau est motivé par la nécessitéCHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 100
de disposer de cette information à un emplacement aisément déductible sans connaître la
taille du vecteur.
— Une représentation basée sur un marqueur de fin. Cette représentation ne permet plus l’accès
direct à la taille du tableau, mais requiert un parcours du tableau pour obtenir cette
information. Ce parcours est rendu nécessaire dans le cas de l’application d’un traitement
à chaque élément ou de la copie des données, et n’est donc pas pénalisant pour ce type
d’opération. Il pose toutefois problème pour insérer ou récupérer un élément particulier
du tableau, s’il est nécessaire de procéder à la validité de l’indice indiqué par rapport aux
limites du tableau.
Collections
En complément des tableaux statiques, le langage Java propose un vaste ensemble de collections,
correspondant aux structures de données les plus connues et utilisées dans le domaine de
l’algorithmique :
— Listes simplement et doublement chaînées
— Dictionnaires
— Matrices
— Piles, files...
Ces structures de données sont représentées en Java sous la forme de type objets dérivés de la
classe de base Collection, qui assure la disponibilité de nombreuses méthodes communes d’insertion,
de suppression, de parcours des éléments ou de récupération de la taille.
Cette généricité des opérations facilite la conversion de ces collections vers et depuis des tableaux
statiques au niveau de MCMAS à l’aide d’un ensemble de primitives de conversion inté-
grées à MCM. Les positions des individus dans le modèle proie-prédateur sont ainsi, dans notre
implémentation, basées sur une collection d’entiers convertie en tableau statique au niveau du
GPU.
Grilles
Une structure souvent rencontrée dans les systèmes multi-agents est la grille. Suivant le type
de modèle représenté, elle peut constituer l’ensemble des données (cas d’une implémentation du
modèle à base d’automates cellulaires) ou un simple moyen de discrétiser un espace de simulation
(cas du modèle proie-prédateur).
La solution la plus directe pour représenter une telle structure dans de nombreux langages est
l’utilisation de tableaux de tableaux, ou tableaux à plusieurs dimensions. Dans ce cas, l’accès aux
données est effectué au moyen d’une double indexation du contenu, du type tableau[x][y].
Cette implémentation n’est cependant pas directement possible en OpenCL du fait de la limitation
des tableaux à une seule dimension. Dans ces circonstances, plusieurs implémentations
alternatives sont proposées par MCMAS, en fonction du type de grille et d’accès souhaités sur
GPU.
La solution la plus simple à cette limitation en nombre de dimensions est la linéarisation de la
grille sous forme d’un tableau à une dimension.
Dans ce cas, l’accès à l’élément situé aux coordonnées (x, y) du tableau revient au calcul d’un
unique index basé sur ces deux dimensions, et la largeur ou hauteur de la grille, suivant le sens deCHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 101
linéarisation retenu, en lignes ou en colonnes. Si x correspond à l’abscisse, y à l’ordonnée, l à la
largeur et L à la hauteur de la grille, cet index est calculé de la manière suivante :
1 / / Li n é a r i s a t i o n en l i g n e
2 i = y * l + x
3
4 / / Li n é a r i s a t i o n en c ol o n n e
5 i = x * L + y
Le calcul de cet index est pris en charge de manière transparente par les objets grilles offerts
par MCMAS du côté CPU, et par un ensemble de directives de macro-processeur du côté de
l’exécution OpenCL.
La linéarisation des données est très efficace du point de vue des accès mémoire GPU car elle
permet de s’assurer que des éléments adjacents seront effectivement stockés à des emplacements
mémoires contigus ou à intervalles réguliers, de manière à pouvoir regrouper et profiter de la largeur
des lectures mémoires sur cette architecture. Cette proximité des données permet d’optimiser
l’exploitation des caches L1 et L2 intégrés aux matériels GPU récents, en assurant le stockage de
ces données voisines dans la même ligne de cache.
Cette linéarisation montre cependant ses limites dans le cas de grilles de faible densité, où un
grand nombre de cellules ne sont pas utilisées :
Consommation mémoire. La linéarisation de grilles de grande dimension impose au périphé-
rique de disposer d’assez de mémoire contigüe pour stocker tous les éléments de la grille, même
inutilisés, là ou des implémentations Java peuvent être basées sur des structures creuses comme
des collections.
Nombre d’accès. Si ce type de grille est très performant en accès, du fait de la simple nécessité
de calculer un index supplémentaire par rapport à un tableau statique et de la proximité des données
en mémoire, des opérations comme le calcul du nombre de cellules utilisées dans la grille ou tout
traitement sur les cellules imposent un parcours de l’ensemble de la grille.
Cette utilisation inefficace de la mémoire pour des structures de faible densité est rendue obligatoire
par l’impossibilité d’allouer de la mémoire depuis un programme OpenCL, ce qui impose
un dimensionnement de la structure très défensif, à même de gérer le pire des scénarios.
Une solution, dans ce cas, est d’employer d’autres représentations pour les grilles, où seules
les cases effectivement utilisées seront stockées de manière contigüe, plutôt que l’ensemble de
la grille. Un grand nombre de formats [BG09] ont déjà été proposés pour la littérature pour ce
type de matrices à faible densité, typiquement optimisés soit pour la création (DOK 3
), soit pour le
parcours et la modification de matrices (LIL 4
, COO 5
, CSR6
). Ces formats sont actuellement en
cours d’implémentation dans MCMAS.
7.3.3 Structures spécifiques
A côté des types courants en Java, MCMAS permet l’accès à deux types de données spécifiques
au GPU, les textures et les types vectoriels. Dans les sections suivantes, nous présentons leur
principe et leur fonctionnement.
3. Dictionnaire de clés
4. Liste de listes
5. Liste de coordonnées
6. Lignes creuses compresséesCHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 102
Textures
Ces structures, à l’origine graphique, sont représentées en OpenCL par des objets image associés
à des dimensions et un format de stockage des pixels. Ce format de stockage indique le nombre
de canaux stockés pour chaque pixel (rouge, vert, bleu, alpha...) ainsi que le type de donnée utilisé
pour la représentation de chaque canal (entier 8bits, 16bits ou flottant...)
Une même texture peut être employée dans plusieurs kernels OpenCL, mais ne peut être utilisée
qu’en lecture ou en écriture par un même kernel. Cette limitation empêche son utilisation pour des
données agents qui seraient accessibles en entrée/sortie, mais permet son utilisation dans le cadre
de mises à jour non destructives d’un paramètre d’entrée en lecture seule, où les modifications sont
stockées dans un buffer résultat en écriture, comme c’est par exemple le cas dans le jeu de la vie.
Une autre restriction de ces textures tient au nombre limité de formats supportés, pour le stockage
des données, chaque canal étant prévu pour le stockage d’une composante entière ou flottante.
Ces limitations de format empêchent le stockage de données en double précision, de structures
ou de plus de trois informations par pixel, contrairement aux types vectoriels ou au tableaux
de structures permis par OpenCL.
L’utilisation de textures présente cependant plusieurs avantages :
— L’accès à ces objets est optimisé par un cache spécialisé sur toutes les architectures GPU
supportant OpenCL, comme nous l’avons vu dans la présentation de l’architecture mémoire
GPU. Cet avantage est particulièrement employé dans le cas de modèles comme celui de
proie-prédateur ou des automates cellulaires, où un nombre limité de propriétés doit être
stocké par chaque case mais un accès rapide est indispensable.
— Contrairement aux tableaux, il est possible de déclarer des images à deux ou trois dimensions.
Cet aspect multi-dimensionnel facilite l’accès à un élément particulier de la texture
sans utilisation d’opérations supplémentaires évoquées dans le cas des vecteurs, et permet
au concepteur d’associer directement la dimension des textures et le découpage de l’exécution
des données, de manière à simplifier son programme et exploiter au mieux la localité
des données dans chaque unité de traitement.
— Un dernier intérêt des textures, enfin, est la possibilité de les afficher directement de manière
graphique à l’aide des primitives d’intégration OpenGL offertes par OpenCL. Cette
fonctionnalité est particulièrement intéressante dans le cadre de systèmes multi-agents, où
une forme d’affichage est souvent attendue pour faciliter le suivi de la simulation. L’absence
de transformation particulière est un avantage important dans le cas de modèles dotés
de grands nombres d’individus, où tout traitement représenterait une perte en temps
d’exécution pouvant être consacré à la simulation elle-même.
Types vectoriels
OpenCL complète l’ensemble de types primitifs hérités de C par des types vectoriels permettant
de stocker dans une seule variable 2, 3, 4, 8 ou 16 données primitives de même type. Ces types
vectoriels, également présents sur d’autres modèles de programmation GPGPU comme CUDA,
sont nativement supportés par de nombreuses opérations arithmétiques fournies par le modèle de
programmation. Ce support permet, par exemple, d’effectuer un calcul de distances euclidiennes
ou une normalisation de vecteur sur GPU en stockant chaque élément sous la forme d’un seul
paramètre.
L’accès aux membres de ces types vectoriels est possible en OpenCL à l’aide des champs x, y,
z et w pour les quatre premiers éléments ou sous forme d’index numérique, tel qu’illustré par leCHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 103
Listing 7.1.
Listing 7.1 – Initialisation de données vectorielles OpenCL
1 float4 pos = (float4) (0, 0, 0, 0);
2 pos.x = 1.0;
3 pos.s3 = 4.0;
Le standard OpenCL impose le support de ces alternatives vectorielles pour les types char,
short, int, float et long et leurs variantes non signées. Chaque implémentation peut également
fournir un support vectoriel pour les nombres réels de type double, en déclarant une extension, de
manière analogue au mécanisme proposé par OpenCL.
Au-delà de la possibilité de stocker un ensemble de coordonnées dans une même variable, un
autre intérêt important de ces types vectoriels est la facilité avec laquelle ils peuvent être composés
ou décomposés en OpenCL, en combinant les noms ou les index de champs de chaque côté
de l’opérateur d’affectation. De telles facilités rendent le changement de nombre de dimensions
d’une coordonnée, requis pour certaines opération agent, trivial en OpenCL, tel qu’illustré par le
Listing 7.2.
Listing 7.2 – Transtypage de données vectorielles OpenCL
1 float2 pos1 = (float2) (1, 2);
2 float4 pos2 = (float4) (1, 3, 5, 0);
3 float2 pos4 = (float4) (0, 0, 0, 0);
4 pos4 = (float4) (pos1.xy , pos2.z}
L’utilisation de ces types dans MCMAS est rendue possible par le biais de la bibliothèque joclstructs,
proposée par les développeurs de JOCL, offrant l’accès à ces types sous forme d’objets
Java.
7.3.4 Exécution synchrone ou asynchrone
La plate-forme OpenCL est basée sur une soumission de l’ensemble des opérations à réaliser
sur le périphérique en file d’attente. Ce mode de fonctionnement permet au programme principal
de poursuivre son exécution, et de consulter les résultats de sa soumission de manière ultérieure,
grâce à un "ticket" retourné lors de la soumission.
Ce mécanisme est également intégré dans l’interface de bas-niveau de MCMAS, sous forme
d’objets événements Java implémentant l’interface standard Future, en plus des opérations
OpenCL spécialisées. Ces événements peuvent être alors manuellement utilisés pour choisir le
moment où synchroniser l’exécution des traitements, ou directement comme paramètres pour la
soumission de nouveaux traitements, de manière à créer un enchaînement d’actions OpenCL. Ce
mécanisme de dépendances peut par exemple être utilisé pour effectuer la copie de données avant
et après le lancement d’un programme sans synchronisation intermédiaire, comme illustré par le
Listing 7.3.
Ce mécanisme, indispensable pour tirer parti du recouvrement permis par OpenCL entre opé-
rations de copie des données et d’exécution, est exploité par de nombreux plugins offerts par
MCMAS. Il peut également être mis à disposition au niveau de l’interface par le biais de variantes
asynchrones des opérations proposées, de manière analogue à l’interface proposée par MPI pour
la communication en mémoire distribuée.CHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 104
Listing 7.3 – Utilisation asynchrone de MCM
1 / / Pr é p a r a t i o n d e s a r g um e nt s e t l a n c e m e nt d ’ un programme OpenCL
2 kernel. setArguments (vector , radius , xPositionsMem , yPositionsMem ,
xResultsMem , yResultsMem );
3
4 MCMEvent finished = q. enqueue1DKernel (kernel , vector.length);
5
6 / / Mise en f i l e d ’ a t t e n t e de l a r é cup é r a t i o n d e s donn é e s r é s u l t a t s ,
7 / / une f o i s l ’ ex é c u t i o n du programme t e r m i n é e ( é v é n é ment f i n i s h e d )
8 MCMEvent r1 = q. enqueueReadBuffer (xResultsMem , Pointer.to(xResults), 0,
xResultsMem .getSize (), finished);
9 MCMEvent r2 = q. enqueueReadBuffer (yResultsMem , Pointer.to(yResults), 0,
yResultsMem .getSize (), finished);
10
11 / / A u t r e s t r a i t e m e n t s J av a
12
13 / / A t t e n t e b l o q u a n t e de l a f i n du g r a p he d ’ ex é c u t i o n
14 MCMEvent.waitFor(r1 , r2);CHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 105
7.4 Utilisation de l’interface de haut niveau
Après nous être intéressés à son architecture, nous présentons dans cette section l’utilisation de
l’interface de haut niveau de notre bibliothèque, sans connaissance particulière de la programmation
GPU. Cette utilisation est rendue possible à l’aide de deux structures principales : le contexte
d’exécution et un ou plusieurs plugins offrant l’accès aux fonctions de haut niveau de MCMAS.
7.4.1 Initialisation de MCMAS
L’interface de haut niveau de MCMAS est basée sur l’utilisation d’un contexte d’exécution
de type MCMASContext. Cet objet contient l’ensemble des structures nécessaires à la soumission
d’un traitement OpenCL, et admet différents constructeurs permettant au développeur d’indiquer
le type et les paramètres d’exécution souhaités, tel que représenté dans le Listing 7.4.
Une fois instancié, un contexte MCMAS peut être utilisé pour créer et appeler des plugins
MCMAS. Ces deux modes d’utilisation peuvent être librement combinés pour un même contexte.
Listing 7.4 – Exemples de création de différents types de contexte MCMAS
1 / / Aucun argument , s é l e c t i o n a ut o m ati q u e de l a p l a t e −f o rm e d ’ ex é c u t i o n p a r
MCMAS:
2 / / GPU en p r i o r i t é , p u i s CPU.
3 MCMASContext context = new MCMASContext ()
4
5 / / Dé f i n i t i o n e x p l i c i t e de l a p r i o r i é t é d e s p l a t e −f o r m e s à u t i l i s e r :
6 MCMASContext context = new MCMASContext ( ContextType .GPU , ContextType .CPU)
7
8 / / Cr é a t i o n d ’ un c o n t e x t e GPU
9 MCMASContext context = new MCMASContext ( ContextType .GPU)
10
11 / / Cr é a t i o n d ’ un c o n t e x t e CPU
12 MCMASContext context = new MCMASContext ( ContextType .CPU)
13
14 / / Cr é a t i o n d ’ un c o n t e x t e s u p p o r t a n t l e p r o f i l i n g
15 MCMASContext context = new MCMASContext (MCMAS. PROFILING );
7.4.2 Exemples d’appel de fonctions de haut niveau
Une fois un contexte MCMAS obtenu, il est possible de l’utiliser pour appeler de nombreuses
fonctions de haut niveau regroupées sous forme de plugins spécialisés inclus dans la bibliothèque.
Chacun de ces plugins propose un ensemble de fonctions classées par thématique d’utilisation
(calcul de distance, diffusion...) Ces fonctions admettent un certain nombre de paramètres d’entrée
et de sortie correspondants au traitement à effectuer. L’accent est mis, au niveau de ces paramètres
d’entrée, sur l’utilisation de tableaux statiques et d’autres structures Java standard, de manière à
permettre la plus large utilisation possible de ces fonctions.
Des outils de conversions fournis avec MCMAS facilitent le passage vers ces types depuis les
autres types de données référencés dans notre présentation précédente, et en particulier depuis
des objets, des buffers de données ou des objets. Nous illustrons dans la suite de cette section
l’utilisation de certains des plugins fournis par notre bibliothèque.CHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 106
Calcul de distances
Une première fonctionnalité rencontrée dans de nombreux systèmes multi-agents, dont le modèle
proie-prédateur, est le calcul de distances euclidiennes entre individus. Selon le type de modèle
employé, ce calcul peut être effectué en une, deux ou trois dimensions, sur des coordonnées
entières (grille) ou réelles.
L’obtention de ces distances implique généralement, sur CPU, le calcul séquentiel de cette
distance pour chaque couple d’agents présents dans le modèle, ou le calcul de ces distances à la
volée pour les seuls points utilisés.
Le calcul de ces distances pouvant être aisément effectué en parallèle, il est possible de réaliser
tous ces calculs en simultané avec MCMAS, en indiquant en entrée les coordonnées à considérer
et en récupérant l’ensemble des distances comme résultat.
Les coordonnées des points d’entrée peuvent être spécifiées sous forme d’un tableau par dimension
à considérer (array_x, array_y, array_z), sous forme de tableau de structures coordonnées, ou
encore sous forme de tableau de type vectoriel OpenCL tel que float2 ou float3, comme évoqué
précédemment.
Pour deux ensembles de M et N coordonnées d’entrée, le résultat de ce module est une grille
comprenant les distances euclidiennes entre chaque point du premier ensemble et chaque point du
second ensemble, de dimension M × N, et de type compatible avec le stockage des coordonnées
d’entrée (entier, réel ou flottant).
Diffusion
Une autre opération souvent rencontrée dans les modèles multi-agents est la diffusion d’une
quantité au sein d’un vecteur ou d’une grille. Ce mécanisme est souvent utilisé pour des mises à
jour de l’environnement, de manière à simuler la diffusion de phéromones par exemple dans le cas
du modèle des fourmis, ou de populations dans des modèles de reproduction d’individus dans un
nouvel habitat.
Cette diffusion est caractérisée par plusieurs paramètres :
— Le nombre de dimensions considérées : le nombre de cellules voisines vers lesquelles diffuser
est directement lié à la configuration du modèle. Dans un modèle à une dimension,
avec des cellules en grille, seules deux voisines devront être considérées, contre six dans le
cas de deux dimensions et vingt-six dans un cas à trois dimensions.
— La possibilité ou non de diffuser en diagonale : le calcul précédent suppose que l’ensemble
des cellules voisines sont considérées. Si seules celles partageant une arête avec la cellule
courante sont prises en compte (diffusion "en croix"), alors le nombre de voisins pour
chaque cellule est modifié, ce qui peut changer drastiquement le comportement de la simulation.
Un autre choix important pour effectuer cette diffusion est le comportement devant être retenu
aux limites de la grille, où certains voisins sont manquants :
— Une première approche est de supposer toute diffusion en dehors de la grille comme perdue.
Ces frontières se comportent alors comme un puits sans fond, et peuvent amener une perte
de matière dans le modèle (système non clos).
— Une autre approche est d’interdire la diffusion en dehors de la grille (système fermé). Cette
approche est préférable dans le cadre d’un véritable environnement fermé, mais décon-CHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 107
seillée dans le cas d’un modèle ne représentant qu’une fraction d’un environnement plus
vaste, comme une parcelle de terrain d’un territoire, car elle introduit des frontières artificielles
pouvant influer sur le cycle d’évolution des agents situés à la périphérique du
modèle, sans que cette influence n’ait aucune base pratique.
— Une dernière approche, enfin, est de considérer l’environnement agent comme bouclant
verticalement et horizontalement. Cette approche, souvent retenue pour des raisons de
commodité, revient à représenter l’espace de simulation comme la projection d’un tore.
Le module diffusion de MCMAS fournit les opérations correspondant à ces différents cas. Cette
implémentation est également basée sur l’utilisation de programmes OpenCL adaptés à chaque
type de données d’entrée (scalaire, structure ou vectoriel, entière ou flottante).
Le lancement d’une diffusion peut être effectué en quelques lignes, à l’aide des paramètres
acceptés par la fonction, comme l’illustre le Listing 7.5.
Listing 7.5 – Exemple d’utilisation du plugin diffusion sur une grille de flottants représentée par
un tableaux à deux dimensions
1 / / Dé c l a r a t i o n d e s s t r u c t u r e s
2 float [][] grille , grilleResultat ;
3
4 / / I n s t a n t i a t i o n d ’ un c o n t e x t MCMAS e t du p l u g i n de d i f f u s i o n
5 MCMASContext context = new MCMASContext ();
6 DiffusePlugin diffuser = DiffusePlugin . newInstance (context);
7
8 / / Pr é p a r a t i o n d e s s t r u c t u r e s de donn é e s MCMAS
9 MCMASGrid input = MCMAS. createGridFrom (grille);
10 MCMASGrid output = MCMAS. createGridFrom ( grilleResultat );
11
12 / / L a nceme nt d ’ une d i f f u s i o n e t r é cup é r a t i o n du r é s u l t a t .
13 / / D i f f u s e P l u g i n . DIMENSION_4 r e q u i e r t une d i f f u s i o n v e r t i c a l e e t h o r i z o n t a l e
:
14 / / D i f f u s e P l u g i n . DIMENSION_8 p e r m e t t r a i t de demander l a p r i s e en c om pte d e s
d i a g o n a l e s .
15 diffuser.diffuse(input , output , DiffusePlugin . DIMENSION_4 );
16
17 / / R e c o pi e de l a g r i l l e o bt e n u e d a n s l a s t r u c t u r e j a v a o r i g i n a l e
18 output.write( grilleResultat );
De nombreux modèles agents imposent également des limites minimales et maximales particulières
à la valeur pouvant être stockée dans chaque cellule. Ces limitations sont prises en compte
par le plugin diffusion fourni par MCMAS via la disponibilité de variantes bornées des opérations
précédentes, permettant d’indiquer la valeur minimale et la valeur maximale permises pour chaque
cellule.
Cette opération de normalisation peut également être effectuée à l’aide d’un plugin spécialisé
fourni par MCMAS, de manière indépendante.
Réduction
De très nombreuses simulations agents requièrent la production régulière d’indicateurs associés
au modèle, comme la quantité globale d’énergie présente dans le système ou la population dans
le modèle proie-prédateur. La dispersion de ces quantités entre les différents éléments du modèle
implique, à chaque itération, de pouvoir synthétiser ces quantités dans une variable globale, à
même d’être affichée ou utilisée pour interrompre ou non la simulation.CHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 108
Des modèles de programmation CPU tels que OpenMP ou MPI facilitent cette opération à
l’aide de primitives de réduction, permettant au concepteur d’indiquer les données devant être
réduites et l’opération à utiliser (somme, minimum, maximum...)
MCMAS reprend cette logique dans un plugin spécialisé permettant d’effectuer cette réduction
en parallèle à l’aide des informations suivantes :
— Le champ de la réduction : un vecteur ou une grille contenant la propriété du modèle agents
à prendre en compte.
— L’opération de réduction : minimum, maximum, moyenne, addition, multiplication...
Le résultat d’une réduction totale est un type scalaire, et un vecteur pour une réduction partielle.
Comme dans le cadre d’une diffusion, le type résultat est compatible avec le type d’entrée : flottant,
par exemple, pour une réduction sur des données flottantes.
Fonctions affines
Un autre type de traitement parallélisable est, comme nous l’avons vu dans le cas du modèle
proie-prédateur, l’application d’une même fonction affine a × x + b à chaque cellule d’un vecteur
ou d’une grille d’entrée.
Cette opération est directement supportée par MCMAS sur ces deux structures de données, un
vecteur pouvant être considéré comme une grille à une dimension. Le Listing 7.6 illustre l’appel
du plugin effectué pour la croissance de l’herbe dans le cadre du modèle proie-prédateur.
Listing 7.6 – Application d’une fonction affine sur les éléments d’une grille
1 / / Dé c l a r a t i o n d e s s t r u c t u r e s
2 float [][] grille , grilleResultat ;
3
4 / / I n s t a n t i a t i o n d ’ un c o n t e x t MCMAS e t du p l u g i n de d i f f u s i o n
5 MCMASContext context = new MCMASContext ();
6 DiffusePlugin transformer = AXBPlugin . newInstance (context);
7
8 / / Pr é p a r a t i o n d e s s t r u c t u r e s de donn é e s MCMAS
9 MCMASGrid input = MCMAS. createGridFrom (grille);
10 MCMASGrid output = MCMAS. createGridFrom ( grilleResultat );
11
12 / / L a nceme nt de l a t r a n s f o r m a t i o n e t r é cup é r a t i o n du r é s u l t a t .
13 / / a v a ut 1 . 0 , c a r aucun f a c t e u r v a r i a b l e de c r o i s s a n c e n ’ e s t a p p l i q u é .
14 / / b v a ut GRASS_GROWTH, l e t a u x de c r o i s s a n c e f i x e d é f i n i d a n s l a s i m u l a t i o n
.
15 transformer . transform (input , output , 1.0, GRASS_GROWTH );
16
17 / / R e c o pi e de l a g r i l l e o bt e n u e d a n s l a s t r u c t u r e j a v a o r i g i n a l e
18 output.write( grilleResultat );
7.4.3 Utilisation depuis des framework multi-agents existants
La bibliothèque MCMAS est utilisable directement en Java, mais doit également pouvoir être
accessible à des plates-formes multi-agents ne permettant pas l’accès direct à ce langage.
Dans ce cas, il est possible de fournir le service assurant le rôle d’interlocuteur et de traducteur
entre le formalisme utilisé par la plate-forme et MCMAS. Ce service peut être un agent du systèmeCHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 109
spécialisé, tel qu’illustré sur la Figure 7.4, ou un système indépendant, accessible par le biais de
messages. Bibliothèque MCSMA
Parcelle
Agent service
Interfaces
MCSMA
Cellule
Cellule
Di
ffusion
Di
ffusion
Réduction
populations cellules
diffusion(cellules)
reduction(cellules, totals)
Traitement messages
et appels de services
Encapsulation
des résultats
Figure 7.4 – Exemple d’utilisation de MCMAS depuis un modèle multi-agents
Chacun de ces messages doit respecter un format bien défini, indiquant le traitement souhaité
ainsi que des contraintes d’exécution du calcul (sur GPU, sur CPU...). L’identité de l’expéditeur
est mémorisée avant le traitement de chacun de ces messages, de manière à pouvoir lui envoyer les
résultats de l’exécution dans un autre message une fois la requête traitée.
Par exemple, dans le cas de Madkit où les agents communiquent à l’aide d’un gestionnaire
de messages, ce processus se traduit pas la mise en place d’un protocole d’échange. Dans le cas
de GAMA, cette intégration peut être réalisée sous la forme d’un plugin ajoutant des fonctions
MCMAS au langage de description utilisé pour les agents.
Cette couche d’adaptation entre MCMAS et la plate-forme multi-agents ciblée permet l’utilisation
transparente de la bibliothèque, en conservant l’infrastructure du modèle existant.
L’utilisation d’un agent service permettant la réalisation de traitements MCMAS est une autre
solution utilisant les mécanismes de communication du modèle existant. Il est également possible
d’utiliser MCMAS directement au niveau de chaque agent, soit à l’aide de Java directement, soit
à l’aide d’une couche d’adaptation dans le cas de plates-formes telles que GAMA ou NetLogo.
7.5 Développement de nouveaux plugins
L’ensemble de plugins fourni avec MCMAS ne pourra jamais recouvrir l’ensemble des fonctionnalités
pouvant être rencontrées dans la littérature agents. Pour pallier à cette limitation, MCMAS
permet l’ajout aisé de nouveaux plugins, de manière à permettre au concepteur de simulations
d’étoffer les fonctionnalités offertes par la bibliothèque.
Pour valider le type d’opération à implémenter et l’implémentation à utiliser, plusieurs étapes
de réflexion et de conception sont recommandées. Dans cette section, nous décomposons les différentes
étapes de cette démarche.CHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 110
7.5.1 Conception du modèle et parallélisation
La première étape du développement d’un nouveau plugin est la définition du problème rencontré
et de sa portée exacte. Un système multi-agents peut représenter un ensemble d’individus et
de comportements complexes, se prêtant ou non à une adaptation sur GPU. Il est alors dans ce cas
nécessaire de déterminer les parties du modèle pouvant tirer avantage d’une exécution sur GPU,
ainsi que la manière de paralléliser ces traitements.
Un élément important pour évaluer les gains pouvant être attendus de la parallélisation avec
MCMAS est d’évaluer l’impact en termes de performance des parties du modèle pouvant être accélérées
par rapport au temps total d’exécution de la simulation, en application de la loi d’Amdahl.
Une conséquence directe de cette loi est que tout gain obtenu par l’utilisation d’une plate-forme
est rapidement limité si la portion parallélisée ne représente pas une fraction significative du temps
d’exécution de la simulation multi-agents. Le découpage du modèle en sous-parties peut même,
dans ce cas, entraîner une perte de performance liée aux échanges de données entre les différentes
portions de l’algorithme.
Il est donc nécessaire, en développant un nouveau plugin MCMAS, d’avoir à l’esprit ces limitations
et une estimation du gain de performance pouvant être attendu, ainsi que le nombre
de recours à cette simulation, de manière à pouvoir quantifier le temps pouvant être consacré à
une adaptation GPU du modèle par rapport au temps supplémentaire qui aurait été utilisé avec
l’ancienne implémentation.
L’efficacité d’exécution d’un programme sur GPU est directement liée aux opérations et aux
structures utilisées, mais n’est pas linéaire en termes d’efforts. La recherche de performance est un
processus sans fin tendant toujours vers une limite où les adaptations à effectuer ne permettent plus
de gains en performance très importants. Nos cas d’applications illustrent particulièrement qu’un
portage à l’identique d’un algorithme ne permet que rarement l’obtention de bonnes performances,
pour des raisons d’occupation processeur, de synchronisation ou de mémoire.
Un autre aspect critique de l’efficacité de l’utilisation du GPU, déjà évoqué dans notre pré-
sentation du découpage d’une simulation en OpenCL, est le niveau de granularité retenu par la
simulation, c’est à dire la taille en temps passé sur chaque plate-forme. Une parallélisation “à gros
grains” permet de réduire le nombre d’échanges entre les deux plate-formes, et donc les coûts
de synchronisation ou de communication associés ces échanges. Au contraire, une parallélisation
dite “à petits grains” implique le lancement de nombreux traitements simultanés sur GPU, pour
minimiser l’impact des échanges plus réguliers devant avoir lieu.
7.5.2 Définition de l’interface et des fonctionnalités
Une fois la problématique et la solution précisément connues, il est nécessaire de définir la
manière dont la parallélisation pourra être intégrée dans le modèle existant. Cette intégration porte
à la fois sur les scénarios d’exécution, et les données manipulées :
— Dans quel ordre les opérations seront-elles appelées ? Est-il possible de se servir de cette
information pour rendre les traitements asynchrones ou de changer leur ordre d’exécution ?
— Quelles structures de données sont-elles utilisées ? Doivent-elles être transformées pour
une exécution sur GPU ? Peuvent-elles être partagées entre un maximum de traitements,
pour éviter des copies ?
Ces deux problématiques, complémentaires, ont une importance vitale pour la définition de
l’interface du nouveau plugin, et plus particulièrement sur le nombre et le prototype des opérationsCHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 111
fournies.
7.5.3 Implémentation de la solution retenue
Une fois l’interface du plugin définie, il est possible de réaliser l’implémentation de la solution
elle-même. Dans MCMAS, cette implémentation met en jeu deux langages différents :
— Java pour l’ensemble des traitements exécutés sur CPU. Dans le cadre d’un plugin, ces
traitements comprennent au minimum la gestion de la copie et des lancements des traitements
sur la plate-forme OpenCL, ainsi que le suivi de l’exécution et la récupération des
résultats. Cette partie peut également inclure des pré-traitements sur les données, soit dans
le cadre de conversions de représentations, soit parce que ces traitements sont peu adaptés
à une exécution sur GPU. Le reste du modèle multi-agents n’est pas nécessairement réalisé
en Java, si une interface d’adaptation MCMAS est utilisée.
— OpenCL est utilisé pour tous les traitements ayant lieu sur le périphérique. Comme C et
C++, ce langage permet l’inclusion de portions de programmes existantes au moment de
la compilation. Cette fonctionnalité est utilisée par MCMAS pour fournir de nombreux
raccourcis pour la manipulation des structures de données incluses dans MCMAS, et permet
également au plugin de partager des fonctionnalités entre ses traitements natifs. Il est
importante de noter que tout lancement de programme OpenCL implique de définir explicitement
le point d’entrée (kernel) utilisé : il est donc toujours possible d’implémenter tous
les traitements du plugin dans un unique fichier source OpenCL.
Si OpenCL permet le stockage de binaires correspondant à des programmes compilés, les binaires
obtenus sont spécifiques à l’implémentation et au matériel courant. Ce mécanisme permet
d’éviter de multiples compilations au-delà de la première exécution, et ainsi de réduire le temps
de chargement du programme, mais ne dispense pas le développeur du plugin de devoir fournir
le code source des portions OpenCL de son programme, en cas de distribution sur de nombreuses
plates-formes.
Le plugin obtenu peut être directement inclus dans l’arborescence de fichiers sources du modèle
multi-agents y ayant recours, ou empaqueté sous forme d’archive JAR indépendante, de manière à
faciliter son partage et sa distribution.
La distribution d’une documentation et de tests associés au nouveau plugin est fortement recommandée.
La rédaction de ces tests est facilitée par la disponibilité de nombreuses fonctions
de création de contextes et de récupération d’informations, en termes de plate-forme d’exécution
et de temps au niveau de MCMAS. La création d’un contexte simple CPU, GPU, avec ou sans
activation des fonctionnalités de profiling, est ainsi possible en une ligne.
7.5.4 Validation
Une fois le développement du plugin terminé, une validation de celui-ci est requise. Cette
validation regroupe deux aspects :
— La validation de l’exactitude des résultats. Cette première étape, critique, consiste à
s’assurer que les résultats obtenus sont similaires à ceux prévus par le modèle théorique
ou observés dans l’implémentation originale. Elle peut être effectuée de manière formelle,
dans le cas où l’équivalence sémantique avant et après adaptation peut être établie. Le
recours au parallélisme tend cependant à introduire de nombreuses inconnues dans ce type
de démonstration, qu’il est nécessaire de quantifier. Ces difficultés favorisent une validationCHAPITRE 7. MCMAS, UNE BIBLIOTHÈQUE D’EXÉCUTION GÉNÉRIQUE 112
expérimentale, bouclant d’une certaine manière le cycle de pensée agent : dans ce cas, les
résultats obtenus par les deux implémentations sont comparées dans le cadre d’un protocole
expérimental prenant en compte les cas limites, les données et les conditions d’utilisation
devant être envisagées.
— La validation des performances obtenues. Cette seconde étape permet de quantifier
les performances effectivement observées par rapport à l’implémentation originale et aux
éventuelles attentes basées sur les caractéristiques de la solution retenue et de la plateforme,
comme le nombre de cœurs. Elle ne peut être qu’expérimentale, à l’aide de mesures
de temps d’exécution des simulations. La comparaison de ces temps, et l’allure des courbes
de performance obtenue, permet de caractériser le type de comportement obtenu en termes
de performance et de ressources consommées. Ces résultats peuvent, ou non, conforter les
attentes établies au moment de la conception du plugin. Ils permettent également de mettre
en avant des parties coûteuses ou mal adaptées de l’algorithme dont l’impact aurait pu être
négligé ou sous-estimé, pouvant relancer une itération supplémentaire de parallélisation.
7.6 Synthèse
Dans ce chapitre, nous avons présenté MCMAS, notre bibliothèque dont l’objectif est de
prendre en charge deux scénarios d’utilisation, l’utilisation du GPU au moyen de fonctions gé-
nériques sans connaissance de l’architecture ou le développement de nouveaux traitements GPU.
Ce double usage est à l’origine du choix d’une architecture modulaire pour MCMAS, basée
d’une part sur une interface de bas niveau, MCM, pour l’accès au modèle de programmation
OpenCL et d’autre part sur un ensemble de plugins regroupant des traitements agents pré-
implémentés. Ces plugins reposent également sur l’interface MCM, pour favoriser la combinaison
des deux types d’utilisation ou l’expérimentation de nouveaux traitements.
Cette architecture se retrouve également dans l’implémentation de la bibliothèque. Elle est
basée sur trois parties fondamentales :
— Un contexte d’exécution encapsulant tout l’environnement d’exécution GPU.
— Un ensemble de structures de données GPU et d’outils de conversion de ces structures vers
et depuis des structures de données Java.
— Une interface de programmation MCM reprenant les principaux concepts OpenCL mais en
facilitant la gestion dans un environnement objet.
Nous avons ensuite abordé l’utilisation de MCMAS selon chacun de ces deux scénarios d’utilisation
:
— Sans connaissance GPU. Dans ce cas, l’utilisation de l’interface de haut niveau MCMAS
est possible simplement au moyen de la création d’un contexte d’exécution, suivie de l’instantiation
d’un ou plusieurs plugins avec ce contexte. Les fonctions fournies par ces plugins
peuvent alors être utilisées pour lancer des opérations comme des calculs de déplacements,
de distances, ou de transformations matricielles.
— Avec des connaissances GPU, pour le développement de nouveaux traitements avec MCM.
Ce type d’utilisation permet alors, de manière optionnelle, l’encapsulation de ces traitements
dans un plugin MCMAS de manière à favoriser leur redistribution et leur réutilisation
dans d’autres simulations multi-agents.8
Validation sur des modeles existants `
Dans le chapitre précédent, nous avons présenté notre bibliothèque MCMAS, ainsi que ses
deux scénarios d’utilisation, par le biais d’une interface de bas niveau MCM, ou au moyen de
fonctions génériques fournies par un ensemble de plugins. Pour valider son utilisation sur des cas
concrets, nous illustrons dans ce chapitre son utilisation sur trois exemples de systèmes multiagents
concrets : le modèle proie-prédateur, qui nous a servi de fil rouge à la présentation de
MCMAS, un modèle de simulation de l’évolution microscopique des sols, MIOR, et enfin un
modèle de diffusion de populations, le modèle Collemboles.
Dans une première section, nous commençons par présenter les deux modèles n’ayant pas encore
été évoqué, ainsi que la manière dont nous avons choisi de les paralléliser avec MCMAS.
Dans une seconde section, nous présentons ensuite les performances obtenues sur ces trois adaptations.
Pour cela, nous commençons par décrire les plates-formes d’exécution et le protocole
utilisés, avant d’analyser les performances obtenues. Nous synthétisons enfin, dans la troisième
section, les observations et les recommandations pour une parallélisation sur GPU qu’il nous a été
possible de tirer de ces trois adaptations.
8.1 Parallélisation de modèles
L’étude de ces trois modèles a été l’occasion d’appliquer plusieurs approches de parallélisation
parmi celles évoquées dans le Chapitre 6. Pour le modèle proie-prédateur, nous avons choisi une
implémentation reposant sur l’utilisation de plugins génériques fournis par MCMAS pour paralléliser
certains traitements coûteux de la simulation. Pour le modèle MIOR, nous avons choisi de
réaliser un nouveau plugin MCMAS pouvant être utilisé pour lancer de nombreuses simulations
microscopiques. Enfin, pour le modèle Collemboles, nous avons utilisé l’interface de bas niveau
MCM pour implémenter chaque étape de la simulation sur GPU.
8.1.1 Proie-prédateur
Dans la continuité de notre réflexion sur ce modèle, dans le chapitre 5, nous avons choisi d’implémenter
la mise à jour des ressources végétales de l’environnement et le déplacement des individus
proies et prédateurs à l’aide des plugins génériques de transformation de données et de
recherche dans une grille proposés par l’interface de haut niveau de notre bibliothèque.
Cette implémentation est basée sur l’algorithme 1. Deux plugins fournis par MCMAS sont mis
à contribution :
— Le plugin de fonction affine est utilisé pour l’ensemble de la mise à jour de la grille re-CHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 114
présentant les ressources végétales à chaque itération. Dans le cadre de ce traitement, la
structure de données grille fournie par MCMAS est automatiquement considérée comme
un vecteur.
— Un plugin de recherche de maximums fourni avec MCMAS est utilisé pour le calcul des
déplacements des individus vers la cible la plus énergétique. Ce plugin permet la recherche
de maximums locaux autour d’une ou plusieurs positions dans une grille. Pour ce faire,
trois informations sont indiquées, la grille ainsi que les positions et le rayon de recherche.
Ce plugin retourne en résultat le maximum local trouvé pour chaque position, correspondant
à la case vers laquelle doit se déplacer l’individu dans le modèle proie-prédateur.
Pour permettre la recherche des nouvelles positions en parallèle à l’échelle de chaque population,
l’évolution de chaque type d’individu proie ou prédateur du modèle est effectuée étape par
étape, tel qu’illustré par la Figure 8.1 :
— Préparation des positions. Toutes les positions en deux dimensions des individus de la
population sont synthétisées, en vue de l’appel à MCMAS. Cette étape permet également
un comptage du nombre d’agents présents dans le modèle. Cette étape n’est pas parallélisée
car elle implique la manipulation de structures de données dynamiques dont la taille n’est
pas connue à priori, la liste des positions.
— Recherche de maximums locaux. Cette opération, implémentée par un plugin MCMAS,
permet le calcul de la nouvelle position des individus en un seul lancement. Elle admet
trois arguments d’entrée : un espace de recherche, une liste de positions et un rayon de
recherche. Ce rayon de recherche indique la distance maximale autour de chaque position
où chercher un couple de coordonnées solution dans l’espace de recherche. La fonction
retourne en résultat une liste de coordonnées correspondant aux maximums locaux trouvés
pour chaque position. Cette fonction implique un parcours coûteux, en particulier si le
rayon de recherche est important. Ce parcours a l’avantage de pouvoir être réalisé simultanément
pour tous les individus du modèle, ce qui justifie sa parallélisation.
— Déplacements. Une fois les nouvelles positions obtenues, ces informations sont utilisées
pour déplacer chaque individu de manière séquentielle. Cette application séquentielle garantit
la cohérence des déplacements, en assurant un fonctionnement du type "premier arrivé,
premier servi" : si un conflit de destination existe entre plusieurs individus, le premier
l’emporte, et les autres restent immobiles pour cette itération. Cette étape n’est pas parallé-
lisée de manière à pouvoir traiter de manière séquentielle les déplacements sur le CPU, et
ainsi gérer les conflits où plusieurs individus souhaitent se déplacer au même emplacement.
— Consommation. Les ressources présentes à la position de chaque individu sont consommées
: dans le cas d’une proie, la quantité de végétaux est réduite. Dans le cas du prédateur,
la proie est tuée. Dans les deux cas, le différentiel en énergie est ajouté à l’individu courant,
dans une certaine limite correspondant à la vitesse maximale d’absorption des ressources
pour ce type d’individu. Cette étape n’est pas parallélisée car elle ne représente qu’une
soustraction et une addition simple pour chaque individu qui peut être effectuée dans la
continuité du déplacement.
— Reproduction. Si l’énergie de l’individu dépasse un certain seuil, un nouvel individu est
créé à son ancienne position. La quantité d’énergie minimale prévue par le modèle est retirée
de l’individu parent et assignée à ce nouvel arrivant. Cette opération demeure séquentielle
car elle implique une modification de la grille pour ajouter de nouveaux individus
susceptible d’aboutir à des conflits.
— Métabolisme. L’énergie de chaque individu est décrémentée. Si elle devient négative ou
nulle, l’individu est supprimé du modèle, pour indiquer son décès. Cette opération est susceptible
d’être parallélisée en traitant en parallèle tous les niveaux d’énergie du modèle,CHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 115
mais nécessiterait en pratique le traitements de nombreuses cellules vides de la grille, ainsi
qu’un aller-retour sur GPU. Dans ces circonstances, cette gestion du métabolisme est réalisée
dans la même boucle que les trois traitements précédents.
Ce processus d’évolution des individus est appliqué de manière identique à chacune des populations
du modèle, en variant les positions et les distances de recherche. Elle permet de réaliser le
calcul du déplacement de manière parallèle, plutôt que sous forme de nombreuses boucles séquentielles
sur CPU.
Reproduction
Recherche maximum
Entrée : grille, positions,
distance
Sortie : solutions
Préparation
des positions
Déplacement
Métabolisme
Simulation MCMAS
Consommation
Figure 8.1 – Décomposition du cycle de vie des individus avec MCMAS
8.1.2 Une simulation microscopique : MIOR
Le modèle multi-agents MIOR (MIcro-ORganisme) [CCP07] reproduit l’évolution microscopique
des sols sous l’effet de l’activité microbienne. Ce modèle permet de simuler l’évolution en
terme de biomasse microbienne, de quantité de matière organique et de CO2 produit d’un cube de
sol de de 0.002 mm de côté.
Cette échelle microscopique requiert le lancement d’un grand nombre de simulations MIOR
pour traiter des volumes de sols macroscopiques. Dans ce cas, le développement d’un plugin
MIOR permettant de lancer des paquets de simulation est intéressant pour permettre la simulation
de volumes variables de sol en parallèle, en tirant parti du parallélisme d’exécution offert
par l’architecture GPU. Cette multiplication des modèles permet aussi d’augmenter le nombre
d’agents en parallèle, de manière à garantir une occupation efficace des coeurs matériels.
Ce lancement peut être effectué de deux manières :CHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 116
— Soit jusqu’à la stabilisation de l’évolution de l’ensemble des simulations MIOR. De cette
manière, le modèle macroscopique dispose de toutes les informations futures de l’état microscopique
de cette cellule. Le nombre d’itérations nécessaires à cette stabilisation de
toutes les simulations n’est cependant pas forcément aisé à prévoir en fonction des paramètres
d’entrée.
— Soit sur un nombre fixe d’itérations. Cette alternative permet d’éviter une attente trop
longue pour l’obtention des résultats des simulations MIOR. Il est également possible dans
ce cas au modèle Sworm de relancer ces simulations ultérieurement sur GPU, en fonction
des besoins du modèle macroscopique. Elle ne garantit pas d’atteindre la stabilisation de la
simulation.
Sworm
échelle n
Sworm
échelle n + 1 Simulation MIOR
Figure 8.2 – Représentation fractale de l’environnement Sworm
Le modèle MIOR repose sur deux espèces d’agents :
— Les Méta-Mior (MM) qui représentent des colonies microbiennes consommatrices de carbone.
— Les dépôts de matière organique (OM) qui caractérisent les dépôts de carbone répartis dans
le volume de sol.
Les agents Meta-Mior sont associés à deux comportements distincts :
— la respiration : transformation du carbone minéral en dioxyde de carbone CO2)
— la croissance : chaque colonie ayant prélevé suffisamment de carbone dans l’environnement
est en mesure de croître en population.
Ces deux comportements sont décrits dans l’algorithme séquentiel 2.
Aucune interaction n’est considérée comme possible entre les colonies microbiennes : les seuls
échanges sont réalisés entre dépôts de carbone et colonies, en fonction de leur proximité spatiale
(distance en deux ou trois dimensions) par rapport au rayon d’action associé à la colonie microbienne.
Ces associations peuvent être représentées sous la forme de lignes liant les agents de
chaque type pouvant potentiellement interagir, tel qu’illustré par la Figure 8.3CHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 117
Algorithme 2 : Algorithme séquentiel d’évolution MIOR
Data : mmList Tableau d’agents MM (colonies microbiennes)
Data : omList Tableau d’agents OM (dépôts de carbone)
Data : world Environnement global de la simulation
1 breathNeed ← world.respirationRate × mm.carbon;
2 growthNeed ← world.growthRate × mm.carbon;
3 availableCarbon ← totalAccessibleCarbon(mm);
4 if availableCarbon > breathNeed then
/* Processus de respiration */
5 mm.active ← true;
6 availableCarbon ← availableCarbon − consumCarbon(mm, breathNeed);
7 world.CO2 ← world.CO2 + breathNeed;
8 if availableCarbon > 0 then
/* Processus de croissance */
9 growthConsum ← max(totalAccessCarbon(mm), growthNeed);
10 consumCarbon(mm, growthConsum);
11 mm.carbon ← mm.carbon + growthConsum;
12 end
13 else
14 mm.active ← f alse
15 end
Figure 8.3 – Représentation graphique d’une simulation MIORCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 118
Problématiques d’implémentation du plugin
L’ajout d’un nouveau plugin MCMAS permettant de lancer plusieurs simulations MIOR de
manière simultanée implique l’utilisation de MCM, puisque l’ensemble de la simulation et non
certains traitements génériques doit être parallélisé. Cette approche implique donc l’utilisation
d’OpenCL pour implémenter l’algorithme MIOR, ce qui impose la gestion de plusieurs problématiques
:
— La parallélisation de l’exécution du modèle. Cette démarche, commune à toute parallélisation
de modèle sur GPU, impose en particulier l’identification du grain de parallélisation
retenu aux différentes étapes de l’algorithme d’évolution.
— L’adaptation des structures de données. Les principales structures de données utilisées par
MIOR sont une grille et un vecteur de structures par population, contenant les informations
de chaque agent.
— La gestion de l’accès aux ressources partagées. La parallélisation de l’algorithme séquentiel
MIOR implique le partage de nombreux dépôts de carbone entre colonies microbiennes.
Il est nécessaire, à ce niveau, de garantir un accès équitable à ces ressources pour
ne pas pénaliser certains agents. Cette problématique est l’occasion d’étudier l’application
des barrières d’utilisation OpenCL.
— Le choix du nombre d’itérations de la simulation à exécuter. Ce nombre peut être directement
indiqué en paramètre du lancement, ou déterminé à partir de l’évolution du modèle.
Dans ce second cas se pose alors la question de définir la ou les métriques permettant de
déterminer s’il y a lieu d’arrêter l’exécution.
Organisation de l’exécution en parallèle
Le plugin MIOR repose sur l’utilisation d’un bloc, ou work-group, pour traiter chaque simulation
MIOR. A l’intérieur de ce bloc, chaque agent de la simulation est associé à un thread GPU.
La simulation d’une itération de la simulation est découpée en fonctions OpenCL distinctes, pour
permettre leur appel de manière indépendante à des fins de tests ou en un seul lancement pour
effectuer une ou plusieurs itérations.
L’utilisation d’un work-group par simulation permet l’exécution de plusieurs modèles en parallèle,
tel qu’illustré sur la Figure 8.4. Ce choix permet également de tirer parti des possibilités
de recouvrement d’exécution offertes par OpenCL : si l’exécution de un ou plusieurs work-items
est bloquée (accès mémoire, opération coûteuse) les ressources disponibles peuvent être allouées
à d’autres work-items en attente d’exécution. Cette exécution de multiples simulations permet
également de garantir un bon remplissage des coeurs fournis par la plate-forme, ce qui n’est pas
toujours possible avec une seule simulation en fonction du nombre d’agents à traiter.
La possibilité de lancer plusieurs simulations MIOR simultanément réduit également le nombre
de copies et de données nécessaires pour une même quantité de simulations. Étant donné la rapidité
de chaque simulation, ce facteur a un impact direct sur les performances obtenues, tel qu’illustré
dans nos expérimentations.CHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 119
MIOR MIOR MIOR
Workgroup
Kernel
Workgroup Workgroup
Simulations MIOR
Figure 8.4 – Répartition de l’exécution de plusieurs modèles MIOR en OpenCL
Adaptation des structures de données
L’adaptation du modèle MIOR requiert la conversion des données du modèle existant en structures
de données OpenCL. Dans le cadre de la réalisation de ce plugin, l’environnement et les
agents sont représentés sous forme de tableaux statiques de structures représentant l’état de chaque
entité. Le comportement associé à ces entités est, quant à lui, implémenté sous forme de fonctions
OpenCL, appelées par les programmes OpenCL exécutés.
Quatre structures de données, illustrées sur le Listing 8.1, sont employées pour représenter
chaque simulation MIOR :
— Un tableau d’agents MM, stockant l’état des colonies microbiennes du modèle.
— Un tableau d’agents OM, représentant l’état des dépôts de matière organique.
— Une matrice de topologie, stockant les informations d’accessibilité
— Une structure monde globale, stockant à la fois les paramètres du système (taux de respiration,
de métabolisme) et les données résultat (quantité de CO2 produite).CHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 120
Listing 8.1 – Structures de données MIOR utilisées en OpenCL
1 / / C ol o ni e mi c r o bi e n n e
2 typedef struct MM {
3 float x; / / P o s i t i o n X
4 float y; / / P o s i t i o n Y
5 int carbon; / / Carbone de l a c o l o n i e
6 int dormancy; / / É t a t a c t u e l
7 } MM;
8
9 / / Dé pô t de c a r b o n e
10 typedef struct OM {
11 float x; / / P o s i t i o n X
12 float y; / / P o s i t i o n Y
13 int carbon; / / Carbone du d é pô t
14 } OM;
15
16 / / E n vi r o n n em e nt de s i m u l a t i o n
17 typedef struct World {
18 int nbMM;
19 int nbOM;
20 int RA; / / Rayon d ’ a c t i o n
21 float RR; / / Taux de r e s p i r a t i o n
22 float GR; / / Taux de c r o i s s a n c e
23 float K; / / Taux de d é c o m p o s i t i o n
24 int width; / / T a i l l e du modè l e
25 int minSize; / / T a i l l e mi nim al e d ’ une c o l o n i e mi c r o bi e n n e
26 int CO2; / / Q u a n t i t é t o t a l e de CO2 d a n s l e modè l e
27 } World;
L’ensemble de ces structures est d’abord alloué et initialisé par le processus principal, puis
copié sur le périphérique d’exécution OpenCL.
La topologie du modèle peut être représentée sous deux formes (Figure 8.5) :
— En associant directement à chaque jeu de coordonnées (i, j) de la matrice l’information de
voisinage entre la colonie microbienne i et le dépôt de carbone j.
— En représentant ces informations sous forme de structure compacte en nombre d’accès.
Notre proposition, basée sur [JGLG09], permet de diminuer le nombre d’accès mémoire
devant être effectués pour accéder à tous les voisins associés à un agent particulier. Cette
représentation compacte se traduit par le stockage contigu des numéros d’index associés à
chaque agent dans chaque ligne de la matrice, mais requiert une duplication de la structure,
comme dans le cas des techniques de linéarisation de grille évoquées dans les structures
de MCMAS, pour permettre un accès efficace d’un point de vue ligne (index MM connu,
recherche des OM associés) et colonne (index OM connu, recherche des MM associés).
L’utilisation d’une représentation compacte (en nombre d’accès) consomme davantage de mé-
moire mais permet une réduction du nombre d’accès mémoire nécessaires pour le traitement du
modèle proportionnelle à la densité de remplissage de la matrice de topologie. Une utilisation de la
matrice à 10% permet ainsi de réduire d’autant le nombre d’accès mémoire nécessaires au parcours
de toutes les cellules utilisées de la structure dans le cadre de la mise à jour du modèle.
L’allocation dynamique de mémoire n’est actuellement pas possible en OpenCL, et vient seulement
d’être introduite dans les dernières versions du standard CUDA. Toutes ces structures de matrices
doivent donc être allouées de manière statique sur CPU en prenant en compte le pire des cas
possibles, où tous les agents OM du modèle accessibles depuis tous les agents MM. Une allocation
moins pessimiste est possible en ajoutant une étape de pré-traitement du modèle, de manière àCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 121
Figure 8.5 – Représentation creuse et compacte en accès de la topologie MIOR
compter le nombre de liaisons devant effectivement être représentées, au prix toutefois d’une étape
de calcul supplémentaire. Cette piste n’a pas été évaluée dans notre étude.
Gestion de l’accès aux ressources critiques
Deux points critiques du modèle MIOR sont l’équité d’accès aux ressources en carbone pour
les colonies microbiennes du modèle et la nécessité d’assurer la cohérence des mises à jour de
données, pour éviter toute perte ou gain de matière dans le modèle.
Sur une architecture massivement parallèle telle que les cartes graphiques, ce type de synchronisation
peut très rapidement devenir coûteux, et entraîner une séquentialisation de l’algorithme.
Dans ce cas extrême, l’ensemble des fils d’exécution est bloqué en attente d’un verrou, et un seul
agent peut s’exécuter : les performances obtenues sont alors inférieures à celles d’une simple implémentation
séquentielle, du fait des latences et de la complexité introduites par la gestion de la
synchronisation. Il est donc critique, dans la parallélisation complète d’un système multi-agents,
de s’assurer que les agents seront effectivement capables de s’exécuter de manière indépendante,
pour tirer parti du parallélisme.
Pour traiter cette problématique, l’algorithme de la simulation MIOR a été adapté pour permettre
un découpage en trois étapes d’exécution parallélisables, séparées par des barrières de synchronisation.
Ce fonctionnement est permis par un découpage en parts de carbone des ressources
présentes dans le modèle :
1. distribution : le carbone disponible dans chaque dépôt de carbone (OM) est partagé en parts
équitables entre tous les MM y ayant accès.
2. simulation du métabolisme : les différents processus métaboliques associés aux colonies
microbiennes (respiration, croissance) sont appliqués en parallèle pour chaque agent sur
les parts de carbone qui lui sont associées.
3. rassemblement : les parts de carbone restantes non consommées sont réintégrées dans leur
dépôt d’origine.
Cette solution permet de réduire le nombre de synchronisations nécessaires à chaque itération
à trois barrières, plutôt qu’un grand nombre de verrous, et permet également d’exécuter ces trois
étapes en un seul lancement depuis le langage Java.CHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 122
Détection de la terminaison
Si le modèle MIOR s’intéresse à l’évolution microscopique d’un système, il est tout à fait
possible de le coupler avec des modèles s’appliquant à d’autres échelles de taille, notamment
macroscopiques, pour obtenir une simulation plus exhaustive du problème : on parle alors de
simulation multi-échelles.
Sworm [BMD+09] est un exemple de système multi-agents agent pouvant compléter l’évolution
à l’échelle microscopique décrite par MIOR. Ce modèle permet de représenter l’effet de la
macrofaune (par exemple les vers de terre) et de la microfaune (les bactéries) sur l’évolution des
quantités de matière organique dans le sol. L’implémentation de Sworm est développée en Java sur
la plate-forme Madkit [GF00a]. Elle se focalise sur l’effet bioturbant (déplacement des matières
minérales et organiques) causé par les vers de terre dans le sol. Cette version ne prenant pas en
compte l’activité microbienne, l’objectif du modèle MIOR est de simuler cette activité à l’échelle
d’un cube de sol de 0.002 mm, là où le modèle Sworm s’intéresse à des échelles de sols de 20 cm.
La représentation des données sous la forme d’unités de sol est liée à cette intégration : pour
ne pas imposer l’instantiation de l’ensemble des cellules du volume de sol représenté, Sworm se
base sur une représentation des données de type fractale (Figure 8.2). Cette organisation permet
l’allocation et le raffinement de la représentation de chaque cellule de sol à la demande. Elle est
totalement transparente du point de vue de la représentation des données du modèle MIOR, qui ne
manipule que des cellules de la plus petite échelle de représentation. Elle possède cependant son
importance en termes de scénarios d’exécution devant être envisagés pour ce modèle. L’instantiation
de nouvelles unités macroscopiques de sol implique en effet le lancement de nombreuses
simulations MIOR, qui peuvent être déléguées par lot sur GPU.
Cette utilisation dans le cadre d’un autre modèle pose cependant le problème de pouvoir contrô-
ler le temps d’exécution, et donc la quantité de traitements effectués par ces simulations MIOR. Il
est possible de définir deux critères de terminaison pour assurer ce contrôle :
— Stabilisation de l’évolution du modèle sur N itérations
— Exécution d’un nombre fixé d’itérations
Ces deux critères répondent à des optiques différentes, avec toutefois systématiquement la volonté
de pouvoir suivre l’historique de l’évolution des principales données du modèle (quantité de
carbone, de CO2
).
Stabilisation de l’évolution du modèle sur N itérations
Ce critère de terminaison correspond à une absence d’évolution d’un ensemble de métriques
pendant un nombre fixé d’itérations. Cet ensemble peut comprendre un nombre variables de mé-
triques, suivant le niveau d’évolution à surveiller : une simple surveillance de la quantité globale
de carbone stockée par les colonies microbiennes permet par exemple de déceler tout arrêt de fixation
du carbone sur cette période de temps. Cet état ne garantit pas cependant l’arrêt de l’évolution
du modèle, mais simplement l’absence de ressources en carbone suffisantes pour déclencher
la moindre croissance microbienne. La poursuite du processus de respiration n’est pas prise en
compte. La surveillance des quantités de dioxyde de carbone (CO2) pallie à ce défaut, du fait de
sa production lors du processus de respiration. Une surveillance de ces deux quantités n’est cependant
pas nécessaire pour garantir l’arrêt des deux processus d’évolution dans le modèle : la
respiration prenant le pas sur toute croissance dans l’algorithme, la cessation de ce processus suffit
à garantir l’arrêt du second.
L’utilisation de N itérations de surveillance est rendue nécessaire par l’obligation de prendreCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 123
en compte l’éventuel décès d’une ou plusieurs colonies bactériennes, une fois ce type d’équilibre
atteint. Ces décès, en diminuant la concurrence d’accès aux dépôts de carbone, augmentent la
quantité de carbone utilisable par les autres colonies microbiennes en partageant l’accès. Cette
augmentation est susceptible de permettre à ces colonies de sortir de leur état de dormance et de
relancer une nouvelle phase d’évolution du système.
L’inconvénient de ce critère d’arrêt est la difficulté d’estimer à priori le nombre d’itérations né-
cessaires à la stabilisation du système. L’exécution sur GPU ne pouvant pas être interrompue par le
programme, il est difficile, même avec une connaissance précise des paramètres de la simulation,
de par la nature aléatoire du positionnement des agents, et donc leur accès aux ressources, et de certains
processus, de calculer une échéance de temps fiable avant obtention du type de stabilisation
de l’évolution recherchée.
Exécution d’un nombre fixé d’itérations
Ce critère de terminaison est totalement agnostique vis-à-vis de l’état du modèle, et considère
le seul nombre d’itérations de la simulation écoulé comme indicateur d’arrêt. Cette limite permet,
en connaissant la durée moyenne d’une itération, d’estimer le temps total nécessaire pour effectuer
le calcul demandé. En variant le nombre d’itérations exécutées pour chaque lancement GPU, cette
information permet le contrôle de la latence maximale entre deux retours de résultats.
L’estimation de la durée d’une itération est possible, en dépit de la nature stochastique de certaines
portions de l’algorithme (positions, probabilité de décès) en considérant le cas le plus coû-
teux possible en complexité d’exécution. Dans le cas de MIOR, les seules boucles de l’algorithme
sont associées à des parcours de relations inter-agents. Ce coût revient à calculer le nombre maximal
de relations pouvant être présentes dans le modèle. Ce nombre est atteint si chaque colonie
microbienne a un rayon d’interaction égal ou supérieur à la dimension la plus grande du modèle.
Tous les dépôts de carbone présents dans le modèle sont alors accessibles à chaque colonie microbienne,
ce qui se traduit, pour n colonies microbiennes et m dépôts de carbone, par un total de
n ∗ m relations possibles.
Les deux approches de terminaison sont rendues possibles par le plugin MIOR fourni avec MCMAS,
de manière à permettre le choix de l’une ou l’autre des approches par le modèle Sworm, en
fonction du nombre de simulations à lancer et des impératifs en temps du modèle macroscopique.
8.1.3 Un modèle macroscopique : Collemboles
Après avoir présenté la parallélisation du modèle MIOR, nous nous intéressons à présent à un
autre système multi-agents, macroscopique cette fois, Collemboles. Ce modèle nous permet de
mettre en avant un exemple de parallélisation complète de modèle sur GPU au moyen de plusieurs
kernels d’exécution lancés de manière asynchrone.
Présentation du modèle
Le modèle Collemboles est un système multi-agents conçu pour modéliser la diffusion d’arthropodes,
des collemboles, entre des parcelles de plusieurs types naturelles, forestières ou artificielles,
en vue d’étudier leur impact sur la biodiversité. Il est basé sur le chargement de données depuis un
système d’information géographique pour obtenir un espace en deux dimensions découpé en parcelles
de terrain de forme polygonale, tel qu’illustré par la Figure 8.6. Cet environnement continuCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 124
est ensuite décomposé en cellules, ou patchs, correspondants à une aire de sol fixe, qui sont utilisés
comme unités de base de modélisation. L’implémentation de référence de cet algorithme a été
réalisée en NetLogo, de manière à permettre une visualisation aisée de l’évolution de la répartition
géographique et de la densité de population des individus.
Figure 8.6 – État initial d’une simulation Collemboles - Implémentation NetLogo
L’évolution de la simulation est découpée en quatre étapes, appliquées au niveau de chaque
cellule :
1. L’Arrivée de nouveaux individus. Cette opération correspond à la distribution équitable
d’une fraction de la population de chaque parcelle à toutes les cellules la constituant. Toutes
les populations du modèle étant entières, ce processus n’a d’effet au niveau de chaque
parcelle que si cette fraction de nouveaux individus représente un nombre supérieur à la
quantité de cellules de la parcelle.
2. La Reproduction, qui consiste à mettre à jour la population de chaque parcelle pour correspondre
à la somme des populations de toutes les cellules la composant, pour permettre un
suivi de l’évolution de chaque parcelle.
3. La Diffusion. Cette opération consiste à diffuser une portion de la population de chaque
cellule à ses huit voisines, comme évoqué dans nos exemples de plugins MCMAS. Cette
diffusion se différencie de celle fournie par notre bibliothèque par le fait qu’elle n’a lieu que
si le terrain de la parcelle courante est adapté aux collemboles et si la population globale
de la parcelle atteint un certain seuil.
4. La Mort des individus. A la fin de chaque itération, toute population non nulle de collemboles
au niveau de parcelles inadaptées à ces individus est fixée à zéro pour indiquer sa
disparition.
Cet algorithme, relativement simple, est cependant composé de plusieurs opérations coûteuses
en temps de calcul mais parallélisables : la diffusion et la mise à jour des populations. L’applicationCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 125
de ces traitements à chaque cellule est cependant largement conditionnelle, en fonction d’informations
externes telles que le type ou la population de la parcelle, ce qui rend difficile l’utilisation
des primitives de haut niveau de diffusion ou de réduction fournies par MCMAS. Dans la suite de
cette section, nous évoquons un autre moyen de paralléliser cette exécution à l’aide de l’interface
bas niveau donnant accès à OpenCL.
Implémentation
Comme nous venons de le voir, les différents traitements mis en jeu par le modèle Collemboles
sont parallélisables, mais mettent en jeu de nombreuses conditions externes qui rendent difficile
l’utilisation de primitives de haut niveau MCMAS. Dans ces conditions, nous avons retenu une
autre approche d’implémentation basée sur l’utilisation de l’interface de bas niveau pour décomposer
le déroulement de la simulation en quatre traitements distincts lancés sans synchronisation
intermédiaire sur GPU, tel qu’illustré par la Figure 8.7 :
— Un kernel responsable de la gestion des nouveaux arrivants.
— Un kernel chargé de la reproduction des individus.
— Un kernel responsable de la diffusion des populations sur les parcelles propices.
— Un dernier kernel gérant la disparition des populations situées sur des parcelles inadaptées.
Nouveaux arrivants
Préparation
données
Récupération et
enregistrement
des résultats
CPU GPU
Reproduction
Diffusion
Décès
Figure 8.7 – Découpage d’une itération collembole entre CPU et GPUCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 126
Structures de données
Deux structures principales sont mises en jeu dans le modèle Collemboles :
— Les parcelles, associées à une surface, une population et un type de terrain.
— La grille représentant l’environnement de simulation, dont chaque cellule comprend une
indication de parcelle et une population.
La représentation des parcelles en OpenCL peut être effectuée, comme nous l’avons vu dans
notre réflexion sur les structures de données agents, sous forme de tableaux de structures ou d’un
tableau pour chaque propriété.
Nous avons choisi, dans le cas du modèle Collembole, d’avoir recours à un tableau par propriété
pour représenter les parcelles pour plusieurs raisons :
— Le faible nombre de propriétés associées à chaque parcelle limite l’explosion du nombre
de paramètres sur GPU.
— Seules une ou deux de ces propriétés sont utilisées à chaque étape des traitements. Le
découpage des propriétés en structures distinctes permet donc de récupérer certaines informations
du modèle en cours d’exécution à des fins de vérification ou de stockage sans
perturber l’exécution des traitements n’y ayant pas recours.
— Les traitements des cellules étant toujours basés sur les mêmes propriétés dans un même
traitement, ce découpage maximise la localité de ces propriétés en mémoire, à la fois pour
optimiser les accès et l’occupation des éventuels caches L1 et L2 présents sur le matériel.
Ce raisonnement s’applique également à l’environnement, pour lequel l’utilisation d’une grille
par propriété, assez similaire à celle de l’implémentation proie-prédateur, a été retenue. Dans le
cas de la grille d’environnement, ce découpage en grilles de propriétés offre un avantage supplé-
mentaire, en permettant de limiter au strict minimum les données devant être présentes en mémoire
GPU à un moment donné.
Nouveaux arrivants
L’arrivée de nouveaux arrivants est traitée au niveau de chaque cellule. Pour cela, chaque instance
du kernel récupère la population et le nombre de cellules de la parcelle associée à la cellule
courante, pour déterminer le nombre d’individus devant être répartis sur chaque unité de sol. Cette
opération revient à calculer de nombreuses fois la même fraction de population à répartir, mais
permet à chaque thread de ne mettre à jour que sa cellule locale, ce qui élimine tout problème de
synchronisation de l’écriture des données.
Reproduction
Ce traitement est également effectué pour chaque cellule de l’environnement. La réduction de
la population au niveau de la parcelle est effectuée sous forme d’addition atomique, pour garantir
la cohérence des totaux obtenus.
Le choix d’un traitement basé sur les parcelles, plutôt que les cellules, éviterait l’utilisation
d’opérations atomiques, mais impose de disposer d’une liste des cellules associées à chaque parcelle
pour ne pas avoir à parcourir l’ensemble de la grille, structure qui n’est pas présente dans
notre modèle.
Le code final obtenu est très proche d’une opération de diffusion MCMAS, si ce n’est que les
résultats sont réduits en plusieurs sous-totaux sur la base de parcelles plutôt que sous la forme
d’une unique valeur scalaire.CHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 127
Diffusion
La réalisation de la diffusion sur GPU des populations du modèle est effectuée en deux étapes,
séparées par une barrière d’exécution.
— Une quantité d’individus à diffuser est calculée au niveau de chaque cellule.
— Chaque cellule récupère un huitième de la quantité de chaque cellule voisine et l’ajoute à
sa propre population.
L’application des mises à jour sur la cellule associée à chaque thread, plutôt que d’effectuer
directement les mises à jour sur les cellules voisines, permet comme dans le cas de l’arrivée de
nouveaux individus de garantir l’absence d’écriture de la même donnée par plusieurs threads différents,
et ainsi d’éviter la synchronisation des modifications associées dans le modèle.
Mort des individus
Le dernier traitement exécuté sur GPU pour chaque cellule est la mise à zéro de la population
de chaque cellule inadaptée du fait du type de terrain aux individus collemboles. Cette dernière
opération ne requiert pas de considération particulière en termes de synchronisation de l’exécution,
la seule donnée utilisée en écriture est la cellule courante. Elle peut donc être directement réalisée
sans adaptation particulière en OpenCL.
8.2 Etudes de performances
8.2.1 Supports d’exécution
Dans le cadre de nos études de performances, nous avons eu recours à une variété de supports
d’exécution, tant grand public que orientés vers le calcul haute performance. Dans cette section,
nous présentons les caractéristiques de chacun de ces matériels, pour les replacer dans le contexte
de l’évolution de l’exécution sur GPU.
L’objectif de cette variété de supports est de permettre la comparaison entre gammes professionnelles
et grand public d’une part, entre anciennes et nouvelles générations d’autre part, de
différentes solutions matérielles d’exécution. De cette manière, il est possible de quantifier, pour
un chercheur, le bénéfice pouvant être obtenu par l’utilisation de matériel spécialisé par rapport à
celle de son poste personnel. Cette variété permet également de valider les performances obtenues
de manière indépendante par rapport à une génération de matériel ou une implémentation OpenCL
donnée.
Il est important de noter que le nombre de coeurs n’est pas directement comparable entre maté-
riel NVIDIA et AMD, les unités d’exécution proposées par ce second fabriquant étant plus nombreuses
mais également plus spécialisées.
Voici la liste de ces supports, classés par ordre chronologique.
NVIDIA Geforce 8800GT
Le premier matériel sur lequel nous avons eu l’occasion de réaliser des essais est une carte
graphique milieu de gamme grand public de NVIDIA, la Geforce 8800GT, sortie en octobre 2007.
Cette carte dispose de 112 unités d’exécution, soit 14 multi-processeurs, cadencés à 1.5 GHz et
accompagnés de 512 Mo de mémoire vive, et offre une puissance théorique de 504 Gflops enCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 128
simple précision. Elle ne supporte pas matériellement la gestion des nombres en double précision.
Dans nos expérimentations, elle est associée à un processeur Intel Core 2 Q9300 fonctionnant à
2.5 GHz. Elle ne propose pas de mécanisme de cache L1 et L2.
NVIDIA Tesla S1070
Le second matériel utilisé est un châssis graphique dédié au calcul GPU proposé par NVIDIA
en 2009. Il est constitué de quatre cartes graphiques Tesla C1060 dotées de 240 unités d’exécution,
soit 30 multiprocesseurs cadencés à 1.3 Ghz pour une puissance théorique de 933 Gflops par carte.
Chaque carte est associée à 4 Go de mémoire vive. Dans le cadre de nos tests, un seul de ces
GPU est utilisé, couplé à un processeur Intel Xeon X5550 cadencé à 2.67 Ghz. L’architecture
matérielle de cette solution est très similaire à la Geforce 8800GT présentée précédemment. Elle
se différencie par la quantité de mémoire disponible, 4 Go, ainsi que le support de la correction
des erreurs mémoires (ECC) et des calculs en nombres flottants double précision. Elle ne propose
pas de mécanisme de cache L1 et L2.
AMD Radeon HD6870
La carte graphique AMD Radeon HD6870 est une carte graphique grand public de milieu de
gamme sortie en octobre 2010. Elle se caractérise par l’utilisation d’un mécanisme de cache L1
et L2 similaire à celui rencontré sur les cartes NVIDIA récentes, mais ne supporte pas toutefois
le traitement matériel de nombres flottants en double précision. Elle est constituée, au niveau du
matériel, de 1120 coeurs cadencés à une fréquence de 900 MHz, pour une puissance théorique
de 2016 Gflops. Ces unités d’exécution sont associées à 1Go de mémoire vive intégrés à la carte.
Dans nos expérimentations, elle est associée à un processeur AMD Phenom II X6 1090T cadencé
à 3.2 GHz.
NVIDIA Geforce 560Ti
La Geforce 560Ti est une carte graphique grand public de milieu de gamme sortie en janvier
2011. Elle est basée sur l’architecture Fermi. Cette carte propose 384 unités d’exécution cadencées
à 822 MHz et 1 Go de mémoire vive. Elle dispose d’un mécanisme de cache L1 et L2 et supporte
les calculs en double précision, mais limite le débit d’opérations obtenu à un douzième de celui des
traitements en simple précision. Dans notre configuration de test, elle est associée à un processeur
Intel Core i7 2600K cadencé à 3.4 GHz.
NVIDIA Tesla K20
La carte graphique Tesla K20 est basée sur l’architecture matérielle Kepler et propose donc
un cache L1 et un cache L2. Sortie fin novembre 2012, elle est destinée spécifiquement au calcul
scientifique, et supporte matériellement le traitement de nombres flottants en double précision
ainsi que la correction des erreurs mémoires. Elle est constituée au niveau matériel de 2496 coeurs
graphiques cadencés à 706 MHz, pour une puissance théorique de 3520 Gflops. Ces coeurs d’exé-
cution sont associés à 5120 Mo de mémoire vive. Les performances en double précision offertes
par cette carte sont de l’ordre du tiers des performances obtenues en simple précision. Cette carte
est associée dans nos expérimentations à un processeur Intel Xeon CPU E5-2609v2 cadencé à
2.50 GHz.CHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 129
8.2.2 Protocole expérimental
L’évolution du matériel GPU est très rapide. Nous avons donc eu l’occasion, entre le début et
la fin de nos recherches, de tester des supports très différents. Certains d’entre eux, comme la carte
Geforce 8800GT, n’ont pas pu être utilisés pour l’ensemble de nos tests. Nous avons cependant
inclus les courbes correspondantes pour permettre une comparaison avec nos autres plates-formes
d’exécution.
Tous les tests ont été lancés sur des systèmes d’exploitation Linux 64 bits. Les courbes de la Geforce
8800GT ont été réalisées avec la version 3.2 de l’environnement CUDA fourni par la société
NVIDIA. Toutes les autres courbes mettant en jeu du matériel de ce fabriquant ont été réalisées
avec la dernière version stable, la version 5.2. Pour les tests de performance sur matériel AMD ou
CPU, nous avons utilisé l’implémentation OpenCL proposée par l’environnement AMD APP en
version 2.7.
Dans le cadre de nos expérimentations, nous avons choisi d’évaluer le temps d’exécution en
fonction de la quantité de traitements. Nous avons pour cela fait varier la taille et le nombre
d’agents du modèle dans le cas des modèles MIOR et Collemboles. Dans le cas de proie-prédateur,
cette variation de la quantité des traitements est obtenue en modifiant le rayon de recherche de
chaque individu.
Toutes les valeurs indiquées sont basées sur une moyenne des temps d’exécution obtenus sur
plusieurs dizaines d’exécution, de manière à minimiser l’impact du système d’exploitation et du
pilote graphique sur les temps observés.
8.2.3 Résultats obtenus
Proie-prédateur
Pour mesurer l’impact de l’utilisation du GPU sur les performances obtenues, nous avons choisi
de faire varier le rayon de recherche de nouvelles positions sur GPU, en maintenant toutes les
autres données constantes. De cette manière, il est possible de mesurer l’impact du nombre de
cases parcourues et du nombre d’accès mémoires sur les performances obtenues. Le rayon de
recherche est directement appliqué aux proies, et majoré de 50% pour les prédateurs, de manière
à conserver un rapport fixe entre les champs de vision de chaque population. Nous avons utilisé
pour nos expérimentation un environnement de dimension 1000, capable de tenir en mémoire
sur tous nos supports d’évolution. Pour éviter de donner l’accès à l’ensemble de l’environnement
à chaque individu, nous nous sommes arrêtés à un rayon de recherche de 100, correspondant à
1% de l’espace total simulé. Chaque courbe compare les performances obtenues entre la carte
graphique et le CPU présent sur le même support d’exécution, ce qui explique l’allure différente
de chaque courbe CPU.
Le temps moyen d’une itération est pris pour référence pour mesurer l’impact de ce rayon de
recherche sur les performances du modèle. Ce temps est à chaque fois comparé entre l’implé-
mentation basée sur MCMAS, et une implémentation reprenant exactement le même algorithme
mais utilisant des équivalents réalisés en Java de ces opérations génériques, de manière à disposer
de deux décompositions du programme équivalentes. La moyenne en temps d’exécution d’une
itération sur cinquante itérations de la simulation est retenue comme référence.
La Figure 8.8 illustre les temps obtenus sur carte Kepler et sur le processeur Xeon correspondant.
Tant que le rayon de recherche configuré pour les individus proies demeure inférieur à 30,
l’implémentation GPU présente des performances très similaires à la version CPU. Cette proximitéCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 130
0
1000
2000
3000
4000
5000
6000
7000
10 20 30 40 50 60 70 80 90 100
Temps moyen par itération (ms)
Rayon de recherche
CPU
GPU
Figure 8.8 – Temps moyen d’exécution d’une itération du modèle proie-prédateur sur carte Kepler
K20m et processeur Xeon CPU E5-2609v2
s’explique par le coût fixe du reste de l’itération, mais permet toutefois d’illustrer que le recours au
GPU ne pénalise pas les performances du modèle, même à petite échelle. La version de la simulation
s’exécutant sur carte Kepler prend l’avantage à partir d’un rayon de recherche supérieur à
30, et cet avantage devient particulièrement marqué à partir d’un rayon de recherche de 60, où les
performances CPU présentent un important ralentissement. La différence de performance atteint
un facteur 7 en faveur de la carte GPU quand le rayon de recherche approche de 100.
0
500
1000
1500
2000
2500
3000
3500
4000
4500
5000
5500
10 20 30 40 50 60 70 80 90 100
Temps moyen par itération (ms)
Rayon de recherche
CPU
GPU
Figure 8.9 – Temps moyen d’exécution d’une itération du modèle proie-prédateur sur carte Radeon
HD6870 et processeur AMD Phenom II X6 1090T
La Figure 8.9 illustre les performances obtenues sur la Radeon HD6870 décrite dans nos supports
d’exécution. L’implémentation GPU prend l’avantage dès un rayon de recherche de 10, et cet
avantage va ensuite en s’accentuant irrégulièrement jusqu’à un rayon de recherche de 70, au-delàCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 131
duquel la courbe CPU indique une brusque dégradation des performances. Si le comportement
du CPU par rapport à l’augmentation du rayon de recherche demeure très régulière, il est possible
de remarquer que les performances obtenues par la carte Radeon manifestent des variations
marquées. Les temps obtenus sur GPU sont meilleurs qu’avec notre carte Kepler, ce qui tend à
confirmer l’excellente réputation des cartes AMD en exécution GPU et en support d’OpenCL.
0
500
1000
1500
2000
2500
3000
3500
4000
10 20 30 40 50 60 70 80 90 100
Temps moyen par itération (ms)
Rayon de recherche
CPU
GPU
Figure 8.10 – Temps moyen d’exécution d’une itération du modèle proie-prédateur sur carte Geforce
560Ti et sur CPU
La Figure 8.10 montre les performances obtenues sur la plate-forme matérielle Geforce 560Ti.
Elle se caractérise, comme dans le cas de la carte Kepler, par des performances initialement très
proches entre version CPU et GPU, avant que les temps ne tournent nettement à l’avantage de cette
dernière à partir d’un rayon de recherche de 40. Cet avantage devient encore plus marqué à partir
d’un rayon de 60. La courbe GPU présente également, quoique de manière moins accentuée, les
pics observés sur les temps de la carte Radeon. L’accélération finale obtenue entre CPU et GPU
est du même ordre qu’avec la carte Kepler, un facteur sept, au rayon de recherche 100.
Si l’objectif de ces trois courbes est de mettre en avant les gains permis par l’utilisation de deux
ressources de calculs différentes, CPU et GPU, sur une même machine, il est également intéressant
de comparer les résultats obtenus entre matériels CPU et matériels GPU.
— Entre matériels GPU, la carte Kepler se caractérise par une très grande régularité des performances
obtenues, cependant légèrement en deçà des cartes grand public récentes. Cet
handicap relatif peut être mis sur le compte de la fréquence de fonctionnement moins élevée
de chaque coeur graphique (700 MHz contre 800 MHz ou plus). L’utilisation des ressources
est à contrario plus stable sur cette carte, comme l’indique la courbe plus régulière.
Les ressources en mémoire plus importantes offertes par la carte permettent également
d’envisager des scénarios de taille supérieure.
— Entre CPU, les comportements en termes de performance sont très similaires, avec une
première portion linéaire, suivie d’un point charnière avant que les performances ne se
dégradent plus rapidement. Ces courbes mettent en avant le temps supérieur utilisé par
l’implémentation correspondant au CPU associé à la carte Tesla K20. S’il s’agit du processeur
le plus récent de nos tests, ce retard en temps est aisément expliqué par le fait
que l’exécution CPU ne tire pas parti de tous les coeurs d’exécution dans nos tests. DansCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 132
ces conditions, la fréquence joue un rôle très important, directement visible sur la courbe
correspondant au processeur AMD (3.2 GHz) et encore plus sur la courbe correspondant
au processeur Core i7 2600K (3.4 GHz). Par comparaison, le processeur Xeon testé ne
fonctionne qu’à 2.5 GHz.CHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 133
MIOR
Pour évaluer les performances de ce nouveau processus de distribution/rassemblement des ressources
du modèle sur GPU, nous avons choisi de comparer les performances obtenues par l’implémentation
sur plusieurs modèles de cartes graphiques. Pour illustrer l’impact des changements
incrémentaux apportés à l’algorithme original, nous avons également testé cinq implémentations
successives, comprenant un nombre croissant d’adaptations pour l’architecture GPU. Dans tous les
cas, le temps d’exécution moyen de 50 simulations a été retenu comme indicateur de performance.
Voici les caractéristiques des implémentations comparées :
— L’implémentation GPU 1.0 est une adaptation directe de l’algorithme et des structures de
données présentées, incluant seulement la suppression des dépendances d’accès aux données
par le biais du mécanisme de distribution/rassemblement décrit dans l’implémentation
du modèle.
— L’implémentation GPU 2.0 ajoute à l’algorithme de la première implémentation l’utilisation
d’une représentation alternative, plus compacte en termes d’accès, pour le stockage de
la topologie du modèle. Cette représentation exige toutefois des quantités plus importantes
de mémoire vive.
— L’implémentation GPU 3.0 introduit l’utilisation de la mémoire locale du périphérique
(voir présentation de l’architecture GPU), au moyen de copies manuelles de données les
plus utilisées (parts de carbone) au début et à la fin de chaque pas de calcul. L’algorithme
est par ailleurs identique à celui de la seconde implémentation.
— L’implémentation GPU 4.0 introduit la possibilité de résoudre plusieurs simulations en
parallèle pour chaque lancement de kernel. L’algorithme de chacune de ces simulations est
identique à la première implémentation.
— L’implémentation GPU 5.0 permet, de manière similaire à l’implémentation GPU 4.0, le
lancement de plusieurs implémentations GPU 2.0 de manière simultanée.
Les deux dernières implémentations présentées, GPU 4.0 et GPU 5.0, ont pour objectif de
permettre au modèle de profiter des possibilités de recouvrement d’exécution offerts par l’ordonnanceur
GPU, en s’assurant qu’il existe toujours des agents à exécuter en cas de blocage (barrière)
d’une simulation particulière, comme évoqué dans nos bonnes pratiques. Le fait de disposer de
nombreux threads permet en effet dans ce cas au matériel de traiter d’autres agents MIOR, pendant
que certains agents sont en attente de ressources.
Pour permettre la comparaison de ces implémentations avec la version séquentielle originale,
une version CPU réalisée en Java est également incluse.
Les figures 8.11, 8.12 et 8.13 donnent le temps d’exécution de 50 simulations sur nos supports
Tesla S1070, Geforce 560Ti et Tesla K20. Pour permettre une mesure de l’impact de la taille du
modèle et du nombre d’agents sur les performances, un facteur d’échelle est appliqué horizontalement
: à l’échelle 1, le modèle comprend 38 colonies microbiennes (MM) et 310 dépôts de
carbone (OM). Ces nombres sont multipliés par 6 à l’échelle 6, et la taille de l’environnement est
également modifiée pour conserver la même densité moyenne d’agents dans le modèle.
La Figure 8.11 met tout d’abord en évidence les performances obtenues sur une carte graphique
Tesla C1060 dénuée de cache. Ces courbes illustrent l’avantage initial en performance marqué en
faveur de l’implémentation GPU 2.0. Les autres variantes GPU sont plus lentes à prendre l’avantage
sur le CPU, et ne se détachent réellement en performance qu’à partir de l’échelle 4, pour
ensuite continuer à offrir des performances très proches. L’amélioration de performance obtenue
entre l’implémentation la plus rapide, GPU 2.0, et l’exécution sur CPU devient de l’ordre de 10 à
l’échelle 10.CHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 134
0
100
200
300
400
500
600
700
Temps moyen d'exécution d'une simulation (ms)
0 2 4 6 8 10
Facteur de mise à l'échelle du modèle
CPU
GPU v1.0
GPU v2.0
GPU v3.0
Figure 8.11 – Performances CPU et GPU MIOR sur carte Tesla C1060
0
50
100
150
200
250
300
350
400
450
500
550
Temps moyen d'exécution d'une simulation (ms)
0 2 4 6 8 10
Facteur de mise à l'échelle du modèle
CPU
GPU v1.0
GPU v2.0
GPU v3.0
Figure 8.12 – Performances CPU et GPU MIOR sur carte Geforce 560Ti
La Figure 8.12 illustre les performances obtenues sur un matériel grand public beaucoup plus
récent, et illustre en particulier les importants progrès réalisés par la gestion de la mémoire locale.
Les courbes possèdent, en dehors de cet élément, une évolution très similaire, avec des temps
d’exécution absolus toutefois de l’ordre de deux fois plus rapides, du fait de la fréquence et du
nombre de cœurs plus importants sur cette plate-forme. Les courbes se caractérisent de manière
générale par leur évolution très régulière, sans la rupture en performance rencontrée par la carte
Tesla. Cette régularité peut être expliquée par la présence de cache d’exécution sur cette nouvelle
architecture, et d’un meilleur algorithme de regroupement des accès mémoires, plus à même de
gérer les accès à la topologie effectués par la simulation MIOR. Ces courbes illustrent une nouvelle
fois un avantage de l’implémentation GPU 2.0 sur les autres implémentation. Elle est ainsi cinqCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 135
0
100
200
300
400
500
600
700
800
900
Temps moyen d'exécution d'une simulation (ms)
0 2 4 6 8 10
Facteur de mise à l'échelle du modèle
CPU
GPU v1.0
GPU v2.0
GPU v3.0
Figure 8.13 – Performances CPU et GPU MIOR sur carte Kepler K20m
fois plus rapide que l’implémentation GPU 3.0 à l’échelle 10. Cet avantage sur l’implémentation
GPU 3.0 est toutefois moins marqué que pour la carte Tesla C1060, ce qui montre l’intérêt de
nombreuses optimisations des accès mémoires effectués sur le coût de recopie des données en
mémoire locale. Les courbes GPU 1.0 et CPU illustrent des tendances et des temps d’exécution
très similaires au support d’exécution plus ancien.
La Figure 8.13 correspondant à la carte Tesla K20 est extrêmement similaire aux courbes obtenues
sur Geforce 560Ti, ce qui s’explique aisément par la proximité dans le temps et en termes
d’architecture, Kepler contre Fermi, entre ces deux cartes. Kepler se caractérise ici par des performances
en léger retrait, comme dans le cas du modèle proie-prédateur. Ce retrait peut encore une
fois être expliqué par la différence de fréquence de fonctionnement entre les deux cartes, dédiées à
des utilisations différentes. Ces courbes confirment également encore une fois l’avantage en termes
de fréquence de processeurs comme le Core i7 2600K sur des processeurs plus récents mais moins
véloces comme le Xeon, dans le cadre d’une exécution séquentielle. L’implémentation GPU 2.0
permet de nouveau l’obtention des meilleures performances, en étant approximativement six fois
plus rapide à l’échelle 10 que l’implémentation GPU 3.0. L’implémentation GPU 1.0 demeure la
plus lente des implémentations GPU, avec un facteur 10 par rapport à l’implémentation GPU 2.0
à l’échelle 10.
Le plugin MIOR est conçu pour pouvoir réaliser un grand nombre de simulations microscopiques
dans le cadre de la simulation multi-échelles Sworm. Dans ces circonstances, il est intéressant
de mesurer le coût d’un lancement MIOR sur GPU, ainsi que l’évolution des performances
obtenues en fonction du nombre de simulations demandées, de manière à évaluer la taille de lot
la plus efficace. L’objectif, de cette manière, est d’amortir les coûts de transferts liés à l’exécution
sur GPU, tout en étant capable de connaître le temps d’exécution total du lot de simulation, de
manière à éviter de bloquer d’autres traitements Sworm.
Au vu de ces éléments, il existe plusieurs manières de mesurer les performances de l’exécution
en parallèle de plusieurs simulations :
— En mesurant les performances d’un seul lancement et en variant le nombre de simulationsCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 136
(Figure 8.14). Cette approche permet de mesurer l’évolution du temps total d’exécution de
l’ensemble des simulations, théoriquement linéaire (loi d’accélération). Une stagnation de
la courbe indique une amélioration de l’efficacité d’exécution sur GPU, et une augmentation
de sa pente illustre au contraire une augmentation du coût de la parallélisation. Une
mauvaise efficacité peut être compensée, à plus grand échelle, par le recouvrement des accès
et des calculs proposés par la carte graphique, possible uniquement quand le nombre
de threads d’exécution en attente est suffisant.
— En mesurant le temps d’exécution total pour effectuer un nombre fixe de simulations (Figure
8.15) en faisant varier le nombre de simulations lancés simultanément. Cette approche
permet de mettre en évidence les coûts associés aux transferts et aux lancements, par rapport
au nombre et à la durée des calculs utilisés.
La Figure 8.14 illustre les temps d’exécution obtenus pour le lancement d’un nombre variable
de simulations en une seule fois. Les courbes montrent que, pour des petits nombres de simulations,
l’implémentation compacte de la topologie mémoire est plus performante que la repré-
sentation sous forme de matrice pleine à deux dimensions. Cette tendance s’inverse au-delà de 50
simulations exécutées en parallèle, ce qui s’explique soit par une progression non linéaire des coûts
de synchronisation, soit par la consommation mémoire supplémentaire imposée par l’utilisation de
la représentation optimisée en accès.
0
10
20
30
40
50
60
70
80
90
0 10 20 30 40 50 60 70 80 90 100
Temps total d'exécution (ms)
Nombre de simulations (workgroup) par exécution
GPU v4.0
GPU v5.0
Figure 8.14 – Temps d’exécution par simulation MIOR sur Tesla C1060, en fonction du nombre
total de simulations
La Figure 8.15 illustre les temps d’exécution obtenus pour l’exécution d’un même nombre total
de simulations, en variant le quantité de systèmes lancés en simultané. Les courbes illustrent cette
fois les coûts résultants de l’exécution sur GPU pour des lancements de petite taille. Ces coûts comprennent
notamment la préparation du programme et la copie des données vers et depuis la carte,
entre chaque lot de simulations. Ces coûts sont masqués une fois que le nombre de simulations
devient suffisamment important, et que le pilote OpenCL peut ainsi effectuer un recouvrement des
temps de communication par des calculs pour conserver les unités d’exécution en activité. Cette
pénalité à l’exécution sur GPU est davantage marquée dans le cas de l’implémentation optimisée
en accès, mais est visible sur les deux courbes. Au-delà de 30 simulations par lancement, le tempsCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 137
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
20000
0 10 20 30 40 50 60 70 80 90 100
Temps total d'exécution (ms)
Nombre de simulations (workgroup) par exécution
GPU v4.0
GPU v5.0
Figure 8.15 – Temps d’exécution total pour 1000 simulations MIOR sur plate-forme Tesla C1060,
en variant le nombre de simulations exécutées de manière simultanée.
d’exécution total de toutes les simulations stagne, indiquant qu’un remplissage optimal de la carte
est atteint pour cette implémentation.CHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 138
Collemboles
Pour mesurer l’impact de l’utilisation du GPU sur les performances obtenues, nous avons choisi
de faire varier le nombre de cellules présentes dans le modèle. Cette mise à l’échelle de l’environnement
impose cependant une réflexion particulière, le découpage des parcelles étant assuré sur la
base de données géographiques externes, associées à une réalité géographique particulière. Dans
ces conditions, l’augmentation du nombre de cellules entraîne une augmentation de la précision
du modèle, plutôt qu’un agrandissement de l’espace de simulation.
Le temps d’exécution de 500 itérations du modèle Collemboles est pris en compte pour mesurer
l’impact de ce rayon de cellules sur les performances du modèle. Ce temps est comparé sur trois
catégories de supports d’exécution :
— Les GPU accessibles au grand public, représentés par les supports Geforce 560Ti et Radeon
HD6870.
— Les GPU destinés à une utilisation professionnelle, représentés par les cartes Tesla C1060
et Tesla K20.
— Deux CPU grands publics, pour évaluer les performances pouvant être attendues en l’absence
de GPU.
La même implémentation basée sur l’utilisation d’OpenCL est utilisée pour toute les courbes,
qui illustrent donc les performances pouvant être obtenues en utilisant tous les coeurs d’exécution
disponible sur le matériel.
0
200
400
600
800
1000
1200
1400
1600
0 5 10 15 20
Temps total pour 500 itérations (s)
Facteur de mise à l'échelle
AMD Phenom X6 1090T
Intel Core i7 2600k
Figure 8.16 – Temps d’exécution de 500 itérations du modèle Collembole sur CPU
La Figure 8.16 illustre tout d’abord les performances obtenues en OpenCL sur deux CPU grand
public, un AMD Phenom X6 1090T et un Intel Core i7 2600K. Ces courbes mettent en évidence
un comportement très irrégulier des performances observées, avec toutefois un avantage de l’ordre
de 40% en faveur du processeur Intel.
La Figure 8.17 illustre l’exécution sur deux solutions graphiques grand public, et met en avant
l’intérêt de paralléliser la simulation sur GPU, avec des gains de l’ordre d’un facteur 2 par rapport
à une exécution sur CPU.
La Figure 8.18 enfin, oppose deux matériels professionnels, une carte Tesla C1060 et une carteCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 139
0
100
200
300
400
500
600
700
800
900
1000
0 5 10 15 20
Temps total pour 500 itérations (s)
Facteur de mise à l'échelle
Geforce 560Ti
Radeon HD 6870
Figure 8.17 – Temps d’exécution de 500 itérations du modèle Collembole sur GPU grand public
0
500
1000
1500
2000
2500
0 5 10 15 20
Temps total pour 500 itérations (s)
Facteur de mise à l'échelle
Tesla C1060
Tesla K20m
Figure 8.18 – Temps d’exécution de 500 itérations du modèle Collemboles sur GPU professionnels
Kepler K20m, et permet de mettre en avant les énormes progrès réalisés en termes de noeuds de
calculs GPGPU en quatre années par des mécanismes comme les caches L1 et L2. Les temps obtenus
pour la carte Kepler sont sur cette figure proches des résultats sur cartes grand public récentes
illustrées par la Figure 8.17, alors que la carte Tesla C1060 se caractérise par des performances
jusqu’à quinze fois inférieures à l’échelle 20.
Collemboles est un exemple de modèle multi-agents bénéficiant de manière moins nette d’une
parallélisation sur GPU grand public, avec des gains de l’ordre d’un facteur 2 entre l’exécution sur
le CPU le plus rapide, le Core i7 2600K, et la Geforce 560Ti à l’échelle 20. Ce gain est toutefois
plus marqué dans le cas de la carte graphique professionnelle Tesla K20, qui permet d’obtenir
des traitements 4 fois plus rapide à l’échelle 10. La comparaison des cartes graphiques dotées de
caches d’une part, et de la Tesla C1060 dénuée de ce mécanisme d’autre part, permet de mettreCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 140
en avant l’impact de ce mécanisme dans le cas du modèle Collemboles. Parmi les GPU dotés de
ce mécanisme, les performances obtenues sont au contraire proches entre cartes graphiques grand
public et matériel professionnel.
8.3 Synthèse
Les résultats obtenus montrent un gain en performance sur GPU par rapport au CPU pour les
trois modèles multi-agents adaptés. Ces gains sont particulièrement visibles sur les modèles MIOR
et proie-prédateur, où l’utilisation du GPU permet d’obtenir un gain de l’ordre d’un facteur 10 en
performance.
Les résultats observés illustrent également l’importance de l’architecture matérielle, et en particulier
de la disponibilité ou non de mécanisme de cache L1 et L2, sur les performances observées.
Les cartes dotées de caches permettent l’obtention de meilleures performances dans tous les
cas. Cet avantage est d’autant plus marqué, dans le cas du modèle MIOR, sur des implémentations
ayant recours à de nombreux accès mémoires. Ils montrent l’intérêt du GPU pour déléguer certains
traitements normalement effectués sur CPU, en particulier dans le cas du système proie-prédateur.
Dans cette section, nous présentons quelques recommandations d’implémentation au sujet de
la parallélisation de traitements sur GPU, sur la base des modèles multi-agents parallélisés et de
l’implémentation de la plate-forme MCMAS.
En parallèle aux problématiques de découpage de la représentation et de l’exécution de la
simulation sur architecture GPU, certains défis d’implémentations propres à OpenCL s’appliquent
aux traitements pouvant être réalisés.
8.3.1 Allocations dynamique de mémoire
Si ce support est présent dans les toutes dernières révisions du modèle de programmation
CUDA, OpenCL ne permet pas, au moment de notre rédaction, l’allocation de mémoire depuis
le code GPU en cours d’exécution.
Cette limitation est particulièrement problématique pour la manipulation de la structure de
données dynamiques sur GPU, dans le cas où la taille des structures n’est pas connue au moment
du lancement du traitement.
Dans ce cas, la seule solution est une allocation défensive de la mémoire à priori, basée sur
l’hypothèse la plus pessimiste de la taille mémoire requise pour l’exécution du modèle. Elle né-
cessite un sur-dimensionnement des ressources allouées par rapport aux ressources effectivement
consommées, particulièrement dans le cas de modèles de taille importante, et donc une perte de
mémoire significative.
La seule alternative pour éviter ce type de perte est une interruption régulière des traitements
pour permettre des réallocations sur CPU, avec les coûts associés aux échanges de données et au
changement de contexte.
Ces deux approches requièrent des sacrifices soit en mémoire, soit en performance.CHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 141
8.3.2 Variabilité du support matériel
Un autre défi d’implémentation posé par l’exécution sur GPU est l’existence de multiple géné-
rations de plates-formes matérielles, chacune associée à ses propres valeurs limites d’exécution ou
support de certaines fonctionnalités.
Des cartes anciennes telles que la plate-forme Tesla C1060 imposent ainsi des contraintes très
strictes en termes d’accès mémoires pour permettre une exécution efficace, alors que les CPU ou
les cartes graphiques plus modernes minimisent ces contraintes par la présence de logiques de
prédictions et de cache gommant ces latences. L’impact de ces attentes est particulièrement visible
dans le cas de nombreux accès aléatoires (MIOR) ou de petites tailles (Collemboles) à la mémoire
globale GPU sur des cartes dénuées de cache implicite.
Dans un souci de transparence, Nvidia propose la notion de Computing Capabilities (capacité
de calcul) pour chacune de ses cartes, indiquant les fonctionnalités CUDA et OpenCL supportées
par le matériel, et les limitations associées en termes d’exécution sur ces deux plates-formes :
— Nombre de registres utilisables par work-item et au total.
— Taille maximale de work-group et de grille d’exécution.
— Taille maximale pour chaque type de structure de données.
— Taille maximale totale de chaque espace mémoire.
Ces deux derniers paramètres sont particulièrement importants pour des simulations manipulant
de grands buffers de données. Nos expériences ont mis en avant le fait que, si sur les architectures
NVIDIA testées, la taille maximale utilisable pour des données en mémoire globale est directement
liée à la mémoire physique du périphérique, ce n’est pas le cas sur des implémentations OpenCL
proposées par AMD, où cette limite est fixée à une valeur inférieure par l’interface logicielle.
Ces limitations associées au matériel n’ont pas seulement une influence sur la possibilité ou
non d’exécuter un traitement OpenCL, mais également sur les performances attendues. Il est alors
nécessaire d’adapter l’algorithme ou le découpage de l’exécution utilisé à ces paramètres, pour
une efficacité maximale, comme évoqué dans la section suivante.
8.3.3 Adaptation aux paramètres de la plate-forme
Si le standard OpenCL impose à toutes les implémentations le support d’une base commune de
primitives et d’opérations, chaque implémentation reste libre, comme nous venons de le voir, de
définir ses propres limites au niveau des ressources disponibles.
Le respect du standard permet de garantir le fonctionnement du programme, mais n’assure pas
l’obtention automatique des meilleures performances possibles tant sur le nombre limité de coeurs
polyvalents offerts par un CPU que sur les centaines de coeurs d’un GPU.
La prise en compte dynamique du type et des limites effectivement offertes par un matériel au
moment de l’exécution est donc importante pour permettre une utilisation optimale du matériel
disponible [SFSV13].
L’adaptation la plus critique à ce niveau est celle de la taille des paquets d’exécution utilisés,
dont la valeur devra être aussi proche que possible, soit du nombre de coeurs effectivement
disponibles sur CPU, soit de l’unité de découpage d’exécution ou warp sur GPU.
La taille d’un warp est de 32 threads ou work-items sur la plupart des plates-formes GPU.
Les bonnes pratiques OpenCL [Cor12] proposées par NVIDIA recommandent une taille minimale
de 64 work-items pour les blocs OpenCL, de manière à permettre un recouvrement des accèsCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 142
mémoires. Elle recommandent également l’utilisation de blocs de 128 à 256 work-items pour des
premières expérimentations, pour ensuite ajuster cette valeur en fonction du taux d’occupation
obtenu et des performances obtenues. La société fournit une feuille de calcul permettant d’estimer
cette occupation en fonction du modèle de carte utilisé, pour faciliter le choix d’un découpage
optimal.
Un exemple de traitement particulièrement impacté par ce choix de découpage est celui de la
réduction en parallèle. Si l’utilisation d’un algorithme basé sur plusieurs passes est plus performante
sur GPU, il est plus efficace sur CPU d’effectuer un simple découpage du tableau en autant
de parties que de coeurs disponibles, et de réaliser l’ensemble de l’opération en un seul lancement.
Pour faciliter cette démarche, MCMAS recommande par défaut une valeur adaptée à l’architecture
sous-jacente (CPU, GPU ou autre). Cette valeur est également utilisée pour l’exécution
de fonctions de haut niveau par les plugins, en l’absence d’intervention de l’utilisateur. La valeur
optimale effective pour ce découpage est cependant très dépendante de l’algorithme exécuté et de
l’occupation résultante des ressources matérielles.
8.3.4 Différents espaces mémoires pour différentes utilisations
Comme évoqué dans notre présentation de l’architecture, les cartes graphiques disposent,
contrairement aux processeurs traditionnels, de multiples espaces mémoires spécialisés. La sé-
lection de l’espace mémoire dans lequel stocker chaque donnée est effectuée de manière explicite
en OpenCL, au moyen de qualificateurs utilisés pour la déclaration de la variable :
— private int data : entier en mémoire privée (accessible uniquement au work-item)
— local int data : entier en mémoire locale (accessible uniquement au work-group)
— global int data : entier en mémoire globale
— constant int data : entier en mémoire constante
En l’absence de qualificateur, l’espace privé est utilisé pour le stockage de la variable.
La copie de données entre ces espaces mémoire n’est pas automatique et doit être explicitement
effectuée par le programme. La mémoire locale, en particulier, ne peut de plus être initialisée
que depuis le périphérique, et requiert donc au moins une copie des données. Elle est généralement
employée pour stocker des données intermédiaires souvent utilisées par chaque membre
d’un work-group, de manière à éviter son calcul ou sa récupération depuis la mémoire globale à
plusieurs reprises.
La copie entre ces types de mémoire n’a pas nécessairement besoin d’être effectuée de manière
totalement manuelle : des bibliothèques telles que ELMO [FVSS13] permettent de définir des
associations entre structures de données globales et mise en cache en mémoire locale, au moyen
de nombreux raccourcis définis sous forme de code OpenCL.
8.3.5 Précision des données et respect des standards
Les cartes graphiques ont initialement été conçues pour effectuer des rendus en deux ou trois
dimensions, avant rastérisation sur une grille graphique correspondant au périphérique d’affichage.
En termes d’architectures, ce scénario d’utilisation se traduit par une forte optimisation du matériel
pour le traitement de nombres flottants, suffisant pour ce type de rendu. D’éventuelles erreurs de
précision liées à ce format sont en effet mitigées par deux facteurs propres au rendu graphique :
la résolution limitée d’un écran, qui contraint une projection géométrique dans une résolutionCHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 143
ne dépassant pas les quelques milliers de pixels, et le nombre important d’images affichées par
seconde, qui estompe toute erreur de rendu ne survenant que dans une image précise.
Cette préférence matérielle pour les flottants est particulièrement marquée, dans le cas des
cartes graphiques grand public, par un bridage volontaire des traitements sur des nombres en
double précision à une fraction de la fréquence du reste du GPU, pour encourager l’achat de
matériel professionnel.
Ces considérations sur les performances sont particulièrement importantes pour des modèles
multi-agents, où l’utilisation de nombres double précision est critique pour obtenir des résultats
valides. Dans de tels systèmes multi-agents, l’utilisation de réels simple précision peut conduire à
des erreurs croissantes, susceptibles de modifier les résultats ou d’empêcher la convergence de la
simulation.
Les modèles agents employant souvent des données entières peuvent également être impactés
par ce type de disparité matérielle, ce type d’opération étant moins optimisé sur les architectures
matérielles les plus anciennes.
En parallèle à ce choix de précision des données se pose la question du mode de calcul souhaité,
compatible ou non avec le standard l’IEEE 754. Le non respect strict de ces standards permet
de simplifier les calculs dans les cas les plus courants. Il ne garantit cependant plus la prise en
compte correcte de valeurs telles que Nan ou l’infini dans les opérations, ou encore des valeurs
non normalisées.
Le standard à utiliser pour les calculs flottants peut être configuré pour l’ensemble de l’exé-
cution au moment de la compilation. Dans le cas où de telles opérations devraient être limitées
à des portions spécifiques de l’algorithme, OpenCL fournit des versions préfixées des opérations
intégrées telles que fast_sqrt, potentiellement plus rapide que sqrt.
Les compromis liés à cette recherche de performance sont dépendants de chaque plate-forme
OpenCL, et peu détaillés par les fabriquants. Dans ces circonstances, l’utilisation du mode standard
IEEE et des opérations par défaut est recommandé pour tout nouveau modèle, au moins en attente
de validation, de manière à pouvoir évaluer ensuite l’impact de l’utilisation de flottants simple
précision ou d’autres modes de calculs sur les résultats de la simulation.
8.3.6 Capacités mémoires physiques
La dernière limitation imposée par l’architecture GPU est la quantité de mémoire offerte par
la plate-forme, de l’ordre de 6 à 8 Go sur les solutions graphiques Kepler les plus récentes. Cette
quantité demeure plus limitée que sur CPU pour deux raisons :
— Le coût de la mémoire classique pour CPU, et la possibilité pour le chercheur d’étendre
aisément la capacité disponible sur sa machine. 4Go de mémoire RAM est un minimum sur
de nombreuses machines actuelles, et l’achat de 16 ou 32Go de mémoire est aujourd’hui
possible pour quelques centaines d’euros. Au contraire, la mémoire graphique doit être très
performante en accès, ce qui augmente son coût, et en adressage, ce qui limite sa taille.
— L’impossibilité d’utiliser, sur GPU, le disque dur ou la mémoire du système pour délé-
guer de manière transparente le stockage des données supplémentaires. Si l’exploitation
de la mémoire du système est facilitée par les dernières révisions des modèles d’exécution
GPGPU, il n’existe pas d’analogue à la mémoire d’échange ou au stockage permanent sur
cette architecture.CHAPITRE 8. VALIDATION SUR DES MODÈLES EXISTANTS 144
Cette limitation peut poser problème pour des modèles multi-agents de taille importante, particulièrement
dans le cas d’utilisation de structures de données surdimensionnées pour compenser
l’impossibilité d’effectuer des allocations dynamiques dans un programme OpenCL.9
Conclusion et perspectives
9.1 Conclusion
Dans ce mémoire, nous avons étudié les manières d’exécuter efficacement des systèmes multiagents
sur cartes graphiques. Cette étude a été l’occasion de mettre en avant l’intérêt des platesformes
parallèles dans le cadre des simulations multi-agents, tant en termes de ressources qu’en
termes de performances. Elle nous a également permis de présenter les trois axes de parallélisation
possibles pour un système multi-agents, au niveau de l’ordonnanceur, de l’environnement ou des
traitements. Cette parallélisation du système prend deux formes principales sur GPU :
— Une adaptation complète de l’exécution sur cette plate-forme, sous forme de nouveau programme.
— Une utilisation du GPU pour ne déléguer qu’une partie de la simulation, et en particulier
des traitements coûteux à même d’être parallélisés.
Ces deux approches requièrent une connaissance de la plate-forme GPU. Notre étude bibliographique
a montré qu’il n’existait pas de plate-forme générique de parallélisation de systèmes
multi-agents permettant un libre choix entre ces deux approches. Notre solution pour permettre
l’utilisation la plus large possible de type de matériel est de proposer une nouvelle bibliothèque
d’exécution multi-agents, MCMAS.
Notre bibliothèque fournit de nombreux traitements multi-agents de haut niveau prêts à être
utilisés sans aucune connaissance en parallélisation. Elle facilite l’ajout de nouveaux traitements
au moyen d’une interface de bas niveau fournissant de nombreuses structures de données et facilités
d’exécution au développeur. Cette double approche permet une utilisation simple de MCMAS
et des cartes graphiques, sans pour autant imposer de cadre de modélisation ou d’exécution particulier,
de manière à pouvoir aisément compléter les fonctions offertes par des environnements
multi-agents existants.
L’application de ces deux formes de parallélisation sur plusieurs exemples concrets de modèles
multi-agents nous a permis de mettre en avant les avantages et les inconvénients associés à chacune
de ces approches.
La réalisation de la totalité de la simulation multi-agents permet un contrôle fin de la modé-
lisation et de l’exécution. Elle offre la possibilité d’effectuer la totalité de la simulation en un
seul lancement, comme illustré dans le cas du modèle MIOR. Cette flexibilité vient toutefois au
prix d’adaptations importantes en termes de données et d’exécution pour tirer pleinement parti
de l’architecture GPU. Ces adaptations requièrent une expertise du modèle de programmation et
d’exécution pour aboutir à un résultat efficace adapté à l’architecture matérielle. La validation du
modèle n’est possible qu’une fois celui-ci fonctionnel sur la nouvelle architecture.CHAPITRE 9. CONCLUSION ET PERSPECTIVES 146
La délégation d’une partie de la simulation permet au contraire un recours plus incrémental
au GPU, facilitant des validations intermédiaires du fonctionnement ou des résultats. Elle requiert
elle aussi une expertise en parallélisme pour identifier et implémenter les traitements pouvant
bénéficier d’une délégation. Cette isolation et cette encapsulation des traitements facilitent leur
réutilisation dans d’autres modèles, soit directement, soit dans le cadre de plates-formes multiagents
existantes.
Dans ce mémoire, nous avons apporté une analyse des différentes méthodes de parallélisation
de systèmes multi-agents sur GPU, ainsi qu’une illustration de leur utilisation avec MCMAS. Cette
illustration nous a permis de détailler ces différentes démarches et leur impact sur les performances
obtenues, ainsi que de formuler des recommandations pour la réalisation de calculs sur GPU.
9.2 Perspectives
Si la bibliothèque MCMAS est fonctionnelle et fournit déjà de nombreuses opérations utilisées
dans nos trois modèles d’études, elle représente une solution appelée à être améliorée pour
répondre à un domaine très dynamique. Au moins trois pistes d’amélioration peuvent à l’heure
actuelle être envisagées.
Une première piste d’amélioration consiste à faciliter l’accès à la bibliothèque depuis de nouveaux
langages et environnements de simulation agents. De nombreux modèles ont recours à des
langages ou à des environnements particuliers pour leur exécution. C’est en particulier le cas du
modèle Sworm réalisé avec Madkit pour lequel la simulation MIOR a été conçue. Cet accès peut
prendre deux formes, le développement d’une couche d’adaptation permettant l’accès direct à l’interface
de MCMAS, ou le développement d’un agent service GPU s’intégrant de manière conceptuelle
au modèle. Cet agent est alors à même de répondre à des requêtes d’exécution et de favoriser
la réalisation de calculs parallèles de manière transparente pour le reste de la simulation.
Une autre piste, complémentaire, est d’ajouter de nouvelles structures de données et opérations
à MCMAS pour répondre aux besoins de nouvelles simulations multi-agents. Si de nombreuses
structures de données rencontrées dans les systèmes agents ont déjà été implémentées, certains
modèles agents reposent sur des graphes de données encore absents de notre bibliothèque. Des
thématiques agents, comme la recherche de chemin, n’ont également pas encore été implémentées.
Le développement de nouvelles opérations, et l’enrichissement des opérations existantes, est un
élément important pour assurer que MCMAS soit non seulement accessible, mais également utile
à de nombreux modèles agents. Le développement de nouveaux traitements agents peut également
être facilité par l’intégration de bibliothèques comme ELMO [FVSS13] pour faciliter la gestion de
la mémoire partagée en OpenCL.
Une dernière piste d’amélioration concerne la découverte et l’utilisation des ressources maté-
rielles offertes par la machine. Si, à l’heure actuelle, MCMAS permet l’utilisation de plates-formes
GPU ou CPU de manière transparente, ces architectures ne sont que quelques représentantes des
architectures dites many-core, basées sur de nombreux coeurs d’exécution. Leur exploitation reprend
de nombreuses problématiques d’ordonnancement et de décomposition des tâches, et ouvre
la voie à l’utilisation de plusieurs matériels locaux. Ces problématiques permettent également
d’envisager la mise en place de mécanismes capables d’optimiser le passage des traitements sur
les ressources disponibles, de manière à pouvoir simultanément tirer parti du CPU et GPU. De
tels mécanismes pourraient dans ce cas introduire une intelligence supplémentaire au niveau de
chaque traitement, pour choisir l’algorithme et les types de données les plus adaptés à chaque
matériel d’exécution.CHAPITRE 9. CONCLUSION ET PERSPECTIVES 147
Publications
Chapitre de livre
— Guillaume Laville, Christophe Lang, Bénédicte Herrmann, Laurent Philippe, Kamel Mazouzi,
and Nicolas Marilleau. Implementing Multi-Agent Systems on GPU. In Raphaël
Couturier, editor, Designing Scientific Applications on GPUs, Numerical Analysis and
Scientific Computing, chapter 18, pages 413–439. Chapman and Hall/CRC, 2013.
Conférences
— Guillaume Laville, Christophe Lang, Nicolas Marilleau, Kamel Mazouzi, and Laurent Philippe.
Using GPU for Multi-agent Soil Simulation. In PDP 2013, 21st Euromicro International
Conference on Parallel, Distributed and Network-based Computing, Belfast,
Ireland, pages 392–399, February 2013. IEEE Computer Society Press.
— Guillaume Laville, Kamel Mazouzi, Christophe Lang, Nicolas Marilleau, Bénédicte Herrmann,
and Laurent Philippe. MCMAS : a toolkit to benefit from many-core architecture
in agent-based simulation. In PADAPS 2013, 1st Workshop on Parallel and Distributed
Agent-Based Simulations, in conjunction with EuroPar 2013, volume 8374 of LNCS, Aachen,
Germany, pages 544–554, August 2013. Springer.
— Guillaume Laville, Kamel Mazouzi, Christophe Lang, Nicolas Marilleau, and Laurent Philippe.
Using GPU for Multi-agent Multi-scale Simulations. In DCAI’12, 9-th Int. Conf.
on Advances in Intelligent and Soft Computing, volume 151 of Advances in Intelligent and
Soft Computing, Salamanca, Spain, pages 197–204, March 2012. Springer.
Communications
— Présentation d’un poster "MCSMA : A library for multi-agent simulations on manycore
architectures" au séminaire FEMTO-ST du 26 juin 2013 à la CCI du Doubs.
— Présentation "Accélération d’une simulation de sol sur GPU" aux journées Région
Grand Est (RGE) du 14 février 2013 à Belfort.
— Présentation "Portage d’une simulation multi-agents sur GPU" aux journées Région
Grand Est (RGE) du 9 juin 2011 à Metz.Bibliographie
[AG13] Nevena Ilieva-Litova Alan Gray, Anders Sjöström. Best Practice mini-guide accelerated
clusters. Using General Purpose GPUs. http://www.prace-project.eu/IMG/pdf/
Best-Practice-Guide-GPGPU.pdf, 2013. [En ligne ; vérifié le 27 avril 2014].
[amd] AMD Accelerated Parallel Processing Math Libraries (APPML).
http://developer.amd.com/tools-and-sdks/heterogeneous-computing/
amd-accelerated-parallel-processing-math-libraries/. [En ligne ; vérifié le 26
avril 2014].
[Amd67] Gene M. Amdahl. Validity of the Single Processor Approach to Achieving Large
Scale Computing Capabilities. In Proceedings of the April 18-20, 1967, Spring Joint
Computer Conference, AFIPS ’67 (Spring), pages 483–485, New York, NY, USA,
1967. ACM.
[APS10] B. G. Aaby, K. S. Perumalla, and S. K. Seal. Efficient simulation of agent-based
models on multi-GPU and multi-core clusters. In Proceedings of the 3rd International
ICST Conference on Simulation Tools and Techniques, SIMUTools ’10, pages
29 :1–29 :10, ICST, Brussels, Belgium, Belgium, 2010. ICST (Institute for Computer
Sciences, Social-Informatics and Telecommunications Engineering).
[ASÁ01] Elaini S Angelotti, Edson E Scalabrin, and Bráulio C Ávila. PANDORA : a multiagent
system using paraconsistent logic. In Computational Intelligence and Multimedia
Applications, 2001. ICCIMA 2001. Proceedings. Fourth International Conference
on, pages 352–356. IEEE, 2001.
[ATN09] Cédric Augonnet, Samuel Thibault, and Raymond Namyst. Automatic Calibration of
Performance Models on Heterogeneous Multicore Architectures. In 3rd Workshop on
Highly Parallel Processing on a Chip (HPPC 2009), Delft, Pays-Bas, August 2009.
[BBMC+10] Arnaud Banos, Annabelle Boffet-Mas, Sonia Chardonnel, Christophe Lang, Nicolas
Marilleau, and Thomas Thévenin. Simuler la mobilité urbaine quotidienne : le projet
MIRO. In Arnaud Banos and Thomas Thévenin, editors, Mobilités urbaines et risques
des transports - approches géographiques, chapter 2, pages 51–86. Hermès, 2010.
[BCC+11] E. Blanchart, C. Cambier, C. Canape, B. Gaudou, T.-N. Ho, T.-V. Ho, C. Lang, F. Michel,
N. Marilleau, and L. Philippe. EPIS : A Grid Platform to Ease and Optimize
Multi-agent Simulators Running. In PAAMS, volume 88 of Advances in Intelligent
and Soft Computing, pages 129–134. Springer, 2011.
[BCG07] Fabio Luigi Bellifemine, Giovanni Caire, and Dominic Greenwood. Developing
Multi-Agent Systems with JADE. Wiley, 2007.
[BDM04] Jacques M. Bahi, Stéphane Domas, and Kamel Mazouzi. Jace : A Java Environment
for Distributed Asynchronous Iterative Computations. In PDP, pages 350–357. IEEE
Computer Society, 2004.
[BETVG08] Herbert Bay, Andreas Ess, Tinne Tuytelaars, and Luc Van Gool. Speeded-Up Robust
Features (SURF). Comput. Vis. Image Underst., 110(3) :346–359, June 2008.BIBLIOGRAPHIE 150
[BG09] Nathan Bell and Michael Garland. Implementing Sparse Matrix-vector Multiplication
on Throughput-oriented Processors. In Proceedings of the Conference on High Performance
Computing Networking, Storage and Analysis, SC ’09, pages 18 :1–18 :11,
New York, NY, USA, 2009. ACM.
[Ble09] A. Bleiweiss. Multi Agent Navigation on the GPU. GDC09 Game Developers Conference
2009, 2009.
[BMD+09] E. Blanchart, N. Marilleau, A. Drogoul, E. Perrier, JL. Chotte, and C. Cambier.
SWORM : an agent-based model to simulate the effect of earthworms on soil structure.
EJSS. European Journal of Soil Science, 60 :13–21, 2009.
[BPL+06] Lars Braubach, Alexander Pokahr, Winfried Lamersdorf, Karl-Heinz Krempels, and
Peer-Oliver Woelk. A generic time management service for distributed multi-agent
systems. Applied Artificial Intelligence, 20(2-4) :229–249, 2006.
[Bra00] G. Bradski. Dr. Dobb’s Journal of Software Tools, 2000.
[BRT11] B. Beresini, S. Ricketts, and M.B. Taylor. Unifying manycore and FPGA processing
with the RUSH architecture. In Adaptive Hardware and Systems (AHS), 2011
NASA/ESA Conference on, pages 22–28, June 2011.
[CCC+12] M. Carillo, G. Cordasco, R. De Chiara, F. Raia, V. Scarano, and F. Serrapica. Enhancing
the Performances of D-MASON - A Motivating Example. In SIMULTECH,
pages 137–143, 2012.
[CCDCS11] B Cosenza, G Cordasco, R. De Chiara, and V. Scarano. Distributed Load Balancing
for Parallel Agent-based Simulations. In 19th Euromicro International Conference
on Parallel, Distributed and Network-Based Computing, Ayia Napa, Cyprus, 2011.
[CCM+11] Gennaro Cordasco, Rosario Chiara, Ada Mancuso, Dario Mazzeo, Vittorio Scarano,
and Carmine Spagnuolo. A Framework for Distributing Agent-Based Simulations.
In Euro-Par 2011 : Parallel Processing Workshops, volume 7155 of Lecture Notes in
Computer Science, pages 460–470, 2011.
[CCP07] M. Bousso C. Cambier, D. Masse and E. Perrier. An offer versus demand modelling
approach to assess the impact of micro-organisms spatio-temporal dynamics on soil
organic matter decomposition rates. Ecological Modelling, pages 301–313, 2007.
[CDD+13] Chongxiao Cao, Jack Dongarra, Peng Du, Mark Gates, Piotr Luszczek, and Stanimire
Tomov. clMAGMA : High Performance Dense Linear Algebra with OpenCL. 2013.
[CDFD10] F Chuffart, N Dumoulin, T Faure, and G Deffuant. SimExplorer : Programming Experimental
Designs on Models and Managing Quality of Modelling Process. IJAEIS,
1(1) :55–68, 2010.
[CDJM01] Brahim Chaib-Draa, Imed Jarras, and Bernard Moulin. Systèmes multi-agents : principes
généraux et applications. Edition Hermès, 2001.
[CDK+01] Robit Chandra, Leonardo Dagum, Dave Kohr, Dror Maydan, Jeff McDonald, and
Ramesh Menon. Parallel Programming in OpenMP. Morgan Kaufmann Publishers
Inc., San Francisco, CA, USA, 2001.
[CGH+12] Simon Coakley, Marian Gheorghe, Mike Holcombe, Shawn Chin, David Worth, and
Chris Greenough. Exploitation of High Performance Computing in the FLAME
Agent-Based Simulation Framework. In Geyong Min, Jia Hu, Lei (Chris) Liu, Laurence
Tianruo Yang, Seetharami Seelam, and Laurent Lefevre, editors, HPCC-ICESS,
pages 538–545. IEEE Computer Society, 2012.BIBLIOGRAPHIE 151
[CGU+11] José M. Cecilia, José M. Garcia, Manuel Ujaldon, Andy Nisbet, and Martyn Amos.
Parallelization Strategies for Ant Colony Optimisation on GPUs. In IPDPS Workshops,
pages 339–346. IEEE, 2011.
[CKQ+07] Jean-Christophe Castella, Suan Pheng Kam, Dang Dinh Quang, Peter H. Verburg, and
Chu Thai Hoanh. Combining top-down and bottom-up modelling approaches of land
use/cover change to support public policies : Application to sustainable management
of natural resources in northern Vietnam. Land Use Policy, 24(3) :531 – 545, 2007.
Integrated Assessment of the Land System : The Future of Land Use.
[clp] clpp : OpenCL Data Parallel Primitives Library. https://code.google.com/p/clpp/. [En
ligne ; vérifié le 26 avril 2014].
[CN11] Nicholson Collier and Michael North. Repast HPC : A platform for large-scale agentbased
modeling. Wiley, 2011.
[Cor12] Nvidia Corporation. OpenCL Best Practices Guide. http://www.nvidia.
com/content/cudazone/CUDABrowser/downloads/papers/NVIDIA_OpenCL_
BestPracticesGuide.pdf, 2012. [En ligne ; vérifié le 26 avril 2014].
[cud09] NVIDIA CUDA C Programming Best Practices Guide CUDA Toolkit 2.3. NVIDIA
Corporation, 2009.
[DARG12] Denis Demidov, Karsten Ahnert, Karl Rupp, and Peter Gottschling. Programming
CUDA and OpenCL : A Case Study Using Modern C++ Libraries. CoRR,
abs/1212.6326, 2012.
[Del13] Audrey Delévacq. Métaheuristiques pour l’optimisation combinatoire sur processus
graphiques (GPU). Thèse de doctorat, Université de Reims Champagne-Ardenne,
France, February 2013.
[Dem] D. Demidov. VexCL : Vector Expression Template Library
for OpenCL. http://www.codeproject.com/Articles/415058/
VexCL-Vector-expression-template-library-for-OpenCL. [En ligne ; vérifié le
27 avril 2014].
[DLMK09] Roshan M. D’Souza, Mikola Lysenko, Simeone Marino, and Denise Kirschner. Dataparallel
Algorithms for Agent-based Model Simulation of Tuberculosis on Graphics
Processing Units. In Proceedings of the 2009 Spring Simulation Multiconference,
SpringSim ’09, pages 21 :1–21 :12, San Diego, CA, USA, 2009. Society for Computer
Simulation International.
[DLR07] R. M. D’souza, M. Lysenko, and K. Rahmani. Sugarscape on Steroids : Simulating
Over a Million Agents at Interactive Rates. In Proceedings of the Agent 2007 Conference,
2007.
[DP93] J.E. Doran and M. Palmer. ’Contrasting models of upper palaeolithic social dynamics
: a distributed artificial intelligence approach’. In Aarhus University Press., editor,
J. Andresen, T. Madsen and I. Scollar (Eds.) : Computing the Past - Proceedings
of Computer Applications and Quantitative Methods in Archaeology Conference 1992
(CAA 92), pages pp.251–262„ 1993.
[DSJD02] Luis T. Da Silva Joao and Y. Demazeau. Vowels co-ordination model. In AAMAS,
pages 1129–1136, Italy, 2002.
[DvdHD08] Christophe Deissenberg, Sander van der Hoog, and Herbert Dawid. EURACE : A
massively parallel agent-based model of the European economy. Applied Mathematics
and Computation, 204(2) :541 – 552, 2008. Special Issue on New Approaches in
Dynamic Optimization to Assessment of Economic and Environmental Systems.BIBLIOGRAPHIE 152
[Fer95] J. Ferber. Les systèmes multi-agents : vers une intelligence collective. InterEditions,
Paris, 1995.
[fip] FIPA Specifications Published in 1997. http://www.fipa.org/repository/fipa97.html.
[En ligne ; vérifié le 26 avril 2014].
[FSN09] L. Fischer, R. Silveira, and L. Nedel. GPU Accelerated Path-Planning for Multiagents
in Virtual Environments. In Proceedings of the 2009 VIII Brazilian Symposium
on Games and Digital Entertainment, SBGAMES ’09, pages 101–110, Washington,
DC, USA, 2009. IEEE Computer Society.
[Fuj03] Richard M Fujimoto. Parallel simulation : distributed simulation systems. In Proceedings
of the 35th conference on Winter simulation : driving innovation, pages
124–134. Winter Simulation Conference, 2003.
[FVSS13] Jianbin Fang, Ana Lucia Varbanescu, Jie Shen, and Henk Sips. ELMO : A UserFriendly
API to Enable Local Memory in OpenCL Kernels. 16th Euromicro Conference
on Parallel, Distributed and Network-Based Processing (PDP 2008), 0 :375–
383, 2013.
[Gar70] M. Gardner. The fantastic combinations of John Conway’s new solitaire game “life”.
Scientific American, 223 :120–123, October 1970.
[GBHS11] Chris Gregg, Michael Boyer, Kim Hazelwood, and Kevin Skadron. Dynamic heterogeneous
scheduling decisions using historical runtime data. Workshop on Applications
for Multi-and Many-Core Processors (A4MMC), 2011.
[GCK+09] S. J. Guy, Jatin Chhugani, Changkyu Kim, Nadathur Satish, Ming C. Lin, Dinesh
Manocha, and Pradeep Dubey. ClearPath : Highly Parallel Collision Avoidance for
Multi-Agent Simulation. In ACM SIGGRAPH/EUROGRAPHICS SYMPOSIUM ON
COMPUTER ANIMATION, pages 177–187. ACM, 2009.
[GF00a] O. Gutknecht and J. Ferber. MadKit : a generic multi-agent platform. In Proceedings
of the fourth international conference on Autonomous agents, AGENTS ’00, pages
78–79, New York, NY, USA, 2000. ACM.
[GF00b] Olivier Gutknecht and Jacques Ferber. The MADKIT Agent Platform Architecture.
In In Agents Workshop on Infrastructure for Multi-Agent Systems, pages 48–55, 2000.
[GGDK09] Stéphane Galland, Nicolas Gaud, Jonathan Demange, and Abderrafiaa Koukam. Environment
Model for Multiagent-Based Simulation of 3D Urban Systems. 2009.
[Gut01] Olivier Gutknecht. Proposition d’un modèle organisationnel générique de systèmes
multi-agents. PhD thesis, Universite de Montpellier II, Montpellier, France, 2001.
[Hag73] P. Haggett. Analyse spatiale en géographie humaine. Armand Colin, Paris, 1973.,
62(1) :125–127, 1973.
[HCS06] Mike Holcombe, Simon Coakley, and Rod Smallwood. A General Framework for
agent-based modelling of complex systems. In Proceedings of the 2006 European
Conference on Complex Systems, 2006.
[HNR68] P.E. Hart, N.J. Nilsson, and B. Raphael. A Formal Basis for the Heuristic Determination
of Minimum Cost Paths. Systems Science and Cybernetics, IEEE Transactions
on, 4(2) :100–107, July 1968.
[Jac98] Henrik Klinge Jacobsen. Integrating the bottom-up and top-down approach to energyeconomy
modelling : the case of Denmark. Energy Economics, 20(4) :443 – 461,
1998.BIBLIOGRAPHIE 153
[JGLG09] J.-I. Benavides J. Gómez-Luna, J.-M. González-Linares and N. Guil. Parallelization
of a Video Segmentation Algorithm on CUDA—Enabled Graphics Processing Units.
In 15th Euro-Par Conference, pages 924–935, Berlin, Heidelberg, 2009. SpringerVerlag.
[JOF03] H. Van Dyke Parunak J. Odell and M. Fleischer. Software engineering for largescale
multi-agent systems. chapter The role of roles in designing effective agent
organizations, pages 27–38. Springer-Verlag, Berlin, Heidelberg, 2003.
[Joh12] Haakan Johansson. Volume Raycasting Performance Using DirectCompute. http:
//hgpu.org/?p=9050, 2012. [En ligne ; vérifié le 26 avril 2014].
[Khr08] Khronos OpenCL Working Group. The OpenCL Specification, version 1.0.29, 8 December
2008.
[KRH+10] M. Kiran, P. Richmond, M. Holcombe, L. S. Chin, D. Worth, and C. Greenough.
FLAME : simulating large populations of agents on parallel hardware architectures.
In Proceedings of the 9th International Conference on Autonomous Agents and Multiagent
Systems : volume 1 - Volume 1, AAMAS ’10, pages 1633–1636, Richland, SC,
2010. International Foundation for Autonomous Agents and Multiagent Systems.
[KRR10] T. Karmakharm, P. Richmond, and D. Romano. Agent-based Large Scale Simulation
of Pedestrians With Adaptive Realistic Navigation Vector Fields. In Theory and
Practice of Computer Graphics (TPCG) 2010, pages 67–74, 2010.
[KSL+12] Jungwon Kim, Sangmin Seo, Jun Lee, Jeongho Nah, Gangwon Jo, and Jaejin Lee.
SnuCL : An OpenCL Framework for Heterogeneous CPU/GPU Clusters. In Proceedings
of the 26th ACM International Conference on Supercomputing, ICS ’12, pages
341–352, New York, NY, USA, 2012. ACM.
[Mae90] P. Maes. Designing Autonomous Agents : Theory and Practice from Biology to Engineering
and Back. A Bradford book. MIT Press, 1990.
[MBF02] Fabien Michel, Pierre Bommel, and Jacques Ferber. Simulation distribuée interactive
sous MadKit. In JFSMA, pages 175–178, 2002.
[McF87] D. McFarland. The Oxford companion to animal behaviour. Oxford Paperback Reference.
Oxford University Press, 1987.
[MCM12] Longfei Ma, Xue Chen, and Zhouxiang Meng. A performance Analysis of the Game
of Life based on parallel algorithm. CoRR, abs/1209.4408, 2012.
[Mes09] Message Passing Interface Forum. MPI : A Message-Passing Interface Standard,
Version 2.2. Specification, September 2009.
[MFD09] Fabien Michel, Jacques Ferber, and Alexis Drogoul. Multi-Agent Systems and Simulation
: a Survey From the Agents Community’s Perspective. In Adelinde Uhrmacher
Danny Weyns, editor, Multi-Agent Systems : Simulation and Applications, Computational
Analysis, Synthesis, and Design of Dynamic Systems, page 47. CRC Press -
Taylor & Francis, May 2009.
[MGR+11] Perhaad Mistry, Chris Gregg, Norman Rubin, David Kaeli, and Kim Hazelwood. Analyzing
Program Flow Within a Many-kernel OpenCL Application. In Proceedings of
the Fourth Workshop on General Purpose Processing on Graphics Processing Units,
GPGPU-4, pages 10 :1–10 :8, New York, NY, USA, 2011. ACM.
[Mic02] Fabien Michel. Introduction to Turtlekit : A Platform for Building Logo Based MultiAgent
Simulations with Madkit. Technical Report 9557, 2002.BIBLIOGRAPHIE 154
[Mic13] Fabien Michel. Intégration du calcul sur GPU dans la plate-forme de simulation
multi-agent générique TurtleKit 3. In Salima Hassas and Maxime Morge, editors,
JFSMA, pages 189–198. Cepadues Editions, 2013.
[net] NetLogo Models Library : Life. http://ccl.northwestern.edu/netlogo/models/Life. [En
ligne ; vérifié le 26 avril 2014].
[NSL+11] Veynu Narasiman, Michael Shebanow, Chang Joo Lee, Rustam Miftakhutdinov, Onur
Mutlu, and Yale N. Patt. Improving GPU Performance via Large Warps and Twolevel
Warp Scheduling. In Proceedings of the 44th Annual IEEE/ACM International
Symposium on Microarchitecture, MICRO-44, pages 308–317, New York, NY, USA,
2011. ACM.
[ope] OpenCL 1.2 Reference Pages - Restrictions. http://www.khronos.org/registry/cl/sdk/
1.2/docs/man/xhtml/restrictions.html. [En ligne ; vérifié le 26 avril 2014].
[pan] Pandora : An HPC Agent-Based Modelling framework. https://www.bsc.es/
computer-applications/pandora-hpc-agent-based-modelling-framework. [En ligne ;
vérifié le 26 avril 2014].
[rep] Repast HPC Manual. repast.sourceforge.net/docs/RepastHPCManual.pdf. [En ligne ;
vérifié le 26 avril 2014].
[Rey87] Craig W. Reynolds. Flocks, Herds and Schools : A Distributed Behavioral Model. In
Proceedings of the 14th Annual Conference on Computer Graphics and Interactive
Techniques, SIGGRAPH ’87, pages 25–34, New York, NY, USA, 1987. ACM.
[RHK06] Sebastian Rodriguez, Vincent Hilaire, and Abder Koukam. A Holonic Approach to
Model and Deploy Large Scale Simulations. In Luis Antunes and Keiki Takadama,
editors, MABS, volume 4442 of Lecture Notes in Computer Science, pages 112–127.
Springer, 2006.
[Ric11] Paul Richmond. FLAME GPU Technical Report and User Guide (CS-11-03). Technical
report, Department of Computer Science, University of Sheffield, 2011.
[RR08] P. Richmond and D. Romano. A High Performance Framework For Agent Based
Pedestrian Dynamics on GPU hardware. European Simulation and Modelling, 2008.
[RRB+08] Shane Ryoo, Christopher I. Rodrigues, Sara S. Baghsorkhi, Sam S. Stone, David B.
Kirk, and Wen-mei W. Hwu. Optimization Principles and Application Performance
Evaluation of a Multithreaded GPU Using CUDA. In Proceedings of the 13th ACM
SIGPLAN Symposium on Principles and Practice of Parallel Programming, PPoPP
’08, pages 73–82, New York, NY, USA, 2008. ACM.
[RWCR10] Paul Richmond, Dawn Walker, Simon Coakley, and Daniela Romano. High performance
cellular level agent-based simulation with FLAME for the GPU. Briefings in
Bioinformatics, 2010.
[RWR10] Karl Rupp, Josef Weinbub, and Florian Rudolf. Automatic Performance Optimization
in ViennaCL for GPUs. In Proceedings of the 9th Workshop on Parallel/HighPerformance
Object-Oriented Scientific Computing, POOSC ’10, pages 6 :1–6 :6,
New York, NY, USA, 2010. ACM.
[SFF+10] Renato Silveira, Leonardo Fischer, José Antônio Salini Ferreira, Edson Prestes, and
Luciana Nedel. Path-planning for RTS games based on potential fields. In Proceedings
of the Third international conference on Motion in games, MIG’10, pages
410–421, Berlin, Heidelberg, 2010. Springer-Verlag.BIBLIOGRAPHIE 155
[SFS10] Antoine Spicher, Nazim A. Fatès, and Olivier Simonin. Translating Discrete MultiAgents
Models into Cellular Automata, Application to Diffusion-Limited Aggregation.
CCIS 67 Communications in Computer and Information Sciences series,
67 :270–282, January 2010.
[SFSV13] Jie Shen, Jianbin Fang, Henk Sips, and Ana Lucia Varbanescu. Performance Traps in
OpenCL for CPUs. In Proceedings of the 2013 21st Euromicro International Conference
on Parallel, Distributed, and Network-Based Processing, PDP ’13, pages 38–
45, Washington, DC, USA, 2013. IEEE Computer Society.
[Skl11] E. Sklar. NetLogo, a multi-agent simulation environment. Artificial Life, 13(3) :303–
311, 2011.
[SMH+10] Aamir Shafi, Jawad Manzoor, Kamran Hameed, Bryan Carpenter, and Mark Baker.
Multicore-enabling the MPJ Express Messaging Library. In Proceedings of the 8th
International Conference on the Principles and Practice of Programming in Java,
PPPJ ’10, pages 49–58, New York, NY, USA, 2010. ACM.
[SN09] D. Strippgen and K. Nagel. Multi-agent traffic simulation with CUDA. 2009 International
Conference on High Performance Computing Simulation, pages 106–114,
2009.
[TPO10] Stanley Tzeng, Anjul Patney, and John D. Owens. Task Management for Irregularparallel
Workloads on the GPU. In Proceedings of the Conference on High Performance
Graphics, HPG ’10, pages 29–37, Aire-la-Ville, Switzerland, Switzerland,
2010. Eurographics Association.
[UIN12] Akihiro Uchida, Yasuaki Ito, and Koji Nakano. An Efficient GPU Implementation
of Ant Colony Optimization for the Traveling Salesman Problem. 2013 International
Conference on Computing, Networking and Communications (ICNC), 0 :94–102,
2012.
[VQC02] G. Vitaglione, F. Quarta, and E. Cortese. Scalability and Performance of JADE Message
Transport System. http://jade.tilab.com/papers/Final-ScalPerfMessJADE.pdf?,
2002. [En ligne ; vérifié le 27 avril 2014].
[WD92] Eric Werner and Yves Demazeau. The design of multi-agent systems. Decentralized
AI, 3 :3–30, 1992.
[Wei13] Robin M. Weiss. Accelerating Swarm Intelligence Algorithms with GPU-Computing.
In David A. Yuen, Long Wang, Xuebin Chi, Lennart Johnsson, Wei Ge, and Yaolin
Shi, editors, GPU Solutions to Multi-scale Problems in Science and Engineering,
Lecture Notes in Earth System Sciences, pages 503–515. Springer Berlin Heidelberg,
2013.
[Wil74] A.G. Wilson. Urban and Regional Models in Geography and Planning. A WileyInterscience
publication. John Wiley & Sons Incorporated, 1974.
[WLL+
] John Wawrzynek, Mingjie Lin, Ilia Lebedev, Shaoyi Cheng, and Daniel Burke. 1
Rethinking FPGA Computing with a Many-Core Approach.
[WRC12] Peter Wittek and Xavier Rubio-Campillo. Scalable agent-based modelling with cloud
HPC resources for social simulations. In Cloud Computing Technology and Science
(CloudCom), 2012 IEEE 4th International Conference on, pages 355–362. IEEE,
2012.
[WSTaM12] Sandra Wienke, Paul Springer, Christian Terboven, and Dieter an Mey. OpenACC :
First Experiences with Real-world Applications. In Proceedings of the 18th International
Conference on Parallel Processing, Euro-Par’12, pages 859–870, Berlin, Heidelberg,
2012. Springer-Verlag.BIBLIOGRAPHIE 156
[ZG12] L. Zaoralek and P. Gajdos. CUDA code support in multiagent platform JADE. In
Intelligent Systems Design and Applications (ISDA), 2012 12th International Conference
on, pages 546–551, Nov 2012.Résumé :
Ces dernières années ont consacré l’émergence du parallélisme dans la plupart des branches de l’informatique.
Au niveau matériel, tout d’abord, du fait de la stagnation des fréquences de fonctionnement des unités de
calcul. Au niveau logiciel, ensuite, avec la popularisation de nombreuses plates-formes d’exécution parallèle.
Une forme de parallélisme est également présente dans les systèmes multi-agents, qui facilitent la description de
systèmes complexes comme ensemble d’entités en interaction. Si l’adéquation entre ce parallélisme d’exécution
logiciel et conceptuel semble naturelle, la parallélisation reste une démarche difficile, du fait des nombreuses
adaptations devant être effectuées et des dépendances présentes explicitement dans de très nombreux systèmes
multi-agents.
Dans cette thèse, nous proposons une solution pour faciliter l’implémentation de ces modèles sur une plateforme
d’exécution parallèle telle que le GPU. Notre bibliothèque MCMAS vient répondre à cette problématique
au moyen de deux interfaces de programmation, une couche de bas niveau MCM permettant l’accès direct à
OpenCL et un ensemble de plugins utilisables sans connaissances GPU. Nous étudions ensuite l’utilisation de
cette bibliothèque sur trois systèmes multi-agents existants : le modèle proie-prédateur, le modèle MIOR et
le modèle Collemboles. Pour montrer l’intérêt de cette approche, nous présentons une étude de performance
de chacun de ces modèles et une analyse des facteurs contribuant à une exécution efficace sur GPU. Nous
dressons enfin un bilan du travail et des réflexions présentées dans notre mémoire, avant d’évoquer quelques
pistes d’amélioration possibles de notre solution.
Mots-clés : Framework de simulation, Système multi-agents, Many-core, GPU, Calcul haute performance
Abstract:
These last years have seen the emergence of parallelism in many fields of computer science. This is explained
by the stagnation of the frequency of execution units at the hardware level and by the increasing usage of
parallel platforms at the software level. A form of parallelism is present in multi-agent systems, that facilitate
the description of complex systems as a collection of interacting entities. If the similarity between this software
and this logical parallelism seems obvious, the parallelization process remains difficult in this case because of
the numerous dependencies encountered in many multi-agent systems.
In this thesis, we propose a common solution to facilitate the adaptation of these models on a parallel platform
such as GPUs. Our library, MCMAS, provides access to two programming interface to facilitate this adaptation:
a low-level layer providing direct access to OpenCL, MCM, and a high-level set of plugins not requiring any
GPU-related knowledge. We study the usage of this library on three existing multi-agent models : predator-prey,
MIOR and Collembola. To prove the interest of the approach we present a performance study for each model
and an analysis of the various factors contributing to an efficient execution on GPUs. We finally conclude on a
overview of the work and results presented in the report and suggest future directions to enhance our solution.
Keywords: Simulation framework, Multi-agents system, Many-core, GPU, High-performance computing
Bornes inferieures et superieures dans les circuits
arithmetiques
S´ebastien Tavenas
To cite this version:
S´ebastien Tavenas. Bornes inferieures et superieures dans les circuits arithmetiques. Other.
Ecole normale sup´erieure de lyon - ENS LYON, 2014. French. .
HAL Id: tel-01066752
https://tel.archives-ouvertes.fr/tel-01066752
Submitted on 22 Sep 2014
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of scientific
research documents, whether they are published
or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destin´ee au d´epˆot et `a la diffusion de documents
scientifiques de niveau recherche, publi´es ou non,
´emanant des ´etablissements d’enseignement et de
recherche fran¸cais ou ´etrangers, des laboratoires
publics ou priv´es.THÈSE
en vue de l'obtention du grade de
Docteur de l’Université de Lyon, délivré par l’École Normale Supérieure de Lyon
Discipline : Informatique
Laboratoire de l’Informatique du Parallélisme
École Doctorale Informatique et Mathématiques
présentée et soutenue publiquement le 9 juillet 2014 par
Sébastien TAVENAS
_______________________________________________________________________________
Bornes inférieures et supérieures dans les circuits arithmétiques
_______________________________________________________________________________
Directeur de thèse : Pascal KOIRAN
Après avis de : Markus BLÄSER
Neeraj KAYAL
Mohab SAFEY EL DIN
Devant la commission d'examen formée de :
Frédéric BIHAN Université de Savoie Membre
Markus BLÄSER Universität des Saarlandes Rapporteur
Étienne GRANDJEAN Université de Caen Basse-Normandie Membre
Pascal KOIRAN École normale supérieure de Lyon Directeur
Natacha PORTIER École normale supérieure de Lyon Co-encadrante
Mohab SAFEY EL DIN Université Pierre et Marie Curie Rapporteur2Table des matières
Table des matières 3
Introduction 1
1 Préliminaires 7
1 Polynômes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1 Propriétés élémentaires des polynômes . . . . . . . . . . . . . 8
1.2 Fractions rationnelles . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Polynômes classiques . . . . . . . . . . . . . . . . . . . . . . . 9
2 Circuits arithmétiques . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1 Les circuits . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Degré formel . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3 Arbres monomiaux . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4 Notations en profondeur constante . . . . . . . . . . . . . . . 14
3 Classes de Valiant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1 Un soupçon de complexité booléenne . . . . . . . . . . . . . . 15
3.2 Classes VP, VNP . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.3 Classes sans constantes . . . . . . . . . . . . . . . . . . . . . . 18
3.4 Polynômes complets . . . . . . . . . . . . . . . . . . . . . . . 19
2 Profondeur bornée 21
1 Les formules de Ryser, Glynn et Fischer . . . . . . . . . . . . . . . . 23
2 Quelques bornes inférieures . . . . . . . . . . . . . . . . . . . . . . . 24
2.1 Comptage de monômes . . . . . . . . . . . . . . . . . . . . . . 24
2.2 Quasi-optimalité des formules de Ryser et de Glynn . . . . . . 25
2.3 Quelques résultats récents de bornes inférieures . . . . . . . . 27
3 Bornes supérieures pour circuits homogènes . . . . . . . . . . . . . . 28
3.1 Propositions sur les circuits arithmétiques . . . . . . . . . . . 29
3.2 Réduction à la VSBR . . . . . . . . . . . . . . . . . . . . . . . 30
3.3 Réduction à une profondeur bornée constante . . . . . . . . . 33
4 Bornes supérieures pour circuits non homogènes . . . . . . . . . . . . 36
3 Variantes de la τ -conjecture 39
1 Transfert de bornes inférieures . . . . . . . . . . . . . . . . . . . . . . 41
1.1 Quelques définitions de classes booléennes . . . . . . . . . . . 41
1.2 Les polynômes définissables . . . . . . . . . . . . . . . . . . . 42
1.3 Preuve du théorème 3.3 . . . . . . . . . . . . . . . . . . . . . 44
2 Variations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3TABLE DES MATIÈRES
2.1 Raffinement de la τ -conjecture réelle . . . . . . . . . . . . . . 47
2.2 Différentes τ -conjectures . . . . . . . . . . . . . . . . . . . . . 48
2.3 Problèmes fg + 1 . . . . . . . . . . . . . . . . . . . . . . . . . 54
4 Premiers résultats sur les τ -conjectures 57
1 Équivalence de la version monotone . . . . . . . . . . . . . . . . . . . 57
2 Polygones de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.1 Bornes supérieures grâce à la convexité . . . . . . . . . . . . . 62
5 Approche par le wronskien 65
1 Zéros des wronskiens . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
1.1 Borner les zéros des sommes par les zéros des wronskiens . . . 68
1.2 Seconde version de la borne supérieure . . . . . . . . . . . . . 70
2 Retour aux sommes de produits de polynômes . . . . . . . . . . . . . 71
2.1 Dérivées d’une puissance . . . . . . . . . . . . . . . . . . . . . 72
2.2 Application aux P Q VP Q . . . . . . . . . . . . . . . . . . 73
2.3 Applications à d’autres modèles . . . . . . . . . . . . . . . . . 76
3 Algorithmes pour le test d’identité polynomiale . . . . . . . . . . . . 78
3.1 Algorithmes PIT à boîte noire . . . . . . . . . . . . . . . . . . 79
3.2 Un algorithme PIT à boîte blanche . . . . . . . . . . . . . . . 80
3.3 Deux lemmes techniques . . . . . . . . . . . . . . . . . . . . . 81
4 Optimalité de la borne . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6 Problème de Sevostyanov 89
1 Outils techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
1.1 Les dérivées d’une puissance . . . . . . . . . . . . . . . . . . . 91
1.2 Les dérivées d’une fonction algébrique . . . . . . . . . . . . . . 92
1.3 Versions réelles pour le théorème de Bézout . . . . . . . . . . 94
1.4 Décomposition cylindrique algébrique pour un polynôme bivarié 96
2 Intersection d’une courbe creuse et d’une courbe dense . . . . . . . . 97
Bibliographie 103
4Introduction
Commençons ce manuscrit par une simple question. Comment fait-on pour chercher
un mot dans un dictionnaire ? On identifie la première lettre du mot et on
la compare à la première lettre des mots sur la page où le dictionnaire est ouvert.
Puis, selon leur position relative dans l’ordre alphabétique, on tourne les pages vers
l’avant ou vers l’arrière jusqu’à ce que les premières lettres coïncident. Ensuite, on
recommence avec la deuxième lettre, puis avec la troisième, et ainsi de suite...
Ce que nous venons de décrire correspond à ce que l’on appelle un algorithme. Il
s’agit d’un procédé systématique, applicable mécaniquement, sans réfléchir, en suivant
simplement un mode d’emploi précis. En bref, c’est une recette de cuisine qui
répond aux questions “Comment faire telle chose ?”, “Comment calculer telle opération
?”, “Comment résoudre tel problème ?”... À l’origine, pour les mathématiciens,
les algorithmes servaient plutôt à effectuer des calculs sur les nombres. Ainsi, les
méthodes pour calculer des additions, soustractions, multiplications ou divisions en
les posant que l’on apprend en primaire sont des algorithmes. Il en est de même par
exemple du crible d’Érathostène pour déterminer si un nombre est premier.
Bien que cette notion d’algorithme soit très ancienne, sa formalisation mathé-
matique provient des années 1930 et des travaux en particuliers de Kleene, Church,
Gödel, Herbrand, Post et Turing. Différents modèles ont été introduits comme les
fonctions récursives, le lambda-calcul, la machine de Turing ou la machine RAM.
De façon assez surprenante, il a été prouvé que tous ces modèles permettent de ré-
soudre exactement les mêmes problèmes, et qu’il existait d’autres problèmes que ces
modèles ne pouvaient pas résoudre. Ainsi est née la calculabilité, l’étude de ce qui
est calculable. L’équivalence de capacité de calculs des différents modèles a permis
de conjecturer que ces modèles étaient capables de simuler tous les autres modèles
mécaniques que l’on pourrait concevoir. Cette conjecture est connue sous le nom de
“Thèse de Church” ou “Thèse de Church-Turing”. L’apparition de l’ordinateur (qui
est une réalisation marérielle de la machine RAM) dès la seconde guerre mondiale
fut un grand succès de ces travaux.
Avec l’arrivée des premiers ordinateurs est apparue la notion d’efficacité des algorithmes.
Ainsi, peut-on réllement dire qu’un algorithme nécessitant un temps de
calcul de plusieurs milliers d’années soit “efficacement” calculable ? D’après Hartmanis
et Stearn, l’efficacité d’un algorithme doit être mesurée comme une fonction de
la taille de ses entrées. L’efficacité d’un algorithme se mesure alors par le nombre
de ressources qu’il utilise (comme le nombre d’opérations ou le nombre de cases
mémoires) en fonction de la taille des entrées. C’est le début de la théorie de la
complexité. Ainsi, lorsqu’on pose une addition de deux entiers, le nombre de chiffres
que l’on écrit est au plus grossièrement trois fois plus grand que le nombre de chiffres
des entrées (on doit rajouter une ligne pour les retenues et une ligne pour la solu-
1INTRODUCTION
tion). On dira que cet algorithme est linéaire en le nombre de chiffres à écrire. En
comparaison, lorsqu’on pose une multiplication, le nombre de chiffres à écrire sera
quadratique car le nombre de lignes de chiffres sera proportionnel en le nombre de
chiffres des entrées.
Quelques années plus tard, Cobham et Edmonds ont indépendamment proposé
qu’un algorithme efficace est un algorithme qui n’effectue, dans le pire des cas, qu’un
nombre d’opérations polynomial en la taille de son entrée. La classe P est ainsi défi-
nie comme l’ensemble des problèmes qui admettent de tels algorithmes. On pourrait
en fait se demander si la classe P, qui contient des problèmes qui ont leur meilleur
algorithme en temps n
1000, correspond bien à l’ensemble des problèmes efficacement
calculables. En pratique ce modèle semble aujourd’hui assez satisfaisant puisque la
grande majorité des problèmes naturels de cette classe nécessite en fait un nombre
d’opérations en n
c avec c une constante relativement petite (disons c ≤ 5). Toutefois,
d’autres classes peuvent aussi prétendre représenter les problèmes décidables
efficacement. Par exemple, la classe P ne considère que les algorithmes déterministes,
or de nombreux algorithmes aujourd’hui utilisent des bits aléatoires. Ainsi,
la classe BPP est définie comme l’ensemble des problèmes que l’on peut résoudre en
temps polynomial en la taille des entrées en utilisant des bits aléatoires. D’autres
candidats pour la classe des problèmes résolubles efficacement viennent des modèles
non uniformes. Un modèle uniforme est un modèle (comme pour P et BPP) où les
algorithmes sont les mêmes quelque soit la taille des entrées. Dans le cas de la cryptographie,
pourrait-on dire que le problème de la factorisation soit vraiment difficile
s’il existait un algorithme très rapide capable de factoriser tous les nombres d’au
plus 100 000 bits ? Un exemple naturel de modèle de calcul non uniforme est celui
des circuits. L’ensemble des problèmes qui possèdent une suite de circuits (un pour
chaque taille d’entrée) de taille polynomiale correspond à la classe P/poly.
La question duale à celle de savoir quels problèmes peuvent être efficacement
calculables est celle de déterminer pour quels problèmes ce n’est pas le cas. Ainsi,
imaginons le problème du touriste qui arrive en France et aimerait visiter certaines
villes (par exemple Angers, Bordeaux, Caen, Clermont-Ferrand, Grenoble, Lille,
Lyon, Nancy, Nice, Paris et Rennes) mais qui n’a, à sa disposition, qu’une voiture
de location avec un forfait de 1500 kilomètres. Peut-il trouver un itinéraire passant
par toutes ces villes ne dépassant pas les 1500 kilomètres ? Ce problème, connu sous
le nom du “Voyageur de Commerce” semble difficile à implémenter efficacement sur
les ordinateurs. Aucun algorithme de complexité polynomiale résolvant ce problème
n’est aujourd’hui connu. En fait, nous pensons qu’il n’en existe pas. Mais pourquoi
cela ? Comment pourrait-on montrer la non-existence d’un tel algorithme ?
Pour commencer, notons que pour ce problème, si un itinéraire est donné, il est
facile (i.e. en temps polynomial) de vérifier s’il s’agit d’un itinéraire satisfaisant aux
critères de départ. L’ensemble des problèmes ayant cette propriété forme une classe
connue sous le nom de NP. Pourquoi pense-t-on alors qu’il n’existe pas d’algorithme
polynomial qui décide l’existence d’un tel bon itinéraire ? En fait, il a été montré que
ce problème était au moins aussi difficile que tous les autres problèmes de la classe NP
(on dit que le problème du voyageur de commerce est NP-complet). Ce qui signifie
que s’il existe un algorithme polynomial pour ce problème, alors il en existe aussi un
pour tous les autres problèmes de cette classe NP. Or la classe NP comprend un très
grand nombre de problèmes qui semblent difficiles. Depuis les premières preuves
2INTRODUCTION
de NP-complétude par Cook et Karp il y a trente ans, les chercheurs n’ont cessé
d’augmenter la liste de ces problèmes NP-complets (cf. par exemple le livre [34] pour
une liste déjà conséquente). Comme l’existence d’un algorithme polynomial pour le
problème du voyageur de commerce impliquerait l’existence d’un tel algorithme pour
tous ces autres problèmes, la communauté scientifique doute de cette existence. Mais
comment le prouver ? Résoudre cette question connue sous le nom “P 6= NP ?” (ou
conjecture de Cook) est le plus grand défi de la recherche actuelle en informatique
théorique. Cette conjecture fait partie des sept problèmes du millénaire exposés
par l’Institut Clay. Très peu d’outils existent aujourd’hui pour trouver des bornes
inférieures sur la complexité d’un problème, i.e. prouver que tel problème ne peut
pas être résolu en moins de tant d’opérations.
Un autre problème classique est celui des mariages parfaits (en anglais “perfect
matching”). Anne, Bertrand, Charles et Daniel doivent se répartir quatre gâteaux,
un au chocolat, un à la vanille, un au citron et un à la fraise. Anne et Bertrand
n’aiment pas beaucoup les fruits, mais raffolent du chocolat et de la vanille. Charles
est preneur des gâteaux au citron, à la fraise ou à la vanille, mais laisserait bien celui
au chocolat. Quant à Daniel, gourmand, sera satisfait quelque soit le gâteau qu’il
recevra. Le problème des mariages parfaits est celui de savoir s’il y a une affectation
des gâteaux qui convient aux quatre amis. Ce problème est en fait dans P. Toutefois,
la variante de ce problème qui consiste à compter le nombre de telles affectations
valables est supposée difficile (ce problème est connu #P-complet). En fait compter
ce nombre d’assignations revient à évaluer un polynôme particulier, le permanent, en
un certain point. Cela signifie qu’il est possible de résoudre ce problème en effectuant
seulement les opérations arithmétiques que sont l’addition, la soustraction ou la
multiplication. Dans ce manuscrit, nous nous intéresserons essentiellement à de tels
problèmes arithmétiques. Il est envisageable que l’utilisation d’autres opérations
(comme modifier directement les bits des nombres considérés) permette d’évaluer
ces polynômes plus rapidement, mais en pratique ce n’est généralement pas le cas
des algorithmes connus actuellement. Nous considérerons ainsi des modèles de calcul
arithmétiques, i.e. des modèles où seules les opérations arithmétiques sont utilisées.
Le modèle arithmétique probablement le plus répandu de nos jours est celui des
circuits arithmétiques. Ce modèle a été particulièrement étudié par Valiant dans les
années 70, 80. Ce dernier a introduit des classes analogues aux classes booléennes.
Ainsi, la classe VP correspond aux familles de polynômes calculables efficacement
dans ce modèle, alors que la classe VNP est l’analogue de la classe VP. Valiant montra
que le polynôme Permanent est en fait VNP-complet. La conjecture VP 6= VNP,
connue sous le nom de conjecture de Valiant fait figure de version arithmétique de
la conjecture de Cook. Toutefois, comme on se limite ici seulement aux opérations
arithmétiques, la robustesse des objets algébriques sur lesquels on travaille (comme
les anneaux ou les corps) et les nombreuses propriétés qu’ont les opérations associées
permettent d’imaginer que cette version arithmétique de la conjecture P 6= NP soit
beaucoup plus accessible.
Dans le premier chapitre, nous rappelerons les définitions et premières propriétés
autour de ces circuits arithmétiques dont nous aurons besoin dans la suite de ce
manuscrit.
Nous avons mentionné précédemment que le principal challenge en complexité
informatique est de trouver des bornes inférieures. Agrawal et Vinay [4] ont mon-
3INTRODUCTION
tré que trouver une borne inférieure en 2
o(d+d log(n/d)) pour la taille des circuits de
profondeur 4 calculant une suite de polynômes Pn de degré d à n indéterminées est
équivalent à trouver une borne inférieure (aussi en 2
o(d+d log(n/d))) pour les circuits
généraux calculant cette suite de polynômes. Ce résultat traduit que le problème
de trouver des bornes inférieures est aussi difficile dans le cas des circuits de profondeur
4 que dans le cas des circuits généraux. Depuis, beaucoup de travaux ont
été réalisés sur les circuits arithmétiques de profondeur constante (en particulier de
profondeur 3 et 4). Nous exposerons dans le deuxième chapitre les résultats sur ce
sujet. Nous commencerons par donner les résultats récents sur des bornes inférieures
non triviales pour les circuits de profondeur 4. Puis nous nous intéresserons plus particulièrement
aux bornes supérieures correspondantes et verrons que dans un grand
nombre de cas les bornes optimales ont été trouvées.
En 2007, Bürgisser [21] a montré qu’une célèbre conjecture, la τ -conjecture introduite
par Shub et Smale [92], implique une borne inférieure sur la taille des circuits
arithmétiques calculant le permanent. Cette τ -conjecture suggère qu’un polynôme
calculé par un petit circuit ne peut pas avoir beaucoup de racines entières. Cependant
cette conjecture est fausse si on considère les racines réelles au lieu des racines entières.
En effet les polynômes de Tchebychev possèdent un nombre de racines réelles
exponentiellement plus grand que la taille des circuits les calculant. Koiran [61] a
proposé une variante de cette τ -conjecture, nommée la τ -conjecture réelle. Cette
dernière stipule qu’il existe un polynôme universel p tel que les polynômes univariés
de la forme
X
k
i=1
Ym
j=1
fi,j (X)
ont au plus p(ktm) racines réelles dès que les fi,j ont au plus t monômes. L’intérêt
de cette conjecture est que, tout en impliquant encore la conjecture de Valiant, elle
considère le nombre de racines réelles, et permet d’espérer que les outils d’analyse
réelle puissent aider à la résoudre. Dans le troisième chapitre, nous étudierons cette
τ -conjecture réelle ainsi que d’autres variantes ayant toutes la propriété d’impliquer
des bornes inférieures pour le permanent. Le quatrième chapitre sera consacré à des
premiers résultats concernant deux de ces variantes : la τ -conjecture réelle monotone
ainsi que la version combinatoire.
Nous nous attarderons ensuite sur nos travaux pour tenter de prouver la τ -
conjecture réelle dans le chapitre cinq. Nous verrons alors pourquoi le wronskien
est un outil très adapté pour borner le nombre de zéros de sommes de puissances.
Même si nous sommes encore loin de prouver la τ -conjecture réelle, nous montrerons
comment obtenir des bornes sur le nombre de racines pour des polynômes de la forme
X
k
i=1
Ym
j=1
(fi,j (X))αi,j
où les fi,j ont au plus t monômes. Ces bornes améliorent à la fois les résultats de
Khovanski˘ı [59] sur ce sujet et les résultats précédents de Grenet, Koiran, Portier
et Strozecki [38]. Ces outils sont assez robustes et permettent d’améliorer les bornes
supérieures connues sur le nombre de racines pour d’autres familles de polynômes.
4INTRODUCTION
Enfin, au chapitre six, nous essaierons d’utiliser la pleine puissance des outils
développés au chapitre cinq pour attaquer les variantes “creuses” du théorème de
Bézout. Dans le corps des complexes, le nombre de racines d’un polynôme est borné
par son degré. La règle des signes de Descartes assure, elle, que le nombre de racines
réelles est aussi borné par le nombre de termes du polynôme. Par ailleurs, pour
un système de plusieurs équations, le théorème de Bézout affirme que le nombre
de solutions complexes, s’il est fini, est borné par le produit des degrés des diffé-
rents polynômes. Qu’en est-il alors du cas d’un système de polynômes creux ? Cette
question a été soulevée par Kushnirenko en 1977. Les résultats de Khovanski˘ı sur la
théorie des “fewnomials” assurent que le nombre de solutions réelles est borné par
une fonction du nombre de termes. Cependant cette fonction est exponentielle en le
nombre de termes. La question de savoir s’il existe une borne supérieure polynomiale
en le nombre de termes comme pour le théorème de Bézout est encore largement
ouverte. Dans ce même chapitre nous examinerons un cas particulier, celui d’un système
d’un polynôme de petit degré avec un polynôme creux. Nous montrerons que
dans ce cas, il existe effectivement une borne supérieure polynomiale sur le nombre
de composantes connexes des solutions.
Notations
Dans ce manuscrit nous utiliserons abondamment la notation de Landau pour
apprécier le comportement asymptotique de nos mesures. Par comportement asymptotique,
nous sous-entendons en fait le comportement des fonctions au voisinage de
+∞. Si f et g sont des fonctions R → R, on dira que f = O(g) s’il existe deux réels
positifs c et N tels que pour tout n ≥ N, on ait f(n) ≤ cg(n). De plus, on notera
f = o(g) si pour tout réel positif ε, il existe un réel N tel que pour tout n ≥ N, on ait
f(n) ≤ εg(n). Ces notations permettent de borner supérieurement le comportement
asymptotique de f. Il existe des notations symétriques pour les bornes inférieures.
Ainsi, on notera f = Ω(g), respectivement f = ω(g) si g = O(f), respectivement
g = o(f). Enfin, la notation f = Θ(g) exprime que f = O(g) et g = O(f), i.e. que f
et g sont de même ordre de grandeur. Finalement nous utiliserons la même notation
dans le cas de fonctions de Z → R.
5INTRODUCTION
6Chapitre 1
Préliminaires : notations et
introduction à la théorie de Valiant
Dans ce chapitre, nous définirons les outils ainsi que les notations que nous allons
utiliser dans la suite de ce manuscrit. Nous donnerons ensuite une brève introduction
à la théorie des circuits arithmétiques (appelée généralement théorie de Valiant).
Toutefois, nous considérerons ici seulement les bases et les résultats qui nous seront
utiles pour la suite. Pour un aperçu plus complet de cette théorie, le lecteur interessé
pourra se tourner vers les références suivantes [19, 23, 35, 91].
L’idée de cette théorie est de mesurer la complexité des polynômes en termes
de nombres d’opérations arithmétiques à effectuer. Commençons par fixer quelques
notations pour les polynômes.
1 Polynômes
Un polynôme univarié f est défini comme une expression de la forme
f = c0 + c1X + c2X
2 + . . . + cdX
d =
X
d
i=0
ciX
i
où les ci (pour 0 ≤ i ≤ d) sont des éléments d’un anneau commutatif A avec
cd 6= 0 et où X est un symbole formel appelé indéterminée (ou même variable). La
constante d est appelée le degré (notée aussi deg(f)) et les (ci)0≤i≤d les coefficients
de f. Par convention, le degré du polynôme nul sera −∞. L’ensemble des polynômes
à coefficients dans un anneau A est encore un anneau et sera noté A[X].
Remarque 1.1. Dans la suite du manuscrit, les anneaux seront toujours supposés
unitaires et commutatifs.
Un polynôme est donc une somme de termes où chaque terme est le produit
d’un coefficient ci et d’un monôme Xi
. Les coefficients cd (où d est le degré) et c0
sont traditionnellement appelés respectivement le coefficient dominant et le terme
constant.
Si A est un sous-anneau de B, alors, on associera à un polynôme f sa fonction
7CHAPITRE 1. PRÉLIMINAIRES
polynomiale sur B. Il s’agit de la fonction :
f : B → B
x 7→ c0 + c1x + . . . + cdx
d
.
En fait, nous nous intéresserons essentiellement dans la suite à des anneaux très
simples. En particulier A correspondra généralement à Z ou Q et B sera R ou C.
Les polynômes multivariés sont des polynômes en plusieurs indéterminées. Il s’agit
d’expression de la forme
f = c0,0,...,0 + c1,0,...,0X1 + . . . + c0,0,...,1Xn + . . . + ci1,i2,...,inX
i1X
i2
· · · X
in
=
X
α∈Nn
cαXα
où la somme est finie. Les coefficients ci1,i2,...,in
sont encore des éléments d’un anneau
A. Le coefficient c0,0,...,0 sera encore appelé le terme constant. Le degré d’un monôme
m = Xα1
· · · Xαn sera alors défini par deg(m) = Pn
i=1 αi
. Le degré total du polynôme
sera le maximum des degrés de ses monômes, c’est-à-dire deg(f) = maxα(α1 + . . . +
αn). Un polynôme est dit homogène si tous les termes associés à un coefficient non
nul ont même degré. Un polynôme est constant s’il est de degré au plus 1.
1.1 Propriétés élémentaires des polynômes
Un outil pratique pour les polynômes est la décomposition en facteurs irréductibles.
Plus formellement, si K est un corps commutatif, un polynôme f est dit
irréductible s’il est de degré au moins 1 et si pour toute écriture de f comme un
produit g · h alors, un des deux polynômes g ou h est constant. La décomposition
en facteurs irréductibles assure que pour tout polynôme f sur un corps K, il existe
des polynômes g1, . . . , gp irréductibles et une constante λ de K tels que :
f = λg1 . . . gp.
De plus, ces nouveaux polynômes sont uniques à constante multiplicative près. Un
anneau qui possède cette propriété de décomposition unique en irréductible est appelé
factoriel. La théorie sur ces anneaux est beaucoup plus générale que celle pré-
sentée ici (en particulier, pour les anneaux de polynômes, l’anneau de base n’a pas
besoin d’être un corps) et peut être trouvée dans tout livre d’algèbre.
Une racine d’un polynôme f en n variables est un point (a1, . . . , an) de A
n
tel que
f s’annule en ce point (i.e. f(a1, . . . , an) = 0). Dans le cas des polynômes univariés,
le fait que a soit une racine de f(X) est équivalent au fait que (X −a) soit un facteur
de f. Un corollaire direct de l’unicité de la décomposition en irréductibles est que
si f(X) est un polynôme non identiquement nul, alors son nombre de racines est
borné par son degré.
1.2 Fractions rationnelles
On peut tout d’abord remarquer que l’ensemble des polynômes est le plus petit
ensemble qui contient les constantes, les variables et qui est stable par les trois lois
+, − et ×. Mais que se passe-t-il si on veut rajouter les divisions ?
81. POLYNÔMES
Il est alors naturel de se placer dans le cas où l’anneau de base est un corps K
(comme pour les anneaux, nos corps seront toujours commutatifs). On définit les
fractions rationnelles comme les quotients de deux polynômes : f est fraction rationnelle
si et seulement s’il existe deux polynômes g et h (avec h non identiquement
nul) tels que f = g/h. On dira que g/h est sous forme simplifiée si g et h sont
premiers entre eux (i.e. que si un polynôme φ divise g et h, alors φ est constant). De
même que pour les polynômes, on peut associer à chaque écriture g/h la fonction
rationnelle associée (où B est un sur-corps de K) :
g/h : B → B
x 7→ g(x)/h(x).
Toute fraction rationnelle peut se mettre sous une forme simplifiée, la seule perturbation
de cette transformation est que le domaine de la nouvelle fonction associée
a potentiellement été étendu par continuité. Ces singularités qui ont disparu sont
appelées singularités effaçables. Dans la suite, les fractions rationnelles (ainsi que les
fonctions associées) seront par défaut sous forme simplifiée. On peut encore définir
les racines d’une fonction rationelle comme les points où elle s’annule. On définira
les pôles, comme les points où la fonction rationnelle est non définie. L’ensemble des
fractions rationnelles sera noté K(X1, . . . , Xn).
1.3 Polynômes classiques
Un premier exemple de polynôme est le produit itéré de matrices. Il s’agit du
produit matriciel
X
(0)t
X
(1) · · · X (d−1) où
X
(0) =
X
(0)
i
1≤i≤n
et X
(d−1) =
X
(d−1)
i
1≤i≤n
sont deux vecteurs colonnes, et pour 1 ≤ k ≤ d − 2 les
X
(k) =
X
(k)
i,j
1≤i,j≤n
sont des matrices n × n.
Le polynôme obtenu, appelé IMMn,d (le nom vient de l’anglais “Iterated Matrix
Multiplication”) est défini comme suit. Pour d, n des entiers tels que d ≥ 2
et n ≥ 1, on considère le polynôme suivant sur les (d − 2)n
2 + 2n indéterminées
X
(0)
i
, X(d−1)
i
, X(l)
i,j
pour 1 ≤ i, j ≤ n et l ∈ {1, . . . , d − 2} :
IMMn,d =
X
(i0,...,id−2)∈{1,...,n}
d−1
X
(0)
i0 X
(1)
i0,i1
· · · X
(d−2)
id−3,id−2X
(d−1)
id−2
.
Un autre exemple classique de polynôme est celui du déterminant. Les bijections
de l’ensemble {1, . . . , n} vers lui-même sont appelées permutations à n éléments. On
notera leur ensemble Sn. Soient i < j deux éléments distincts compris entre 1 et n.
On dit que la paire {i, j} est en inversion pour la permutation σ quand σ(i) > σ(j).
Une permutation est dite paire quand elle présente un nombre pair d’inversions,
impaire sinon. Par définition, la signature d’une permutation paire est 1, celle d’une
permutation impaire est −1. La signature d’une permutation σ sera notée ε(σ). Nous
9CHAPITRE 1. PRÉLIMINAIRES
pouvons enfin définir le polynôme déterminant. Soit X = (Xi,j )1≤i,j≤n la matrice de
taille n×n où chaque case correspond à une indéterminée particulière. Le polynôme
Detn =
X
σ∈Sn
(−1)ε(σ)Yn
i=1
Xi,σ(i)
est alors défini comme le déterminant de la matrice X = (Xi,j )1≤i,j≤n. Il s’agit d’un
polynôme homogène de degré n. Par exemple,
Det2 = X1,1X2,2 − X1,2X2,1.
Le déterminant ne se résume pas à la formule ci-dessous. Il s’agit d’un outil primordial
en mathématiques, à la base par exemple de l’algèbre linéaire. Muir lui a
consacré un livre [74].
On s’intéressera dans ce manuscrit plus particulièrement au permanent, un polynôme
en partie similaire au déterminant. Il est défini par :
Permn =
X
σ∈Sn
Yn
i=1
Xi,σ(i)
.
Il s’agit exactement de la formule du déterminant à laquelle on a retiré les “−1”.
Permn est aussi un polynôme homogène de degré n en n
2 variables. Même s’il est
loin d’avoir l’ampleur du déterminant en mathématiques, il a tout de même des
significations combinatoires. En particulier, si G est un graphe orienté à n sommets
où chaque arête e est pondérée par un poids π(e), alors le permanent de G compte
le nombre de couvertures par cycles. Plus précisément, une couverture par cycle C
est un sous-ensemble des arêtes couvrant G par des cycles, i.e. pour chaque sommet
v de G, exactement une arête sortante et une arête entrante de v (possiblement la
même) sont dans C.
Graphe G Couverture par cycles
(en rouge)
Cycle hamiltonien
(en rouge)
Le poids de la couverture par cycle C est le produit des poids des arêtes de C. Si
M = (mi,j )1≤i,j≤n est la matrice d’adjacence du graphe G (la case mi,j correspond
au poids associé à l’arête allant du sommet i au sommet j, s’il n’y a pas d’arête, le
poids est 0), alors le permanent de M vaut la somme des poids de C où C parcourt
l’ensemble des couvertures par cycle de G :
Permn(G) = X
C couverture
par cycles de G
Y
e arête
de C
π(e)
.
102. CIRCUITS ARITHMÉTIQUES
Le polynôme obtenu si on se restreint alors aux cycles hamiltoniens au lieu des
couvertures par cycles est appelé le hamiltonien (un cycle hamiltonien est un cycle
qui passe une et une seule fois par chaque sommet du graphe).
Hamn(G) = X
C cycle
hamiltonien de G
Y
e arête
de C
π(e)
.
2 Circuits arithmétiques
2.1 Les circuits
La façon la plus naturelle de calculer un polynôme f(x1, . . . , xn) sur un anneau
A est de commencer avec les variables x1, . . . , xn puis d’effectuer une succession
d’opérations arithmétiques basiques telles que des additions, des soustractions, des
multiplications ou des divisions (c.f. Remarque1.3) jusqu’à obtenir le polynôme dé-
siré. Un tel calcul est appelé un SLP (de l’anglais “Straight-line program”). Nous
représenterons ces SLP par des circuits arithmétiques.
Définition 1.2. Un circuit arithmétique sur un anneau commutatif A de portes
d’opération P est un graphe fini orienté acyclique avec les propriétés suivantes : les
sommets d’un circuit sont habituellement nommés portes. Ceux de degré entrant 0
sont appelés les entrées et sont étiquetés par une constante de A ou une variable. Les
autres sommets (de degré entrant > 0) sont étiquetés par des opérations de P et sont
appelés les portes de calcul ou nœuds internes. Pour une porte de calcul, le degré
entrant sera souvent noté arité. Les sommets de degré sortant 0 seront nommés les
sorties.
Enfin, nous appellerons formule, un circuit tel que le graphe sous-jacent est un
arbre.
Comme nous avons introduit les circuits comme une représentation des SLP,
il est intéressant de remarquer que la taille d’un circuit n’est rien d’autre que la
longueur du SLP correspondant.
Comme nous l’avons mentionné à la remarque 1.1, nous nous limitons dans ce
manuscrit au cas des anneaux commutatifs, mais il est aussi possible de définir les
circuits pour des anneaux non-commutatifs (voir par exemple sur ce sujet le célèbre
résultat de Nisan [75] ou la section consacrée dans [91]).
Nous utiliserons aussi le vocabulaire classique successeur/arguments pour mettre
en évidence les liens entre les portes. S’il existe une arête du graphe allant de la porte
α vers la porte β, nous dirons que α est un argument de β ou que β est un successeur
de α.
Chaque porte d’un circuit calcule un polynôme (défini par récurrence). Les polynômes
calculés par un circuit correspondent aux polynômes calculés par les sorties du
circuit. Comme dans l’exemple ci-dessous, on considérera généralement des circuits
avec une seule sortie (et donc calculant un unique polynôme).
Pour une porte α, nous noterons [α] le polynôme calculé par cette porte.
11CHAPITRE 1. PRÉLIMINAIRES
x -2 y
×
× ×
+
Circuit calculant le polynôme
f = 4x
2 − 2xy.
Remarque 1.3. Quand rien n’est signalé, l’ensemble des portes d’opérations sera
par défaut : P = {+, ×}.
Rajouter des portes de soustraction ne changera pas grand chose, vu qu’il est
possible de simuler le calcul a − b par le calcul a + ((−1) × b). Pour calculer des
polynômes, Strassen a montré ( [95], cf. lemme 1.6) que l’on pouvait aussi facilement
se passer des portes de division. Enfin, nous utiliserons aussi (au chapitre 2) les
portes de multiplication par un scalaire .
Remarque 1.4. Encore par défaut, l’arité des portes de calcul sera bornée par deux.
On mentionnera dans la suite quand l’arité des portes (essentiellement + et ×) sera
bornée par une autre valeur ou non bornée.
Comme mentionné précédemment, nous nous intéresserons à la complexité des
circuits arithmétiques. Pour cela, nous aurons besoin de “mesures” de la “taille” de
tels circuits.
Définition 1.5. La taille d’un circuit compte le nombre de portes. La profondeur du
circuit mesure la longueur maximale d’un chemin orienté depuis une entrée jusqu’à
une sortie.
Nous avons déjà mentionné précédemment que l’on peut en général se passer
des portes de division. Plus précisément, le résultat suivant a été démontré par
Strassen [95]. Une preuve peut être trouvée au chapitre 7.1 du livre [22].
Lemme 1.6. Sur un corps infini, si un polynôme f de degré d est calculable par un
circuit de portes {+, −, ×, ÷} et de taille s, alors il est aussi calculé par un circuit
de portes {+, −, ×} et de taille O(d
2
s).
Le résultat reste valide en fait pour tout corps assez grand. Hrubeš et Yehudayoff
ont généralisé ce résultat à tout corps [49].
2.2 Degré formel
Définition 1.7. Pour un circuit de portes {+, ×}, on définit, par récursivité, le
degré (formel) d’une porte :
— Le degré d’une entrée étiquetée par 0 est −∞.
— Le degré d’une entrée étiquetée par une constante non nulle est 0.
— Le degré d’une entrée étiquetée par une variable est 1.
122. CIRCUITS ARITHMÉTIQUES
— Le degré d’une porte + d’arguments α1, . . . , αp est le maximum des degrés
des portes α1, . . . , αp.
— Le degré d’une porte × d’arguments α1, . . . , αp est la somme des degrés des
portes α1, . . . , αp.
Un circuit est qualifié d’homogène si pour chacune de ses portes d’addition α,
tous les arguments de α ont le même degré.
Remarque 1.8. Dans la suite de ce manuscrit nous supposerons que les nœuds
internes ne calculent jamais le polynôme identiquement nul. Si c’est le cas, il suffit
de remplacer ces portes par des portes d’entrée étiquetées par la constante 0.
Un premier résultat découle immédiatement de la définition par récurrence des
circuits homogènes.
Lemme 1.9. Dans un circuit homogène, toutes les portes calculent des polynômes
homogènes. De plus le degré de la porte correspond au degré du polynôme homogène
calculé par la porte.
Démonstration. — Le lemme est avéré pour toutes les portes d’entrée.
— Si α est une porte + d’arguments α1, . . . , αp, alors par homogénéité, ces
arguments ont le même degré d. Par hypothèse de récurrence, les portes
α1, . . . , αp calculent des polynômes homogènes de degré d. Donc [α] est un
polynôme homogène de degré d ou −∞. Par la remarque 1.8, le degré de [α]
est d.
— Si α est une porte de multiplication d’arguments α1, . . . , αp, alors par hypothèse
de récurrence les polynômes [α1], . . . , [αp] sont homogènes et leurs
degrés correspondent au degré des portes correspondantes. Donc [α] est homogène
et le degré de [α] égale le degré de α.
Les portes correspondant à la multiplication par un scalaire sont donc des cas
particuliers de portes de multiplication. On peut rajouter maintenant une restriction
syntaxique pour que ces portes calculent bien des multiplications scalaires. Dans la
suite, ces portes sont toujours d’arité deux et au moins l’un des arguments est de
degré formel 0.
2.3 Arbres monomiaux
Pour un circuit donné à une seule sortie, nous allons définir une famille de formules
particulières que nous appellerons les arbres monomiaux. Dans l’esprit, un
arbre monomial correspond au calcul d’un monôme particulier.
Définition 1.10. L’ensemble des arbres monomiaux d’un circuit C qui a une seule
sortie o est défini par récurrence sur sa taille :
— Si C est de taille 1, il a seulement un arbre monomial, lui-même.
— Si la sortie o de C est une porte + d’arguments α1, . . . , αp, alors les arbres
monomiaux de C sont obtenus en choisissant un arbre monomial du souscircuit
enraciné en αi et l’arc reliant αi à la sortie o pour une valeur de i
dans l’ensemble {1, . . . , p}.
13CHAPITRE 1. PRÉLIMINAIRES
— Si la porte de sortie o de C est une porte de multiplication (ou une porte )
dont les arguments sont α1, . . . , αp, les arbres monomiaux de C sont obtenus
en prenant des copies disjointes pour chaque 1 ≤ i ≤ p d’un arbre monomial
enraciné en αi
, puis en prenant les p arcs reliant les portes αi à la sortie o.
Par exemple, le circuit suivant
x y
z
+
+
×
possède six arbres monomiaux.
x
z
+
+
×
y
z
+
+
×
x x
+ +
+
×
x y
+ +
+
×
y x
+ +
+
×
y y
+ +
+
×
On remarque ici qu’un arbre monomial peut avoir une taille (exponentiellement)
plus grande que celle du circuit original. Cela ne posera pas de problème dans la
suite de ce manuscrit. Toutefois, il est possible d’éviter cette explosion en travaillant
avec des circuits multiplicativement disjoints comme dans [72].
À chaque arbre monomial, on peut associer un monôme correspondant au produit
de ses feuilles.
Le lemme suivant qui montre comment revenir au circuit à partir des arbres
monomiaux provient de [72].
Lemme 1.11. Un polynôme f calculé par un circuit C correspond exactement à la
somme des monômes des arbres monomiaux :
f =
X
T arbre
monomial
m(T)
où m(T) est le monôme associé à l’arbre T.
2.4 Notations en profondeur constante
Dans le cas des circuits de profondeur constante de portes {+, ×}, l’arité des
portes sera non bornée. En fait, pour un circuit de profondeur δ, si l’arité des portes
est bornée par a, alors le polynôme calculé ne dépend que d’au plus a
δ variables. Or
comme dans le cas de la complexité booléenne, nous ne voulons pas que la taille des
entrées du problème soient bornée par une constante.
143. CLASSES DE VALIANT
Pour les circuits de profondeur constante, il est traditionnel (et très pratique) de
les partitionner en niveaux. Le niveau 0 contient les entrées, puis pour tout i ≥ 1,
le niveau i correspond à un unique opérateur et chaque porte de ce niveau a tous
ses arguments dans le niveau i − 1. On peut remarquer que cette transformation
est presque anodine pour les circuits à une seule sortie, de portes {+, ×} (plus
précisément, elle n’augmente pas la profondeur p et multiplie la taille par au plus
p).
Nous utiliserons quelques notations pratiques qui sont définies dans l’article [45].
Un circuit, par exemple de profondeur 4, tel que les portes des niveaux 1 et 3 sont des
portes de multiplication et les portes de niveau 2 et 4 sont des portes d’addition est
noté : circuit P QP Q. De plus un circuit P Q[α] P[β] Q
correspond à un circuit
de type P QP Q où l’arité des portes de multiplication au niveau 3 est borné par α
P Q
et l’arité des portes d’addition du niveau 2 est borné par β. Par exemple, un circuit
[α] P[β] Q
calcule un polynôme de la forme :
X
t
i=1
Yui
j=1
Xvi,j
k=1
wY
i,j,k
l=1
xi,j,k,l
où ui ≤ α, vi,j ≤ β.
De même, nous aurons besoin de portes d’exponentiation V
. Nous ne les avons
pas définies précédemment car elles ne serviront que dans le cas des circuits de
profondeur bornée. Elles correspondent à l’opérateur “puissance”. Par exemple un
circuit P V[γ] P calcule des polynômes de la forme :
X
t
i=1 Xvi
j=1
xi,j!ui
où les exposants ui sont bornés par γ.
3 Classes de Valiant
3.1 Un soupçon de complexité booléenne
Commençons ce chapitre par une petite digression sur la complexité booléenne.
En fait, dans la suite, seul le chapitre 3 nécessitera quelques outils de cette théorie.
L’intérêt ici est aussi de donner au lecteur une petite intuition des classes P
et NP avant d’aller voir les classes VP et VNP qui en seront inspirées. De plus, on
supposera connue la définition d’une machine de Turing (le lecteur pourra sinon,
pour l’intuition, imaginer la machine de Turing comme un ordinateur ou un programme
informatique). D’ailleurs, beaucoup plus d’informations sur la complexité
booléenne (comme la définition des machines de Turing) pourront être trouvées dans
les références [7, 37, 79, 82].
Définition 1.12. L’ensemble {0, 1}
? désigne l’ensemble des mots finis sur l’alphabet
{0, 1}. Par exemple 011 et 00000 sont deux mots de {0, 1}
?
. Le premier est un mot
de longueur 3, le second, un mot de longueur 5. On utilisera la notation |x| pour
désigner la taille du mot x. Un langage est une partie de {0, 1}
?
.
15CHAPITRE 1. PRÉLIMINAIRES
Nous pouvons maintenant définir la classe P constituée des langages supposés
“facilement calculables”.
Définition 1.13. La classe P contient l’ensemble des langages A tels qu’il existe
une constante c et une machine de Turing M telles que
— sur toute entrée x ∈ {0, 1}
?
, M(x) fonctionne en temps ≤ |x|
c + c,
— M reconnaît le langage A, i.e. x ∈ A ⇔ M(x) = 1.
Une des plus grandes réussites de cette théorie réside dans la classe NP. Dans
l’idée, un langage A est dans cette classe, lorsque l’appartenance d’un mot à A est
facilement vérifiable.
Définition 1.14. On définit la classe NP comme l’ensemble des langages A tels qu’il
existe un polynôme p et un langage B ∈ P où
x ∈ A ⇔ ∃y ∈ {0, 1}
p(|x|)
,(x, y) ∈ B.
Le succès de la classe NP vient du fait que de nombreux langages ont été prouvés
NP-complets (comprendre, au moins aussi difficiles que tous les autres de cette
classe). Le livre référence sur le sujet est [34]. On conjecture que les deux classes
précédentes sont distinctes, i.e. que les problèmes NP-complets n’ont pas d’algorithme
de complexité polynomiale, mais cette question reste toujours ouverte. Cette
conjecture figure dans la liste des sept problèmes du millénaire rédigée par l’Institut
de mathématiques Clay.
Conjecture 1.15. Les classes P et NP sont distinctes.
3.2 Classes VP, VNP
Nous sommes en mesure de définir les classes de complexité du modèle de Valiant
[99, 100]. Puisqu’on veut mesurer la complexité comme une fonction de la
taille des entrées, on considérera en fait des suites infinies de polynômes comme
(Detn)n∈N. Ces suites de polynômes (Pn) seront calculées par des suites de ciruits
Cn si et seulement si pour tout n, le circuit Cn calcule le polynôme Pn. Au début,
nous considérerons bien ces suites de polynômes, mais rapidement, par abus de notation,
nous identifierons ces suites aux polynômes : ainsi, par exemple, on parlera
du polynôme Detn pour parler de la suite (Detn)n∈N.
Comme dans le modèle booléen, nous aurons besoin d’une notion de réduction.
Définition 1.16. Un polynôme f est une projection d’un polynôme g si k ≤ l et si
f(X1, . . . , Xk) = g(Y1, . . . , Yl)
où les Yi sont soit des variables Xi
, soit des constantes de A.
La suite de polynômes (fn) est une projection polynomiale de la suite de polynômes
(gn) s’il existe un polynôme p tel que pour tout n, le polynôme fn soit une
projection du polynôme gp(n)
.
Les définitions des classes VP et VNP sont basées sur celles des classes booléennes
P et NP (le V rajouté est pour Valiant). Intuitivement, nous voulons définir VP
comme l’ensemble des suites de polynômes calculables par des circuits de taille
163. CLASSES DE VALIANT
polynomiale. On va en fait rajouter une autre contrainte sur VP : nous voulons que
le degré des polynômes de cette classe soit aussi polynomialement borné. Pourquoi
rajouter une telle contrainte ? L’idée derrière est encore que l’on souhaite que VP
ressemble à P. Les fonctions calculables polynomialement par une machine de Turing
sont telles que la taille de leur sortie est polynomialement bornée par la taille de
leur entrée. Ce n’est pas le cas des polynômes de degré exponentiel. Cependant dans
le modèle des circuits, la multiplication et l’addition coûtent toujours un temps
constant, quelque soit la taille des entrées. En particulier, il est possible de calculer
des polynômes de degré exponentiel par des circuits de taille polynomiale, comme
le montre le circuit suivant de taille n :
X
×
.
.
.
×
n portes Circuit calculant
le polynôme X2
n−1
.
Commençons par la définition de la classe VP.
Définition 1.17. Soit A un anneau commutatif. La suite Cn de polynômes (fn) est
dans VPA s’il existe des polynômes p, q et r et une suite de circuits arithmétiques
sur A de portes {+, ×} tels que pour tout n, les propriétés suivantes sont avérées :
— le nombre de variables de fn est borné par p(n),
— le degré de fn est borné par q(n),
— le circuit Cn calcule fn
— et la taille de Cn est bornée par r(n).
Suivant la tradition, on pose VP = VPQ.
Considérons par exemple la famille (Detn). Le nombre de variables ainsi que le
degré de ces circuits est polynomialement borné. La méthode du pivot fournit directement
un circuit de portes {+, ×, −, ÷} de taille O(n
3
). D’après la remarque 1.1 et
le lemme 1.6, il existe un circuit arithmétique de portes {+, ×} de taille O(n
5
). En
particulier, (Detn) ∈ VP.
Un autre exemple de polynôme est le produit itéré de matrices IMMn,n. Comme
le produit de deux matrices se fait directement en utilisant O(n
3
) opérations, il est
facile de vérifier que IMMn,n ∈ VP.
La classe VNP correspond alors à la classe NP. L’idée de la définition est de
partir de la définition par certificats de la classe booléenne NP et de remplacer le
“∃y ∈ {0, 1}
p(n)
” par une somme P
y∈{0,1}
p(n) .
Définition 1.18. Soit A un anneau commutatif. La suite de polynômes (gn) est dans
VNPA s’il existe une suite de polynômes (hn) ∈ VPA et un polynôme p tels que
gn(x) = X
ε∈{0,1}
p(n)
hn(x, ε)
17CHAPITRE 1. PRÉLIMINAIRES
De même on note VNP la classe VNPQ.
Les suites de polynômes (Permn) et (Hamn), définies à la section 1 sont des
exemples d’éléments de la classe VNP (une preuve pourra être trouvée par exemple
dans [19]) :
Lemme 1.19. Pour tout anneau A, on a (Permn), (Hamn) ∈ VNPA.
En fait, il est possible de se passer, a priori, de la borne sur le degré des polynômes
fn en considérant que la “mesure” du circuit correspond à son nombre de
sommets combiné à son degré formel. Ceci évite a posteriori les polynômes de degré
exponentiel. Le prochain lemme (folklore) assure que l’on obtient les mêmes classes
en contraignant le degré formel des circuits au lieu du degré des polynômes.
Lemme 1.20. Si une suite de polynômes (fn) de degré (dn) est dans VP, alors il
existe une suite de circuits (Cn) calculant fn de taille polynomiale telle que le degré
de Cn est dn pour tout n.
3.3 Classes sans constantes
L’importance du rôle des constantes est une question intéressante. Par exemple
remarquons que pour calculer le produit itéré de matrices, aucune constante n’est utilisée.
Pour mette en évidence leur rôle, Malod introduit des variantes sans constantes
VP0
et VNP0
des classes de Valiant [71]. Par “sans constantes”, nous voulons en fait
dire utilisant seulement la constante −1. Les constantes 0 et 1 s’obtiennent facilement
à l’aide de −1 et vu que nous n’autorisons pas la soustraction, nous avons
besoin d’une constante strictement négative.
Ainsi, si un circuit a besoin d’une constante non triviale, il doit la calculer à partir
de −1. En particulier, la notion de degré formel (qui ignore le calcul des constantes)
devient alors un peu bancal. Malod [71] introduit ainsi le degré formel complet :
Définition 1.21. Le degré formel complet d’un circuit est défini par induction : les
constantes et les variables sont de degré 1 ; pour une porte d’addition on prend le
sup des degrés arrivant et pour une porte de multiplication, on en prend la somme.
Nous pouvons maintenant définir les classes VP0
et VNP0
.
Définition 1.22. fn est dans VP0
s’il existe une suite de circuits arithmétiques
— calculant fn,
— utilisant comme seule constante −1
— et de taille et de degré formel complet polynomiaux.
gn est dans VNP0
s’il existe un polynôme p tel que :
gn(x) = X
ε∈{0,1}
p(n)
hn(x, ε)
avec hn ∈ VP0
.
En fait les polynômes considérés précédemment ne nécessitent pas de constantes.
En particulier :
Detn ∈ VP0
et Permn, Hamn ∈ VNP0
.
183. CLASSES DE VALIANT
La réduction définie précédemment (la projection polynomiale) utilise les constantes
de l’anneau courant. Les classes VP0
et VNP0
ne sont donc pas stables pour cette
réduction. Nous sommes alors amenés à considérer une variante sans constante de
cette réduction [71].
Définition 1.23. Une suite de polynômes (fn) est une projection bornée d’une suite
(gn) s’il existe deux polynômes p et q tels que pour tout n :
fn(X1, . . . , Xk) = gn(Y1, . . . , Yl)
où les Yi sont soit des variables Xi
, soit des constantes calculables par des circuits
de taille et degré formel bornés par q(n) utilisant seulement la constante −1.
Une autre mesure classique quantifie la complexité des circuits sans constantes.
Il s’agit de la mesure τ introduite dans [27].
Définition 1.24. La complexité τ (f) d’un polynôme f entier (i.e. de Z[X1, . . . , Xn])
est défini comme la taille minimale d’un circuit calculant f, de portes {+, −, ×} et
utilisant seulement la constante 1.
Remarquons que la définition (traditionnelle) donnée ici ne correspond pas exactement
aux conventions actuelles. On utilise ici la constante 1, mais on autorise la
porte de soustraction. Cette mesure est en particulier restée célèbre grâce à la τ -
conjecture introduite par Shub et Smale [92]. On reviendra plus en détail sur cette
conjecture au chapitre 3.
3.4 Polynômes complets
Le problème est alors de trouver pour chaque polynôme la plus petite classe qui
la contient. Comme dans le cas booléen, les bornes inférieures non conditionnelles
sont généralement inconnues, mais on peut encore obtenir des “preuves de difficulté”
grâce à la notion de complétude.
Définition 1.25. Une suite de polynômes (fn) est VNP-complète si et seulement si
la suite (fn) fait partie de la classe VNP et pour toute suite (gn) de VNP, gn est une
projection polynomiale de fn.
On peut de même obtenir une définition de VNP0
-complétude en utilisant la classe
VNP0
au lieu de VNP et en n’autorisant que les projections polynomiales bornées.
En particulier, bien qu’on ne soit pas capable de montrer qu’un polynôme f ∈
VNP n’est pas dans VP, il est possible pour un certain nombre de polynômes, de
prouver qu’ils sont VNP-complets et donc, non supposés être dans VP. Si tel était
le cas, VNP = VP.
Valiant a montré [99] que sur tout corps K de caractéristique différente de 2, le
permanent est VNP-complet.
Théorème 1.26. Soit K un corps de caractéristique différente de 2. Alors la famille
Permn est VNP-complète.
19CHAPITRE 1. PRÉLIMINAIRES
On remarque qu’en caractéristique 2, le permanent correspond exactement au
déterminant, il tombe donc dans la classe VPK.
Plus précisément, la preuve du théorème précédent nécessite la constante 2
−1
.
Ceci explique l’hypothèse du corps de caractéristique différente de 2. L’intérêt des
classes sans constantes est justement de mettre en évidence le rôle particulier que
certaines constantes peuvent avoir. En particulier la proposition suivante généralise
le théorème 1.26 et vient de [62]. Intuitivement, il signifie que le permanent
appartient à la classe VNP0
et est presque complet pour cette classe.
Proposition 1.27. Supposons que Permn ∈ VP0
. Alors, pour toute famille (fn)
dans VNP0
, il existe un polynôme p(n) tel que la famille
2
p(n)
fn
soit dans VP0
.
Le permanent étant probablement le polynôme complet pour VNP le plus étudié,
nous suivrons la tradition dans ce manuscrit et nous l’utiliserons systématiquement
comme polynôme complet pour VNP. Toutefois, il est possible d’éviter les difficultés
provoquées par la constante 2
−1
en choisissant un autre polynôme VNP-complet
comme le hamiltonien (défini en section 1.3).
Théorème 1.28. Dans tout anneau A, le polynôme Hamn est VNP0
-complet et donc
aussi VNPA-complet.
La grande conjecture classique du domaine est que les classes VP et VNP sont
distinctes :
Conjecture 1.29 (Hypothèse de Valiant). VP 6= VNP.
La complétude du permanent assure que cette conjecture est équivalente au fait
que le permanent n’appartient pas à la classe VP, i.e. ne possède pas de circuit
arithmétique de taille polynomiale.
Les implications sont moins simples dans le cas sans constantes. En fait, si VP0 =
VNP0
alors on a Permn ∈ VP0
et si Permn ∈ VP0
alors τ (Permn) = n
O(1), mais les
réciproques ne sont pas connues. Pour la première réciproque, nous avons déjà vu que
le permanent n’est que “presque complet” pour VNP0
. Le second cas est plus subtil.
Si τ (Permn) = n
O(1), il est possible que le circuit utilise des portes de très grand
degré formel complet pour calculer des constantes. Cependant, l’astuce classique
d’homogénéisation ne semble pas être efficace contre le calcul des constantes.
Toutefois si τ (Permn) = n
O(1), alors le permanent admet une suite de circuit de
taille polynomiale et ainsi VP = VNP.
La figure suivante (directement inspirée de l’article de Bürgisser [21]) tente de
résumer les différentes implications connues.
VP0
6= VNP0
Permn ∈/ VP0
τ (Permn) = n
ω(1)
VPQ 6= VNPQ
⇔ Permn ∈/ VPQ
20Chapitre 2
Circuits de profondeur bornée
Valiant, Skyum, Berkowitz et Rackoff [101] ont prouvé que si un circuit de taille s
et de profondeur p calcule un polynôme de degré d, alors ce polynôme peut aussi être
calculé par un circuit de profondeur O(log(d)) et de taille bornée par un polynôme en
s. Ce résultat est essentiellement à la base de toutes les avancées sur la parallélisation
des circuits arithmétiques. Quelques années plus tard, Miller, Ramachandran et
Kaltofen [73] puis Allender, Jiao, Mahajan et Vinay [6] ont étudié la complexité de
cette méthode de parallélisation. À l’aide de ces résultats, Agrawal et Vinay [4] ont
prouvé que si un polynôme f n-varié de degré d = O(n) possède un circuit de taille
2
o(d+d log(n/d)), alors f peut aussi être calculé par un circuit de profondeur quatre
(
P QP Q) de taille 2
o(d+d log(n/d)). Ce résultat indique que pour prouver des bornes
inférieures dans les circuits arithmétiques ou pour dérandomiser le test d’identité
polynomial, le cas des circuits de profondeur quatre est dans un certain sens le cas
général.
L’hypothèse du résultat d’Agrawal et Vinay est assez faible : ils considèrent des
circuits de taille 2
o(d+d log(n/d)) (nous pouvons remarquer au passage que tous les
polynômes ont une formule de taille d
n+d
d
= 2O(d log( n+d
d
))). Mais, serait-il possible
d’obtenir une conclusion plus forte si on demandait des hypothèses plus fortes ?
Koiran [60] a montré que c’était effectivement le cas. Si le circuit de départ est de
taille s, alors le polynôme peut être calculé par un circuit de profondeur quatre de
taille 2
O(
√
d log(d) log(s)). Par exemple, si la famille du permanent est calculée par des
circuits de taille polynomiale (i.e. de taille n
c
), alors elle est aussi calculée par des
circuits de profondeur quatre et de taille 2
O(
√
n log2
(n)). De plus, la transformation
conserve l’homogénéité du circuit. La parallélisation semble être un outil intéressant
pour obtenir des bornes inférieures pour les circuits généraux : une borne inférieure
en 2
ω(
√
n log2
(n)) sur la taille des circuits P Q[O(
√
n)] P Q[
√
n]
calculant le permanent
implique qu’il n’y a pas de circuits de taille polynomiale pour le permanent. Et il
paraît plus facile d’obtenir des bornes inférieures pour ces circuits particuliers que
pour les circuits généraux. C’est d’ailleurs le cas. Bien qu’aucune borne inférieure
superpolynomiale ne soit encore connue pour les circuits généraux, Gupta, Kamath,
Kayal et Saptharishi [44] ont obtenu une borne inférieure superpolynomiale pour le
permanent s’appliquant à des circuits de profondeur 4 particuliers. Plus précisément,
ils ont montré que si un circuit homogène P QP Q[t]
(i.e. un circuit de profondeur
4 dont le degré entrant des portes de multiplication du premier niveau est borné par
t) calcule le permanent d’une matrice de taille n × n, alors sa taille est 2
Ω(n/t)
. En
21CHAPITRE 2. PROFONDEUR BORNÉE
particulier, un circuit homogène P QP Q[
√
n]
calculant le permanent est de taille
2
Ω(√
n)
. L’année suivante, les mêmes auteurs [45] ont trouvé comment réduire encore
un peu la profondeur des circuits. Ils montrent comment transformer des circuits à
n variables de taille s et de profondeur d (= n
O(1)) en des circuits de profondeur
3 et de taille exp(O(
√
d log s log n log d)). De plus, si l’entrée est un programme à
branchements (et non un circuit), la borne supérieure devient exp(O(
√
d log s log n)).
Ce résultat implique l’existence d’un circuit de profondeur 3 et de taille 2
O(
√
n log n)
calculant le déterminant d’une matrice n×n. Toutefois, ce résultat n’est pas comparable
aux réductions à la profondeur 4 car le circuit de profondeur 3 obtenu est non
homogène, et utilise au milieu de son calcul des portes calculant des polynômes de
très haut degré. En 2013, Fournier, Limaye, Malod et Srinivasan [31] ont obtenu une
borne inférieure de 2
Ω(√
d/tlog n) pour la taille des circuits homogènes P QP Q[t]
calculant le produit itéré de matrices. Tous ses résultats récents sur les circuits
arithmétiques peuvent être trouvés dans l’article de synthèse [58].
Dans ce chapitre, nous allons commencer par étudier des bornes inférieures sur
la taille des circuits de profondeur bornée. Nous allons voir deux résultats intermé-
diaires sur les circuits de profondeur 4 et 3, avant d’évoquer les résultats récents relatifs
à la profondeur 4. Puis dans la section suivante, nous allons nous attaquer aux ré-
sultats de parallélisation (i.e. aux bornes supérieures). Nous [98] améliorons la borne
de parallélisation de Koiran : un circuit de taille s peut être parallélisé de manière
homogène à la profondeur 4 en un circuit de taille exp(O(
p
d log(ds) log(n))). De
plus, le degré entrant de chaque porte de multiplication est borné par O
q
d
log ds
log n
.
Remarquons que comme n ≤ s, le résultat implique la borne de Koiran et est en
général meilleur : dans le cas où d, s = n
Θ(1), la borne de Koiran est 2
O(
√
n log2 n)
tandis que la nouvelle borne est 2
O(
√
n log n)
. En particulier, la nouvelle borne est optimale
puisqu’elle correspond exactment à la borne inférieure obtenue par [31]. Cela
implique aussi qu’une borne inférieure en 2
ω(
√
n log(n)) pour les circuits homogènes de
profondeur 4 calculant le permanent induit une borne inférieure super-polynomiale
pour la taille des circuits généraux calculant le permanent. En fait, nous généralisons
cette réduction au cas d’une profondeur bornée. Enfin, nous étudierons le cas des
parallélisations non homogènes introduites par Gupta, Kamath, Kayal et Saptharishi
[45]. Comme ils utilisent dans leur preuve la borne de Koiran, nous pourrons
légèrement améliorer leur borne en utilisant à la place la borne décrite plus haut.
Un circuit n-varié de taille s et de profondeur d peut être simulé par un circuit de
profondeur 3 et de taille exp
O(
p
d log(ds) log n)
. Enfin, nous remarquons que
cette parallélisation peut elle aussi être généralisée aux profondeurs constantes, ce
qui nous donnera, en particulier, le résultat intéressant que les circuits de taille s
et de degré d peuvent en fait être simulés par des circuits de profondeur 4 et de
taille (ds)
√3
d
. Cette borne est bien en-dessous des bornes inférieures connues pour
les circuits n’utilisant que des petits degrés. Cela montre bien que l’utilisation de
portes intermédiaires de très haut degré s’avère très puissante. Aujourd’hui, on ne
sait pas comment obtenir des bornes inférieures non triviales pour de tels circuits.
221. LES FORMULES DE RYSER, GLYNN ET FISCHER
1 Les formules de Ryser, Glynn et Fischer
Les travaux autour de l’hypothèse de Valiant tendent à essayer de montrer que
le permanent est difficile à calculer. Mais qu’est ce que cela veut dire plus précisé-
ment ? On entend parfois que le calcul du permanent devrait nécessiter un nombre
exponentiel d’opérations arithmétiques. Ce n’est pas encore un énoncé très précis.
Souvent (vu que le terme est suffisamment vague, c’est loin d’être toujours vrai),
on utilise le terme exponentiel pour désigner une fonction f(n) = 2θ(n
c
) pour une
constante c ≥ 1 (si c est une constante strictement inférieur à 1, on préfère habituellement
le terme sous-exponentiel). Ensuite, il pourrait être tentant (et naturel)
de paramétriser les polynômes par leur nombre de variables. Le polynôme Permn
est un polynôme en n
2 variables. La conjecture émise plus haut pourrait être décrite
plus formellement :
Conjecture (Première conjecture sur la complexité du permanent). Si Cn est une
suite de circuits de taille sn calculant Permn, alors
sn = 2Ω(n
2
)
.
Cependant, cette conjecture est trivialement fausse puisque le polynôme Permn
est une somme de (n!) monômes. Il peut être calculé par une suite de circuits de
taille n × (n!). En fait une meilleure borne existe depuis 1963 et les travaux de
Ryser [88]. Il trouva une formule simple, de taille n
22
n pour le permanent d’une
matrice A = (Ai,j )1≤i,j≤n :
Proposition 2.1 (Formule de Ryser).
Permn(A) = (−1)n X
S⊆{1,...,n}
(−1)|S|Yn
i=1
X
j∈S
ai,j .
On peut donc émettre une nouvelle conjecture. Celle-ci est encore ouverte :
Conjecture 2.2 (Conjecture sur la complexité du permanent). Si Cn est une suite
de circuits de taille sn calculant Permn, alors
sn = 2Ω(n)
.
La formule de Ryser est assez étonnante car malgré sa grande simplicité, homogène
et de profondeur 3, elle est une des formules connues les plus efficaces pour
calculer le permanent. Une autre formule, devenue classique, mais trouvée beaucoup
plus récemment par Glynn [36] possède ces mêmes propriétés :
Proposition 2.3 (Formule de Glynn).
Permn(A) = 1
2
n−1
X
ε2,...,εn∈{±1}
(−1)p(ε)Yn
i=1
ai,1 +
Xn
j=2
εjai,j!
où p(ε) = |{i | εi = −1}|.
P
Ces formules assurent que le permanent peut être calculé par des circuits de type
[2n] Q[n] P[n]
. Ce résultat est d’autant plus surprenant que le même résultat est
inconnu et plutôt conjecturé faux pour le déterminant :
23CHAPITRE 2. PROFONDEUR BORNÉE
Conjecture 2.4. Detn n’a pas de circuits de type P[2O(n)
] Q[n] P.
La formule de Glynn ressemble particulièrement à une formule plus vieille d’une
quinzaine d’années, la formule de Fischer [30] :
Lemme 2.5 (Formule de Fisher).
n! · x1x2 . . . xn =
1
2
n−1
X
r2,...,rn∈{±1}
(−1)p(r)
x1 +
Xn
i=2
rixi
!n
où p(r) = |{i | ri = −1}||.
Dans [86], les auteurs montrent que la taille de la somme (en 2
n−1
) est exactement
la taille optimale pour transformer des monômes en sommes de puissances de formes
lineaires.
En fait, comme Amir Shpilka me l’a fait remarquer lors d’une discussion, il est
facile d’obtenir la formule de Fischer à partir de celle de Glynn. Il suffit pour cela
de calculer le permanent de la matrice
x1 x2 . . . xn
.
.
.
.
.
.
.
.
.
.
.
.
x1 x2 . . . xn
qui vaut n! · x1 . . . xn.
Ainsi, on se dit que la même astuce devrait marcher en utilisant la vraie formule
de Ryser. On obtient effectivement une nouvelle formule du type de celle de Fischer :
Proposition 2.6.
n! · x1x2 . . . xn = (−1)n X
S⊆{1,...,n}
(−1)|S|
X
j∈S
xj
!n
.
2 Quelques bornes inférieures
2.1 Comptage de monômes
Nous allons commencer cette section par une borne inférieure très simple mais
relativement précise. On va montrer :
Proposition 2.7. Si une suite de circuits P[s] Q[a] P[v] Q
calcule Permn ou Detn,
alors s · v
a ≥ n!.
En particulier, si une suite de circuits P[s] Q[O(
√
n)] P[s] Q
calcule Permn ou
Detn, alors s ≥ 2
Ω(√
n log n)
.
Les bornes supérieures en a et v sur les degrés entrants des portes de multiplication
du troisième niveau et les portes d’addition du second niveau s’avérent
être cruciales. Une telle contrainte impliquera directement en général une bonne
borne inférieure seulement grâce à un argument de comptage de monômes. On peut
comparer ainsi ce résultat avec la proposition 2.10 plus loin.
242. QUELQUES BORNES INFÉRIEURES
Nous ferons la preuve dans le cas du permanent. Le cas du déterminant est complètement
identique. L’approche ici, est de transformer un tel circuit en un circuit
de profondeur 2, puis d’obtenir une borne inférieure pour le circuit de profondeur
2. En fait, dans le cas des circuits de profondeur 2, l’écriture d’un polynôme comme
une somme de produits est unique (une fois qu’on a effectué toutes les annulations
possibles). Il s’agit de la forme développée du polynôme. La taille de la somme est
alors simplement le nombre de monômes. Vu que Permn a n! monômes, on vient de
prouver
Lemme 2.8. Si un circuit P[s] Q
calcule Permn, alors s ≥ n!.
D’un autre côté, pour calculer dans un circuit P[s] Q[a] P[v] Q
une porte du
troisième niveau, il suffit de calculer un polynôme Q[a] P[v]
qui a pour entrées les
portes du premier niveau. En appellant V l’ensemble de ces entrées, les polynômes
du troisième niveau sont donc de la forme g =
Qa
i=1
Pv
j=1 zi,j avec zi,j ∈ V . Or si on
développe g, on obtient g =
P
(j1,...,ja)∈{1,...,v}
a z1,j1
. . . za,ja
. Donc on peut transformer
tout circuit P[s] Q[a] P[v] Q
en un circuit P[s] P[v
a] Q[a] Q
, c’est-à-dire un circuit
P[sva] Q
. Ceci prouve la proposition 2.7.
2.2 Quasi-optimalité des formules de Ryser et de Glynn
Dans toute la suite de cette section sur les bornes inférieures, nous utiliserons
la dimension des espaces vectoriels engendrés par certaines familles de polynômes.
Donc l’anneau de base des polynômes sera en fait un corps.
Pour obtenir des bornes inférieures, un des outils principaux est l’espace engendré
par les dérivées partielles. Nisan et Wigderson [76] ont trouvé des bornes
inférieures pour la taille des circuits homogènes de profondeur 3 calculant les polynômes
symétriques élémentaires ou le produit itéré de matrices. Ces techniques
sont développées dans les articles de synthèse [91] et [23]. Depuis 2012, cet outil est
au cœur des travaux relatifs aux bornes inférieures pour les circuits arithmétiques
homogènes de profondeur 4. Pour ce dernier point, on y reviendra un peu plus tard.
Un autre résultat, très proche de ceux de Nisan et Wigderson [76], peut être
obtenu à l’aide de ces techniques : montrer que les formules de Ryser et de Glynn
sont “presque optimales”. Après quelques discussions, ce résultat – qui découle de [76]
– semble connu de certaines personnes, mais à la connaissance de l’auteur, il n’est
écrit nulle part.
Proposition 2.9. Soit Cn une suite de circuits de type P[s] Q[n] P calculant Permn
(ou Detn), alors
s ≥
n
n/2
≥
2
n
√
2n
.
Pour les formules de Ryser et de Glynn, s vaut respectivement 2
n − 1 et 2
n−1
.
Les résultats sont donc optimaux à un facteur multiplicatif près de √
1
n
. Nous allons
donner maintenant une preuve de cette proposition. D’ailleurs, cette preuve illustre
bien l’utilisation typique des dérivées partielles.
25CHAPITRE 2. PROFONDEUR BORNÉE
Démonstration. Soit k un entier que l’on fixera plus tard. Posons X = {xi,j | 1 ≤
i, j ≤ n} l’ensemble des variables de Permn. Nous allons considérer l’espace vectoriel
engendré par les dérivées partielles kièmes du polynôme Permn. Notons h∂
=k
fi
l’espace vectoriel engendré par l’ensemble
∂
k
∂y1 . . . ∂yk
f | (y1, . . . , yk) ∈ X
k
.
La preuve se fait en deux parties. Nous allons commencer par borner inférieurement
la dimension de h∂
=kPermni, puis nous allons borner supérieurement la
dimension de tout espace h∂
=k
gi où g est un polynôme calculé par un circuit
P[s] Q[n] P.
Définissons les p-mineurs (mineurs permanentaux) de taille s × s d’une matrice
M de taille n×n comme les permanents de N où N parcourt les sous-matrices de M
obtenues en supprimant (n−s) lignes et (n−s) colonnes. Si k < n, alors les dérivées
partielles d’ordre k de Permn sont soit le polynôme nul (si on dérive deux fois dans
la même ligne ou la même colonne), soit les p-mineurs de tailles (n − k) × (n − k).
Il est facile de vérifier que chacun de ces p-mineurs de taille (n − k) × (n − k) peut
être obtenu comme une dérivée kième de Permn. De plus comme un même monôme
ne peut pas apparaître dans deux p-mineurs différents, cela signifie que la famille
des p-mineurs est une famille libre. La dimension de l’espace est donc exactement
le nombre de p-mineurs distincts. Vu qu’un p-mineur de taille (n − k) × (n − k) est
obtenu de manière unique en choisissant k lignes et k colonnes, on obtient :
dim(h∂
=kPermni) =
n
k
2
.
De l’autre côté, si g est un polynôme de degré n pouvant être exprimé de la
forme P[s] Q[n] P, alors g(x) = Ps
i=1 hi(x) où chaque hi est un produit de n formes
linéaires. De plus, notre mesure de complexité (la dimension des sous-espaces engendrés
par le dérivées partielles) est une mesure sous-additive. En effet, comme
∂g =
Pt
i=1 ∂hi
, on a
h∂
=k
gi ⊆ ev [s
i=1
h∂
=k
hii
!
où ev(A) correspond à l’espace engendré par A. D’où
dim
h∂
=k
i
≤ s · max
h
dim
h∂
=k
hi
où h parcourt les produits de taille n de formes linéaires. Posons h = l1 . . . ln avec les
li des formes linéaires. Toute dérivée kième de h est engendrée par des polynômes
li1
. . . lin−k
(où 1 ≤ i1 < . . . < in−k ≤ n). Cette famille est de taille
n
k
. D’où
dimh∂
=k
gi ≤ s
n
k
.
P
En remettant tout ensemble, on en déduit que si Permn peut être écrit comme
[s] Q[n] P, alors
n
k
2
≤ s
n
k
.
En choisissant k =
n
2
, on en déduit la proposition.
262. QUELQUES BORNES INFÉRIEURES
2.3 Quelques résultats récents de bornes inférieures
Avant d’attaquer, dans la prochaine partie, les bornes supérieures pour les circuits
de profondeur bornée, nous allons juste évoquer les bornes inférieures connues qui
vont leur faire écho.
La technique des dérivées partielles a été vraiment remise au goût du jour depuis
l’article de Gupta, Kamath, Kayal et Saptharishi [44]. Ils considèrent en fait l’espace
engendré par les dérivées partielles décalées :
h∂
=k
fi≤l =
x1 . . . xl
∂
k
∂y1 . . . ∂yk
f | (x1, . . . , xl
, y1, . . . , yk) ∈ X
k+l
.
Dans leur article, ils prouvent que :
Proposition 2.10. Tout circuit homgène P[s] QP Q[t]
qui calcule Detn (ou Permn)
doit être tel que
s ≥ 2
Ω( n
t
)
.
En particulier, tout circuit homogène P[s] QP Q[
√
n]
qui calcule Detn (ou Permn)
est tel que
s ≥ 2
Ω(√
n)
.
Le résultat fut d’autant bien accueilli que c’est la première borne inférieure superpolynomiale
pour les circuits de profondeur 4. De plus, on verra dans la prochaine
section que ce résultat est presque optimal, on peut donner une borne supérieure en
n
√
d
(où d est le degré du polynôme). La technique a alors été adaptée à d’autres
familles de polynômes. Peu après, Kayal, Saha et Saptharishi obtinrent la borne
inférieure n
√
d pour les polynômes de Nisan-Wigderson définis dans [57].
Définition 2.11. Soient n une puissance de 2 et Fn le corps fini où les n éléments
sont identifiés avec l’ensemble {1, . . . , n}. Pour tout 0 ≤ k ≤ n, le polynôme NWk
est un polynôme à n
2
inconnues de degré n défini comme suit :
NWk(x1,1, . . . , xn,n) = X
p∈Fn[t]
deg(p) 0 suffisamment petit, alors
s ≥ 2
Ω(√
n log(n))
.
27CHAPITRE 2. PROFONDEUR BORNÉE
Cette famille de polynôme fait partie de la classe VNP. Toutefois, une borne
inférieure similaire (en n
√
d
) a été trouvée pour le produit itéré de matrices. Fournier,
Limaye, Malod et Srinivasan [31] ont montré que :
Proposition 2.13. Si un circuit P[s] Q[O(D)] P Q[
√
d]
calcule le polynôme IMMn,d,
alors
s ≥ 2
Ω(√
d log(n/D))
.
Les techniques de preuve pour cette proposition ainsi que pour la proposition 2.12
ont été unifiés dans l’article [24].
Nous finirons cette présentation de l’état de l’art sur les bornes inférieures par
deux résultats tout récents. Jusqu’à présent, toutes les bornes inférieures requièrent
des bornes supérieures sur le degré entrant de certaines portes de multiplication.
Peut-on s’affranchir de telles contraintes ? On verra à la section 4 que si on s’autorise
à ce que les portes intermédiaires calculent des polynômes de très hauts degrés, alors
les bornes en n
√
d ne marchent plus du tout. Toutefois, une contrainte intermédiaire,
naturelle, pourrait être que le circuit soit homogène, sans donner de conditions
supplémentaires sur les degrés. On peut remarquer qu’une telle contrainte implique
en particulier que les portes ne calculent pas des polynômes de degré strictement plus
grand que d. Des bornes inférieures superpolynomiales ont été trouvées par Kumar
et Saraf [67], puis indépendamment par Kayal, Limaye, Saha et Srinivasan [56].
Ainsi,
Proposition 2.14. Soit Cn une famille de circuits homogènes P[s] QP Q.
— Si Cn calcule NWd
r alors s ≥ 2
Ω(√
d log d)
.
— Si Cn calcule IMMn,d avec d = Ω(log2 n), alors s ≥ n
Ω(log n)
.
— Si Cn calcule Detn, alors s ≥ n
Ω(log n)
.
3 Bornes supérieures pour circuits homogènes
Comme on l’a mentionné précédemment, il existe une borne supérieure sur la
taille des circuits de profondeur 4 calculant des polynômes de VP en n
√
d où d est
le degré. Nous allons en fait montrer un résultat un peu plus général qui traite
toutes les profondeurs constantes paires. L’idée étant que les circuits de profondeur
6 nous permettront par exemple d’obtenir une borne supérieure pour les circuits non
homogènes de profondeur 4 dans la prochaine section.
On rappelle (Remarque 1.4) que si rien n’est mentionné l’arité des portes + et
× est deux.
Théorème 2.15. Soient p un entier supérieur à 2 et f un polynôme à n variables
calculé par un circuit de taille
P Q
s et de degré d. Alors f est calculé par C, un circuit
[O(α)]
· · ·P Q[O(α)] P Q[β]
de profondeur 2p et de taille 2
O(d
1/p log(p−1)/p(ds) log1/p n)
où :
α =
d
log n
log ds1
p
et β = d
1
p
log ds
log n
p−1
p
.
De plus, si f est homogène, ce sera aussi le cas pour C.
283. BORNES SUPÉRIEURES POUR CIRCUITS HOMOGÈNES
Nous donnerons une preuve de cette parallélisation un peu plus loin, à la soussection
3.3.
Le cas de la profondeur 4 est largement le plus étudié de nos jours. Le théorème
précédent donne alors :
Théorème 2.16. Soit f un circuit à n variables calculé par un circuit de taille s et
de degré d. Alors f est calculé par un circuit P Q[O(α)] P Q[β]
de taille 2
O(
√
d log(ds) log n)
où :
α =
s
d
log n
log ds et β =
s
d
log ds
log n
.
De plus si f est homogène ce sera aussi le cas pour le nouveau circuit.
D’ailleurs le théorème précédent peut être directement appliqué dans le cas du
permanent.
Théorème 2.17. Si le permanent n × n est calculé par un circuit de taille polynomiale
en n, alors il est aussi calculé par un circuit homogène P Q[O(
√
n)] P Q[O(
√
n)]
de taille 2
O(
√
n log(n))
.
3.1 Propositions sur les circuits arithmétiques
Pour prouver le théorème 2.15, nous aurons besoin de quelques résultats préalables.
Le résultat suivant est considéré comme du folklore. Toutefois on peut trouver
une preuve dans le livre de Bürgisser [19] (Lemma 2.14).
Proposition 2.18. Si f est un polynôme de degré d calculé par un circuit C de
portes {+, ×} de taille s tel que le degré entrant des portes × est borné par 2 (on
ne met pas de borne sur celui des portes +), alors il existe un circuit C˜ de taille
s(d + 1)2 avec d + 1 sorties O0, O1, . . . , Od tel que :
— le degré entrant des portes + n’est pas borné,
— le degré entrant de chaque porte × est borné par 2,
— pour tout i, la porte Oi calcule la composante homogène de f de degré i,
— C˜ est homogène.
On rappelle le lemme 1.9 montré au chapitre 1.
Lemme (Rappel du lemme 1.9). Dans un circuit homogène, toutes les portes calculent
des polynômes homogènes. De plus le degré de la porte correspond au degré
du polynôme homogène calculé par la porte.
Enfin, nous avons déjà mentionné le fait que les preuves de parallélisation sont
presque toujous basées sur la réduction de Valiant, Skyum, Berkowitz et Rackoff [101].
Celle-ci ne déroge pas à la règle. Toutefois, nous aurons besoin d’un résultat légèrement
plus fort. En effet leur résultat est complètement global : leur circuit d’arrivée
est de profondeur O(log d). Nous aurons besoin ici, d’un résultat local sur le comportement
de chacune des portes de multiplication.
29CHAPITRE 2. PROFONDEUR BORNÉE
Définition 2.19. Un circuit C de portes {×, +, } sera dit équilibré pour les portes
× si et seulement si toutes les propriétés suivantes sont vérifiées :
— le degré entrant de chaque porte × est au plus 5,
— le degré entrant de chaque porte + est non borné,
— le degré entrant de chaque porte est au plus 2,
— pour chaque porte × (appelée α), chacune de ses entrées est de degré au
plus la moitié du degré de α,
— le degré de chaque porte égale le degré du polynôme calculé par la porte
(obtenu grâce au lemme 1.9).
La dernière condition ne peut pas être vraie pour la multiplication par un scalaire.
C’est la raison pour laquelle nous avons introduit l’opérateur .
La proposition suivante a été trouvée par Agrawal et Vinay [4]. Elle généralise
légèrement le célèbre résultat de Valiant, Skyum, Berkowitz et Rackoff [101] en
rajoutant une contrainte sur toutes les portes ×.
Proposition 2.20. Soit f un polynôme homogène de degré d calculé par un circuit
C˜ de taille s et défini comme dans la conclusion de la proposition 2.18. Alors f
est calculé par un circuit {×, +, } homogène équilibré pour les portes ×, de taille
s
6 + s
4 + 1 et de degré d.
Nous présentons une preuve de ce résultat à la sous-section 3.2 vu que l’énoncé
ci-dessus est légèrement différent de ceux que l’on peut trouver dans [4] ou dans [91]
(les constantes sont un peu améliorées). En particulier, le circuit obtenu vérifie le
résultat classique de VSBR.
Corollaire 2.21 (VSBR). Soit f un polynôme de degré d calculé par un circuit de
taille s. Alors f est calculé par un circuit {+, ×} de taille (sd)
O(1) et de profondeur
O(log(d)) où chaque porte × est de degré entrant 2 et où le degré entrant des portes
+ n’est pas borné.
3.2 Réduction à la VSBR
Nous allons prouver ici la proposition 2.20.
Soit f un polynôme homogène calculé par un circuit C˜ de taille s tel que :
— le degré entrant de chaque porte + est non borné,
— le degré entrant de chaque porte × est borné par 2,
— C˜ est homogène.
Pour commencer, nous supprimons le “calcul de constantes” (cela signifie que
l’on peut supposer que toutes les portes de calculs calculent un polynôme de degré
non nul). Pour faire cela, il suffit de remplacer chaque porte calculant un polynôme
de degré 0 par une entrée étiquetée par la valeur constante de cette porte. Nous
pouvons remarquer que par homogénéité, les entrées constantes ne peuvent être
des arguments d’une porte +. De plus, pour chaque porte × dont une entrée est
une constante, nous remplaçons l’étiquette de cette porte par l’étiquette . Nous
remarquons que jusque là, nous n’avons pas augmenté la taille du circuit. Ensuite,
nous pouvons réordonner les entrées de chaque porte × et de façon que pour
chacune de ces portes, le degré de l’argument de droite soit plus grand que le degré
de l’autre argument. Après ces préparations, nous obtenons alors un circuit C1 de
taille au plus s.
303. BORNES SUPÉRIEURES POUR CIRCUITS HOMOGÈNES
Nous rappellons que la définition des arbres monomiaux (en anglais “parse tree”)
a été donnée dans l’introduction. Définissons maintenant un nouveau circuit C2 qui
satisfait aux critères de la proposition. Pour chaque paire de portes α et β dans
C1, nous définissons la porte (α; β) dans C2 comme suit (nous verrons dans la suite
comment les calculer) :
— Si β est une feuille, alors [(α; β)] équivaut à la somme des arbres monomiaux
enracinés en α tels que β apparaît dans le chemin le plus à droite (i.e., la
feuille du chemin le plus à droite correspond au sommet β).
— Si β n’est pas une feuille, alors [(α; β)] equivaut à la somme des arbres monomiaux
enracinés en α tels que la porte β apparaît dans le chemin le plus à
droite et tels que le sous-arbre au dessus de cette porte β la plus à droite est
supprimé. C’est comme si nous remplacions l’occurence la plus à droite de la
porte β par l’entrée 1 et que nous calculions [(α; β)] avec β = 1 une feuille.
Notons ici qu’il est facile de récupérer le polynôme calculé par la porte α :
[α] = X
Tα arbre monomial
valeur(Tα)
=
X
l feuille de C1
X
Tα arbre monomial tq la feuille
du chemin le plus à droite de Tα
est une copie de l
valeur(Tα)
=
X
l feuille de C1
[(α; l)].
Nous remarquons que le nombre d’arbres monomiaux peut être exponentiel mais
que la somme extérieure est toujours de taille polynomiale.
Montrons maintenant comment calculer les portes (α; β).
— Si β n’apparait pas dans un chemin le plus à droite d’un arbre monomial
enraciné en α, alors (α; β) = 0.
— Dans le cas où α = β, si α est une feuille, alors (α; β) = α et sinon (α; β) = 1.
— Autrement α et β sont deux portes différentes et α n’est pas une feuille. Si α
est une porte +, alors [(α; β)] est simplement la somme de tous les [(α
0
; β)],
où α
0
est un fils de α.
— Si α est une porte , alors un fils est une constante c et l’autre fils est
une porte α
0
. Alors, (α; β) est simplement l’opération multiplication par un
scalaire [(α; β)] = [(c; c)] [(α
0
; β)].
— Si α est une porte ×. Il y a deux cas.
— Premier cas : β est une feuille. Alors deg(α) > deg(β) et deg(β) ≤ 1.
Sur le chemin le plus à droite finissant en β de chaque arbre monomial
enraciné en α, il existe exactement une porte ×, que l’on notera γ, et son
fils droit sur ce chemin γr tels que :
deg(γ) > deg(α)/2 ≥ deg(γr). (2.1)
Remarquons que γ n’est unique que pour un arbre monomial fixé. Réciproquement,
on peut remarquer que pour chaque porte γ satisfaisant (2.1),
si [(α; γ)] et [(γr; β)] ne sont pas les polynômes nuls, alors γ est sur un
31CHAPITRE 2. PROFONDEUR BORNÉE
chemin le plus à droite allant de α vers β. Alors,
[(α; β)] = X
l feuille de C1,
γ porte × vérifiant (2.1)
[(α; γ)][(γl
; l)][(γr; β)].
Comme β est une feuille, deg(α; β) = deg(α). Utilisant (2.1) et le fait que
nous avons préalablement réordonné les entrées des portes de multiplication
de façon à ce que le degré des fils droits soit au moins aussi grand
que celui des fils gauches :
deg(α; γ) = deg(α) − deg(γ) < deg(α)/2
deg(γr; β) = deg(γr) ≤ deg(α)/2
deg(γl
; l) = deg(γl) ≤ deg(γr) ≤ deg(α)/2.
Par conséquent, [(α; β)] est calculé par un circuit de profondeur 2 de taille
au plus s
2 + 1 : une porte +, d’arité s
2
, où chaque fils est une porte × de
degré entrant 3. Chaque fils de ces portes × est de degré au plus la moitié
du degré de la porte ×.
— Second cas : β n’est pas une feuille. Alors il existe, sur le chemin le plus
à droite de chaque arbre monomial enraciné en α, une porte ×, dénoté γ,
et son fils sur ce chemin γr tels que :
deg(γ) ≥ (deg(α) + deg(β))/2 > deg(γr). (2.2)
De même par un argument similaire :
[(α; β)] = X
l feuille de C1
γ porte × vérifiant (2.2)
[(α; γ)][(γl
; l)][(γr; β)]. (2.3)
On utilise alors (2.2) :
deg(α; β) = deg(α) − deg(β)
deg(α; γ) = deg(α) − deg(γ) ≤(deg(α) − deg(β))/2
deg(γr; β) = deg(γr) − deg(β) <(deg(α) − deg(β))/2.
Le problème est ici que le degré de (γl
; l) pourrait être plus grand que
(deg(α) − deg(β))/2. La porte α est une porte × et son fils gauche est
de degré non constant (sinon α serait une porte ). Donc, deg(α; β) >
deg(γl
; l). Si γl est de degré au plus 1 (et donc exactement 1 car γ n’est pas
une porte ), alors (α; β) est de degré au moins 2. Le calcul de la porte
(α; β) par la formule (2.3) marche (i.e., le degré de (γl
; l) est plus petit
que la moitié du degré de (α; β)). Enfin sinon, le degré de γl est au moins
2 et au plus deg(α; β). Comme l est une feuille, nous pouvons appliquer
le premier cas à la porte γl (même si γl n’est pas une porte ×). Il existe
encore sur chaque chemin le plus à droite finissant en l et enracinés en γl
une porte ×, notée µ, et son fils µr sur ce chemin tels :
deg(µ) > deg(γl)/2 ≥ deg(µr). (2.4)
323. BORNES SUPÉRIEURES POUR CIRCUITS HOMOGÈNES
Alors,
[(γl
; l)] = X
l2 feuille de C1
µ porte × vérifiant (2.4)
[(γl
; µ)][(µl
; l2)][(µr; l)].
Ainsi,
[(α; β)] = X
l,l2,γ,µ
[(α; γ)][(γr; β)][(γl
; µ)][(µl
; l2)][(µr; l)] (2.5)
où la somme est prise sur toutes les feuilles l, l2 de C1, toutes les portes
×, notées γ, vérifiant (2.2) et toutes les portes ×, notées µ vérifiant (2.4).
Les degrés des portes (γl
; µ), (µl
; l2) et (µr; l1) sont bornés par la moitié
du degré de γl
. Donc, [(α; β)] est calculé par un circuit de profondeur 2
de taille s
4 + 1. Les portes × sont de degré entrant borné par 5 et le degré
de leurs enfants est borné par la moitié de leur degré.
En conclusion, pour chaque couple de portes α et β dans C1, la porte (α; β) est
calculée dans C2 par un sous-circuit de taille au plus s
4 + 1. À la fin, nous obtenons
un circuit de taille au plus s
6 + s
2 qui calcule toutes les portes (α; β). Finalement,
f est calculé par un circuit de taille s
6 + s
2 + 1.
Cela prouve la proposition.
3.3 Réduction à une profondeur bornée constante
Nous allons prouver ici le théorème 2.15.
Pour réaliser la réduction à la profondeur quatre, Koiran [60] commence par
transformer le circuit considéré en un programme à branchements équivalent. Ensuite,
il parallélise ce programme à branchements, et finalement revient à un circuit.
Le problème avec cette stratégie est que la transformation des circuits aux programmes
à branchements nécessite une augmentation de la taille de notre objet. Si
le circuit est de taille s, le nouveau programme à branchements sera de taille s
log(d)
.
L’approche, ici, est de directement paralléliser le circuit, et d’éviter ainsi l’augmentation
de la taille due au passage aux programmes à branchements.
L’idée de la preuve pour paralléliser un circuit à la profondeur 4 est de diviser
le circuit en deux parties : les portes de degré moins que √
d et les portes de degré
plus grand. Un circuit tel que le degré de chacune de ses portes est borné par √
d
calcule un polynôme de degré √
d et peut donc être écrit comme une somme d’au
plus s
O(
√
d) monômes. Ainsi, si chaque partie de notre circuit calcule des polynômes
de degré borné par √
d, il suffit d’obtenir les circuits de profondeur 2 pour chacune
des parties, et de les reconnecter ensemble. La principale difficulté vient du fait qu’il
n’est toujours vrai que le sous-circuit obtenu par les portes de degré plus grand que
√
d est de degré inférieur à √
d. Par exemple, dans le cas du graphe “peigne” avec
n − 1 portes × et n variables d’entrée :
x1 · (x2 · (x3 · (. . .)))
le degré de la première partie est √
n, alors que le degré de la seconde est n −
√
n.
En fait, nous montrerons que ce problème ne peut pas se présenter si on travaille
33CHAPITRE 2. PROFONDEUR BORNÉE
avec des circuits équilibrés pour les portes ×. Dans ce cas, les deux parties auront
un degré borné par √
d.
Bien que la profondeur quatre soit probablement le cas le plus important de notre
réduction, nous allons directement traiter un cas plus général, celui de la profondeur
2p.
Lemme 2.22. Soient p ≥ 2 un entier et f un polynôme homogène n-varié, de degré
d et calculé par un circuit de portes {×, +, } noté C, homogène, équilibré pour les
portes × et de taille σ.
Si d1, d2, . . . , dp sont p réels strictement positifs tels que d = d1d2 . . . dp, alors f
est calculé par un circuit de profondeur 2p de la forme
X
[15
Y X
dp] [15
Y
dp−1]
· · ·X
[15
Y X
d2]
Y
[d1]
homogène de taille σ + σ
n+d1
d1
+
σ+15dp
15dp
+ σ
Pp−1
i=2
σ+15di
15di
.
Pour obtenir des expressions plus agréables, nous utiliserons l’approximation suivante,
conséquence de la formule de Stirling : (On peut trouver une preuve dans [4])
Lemme 2.23.
k + l
l
= 2O(l+l log k
l )
Voyons pour commencer comment le lemme 2.22 implique le théorème 2.15.
Preuve du théorème 2.15. Soit f un polynôme n-varié de degré d calculé par un
circuit de taille s. Soit C˜ le circuit homogène obtenu alors pour le polynôme f
par la proposition 2.18. Le circuit C˜ est de taille t = s(d + 1)2
et calcule tous les
polynômes f0, . . . , fd où fi est la composante homogène de f de degré i. Ainsi, grâce
à la proposition 2.20, pour chaque i ≤ d, il existe un circuit C1 de portes {+, ×, }
équilibré pour les portes × de taille σ = t
6+t
4+1 calculant fi
. Utilisons maintenant le
lemme 2.22 pour le circuit C1 avec d1 = d
1/p log(p−1)/p σ
log(p−1)/p n
et d2 = . . . = dp = d
1/p log1/p n
log1/p σ
.
Ces valeurs satisfient bien que d1d2 . . . dp = d. Ainsi, le lemme 2.23 fournit un circuit
P Q[O(α)]
· · ·P Q[O(α)] P Q[β]
homogène, de profondeur 2p et de taille
σ + σ
n + d1
d1
+
σ + 15dp
15dp
+ σ
X
p−1
i=2
σ + 15di
15di
= 2O(d
1/p log(p−1)/p σ log1/p n)
en choisissant
α = d
1/p log1/p n
log1/p σ
et β = d
1/p log(p−1)/p σ
log(p−1)/p n
.
À la fin, il suffit d’additionner ensemble les différentes composantes homogènes fi
.
Comme σ = O(s
6d
12), cela donne une borne supérieure de 2
O(d
1/p log(p−1)/p(ds) log1/p n)
pour la taille.
Il suffit alors de prouver le lemme 2.22 pour achever la preuve.
343. BORNES SUPÉRIEURES POUR CIRCUITS HOMOGÈNES
Preuve du lemme 2.22. Posons (Di)1≤i≤p la suite des produits partiels des (di). Plus
précisément, pour i ≤ p, nous posons Di =
Qi
j=1 dj
. En outre, Dp = d. Définissons
C1, C2, . . . , Cp, p sous-circuits de C, comme suit. C1 est le sous-circuit de C que nous
obtenons en gardant seulement les portes de C de degré ≤ d1. Puis pour i entre 2 et
p, le circuit Ci est constitué non seulement des portes dont le degré est strictement
supérieur à Di−1 et inférieur à Di mais aussi des entrées de ces portes. Ces entrées
sont les seules portes qui appartiennent à la fois à plusieurs Ci
.
Chaque porte α de C1 a degré au plus d1, donc calcule un polynôme de degré
au plus d1. Par homogénéité de C, le polynôme calculé en α est homogène. Par
conséquent, α est une somme homogène d’au plus
n+d1
d1
monômes, et ainsi, peut
être calculé par un circuit de profondeur deux homogène et de taille 1 +
n+d1
d1
+ n
(le “1” encode la porte +, le “n” les portes d’entrées, et le reste tient pour les portes
×).
Nous allons montrer que pour i ≥ 2, le degré de Ci est borné par 15di
. Fixons
ainsi un tel i.
Soit δ le degré de Ci (défini par rapport aux entrées de Ci ). Il existe un monôme
m de degré δ dans Ci
. Soit T un arbre monomial calculant m.
Remarquons qu’une porte de Ci peut à la fois apparaître dans beaucoup d’arbres
monomiaux, mais aussi apparaître plusieurs fois dans un même arbre monomial.
Nous partitionnons l’ensemble des portes × de T en 3 ensembles :
— G0 = {α ∈ T | α est une porte × et tous les fils de α sont des feuilles de T}
— G1 = {α ∈ T | α porte × et exactement un fils de α n’est pas une feuille}
— G2 = {α ∈ T | α porte × et au moins deux fils de α ne sont pas des feuilles}.
Alors, si nous considérons le sous-arbre S de T où toutes les portes de S sont
exactement les portes de T qui n’apparaissent dans aucun des Cj avec j < i, alors
G0 correspond exactement aux feuilles de S, G1 correspond aux sommets internes de
degré entrant 1 et G2 aux sommets internes de degré entrant au moins 2.
La preuve se fait en deux parties. Nous allons commencer par borner supérieurement
la taille des ensembles G0, G1 et G2. Puis, nous bornerons le degré de m.
Dans C, d’après le lemme 1.9, le degré de m est au moins la somme des degrés
des portes de G0 (car deux de ces portes ne peuvent pas appartenir à un même
chemin). Chacune de ces portes est dans Ci
, donc est de degré au moins Di−1 dans
C. Comme m est de degré au plus Di dans C, cela signifie que le nombre de portes
dans G0 est au plus Di
Di−1
= di
.
Dans C, nous savons encore grâce au lemme 1.9 que le degré de m est au moins
la somme des degrés des feuilles de Ci qui sont directement reliées à une porte de
G1. Pour chaque porte α de G1, exactement une de ses entrées β est dans Ci
, donc
de degré au moins Di−1 dans C. Par la proposition 2.20, le degré de α est au moins
deux fois le degré de β, cela implique que la somme des degrés dans C des fils de α
qui sont des feuilles de T est aussi au moins Di−1. Ainsi, le nombre de sommets de
G1 est au plus di
.
Enfin, dans un arbre, le nombre de feuilles étant plus grand que le nombre de
sommets de degré entrant au moins 2, nous pouvons en déduire que dans S :
|G2| ≤ |G0| ≤ di
.
Dans Ci
, le degré du monôme m est le nombre de feuilles non étiquetées par
une constante dans l’arbre T. Il suffit de mettre en correspondance chaque feuille
35CHAPITRE 2. PROFONDEUR BORNÉE
avec la plus proche porte × qui lui est reliée. Comme dans T, le degré entrant des
portes × est borné par 5, celui des portes + est borné par 1 et chaque porte ne
rajoute qu’une entrée constante, nous en déduisons que le nombre de feuilles, non
constantes, relié à une même porte × est au plus 5. D’où le nombre de feuilles dans
T est au plus
5 × (|G0| + |G1| + |G2|) ≤ 15di
.
Ceci prouve que le degré de Ci est au plus 15di
. Le nombre d’entrées de Ci est
borné par le nombre de portes de C (qui est σ). Ainsi pour chaque porte α de Ci
,
il existe un circuit de profondeur 2 de type P Q qui calcule [α], avec pour entrées
des portes dans Cj (avec j < i) et utilisant
σ+15di
15di
portes de multiplication.
Posons σi
le nombre de portes internes dans Ci
. En particulier, σ = n +
Pp
i=1 σi
.
Ainsi, le polynôme f peut être calculé par un circuit homogène
X
[15
Y X
dp] [15
Y
dp−1]
· · ·X
[15
Y X
d2]
Y
[d1]
de profondeur 2p et de taille
1 +
σ + 15dp
15dp
+
"X
p−1
i=2
σi
1 +
σ + 15di
15di
#
+ σ1 + σ1
n + d1
d1
+ n
≤ σ + σ
n + d1
d1
+
σ + 15dp
15dp
+ σ
X
p−1
i=2
σ + 15di
15di
.
4 Bornes supérieures pour circuits non homogènes
Koiran [60] prouve une borne en 2
√
d log2
(s) pour la réduction des circuits à la
profondeur 4. Dans leur article [45], Gupta, Kamath, Kayal et Saptharishi affinent
cette borne et obtiennent 2
O(
√
d log n log s log d)
. De plus, ils utilisent cette borne pour
montrer que :
Proposition 2.24 (Théorème 1.1 dans [45]). Soit f(x) ∈ Q[x1, . . . , xn] un polynôme
à n variables, de degré d = n
O(1) calculé par un circuit arithmétique de taille s.
Alors, il peut aussi être calculé par un circuit P QP de taille 2
O(
√
d log n log s log d)
où les coefficients sont des éléments de Q.
En fait leur preuve est divisée en trois parties. Premièrement, ils transforment
les ciruits généraux en circuits homogènes de profondeur 4. Puis ils transforment ces
circuits de profondeur 4 en circuits de profondeur 5 utilisant seulement des portes
d’addition et d’exponentiation. Pour faire cela, ils utilisent la formule de Fisher [30].
Lemme 2.25 (Rappel de la formule de Fischer, lemme 2.5). Pour tout n, le monôme
x1 . . . xn peut être exprimé comme une combinaison linéaire de 2
n−1 puissances de
formes linéaires.
x1x2 . . . xn =
1
2
n−1n!
X
r2,...,rn∈{±1}n−1
x1 +
Xn
i=2
rixi
!n
· (−1)p(r)
364. BORNES SUPÉRIEURES POUR CIRCUITS NON HOMOGÈNES
où p(r) = |{i | ri = −1}|.
Ainsi, un produit Qn
i=1 xi peut être transformé en une somme de puissances de
sommes :
2
Xn−1
i=1
^
[n]
Xn
j=1
yi,j
où les yi,j valent ±xj
.
L’idée d’utiliser la formule de Fisher pour transformer un produit en somme de
puissances provient de [45]. D’autres utilisations récentes de cette formule dans le
cas de la complexité des circuits arithmétiques peuvent être trouvées dans [45, 55].
Enfin, ils transforment ces derniers circuits en circuits de profondeur 3. L’outil
principal ici est l’astuce de dualité de Saxena [89]. Reformulant cette astuce combinée
aux lemmes 4.7 à 4.9 de [45], on obtient :
Lemme 2.26. Soit f un polynôme de la forme V[d] P[m] P[b]
dans Q[X]. Alors f
peut être écrit de la forme
[O(m2
b
2d
4 X
)] [mbd
Y
]
(Xi,j + Ci,j )
où Xi,j est une coordonnée de X et Ci,j est une constante dans Q.
Utiliser le théorème 2.16 au lieu du théorème 4.1 dans leur article améliore la
première partie de leur preuve. Cela donne une petite amélioration au théorème 1.1
de [45] :
Corollaire 2.27. Soit f(x) ∈ Q[x1, . . . , xn] un polynôme à n variables de degré
d = n
O(1) calculé par un circuit arithmétique de taille s. Alors il peut aussi être
calculé par un circuit P QP de taille 2
O(
√
d log n log s) où les coefficients sont dans Q.
En fait, de même que lors de la section précédente, ces résultats se généralisent
facilement à toute profondeur bornée.
Théorème 2.28. Soient p ≥ 2 et f(x) ∈ Q[x1, . . . , xn] un polynôme à n variables
de degré d calculé par un circuit arithmétique de taille s. Alors f est calculable par
un circuit de profondeur p de taille 2
O(d
1/(p−1) log ds) où les coefficients sont dans Q.
Démonstration. Si p = 2, alors il va être suffisant de réécrire ce polynôme comme
une somme de monômes. Vu qu’il est de degré au plus d, il a au plus
n+d
n
monômes,
ce qui est plus petit que s
d
.
Si p est impair et supérieur à deux. Posons p = 2q + 1. Si q = 1, il s’agit du
cas de la profondeur 3. Réduisons f à un circuit de profondeur 4q grâce au théorème
2.16. Nous obtenons C un circuit P Q[O(α)]
· · ·P Q[O(α)] P Q[α]
de profondeur
4q et de taille t = 2O(d
1/2q
log(ds)) avec α = d
1/(2q)
. Appliquons le lemme 2.25 relatif à
la formule de Fischer pour chaque niveau de multiplications pour obtenir un circuit
P V[O(α)]
· · ·P V[O(α)] P V[α] P de profondeur 4q+1 et de taille au plus t
2
. Il y a en
fait, intercalés, 2q + 1 niveaux de portes d’addition et 2q niveaux de portes d’exponentiation.
Groupons les niveaux d’exponentiation deux par deux, nous obtenons un
37CHAPITRE 2. PROFONDEUR BORNÉE
circuit de la forme P(
VP V)
P· · ·P(
VP V)
P avec q parenthèses. Remplaçons
finalement ces parenthèses par des sommes de produits de sommes comme dans le
lemme 2.26. Nous obtenons un circuit P Q · · · QP de profondeur 2q + 1 de taille
polynomiale en t = 2O(d
1/(p−1) log(ds)) et où les portes de multiplication sont aussi de
degré polynomial en t.
Si p = 2q est un entier pair plus grand que trois, nous allons faire la même chose
à part que nous n’allons pas toucher au dernier niveau de multiplication. Nous ré-
duisons le circuit à la profondeur 4q − 2. Le circuit est de la forme P Q · · ·P Q
avec 2q − 1 niveaux de portes d’addition ainsi que 2q − 1 niveaux de multiplication.
Nous allons transformer les 2q − 2 derniers niveaux de multiplications (i.e. du
côté de la sortie du circuit) en niveaux d’exponentiation. On obtient un circuit de
la forme P V · · ·P VP Q avec 2q − 2 niveaux d’exponentiations. De même que
pour le cas impair, il suffit alors de grouper les niveaux d’exponentiations par deux
et de transformer les VP V en P QP pour obtenir un circuit P Q · · ·P Q de
profondeur 2q et de taille 2
O(d
1/(2q−1) log(ds)). Ce qui prouve le résultat.
On peut ainsi découvrir une autre réduction à la profondeur quatre, utilisant des
portes intermédiaires calculant de très hauts degrés. Ce résultat met en évidence la
nécessité des contraintes d’homogénéité des polynômes ou de bornes sur les degrés
entrants des portes de multiplication dans les propositions 2.10, 2.12 et 2.13.
Corollaire 2.29. Soit f(x) ∈ Q[x1, . . . , xn] un polynôme à n variables de degré d
calculé par un circuit arithmétique de taille s. Alors il peut aussi être calculé par un
circuit P QP Q de taille 2
O(d
1/3
log s) où les coefficients sont dans Q.
Par conséquent les polynômes Detn et IMMn,d possèdent des circuits P QP Q
de taille respective n
O(
√3 n)
et n
O(
√3
d)
. De plus, si tout circuit de type P QP Q pour
le langage Permn nécéssite une taille d’au moins n
ω(
√3 n)
, alors VP 6= VNP.
38Chapitre 3
De l’hypothèse de Valiant aux
τ -conjectures
En 1995, Shub et Smale [92] ont trouvé un lien entre la complexité des polynômes
univariés à coefficients entiers et la question PC vs. NPC dans le modèle de BlumShub-Smale
sur C. Nous ne détaillerons pas ici les classes citées ci-dessus vu que nous
ne les utiliserons pas. Le lecteur intéressé pourra se référer par exemple à l’article
où elles sont introduites [15] ou à la référence [13].
Pour un polynôme à coefficients entiers f ∈ Z[X1, . . . , Xn], nous rappellons que la
τ -complexité de f notée τ (f) correspond à la taille du plus petit circuit calculant f,
de portes {+, ×, −} et utilisant seulement la constante 1. La τ -conjecture, introduite
par Shub et Smale [92] est :
Conjecture 3.1 (τ -conjecture). Il existe une constante universelle c > 0 telle que
pour tout polynôme univarié f ∈ Z[X],
ZZ(f) ≤ (1 + τ (f))c
où ZZ(f) correspond au nombre de racines entières distinctes de f.
Shub et Smale ont prouvé dans le même article que cette conjecture impliquait
PC 6= NPC. La résolution de la τ -conjecture apparaît sous le titre “Integer zeros of a
polynomial of one variable” comme le quatrième problème de la liste de Smale [93]
des plus importants problèmes pour les mathématiciens du XXIème siècle. Toutefois,
cette conjecture reste complètement ouverte.
Une autre implication importante de cette conjecture a été mise en évidence
par Bürgisser [21]. Il montre que la τ -conjecture implique aussi que le permanent
n’admet pas de circuits arithmétiques sans constantes de taille polynomiale, et donc
en particulier que VP0
6= VNP0
.
Un des obstacles aux avancées sur cette conjecture vient du fait que l’on cherche
des racines entières. Cependant cette contrainte est nécessaire car la conjecture devient
fausse dans le cas des racines réelles. C’est le cas pour les polynômes de Tchebychev.
Ces polynômes Tn de degré n sont définis sur l’intervalle [−1, 1] par la relation
Tn(cos θ) = cos(nθ). Le polynôme Tn a n racines réelles simples, mais est calculé
par un circuit de taille O(log n). Un autre exemple de polynômes avec beaucoup
de racines réelles a été trouvé plus tôt par Borodin et Cook [18]. Certains rapprochements
entre des bornes inférieurs en complexité et des bornes supérieures sur le
nombre de racines réelles avaient déjà été trouvés dans [18, 39, 87].
39CHAPITRE 3. VARIANTES DE LA τ -CONJECTURE
Toutefois, Koiran [61] réussit à renforcer l’hypothèse pour que la borne tienne
pour les racines réelles tout en conservant l’implication de VP0
6= VNP0
. Il définit la
conjecture suivante :
Conjecture 3.2 (τ -conjecture réelle). Il existe une constante universelle c > 0
telle que pour tous paramètres entiers positifs k, m et t et tout polynôme univarié
f ∈ Z[X] de la forme
f(X) = X
k
i=1
Ym
j=1
fi,j (X)
avec fi,j des polynômes t-creux, on a
ZR(f) ≤ (1 + k + m + t)
c
où ZR(f) correspond au nombre de racines réelles distinctes de f.
On rappelle que les polynômes t-creux, introduits au chapitre 1 désignent les
polynômes ayant au plus t monômes dans leur forme développée.
Koiran montre [61] :
Théorème 3.3. Si la τ -conjecture réelle est avérée, alors le permanent n’admet pas
de circuits arithmétiques sans constantes de taille polynomiale, c’est-à-dire τ (Permn) =
n
omega(1)
.
Un des arguments en faveur de cette version réelle de la τ -conjecture est sa
similarité avec l’estimation de Descartes.
Lemme 3.4 (Estimation de Descartes). Soit f =
Pt
i=1 aix
αi un polynôme tel que
α1 < α2 < . . . < αt et ai sont des réels non nuls. Alors le nombre de racines réelles
strictement positives de f, compté avec multiplicité, est borné par t − 1. De plus, le
résultat tient encore dans le cas où les exposants sont réels.
Cette estimation découle directement d’un résultat classique, la règle des signes
de Descartes :
Lemme 3.5 (Règle des signes). Soit f =
Pt
i=1 aix
αi un polynôme tel que α1 < α2 <
. . . < αt et ai sont des réels non nuls. Soit N le nombre de changements de signes
dans la suite (a1, . . . , at). Alors le nombre de racines réelles strictement positives de
f, compté avec multiplicité, est borné par N.
En particulier, le cas k = 1 de la τ -conjecture réelle est vérifié. Comme chaque
fi,j (X) a au plus 2t − 1 racines réelles, on obtient si k = 1 :
ZR(f) ≤ 2(t − 1)m + 1.
A contrario, la meilleure borne supérieure connue pour la conjecture 3.2 est
(2ktm − 1). Pour obtenir cette borne, il suffit de développer f en somme de ktm
monômes et d’utiliser encore l’estimation de Descartes.
Dans ce chapitre, nous étudierons premièrement comment obtenir des bornes inférieures
à partir d’une variante de la τ -conjecture. Ainsi, nous pourrons alors dériver
de nouvelles variantes de cette conjecture impliquant encore des bornes inférieures
pour les circuits arithmétiques.
401. TRANSFERT DE BORNES INFÉRIEURES
1 Des bornes sur la taille du permanent aux bornes
sur le nombre de racines
Nous montrons dans cette section la preuve du théorème 3.3. La raison étant que
nous cherchons à comprendre ce transfert de bornes inférieures dans le but d’énoncer
d’autres variantes de cette τ -conjecture réelle. Nous allons devoir commencer par
présenter quelques outils. La plupart viennent de l’article [21].
1.1 Quelques définitions de classes booléennes
Dans la suite, nous voudrons considérer des polynômes de la classe VNP0
. Or
pour trouver de tels polynômes, le critère de Valiant (proposition 3.10) – exposé un
peu plus loin – nécessite que les coefficients des polynômes considérés soient calculables
dans la classe GapP/poly. Ainsi, nous commençons par exposer ici quelques
définitions classiques de classes booléennes. Il va s’agir essentiellement de classes de
comptage.
Rappelons la définition des deux classes de comptage #P et GapP.
Définition 3.6. La classe #P est l’ensemble de fonctions f : {0, 1}
? → N tel qu’il
existe un langage A ∈ P et un polynôme p(n) satisfiant :
f(x) = |{y ∈ {0, 1}
p(|x|)
| (x, y) ∈ A}|.
Une fonction f : {0, 1}
? → Z est dans GapP si elle correspond à une différence
de deux fonctions dans #P.
Définissons maintenant la hiérarchie de comptage. Un lien entre la hiérarchie de
comptage et la théorie de la complexité algébrique a été mis en évidence dans [5].
Ce lien a été approfondi dans [21] et [63]. Par exemple, dans [21], Bürgisser montre
que les polynômes Q2
n
i=1(X − i) ont des circuits de taille polynomiale s’il en est de
même pour la famille du permanent.
La hiérarchie de comptage définie dans [103] est une classe de langages plutôt
que de fonctions. Elle est définie à partir de l’opérateur de majorité C comme suit.
Définition 3.7. Si K est une classe de complexité, alors la classe C · K correspond
à l’ensemble de langages A tels qu’il existe un langage B ∈ K et un polynôme p(n)
satisfiant
x ∈ A ⇔ |{y ∈ {0, 1}
p(|x|)
| (x, y) ∈ B}| ≥ 2
p(|x|)−1
.
Le i
ème niveau CiP de la hiérarchie de comptage est défimi récursivement par
C0P = P et Ci+1P = C · CiP. La hiérarchie de comptage CH est l’union de tous les
CiP pour i ≥ 0.
Situons la hiérarchie de comptage parmi les autres classes booléennes classiques.
Elle contient toute la hiérarchie polynomiale PH et est contenue dans PSPACE (des
définitions et beaucoup d’informations sur ces dernières classes peuvent être trouvées
dans [7, 37, 79, 82]).
Les classes de circuits arithmétiques que nous considérons sont non uniformes.
Par conséquent nous travaillerons en fait avec des versions non uniformes des classes
de comptage définies ci-dessus. Nous utilisons la notation standard de Karp et Lipton
[54] :
41CHAPITRE 3. VARIANTES DE LA τ -CONJECTURE
Définition 3.8. Si K est une classe de complexité, la classe K/poly est l’ensemble
des langages A tels qu’il existe un langage B ∈ K, un polynôme p(n) et une famille
(an)n≥0 de mots (les conseils) satisfiant
— pour tout n ≥ 0, |an| ≤ p(n)
— et pour tout mot x, x ∈ A ⇔ (x, a|x|) ∈ B.
Remarquons que les conseils an dépendent seulement de la taille de x.
1.2 Les polynômes définissables
Comme mentionné en début de ce chapitre, nous aurons besoin de manipuler ici
les classes de la théorie de Valiant. Nous renvoyons le lecteur au premier chapitre
pour les définitions des différentes classes de complexité ou au livre de Bürgisser [19].
Dans le prochain lemme, prouvé dans [21], l’auteur montre un premier lien entre
la complexité arithmétique et la hiérarchie de comptage.
Lemme 3.9. Si Permn est dans VP0
alors CH/poly = P/poly.
En particulier, ce lemme a été utilisé dans le même article pour montrer que les
sommes et produits exponentiels sont calculables dans la hiérarchie de comptage.
Le résultat suivant a été démontré par Valiant [99]. La formulation provient en
fait de l’article de Koiran [62].
Proposition 3.10 (Critère de Valiant). Supposons que n 7→ p(n) soit une fonction
polynomialement bornée et que f : N × N → Z est telle que la fonction
1
n#j 7→ f(j, n) soit dans la classe de complexité GapP/poly (où 1
n#j correspond à
la concaténation du mot “n” écrit en unaire, du caractère # et du mot “j” écrit en
binaire). Alors la famille (fn) de polynômes multilinéaires définie par
fn(X1, . . . , Xp(n)) = X
j∈{0,1}
p(n)
f(j, n)X
j1
1
· · · X
jp(n)
p(n)
est dans VNP0
. L’exposant jk correspond au bit de j de poids 2
k−1
.
Remarquons que n est codé en unaire alors que j est codé en binaire.
Remarquons aussi que dans la proposition précédente, la classe booléenne utilisée
est GapP/poly une classe de fonctions. Or il est souvent plus aisé de travailler avec des
langages. C’est pourquoi, nous allons définir maintenant la notion de définissabilité
d’un polynôme.
Les paragraphes suivants sont directement tirés de l’article de Koiran et Périfel
[63] qui est lui-même basé sur [21].
On va être amené à introduire une notion de complexité des suites d’entiers.
Dans le but d’éviter de traiter les signes séparément, nous suivons ce qui est fait
dans [63], ie. nous supposons que nous pouvons retrouver le signe dans l’encodage
des entiers. Par exemple, le premier bit code le signe et les suivants, la valeur absolue
de l’entier considéré.
Définition 3.11. Une suite d’entiers de taille exponentielle est une suite d’entiers
a(n, α1, . . . , αk) telle qu’il existe deux polynômes p(n) et q(n) satisfaisant :
— le paramètre k, dépendant de n, vérifie k ≤ p(n),
421. TRANSFERT DE BORNES INFÉRIEURES
— a(n, α1, . . . , αk) est défini pour n, α1, . . . , αk ∈ N avec 0 ≤ αi < 2
p(n) pour
tout 1 ≤ i ≤ k,
— pour tout n ≥ 1 et tous α1, . . . , αk < 2
p(n)
, la taille de l’encodage binaire
de a(n, α1, . . . , αk) est inférieure à 2
q(n)
.
On définit à partir de a(n, α1, . . . , αk) le langage suivant :
Bit(a) = {(1n#α1, . . . , αk, j) | le j
ème bit de a(n, α) est 1}.
Attention, dans la définition analogue de Bürgisser [21], l’entier n est codé en
binaire.
Définition 3.12. Une suite d’entiers a(n, α) de taille exponentielle est dite définissable
dans la classe K si le langage Bit(a) est dans K.
Une suite de polynômes fn(X1, . . . , Xk) = P
α
a(n, α)Xα est dite définissable
dans K si sa suite de coefficient a est de taille exponentielle et définissable dans K.
Dans la suite, nous considérerons essentiellement des polynômes définissables
dans P/poly ou dans CH/poly. La seconde classe est assez large et englobe de nombreux
polynômes classiques, comme par exemple, le polynôme de PochhammerWilkinson.
Le résultat suivant, prouvé dans [21] est très utile pour montrer qu’une
suite est dans cette classe.
Théorème 3.13. Soient p(n) un polynôme et (a(n, α))αi<2
p(n) une suite définissable
dans CH/poly. Considérons les suites
b(n) = X
α
a(n, α) et d(n) = Y
α
a(n, α).
Alors (b(n)) et (d(n)) sont définissables dans CH/poly.
Supposons que (s(n)) et (t(n)) soient définissables dans CH/poly. Alors la suite
des produits (s(n)t(n)), ainsi que si t(n) > 0 la suite des quotients ds(n)/t(n)e, sont
définissables dans CH/poly.
En fait, comme mentionné précédemment, Bürgisser utilise une notation binaire
pour n. Le résultat précédent est une simple “mise à l’échelle” du résultat qui peut
être trouvé dans [21] (poser a
0
(2p(n)
, α) = a(n, α)).
Dans [63], les auteurs définissent une autre caractérisation des polynômes :
Définition 3.14. Soit (fn(X1, . . . , Xk)) une famille de polynômes à coefficients entiers.
Nous disons que (fn) peut être évaluée dans K aux points entiers si les conditions
suivantes sont vérifiées pour un certain polynôme p :
— le paramètre k est polynomialement borné en n,
— le degré de fn ainsi que la taille binaire de ses coefficients sont bornés par
2
p(n)
,
— le langage
{(1n#i1, . . . , ik, j) | 0 ≤ i1, . . . , ik ≤ 2
p(n)
et le j
ème bit de fn(i1, . . . , ik) est 1}
est dans K, où les entiers i1, . . . , ik, j sont donnés en binaire.
Le résultat suivant est énoncé (et prouvé) dans le théorème principal (Theorem
3.5) de [63] :
43CHAPITRE 3. VARIANTES DE LA τ -CONJECTURE
Théorème 3.15. Si (fn) est une suite de polynômes qui peut être évaluée dans
CH/poly aux points entiers, alors (fn) est définissable dans CH/poly.
Nous avons tous les résultats pour montrer, par exemple, que la suite des polynômes
Un(X, Y ) = Q2
n
i=1(Xi + Y ) est définissable dans CH/poly.
Les suites s1(n, x, y, i, j) = y et s2(n, x, y, i, j) = (σi,j )1≤x,y,i,j≤2n où
σi,j =
(
x si j ≤ i
1 sinon,
sont par définition définissables dans CH/poly. Par le théorème 3.13, c’est aussi le
cas pour la suite
t(n, x, y, i) = (x
i + y)1≤x,y,i≤2n =
y +
2
Yn
j=1
σi,j!
,
ainsi que pour la suite
u(n, x, y) = 2
Yn
i=1
(x
i + y)
!
1≤x,y≤2n
.
Donc Un(X, Y ) peut être évalué dans CH/poly aux points entiers, ce qui par le
théorème 3.15, montre que les polynômes Un sont définissables dans CH/poly.
La même preuve marche pour les autres polynômes suivants :
Lemme 3.16. Les polynômes suivants
PWn(X) =
2
Yn
i=1
(X − i), PW−
n
(X) =
2
Yn
i=1
(X + i), Tn(X) =
2
Yn
i=1
(X − 1),
et Un(X, Y ) =
2
Yn
i=1
(X
i + Y )
sont tous définissables dans CH/poly.
Le cas des polynômes de Pochhammer-Wilkinson (PWn) était déjà établi dans
l’article de Bürgisser [21]. Il prouve même que ces polynômes sont en fait définissables
dans CH.
1.3 Preuve du théorème 3.3
Dans la suite de ce chapitre, nous utiliserons le résultat de complétude du permanent
(théorème 1.26). C’est pourquoi, nous fixons un corps K de caractéristique
nulle dans lequel travailler. Les circuits utiliseront comme constantes les éléments
de K. En particulier, les résultats sont souvent utilisés et cités dans le cas où K = Q.
Nous allons prouver dans cette sous-section le théorème 3.3 mentionné en début
de ce chapitre. L’idée de la preuve est similaire à celle que l’on peut trouver dans
l’article original [61] sauf que le découpage de la preuve est différent. En fait, nous
avons voulu extraire ici la proposition 3.17 implicite dans la preuve originale, pour
441. TRANSFERT DE BORNES INFÉRIEURES
pouvoir dans la suite, obtenir des variantes du théorème 3.3. Cette sous-section
correspond donc aux lemme 3, théorèmes 6 et 7 et proposition 2 de l’article [61],
bien que le découpage ainsi que les notations aient changés.
Nous voulons extraire la proposition suivante :
Proposition 3.17. Soit p un polynôme et soit (fn) une suite de polynômes entiers
de Z[X1, . . . , Xp(n)
] définissables dans P/poly, de degré maximal en chaque variable
2
d − 1 et tels que la valeur absolue des coefficients soit bornée par 2
2
r
− 1 avec
r, d = n
O(1)
.
Si Permn est calculé par une suite de circuits Cn, alors il existe un polynôme
q et une projection Dn du circuit Cq(n) tel que fn peut être calculé par un circuit
Dn(Y1, . . . , Yk) où les Yi sont des puissances de Xji
d’exposants au plus 2
d−1
et où k
est un entier tel que k ≤ dp(n) + r. De plus, les circuits Dn calculent des polynômes
homogènes en les Yk.
Enfin, le polynôme q ne dépend que du choix de la famille de polynômes (fn).
Un corollaire immédiat dans le cas où les Cn sont des circuits de taille polynomialement
bornée est le suivant :
Corollaire 3.18. Soit p et fn définis comme dans la proposition 3.17. Si Permn
admet une suite (Cn) de circuits de taille polynomiale, alors c’est aussi le cas pour
fn.
Preuve du corollaire 3.18. D’après la proposition 3.17, fn est calculé par un circuit
Dn(Y1, . . . , Yk) où les Yj = X
αj
ij
pour des valeurs 1 ≤ ij ≤ p(n) et 1 ≤ αj ≤ 2
d−1
et où le circuit Dn est la projection d’un circuit Cq(n) pour un polynôme q. Donc
(Dn) est une suite de circuits de taille polynomiale. De plus, les puissances X
αj
ij
avec
αj ≤ 2
d−1 peuvent être calculées par exponentiation rapide par des circuits de taille
au plus 2d = n
O(1). On obtient ainsi, en rebranchant les circuits, un circuit de taille
polynomiale pour la famille (fn).
La preuve de la proposition 3.17 est similaire à celle que l’on peut trouver dans
l’article de Koiran [61]. Le fait que le nombre de variables soit p(n) et non 1 n’introduit
aucune complication.
Preuve de la proposition 3.17. Nous travaillerons à n fixé. Posons de plus p = p(n).
Commençons par exprimer le polynôme fn sous sa forme développée (somme d’au
plus 2
dp monômes) :
fn(X1, . . . , Xp) = X
α1,...,αp
a(n, α1, . . . , αp)X
α1
1
· · · X
αp
p
.
Alors développons les coefficients entiers a(n, α) en base 2 :
a(n, α) =
2
Xr−1
i=0
ai(n, α)2i
où ai(n, α) ∈ {0, 1}. Grâce à ces deux développements, nous obtenons
fn(X) = X
i,α
ai(n, α)2iXα
.
45CHAPITRE 3. VARIANTES DE LA τ -CONJECTURE
Ce qui mène à l’égalité
fn(X) = hn(X
2
0
1
, X2
1
1
, . . . , X2
d−1
1
, X2
0
2
, . . . , X2
d−1
p
, 2
2
0
, 2
2
1
, . . . , 2
2
r−1
) (3.1)
où hn(x1,0, x1,1, . . . , x1,d−1, x2,0, . . . , xp,d−1, z0, z1, z2, . . . , zr−1) est le polynôme multilinéaire
X
i,α
ai(n, α)x
α1,0
1,0 x
α1,1
1,1
. . . x
α1,d−1
1,d−1
x
α2,0
2,0
. . . x
αp,d−1
p,d−1
z
i0
0
z
i1
1
z
i2
2
. . . z
ir−1
r−1
.
Ici les exposants ij
, αh,j correspondent aux bits des entiers i,(αh)1≤h≤p. Remarquons
que hn est un polynôme multilinéaire en (dp + r) = n
O(1) variables. La fonction
φ : 1n#α, i 7→ ai(n, α) est une fonction à valeurs dans {0, 1}
? qui est la fonction
indicatrice du langage Bit(a). Par hypothèse, ce langage est dans P/poly, donc
φ ∈ GapP/poly. Par le critère de Valiant [19] (proposition 3.10), cela implique que
la famille polynomiale (hn) appartient à la classe de complexité VNP0
. Comme la
famille du permanent est VNP-complète et est calculée par les circuits (Cn), il existe
un polynôme q tel que pour tout n, la fonction hn est calculée par Dn une projection
de Cq(n)
. Il suffit alors de brancher en entrée les constantes et les puissances de
variables correspondantes pour obtenir un circuit pour fn du type Dn(Y1, . . . , Yk).
Remarque 3.19. Nous pouvons noter que nous n’utilisons pas réellement dans la
preuve le fait que les polynômes soient définissables dans P/poly. Nous avons seulement
besoin que la fonction indicatrice du langage Bit(a) soit dans GapP/poly.
Remarque 3.20. Notons aussi que nous autorisons les constantes du corps K pour
fn comme pour le permanent. Toutefois, il est possible d’obtenir un résultat plus fin
pour les constantes. Remarquons que le seul moment où des nouvelles constantes
peuvent apparaître est lors de l’utilisation de la VNP-complétude du permanent. En
particulier, en utilisant la proposition 1.27 du chapitre 1, on peut aussi obtenir un
circuit utilisant juste les constantes de (Cn) mais calculant 2
q(n)
fn pour un certain
polynôme q.
L’idée de Koiran est alors d’appliquer les résultats de réduction à la profondeur
4 aux circuits Dn.
Proposition 3.21. Soit c un entier strictement positif fixé et soit (fn) une suite
de polynômes dans Z[X1, . . . , Xc] définissables dans P/poly, de degré maximal en
chaque variable 2
d − 1 et tels que la valeur absolue des coefficients soit bornée par
2
2
r−1 avec r ≤ d = n
O(1)
.
Si Permn admet une suite de circuits Cn de taille n
O(1), alors (fn) est calculé
par des circuits
n
O(
√
Xd)
i=1
O(
√
Y
d)
j=1
fi,j (X1, . . . , Xc)
où les fi,j sont des polynômes n
O(
√
d)
-creux.
462. VARIATIONS
Démonstration. D’après la proposition 3.17, la famille de polynômes (fn) est calculée
par des circuits de type Dn(Y1, . . . , Yk) où Dn de taille n
O(1), calcule un polynôme hn
multivarié d’au plus (c + 1)d = O(d) variables. D’après le théorème 2.16, il suit que
les polynômes hn sont calculables par des circuits de profondeur 4 de taille 2
O(
√
d log n)
avec des portes de multiplication de degré entrant O(
√
d). D’où (fn) est calculé par
des circuits
[n
O(
√
d)
X
] [O(
√
Y
d)] [n
O(
√
d)
X
] [2d
√
Y
d]
,
ie. par des circuits
n
O(
√
Xd)
i=1
O(
√
Y
d)
j=1
fi,j (X1, . . . , Xc)
où les fi,j sont des polynômes n
O(
√
d)
-creux.
On a tout ce qu’il faut pour prouver le théorème 3.3 énoncé au début du chapitre :
la τ -conjecture réelle (conjecture 3.2) implique que le permanent n’admet pas de
circuits sans constantes de taille polynomiale.
Preuve du théorème 3.3. Montrons ce résultat par l’absurde.
Supposons que le permanent est calculé par des circuits sans constantes de taille
polynomiale, ie. Permn ∈ VP0
. D’après le lemme 3.9, on a CH/poly = P/poly. Donc
d’après le lemme 3.16, le polynôme univarié PW(X) = Q2
n
i=1(X − i) est définissable
dans P/poly. Par la proposition 3.21, PW est calculé par des circuits
n
O(
√
Xn)
i=1
O(
√
Yn)
j=1
fi,j (X)
où les fi,j sont des polynômes n
O
√
n)
-creux. La conjecture 3.2 implique qu’il existe
une constante c telle que ZR(PW) ≤ (1 + n
O(
√
n)
)
c = 2O(
√
n log(n)). Ce qui contredit
le fait que ZR(PW) = 2n
.
Remarque 3.22. Notons qu’avec la conditon légèrement plus faible Permn ∈ VP,
l’effondrement de la hiérarchie de comptage n’est connu qu’en supposant l’hypothèse
de Riemann généralisée [20]. Nous verrons plus loin (théorème 3.38) comment l’éviter
pour la τ -conjecture réelle.
2 Variations
2.1 Raffinement de la τ -conjecture réelle
Nous pouvons déjà remarquer dans la preuve précédente (preuve du théorème 3.3)
que nous avons un peu de marge sur le paramètre m. Plus précisément, en utilisant
la conjecture 3.23 suivante, au lieu de la conjecture 3.2, on a encore l’inégalité
ZR(PW) ≤ (1 + n
O(
√
n)
)
c = 2O(
√
n log(n))
.
47CHAPITRE 3. VARIANTES DE LA τ -CONJECTURE
Conjecture 3.23 (τ -conjecture réelle). Il existe un polynôme p tel que si f(x) ∈
R[x] est un polynôme de la forme Pk
i=1
Qm
j=1 fi,j (x) où les polynômes fi,j sont des
polynômes t-creux, alors le nombre de racines réelles distinctes de f est au plus
p(kt2
m).
Nous pouvons au passage noter que la borne supérieure ici ne semble plus très
loin de la borne ktm que nous avons obtenue en développant le polynôme.
Une autre idée pour renforcer cette conjecture est d’utiliser, comme au chapitre 2
la formule de Fisher (lemme 2.5) pour remplacer les produits par des puissances.
Conjecture 3.24 (τ -conjecture réelle avec puissances). Il existe un polynôme p tel
que si f(x) ∈ R[x] est un polynôme de la forme Pk
i=1 f
αi
i
(x) où les polynômes fi sont
des polynômes t-creux et les puissances αi sont des entiers tels que 0 ≤ αi ≤ m,
alors le nombre de racines réelles distinctes de f est au plus p(kt2
m).
Ainsi,
Théorème 3.25. Si la τ -conjecture réelle avec puissances est avérée, alors le permanent
n’admet pas de circuits arithmétiques sans constantes de taille polynomiale,
c’est-à-dire τ (Permn) = n
ω(1)
.
En fait, pour montrer ce théorème, il est suffisant de montrer que la conjecture
3.24 implique la conjecture 3.23.
Lemme 3.26. Les conjectures 3.23 et 3.24 sont équivalentes.
Démonstration. La conjecture 3.23 implique directement la conjecture 3.24. Réciproquement
choisissons un polynôme p qui vérifie la conjecture 3.24. Soit f un
polynôme de la forme Pk
i=1
Qm
j=1 fi,j (x) où les polynômes fi,j sont des polynômes
t-creux. Alors d’après la formule de Fisher, f peut être écrit de la forme
X
k
i=1
2
Xm−1
j=1 Xm
l=1
˜fi,j,l!m
où les ˜fi,j,l sont des polynômes t-creux. Par hypothèse, ZR(f) ≤ p(k2
m2
mmt) =
(kt2
m)
O(1). Ce qui prouve le lemme.
2.2 Différentes τ -conjectures
Nous donnons dans la suite différentes variantes de la τ -conjecture réelle.
Version adélique
La pemière remarque est que nous bornons le nombre de racines réelles alors
que les racines du polynôme de Pochhammer-Wilkinson sont en fait entières. En
particulier, ils suffit de borner le nombre de racines sur un ensemble qui étend N.
L’idée de la τ -conjecture réelle est de pouvoir utiliser le fait que R soit complet.
Toutefois, R n’est pas la seule complétion de Q. Ainsi, Kaitlyn Phillipson et Maurice
Rojas [83] ont introduit la τ -conjecture adélique (par rapport à la version de [83],
nous lui faisons bénéficier ici des améliorations de la sous-section 2.1).
482. VARIATIONS
Conjecture 3.27 (τ -conjecture adélique avec puissances). Soit L un des corps de
{R, Q2, Q3, Q5, . . .} où p est premier est Qp est le corps des nombres p-adiques. Il
existe un polynôme p tel que pour tout polynôme f(x) ∈ R[x] univarié, si f est de
la forme Pk
i=1
Vm
j=1 fi,j (x) où les polynômes fi,j sont des polynômes t-creux, alors le
nombre de racines distinctes de f dans L est au plus p(kt2
m).
Version monotone
Une autre remarque simple est que l’on aurait pu tout aussi bien utiliser dans les
preuves le polynôme PW−
n =
Q2
n
i=1(X +i) au lieu du polynôme PWn. En particulier
les conjectures peuvent être reformulées dans le cas où on ne considère que des
polynômes dont tous les coefficients sont positifs. On appellera de tels polynômes
des polynômes à coefficients positifs. On propose alors la conjecture :
Conjecture 3.28. Les propriétés suivantes sont vérifiées :
— Il existe un polynôme
P
p tel que si f(x) ∈ R[x] est un polynôme de la forme
k
i=1
Qm
j=1 fi,j (x) où les polynômes fi,j sont des polynômes t-creux à coeffi-
cients positifs, alors le nombre de racines réelles distinctes de f est au plus
p(kt2
m).
— Il existe un polynôme
P
p tel que si f(x) ∈ R[x] est un polynôme de la forme
k
i=1 f
αi
i
(x) où les polynômes fi sont des polynômes t-creux à coefficients
positifs et les puissances αi sont des entiers tels que 0 ≤ αi ≤ m, alors le
nombre de racines réelles distinctes de f est au plus p(kt2
m).
On remarque que les deux énoncés sont en fait équivalents et que cela peut être
prouvé de la même manière que pour le lemme 3.26. On montrera au chapitre 4 que
cette version de la conjecture est en faite équivalente aux conjectures 3.23 et 3.24.
Version avec multiplicités
La τ -conjecture réelle s’appuie sur l’idée qu’une somme de produits de polynômes
creux ne pourrait pas avoir un nombre exponentiel de racines distinctes. Nous pouvons
cependant imaginer d’autres caractéristiques. Par exemple, considérons la multiplicité
des racines non nulles au lieu du nombre de racines. La conjecture suivante
a été introduite dans [48].
Conjecture 3.29. Il existe un polynôme p tel que pour tout polynôme f(x) ∈ R[x]
univarié, si f est de la forme Pk
i=1
Vm
fi(x) où les polynômes fi sont des polynômes
t-creux, alors pour toute racine complexe non nulle r de f, la multiplicité de r est
bornée par p(kt2
m).
La preuve que cette conjecture implique que Permn ∈/ VP0
est similaire à celle
de la conjecture 3.24 mais en remplaçant les polynômes PWn par les polynômes Tn
du lemme 3.16.
Version combinatoire
Nous pouvons même définir une version combinatoire de cette conjecture.
Nous introduisons ici la notion de polygone de Newton. Plus d’informations sur le
sujet pourront par exemple être trouvées dans l’article de synthèse de Sturmfels [96].
49CHAPITRE 3. VARIANTES DE LA τ -CONJECTURE
Les polytopes de Newton sont une façon géométrique de représenter la structure
d’un polynôme. Par structure, il faut comprendre qu’ici seul l’ensemble des monômes
présents (ie. où le coefficients correspondant est non nul) sera considéré et qu’on ne se
préoccupera pas des valeurs prises par les coefficients. En particulier, les polynômes
Detn et Permn correspondent au même polytope.
Vis à vis des polytopes de Newton, on s’intéressera dans la suite seulement
au cas particulier où les polynômes sont bivariés. On parle alors de polygone de
Newton. Nous allons ainsi définir nos objets dans ce cadre là, bien que la plupart
des définitions pourraient, sans difficultés, être généralisées à “n” variables.
Si E est un ensemble du plan R
2
, cet ensemble est appelé convexe, si pour tout
couple de points (a, b) de E
2
, le segment réel [a, b] est inclus dans E. Si C est un
ensemble convexe, un point e de C est dit extrémal s’il n’appartient à aucun segment
strict ]a, b[ inclus dans C. Si P est un ensemble de points du plan, l’enveloppe convexe
est définie comme le plus petit ensemble convexe (au sens de l’inclusion) contenant P.
On la notera conv(P). Les polygones sont les enveloppes convexes des ensembles finis
de points, en particulier, ils sont convexes et exactement cactérisés par l’ensemble de
leurs points extrémaux. Enfin, si E et F sont deux sous-ensembles du plan euclidien,
la somme de Minkowski de E et de F désigne l’ensemble
{p + q ∈ R
2
| p ∈ E ∧ q ∈ F}.
Considérons un polynôme bivarié f ∈ A[X, Y ] où A est un anneau. À chacun des
monômes XiY
j apparaissant dans f avec un coefficient non nul, nous pouvons lui
associer le point de coordonnées (i, j) du plan euclidien. Nous noterons Mon(f) cet
ensemble fini de points. Par définition, le polytope de Newton de f, noté Newt(f),
est l’enveloppe convexe de Mon(f) (en particulier, Newt(f) = conv(Mon(f))). Remarquons
que Newt(f) a au plus t points extrémaux si f a t monômes, et donc au
plus t arêtes. En 1921, Ostrowski a montré [78] que le polygone de Newton d’un
produit de polynômes est la somme de Minkowski de leurs polygones de Newton
(une preuve simple peut être trouvée dans [33], lemme 2.1) :
Proposition 3.30 (Ostrowski).
Newt(fg) = Newt(f) + Newt(g) = {p + q | p ∈ Newt(f), q ∈ Newt(g)}.
Il en résulte que si f a s monômes et g a t monômes, alors Newt(fg) a au plus
s
P
+ t arêtes. Plus généralement, pour un produit f = g1g2 . . . gm, Newt(f) a au plus
m
i=1 ti arêtes où ti est le nombre de monômes de gi
; mais f peut bien sûr avoir
jusqu’à Qm
i=1 ti monômes. Le nombre d’arêtes d’un polygone de Newton est donc
facilement controlable dans le cas d’un produit de polynômes. En comparaison, la
situation n’est plus du tout claire pour une somme de produits. Nous proposons
dans l’article [66] la conjecture suivante.
Conjecture 3.31. Soit p un polynôme, si f est un polynôme de la forme
f(X, Y ) = X
k
i=1
aifi(X, Y )
m (3.2)
où ai ∈ C et les fi ont au plus t monômes, alors le nombre d’arêtes de Newt(f) est
borné supérieurement par p(kt2
m).
502. VARIATIONS
En développant les produits dans (3.2) nous observons que f a au plus ktm
monômes, et ceci est une borne supérieure sur le nombre d’arêtes de son polygone
de Newton. Dans le but d’améliorer cette borne si grossière, la principale difficulté
que l’on rencontre vient du fait que la somme de taille k dans la définition de f
peut créer des annulations de monômes. Ainsi, il se peut que certains sommets
de Newt(f) ne correspondent à aucun des sommets des polygones de Newton des
produits m
j=1 fi,j (X, Y ) pour 1 ≤ j ≤ k. Nous donnons deux exemples de telles
annulations ci-dessous. Nous pouvons remarquer que contrairement aux versions
considérant le nombre de racines réelles (conjecture 3.28), la question ici devient très
simple si tous les coefficients sont positifs. S’il n’y a pas d’annulations (par exemple,
si les fi,j ont seulement des coefficients positifs) alors nous avons effectivement une
borne supérieure polynomiale. Dans ce cas, Newt(f) est l’enveloppe convexe de
l’union des polygones de Newton des k produits. Chacun de ces k polygones de
Newton a au plus mt sommets, donc Newt(f) a au plus kmt sommets et autant
d’arêtes.
Exemple 3.32. Considérons les polynômes A(X, Y ) = XY + X2 + X2Y 2 + X3Y +
X5Y , B(X, Y )=1+ XY 2, C(X, Y ) = −X − XY − X2Y 2 et D(X, Y ) = Y + X +
X2Y + X4Y .
AB
point de Mon(AB)
CD
point de Mon(CD)
Alors,
AB + CD =(XY + X2 + X2
Y 2 + X3
Y + X5
Y + X2
Y 3 + X3
Y 2 + X3
Y 4
+ X4
Y 3 + X6
Y 3
) − (XY + X2 + X3
Y + X5
Y + XY 2
+ X2
Y + 2X3
Y 2 + X5
Y 2 + X2
Y 3 + X4
Y 3 + X6
Y 3
)
=X2
Y 2 + X3
Y 4 − XY 2 − X2
Y − X3
Y 2 − X5
Y 2
AB + CD AB AB + CD CD
point de Mon(AB + CD)
Les deux points bleus (“rectangles”) apparaissent dans l’enveloppe convexe de Mon(AB+
CD), mais ni dans celle de Mon(AB), ni dans celle de Mon(CD).
Exemple 3.33. Posons f(X, Y )=1+ X2Y + Y 2X, g(X, Y )=1+ X4Y + XY 4 et
considérons Mon(fg − 1).
51
Positionnement robuste et pr´ecis de r´eseaux dimages.
Pierre Moulon
To cite this version:
Pierre Moulon. Positionnement robuste et pr´ecis de r´eseaux dimages.. Signal and Image Processing.
Universit´e Paris-Est, 2014. French.
HAL Id: tel-00996935
https://tel.archives-ouvertes.fr/tel-00996935
Submitted on 27 May 2014
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of scientific
research documents, whether they are published
or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destin´ee au d´epˆot et `a la diffusion de documents
scientifiques de niveau recherche, publi´es ou non,
´emanant des ´etablissements d’enseignement et de
recherche fran¸cais ou ´etrangers, des laboratoires
publics ou priv´es.École Doctorale Paris-Est
Mathématiques & Sciences et Technologies
de l’Information et de la Communication
THÈSE DE DOCTORAT
DE L’UNIVERSITÉ PARIS EST
Domaine : Traitement du Signal et des Images
présentée par Pierre MOULON
pour obtenir le grade de
DOCTEUR DE L’UNIVERSITÉ PARIS EST
Positionnement robuste et précis de réseaux d’images.
Soutenue publiquement le 10 janvier 2014 devant le jury composé de :
Adrien BARTOLI Université d’Auvergne Clermont1 Rapporteur
Julie DELON Université Paris Descartes Examinateur
David FOFI Université de Bourgogne Rapporteur
Marc PIERROT-DESEILLIGNY École Nationale des Sciences Géographiques Examinateur
Renaud MARLET École des Ponts ParisTech Directeur de Thèse
Benoît MAUJEAN Mikros Image Encadrant industriel
Pascal MONASSE École des Ponts ParisTech Co-Directeur de Thèse
Luc ROBERT Autodesk ExaminateurÉcole des Ponts ParisTech
LIGM-IMAGINE
6, Av Blaise Pascal - Cité Descartes
Champs-sur-Marne
77455 Marne-la-Vallée cedex 2
France
Université Paris-Est Marne-la-Vallée
École Doctorale Paris-Est MSTIC
Département Études Doctorales
6, Av Blaise Pascal - Cité Descartes
Champs-sur-Marne
77454 Marne-la-Vallée cedex 2
FranceIci, mon cher, c’est adorable, et je découvre tous les jours des choses toujours plus belles. C’est à en devenir
fou, tellement j’ai envie de tout faire, la tête m’en pète. [...] Eh bien, mon cher, je veux lutter, gratter,
recommencer, car on peut faire ce que l’on voit et que l’on comprend, et il me semble, quand je vois la
nature, que je vais tout faire, tout écrire, [...] quand on est à l’ouvrage [...] Tout cela prouve qu’il ne
faut penser qu’à cela.
C’est à force d’observation, de réflexion que l’on trouve. Ainsi piochons et piochons continuellement [...].
Extrait d’une lettre de Claude Monet à Frédéric Bazille écrite en 1864.45
Remerciements
Mes encadrants. Je remercie tout d’abord Benoît Maujean et Renaud Keriven pour
m’avoir offert l’opportunité de réaliser ce travail de recherche au sein du laboratoire
IMAGINE et de l’entreprise Mikros Image. C’est avec un immense plaisir que j’ai pu
travailler sous la direction de Renaud Marlet, Benoît Maujean et Pascal Monasse pour
leurs qualités pédagogiques, scientifiques et humaines. Profitant de leur infaillible soutien
j’ai pu découvrir le monde de la recherche, de l’application de la recherche en industrie
et en apprendre toujours plus sur la vision par ordinateur. Je les remercie pour
leur disponibilité ainsi que leur patience face à mes nombreuses questions, ce qui m’a
permis de réaliser avec confiance ce doctorat.
Comité de thèse. Je remercie Julie Delon, Marc Pierrot-Deseilligny et Luc Robert
d’avoir accepté de faire partie du jury et je remercie tout particulièrement Adrien Bartoli
et David Fofi pour avoir accepté d’être mes rapporteurs, en dépit du travail important
que cela représente.
Mes collègues d’entreprise. Je remercie mes collègues pour les discussions techniques,
les sujets aléatoires abordés, la passion partagée pour la technologie informatique
et les langages de programmation : Lauren Agopian, Marc-Antoine Arnaud, Arnaud
Chassagne, Guillaume Chatelet, Laurent Clavier, Julien Dubuisson, Adrien Dutertre,
Michael Etienne, Thomas Eskenazi, Marie Fétiveau, Antonio Fiestas, Alexandra
Lefève-Gourmelon, Guillaume Maucomble, Valentin Noël, Jules Pajot, Nicolas Provost,
Michael Guiral, Nicolas Rondaud, Élodie Souton. Je remercie les personnes qui se reconnaîtront
pour les nombreux traits d’humour partagés avec plus ou moins de succès.
Je remercie tout particulièrement Bruno Duisit, Christophe Courgeau , Benoît Maujean
et Guillaume Provôt pour avoir participé au projet MiMatte3D de sa genèse à sa réalisation
concrète.
Mes collègues du laboratoire. Je remercie les membres permanents pour tous leurs
conseils et suggestions qu’ils m’ont prodigués : Arnak Dalalyan et Guillaume Obozinski
pour les discussions sur les optimisations convexes, Nikos Paragios pour ses
précieux conseils pour l’écriture de ’rebuttal’, Bertrand Neveu pour toutes les références
que tu as récupérées plus vite que l’éclair.
Je remercie également les post-doctorants, doctorants, futur doctorants et chercheurs
du laboratoire pour la bonne humeur apportée au laboratoire : Martin De La Gorce,
Alexandre Boulc’h, Amine Bourki, Raghudeep Gadde, Mateusz Kozinski, Zhe Liu, Francisco
Vitor Suzano Massa, Yohann Salaün, Olivier Tournaire, Marina Vinyes, Zhongwei
Tang. Je souhaite bonne continuation aux stagiaires que j’ai encadrés. Badis Djellab,
Emmanuel Habbets, Tristan Faure, Luc Girod, Rafaël Marini Silva et Lucas Plaetevoet :
Vous m’avez ouvert l’esprit sur de nouvelles problématiques. Je remercie aussi ceux
qui sont partis vers d’autres horizons avant moi : Achraf Ben-Hamadou, Olivier Collier,
Jamil Drareni, Ferran Espuny et Hoang-Hiep Vu. Je remercie David Ok, Victoria
Rudakova et Pascal Monasse pour avoir fait de l’aventure PRoVisG Mars 3D Challenge
un succès et une expérience inoubliable au Jet Propulsion Laboratory de la NASA. Enfinje remercie Brigitte Mondou et Sylvie Cach pour leur disponibilité et réactivité qui nous
facilitent le quotidien lors des missions et dossiers administratifs.
Mes anciens professeurs. Une pensée à tous mes professeurs qui grâce à leur pédagogie
m’ont insufflé la passion du développement logiciel et de l’imagerie numérique.
Mes amis. Pour leur soutien et encouragements : Antonin P., Cyril L., Nicolas N.,
Philippe M., Michel T., Elvire et Ludovic T..
Ma famille. Je souhaite enfin exprimer ma gratitude envers mes proches qui m’ont
toujours encouragé et mes parents pour m’avoir donné les moyens de réaliser mes
études en adéquation avec mes passions. Enfin, mes plus profonds remerciements vont
vers Fanny, ma chère et tendre, pour la patience et la compréhension dont elle a fait
part durant ces trois dernières années et plus encore pour le bonheur que j’ai de vivre à
ses côtés depuis notre rencontre.
67
Résumé
Calculer une représentation 3D d’une scène rigide à partir d’une collection d’images
est aujourd’hui possible grâce aux progrès réalisés par les méthodes de stéréo-vision
multi-vues, et ce avec un simple appareil photographique. Le principe de reconstruction,
découlant de travaux de photogrammétrie, consiste à recouper les informations
provenant de plusieurs images, prises de points de vue différents, pour identifier les
positions et orientations relatives de chaque cliché. Une fois les positions et orientations
de caméras déterminées (calibration externe), la structure de la scène peut être
reconstruite.
Afin de résoudre le problème de calcul de la structure à partir du mouvement des
caméras (Structure-from-Motion), des méthodes séquentielles et globales ont été proposées.
Par nature, les méthodes séquentielles ont tendance à accumuler les erreurs.
Cela donne lieu le plus souvent à des trajectoires de caméras qui dérivent et, lorsque
les photos sont acquises autour d’un objet, à des reconstructions où les boucles ne se referment
pas. Au contraire, les méthodes globales considèrent le réseau de caméras dans
son ensemble. La configuration de caméras est recherchée et optimisée pour conserver
au mieux l’ensemble des contraintes de cyclicité du réseau. Des reconstructions de
meilleure qualité peuvent être obtenues, au détriment toutefois du temps de calcul.
Cette thèse propose d’analyser des problèmes critiques au cœur de ces méthodes de
calibration externe et de fournir des solutions pour améliorer leur performance (précision,
robustesse, vitesse) et leur facilité d’utilisation (paramétrisation restreinte).
Nous proposons tout d’abord un algorithme de suivi de points rapide et efficace.
Nous montrons ensuite que l’utilisation généralisée de l’estimation robuste de modèles
paramétriques a contrario permet de libérer l’utilisateur du réglage de seuils de détection,
et d’obtenir une chaîne de reconstruction qui s’adapte automatiquement aux données.
Dans un second temps, nous utilisons ces estimations robustes adaptatives et une
formulation du problème qui permet des optimisations convexes pour construire une
chaîne de calibration globale capable de passer à l’échelle. Nos expériences démontrent
que les estimations identifiées a contrario améliorent de manière notable la qualité d’estimation
de la position et de l’orientation des clichés, tout en étant automatiques et sans
paramètres, et ce même sur des réseaux de caméras complexes. Nous proposons enfin
d’améliorer le rendu visuel des reconstructions en proposant une optimisation convexe
de la consistance colorée entre images.
Mots-clefs
calibration ; stéréovision multi-vue ; stéréovision ; estimation robuste ; programmation
linéaire ; vision par ordinateur.89
Abstract
To compute a 3D representation of a rigid scene from a collection of pictures is now
possible thanks to the progress made by the multiple-view stereovision methods, even
with a simple camera. The reconstruction process, arising from the photogrammetry
consist in integrating information from multiple images taken from different viewpoints
in order to identify the relative positions and orientations of each shot. Once
the positions and orientations (external calibration) of the cameras are retrieved, the
structure of the scene can be reconstructed.
To solve the problem of calculating the Structure from Motion (SfM), sequential and
global methods have been proposed. By nature, sequential methods tend to accumulate
errors. This provides most often trajectories of cameras that are subject to drift error.
When pictures are acquired around an object it leads to reconstructions where the loops
do not close. In contrast, global methods consider the network of cameras as a whole.
The configuration of cameras is searched and optimized in order to to best preserve the
constraints of the cyclical network. Reconstructions of better quality can be obtained,
but at the expense of computation time.
This thesis aims to analyse critical issues at the heart of these methods of external
calibration and provide solutions to improve their performance (accuracy , robustness
and speed) and their ease of use (restricted parametrization).
We first propose a fast and efficient feature tracking algorithm. We then show that
the widespread use of a contrario robust estimation of parametric models frees the user
about choosing detection thresholds, and allows obtaining a chain of reconstruction
that automatically adapts to the data. Then in a second step, we use the adaptive robust
estimation and a series of convex optimization to build a scalable global calibration
chain. Our experiments show that the a contrario identified estimates improve signifi-
cantly the quality of the pictures’s positions and orientations, while being automatic
and without parameters , even on complex camera networks. Finally, we propose to
improve the visual appearance of the reconstruction by providing a convex optimization
of the color consistency between images.
Keywords
calibration ; multi-view stereovision ; stereovision ; robust estimation ; linear programming
; computer vision.10SOMMAIRE 11
Sommaire
1 Avant propos 13
1.1 La photogrammétrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2 La photogrammétrie et les effets spéciaux . . . . . . . . . . . . . . . . . . 19
1.2.1 Le Match-moving . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.2.2 La PhotoModélisation/Image-Based-Modeling . . . . . . . . . . . . 21
1.3 Contexte de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2 Introduction 29
2.1 Organisation et contributions du manuscrit . . . . . . . . . . . . . . . . . 30
2.1.1 Contributions théoriques . . . . . . . . . . . . . . . . . . . . . . . 30
2.1.2 Contributions appliquées . . . . . . . . . . . . . . . . . . . . . . . 30
2.1.3 Contributions logicielles . . . . . . . . . . . . . . . . . . . . . . . . 33
2.1.4 Participation à la vie scientifique . . . . . . . . . . . . . . . . . . . 33
2.1.5 Publications de l’auteur . . . . . . . . . . . . . . . . . . . . . . . . 35
3 La géométrie multiples vues et l’estimation de mouvements 37
3.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2 La géométrie caméra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3 La géométrie à 2 vues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4 La géométrie à 3 vues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.5 La triangulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.6 L’estimation de pose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.7 L’ajustement de faisceaux . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.8 La géométrie multiples-vues et l’estimation de mouvements . . . . . . . 49
3.9 La mise en correspondances de points saillants . . . . . . . . . . . . . . . 51
3.9.1 La détection de points saillants . . . . . . . . . . . . . . . . . . . . 52
3.9.2 La description de point saillants . . . . . . . . . . . . . . . . . . . 53
3.9.3 L’appariement de point saillants . . . . . . . . . . . . . . . . . . . 54
3.10 Méthode de fusion rapide de paires de correspondances de points saillants
entre images . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.10.1 Une solution ensembliste pour la construction de traces de points
saillants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.11 Contributions de ce chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4 L’estimation robuste de modèles paramétriques 65
4.1 MAX-CONSENSUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.2 RANSAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.2.1 Limitations et variantes . . . . . . . . . . . . . . . . . . . . . . . . 68
4.3 A Contrario-RANSAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.3.1 Le principe de la détection a contrario . . . . . . . . . . . . . . . . 7212 SOMMAIRE
4.3.2 Mise en correspondance a contrario pour l’estimation de la géométrie
épipolaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.4 Généralisation de la mise en correspondance a contrario pour l’estimation
de modèles paramétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.4.1 Généralisation du calcul du NFA et utilisations . . . . . . . . . . . 78
4.4.2 Application pour l’estimation de la géométrie relative entre deux
images sphériques . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.4.3 Évaluation expérimentale . . . . . . . . . . . . . . . . . . . . . . . 84
4.5 Contributions de ce chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5 Une chaîne de calibration séquentielle 91
5.1 État de l’art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.1.1 Analyse du point clef des méthodes de reconstructions séquentielles
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
5.2 Impact de l’estimation robuste contrainte sur une chaîne de calibration
séquentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.3 Une chaîne de calibration séquentielle a contrario . . . . . . . . . . . . . . 98
5.3.1 Une chaîne adaptative aux bruits des données . . . . . . . . . . . 99
5.4 Résultats et évaluations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.5 Contributions de ce chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.6 Les problématiques posées par les méthodes de calibrations séquentielles 109
6 Une chaîne de calibration globale 113
6.1 État de l’art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
6.2 Une approche pour le passage à l’échelle basée sur des triplets . . . . . . 122
6.2.1 Inférence de graphes de rotations relatives . . . . . . . . . . . . . 123
6.2.2 Calcul de translations relatives stables par l’utilisation de tenseurs
tri-focaux réduits . . . . . . . . . . . . . . . . . . . . . . . . . 128
6.2.3 Fusion de translations relatives sous la norme l∞ pour le positionnement
global rapide d’un réseau de caméras . . . . . . . . . . . 133
6.3 Mise en place de la chaîne de reconstruction . . . . . . . . . . . . . . . . 137
6.3.1 Optimisation pour le passage à l’échelle . . . . . . . . . . . . . . . 140
6.4 Résultats et évaluations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
6.5 Contributions de ce chapitre et perspectives . . . . . . . . . . . . . . . . . 156
7 Amélioration de la consistance colorée 159
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
7.2 État de l’art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
7.3 Une approche d’optimisation convexe pour améliorer la consistance colorée
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
7.3.1 Évaluations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
7.4 Contributions et perspectives . . . . . . . . . . . . . . . . . . . . . . . . . 176
8 Conclusion et perspectives 17913
Chapitre 1
Avant propos
La reconstruction de l’espace tridimensionnel qui nous entoure à partir d’images est
un des défis posés à la vision par ordinateur. Parmi les techniques possibles, la stéréovision
est celle qui est la plus explorée. Son principe, découlant de travaux de photogrammétrie,
est de recouper les informations provenant de plusieurs images prises
de points de vue différents. Autrefois binoculaire et fournissant des informations partielles,
la stéréo-vision est maintenant multi-vues et permet l’obtention de modèles
complets de ce qui est observé. Des méthodes de reconstruction de structure à partir
du mouvement (Structure-from-Motion) ont fait naître des nouvelles perspectives pour
la photographie 3D. Ainsi avec un simple appareil photographique on peut désormais
reconstruire un environnement en trois dimensions. Ce domaine porteur de la vision
par ordinateur ouvre de nouveaux horizons et un champ d’application qui va bien
au delà des besoins initiaux suscités par la robotique. Les applications possibles sont
nombreuses : architecture et urbanisme (DE LUCA 2009), archéologie, métrologie, cartographie,
divertissement (panoramas, visites virtuelles, jeux vidéo interactifs). Les retombées
pour la production cinématographique et les effets spéciaux sont évidemment
multiples.
Les travaux de cette thèse concernent l’application de la stéréo-vision pour la reconstruction
la plus précise possible de décors à partir de photographies pour l’industrie
audio-visuelle.14 1–Avant propos
La captation du réel
Réaliser l’acquisition d’un environnement réel sur un support numérique comporte
trois étapes principales (DE LUCA 2006) :
L’acquisition des données spatiales met en œuvre le relevé de la morphologie, des
dimensions et des aspects de surface de l’environnement étudié. Cette phase peut
utiliser différents dispositifs basés sur le principe de mesure avec ou sans contact
sous différentes configurations. Dans le cas de la photogrammétrie le résultat de
cette phase consiste en un nuage de points (la structure) représentant avec plus ou
moins de densité l’environnement et une série d’images orientées et positionnées
dans l’espace.
La reconstruction tridimensionnelle des surfaces est l’étape de modélisation qui permet
de construire le modèle géométrique de l’édifice en s’appuyant sur les mesures
issues de la phase de relevé. Plusieurs techniques permettent une reconstruction
automatique, semi-automatique ou manuelle des surfaces à partir des
nuages de points. Ces techniques diffèrent en fonction des données d’entrées
qu’elles peuvent traiter et du type de représentations géométriques qu’elles peuvent
générer.
La restitution de l’apparence visuelle s’intéresse à l’enrichissement de la géométrie
issue de la phase de reconstruction. Des attributs capables de décrire les aspects
de surface sont ajoutés sur la reconstruction. Il s’agit principalement d’associer au
modèle 3D les informations photométriques acquises au moment du relevé.15
L’acquisition des données spatiales sous une forme numérique est généralement
réalisée par des méthodes dites de métrologie. Bien que cette thèse se concentre sur
des méthodes de photogrammétrie il est important de citer les différentes méthodes de
numérisation existantes. Il sera ainsi plus facile pour le lecteur de comprendre que la
photogrammétrie est un choix privilégié dans le cadre de ce travail.
Les méthodes d’acquisition du réel peuvent être classifiées en deux catégories : les
méthodes dites avec ou sans contact.
Avec contact. Les méthodes avec contact réalisent la numérisation d’un objet 3D
grâce à un contact physique avec l’objet.
Palpeur
La numérisation est réalisée par le biais d’un palpeur et d’un bras
articulé. Les mesures angulaires sur les articulations de l’arbre
permettent de connaître précisément la position du palpeur et
permettent ainsi de numériser des points de l’espace. Son usage
intrusif envers les objets rend la numérisation d’objets fragiles pé-
rilleuse et l’acquisition d’objets de large dimension impossible.
Un autre désavantage est la fréquence d’acquisition qui est limitée
par l’opérateur lui-même, contraint par la vitesse de déplacement
du bras mécanique. L’acquisition d’une surface dense n’est
donc pas envisageable par un opérateur. Ce type d’acquisition est
le plus souvent limité au milieu industriel et à la vérification de
cotes sur des chaînes de production.
Sans contact. Les méthodes sans contact sont réalisées avec des appareils d’acquisition
distants. On distingue deux méthodes d’acquisition, les méthodes actives et les
méthodes passives.
Méthodes actives :
Télémétrie
Les scanners actifs émettent un rayonnement et détectent sa ré-
flexion afin de sonder un objet ou une scène. Différents types de
source de rayonnement sont utilisés : lumière, ultrason ou rayon
X. Les appareils de mesures les plus connus de cette catégorie
sont les scanners LIDAR (dits à temps de vol) et les scanners 3D
(dits à décalage de phase). Les scanners LIDAR ont une portée
plus grande et une fréquence d’acquisition plus élevée (10 000 à
100 000 points par seconde) que les scanners à décalage de phase.
Ces technologies ont un coût élevé et demandent une formation
pour être utilisées. L’acquisition de larges volumes requiert plusieurs
acquisitions avec la présence de marqueurs cibles à position
fixe pour faciliter les recalages. Ils sont donc assez complexes
à réaliser.16 1–Avant propos
Photogrammétrie
et triangulation
Les scanners dits à lumière structurée utilisent un appareil photo
et une source de lumière contrôlée (un vidéo-projecteur). L’analyse
de la déformation d’un motif lumineux projeté sur l’objet
permet de déterminer le relief de la surface imagée. Selon le
temps et la précision de la reconstruction souhaitées on utilise
un ou plusieurs motifs (lignes, points). La démocratisation de ce
type de scanner a été réalisée avec brio par Microsoft et son produit
Kinect. La Kinect est un scanner 3D qui réalise l’analyse des
déformations en temps réel d’un motif projeté en infrarouge afin
de calculer une carte de profondeur et localiser les positions du
squelette d’un ou plusieurs joueurs. Un inconvénient de ces scanners
est que leur précision est limitée à la zone de netteté de la caméra
et donc seuls de petits espaces peuvent être reconstruits. Ces
méthodes utilisant une source de lumière infrarouge, les acquisitions
se limitent à des espaces intérieurs dans un espace contrôlé
afin de ne pas être perturbées par une source externe de lumière
(soleil).
StéréoPhotométrie
Ici on se place dans un cas similaire au précédent, on considère
toujours un appareil photographique fixe, mais on considère
désormais une source de lumière unique en mouvement. Le
fait d’avoir différentes images avec des conditions d’illumination
différentes permet de déterminer l’état de la surface de l’objet
considéré. Des normales à la surface sont ainsi calculées et une
phase d’intégration permet de déterminer une surface représentant
l’objet observé. Image extraite de WU et al. (2011b).
Méthode passive :
Photogrammétrie
et triangulation
Des images sont capturées autour de l’objet à mesurer. Connaissant
des points en correspondance entre les images, on peut identifier
les positions des caméras et des points 3D correspondants
par triangulation. On identifie ainsi le mouvement des caméras
(orientation et translation) ainsi que la structure (points 3D) de la
scène. Ce problème d’optimisation est résolu par des algorithmes
de calcul de structure à partir du mouvement. Ces points peuvent
être soit des points naturels détectés soit des points identifiés par
des marqueurs cibles posés sur la scène imagée.
La photogrammétrie passive apparaît comme une solution particulièrement intéressante
:
• Le pré requis matériel est faible, seul un appareil photographique est nécessaire,
• Le prix d’un appareil photographique numérique de bonne qualité est moindre
que le prix d’un scanner de type LIDAR,
• Aucune formation particulière n’est nécessaire pour manipuler le matériel,
• La scène observée n’est pas manipulée ou détériorée,
• Aucune source de lumière projetée et aucuns contacts aux objets ne sont nécessaires.1.1–La
photogrammétrie 17
1.1 La photogrammétrie
Le mot photogrammétrie apparaît comme une évolution du mot, «métrophotographie»,
apparu en 1850 par le biais d’Aimé Laussedat. Le terme se popularise ensuite
à l’échelle européenne puis internationale en photogrammétrie sous l’impulsion allemande
du photographe Otto Kersten et de l’ingénieur civil Albrecht Meydenbaeuer
(WOCHENBLATT 1867) comme illustré sur la figure 1.1. L’idée originale est de réaliser
des relevés métriques de bâtiments ou terrains à partir de photographies.
La photogrammétrie a ensuite évoluée en commençant sur des travaux basées sur
de la stéréovision (stereoscopic viewing) et les travaux de Carl Pulfrich sur le stereocomparator
créé en 1901 (cf. FRITSCH (2006)). L’acquisition de données topographiques
a été initiée par des pionniers comme Nadar en 1858 avec l’acquisition d’images aé-
riennes en ballon à des fins militaires. Par la suite, d’autres techniques d’acquisitions
ont suivi. Durant la première guerre mondiale, des cerf-volants, avions et même des pigeons
(PHOTOGRAPHIQUES 1910) ont servi de moyens de transport pour l’acquisition
et la reconnaissance de terrains. Cette période a permis de découvrir et de proposer des
solutions de correction pour la rectification et l’utilisation d’images stéréographiques.
Dans une seconde phase, le développement de la géométrie algorithmique projective,
la connaissance avancée du calcul matriciel et de l’algèbre linéaire ont donné naissance
à la photogrammétrie analytique (KRUPPA 1913) et à la théorie de l’ajustement de
faisceaux (BROWN 1976 ; SLAMA et al. 1980 ; TRIGGS et al. 2000). L’ajustement de faisceaux
est le processus qui consiste à optimiser simultanément la trajectoire de la caméra
et la structure de la scène. La photogrammétrie étant gourmande en calculs numériques
son utilisation a été grandement facilitée par l’arrivée de l’ordinateur.
Le troisième fait marquant dans l’histoire de la photogrammétrie est l’apparition
de la version moderne de la camera obscura (Aristote) : l’appareil photographique numérique
(GARETH A. LLOYD et STEVEN J. SASSON 1978). L’acquisition numérique et
l’accessibilité à des solutions de stockage de plus en plus grandes se sont tellement dé-
mocratisées que l’on a observé une scission des communautés de recherche en fonction
du style d’acquisition et d’application (cf. figure 1.1). On note après 1970 la pleine croissance
de la photogrammétrie aérienne et la télé-détection : (remote sensing), puis plus
tard l’apparition du terme Structure from Motion (SfM) et digital photogrammetry dans
les années 1980-90. Cette disparité temporelle a été observée car au début les appareils
photographiques numériques n’étaient accessibles qu’à la communauté acquisition aé-
rienne. Dans un second temps l’appareil photographique numérique est devenu grand
public et la photogrammétrie au sol (SfM, close-range photogrammetry) alors a pu se dé-
mocratiser.
photogrammetry structure from motion remote - sensing
1870 1875 1880 1885 1890 1895 1900 1905 1910 1915 1920 1925 1930 1935 1940 1945 1950 1955 1960 1965 1970 1975 1980 1985 1990 1995 2000
0.00%
0.000004%
0.000008%
0.000012%
0.000016%
0.00002%
digital photogrammetry
FIGURE 1.1 – Nombre d’occurrences des mots photogrammetry, structure-from-motion et
remote-sensing dans les ouvrages référencés par Google© entre les années 1860 à 2000.
Nous sommes actuellement dans une quatrième phase de la photogrammétrie : une
phase applicative. Nous pouvons observer que la communauté de la vision par ordinateur
à fait mûrir des techniques et des applications qui sont désormais utilisables de18 1–Avant propos
manière stable par tout un chacun. On notera que certaines applications permettent de
nos jours :
De créer une image panoramique depuis nos téléphones mobiles,
De chercher de l’information en photographiant une pochette de disque ou une af-
fiche : LTU Technologies 1
, Kooaba 2
,
De jouer de manière interactive avec un avatar virtuel imitant nos mouvements sur
notre télévision (Microsoft Kinect).
Une utilisation concrète de la photogrammétrie et de la vision par ordinateur à très
large échelle est le logiciel Google Maps. Cette application permet de visualiser la surface
de notre planète à travers notre navigateur Internet (une couverture intégrale du
globe en basse définition est disponible depuis 2005). La résolution en mode de visualisation
aérienne est telle que l’on peut observer sa propre maison ou compter les piétons
sur une place. L’inclusion récente des rues avec StreetView en 2007 permet de naviguer
dans les rues d’une ville, de visualiser concrètement la situation d’un monument ou
d’un magasin comme si on y était. Même si les informations actuellement proposées
sont en majorité seulement en 2 dimensions, des représentations 3D sont d’ores et déjà
en préparation ou visibles pour certaines villes du globe. La technologie de numérisation
3D de villes est en passe d’être mûre pour des applications concrètes comme l’ont
montrés les sociétés "C3 Technologies" et Acute3D 3
.
Le futur laisse entrevoir des solutions libres de partage et création de carte 3D
à l’instar d’OpenStreetMap auxquelles des utilisateurs ordinaires peuvent contribuer
pour apporter de l’information. Le fait que l’acquisition humaine soit limitée au sol
est aussi en phase de changement. Les moyens de transport suivant l’évolution aé-
ronautique au plus proche (ballons radiocommandés dirigeables, drones et UAV), le
futur laisse imaginer que l’acquisition aérienne sera réalisable par tout un chacun dans
quelques années avec un simple drone tel que le "Teeny, Tiny Crazyflie Nano Quadcopter"
développé en 2012 (cf. figure 1.2).
FIGURE 1.2 – De gauche à droite : Nadar et son ballon 1858, un pigeon photographe
1910, un drone Parrot 2010, un micro UAV 2012.
Cette obsession de recréer le réel pour en redéfinir l’usage est le but principal visé
par l’industrie audiovisuelle. Voyons les usages de la photogrammétrie pour la création
d’effets spéciaux.
1. LTU Technologies http://www.ltutech.com/fr/
2. Kooaba http://www.kooaba.com/
3. Acute3D http://www.acute3d.com1.2–La photogrammétrie et les effets spéciaux 19
1.2 La photogrammétrie et les effets spéciaux
Pour le domaine des effets spéciaux, le terme photogrammétrie est interprété comme :
une méthode pour acquérir une représentation manipulable d’un environnement. On
cherche à acquérir le réel pour en détourner l’usage. L’intérêt est d’obtenir des copies
numériques pour réaliser des trucages. Une collection de bâtiments (DE LUCA 2006)
ou d’objets et personnages (BHAT et BURKE 2011) peut être ainsi créée et détournée
(cf. figure 1.3). Les budgets étant souvent serrés la photogrammétrie s’impose comme
un choix avant tout financier. Le prix d’un appareil photo numérique est bien moins
élevé que celui d’un laser 3D d’acquisition LIDAR. Un autre avantage technique est le
fait que le support photographique apporte la représentation photo-réaliste tandis que
les LIDARs ne possèdent pas tous une caméra coaxiale pour acquérir avec précision la
couleur de chaque point 3D numérisé. Cependant malgré le fait que les techniques de
photogrammétrie semblent relativement mûres on réalise que l’usage de la technologie
n’est pas encore aisée pour les besoins spécifiques des effets spéciaux.
(a) (b)
FIGURE 1.3 – (a) La structure d’un bâtiment re-créée à partir de photographies (DE
LUCA 2006). (b) Copie numérique d’un acteur par la société Agence de Doublure Numérique
(image du Figaro).
Les objectifs principaux liés aux effets spéciaux mêlant réel et virtuel sont les suivants
:
– l’estimation du mouvement d’une caméra vidéo, Match-moving :
insertion d’éléments virtuels de manière réaliste sur une vidéo de tournage.
– La photo-modélisation, Image-Based-Modeling IBM :
la création d’une copie numérique d’un environnement à partir de photographies.20
1–Avant propos
1.2.1 Le Match-moving
Le match-moving/motion-tracking est une technique utilisée pour identifier la trajectoire
d’une caméra à partir d’une séquence vidéo. Ayant la connaissance d’une caméra
virtuelle il est possible de faire bouger des objets 3D qui auront un mouvement en cohérence
avec la vidéo. La fusion de la scène réelle avec la scène virtuelle (compositing)
donne alors l’impression qu’elles ont été filmées du même point de vue. On notera deux
catégories de match-moving en fonction des dégrés de liberté du mouvement recherché :
le suivi 2D dit bidimensionnel et le suivi 3D dit tridimensionnel.
Le suivi de mouvement bidimensionnel est disponible dans des logiciels tels que
Adobe After Effects, Discreet Combustion et Shake. Cette technique se limite au suivi
du mouvement de points particuliers choisis par l’utilisateur dans les images de la
séquence. Une fois le mouvement de ces points identifié il est appliqué à de nouveaux
objets venant occulter la vidéo avec un nouveau contenu. Cette technique est suffisante
pour des surfaces planes, des mouvements de caméras simples et si il n’y a pas eu de
changements importants des paramètres de la caméra. L’usage le plus classique est le
remplacement d’un panneau publicitaire placé en arrière-plan d’une séquence vidéo
par une autre image.
Le suivi de mouvement tridimensionnel va quant à lui extrapoler les informations
tridimensionnelles (le mouvement de caméra) à partir de photographies bidimensionnelles
(la séquence vidéo). Le processus d’estimation de la trajectoire de la caméra requiert
l’estimation de contraintes de géométrie projective et l’application du processus
d’ajustement de faisceaux. Les points suivis sont la plupart du temps précisés par l’opé-
rateur. Des méthodes automatiques existent pour identifier certains points saillants,
mais dans la plupart des cas des retouches manuelles sont nécessaires si la séquence vidéo
présente des éléments en désaccord de mouvement. En effet les méthodes couramment
utilisées considèrent en pré-requis que la scène observée est statique. L’opérateur
vient alors supprimer les points qui ne sont pas sur la scène rigide : objets ou acteurs
en mouvement.
Parmi les logiciels capables d’effectuer un match moving tridimensionnel on peut
citer :
• 2d3 Boujou,
• Blender (depuis la version 2.61),
• Icarus (logiciel gratuit),
• Maya Live (Module de Maya Unlimited),
• PixelFarm PFTrack (réincarnation commerciale d’Icarus),
• Realviz MatchMover (racheté par Autodesk),
• Ssontech SynthEyes,
• Science.D.Visions 3DEqualizer,
• Voodoo (logiciel gratuit),
• VooCAT (logiciel commercial, réincarnation commerciale de Voodoo),
• VideoTrace.
Le marché du logiciel est assez diversifié. Des alternatives (commerciales, gratuites
et open-source) existent et montrent que le marché est large et demandeur. Le suivi de
mouvement de scène non rigide est quant à lui un domaine encore en évolution et de
ce fait aucune solution logicielle commerciale n’est présente sur le marché.1.2–La photogrammétrie et les effets spéciaux 21
1.2.2 La PhotoModélisation/Image-Based-Modeling
Dans le cas de l’Image-Based-Modeling on recherche à créer une représentation photoréaliste
3D des éléments photographiés. Une solution logicielle doit être identifiée pour
les trois étapes évoquées au début de ce chapitre : l’acquisition des données spatiales,
la reconstruction tridimensionnelle des surfaces, la restitution de l’apparence visuelle
(cf. figure 1.4).
FIGURE 1.4 – Les étapes nécessaires pour la photo-modélisation : la calibration pour
acquérir les données spatiales, la photo-modélisation pour reconstruire une surface et
enfin le calcul de la restitution visuelle colorée.
L’application de la photogrammétrie pour la reconstruction de bâtiment comme élé-
ment de décor 3D pour le domaine des effets spéciaux a été initiée par DEBEVEC et al.
(1996) avec son logiciel FAÇADE. Les auteurs proposent d’optimiser simultanément la
reconstruction tridimensionnelle de surfaces planes et le placement des caméras dans
l’espace. Les entrées de l’algorithme sont des primitives géométriques, comme des parallélépipèdes,
placées manuellement par l’utilisateur dans les images sur les formes
d’un bâtiment. En connaissant la projection d’une série de plan et de contraintes orthogonales,
des blocs 3D et images sont ainsi orientés et placés dans l’espace. Dans
un second temps, un raffinement manuel de la géométrie et une projection de texture
permet d’enrichir le détail du modèle 3D (cf. figure 1.5).
FIGURE 1.5 – Le logiciel FAÇADE (de gauche à droite) : les arêtes des parallélépipèdes
utilisées, la reconstruction 3D obtenue et le rendu photo-réaliste.22 1–Avant propos
A la suite de ce projet, trois classes de solutions ont émergé :
1. des solutions de reconstruction 3D par saisie manuelle,
2. des solutions automatiques avec le mûrissement des techniques de photogrammétrie,
3. des solutions semi-automatiques permettant d’intéragir avec les résultats obtenus
de manière automatique.
1.Les solutions par saisie manuelle
Quatre solutions logicielles de reconstruction 3D par saisie manuelle ont émergé sur le
marché :
– Canoma 1999
Évolution commerciale de FAÇADE (DEBEVEC et al. 1996). Cette solution a
disparu du marché suite au rachat mené par MetaCreations puis par Adobe Systems
en 2000.
– Eossystems PhotoModeler 1993
Précurseur sur le marché, le logiciel ne cesse d’évoluer depuis.
– RealViz Image Modeler 2000
Transfert technologique issu de l’INRIA (Projet Robotvis). Racheté par Autodesk
en 2009.
– Banzai Pipeline Ltd Enwaii 2008
Conception d’un logiciel dédié pour les contraintes liées à la production des
effets spéciaux. La solution s’intègre à un outil métier de la production visuelle :
Autodesk Maya.
Ces solutions requièrent que l’utilisateur saisisse des informations en correspondance
entre images (le plus souvent des points). Ces points sont utilisés pour la phase de
calibration, des caméras sont ainsi positionnées dans l’espace et des points 3D très
éparses sont reconstruits. Dans un deuxième temps, l’utilisateur peut réaliser à la main
la photo-modélisation. Des faces sont ainsi saisies entre les points 3D (amers). Cette
tâche reste un travail de longue haleine mais permet un contrôle précis sur les amers
3D utilisés et permet de guider la modélisation à faible nombre de polygones.
FIGURE 1.6 – ImageModeler : De gauche à droite, les images sources, les points et la
géométrie saisies manuellement, la restitution colorée.1.2–La photogrammétrie et les effets spéciaux 23
2.Les solutions automatiques
Par la suite, le développement des techniques de photogrammétrie a permis l’émergence
de solutions automatiques. Ces solutions ont vu le jour grâce à :
– une évolution marquante de la stabilité de la recherche de points saillants communs
entre images (SIFT : LOWE (1999)).
– l’évolution des algorithmes de structure à partir du mouvement (POLLEFEYS et al.
2000 ; BROWN et LOWE 2005a ; SNAVELY et al. 2006).
Ces améliorations notables ont permis de réaliser automatiquement :
– le calcul de la pose d’images dans l’espace,
– la création d’un nuage de points dense représentant la scène,
– la création d’une surface représentant la scène,
– la projection des images sources sur une surface pour une représentation photoréaliste.
Des résultats très réalistes peuvent être obtenus si les photographies acquises sont
en adéquation en résolution et netteté pour les détails que l’on souhaite obtenir (cf.
figure 1.7).
FIGURE 1.7 – Création d’une copie numérique d’un visage à partir de 20 images, merci
à Cédric Guiard, Gilles Gambier et Pierre Lelièvre de ADN (Agence de Doublure Numérique)
pour l’acquisition de ces images.24 1–Avant propos
Les logiciels suivants sont apparus par la suite (liste non exhaustive) :
Société Produit lancement Pays Transfert de technologie
Metria Orthoware 2007 Espagne Université de Valence
Microsoft Photosynth 2008 USA Université de Washington
Agisoft Photoscan 2010 Russie ?
Eossystems Photomodeler 2010* Canada ?
Autodesk PhotoFly 2011 France Realviz
Acute3D SmartCapture 2011 France ENPC (IMAGINE)
Pix4D PixelScanner 2011 Suisse EPFL (Cvlab)
3DFlow 3DFZephyr 2012 Italie Université de Vérone
Aurvis PixelScanner 2013 Turquie Doctorant EPFL (Cvlab)
TABLE 1.1 – Listes des solutions commerciales pour la photogrammétrie automatique.
*Intégration de composants automatiques depuis 2010.
On remarque que les 3/4 des solutions sont issues de savoir-faire académique et
d’universités et que ces solutions automatiques émergent toutes dans les deux premières
décennies des années 2000. Les ruptures significatives des dernières années citées
au début de cette section montrent que la photogrammétrie est stable pour la réalisation
d’applications concrètes et que le calcul de structure à partir du mouvement est
donc en passe de devenir accessible pour le plus grand nombre.
Le fait le plus marquant qui démontre que la technologie est attractive est le projet
Photosynth. Ce projet, basé sur une collaboration de Microsoft avec l’université de
Washington et les travaux de SNAVELY et al. (2006) : "Photo tourism, exploring photo
collections in 3D", permet d’explorer de manière interactive ses collections de photos
personnelles en 3D. Le navigateur web est alors transformé en interface de navigation
où l’on se promène en 3 dimensions d’image à image (cf figure 1.8). Microsoft a su
mettre la technologie en accès libre via une plateforme de démonstration Internet pour
la visualisation et un logiciel client pour réaliser les calculs de photogrammétrie. Malgré
le fait que le résultat du calcul ne soit utilisable qu’à travers une interface Internet
et non téléchargeable, cette application a fortement démocratisé la reconstruction 3D à
partir de photographies.
FIGURE 1.8 – Photosynth : une interface de navigation sur une collection d’images positionnée
en 3 dimensions.1.2–La photogrammétrie et les effets spéciaux 25
3.Les solutions semi-automatiques
Quelques solutions semi-automatiques ont été proposées par le milieu académique
mais elles ne sont pas encore apparues dans des logiciels commerciaux. Elles proposent
de faciliter les étapes de photo-modélisation en proposant des amers initiaux afin de
faciliter la création de primitives géométriques. Deux solutions sont illustrées ici : PhotoModel
et O-Snap.
PhotoModel. (SINHA et al. 2008) considère une scène calibrée. Le logiciel utilise les
données suivantes :
– des caméras positionnées et orientées dans l’espace,
– un nuage de point initial,
– des lignes reconstruites en 3D (lignes de fuite détectées dans les images).
Lorsque l’utilisateur souhaite dessiner une facette 3D, il dessine les contours de cette
face sur l’image de son choix. La position 3D de la face est alors interprétée automatiquement
en fonction des données 3D visibles projetées à l’intérieur du polygone utilisateur.
Une équation de plan 3D est ainsi déterminée automatiquement en ayant utilisé
que peu d’interactions utilisateur, saisie dans une seule image (contrairement aux mé-
thodes manuelles vues précédemment).
(a)Images (b) Saisie 2D (c) Modèle 3D (d) Modèle 3D texturé
FIGURE 1.9 – PhotoModel : une interface de photo-modélisation qui se base sur des
interactions utilisateur et le support 3D de points et lignes de fuite.
O-Snap. (ARIKAN et al. 2013) propose une interface de modélisation qui utilise
seulement le nuage de point 3D. La reconstruction 3D polygonale peut être interactivement
raffinée par l’utilisateur. Un modèle initial est automatiquement créé via la
génération d’hypothèses de polygones plans les plus probables. L’utilisateur guide ensuite
la méthode automatique, vers le résultat qu’il souhaite, en indiquant des relations
d’adjacences entre polygones pour former la géométrie désirée (exemple : les connections
entre les murs et toits de la figure 1.10).
FIGURE 1.10 – Un aperçu de la chaîne semi-automatique de modélisation O-Snap. De
gauche à droite : Un nuage de point bruité et incomplet est décomposé en une sélection
de plans. Des relations d’adjacences de polygones proches sont identifiées afin de les
connecter et de raffiner le modèle. L’utilisateur guide ensuite le processus automatique
en rajoutant manuellement des relations d’adjacences. Un modèle à faible nombre de
polygones représentant le nuage de points 3D peut ainsi être reconstruit.26 1–Avant propos
La photogrammétrie et la photo-modélisation pour les effets spéciaux
Lorsque l’on regarde les solutions existantes, on constate qu’une seule solution est
pour l’instant dédiée au monde des effets spéciaux audiovisuels. Il s’agit de la solution
«Enwaii» proposée par «Banzai Pipeline Ltd.». Bien que la solution soit entièrement
manuelle, elle présente l’avantage de s’intégrer directement à un outil métier utilisé
dans le domaine : Autodesk Maya. Cette solution propose une alternative pour prendre
en compte les contraintes liées à la production de contenus multimédias pour l’industrie.
Cependant les solutions manuelles présentent un défaut majeur : c’est le niveau
d’implication de l’utilisateur qui conditionne la précision de saisie des correspondances
et donc la qualité du résultat obtenu. Les étapes de calibration et modélisation étant manuelles,
l’utilisateur doit être formé afin de produire de bons résultats. Un utilisateur
avisé sera à même d’obtenir de bien meilleurs résultats qu’un novice.
Les solutions automatiques, comme Agisoft Photoscan, demandent quant à elles
peu de formation, mais en contre partie ne donnent pas de contrôle à l’utilisateur sur
la chaîne de traitement. Lorsqu’un jeu de photographies ne permet pas l’obtention de
modèle 3D automatique, l’utilisateur ne peut obtenir aucun résultat.
L’idéal pour le marché de la postproduction audioviselle serait une solution semiautomatique
fonctionnant de l’acquisition photographique sur site à la production du
contenu 3D final. L’utilisateur pourrait alors guider le processus automatique sur des
jeux d’images restreint ou au contraire être guidé sur des jeux de données comportant
de nombreuses images.
1.3 Contexte de la thèse
Cette thèse CIFRE commencée en octobre 2010 a été effectuée au sein du groupe de
recherche IMAGINE pour la tutelle laboratoire et de l’équipe recherche et développement
de MIKROS IMAGE pour la tutelle entreprise.
IMAGINE. Le groupe de recherche IMAGINE est un projet collaboratif entre l’École
des Ponts Paristech et Chaussée (ENPC) et du Centre Scientifique et Technique du Bâtiment
(CSTB). Ce groupe de recherche appartient au Laboratoire Informatique Gaspard
Monge (LIGM) de l’Université Paris-Est Marne-la-Vallée (UPEM). L’expertise d’IMAGINE
se situe en vision par ordinateur, en traitement de maillage, en apprentissage
statistique, en optimisation, et en programmation par contraintes. Une partie des travaux
actuels concerne les thématiques suivantes :
– La reconstruction haute précision de surfaces 3D à partir de grandes quantités
d’images acquises sous des conditions non contrôlées. Expertise transférée en
2011 au sein de l’entreprise Acute3D par Renaud Keriven et Jean-Philippe Pons.
– L’amélioration des méthodes de calibration de caméra par le biais de l’utilisation
de méthodes statistiques avec le projet ANR Callisto. Ce projet, en collaboration
avec le CNES est réalisé dans le cadre du projet MISS (Mathématiques de l’Imagerie
Satellitaire Spatiale).
– L’interprétation des images et leur sémantisation pour reconstruire des façades
de bâtiments riches d’informations (fenêtres, portes, ...).
Le travail de l’équipe IMAGINE a été notamment remarqué à l’échelle internationale
grâce à des résultats en reconstruction de surface et d’algorithmes de stéréo-vision
multiple-vues denses (HIEP et al. 2009). Les reconstructions les plus précises et les plus1.3–Contexte de la thèse 27
complètes ont été obtenues sur le jeux de données de référence mise en place par le CVLAB
de l’EPFL (STRECHA et al. 2008). L’équipe a également obtenu en 2011 le premier
prix au challenge ”PRoVisG Mars 3D Challenge” consistant à évaluer la précision de
reconstruction de la trajectoire d’un robot terrestre et martien.
Mikros Image. Créé en 1985, Mikros Image est un prestataire de services spécialisé
dans les effets numériques visuels. Mikros Image gère pour ses clients plus de 300
projets par an tous domaines confondus, depuis la supervision de tournage, jusqu’à
la finalisation de films de cinéma, de spots de publicité, de programmes de télévision
ou de contenus pour Internet et la téléphonie mobile. La gamme de services proposée
comprend :
– Effets spéciaux et images de synthèse 2D & 3D,
– Animation,
– Montage et conformation,
– Étalonnage, transferts de support numériques/argentiques et argentiques/numériques,
masterisation,
– Laboratoires vidéo, film & compression,
– Gestion d’actifs et outils de transmission numérique.
Mikros Image est une filiale à 100% de la société MTC (Multimédia Télévision Cinéma),
dont le capital est majoritairement détenu depuis octobre 2006 par la société
italienne Mediacontech, cotée à Milan. Son effectif compte plus de 100 salariés fixes et
environ 50 intermittents free-lances.
Mikros Image possède des antennes dans quatre pays : France, Belgique, Luxembourg,
Canada. Depuis 1999, Mikros Image possède une activité de recherche et développement
qui mobilise environ 10% de l’effectif de la société. Ses outils «maison» permettent
d’augmenter ses capacités de production, d’optimiser la qualité de ses réalisations
et d’offrir de nouveaux services, notamment pour son développement stratégique
et commercial. Certaines de ses applications sont développées avec des partenaires industriels
ou universitaires, dans le cadre de projets collaboratifs. Le financement de ses
outils est en partie assuré par des organismes de soutien public à l’innovation.
Mikros Image se trouve sur un marché en pleine expansion. En effet, les films et les
publicités utilisent de plus en plus d’effets visuels. De plus, compte tenu de la variation
du degré d’exigence au niveau du rendu final en raison de budgets variables, de jeunes
entreprises émergent sur ce climat concurrentiel tendu. La valeur ajoutée de Mikros
Image reste sa capacité à mener à bien des projets complexes, dans un temps imparti et
avec un budget donné.28 1–Avant propos29
Chapitre 2
Introduction
Le problème de la reconstruction 3D par stéréo-vision à partir de caméras multiples
calibrées capturant une scène fixe est étudié depuis plusieurs décennies. Les travaux
initiés par (BEARDSLEY et al. 1996) puis étendus par (POLLEFEYS et al. 2000 ; BROWN et
LOWE 2005a ; SNAVELY et al. 2006) ont démontré qu’il est possible d’estimer de manière
séquentielle la structure à partir du mouvement d’une ou plusieurs caméras. Le principe
de reconstruction, découlant de travaux de photogrammétrie, consiste à comparer les
informations provenant de plusieurs images, prises de points de vue différents, pour
identifier les positions et orientations de chaque cliché (le mouvement) puis la géomé-
trie de la scène (la structure). Il a été démontré sur des jeux de données comportant une
vérité terrain (STRECHA et al. 2008) que les résultats de reconstruction sont quantitativement
comparables à des acquisitions lasers. Des erreurs de localisation de caméras
de l’ordre du centimètre ou millimètre ont été mesurées.
Cependant l’application de ces mêmes méthodes séquentielles sur de larges jeux
d’images n’est pas simple. Le passage à l’échelle n’est alors atteignable qu’en ayant
recours à diverses approximations. Des implémentations massivement parallèles sont
utilisées pour accélérer la recherche de correspondances entre images (AGARWAL et
al. 2009). Des solutions dédiées pour l’ajustement non linéaire de paramètres sur GPU
sont utilisées (WU et al. 2011a). Des localisations GPS approximatives peuvent être utilisées
pour certaines images (CRANDALL et al. 2011) ou bien des informations GPS sont
combinées avec des plans de cadastre issus de bases de données GIS (système d’information
géographique) (STRECHA et al. 2010). Toutes ces approximations permettent
effectivement de traiter des jeux de données de plus en plus grands, mais ce passage
à l’échelle est réalisé au détriment de l’estimation de la position des caméras. Une pré-
cision moyenne de l’ordre du mètre est alors obtenue sur de larges jeux de données
(CRANDALL et al. 2011 ; WU 2013).
Le principal défaut de ces méthodes séquentielles est l’accumulation d’erreurs due
à la nature du processus. On observe des dérives lors de l’estimation des poses. Une
trajectoire circulaire est ainsi souvent identifiée en spirale. Des méthodes considérant
les poses de caméras de manière globale ont été développées (OLSSON et ENQVIST
2011 ; MARTINEC et PAJDLA 2007) pour supprimer ce phénomène de dérive, mais une
fois de plus le passage à l’échelle n’est pas aisé.
Ces méthodes d’estimation de pose et orientation de caméras possèdent des limitations
sur les points suivants :
• la robustesse,
• la précision,
• le passage à l’échelle.30 2–Introduction
Nous proposons dans cette thèse des solutions alternatives pour chacune de ces
limitations. Nous démontrerons l’impact positif des solutions proposées, en termes de
performances quantitatives et de temps de calcul.
2.1 Organisation et contributions du manuscrit
Cette thèse concentre son étude sur l’estimation de structure à partir du mouvement
(SfM) dans le cadre d’une application pour la postproduction audiovisuelle et
plus particulièrement la reconstruction de décors. Elle se focalise sur l’estimation pré-
cise de poses des caméras afin d’obtenir la meilleure représentation 3D possible de
l’environnement photographié.
La thèse s’articule autour de contributions sur les axes suivants :
• le suivi de points saillants dans des images non ordonnées,
• la généralisation de l’utilisation d’un estimateur robuste statistique de modèles
paramétriques,
• la vérification de l’impact, à large échelle, d’estimateurs robustes adaptatifs dans
les méthodes de calibration séquentielles,
• la robustesse et le passage à l’échelle pour l’estimation globale de la position d’un
réseau de caméras,
• l’harmonisation colorée d’un ensemble d’images multiple-vues.
2.1.1 Contributions théoriques
Les contributions théoriques sont axées sur :
1. Une généralisation des travaux de MOISAN et STIVAL (2004) et RABIN (2009) :
Nous proposons de généraliser le cadre d’estimation robuste de modèle paramétrique
défini par MOISAN et STIVAL (2004) afin de pouvoir utiliser cette estimation
robuste adaptative à la reconstruction 3D. Nous montrerons que la formulation
générique permet de réaliser des estimations de poses relatives, de matrices
de projection, de tenseurs tri-focaux. Nous proposerons des travaux préliminaires
pour explorer une paramétrisation a contrario d’erreurs angulaires appliquée à
l’estimation de pose relative d’images sphériques.
2. L’utilisation d’optimisation convexe pour garantir l’obtention d’un minima global
:
Nous proposons de réaliser par minimisation convexe la fusion de translations
relatives dans un repère global commun sous norme l∞ afin de calibrer
globalement en position un réseau de caméras. Nous présenterons finalement
un ajustement d’histogrammes via une déformation linéaire sous norme l∞ pour
l’harmonisation colorée d’une séquence d’images.
2.1.2 Contributions appliquées
Dans le cadre d’un projet de recherche et innovation, «Mimatte3D», nous avons dé-
veloppé une chaîne de reconstruction 3D prenant en compte les besoins métiers liés à
la postproduction audiovisuelle. Des outils permettant à l’utilisateur de guider le processus
automatique de reconstruction ont été réalisés (cf. figure 2.1). Ce projet subventionné,
OSEO-CNC-RIAM - 2012, a été réalisé par Benoit MAUJEAN, Bruno DUISIT,2.1–Organisation et contributions du manuscrit 31
Pierre MOULON et Christophe COURGEAU. Ce projet s’implique dans la vision industrielle
liée à cette thèse CIFRE.
Contributions
FIGURE 2.1 – Chaîne de traitement MiMatte3D pour l’aide à la construction de décors.
La chaîne «Mimatte3D» propose une suite d’outils pour l’aide à la reconstruction de
décor virtuel photo-réaliste à partir de photos s’intégrant le plus facilement aux outils
métiers des mattes-painters, les créateurs de décors. Le projet débouche sur les outils
suivants :
• MILINK : un outil de visualisation et édition de réseau de connections d’images
pour l’aide à la suppression de mises en correspondances d’images aberrantes,
• MICALIB : une chaîne de calibration externe séquentielle et une chaîne de calibration
globale,
• MIMODE : une interface d’aide à la photo-modélisation,
• MIMATTEIMPORTER : une interface de la géométrie de calibration pour le logiciel
d’édition 3D Autodesk Maya (caméras, nuages de points, plan images),
• MIPROJCAM : un outil de projection de texture sur de la géométrie pour le logiciel
d’édition 3D Autodesk Maya.
FIGURE 2.2 – Haut : une partie des images utilisées pour la reconstruction photoréaliste.
Bas : la calibration externe, la photo-modélisation et la restitution visuelle.32 2–Introduction
Cette chaîne réalisée pour le compte de Mikros Image est basée sur la librairie open
source OpenMVG réalisée pendant cette thèse.
Les figures 2.3, 2.4 illustrent des exemples de reconstruction de décors réalisés à
partir de collections d’images dans la phase finale du projet OSEO-CNC-RIAM - 2012 :
FIGURE 2.3 – Modélisation de la Mairie de Montrouge réalisée à partir de 20 images
acquises à partir d’un téléphone mobile.
FIGURE 2.4 – Modélisation de l’église du village de Ault réalisée à partir de 109 images.2.1–Organisation et contributions du manuscrit 33
2.1.3 Contributions logicielles
– PPT-GUI (Python Photogrammetry Toolbox)
Ce projet co-développé en collaboration avec Alessandro Bezzi et Luca Bezzi
d’ARC-TEAM permet un accès simplifié à des outils open-source de photogrammétrie
(Bundler (SNAVELY et al. 2006), CMVS (FURUKAWA et al. 2010), PMVS
(FURUKAWA et PONCE 2010)) sous les systèmes d’exploitation Linux et Windows.
Ce projet est intégré à la distribution Linux ArcheOS dédiée aux archéologues et
utilisé avec succès pour de nombreux projets de reconstitution faciale (cf. figure
2.5).
FIGURE 2.5 – Projets de reconstitution faciale menés par Cicero Moraes à partir de photographies
de crânes reconstitués en 3D via l’utilisation de PPT-GUI et Blender.
–
VG
VG
VG
openMVG (Open-source MultipleViewGeometry) est une bibliothèque C++
open-source conçue pour la recherche reproductible en vision par ordinateur. Elle
fournit une implémentation de l’état de l’art et un accès facilité aux outils communs
utilisés en géométrie multi-vues. La bibliothèque est multiplateforme, peut
être compilée sous Windows, Linux, MacOS et est utilisable sur des architectures
de type ARM (Apple Iphone iOS). Cette bibliothèque contient le code relatif aux
publications CVMP2012, ACCV 2012 et IPOL 2012. La qualité de ce projet est évaluée
dans le temps par une machine d’intégration continue et une série de tests
unitaires garantissant la non régression des fonctionnalités délivrées.
2.1.4 Participation à la vie scientifique
Récompenses :
• Le 31/10/2011 le groupe Imagine remporte le premier prix du PROVISG Mars 3D
Challenge. La compétition portant sur 3 thématiques :
1. la reconstruction de cartes de disparité,
2. la reconstruction de trajectoires de caméras à partir d’images acquises par
un robot,
3. la reconstruction 3D de la géométrie de la scène observée par le robot (cf.
figure 2.6),
nous a désignés vainqueurs parmis les 6 équipes participantes. Les évaluations
ont été réalisées sur des images du CNES et du robot martien «MER Mars Exploration
Rovers», fournies par le comité organisateur (le CMP (Center for Machine
Perception) de l’université CTU de Prague).34 2–Introduction
FIGURE 2.6 – Exemple de la reconstruction 3D d’un artefact de la planète Mars que nous
avons pu réaliser à partir d’images du robot MER fournies par le comité organisateur.
Les résultats ont été présentés à la conférence ICCV en 2011 au groupe de travail
«CVVT :E2M – Computer Vision in Vehicle Technology : From Earth to Mars»
et publié dans le journal de la conférence. Je tiens à remercier David Ok, Victoria
Rudakova et Pascal Monasse sans qui cette aventure n’aurait pas été couronnée de
succès et aussi Gerhard Paar, Rongxing (Ron) Li et Tomas Pajdla pour leur accueil
à l’université de Columbus et au JPL Nasa pour la présentation des résultats.
• Vainqueur du prix NVIDIA pour le meilleur papier court à la conférence CVMP
2013 pour le travail intitulé ’Global Multiple View Color Consistency’.
Encadrement de stages :
• Badis Djellab étudiant ENPC :
Stage réalisé au laboratoire Imagine sur l’estimation multi-modèle en utilisant
les méthodes de J-Linkage (TOLDO et FUSIELLO 2008). Étude de l’impact de la
suppression a contrario de modèle non-significatif pour accélérer et estimer avec
plus de précision le nombre de modèles à identifier.
• Bruno Duisit étudiant Polytech Paris Sud (Université Paris XI) :
Stage réalisé au sein de l’entreprise Mikros Image sur la modélisation 3D à
partir d’une image dans le logiciel Maya et la réalisation d’une interface de visualisation
et édition de graphes d’images.
• Tristan Faure et Luc Girod étudiants ENSG :
Stage réalisé au laboratoire Imagine sur la mise en place d’un protocole d’acquisition
de vérité terrain pour une évaluation des méthodes de photogrammé-
trie.
• Emmanuel Habbets étudiant ENSG :
Stage réalisé au laboratoire Imagine sur le calcul et la fusion de cartes de disparité.
Implémentation partielle d’une chaîne de traitement similaire aux travaux
de TOLA et al. (2012).
• Rafaël Marini Silva étudiant de l’école polytechnique :
Stage réalisé sur les méthodes de recherche de plus proches voisins parmi de
larges collections d’images. Implémentation d’un moteur de recherche basé sur la
quantification d’espace descriptif (JEGOU et al. 2011).
• Lucas Plaetevoet étudiant ENPC :
Stage réalisé au laboratoire Imagine sur la fusion d’acquisition de nuage de
points issus de capteur de type Kinect (lumière structurée).2.1–Organisation et contributions du manuscrit 35
Encadrement salarié :
• Bruno Duisit (Mikros Image) :
Encadrement de Bruno sur la thématique du projet MiMatte3D (cf. section
2.1.2).
Relecteur :
Relecteur pour le journal en ligne IPOL http://www.ipol.im.
2.1.5 Publications de l’auteur
• Revue internationale :
Automatic Homographic Registration of a Pair of Images, with A Contrario
Elimination of Outliers. L Moisan, P Moulon, P Monasse. IPOL 2012.
• Conférence internationale avec actes :
Global Fusion of Relative Motions for Robust, Accurate and Scalable Structure
from Motion. P Moulon, P Monasse, R Marlet. ICCV 2013.
Adaptive Structure from Motion with a contrario model estimation. P Moulon,
P Monasse, R Marlet. ACCV 2012.
• Démonstration en conférence internationale :
Adaptive model estimation, a real time demonstration. P Moulon, P Monasse,
R Marlet. ACCV 2012.
• Conférence internationale avec comité de relecture :
Global Multiple-View Color Consistency. P Moulon, D Bruno, P Monasse.
CVMP 2013. (Vainqueur du prix NVIDIA pour le meilleur papier court).
Unordered feature tracking made fast and easy. P Moulon, P Monasse. CVMP
2012.
• Conférence nationale avec comité de relecture :
La bibliothèque openMVG : open source Multiple View Geometry. P Moulon,
P Monasse, R Marlet. Orasis, Congrès des jeunes chercheurs en vision par
ordinateur 2013.
Estimation robuste de modèles a contrario, impact sur la précision en structure
from motion. Présentation orale. P Moulon, P Monasse, R Marlet. ISS France
2013.
• Groupe de travail :
L’utilizzo di tecniche structure from motion e imagebased modelling in ambienti
estremi. P Moulon, Nicolò Dell’Unto, A Bezzi, L Bezzi, Rupert Gietl. Low
Cost 3D 2012.
Python Photogrammetry Toolbox : A free solution for Three-Dimensional Documentation.
P Moulon, A Bezzi. ArchoFoss 2011.
• Bibliothèque open source :
OpenMVG Open-source MultipleViewGeometry 2012. https://github.com/
openMVG/openMVG.36 2–Introduction37
Chapitre 3
La géométrie multiples vues et
l’estimation de mouvements
Lorsqu’une scène est photographiée sous plusieurs points de vue, la connaissance
du déplacement apparent des éléments de la scène à travers la série d’images permet de
retrouver le déplacement de l’appareil photographique et d’obtenir une représentation
3D de la scène observée : on parle alors de SfM Structure from Motion.
Ce chapitre présente :
1. le modèle projectif classique de caméra,
2. une série de relations géométriques formulées à partir de correspondances de
points homologues entre photographies,
3. comment détecter et suivre des éléments à travers une série d’images.
Sommaire
3.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2 La géométrie caméra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3 La géométrie à 2 vues . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4 La géométrie à 3 vues . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.5 La triangulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.6 L’estimation de pose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.7 L’ajustement de faisceaux . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.8 La géométrie multiples-vues et l’estimation de mouvements . . . . . 49
3.9 La mise en correspondances de points saillants . . . . . . . . . . . . . 51
3.9.1 La détection de points saillants . . . . . . . . . . . . . . . . . . . 52
3.9.2 La description de point saillants . . . . . . . . . . . . . . . . . . 53
3.9.3 L’appariement de point saillants . . . . . . . . . . . . . . . . . . 54
3.10 Méthode de fusion rapide de paires de correspondances de points
saillants entre images . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.10.1 Une solution ensembliste pour la construction de traces de points
saillants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.11 Contributions de ce chapitre . . . . . . . . . . . . . . . . . . . . . . . . 6338 3–La géométrie multiples vues et l’estimation de mouvements
3.1 Notations
Dans les sections suivantes nous allons travailler avec des coordonnées définies
dans un espace cartésien ou projectif. En géométrie projective, les coordonnées homogènes
rendent les calculs possibles dans l’espace projectif comme les coordonnées
cartésiennes le permettent dans l’espace euclidien. Les coordonnées homogènes d’un
point de l’espace projectif de dimension n (x,y,z,...) sont écrites habituellement comme
un vecteur de longueur n + 1 (x,y,z, ... , w). Deux ensembles de coordonnées qui sont
proportionnels dénotent le même point d’espace projectif : pour tout scalaire non-nul c,
(cx, cy, cz,..., cw) est équivalent à (x, y,z,w). La coordonnée w = 0 permet de représenter
un élément à l’infini. Le passage de coordonnées homogènes à des cordonnées carté-
siennes est réalisé en divisant les n premiers éléments par le n+1
e
, soit w.
Un point 3D en coordonnées homogènes X4×1 = {X(1),X(2),X(3),X(4)} est repré-
senté en coordonnées cartésiennes X3×1. Pour tout W différent de 0, on obtient l’équation
:
X = (X(1)/W,X(2)/W,X(3)/W)
T X ∼ (
∼
X,
∼
Y,
∼
Z,1)
T
, (3.1)
avec ∼ définissant l’égalité à une échelle 1
W
près avec W = X(4).
De la même manière, un point 2D en coordonnées homogènes x3×1 = {x(1),x(2),x(3)},
est en relation avec son équivalent en coordonnées cartésiennes x2×1 :
x = (x(1)/w,x(2)/w)
T
x ∼ (
∼
x,
∼
y,1)
T
(3.2)
avec ∼ définissant l’égalité à une échelle 1
w
près avec w = x(3).
Notations complémentaires
x Un point en coordonnées cartésiennes
x Un point en coordonnées homogènes
{A} Une liste d’éléments de type A
[A] Une liste ordonnée d’éléments de type A
(A,B) Couple d’éléments associés, ici un 2-uplet
R Matrice de rotation
t Vecteur de translation
C Position du centre de projection d’une caméra
K Matrice des paramètres intrinsèques d’une caméra
Xj Point 3D d’index j
x
i
j Projection du point 3D Xj dans l’image i
tr Déplacements apparents des projections des points {Xj}j dans une série d’images
GA Graphe entre élements de type A
R
k
i
k
e
ligne de la matrice de rotation de l’image i
t
k
i
k
e composante du vecteur de translation de l’image i
x
i
j
(k) k
e composante du point x
i
j3.2–La géométrie caméra 39
3.2 La géométrie caméra
Un sténopé modélise un appareil photographique comme un système réalisant la
projection centrale d’une scène en 3 dimensions en 2 dimensions. Une image est le ré-
sultat d’une intégration de rayons lumineux observés sur une surface sensible durant
un court intervalle de temps à travers une série de lentilles. Lorsque ce système optique
est approximé par une seule lentille, on obtient un modèle simple de projection perspective,
le modèle sténopé. Dû au fait que l’ensemble des rayons lumineux observés
passe par un seul et unique point (le centre de projection) ces caméras sont souvent
appelées pinhole.
FIGURE 3.1 – Illustration d’une caméra sténopé. Un point 3D X est projeté en x sur un
plan image par une projection centrale. On appelle paramètres extrinsèques, la transformation
rigide [R|t] entre le repère monde O et la position de la caméra C. Pour simplifier
le plan image est ici montré en avant du centre optique C. Sur une caméra réelle ce plan
image est situé derrière le centre optique et tourné à 180◦
.
Ce système d’acquisition peut être réduit à deux composantes principales :
– un système optique permettant de réaliser la projection de la scène observée sur
un plan focal : R
3 → R
2
.
– une surface photo-sensible qui capte les densités de photons par pixels pour
former une image.
Une caméra sténopé transforme un point X de R
3
en un point image x de R
2 à
travers deux opérations :
Un changement de repère. Soit Xc un point monde défini dans le repère de la caméra :
Xc =
R t
0 1
X (3.3)
Cette relation de passage entre le repère monde et le repère local caméra dépend
de 6 degrés de liberté que l’on appelle les paramètres extrinsèques :
– 3 degrés de liberté pour l’orientation de la caméra : une matrice de rotation
R3×3,
– 3 degrés de liberté pour la translation, décrite par le vecteur t3×1, t représente
la position de l’origine monde O dans le repère caméra. La position C du centre
optique de la caméra est donc C = −R
T
t.40 3–La géométrie multiples vues et l’estimation de mouvements
Une projection et une mise à l’échelle. La transformation réalisée par l’optique et la
géométrie du capteur est modélisée par les paramètres intrinsèques définis par le
biais de 6 paramètres par une matrice K×3. Cette matrice dite de calibration ou
bien calibrage, peut s’écrire comme suit :
K =
f ku s cu
f kv cv
1
(3.4)
Soit :
– f la distance focale, distance du centre optique au plan focal,
– s, ku et kv des facteurs d’échelles,
– c : (cu, cv) le point principal modélise le décalage de l’origine,
Un point 3D en repère caméra Xc a pour correspondant x image :
x = [K|0]Xc = K
R t
0 1
X (3.5)
Ainsi un point x en repère image est transformé en un rayon en repère caméra xˆ
comme suit :
xˆ = K
−1
x (3.6)
Pour simplifier nous utiliserons c au centre de l’image de taille w×h et des pixels
carrés sur la surface photo sensible (ku = kv = 1 et s = 0) :
K =
f w/2
f h/2
1
(3.7)
Finalement ces deux transformations peuvent être combinées en une seule opération
matricielle. Un point X exprimé dans le repère monde est donc relié à sa projection
image x par la formule suivante :
x = PX (3.8)
Avec P = K[R|t] une matrice de projection de taille 3×4.
On néglige ici la distorsion causée par l’optique. Nous invitons le lecteur à consulter
les travaux de (BROWN 1966) pour plus de détails.3.3–La géométrie à 2 vues 41
3.3 La géométrie à 2 vues
Homographie
Lorsqu’un objet est plan, il est possible de définir une transformation exacte entre les
points homologues x et x
′
. La transformation la plus générale pour ce couple de points
(x, x
′
) est appelée homographie. L’homographie désigne une classe de transformations
projectives qui conservent les alignements. Si tous les points appartiennent à un même
plan, alors les projections obtenues dans les images conservent leur alignement (cf.
figure 3.2). L’image d’une ligne reste donc une ligne.
La fonction de passage entre les coordonnées de l’observation dans l’image gauche
et droite (x, x
′
), est définie par une transformation homographique H.
x
′ = Hx (3.9)
H est une matrice de transformation :
– projective 2D linéaire conservant les alignements,
– inversible entre les plans projectifs. On peut donc écrire :
x = H
−1
x
′
. (3.10)
– de taille 3×3 définie à un facteur près qui lui confère 8 degrés de liberté.
La matrice H étant définie à un facteur d’échelle près et chaque couple de points
homologues fournissant 2 équations indépendantes sur H, quatre points homologues
sont nécessaires pour définir de manière unique les huit paramètres indépendants de
l’homographie. Certaines configurations de points peuvent mener à des cas dégénérés,
nous invitons le lecteur à lire MOISAN et al. (2012) pour les détecter.
FIGURE 3.2 – La relation homographique établit une relation point à point entre les
images d’une surface plane dans plans images.
Note : Lorsqu’une caméra effectue un mouvement de rotation autour de son centre
optique (le point nodal), les images acquises sont reliées par des homographies. Ce
mouvement particulier de caméra permet la construction d’images panoramiques.42 3–La géométrie multiples vues et l’estimation de mouvements
La matrice essentielle et la géométrie épipolaire
La notion de matrice essentielle E a été proposée par LONGUET HIGGINS (1981). La
matrice E modélise le changement de repère entre deux caméras : une rotation R et une
translation t.
Cette géométrie repose sur la géométrie épipolaire qui associe à un point x une droite
l
′
(x), notée l
′ pour simplification. Cette droite, dite ligne épipolaire, est située à l’intersection
du plan image droit et du plan épipolaire défini par les points C, C
′
et x. l
′
est ainsi l’observation du rayon −→CX par la caméra C
′
. Toutes les lignes épipolaires ont
un point commun, la projection du centre optique de l’autre caméra. Ces points sont
appelés épipôles et sont notés e, e
′
respectivement pour la caméra gauche et droite.
FIGURE 3.3 – Relation épipolaire entre deux images. Étant donné une projection x d’un
point 3D X, sa projection x
′ dans l’image droite est restreinte à la ligne épipolaire correspondante
l
′
.
La contrainte épipolaire est traduite par l’utilisation de la matrice essentielle E. Cette
matrice permet de mettre en relation une correspondance de point entre deux images.
Soit deux caméras P = [I|0] et P
′ = [R|t]. Étant donné un point X en coordonnée euclidienne
dans le repère de la caméra gauche, sa position dans le repère de la caméra
droite est :
X
′ = RX +t (3.11)
Une pré-multiplication par X
T
[t]× permet d’obtenir :
X
T
[t]×RX′ = X
TEX′
(3.12)
ou E ∼ [t]×R est une matrice 3×3 et t est un vecteur de taille 3. [t]× est la représentation
matricielle du produit vectoriel (cross product matrix). Il est intéressant de noter que la
relation 3.12 est aussi utilisable avec des correspondances en repère caméra :
xˆ′
T
Exˆ = 0 (3.13)
E possède 5 degrés de liberté car elle dépend seulement de R et de la direction de
translation t. Multiplier t par un facteur d’échelle revient à multiplier E par le même
facteur, ce qui exprime les mêmes contraintes.
La matrice essentielle peut être identifiée à partir de 8 correspondances si l’on utilise
la formulation générale x
′TEx = 0 sans contraintes de structure de la matrice E et 5
points si l’on utilise des matrices de calibration connues cf. (NISTÉR 2004 ; LI et HARTLEY
2006).3.3–La géométrie à 2 vues 43
La matrice fondamentale
La géométrie épipolaire a notamment été étudiée par LUONG (1992) et FAUGERAS
(1992). Pour toute correspondance entre deux images on peut reprendre l’équation
3.13 :
xˆ′
T
Exˆ = 0
et l’écrire en considérant des points images (en coordonnées image, pixels) :
(K
−1
r x
′
)
TE(K
−1
l
x) = 0,
x
′T
(K
−T
r EK
−1
l
)x = 0,
x
′T
Fx = 0, (3.14)
ou F ∼ K′−TEK−1
est la matrice fondamentale. F est définie de taille 3×3 à un facteur
multiplicatif près, de rang 2, ce qui lui confère donc 7 degrés de liberté. Cette
matrice établit une relation point-ligne tout comme la matrice essentielle.
La matrice F peut être estimée à partir de 8 correspondances HARTLEY (1997a) ou
à partir de 7 correspondances en forçant a posteriori la contrainte de rang (TORR et
MURRAY 1997). Cette dernière méthode est la solution dite minimale et identifie de 1 à
3 solutions pour un échantillon de 7 correspondances. La géométrie épipolaire fournie
par la matrice F est particulièrement intéressante car elle établit une relation entre des
points en géométrie image. Les paramètres intrinsèques ne sont pas nécessaires pour
vérifier la consistance géométrique d’une paire de points.
Les épipôles étant les points d’intersection de toutes les droites épipolaires, ils défi-
nissent aussi le noyau de F : Fe = 0 et F
T
e
′ = 0.44 3–La géométrie multiples vues et l’estimation de mouvements
3.4 La géométrie à 3 vues
La géométrie d’un triplet d’images peut être représentée par un tenseur tri-focal T
(HARTLEY 1997b). T définit les relations épipolaires entre trois vues indicées i, j, k par
une matrice cube de taille 3×3×3. Un point x est mis en correspondance avec ses deux
lignes épipolaires correspondantes : l
′
, l
′′ (cf. figure 3.4) :
∑
i jk
x(i)l
′
j
l
′′
k T
jk
i
(3.15)
Ce tenseur est une généralisation du concept de la matrice fondamentale à un ensemble
de trois vues. Soit trois matrices de projections : P1 = [Id|0], P2 = [a
i
j
] et P3 = [b
i
j
]. Le
tenseur trifocal est défini ainsi :
T
jk
i = a
j
i
b
k
4 −a
j
4
b
k
i
| i, j, k = 1,2,3 (3.16)
avec i j une entrée de la matrice tel que i désigne la ligne et j la colonne.
FIGURE 3.4 – Les relations épipolaires existantes au sein d’un tenseur tri-focal T.
Une des propriétés les plus importantes du tenseur tri-focal est que la formulation
du tenseur permet d’établir des relations linéaires entre des lignes et points en correspondances
entre les trois images. Des contraintes tri-linéaires sont exprimables pour les
relations suivantes :
ligne-ligne-ligne
point–ligne–ligne
point–ligne–point
point–point-point
Une autre particularité du tenseur tri-focal par rapport aux tenseurs à deux vues (bifocaux),
telle que la matrice fondamentale, est la relation de transfert. Cette relation de
transfert permet d’identifier des points manquants lors de mises en correspondances.3.5–La triangulation 45
Supposons qu’une correspondance est connue (x
i ↔ x
j
) mais que le point correspondant
dans la troisième image x
k ne l’est pas. L’utilisation de la contrainte point-ligneligne
pour x
i
et x
j
identifie alors par intersection le point x
k
. Il est situé à l’intersection
des deux lignes épipolaires l
′′ et l
′′′
.
3.5 La triangulation
La triangulation est le procédé de calcul d’un point 3D X d’après ses observations
images x
i
et des matrices de projections Pi
. Idéalement le point 3D X est situé à l’intersection
des rayons
−→
Cix
i
. Étant donné que les données sont le plus souvent bruitées, les
rayons ne s’intersectent pas en pratique : cf. figure 3.5. Le candidat X est alors choisi
comme le point ayant les plus faibles erreurs de re-projection entre les projetés images
Pi(X) et les points de mesures x
i
:
minimiser
X
n
∑
i=1
x
i −PiX
2
(3.17)
avec n le nombre de vues considérées. Cependant une formulation directe menant à
cette solution n’est pas évidente à mettre en place. Souvent une solution approximative
est calculée, puis les erreurs résiduelles sont minimisées par itérations de l’algorithme
de Levenberg-Marquardt (cf. (HARTLEY et ZISSERMAN 2000)).
FIGURE 3.5 – La triangulation : Calcul du point X en fonction des caméras Pi et reprojections
images. A cause du bruit de mesure, le point X n’est pas aisé à identifier.
On note dans la littérature une série de méthodes pour trouver un candidat X dans
le cas à deux vues (cf. figure 3.6) :
Point milieu On recherche un point X situé sur le segment le plus court entre les deux
rayons
−→
Cix
i
. Ce segment est identifié grâce à la droite orthogonale aux deux rayons
considérés. Le point 3D recherché est alors situé au milieu de ce segment.
Optimisation linéaire ou dite de minimisation algébrique. Avec l’utilisation des coordonnées
homogènes on peut utiliser le fait que les vecteurs x
i
sont colinéaires à
PiX pour écrire :
[x
i
]×PiX = 0 (3.18)
Cette équation peut être réécrite sous une forme solvable aux moindres carrés :
AX = 0 (3.19)46 3–La géométrie multiples vues et l’estimation de mouvements
avec A une matrice 3n×4, n le nombre de vues et X un point visible (situé devant
les caméras). La solution en coordonnée homogène est calculée en minimisant
||AX|| sujet à ||X|| = 1 pour éviter la solution triviale X = 0 (cf. Triangulation DLT
(Direct Linear Transform) : HARTLEY et ZISSERMAN (2000)).
Optimisation itérative une solution initiale est identifiée puis optimisée de manière
itérative (LINDSTROM 2010).
Optimale le point X est recherché en minimisant une erreur géométrique : les erreurs
résiduelles. On minimise l’équation 3.17 directement (KANATANI et al. 2008). Cette
méthode est dite méthode gold-standard (cf. (HARTLEY et ZISSERMAN 2000)).
FIGURE 3.6 – De gauche à droite, de haut en bas. Situation théorique, point milieu,
méthode linéaire, méthode optimale.
Limitations
Les méthodes DLT sont le plus couramment utilisées dans le cas de la triangulation
à n vues, car identifier une solution optimale de manière directe implique des équations
complexes qui sont non triviales à résoudre. Des solutions optimales ont été exprimées
pour le cas à deux et trois vues (BYRÖD et al. 2007), mais pas au delà.
Perspectives
HARTLEY et SCHAFFALITZKY (2004a) proposent une formulation quasi-convexe du
problème qui permet d’identifier X par minimisation de la norme l∞ des erreurs résiduelles.
Cette formulation minimisée par bissection permet de vérifier l’existence d’une
solution et de garantir que la solution calculée est optimale par rapport au critère d’ajustement
utilisé (la norme l∞ des erreurs de re-projection).3.6–L’estimation de pose 47
3.6 L’estimation de pose
Étant donné des correspondances entre des points 3D Xj et les points images 2D xj
,
on cherche à identifier la matrice de caméra P optimale (cf. figure 3.7). On recherche
ainsi la pose (orientation et position) de la caméra qui fait que les rayons −−→CXj passent
au plus près possible des m points 2D xj projections des Xj
.
minimise
P
m
∑
j=0
xj −PXj
2
(3.20)
Ce problème appelé Perspective-n-Point est traité en fonction du nombre de degrés de
liberté de la pose :
1. Le cas non calibré :
la matrice P de taille 3 × 4 est à identifier. 12 degrés de liberté sont à estimer.
Une formulation linéaire de l’équation (3.20) permet de trouver aux moindres
carrés une matrice P possible à partir de 6 correspondances 2D-3D (HARTLEY et
ZISSERMAN 2000).
2. Le cas calibré (la matrice de calibration K est connue) :
6 degrés de liberté sont ainsi à identifier : 3 pour l’orientation R et 3 pour la position
t de la caméra. La connaissance a priori de la matrice de calibration permet
de réduire le nombre de correspondances nécessaires. Trois correspondances sont
suffisantes pour identifier un ensemble de solutions possibles (GAO et al. 2003 ;
KNEIP et al. 2011). Le lecteur est invité à consulter LEPETIT et al. (2009) pour une
liste plus exhaustive de différentes méthodes qui, à partir de n correspondances,
estiment la pose [R|t] de la caméra (méthodes PnP (Perspective-n-Point)).
FIGURE 3.7 – L’estimation d’une pose de caméra (une orientation et position) est déterminée
à partir de n correspondances 3D-2D.48 3–La géométrie multiples vues et l’estimation de mouvements
3.7 L’ajustement de faisceaux
L’ajustement de faisceaux, Bundle Adjustment, est un processus d’optimisation non
linéaire. On souhaite optimiser un vecteur de paramètres pour réduire une fonction
d’objectif donné. Dans notre cas la fonction objectif vise à réduire les erreurs résiduelles
de re-projection de la structure Xj aux mesures images x
i
j
. x
i
j
étant la projection du point
3D Xj dans l’image i. Le vecteur de paramètres est défini par une configuration initiale :
les paramètres des caméras {Pi}i et la structure de la scène {Xj}j
. Cette minimisation est
réalisée par utilisation d’une procédure itérative, l’algorithme de Levenberg-Marquardt.
Un vecteur p de départ représentant la configuration des paramètres est initialisé. A
chaque itération, on remplace p par une nouvelle estimation p + q, q étant déterminé
pour réduire la fonction objectif à minimiser. Lorsque la fonction objectif ne varie plus
ou que le vecteur de paramètres est stable l’algorithme est arrêté. Une convergence
vers la solution optimale est observée si le vecteur de départ n’est pas trop éloigné de
la solution. Par contre, si la solution initiale est éloignée, une solution locale peut être
identifiée.
Le problème d’ajustement de faisceaux est donc posé pour réduire la fonction coût
suivante :
minimise
{Pi}i
,{Xj}j
m
∑
j=0
n
∑
i=0
x
i
j −PiXj
2
(3.21)
avec n le nombre de matrices de projection P et m le nombre de points 3D considérés
dans la scène.
FIGURE 3.8 – L’ajustement de faisceaux : Une minimisation non linéaire des paramètres
de projection des caméras et de la structure 3D de la scène est réalisée pour réduire les
erreurs de re-projection résiduelles observé en domaine image.
Une synthèse complète sur l’ajustement de faisceaux est proposée par TRIGGS et al.
(2000). Ce problème d’optimisation peut être résolu avec l’usage de matrices parcimonieuses
(LOURAKIS et ARGYROS 2004). WU et al. (2011a) proposent une implémentation
parallèle (GPU ou CPU) et AGARWAL et MIERLE (2012) proposent une implémentation
parallèle générique pouvant utiliser une norme robuste pour éviter l’influence de mesures
aberrantes : Ceres-solver. Ceres présente l’avantage d’être générique, la spécifica-3.8–La géométrie multiples-vues et l’estimation de mouvements 49
tion des variables et la fonction objectif intervenant dans un problème non-linéaire sont
très facilement paramétrables, ce qui facilite l’implémentation de l’équation (3.21).
3.8 La géométrie multiples-vues et l’estimation de mouvements
Les techniques de structure à partir du mouvement, Structure-from-Motion, estiment
le déplacement d’une caméra ou d’un appareil photographique et reconstruisent la
structure de la scène à partir d’une séquence d’images. Soit la séquence d’images Ij
,
j ∈ {0,n}. Le procédé est le suivant : des éléments (ou primitives, par exemple des
points saillants 2D) sont détectés puis suivis à travers l’ensemble des images : x
i
j
. La
visibilité des points 3D Xj
image est ainsi connue. Les techniques de SfM cherchent
alors à identifier des caméras Pi ainsi qu’une structure Xj représentant au mieux les
données de visibilité x
i
j
. C’est un problème d’optimisation ou l’on cherche à minimiser
la somme des erreurs résiduelles en domaine image, l’équation (3.21), ou intervient n
images et m points 3D. Ces erreurs résiduelles mesurent la précision de la reconstruction
: l’adéquation entre la structure, les positions de caméra et les mesures images. Ces
erreurs de re-projections, appelées erreurs résiduelles, représentent la distance entre les
observations x
i
j
images et la re-projection des points 3D Pi(Xj) reconstruit.
FIGURE 3.9 – Illustration de la problématique de SfM. A partir de correspondances
entre images relatant des projections de points 3D commun, il s’agit d’identifier la structure
et les positions et orientations des clichés dans l’espace.50 3–La géométrie multiples vues et l’estimation de mouvements
On note trois grandes catégories d’algorithmes de Structure-from-Motion (cf. figure 3.10) :
1. Les méthodes séquentielles, Sequential SfM :
La méthode de reconstruction fait naître une première graine 3D, une reconstruction
initiale créée à partir de deux vues, puis la méthode fait croître cette reconstruction
en agrégeant les images restantes par estimation de pose. Des itérations
répétées d’ajustement de faisceaux sont utilisées pour limiter les effets de
dérive et d’accumulation d’erreurs. On distingue deux sous cas en fonction de la
manière d’établir les correspondances visuelles considérées entre images :
Dans le cas de séquences d’images ordonnées :
Les images sont traitées les unes après les autres dans leur ordre d’arrivée
: odométrie visuelle ou SLAM (communauté robotique). Les traces sont
construites de proche en proche à chaque arrivée d’image.
Dans le cas de séquences d’images non ordonnées :
Les images sont traitées dans leur ensemble pour construire les correspondances
visuelles et identifier les traces.
2. Les méthodes hiérarchiques, Hierarchic SfM :
Les images sont traitées par sous ensembles et sont fusionnées de manière
hiérarchique afin de reconstruire l’intégralité de la scène.
3. Les méthodes globales, Global SfM, Batch SfM :
Les images sont traitées dans leur ensemble. On distingue ici deux méthodes :
– Factorisation, Batch SfM : On recherche les matrices de projection et la structure
de la scène simultanément,
– Global SfM : Supposant les paramètres intrinsèques connus (une caméra calibrée)
le problème de SfM est découpé en deux sous tâches. D’abord les rotations
globales sont identifiées pour toutes les images puis dans un second temps la
structure et les translations des caméras sont identifiées.
FIGURE 3.10 – Illustration du processus des méthodes de SfM, de haut en bas, séquentielle,
hiérarchique et globale. Chaque point noir implique une reconstruction 3D ou un
assemblage de reconstructions 3D.3.9–La mise en correspondances de points saillants 51
3.9 La mise en correspondances de points saillants
L’extraction de caractéristiques visuelles, visual features extraction, consiste en des
transformations mathématiques calculées sur les pixels d’une image numérique. Ces
transformations permettent de mettre en évidence des éléments saillants possédant
certaines propriétés visuelles de l’image et de rechercher si des images possèdent du
contenu en commun localement similaire. Cette mise en correspondances photomé-
trique est réalisée en trois étapes principales :
1. La détection :
Une prise de décision locale en chaque point de l’image détermine si la zone
de l’image présente une caractéristique intéressante. Les zones mises en évidence
représentent des sous-ensembles du domaine de l’image, souvent sous la forme
de points isolés, de segments, de courbes continues ou de régions.
2. La description :
Une zone locale est utilisée autour de chaque zone d’intérêt pour construire
une signature venant décrire la région autour du point d’intérêt.
0 .2 0 .5 … 0 .2 0 .6
0 .1 0 .2 … 0 .5 0 .1
0 .6 0 .3 … 0 .3 0 .1
3. L’appariement :
Une comparaison des signatures entre deux images permet d’identifier les
zones similaires et ainsi d’identifier des points saillants images d’un même point
3D de la scène observée.
Le résultat de la phase d’appariement est utilisé par de nombreuses applications en
vision par ordinateur :
– la reconnaissance et le suivi d’objets,
– l’assemblage d’images panoramiques,
– la stabilisation vidéo,
– la reconstruction 3D et l’odométrie visuelle.52 3–La géométrie multiples vues et l’estimation de mouvements
3.9.1 La détection de points saillants
Il est primordial que la détection de points saillants dans une image soit le plus
robuste possible. L’invariance à certaines transformations comme la translation, la rotation
et l’échelle permettront ainsi d’établir avec plus de succès les futures étapes d’appariements
de points, et donc la robustesse des correspondances établies avec le déplacement
de la caméra. Plus un détecteur sera à même d’exhiber des points localisés pré-
cisément d’une image à l’autre plus il sera pertinent. Plusieurs catégories de détecteurs
sont identifiables :
– les bords, edges, curves (Canny, LSD, ...),
– les coins, corners (Harris, Fast, ...),
– les régions, blobs (Sift, Surf, Kaze, Mser, ...).
De nombreuses approches ont été proposées pour améliorer la robustesse et la répé-
tabilité de la détection de points saillants. L’une des premières approches a avoir été
largement utilisée est le détecteur de coins de HARRIS et STEPHENS (1988), invariant à
l’orientation de la structure détectée. LINDEBERG (1998) a ensuite proposé une repré-
sentation en espace échelle linéaire des images qui permet de définir une famille de
détecteurs de structures invariantes par changement d’échelle. L’utilisation de cet espace
échelle a été généralisé à la détection de coins par Harris-Laplace (MIKOLAJCZYK
et SCHMID 2001) et à la détection de blobs avec l’utilisation de différences de gaussiennes
par LOWE (1999). En définissant un point d’intérêt comme un extremum local
de la représentation en espace-échelle, ces approches permettent d’attribuer à ce point
une échelle caractéristique. Ces approches sont souvent coûteuses en calcul à cause de
la construction de l’espace échelle. Certaines approximations sont alors réalisées, au
détriment de la précision de localisation des zones saillantes, mais au profit de gains de
calculs non négligeables. L’utilisation d’images intégrales par la méthode SURF (BAY
et al. 2006) permet de réduire la consommation mémoire et de réaliser les opérations
de filtrage de manière très efficace. L’exploration de nouveau espace échelle mené par
ALCANTARILLA et al. (2012) démontre de meilleures stabilités sur les détections réalisées
et laisse envisager un détecteur encore plus performant (proche du temps réel :
ALCANTARILLA et al. (2013)).
FIGURE 3.11 – Une image i est décrite par un ensemble j de points saillants : {P
i
j
}i, j
.
Dans le cas de SIFT une position, une orientation et une échelle caractéristique sont
extraits par points.3.9–La mise en correspondances de points saillants 53
3.9.2 La description de point saillants
Afin de retrouver les observations image x
i
j d’un même point 3D Xj parmi une sé-
quence d’images, il est nécessaire d’identifier chaque observation image de manière
unique. Pour cela, chaque point est décrit par une signature. Cette signature définit un
ensemble de caractéristiques, un descripteur local qui est une représentation compacte
du voisinage du point d’intérêt (cf. figure 3.12).
0 .2 0 .5 … 0 .2 0 .6
0 .1 0 .2 … 0 .5 0 .1
0 .6 0 .3 … 0 .3 0 .1
FIGURE 3.12 – Chaque points saillants : {P
i
j
}i, j est décrit par une transformation de la
zone image locale l’entourant : {desc(P
i
j
)}i, j
.
Une solution simple, mais peu robuste, consiste à extraire un patch centré sur le
point d’intérêt. Mais le support d’invariance de ce type de descripteur est faible et limite
donc son usage. La robustesse de la description locale des points saillants peut
être améliorée en supportant l’invariance à des transformations géométriques et aux
changements d’éclairement. LOWE (1999) propose une représentation locale appelée
SIFT. Ce descripteur SIFT est composé d’histogrammes d’orientation du gradient. Ces
histogrammes sont estimés à partir de régions distinctes du voisinage normalisé et centré
de chaque point d’intérêt considéré. Il a été montré par MIKOLAJCZYK et SCHMID
(2005) que ce type de descripteur est très robuste à différents phénomènes, tels que :
bruit, compression JPEG, changement d’éclairement, rotation et changement d’échelle.
Ce type de descripteur est très utilisé pour les applications de recherche par le contenu
et la photogrammétrie car il possède une répétabilité élevée.
Un inconvénient majeur des descripteurs de type SIFT est l’occupation mémoire. On
construit en effet un descripteur de 128 valeurs flottantes par point d’intérêt. Cet espace
de relativement haute dimension n’est pas idéal pour les calculs sur des collections
d’images à large échelle. Des alternatives permettent de réduire la taille des signatures
en utilisant des signatures binaires. Ces signatures ont l’avantage d’être plus compactes
en mémoire et de proposer un espace de faible dimension. Leur dimension étant plus
faible, la phase d’appariement sera réalisée de manière plus rapide. STRECHA et al.
(2012) projettent les descripteurs SIFT en une représentation compacte via une matrice
de projection apprise par machine-learning. CALONDER et al. (2012) calculent nativement
un descripteur binaire par l’utilisation du signe de la différence de couple de points sur
une grille autour du point d’intérêt.
Idéalement on souhaite disposer de détecteurs et descripteurs de points d’intérêt
ayant les qualités suivantes :
– invariance de détection en translation, rotation et échelle,
– invariance aux variations d’éclairement (luminosité, contraste),
– un critère suffisamment local pour gagner en robustesse aux occultations mais
suffisamment large pour décrire suffisamment de contenu.
L’ajout de nouveaux degrés d’invariance tend à créer des faux positifs lors de l’établissement
de correspondances, car plus on devient invariant plus les points ont de chance
de se ressembler. C’est pourquoi lors de conditions d’acquisition contrôlée (comme c’est
le cas avec des robots mobiles), l’invariance en rotation n’est pas considérée. En considérant
une orientation verticale, des appariements plus stables seront ainsi identifiés.54 3–La géométrie multiples vues et l’estimation de mouvements
3.9.3 L’appariement de point saillants
Soit deux images, A et B, représentées par un ensemble de points saillants et descripteurs.
La phase d’appariement consiste à identifier les points ayant une forte similarité
entre les deux images. On note NA le nombre de points d’intérêts de l’image A et NB ceux
de l’image B. Pour chaque point saillant de A on recherche les points les plus similaires
de B. Cette mesure de ressemblance est réalisée par l’utilisation d’une métrique entre
les descripteurs liés aux points. Les NB distances sont évaluées pour chaque point de A
dans B. Cet ensemble présentant de nombreuses fausses hypothèses, il convient d’utiliser
un critère de rejet basé sur l’analyse des distances calculées pour retenir uniquement
les distances les plus vraisemblables (cf. figure 3.13).
L’étape d’appariement nécessite trois éléments :
– la recherche de plus proches voisins pour obtenir les correspondances hypothèses,
– l’utilisation d’une métrique pour mesurer la similarité d’une correspondance,
– l’utilisation d’une politique de rejet pour valider une correspondance.
FIGURE 3.13 – Appariements : les points les plus similaires de l’image A (gauche) sont
recherchés dans l’image B droite. Un filtre est utilisé pour déterminer de tous les candidats
possibles si une correspondance est dominante ou non.
La recherche de plus proches voisins pour chaque point d’intérêt est un problème
coûteux. La méthode naïve teste de manière exhaustive toutes les possibilités et les ordonne
par distance. Cette méthode est dite de force brute, Brute force. Des méthodes
de calculs approchées identifient les k plus proches voisins d’un descripteur plus rapidement.
Ces méthodes approchées, ANN, Approximate Nearest Neighbour, répartissent
les descripteurs suivant leur ressemblance dans un arbre binaire (KD-TREE) (MUJA
et LOWE 2009). Cet arbre binaire permet un parcours rapide pour évaluer quel sousensemble
de l’arbre est le plus similaire à un élément donné en requête. Ce partitionnement
permet de limiter le nombre de candidats sur lesquels la métrique est évaluée
lors d’une opération de recherche et d’identifier rapidement k voisins. La complexité
de recherche sur de larges ensembles de descripteurs est réalisable au prix d’une légère
dégradation des performances en précision de calcul, qui est fonction de la taille du
groupe considéré et des paramètres de l’arbre de partition.
La métrique est choisie en fonction du type de descripteurs utilisés :3.9–La mise en correspondances de points saillants 55
Euclidienne d(x, y) := kx−yk2 pour des descripteurs composés de valeurs réelles,
Hamming d(x, y) = ∑(x⊕y) pour des descripteurs composés de valeurs binaires,
EMD Earth Mover Distance pour des descripteurs circulaires (cf. RABIN (2009)).
Le critère de rejet permet de réduire avec une heuristique les fausses hypothèses
parmi les correspondances établies précédemment. Parmi les correspondances établies,
seulement quelques-unes sont valides et on souhaite les conserver. Couramment, un
filtre réalise le rejet de candidats, parmi les NB distances évaluées, pour chaque point
de A. On note plusieurs politiques de rejet dans la littérature (RABIN 2009) :
Critère FNN First Nearest Neighbour Pour chaque requête, on garde le plus proche
voisin ; le descripteur présentant le plus de similarité :
{(P
i
A
,P
j
B
) : j = argmin
k
d(desc(P
i
A
),desc(P
k
B
))}
Critère DT Distance Threshold Un seuil de validation global est utilisé sur la distance :
Pour chaque requête, l’ensemble des descripteurs candidats ayant une distance
plus petite que le seuil global δ sont validés :
{(P
i
A
,P
j
B
) : d(desc(P
i
A
),desc(P
j
B
)) < δ}
Critère DR Distance Ratio Le pourcentage de ressemblance entre les 2 plus proches
voisins dans la seconde image est utilisé : pour chaque requête (Pi)A, les 2 plus
proches voisins (Pj)B,(Pk)B sont identifiés. Le plus proche voisin est conservé
comme point homologue si le ratio des distances d((Pi)A,(Pj)B)/d((Pi)A,(Pk)B) est
inférieur à un seuil δ. L’idée utilisée est que plus des candidats sont similaires,
plus la chance de confusion est forte. On évite ainsi de mettre en relation des
correspondances ambiguës. δ est souvent choisi entre 0.6 et 0.8 (cf. les expérimentations
de LOWE (1999) pour identifier les meilleures valeurs possibles de ce
paramètre).
{(P
i
A
,P
j
B
) : j = argmin
k
d(desc(P
i
A
),desc(P
k
B
)) < δmin
k6=j
d(desc(P
i
A
),desc(P
k
B
))}
Critère SD Symmetric distance Une correspondance n’est conservée que si les correspondances
sont réciproques : les indices mis en correspondance doivent être les
mêmes quel que soit le sens de calcul A → B et A ← B :
{(P
i
A
,P
j
B
) : j = argmin
k
d(desc(P
i
A
),desc(P
k
B
)),i = min
k
d(desc(P
k
A
),desc(P
j
B
))}
Les correspondances établies étant photométriques de faux positifs peuvent toujours
être présents. Il convient par la suite de vérifier si les correspondances établies sont
géométriquement cohérentes (cf. chapitre 4).
Dans le cadre de cette thèse nous utiliserons les détecteurs et descripteurs SIFT (LOWE
1999). Les appariements ayant passé la politique de rejet DR sont retenus. La méthode
approchée ANN accompagnée de la norme euclidienne l2 est utilisée pour rechercher
les candidats.56 3–La géométrie multiples vues et l’estimation de mouvements
3.10 Méthode de fusion rapide de paires de correspondances
de points saillants entre images
Un des pré-requis souvent utilisé en vision par ordinateur est l’information de visibilité,
c’est-à-dire la connaissance qu’un point 3D donné se re-projette dans une série
d’image. Se pose alors le problème suivant : étant donné des détections image nous
voulons suivre le déplacement de ces détections dans une série d’images. Ce problème
est appelé suivi de points, ou point/feature tracking. Nous appellerons le déplacement
apparent d’un point de l’espace dans une série d’images une trace, (track).
FIGURE 3.14 – A gauche, une séquence de 9 images fournies avec le logiciel VideoTrace.
A droite, une série de traces identifiant le mouvement des points saillants qui ont pu
être suivis à travers toute la série d’images en utilisant nos algorithmes.
Le problème de suivi de points à travers une série d’images peut être abordé de
différentes manières en fonction de la nature de la collection d’images à traiter :
Une séquence d’images ordonnée. Narrow-baseline matching.
Ce type de séquence, comme des vidéos, induit par nature une amplitude de
mouvement faible. Ce faible mouvement des points à suivre permet de construire
les trajectoires de points de proche en proche par des zones de recherches locales.
Les méthodes sont basées sur des approches de corrélation (LUCAS et KANADE
1981 ; TOMASI et KANADE 1991) (cf. figure 3.15), ou de flux optique (HORN et
SCHUNCK 1981). Les méthodes les plus récentes présentent soit des boucles d’apprentissage
et de détection : TLD (KALAL et al. 2012) ou des analyses très rapides
des champs de déplacement : Zero Shift points (DUPACˇ et al. 2012).
FIGURE 3.15 – Suivi de trajectoire d’un point saillant par maximum de corrélation.
Une série d’images non ordonnée. Wide-baseline matching.
Dans ce cas la cohérence de mouvement ne peut être supposée. En effet les
points n’ont pas forcément de cohérence d’une image à l’autre car une partie différente
de la scène peut être vue. Le suivi de points est plus difficile, on ne sait
pas où rechercher d’une image à l’autre. Les points similaires entre des paires
d’images sont alors identifiés par des méthodes d’image-matching (cf. section 3.9)3.10–Méthode de fusion rapide de paires de correspondances de points saillants
entre images 57
puis filtrés pour vérifier leur cohérence géométrique (cf. chapitre 4). Ces correspondances
par paires d’images sont ensuite assemblées en trajectoires lorsqu’elles
partagent des points communs (cf. figure 3.16).
FIGURE 3.16 – Dans une série d’images non ordonnées (image1, image2, image3), des correspondances
sont identifiées par paire d’images (droite). Relier ces correspondances si
elles partagent des points en commun permet d’identifier les traces (bas gauche). Note :
L’analyse d’une série de paires 1 → 2,2 → 3,1 → 3 permet de créer une correspondance
entre l’image 1 et 3 qui ne serait pas identifiée par une analyse en séquence : 1 → 2 → 3.
Nous nous intéressons ici au cas générique, le cas des images non ordonnées. On
se retrouve donc avec la tâche suivante : combiner les correspondances géométriques
identifiées par paires en traces cohérentes. L’état de l’art traite le plus souvent ce problème
par la construction d’un graphe suivi d’une phase d’analyse (SNAVELY et al.
2006).
Soit i
k
le k
ième point de l’image i et (i
m, j
n
) une mise en correspondance établie entre
l’image i et j avec les points indicés m et n. Étant donné une liste de correspondances,
{(i
m,j
n
)}, on cherche à construire un graphe G puis on l’analyse pour identifier les
traces. Soit G = {S,E} avec S, un ensemble de sommets, et E un ensemble d’arêtes.
Les sommets S : {i
k} représentent les points saillants détectés dans les images.
Les arêtes E : {(i
m,j
n
)} représentent les correspondances établies par paires d’images.
Les deux étapes requises pour identifier les traces grâce au graphe G sont les suivantes :
1. G est construit en utilisant l’ensemble des correspondances par paires : {(i
m,j
n
)} :
Des liens entre points saillants S sont ainsi créés pour chaque correspondance
(i
m, j
n
) établie. Les correspondances deux à deux sont ainsi reliées entre elles.
2. Une analyse en composante connexe permet d’identifier les traces :
Chaque composante connexe est une trace identifiant le déplacement apparent
d’un point saillant dans une série d’images.
Cette approche est fonctionnelle mais non optimale, nous démontrerons dans la section
suivante que l’utilisation d’une structure de données plus adaptée permet de gagner en
efficacité.58 3–La géométrie multiples vues et l’estimation de mouvements
3.10.1 Une solution ensembliste pour la construction de traces de points
saillants
Au lieu de voir le problème de construction de traces comme la construction d’un
graphe et son analyse, nous considérons le problème de manière ensembliste. Nous
montrons que ce problème est soluble par l’utilisation de la théorie des ensembles et
que son utilisation est plus efficace que les méthodes de l’état de l’art sur le plan de
la complexité algorithmique. De plus, son utilisation possède plusieurs avantages aux
vues des solutions concurrentes disponibles.
La théorie
Proposition 1. En théorie des ensembles, la notion de relation d’équivalence sur un ensemble
permet de mettre en relation des éléments qui sont similaires par une certaine propriété.
Soit E un ensemble et R une relation d’équivalence. L’utilisation de la relation d’équivalence
R sur E permet la construction du groupe quotient E|R composé de classes Q .
Chaque Q représente ainsi la fusion des éléments similaires de E : les éléments de E
suivant la relation d’équivalence R . Les ensembles quotients {Q } obtenus représentent
des classes disjointes.
Proposition 2. L’utilisation de la relation d’équivalence sur une ensemble permet de créer les
classes par complétion par transitivité. Étant donné un ensemble d’éléments (les points saillants)
nous partitionnons en un certain nombre de classes disjointes les relations établies par les correspondances.
L’utilisation des correspondances de points homologues comme relation d’équivalence
permet d’établir les ensembles disjoints désirés : les traces.
La proposition 2 démontre que la théorie des ensembles est applicable à notre problème.
Voyons désormais comment réaliser ces opérations de manière concrète.
La solution logicielle
GALLER et FISHER (1964) propose de mener efficacement la construction et la manipulation
de classes d’équivalence à travers une structure de données, les disjoint-set,
et des algorithmes : union-find. La structure de données disjoint-set permet de maintenir
une forêt d’arbres, chaque arbre représentant un ensemble disjoint. Les algorithmes
union-find permettent de maintenir et créer des partitions entre les ensembles disjoints
grâce à deux opérations :
Trouver, Find détermine la classe d’équivalence d’un élément. Elle sert aussi à déterminer
si deux éléments appartiennent à la même classe d’équivalence.
Unir, Union réunit deux classes d’équivalence en une seule.
Une condition préalablement nécessaire à leur utilisation est la construction des singletons
: des ensembles d’équivalences contenant un seul élément par l’instruction MakeSet.
La mise en pratique
L’utilisation de la théorie des ensembles pour notre problème de construction de
traces nécessite la définition de l’ensemble et de la relation d’équivalence :3.10–Méthode de fusion rapide de paires de correspondances de points saillants
entre images 59
Soit {E} une collection d’ensembles : chaque point saillant considéré par les correspondances
est un ensemble disjoint,
Chaque point saillant est considéré comme une trace de taille 1.
Soit une relation d’équivalence R : E(f ind(i
m)) = E(f ind(j
n
)),
L’utilisation de la relation d’équivalence permet de fusionner deux classes, les
classes contenant les points homologues désignés par une correspondance (i
m, j
n
)
par utilisation de la fonction union : union(f ind(i
m), f ind(j
n
)). On réalise la complétion
par transitivité.
La procédure 1 de calcul de traces est alors réalisée, elle est composée de trois étapes
qui nécessitent de parcourir deux fois l’ensemble de correspondances :
1. Pour créer les ensembles de bases :
Un ensemble est créé par point saillant utilisé,
2. Pour appliquer la relation d’équivalence :
Les correspondances relatives sont fusionnées en traces par l’utilisation répé-
tée des fonctions find et union sur l’ensemble des correspondances. Find identifie
les ensembles d’appartenance des points saillants de la correspondance considé-
rée et les fusionne en utilisant l’opérateur union.
3. Les classes calculées sont parcourues pour lister et identifier les points appartenant
à chaque trace.
La fusion des correspondances est ainsi réalisée par fusion itérative des correspondances
à deux vues. Des traces de points de taille 1 sont unies et évoluent pour former
les traces désirées au cours du processus. L’algorithme obtenu est très simple à lire et
implémenter. Il est constitué de deux boucles sur les correspondances relatives.
Procédure 1 Calcul des traces de points saillants pour une série de paires de correspondances
Entrée: une liste de correspondances entre différentes paires d’images : L : {(i
m, j
n
)}
Sortie: les traces
(1) Construction des ensembles initiaux, les singletons :
pour (i
m, j
n
) ∈ L faire
si find(i
m) 6= 0/ alors
MakeSet(i
m)
fin si
si find(j
n
) 6= 0/ alors
MakeSet(j
n
)
fin si
fin pour
(2) Complétion par transitivité :
pour (i
m, j
n
) ∈ L faire
union(find(i
m), find(j
n
))
fin pour
(3) Récupération des traces :
Retourne chaque arbre de la forêt comme une trace
La complexité associée à une utilisation naïve de l’algorithme Union-Find et des
disjoint-sets est O(nlog(n)). TARJAN (1975) a ensuite montré que l’utilisation de deux optimisations,
union by rank et path compression, permettent de rendre la complexité quasilinéaire
en pratique : O(nα(n)) (α étant l’inverse de la fonction de Ackermann). Il n’est60 3–La géométrie multiples vues et l’estimation de mouvements
pas possible d’obtenir un meilleur résultat : FREDMAN et SAKS (1989) ont montré que
Ω(α(n)) mots en moyenne doivent être lus par opération sur toute structure de données
pour le problème des classes disjointes.
Le comportement de l’algorithme est illustré en figure 3.17. Des correspondances
par paires sont identifiées par différentes couleurs (bleu, vert, rose, violet). Ces correspondances
impliquent 12 points, 12 ensembles sont alors créées. Les correspondances
sont alors parcourues par paires (marquées par les différentes couleurs) et les
ensembles contenant les points homologues sont assemblés (union). Une forêt d’arbres
est alors construite et évolue pour créer les 4 trajectoires associées aux correspondances
initiales.
0 1 2 3 4 5 6 7
0
1
2
3
4
5
6
7
8
11
9 10
8 9 10 11
9 10 4 7 1 3 6 0 2 5 8 11
2 3
0 1 9
10
8
11
4
7
0
2
5
1
3
6 8
11
0
2
5
FIGURE 3.17 – Illustration des étapes de l’algorithme de fusion de traces. De haut en
bas. Les correspondances initiales par paires identifiées par différentes couleurs. La
création des 12 singletons, désignant les 12 points considérés par les correspondances.
L’évolution de la forêt de traces (de gauche à droite avec le parcours des appariements
par couleur). Et enfin chaque arbre de la forêt est parcouru pour identifier les points
appartenant à une trace commune.
Expérimentations
Notre solution , désignée sous l’acronyme UF, a été évaluée face à deux autres solutions
:
1. SNAVELY et al. (2006) : solution contenue dans le code source du logiciel associé
Bundler.
2. ZACH (2010-2011) : solution contenue dans le code source de la bibliothèque associée
ETH-V3D.
Le protocole de test est le suivant : pour des données initiales identiques, une liste
de correspondances {(i
m, j
n
)} géométriquement valide par géométrie fondamentale (cf.
section 3.3) est fournie aux trois solutions d’identification de traces. Les temps de calcul
et nombre de traces identifiées sont mesurés et comparés. Afin de pouvoir tester
différents scénarios le test est réalisé sur différents jeux de données images présentant
de 8 à 314 images. Ces tests permettent de faire intervenir de 10000 à 1 million de correspondances
initiales et ainsi d’évaluer le comportement des solutions à faible et large
échelle. Les résultats de l’expérience sont disponibles dans le tableau 3.1.entre images
3.10–Méthode de fusion rapide de paires de correspondances de points saillants
61
Jeux d’images nb. Images #{im, jn} Méthodes
UF Zach Bundler
temps s. # traces temps s. # traces temps s. # traces
1 HerzJesus 8 13726 10 2454 20 2383 10 2314
2 Castle 19 17853 12 2673 18 2543 30 2229
3 Entry 10 18914 13 2697 27 2524 20 2566
4 Fountain 11 29338 21 4279 52 4139 30 3513
5 Jean-fontana 66 53901 49 8551 72 7773 90 7672
6 Castle 30 56477 40 5639 73 5272 60 5033
7 DeteniceFountain 59 63437 56 7949 86 7445 250 7447
8 HerzJesus 25 68284 50 6603 130 5781 90 6160
9 SceauxCastle 282 364751 411 39639 613 36508 680 35845
10 StMartin 124 651990 531 51473 1505 49109 410 41380
11 Temple 314 1012804 640 20623 1295 15580 1280 19730
TABLE 3.1 – Statistiques sur l’évaluation la fusion de correspondances pour le calcul de traces. Les résultats sont triés
par ordre croissant du nombre de correspondances relatives. Le temps le plus court est affiché en gras.62 3–La géométrie multiples vues et l’estimation de mouvements
Pour faciliter l’interprétation des résultats les temps des différentes méthodes ont
été représentés sous forme graphique sur la figure 3.18.
1 2 3 4 5 6 7 8 9 10 11
0
200
400
600
800
1000
1200
1400
1600
0
200
400
600
800
1000
1200
1400
1600
FIGURE 3.18 – Représentation graphique des temps nécessaires pour identifier les
traces du tableau 3.1. Les jeux de données sont triés de manière croissante en fonction
du nombre de correspondances initiales.
L’expérience permet de faire des remarques sur les points suivants :
la vitesse d’exécution On remarque que la solution UF est dans 90% des cas plus rapide
que les deux autres solutions (cf. courbes de la figure 3.18).
la complexité à large échelle Pour de larges jeux de données on constate que les mé-
thodes Zach et Bundler présentent des résultats en dents de scies avec la taille
du jeu de correspondances relatives fournies. Notre solution par contre réagit de
manière beaucoup plus linéaire.
la complétude de la solution : le nombre de traces identifiées Il est important de noter
que le nombre de traces varie d’une implémentation à l’autre. Notre approche
étant ensembliste nous avons des garanties que pour notre critère d’équivalence
la solution identifiée soit optimale. Le fait que nous détectons tout le temps plus
de traces que les deux autres méthodes démontrent que leur implémentation n’est
pas parfaite et que des traces ne sont pas identifiées, ou rejetées à tort.
Concernant la complétude des solutions identifiées les arguments suivants sont avancés
: les deux implémentations disponibles évitent l’utilisation de graphes et utilisent
des tables d’indices. Ce qui rend les algorithmes sensibles à plusieurs facteurs :
Bundler : SNAVELY et al. (2006)
Résultat dépendant d’un index de départ,
Requiert plusieurs opérations de tri.
ETH-V3D : ZACH (2010-2011)
Résultat dépendant de l’ordre des paires d’images,
Grosse consommation mémoire.
La complexité de tels algorithmes est au minimum de O(nlog(n)) (due aux opérations
de tri requises). Nos tests ont confirmé que notre solution avec une complexité
plus faible, O(nα(n)) minimale théorique, présente une meilleure réactivité aux données
d’entrées.3.11–Contributions de ce chapitre 63
Limitations et perspectives
Les temps d’exécution de notre approche pourraient être encore réduits par l’utilisation
d’une version non bloquante de l’algorithme union-find (ANDERSON et WOLL
1991). Une version parallélisable de notre algorithme est alors envisageable, laissant
imaginer de meilleurs temps de réponse sur de larges jeux de données.
Cependant l’assemblage naïf des correspondances donne lieu à plusieurs problèmes
(AGARWAL et al. 2009) :
• plusieurs traces peuvent se croiser et donc contenir plusieurs fois le même point,
• plusieurs traces peuvent contenir des points dans la même image.
Notre approche actuelle se limite juste à détecter et ne pas exporter les traces qui
portent ces cas de conflits. Étant capable de détecter les arbres présentant des conflits
nous pouvons envisager un post-traitement afin de couper ses traces corrompues en
traces cohérentes en utilisant la méthode proposée par SVARM et al. (2012). Leur approche
propose une solution pour garder les traces les plus probables parmi les traces
corrompues qui se croisent. Leur solution est basée sur une analyse des arbres dits
de Gomory-Hu. Étant données des traces corrompues, l’algorithme utilise des coupes
récursives afin de conserver les n sous-traces portant les plus grandes pondérations.
Chaque arête porte pour poids le nombre de points géométriquement validés pour la
paire d’images considérée par cette arête.
3.11 Contributions de ce chapitre
Nous avons présenté les fondamentaux de la géométrie multi-vues et comment des
correspondances de points pouvaient être identifiées de manière automatique et assemblées
en trajectoire au sein de collections d’images non ordonnées.
Une nouvelle méthode permettant de calculer la fusion de correspondances dans le
but d’identifier les traces de points saillants à travers une série d’images a été exposée.
L’utilisation d’une structure de données et des algorithmes adaptés nous permet de ré-
soudre le problème de fusion avec une complexité optimale, quasi-linéaire en pratique.
Notre solution, utilisant «la théorie des ensembles», permet de mettre en œuvre une
solution élégante qui ne réalise aucune approximation et aucun biais dans les résultats.
Nos expériences ont confirmé les résultats théoriques sur le fait que notre méthode
a une complexité moindre et donc un temps d’exécution plus faible que les solutions
concurrentes. L’utilisation de notre algorithme a toujours démontré qu’il était capable
d’identifier plus de traces que les solutions concurrentes pour l’ensemble des jeux de
données. Cela démontre que les deux implémentations concurrentes sont biaisées et ne
garantissent pas un résultat complet au problème traité.
Ce travail a été présenté à la conférence CVMP (MOULON et MONASSE 2012) et
largement utilisé pour les autres travaux de ce manuscrit. Une implémentation libre est
disponible avec la librairie open-source openMVG (MOULON et al. 2013d).64 3–La géométrie multiples vues et l’estimation de mouvements65
Chapitre 4
L’estimation robuste de modèles
paramétriques
Lorsque des données sont légèrement bruitées il est courant d’utiliser une méthode
d’ajustement aux moindres carrés afin d’identifier les paramètres d’un modèle. Cependant
lorsque les données sont bruitées et polluées ces méthodes ne permettent plus de
trouver un modèle adéquat. Il est alors courant d’utiliser des méthodes d’estimation
robuste qui recherchent le sous ensemble de données s’ajustant le mieux au modèle paramétrique
choisi. Ces méthodes reposent sur des tests d’hypothèses pour identifier un
modèle et classifier les données suivant leur nature en :
• mesures fiables appelées inliers, auxquels le modèle s’ajuste,
• fausses mesures appelées outliers, les fausses mesures que le modèle réfute.
Nous allons dans ce chapitre :
1. Étudier les méthodes couramment utilisées : MAX-CONSENSUS et RANSAC et
discuter leurs limitations,
2. Expliquer et discuter un estimateur robuste incorporant un critère statistique permettant
de s’adapter de manière dynamique au bruit de mesure,
3. Montrer comment généraliser l’utilisation de cet estimateur robuste adaptatif à
différents modèles d’erreur.
Sommaire
4.1 MAX-CONSENSUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.2 RANSAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.2.1 Limitations et variantes . . . . . . . . . . . . . . . . . . . . . . . 68
4.3 A Contrario-RANSAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.3.1 Le principe de la détection a contrario . . . . . . . . . . . . . . . 72
4.3.2 Mise en correspondance a contrario pour l’estimation de la géométrie
épipolaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.4 Généralisation de la mise en correspondance a contrario pour l’estimation
de modèles paramétriques . . . . . . . . . . . . . . . . . . . . 77
4.4.1 Généralisation du calcul du NFA et utilisations . . . . . . . . . . 78
4.4.2 Application pour l’estimation de la géométrie relative entre
deux images sphériques . . . . . . . . . . . . . . . . . . . . . . . 81
4.4.3 Évaluation expérimentale . . . . . . . . . . . . . . . . . . . . . . 84
4.5 Contributions de ce chapitre . . . . . . . . . . . . . . . . . . . . . . . . 8966 4–L’estimation robuste de modèles paramétriques
4.1 MAX-CONSENSUS
Le but de l’estimation robuste est d’identifier, parmi un ensemble D, le sous-ensemble
de points auxquels s’ajuste le mieux un modèle paramétrique H recherché. L’ensemble
D est en sortie classifié en deux sous-ensembles : les inliers et les outliers.
Soit Di
le i
e échantillon de D, M une métrique calculant l’erreur de re-projection
d’un échantillon au modèle H et δ un seuil d’acceptation. MAX-CONSENSUS est une
procédure itérative qui repose sur quatre étapes :
1. La génération d’hypothèses :
un échantillonnage stochastique aléatoire de s-uplets est réalisée afin de gé-
nérer des hypothèses H , s étant suffisant pour estimer les paramètres d’une hypothèse
H .
2. Une mesure de consensus :
l’ensemble des erreurs de re-projection au modèle en cours d’hypothèse H
est évalué pour chaque échantillon.
3. Un critère de validation :
Si l’erreur est inférieure à un seuil δ alors l’échantillon est ajouté au consensus.
4. Un critère d’arrêt :
un nombre d’itérations N.
MAX-CONSENSUS est une méthode qui teste successivement des hypothèses et mesure
la taille du consensus généré. La taille du consensus acceptant H sous une pré-
cision δ est maximisée et ainsi la consensus d’échantillon identifié est retenu comme
inliers :
argmax
H
#D
∑
i=1
1(M (H ,Di) < δ) (4.1)
Une recherche exhaustive des s-uplets est nécessaire afin de rechercher le modèle
idéal. L’évaluation de toutes les combinaisons de s-uplets n’est pas réalisable en pratique
car N =
#D
s
combinaisons seraient à évaluer. Notant que N → ∞ en fonction de
s et la taille de l’ensemble échantillon D un problème combinatoire se pose. Puisqu’il
n’est pas pensable de réaliser tous ces tirages, une façon naïve mais efficace pour limiter
la complexité est de choisir un N fixe et d’utiliser un échantillonnage stochastique.
MAX-CONSENSUS est une méthode itérative qui tire au sort, N fois, un s-uplet pour
générer une hypothèse et la vérifier. Note : plus s est petit, plus l’exploration stochastique
de l’espace des s-uplets sera large et rapidement réalisée.
MAX-CONSENSUS est une méthode à deux paramètres :
• δ : précision/erreur maximale tolérée pouvant être acceptée pour une appartenance
à l’ensemble de consensus,
• N : le nombre d’itérations à réaliser.4.2–RANSAC 67
4.2 RANSAC
La méthode RANSAC (RANdom SAmpling Consensus) (FISCHLER et BOLLES 1981)
est une évolution de la méthode MAX-CONSENSUS. L’idée est de réduire le nombre
de tirages N à réaliser. Si l’on a une idée du nombre d’inliers a-priori dans les données ;
on peut calculer le nombre de tirages nécessaires pour être sûr d’avoir statistiquement
parcouru l’espace des solutions de manière suffisante. A première vue cette solution
permet de réduire la complexité algorithmique de la recherche robuste de modèle, mais
elle a comme inconvénient d’ajouter un nouveau paramètre p sur la proportion estimée
de contamination des données.
RANSAC évalue le nombre suffisant de tirages N à réaliser pour assurer qu’avec
une probabilité p, au moins 1 échantillon de taille s n’est pas pollué. Si le taux d’inliers
w est connu, alors la probabilité de choisir tous les échantillons pollués est (1 − w
s
)
N,
c’est à dire Soit la probabilité de tirer N fois un s-uplet contenant au moins 1 outlier. On
a alors (1−w
s
)
N ≤ 1− p, soit encore :
N ≥
log(1− p)
log(1−ws)
(4.2)
RANSAC peut ainsi au fur et à mesure de son évaluation estimer le nombre d’itérations
N lui restant à effectuer en fonction de la taille du consensus le plus grand rencontré
jusqu’alors. A chaque fois qu’un meilleur consensus est identifié, N est remis à jour
grâce à l’équation 4.2 (cf. procédure 2).
Procédure 2 RANSAC : Recherche du plus large consensus pour un modèle paramé-
trique H
Entrée: D = {D0,...,Di} : un ensemble d’échantillons
Entrée: δ : un seuil de précision, borne haute pour l’acceptation des erreurs
Entrée: p : une probabilité sur la contamination de l’ensemble échantillon,
Entrée: N : un nombre maximal de tirages.
Sortie: le plus large ensemble consensus Sopt et les paramètres du modèle Hopt retenu.
compteur i = 0, #Sopt = 0/
(1) Échantillonnage aléatoire :
Tirage d’un s-uplet
Estimation d’un modèle H // Génération d’une hypothèse
(2) Sélection des inliers :
S = {Di} | M (H ,Di) < δ // Évaluation de l’hypothèse
(3) Consensus optimal :
si #S > #Sopt alors
Sopt = S
Hopt = H
N est mis à jour via l’équation 4.2 // Évaluation du #tirages restant à effectuer
fin si
(4) Critère d’arrêt :
tant que i < N, i = i+1. Retour à l’étape 1.
La seule différence entre MAX-CONSENSUS et RANSAC consiste en la mise à jour
du nombre de tirages restant à réaliser. L’algorithme RANSAC peut donc terminer plus
rapidement son estimation robuste, mais un paramètre supplémentaire p est rajouté.
Cependant, dans la majorité des cas le niveau de bruit des données est inconnu et variable
d’un jeu de données à l’autre. Le choix des paramètres δ et p est donc loin d’être68 4–L’estimation robuste de modèles paramétriques
évident.
RANSAC est une méthode à trois paramètres :
• δ : précision maximale acceptée pour construire un ensemble de consensus,
• N : le nombre maximal d’itérations pouvant être réalisées,
• p : une probabilité de succès fixé apriori.
4.2.1 Limitations et variantes
Les méthodes MAX-CONSENSUS et RANSAC ont une limitation majeure commune
par rapport à ce que l’on appelle l’efficacité relative.
L’efficacité relative est dépendante du choix arbitraire du seuil de précision δ. C’est
l’introduction de ce seuil qui permet une robustesse d’estimation tolérant jusqu’à
plus de 50 % d’outliers, mais en contrepartie le choix de ce paramètre est très
critique. Comme le montre la figure 4.1 lorsque ce seuil est trop élevé, quelques
outliers sont sélectionnés à tort. Lorsque ce seuil est trop faible, une transformation
fiable n’est pas estimable, car trop peu d’échantillons sont utilisés. On parle alors
de situation de sur-évaluation, over-fitting, ou de sous-évaluation, under-fitting.
(a) Distribution des points (b) Choix correct de δ
(c) δ trop petit, sous-évaluation (d) δ trop large, sur-évaluation
FIGURE 4.1 – Ambiguité du choix du seuil de sélection pour l’estimation d’un modèle
de droite.4.2–RANSAC 69
Diverses variantes de MAX-CONSENSUS et RANSAC sont proposées dans la litté-
rature pour chacune des 4 étapes mises en jeu : la génération d’hypothèses, la mesure
de consensus, le critère de validation et enfin le critère d’arrêt. Plutôt que de réaliser
une liste exhaustive (cf. CHOI et al. (2009)) nous allons lister quelques méthodes marquantes
par domaine d’étude.
Amélioration de la rapidité :
Échantillonnage guidé. L’échantillonnage de groupes de s-uplets peut être
vu comme un processus de génération d’hypothèses. En l’absence de connaissance
apriori sur le modèle suivi par les données, un échantillonnage uniforme
est utilisé, chaque hypothèse est ainsi générée indépendamment des
précédentes. Plusieurs heuristiques ont été proposées pour faire converger
l’algorithme plus rapidement.
MOISAN et STIVAL (2004) propose avec ORSA (Optimized Random Sampling
Algorithm) de tirer les échantillons parmi le meilleur ensemble Sopt lorsqu’une
hypothèse est jugée valide.
CHUM et MATAS (2005) propose avec PROSAC (PROgressive SAmple Consensus)
de tirer les échantillons en fonction d’un indice de confiance qui leur
est associé. Le tirage n’est plus réalisé de manière uniforme mais en tenant
compte de cette mesure de qualité. L’intuition est qu’il vaut mieux tester en
premier lieu les configurations sur lesquelles on a le plus confiance. Dans le
cas de la mise en correspondances d’images, la similarité entre les descripteurs
est associée aux échantillons.
NI et al. (2009) propose avec GROUPSAC de partitionner en sous-groupes
les échantillons. Dans le cas de correspondances images, un critère géomé-
trique est utilisé. La ressemblance des vecteurs directeurs entre les points
images en correspondance est ainsi utilisée dans un algorithme de regroupement
hiérarchique. La probabilité de tirer un échantillon est alors déterminée
par la taille d’un groupe et non plus uniforme.
Amélioration de la robustesse :
Adaptivité au bruit. Contrairement aux méthodes de type MAX-CONSENSUS
qui utilisent un seuil fixe δ sur les résidus observés, les méthodes citées
ici visent à mesurer la qualité et la validation d’un groupe associé à une
transformation. Il s’agit de déterminer de manière automatique le groupe
de consensus qui s’ajuste le mieux au modèle en cours d’hypothèse et de ne
plus dépendre d’un seuil δ fixé de manière heuristique. Pour chaque modèle,
le bruit des données est estimé, l’ensemble consensus satisfaisant le modèle
paramétrique est déterminé statistiquement. Ce problème n’est pas trivial,
mais apporter une solution permet de devenir adaptatif aux données.
Une façon de ne plus dépendre d’un seuil δ peut être réalisé en changeant la
métrique. ROUSSEEUW (1984) recherche l’ensemble consensus qui minimise
la médiane des résidus observés par la méthode LMedS, Least-Median-ofSquares.
On observe que la méthode permet de rejeter efficacement les données
aberrantes mais en contrepartie elle est très sensible à un bruit de type
gaussien. L’utilisation de la médiane limite l’identification d’un consensus à
des données polluées à moins de 50%.
Hypothèse : distributions normales des inliers et distribution uniforme
des outliers : L’algorithme MLESAC Maximum Likelihood SAC (TORR et ZISSERMAN
2000) introduit une mesure de qualité basée sur la probabilité de70 4–L’estimation robuste de modèles paramétriques
distribution des inliers et outliers. La distribution des inliers est modélisée
comme une distribution gaussienne et les outliers comme une distribution
uniforme.
Hypothèse : distributions uniformes des outliers : MINPRAN MINimize the
Probability of RANdomness (STEWART 1995) recherche un ensemble consensus,
qui associé à un modèle paramétrique, n’est pas expliqué par la chance
(le modèle de fond). La taille de cet ensemble consensus est évaluée par la
minimisation d’une probabilité P(S|H ). Considérant les résidus des outliers
uniformément distribués, une mesure de consistance est définie par l’utilisation
de la probabilité. MINPRAN modélise par des probabilités le fait d’observer
un groupe de k résidus plus petit qu’une erreur r parmi N résidus
selon une loi uniforme. Le groupe de k points présentant la plus faible probabilité
est retenu. Le calcul des probabilités permet d’obtenir une méthode
adaptative mais rajoute une complexité importante pour les calculs.
Hypothèses : points d’intérêt indépendants et uniformément distribués
dans les images : MOISAN et STIVAL (2004) proposent de mesurer la qualité
d’un groupe de correspondances dans le cadre de la théorie de la détection
a contrario. Cette approche présente de nombreuses similitudes avec l’algorithme
MINPRAN mais les hypothèses pour le modèle de fond sont diffé-
rentes. Cette méthode que nous référons par l’acronyme AC-RANSAC (A
Contrario RANdom SAmple Consensus) est expliquée plus en détail dans la
section 4.3.
Hypothèses : distributions uniformes des alpha-consistance de modèles :
StaRSaC (CHOI et MEDIONI 2009) propose de tester de manière exhaustive
différentes valeurs de seuil δ. Le consensus conservé est estimé en fonction
de la variance des paramètres du modèle H en estimation. RAGURAM et
FRAHM (2011) propose avec la méthode RECON REsidual CONsensus de rechercher
K hypothèses qui sont consistantes. La mesure de consistance repose
sur un test dit d’α-consistance permettant d’identifier la variance du
bruit d’un modèle en cours d’évaluation. RECON itère parmi différentes valeurs
de seuil α et garde le plus petit α donnant un ensemble de modèles
partageant des distributions similaires d’erreur résiduelle. L’inconvénient de
ces méthodes est que les seuils sont contraints apriori dans un intervalle fixe
et discrétisé en K sous seuils à évaluer.
Amélioration de la précision :
Optimisation locale. CHUM et al. (2003) propose avec LO-RANSAC pour chaque
hypothèse en cours d’acceptation de l’optimiser localement. C’est à dire de
lancer des estimations d’hypothèses parmi les données sélectionnées en inlier.
L’hypothèse donnant la plus petite erreur moyenne est retenue.
La méthode de MOISAN et STIVAL (2004) réalise à la fois un échantillonnage
guidé et une optimisation locale du modèle.4.2–RANSAC 71
Nous venons de voir qu’il existe toute une famille de méthodes RANSAC, chaque
méthode apporte des optimisations de certaines parties de l’algorithme de base. Chaque
méthode a ses avantages et inconvénients : fiabilité et paramètres plus ou moins visibles.
Nous allons nous intéresser par la suite à la méthode nommée AC-RANSAC, A
Contrario RANSAC, car elle repose sur la définition et l’usage de critères statistiques
d’aide à la décision bien fondés. Les points abordés par AC-RANSAC sont particulièrement
intéressants et permettent :
• la modélisation statistique du nombre de fausses alarmes,
• l’adaptabilité au bruit des données et donc une meilleure précision pour les modèles
identifiés (cf. figure 4.2),
• l’absence de paramètres autres qu’un nombre d’itération maximal,
• un point de rupture plus large que les autres méthodes (pouvant aller jusqu’à 90%
d’outliers si suffisamment d’hypothèses sont testées).
Des expériences, sur A Contrario RANSAC, réalisées par MOISAN et STIVAL (2004) et
NOURY (2011) ont démontré sur images synthétiques et réelles :
• l’amélioration du taux de réussite général et ce jusqu’a 90% d’outliers,
• l’amélioration générale de la précision (comparé à RANSAC et MSAC),
• l’amélioration systématique de la solution identifiée lorsque le taux d’outliers dé-
passe les 50%.
FIGURE 4.2 – Comportement d’AC-RANSAC pour la recherche d’un modèle paramé-
trique de ligne ou un bruit gaussien de plus en plus grand est ajouté. En vert les données
validées a contrario en rouge les données rejetées et en bleu le modèle identifié.
On note, en bas à droite, qu’en présence de bruit pur AC-RANSAC n’identifie aucun
modèle, RANSAC aurait lui retourné une fausse hypothèse.72 4–L’estimation robuste de modèles paramétriques
4.3 A Contrario-RANSAC
La théorie de la détection a contrario a été proposée initialement par DESOLNEUX
et al. (2000) pour la détection de segments puis généralisée à d’autres propos par la
suite : DESOLNEUX et al. (2007). Elle s’inspire des tests d’hypothèses pour détecter des
groupes significatifs d’objets partageant des caractéristiques similaires. Les «méthodes
a contrario» reposent sur la définition d’un modèle de fond et une mesure de signifi-
cativité.
4.3.1 Le principe de la détection a contrario
La méthodologie a contrario (AC)repose sur le postulat qu’une structure n’est perçue
que lorsqu’elle n’a que très peu de chance d’être due au hasard. Ce principe est défini
par le «principe de Helmholtz» (cf. figure 4.3). Lionel MOISAN (2003) définit l’idée à
exploiter comme suit :
Proposition 3. "Il est beaucoup plus simple de définir un modèle que l’on souhaite réfuter
(typiquement un modèle uniforme) qu’un modèle précis des objets que l’on souhaite détecter".
FIGURE 4.3 – Illustration du principe de Helmholtz (groupement perceptuel). A
gauche, aucune structure ne se détache de l’image, où les segments ont été tirés aléatoirement
de manière indépendante. A droite, on ne peut s’empêcher de regrouper certain
segments car les alignements visibles ont peu de chances d’arriver par hasard.
L’application de la méthodologie a contrario demande la définition de quatre critères
:
1. Un modèle de fond : La définition de l’hypothèse à réfuter.
2. Une mesure de similarité : Une mesure de l’adéquation d’un échantillon à une
hypothèse en cours d’évaluation.
3. Une mesure de significativité : Une mesure de l’adéquation d’un groupe d’échantillons
à une hypothèse en cours (la détection d’une structure significative).
4. Un critère d’optimisation : Optimisation permettant de retenir la meilleure hypothèse
rencontrée : celle qui réfute le plus le modèle de fond.
Appliquée à la recherche de modèle, la méthode a contrario répond à la question :
"Est-ce que le modèle considéré s’ajuste aux données par chance ?" Le cadre statistique
repose sur deux notions : la définition d’un modèle de fond, qui décrit le processus
génératif, pour lequel aucune structure significative n’est perçue, et une mesure de similarité
de caractéristiques composant un groupe. Cette similarité permet d’évaluer la
qualité des groupes testés afin de détecter automatiquement quel sous-groupe est cohérent,
rigide.4.3–A Contrario-RANSAC 73
4.3.2 Mise en correspondance a contrario pour l’estimation de la géométrie
épipolaire
Dans le but de s’affranchir des limitations de RANSAC, MOISAN et STIVAL (2004)
utilisent la méthodologie a contrario pour réaliser les tâches de sélection et validation
de groupe dans le but d’estimer la géométrie épipolaire à partir de correspondances. Ils
apportent les éléments suivants :
Rappel. On dispose d’un ensemble de correspondances C : {(m,m
′
)},#C = n entre
deux images I et I
′
. On considère qu’un sous-groupe de 7 points est nécessaire pour
calculer de 1 à 3 matrices fondamentales.
Le modèle de fond à réfuter, l’hypothèse nulle. On souhaite identifier un sous-groupe
de ces correspondances qui peut être expliqué par une unique transformation. Pour
estimer cette transformation dans la méthodologie a contrario, on définit une hypothèse
nulle H0 qui décrit la distribution des correspondances aléatoireC pour lesquelles
aucun groupement ne doit être validé. Un groupe de correspondances est considéré
comme significatif s’il réfute l’hypothèse nulle, en d’autres termes si l’observation d’un
tel groupe sous H0 est peu probable.
Proposition 4. Un ensemble C de n correspondances aléatoires {(m,m
′
)} suit l’hypothèse nulle
H0 lorsque :
• les correspondances (m,m
′
) sont des variables aléatoires mutuellement indépendantes,
• les points m et m
′
sont uniformément distribués dans leur image respective I, I
′
.
La mesure de similarité. La mesure permettant de vérifier la qualité d’un échantillon
de correspondances dans le cas de la géométrie épipolaire utilise une erreur de type
point-droite. Cette erreur résiduelle implique pour un modèle F et un couple de point
(m,m
′
) une distance des points m et m
′ aux lignes épipolaires F
Tm
′ dans I et Fm dans I
′
respectivement.
La mesure de significativité. On souhaite ici mesurer l’adéquation d’un modèle en
cours d’hypothèse aux données de manière statistique. Soit S
′ un sous-groupe de C, tel
que #S
′ = s et FS
′ la matrice fondamentale évaluée à partir du s-uplet. Si l’on considère
queC suit le modèle de fond et que l’on a estimé la matrice FS
′ à partir d’un sous-groupe
S
′ ⊂ C. Pour n’importe quelle correspondance aléatoire (m,m
′
) de C, la probabilité que
la distance entre m
′
et la ligne épipolaire FS
′m soit plus petite que α peut être majorée
(cf. figure 4.4). Cette borne supérieure est le rapport entre l’aire maximale d’une bande
de largeur 2α et l’aire A de l’image I
′
.
En notant M (FS
′m,m
′
) la distance euclidienne entre le point m
′
et la ligne épipolaire
FS
′m on note :
∀α > 0,PH0
[M (FS
′m,m
′
) ≤ α] ≤
2αDI
′
AI
′
(4.3)
où DI
′ et AI
′ désignent respectivement la longueur de la diagonale et l’aire de l’image I
′
.
On définit l’erreur symétrique de transfert pour la géométrie épipolaire :
max
2DI
′
AI
′
M (FS
′m,m
′
),
2DI
AI
M (m,F
T
S
′m
′
)
∈ [0,1]74 4–L’estimation robuste de modèles paramétriques
FIGURE 4.4 – Définition de la mesure de significativité de l’erreur α pour la géométrie
épipolaire.
Considérant un couple de point aléatoire (m,m
′
) ⊂ C | S
′ on peut écrire
PH0
max
2DI
′
AI
′
M (FS
′m,m
′
),
2DI
AI
M (m,F
T
S
′m
′
)
≤ α
≤ α
2 ≤ α (4.4)
Pour tout sous-ensemble S de C tel que S ∩S
′ = 0/ on peut ainsi mesurer l’adéquation
de la matrice fondamentale FS
′ pour les correspondances de S comme l’erreur de
transfert symétrique normalisée maximale sur tous les points de S :
α(S,FS
′) := max
(m,m′)∈S
max
2DI
′
AI
′
M (FS
′m,m
′
),
2DI
AI
M (m,F
T
S
′m
′
)
(4.5)
On appelle cette mesure l’α-rigidité. Plus α est petit, moins il est probable que l’ensemble
de correspondances soit dû au hasard. Les correspondances étant supposées
indépendantes, on obtient une borne α
#S pour la probabilité d’observer une rigidité
α(S,FS
′) :
∀α > 0, PH0
[α(S,FS
′) ≤ α] ≤ α
#S
(4.6)
On peut ainsi mesurer la cohérence d’un sous-groupe S de correspondances réelles selon
une transformation F en considérant que la probabilité de la rigidité aléatoire de
α(S,FS
′) soit plus petite que la rigidité observée α(S,F) sous l’hypothèse nulle H0. La
quantité α(S,F)
#S mesure à quel point on s’étonne d’observer un groupe de taille #S et
de rigidité α(S,F) en supposant que le groupe est généré aléatoirement. Comme on recherche
des groupes qui ne sont pas composés de bruit, seuls les groupes pour lesquels
la probabilité est faible seront validés.
Une optimisation. Afin de connaître de manière automatique quel sous-groupe S est
α-rigide, un critère de validation automatique est utilisé. Ce critère de validation s’appuie
sur l’espérance du nombre de fausses alarmes, le NFA : une probabilité α pondérée
par un nombre de tests. Cette mesure de qualité associe une borne supérieure de l’espé-
rance du nombre de fausses alarmes au nombre de groupes de taille k de S qui suivent
le modèle de fond :
Proposition 5. Soit C = {(mi
,m
′
i
)|i = 1,...,n} un ensemble de n appariements entre les images
I et I
′
. Soit S un sous-ensemble de C, constitué de #S = k correspondances, avec k ≤ n − 7.
L’ensemble S est dit ε-significatif s’il existe un sous-ensemble S
′ de C, tel que #S
′ = 7,S
′ ∩S = 0/
et4.3–A Contrario-RANSAC 75
NFA(S,FS
′, k) = 3(n−7)
n
k
k
7
α
k−7 ≤ ε. (4.7)
Le NFA permet d’estimer quel sous-groupe de taille k réfute l’hypothèse de fond H0.
On mesure ainsi l’α-rigidité d’un sous-groupe de S de taille k pour la matrice FS
′ . Cette
mesure est d’autant plus significative que la quantité NFA(S,FS
′, k) est faible. Le nombre
de tests utilisé est composé de :
1. le nombre de tirage aléatoire : Le terme 3
k
7
correspond au nombre de transformations
F qu’il est possible d’estimer parmi les k correspondances restantes. Le
nombre de 7-uplets multiplié par le nombre de modèles hypothèses maximum
pouvant être calculé.
2. le nombre de groupe de résidus (n − 7). Les appariements restants dont les erreurs
résiduelles sont ordonnées par ordre croissant (les différentes bornes supé-
rieures α à évaluer),
3. le nombre de groupe de taille k ≤ n−7 : le terme
n
k
.
Identifier le groupe optimal pour la matrice FS
′ consiste à trouver le nombre de
valeurs étant le plus α-consistant : le groupe Sk ayant le plus petit NFA. Soit, rechercher
le groupe de taille k minimisant l’équation NFA(S,FS, k) :
NFA(Sk) = min
k=8...n
NFA(S,FS
′, k) ≤ ε , (4.8)
avec ε = 1 comme borne naturelle pour indiquer que l’on autorise au plus une fausse
alarme par détection. Les sous-groupes sont explorés en faisant varier k ∈ [8,n].
Tester tous les sous-ensembles de 7-uplets n’étant pas envisageable, il convient d’utiliser
les mêmes idées que RANSAC pour créer l’algorithme AC-RANSAC (cf. procédure
3). Á chaque itération un 7-uplets S est tiré parmi les n correspondances. De une à trois
matrices fondamentales sont alors estimées. Pour chacune on recherche le sous-groupe
le plus α-consistant : Les erreurs pour les n−7 appariements restant (mi
,m
′
i
) ∈C | S sont
évaluées et ordonnées par ordre croissant puis le groupe de taille k optimal est identi-
fié. On itère jusqu’à ce qu’un nombre maximal d’itérations ait été atteint ou que l’on a
identifié une hypothèse donnant un NFA< 1, phase où l’on va pouvoir optimiser localement
le modèle pour continuer à identifier de nouvelle matrice F ayant sous-groupe
avec un NFA plus petit.
On obtient la procédure 3 :76 4–L’estimation robuste de modèles paramétriques
Procédure 3 AC-RANSAC
Entrée: D = {(m,m
′
)} : un ensemble de correspondances
Entrée: N : un nombre maximal de tirage
Sortie: l’ensemble consensus Sopt, le modèle Fopt validé a contrario et son NFA.
iter = 0, Sopt = 0/, optim = 0
NFAopt = 1
Dcopie = D
(1) Échantillonnage aléatoire :
Tirage d’un 7-uplet S parmi Dcopie
Estimation de(s) matrices F (au plus 3)
pour chaque matrice F faire
(2) Sélection des inliers :
Tri des correspondances (m,m
′
) selon leur erreur résiduelle αi
Sélection du groupe S
′de taille k minimisant le NFA(S,F,αi
, k)
(3) Validation :
si #S
′ > #Sopt et NFA(S’) < NFAopt alors
Sopt = S
′
Fopt = F
(3.1) Optimisation du modèle et réduction du nombre d’itération :
si NFA(S’) < 1 et optim = 0 alors
Dcopie = S
′
N = iter+N/10;
optim = 1
fin si
fin si
fin pour
(4) Critère d’arrêt :
Tant que iter < N, iter = iter +1. Retour à l’étape 1.
(5) Optimisation du modèle final :
Estimation aux moindres carrés de Fopt en utilisant Sopt.4.4–Généralisation de la mise en correspondance a contrario pour l’estimation de
modèles paramétriques 77
4.4 Généralisation de la mise en correspondance a contrario
pour l’estimation de modèles paramétriques
Le modèle de fond proposé pour la géométrie épipolaire par MOISAN et STIVAL
(2004) est très générique (indépendance mutuelle et distribution uniforme des points
homologues), il peut donc être utilisé pour l’estimation de modèles paramétriques
autres que la matrice fondamentale. Dans un premier temps nous nous intéressons au
cas des transformations géométriques du plan. Puis nous proposons d’explorer une
formulation générique du calcul NFA pour appliquer l’estimation robuste a contrario
AC-RANSAC à des modèles inexplorés jusqu’alors.
Étendre la formulation a contrario initiale pour le cas des transformations géomé-
triques du plan (similitudes, transformations affines et homographie) requiert de redé-
finir les points suivants :
1. La mesure de similarité : la mesure de l’erreur résiduelle,
Les transformations géométriques du plan impliquent non plus une distance
à une ligne épipolaire, mais une correspondance point à point. Soit Mp un modèle
paramétrique réalisant une transformation géométrique du plan. L’erreur
résiduelle de transfert dans l’image droite s’exprime par la distance euclidienne
entre le point x
′ de l’image droite et le point Mpx, transfert du point x de l’image
gauche à l’image droite :
M (Mpx, x
′
) = kMpx−x
′
k2. (4.9)
Pour tout correspondance (x, x
′
) la probabilité conditionnellement à H0 que la distance
M (Mpx, x
′
) soit plus petite que α est bornée supérieurement par le rapport
de l’aire du disque de rayon α divisé par l’aire A
′ de l’image I
′
:
∀α > 0, PH0
[M (Mpx, x
′
) ≤ α] ≤ π
α
2
A′
. (4.10)
Autrement dit,
∀α > 0, PH0
[
π
A′M (Mpx, x
′
)
2 ≤ α] ≤ α. (4.11)
2. La mesure de significativité : la mesure de l’α-rigidité,
Une nouvelle définition de la rigidité (en considérant les erreurs de transfert
dans les deux images) est exprimée :
α(S,MpS
′) := max
(x,x
′)∈S
max π
A′M (Mpx, x
′
)
2
,
π
A
M (x,M−1
p
x
′
)
2
(4.12)
La cohérence d’un sous-groupe S
′ de correspondances réelles selon une transformation
Mp, en considérant la probabilité que la rigidité aléatoire de α(S,MpS
′) soit
plus petite que la rigidité observée α(S,Mp) sous l’hypothèse nulle H0, est mesurée
comme précédemment :
∀α > 0, PH0
α(S,MpS′) ≤ α
≤ α
#S
(4.13)
3. La phase d’optimisation : le calcul du NFA.
En considérant maintenant un ensemble S de n appariements entre deux images
I et I
′ on exprime de manière analogue le critère de validation du NFA proposé
par MOISAN et STIVAL (2004) :
NFA(S,MpS′, k) = (n−Ns)
n
k
k
Ns
α
k−Ns ≤ ε, (4.14)
Système de mesure d’imp´edance ´electrique embarqu´e,
application aux batteries Li-ion
Rouba Al Nazer
To cite this version:
Rouba Al Nazer. Syst`eme de mesure d’imp´edance ´electrique embarqu´e, application aux batteries
Li-ion. Signal and Image processing. Universit´e de Grenoble, 2014. French.
HAL Id: tel-00958783
https://tel.archives-ouvertes.fr/tel-00958783
Submitted on 13 Mar 2014
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of scientific
research documents, whether they are published
or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destin´ee au d´epˆot et `a la diffusion de documents
scientifiques de niveau recherche, publi´es ou non,
´emanant des ´etablissements d’enseignement et de
recherche fran¸cais ou ´etrangers, des laboratoires
publics ou priv´es.THÈSE
Pour obtenir le grade de
DOCTEUR DE L’UNIVERSITÉ DE GRENOBLE
Spécialité : Signal Image Télécommunications et Parole
Arrêté ministériel : 7 août 2006
Présentée par
Rouba AL NAZER
Thèse dirigée par Nadine MARTIN et
Co-encadrée par Viviane CATTIN
Pierre GRANJON
préparée au sein du Laboratoire CEA/LETI
dans l'École Doctorale Electronique Electrotechnique
Automatique Traitement du Signal
Système de mesure d'impédance
électrique embarqué, application
aux batteries Li-ion
Thèse soutenue publiquement le 24 Janvier 2014,
devant le jury composé de :
M., Gérard, BLOCH
Professeur, Université de Lorraine, Rapporteur
M., Christophe, FORGEZ
Professeur, Université de Technologie de Compiègne, Rapporteur
M., François, HUET
Professeur, Université Pierre et Marie Curie, Membre
Mme, Marie, CHABERT
Professeur, INP-Toulouse, Présidente
M., Maxime, MONTARU
Docteur Ingénieur, CEA/INES, Invité
Mme, Nadine, MARTIN
Directeur de Recherche CNRS, GIPSA-Lab, Directrice de thèse
Mme, Viviane, CATTIN
Docteur Ingénieur, CEA/LETI, Co-encadrante
M., Pierre, GRANJON
Maître de conférences, Grenoble-INP, GIPSA-Lab, Co-encadrant Remerciements
Ce travail a été effectué dans le laboratoire L2EP du leti du CEA grâce à Viviane Cattin que je tiens à
remercier pour m'avoir permis de réaliser cette thèse et de m'avoir orientée vers la thématique de l'étude de
l’impédance des batteries utilisées dans les véhicules hybrides. Je lui suis également reconnaissante pour tous
les précieux conseils qu'elle m'a donnés, pour la confiance qu'elle m'a accordée et sans qui ce travail n'aurait
jamais vu le jour.
J'adresse mes remerciements les plus chaleureux à Pierre Granjon, maître de conférences à ENSE3, pour sa
disponibilité, ses qualités pédagogiques et scientifiques. J'ai beaucoup appris à ses côtés et je lui adresse
toute ma gratitude. J'ai notamment apprécié d'avoir eu, tout au long de cette thèse, ses conseils de grande
rigueur scientifique et littéraire.
J'associe à ces remerciements Maxime Montaru, chercheur à l'INES de Chambéry, pour m’avoir transmis la
majeure partie des expériences effectuées dans le cadre d’autres projets et pour m’avoir conseillée et guidée
avec bienveillance grâce à ses précieuses connaissances dans le domaine des batteries.
Un énorme merci à vous trois pour m’avoir corrigée et aidée avec patience, tout au long de la rédaction de ce
manuscrit.
Je voudrais également remercier tous les membres du jury pour l'intérêt qu'ils ont porté à mon travail.
De manière plus personnelle, je remercie chaleureusement tous mes camarades du laboratoire qui m'ont
permis d'effectuer cette thèse dans une ambiance amicale, et plus particulièrement ceux qui se reconnaîtront,
pour leur soutien et leur bonne humeur.
Immanquablement, je souhaite remercier ma famille pour leur soutien constant. Cette thèse, aboutissement
de longues années d’études, je la dois beaucoup à mes parents, à mes sœurs et mes frères exceptionnels avec
qui j’ai vécu dans un climat toujours serein, à l’abri de tous soucis affectifs. Il m’est impossible de trouver
des mots pour dire à quel point je suis fière d’eux, et à quel point je les aime.Résumé
La ŵesuƌe d͛iŵpĠdaŶĐe ĠleĐtƌiƋue eŶ eŵďaƌƋuĠ suƌ ǀĠhiĐule est uŶ sujet ĐlĠ pouƌ aŵĠlioƌeƌ les
foŶĐtioŶs de diagŶostiĐ d͛uŶ paĐk ďatteƌie. OŶ ĐheƌĐhe eŶ paƌtiĐulieƌ à fouƌŶiƌ aiŶsi des ŵesuƌes
supplémentaiƌes à Đelles du ĐouƌaŶt paĐk et des teŶsioŶs Đellules, afiŶ d͛eŶƌiĐhiƌ les iŶdiĐateuƌs de
ǀieillisseŵeŶt daŶs uŶ pƌeŵieƌ teŵps, et d͛Ġtat de saŶtĠ et de Đhaƌge daŶs uŶ seĐoŶd teŵps. UŶe
ŵĠthode ĐlassiƋue de laďoƌatoiƌe pouƌ oďteŶiƌ des ŵesuƌes d͛iŵpĠdaŶĐe d͛uŶe ďatteƌie est la
speĐtƌosĐopie d͛iŵpĠdaŶĐe ĠleĐtƌoĐhiŵiƋue ;ou EI“Ϳ. Elle ĐoŶsiste à eŶǀoLJeƌ uŶ sigŶal siŶusoïdal eŶ
ĐouƌaŶt ;ou teŶsioŶͿ de fƌĠƋueŶĐe ǀaƌiaďle ďalaLJaŶt uŶe gaŵŵe de fƌĠƋueŶĐes d͛iŶtĠƌġt et ŵesuƌeƌ
ensuite la réponse en tension (ou ĐouƌaŶtͿ pouƌ ĐhaƋue fƌĠƋueŶĐe. UŶe teĐhŶiƋue d͛ideŶtifiĐatioŶ
aĐtiǀe ďasĠe suƌ l͛utilisatioŶ des sigŶaudž laƌge ďaŶde à ŵotifs ĐaƌƌĠs est pƌoposĠe. EŶ paƌtiĐulieƌ, des
siŵulatioŶs oŶt peƌŵis de Đoŵpaƌeƌ les peƌfoƌŵaŶĐes d͛ideŶtifiĐatioŶ de diffĠƌeŶts sigŶaux
d͛edžĐitatioŶ fƌĠƋueŵŵeŶt utilisĠs daŶs le doŵaiŶe de l͛ideŶtifiĐatioŶ et de ǀĠƌifieƌ les ĐoŶditioŶs
ĐoƌƌespoŶdaŶt à uŶ ĐoŵpoƌteŵeŶt liŶĠaiƌe et iŶǀaƌiaŶt daŶs le teŵps de l͛ĠlĠŵeŶt ĠleĐtƌoĐhiŵiƋue.
L͛ĠǀaluatioŶ de la ƋualitĠ d͛estiŵatioŶ est effeĐtuĠe en utilisant une grandeur spécifique : la
cohérence. Cette grandeur statistique permet de déterminer un intervalle de confiance sur le module
et la phase de l͛iŵpĠdaŶĐe estiŵĠe. Elle peƌŵet de sĠleĐtioŶŶeƌ la gaŵŵe de fƌĠƋueŶĐe où la
batterie respecte les hLJpothğses iŵposĠes paƌ la ŵĠthode d͛ideŶtifiĐatioŶ laƌge ďaŶde. AfiŶ de
valider les résultats, une électronique de test a été conçue. Les résultats expérimentaux permettent
de ŵettƌe eŶ ǀaleuƌ l͛iŶtĠƌġt de Đette appƌoĐhe paƌ ŵotifs ĐaƌƌĠs. UŶ ĐiƌĐuit de ƌĠférence est utilisé
afin d'évaluer les performances en métrologie des méthodes. L'étude expérimentale est ensuite
poursuivie sur une batterie Li-ion soumise à un courant de polarisation et à différents états de
Đhaƌge. Des essais Đoŵpaƌatifs aǀeĐ l͛EI“ soŶt ƌĠalisĠs. Le Đahieƌ de Đhaƌge Ġtaďli à l'aide d͛uŶ
simulateur de batterie Li-ioŶ a peƌŵis d͛Ġǀalueƌ les peƌfoƌŵaŶĐes de la teĐhŶiƋue laƌge ďaŶde
pƌoposĠe et de stƌuĐtuƌeƌ soŶ utilitĠ pouƌ l͛estiŵatioŶ des Ġtats de ǀieillisseŵeŶt et de Đhaƌge.Abstract
Embedded electrical impedance measurement is a key issue to enhance battery monitoring and
diagŶostiĐ iŶ a ǀehiĐle. It pƌoǀides additioŶal ŵeasuƌes to those of the paĐk͛s ĐuƌƌeŶt aŶd Đell͛s
ǀoltage to eŶƌiĐh the agiŶg͛s iŶdiĐatoƌs iŶ a fiƌst tiŵe, aŶd the battery states in a second time. A
classical method for battery impedance measurements is the electrochemical impedance
spectroscopy (EIS). At each frequency, a sinusoidal signal current (or voltage) of a variable frequency
sweeping a range of frequencies of interest is at the input of the battery and the output is the
measured voltage response (or current). An active identification technique based on the use of
wideband signals composed of square patterns is proposed. Particularly, simulations were used to
compare the performance of different excitation signals commonly used for system identification in
several domains and to verify the linear and time invariant behavior for the electrochemical element.
The evaluation of the estimation performance is performed using a specific quantity: the spectral
coherence. This statistical value is used to give a confidence interval for the module and the phase of
the estimated impedance. It allows the selection of the frequency range where the battery respects
the assumptions imposed by the non-parametric identification method. To experimentally validate
the previous results, an electronic test bench was designed. Experimental results are used to
evaluate the wideband frequency impedance identification. A reference circuit is first used to
evaluate the performance of the used methodology. Experimentations are then done on a Li–ion
battery. Comparative tests with EIS are realized. The specifications are established using a simulator
of Li-ion battery. They are used to evaluate the performance of the proposed wide band
identification method and fix its usefulness for the battery states estimation: the state of charge and
the state of health.
TABLE DES MATIERES
INTRODUCTION ................................................................................................................................................ 1
CHAPITRE 1 : CONTEXTE GENERAL .............................................................................................................. 5
1.1 PROBLEMES ECOLOGIQUES ET ECONOMIQUES LIES AU TRANSPORT........................................................................ 5
1.1.1 Le transport en tant que principal émetteur de GES ......................................................................... 5
1.1.2 Le pétrole : conflits économiques et politiques ................................................................................. 8
1.2 VERS L͛ELECTRIFICATION DU VEHICULE ............................................................................................................ 8
1.3 GENERALITES SUR LES ACCUMULATEURS........................................................................................................ 10
1.3.1 Les technologies des accumulateurs ............................................................................................... 10
1.3.2 Grandeurs caractéristiques d’uŶ aĐĐuŵulateuƌ .............................................................................. 12
1.3.2.1 La capacité de stockage C ሺAhሻ .............................................................................................................. 12
1.3.2.2 La capacité nominale Cn ሺAhሻ................................................................................................................ 12
1.3.2.3 La capacité stockée Cs ሺAhሻ ................................................................................................................... 12
1.3.2.4 Le rendement faradique (%) ................................................................................................................... 12
1.3.2.5 L͛autodécharge (%) ................................................................................................................................. 12
1.3.2.6 La tension à vide (OCV pour Open Circuit Voltage) ................................................................................ 13
1.3.2.7 La durée de vie en cyclage et calendaire ................................................................................................ 13
1.3.3 Les accumulateurs Li-ion ................................................................................................................. 13
1.3.3.1 Fonctionnement ..................................................................................................................................... 13
1.3.3.2 Phénomènes physico-chimiques ............................................................................................................ 14
a) L͛effet de ĐouĐhe douďle............................................................................................................................. 14
b) Transfert de charge ..................................................................................................................................... 15
c) La diffusion .................................................................................................................................................. 15
d) Film de passivation ...................................................................................................................................... 15
e) Pertes ohmiques.......................................................................................................................................... 16
1.3.4 Des accumulateurs aux batteries .................................................................................................... 16
1.4 SYSTEME DE SUPERVISION DE BATTERIE ......................................................................................................... 16
1.4.1 IŶdiĐes d’Ġtats ................................................................................................................................. 17
1.4.1.1 Etat de santé (SOHሻ................................................................................................................................ 17
1.4.1.2 Etat de charge (SOC)............................................................................................................................... 17
1.4.2 Terminologie.................................................................................................................................... 18
1.5 L͛ACCUMULATEUR : OBJET DE MODELISATION ................................................................................................ 19
1.5.1 Boite Blanche ................................................................................................................................... 19
1.5.2 Boite noire ....................................................................................................................................... 20
1.5.3 Boite grise ........................................................................................................................................ 20
1.5.3.1 Le modèle de Randles généralisé ........................................................................................................... 21
1.5.3.2 Application aux cellules LiFePO4 ............................................................................................................. 231.6 CIRCUIT ELECTRIQUE EQUIVALENT ET NOTION D͛IMPEDANCE ELECTRIQUE ............................................................. 24
CHAPITRE 2 : IDENTIFICATION DE L’IMPEDANCE ELECTRIQUE D’UN ACCUMULATEUR.............................. 25
2.1 HYPOTHESES DE TRAVAIL............................................................................................................................ 26
2.2 ETAT DE L͛ART.......................................................................................................................................... 26
2.2.1 Identification de la résistance interne ............................................................................................. 27
2.2.1.1 Mesure par milliohmmètre.................................................................................................................... 27
2.2.1.2 Temps de repos (period-of-rest) ............................................................................................................ 27
2.2.1.3 Impulsion de courant .............................................................................................................................. 27
2.2.1.4 Interprétation ......................................................................................................................................... 27
2.2.1.5 Exploitation ............................................................................................................................................ 28
2.2.2 SpeĐtƌosĐopie d’iŵpĠdaŶĐe ĠleĐtƌiƋue ;SIEͿ.................................................................................... 29
2.2.3 Vers une rupture inévitable des méthodes classiques ..................................................................... 29
2.3 IDENTIFICATION NON PARAMETRIQUE D͛UN ACCUMULATEUR............................................................................. 30
2.3.1 Système linéaire et invariant dans le temps (LIT) ............................................................................ 30
2.3.2 Identification non paramétrique ..................................................................................................... 31
2.3.2.1 Principe ................................................................................................................................................... 31
2.3.2.2 Cohérence spectrale ............................................................................................................................... 32
2.3.2.3 Algoƌithŵe d͛ideŶtifiĐatioŶ ŶoŶ paƌaŵĠtƌiƋue ...................................................................................... 33
2.3.2.4 Intervalles de confiance .......................................................................................................................... 34
2.3.3 Eƌƌeuƌs d’estiŵatioŶs ...................................................................................................................... 35
2.3.3.1 Erreur quadratique moyenne et variance d͛eƌƌeuƌ d͛estiŵatioŶ ........................................................... 35
2.3.3.2 Erreur quadratique moyenne efficace et écart type normalisés ............................................................ 35
2.3.4 IŶtĠƌġt ŵajeuƌ de l’ideŶtifiĐatioŶ laƌge ďaŶde pouƌ l’appliĐatioŶ eŶ eŵďaƌƋuĠ ............................. 36
2.3.5 Effet des paƌaŵğtƌes de la ŵĠthode d’estiŵatioŶ .......................................................................... 36
2.3.5.1 “igŶal d͛edžĐitation .................................................................................................................................. 37
a) Bruit blanc aléatoire .................................................................................................................................... 37
b) Séquence binaire pseudo aléatoire ............................................................................................................. 38
c) Chirp ............................................................................................................................................................ 38
d) Carré modulé en fréquence ........................................................................................................................ 39
e) Carré ............................................................................................................................................................ 40
2.3.5.2 Noŵďƌe d͛ĠĐhaŶtilloŶs, duƌĠe d͛aĐƋuisitioŶ, ŵoLJeŶŶage...................................................................... 40
2.3.5.3 Drift compensation ................................................................................................................................. 41
2.4 APPLICATION AUX ACCUMULATEURS : ETUDE EN SIMULATION............................................................................ 42
2.4.1 Système, entrée, sortie .................................................................................................................... 42
2.4.2 Visualisation des résultats ............................................................................................................... 43
2.4.3 Validation des résultats ................................................................................................................... 43
2.4.4 Simulations ...................................................................................................................................... 43
2.4.4.1 Paramètres de simulation ...................................................................................................................... 43
2.4.4.2 Cohérence spectrale ............................................................................................................................... 44
2.4.4.3 Intervalles de confiance .......................................................................................................................... 452.4.4.4 Effet du bruit de mesure ........................................................................................................................ 48
2.5 CONCLUSION ........................................................................................................................................... 49
CHAPITRE 3 : VALIDATION EXPERIMENTALE DES RESULTATS.................................................................... 51
3.1 BANC EXPERIMENTAL................................................................................................................................. 51
3.1.1 Electronique de génération des signaux à motifs carrés ................................................................. 51
3.1.2 TechŶiƋue d’ideŶtifiĐatioŶ paƌ aŶalLJse paƌ haƌŵoŶiƋue ;AHͿ......................................................... 52
3.1.3 Mesure à quatre points ................................................................................................................... 53
3.1.4 Circuit électrique de référence ......................................................................................................... 53
3.1.4.1 Description du circuit électrique de référence ....................................................................................... 53
3.1.4.2 Contraintes pour une mesure directe .................................................................................................... 53
3.2 PROTOCOLE EXPERIMENTAL ........................................................................................................................ 54
3.2.1 TeĐhŶologie de l’aĐĐuŵulateuƌ ....................................................................................................... 54
3.2.2 Réglage du point de fonctionnement .............................................................................................. 55
3.2.3 Aŵplitude du sigŶal d’edžĐitatioŶ..................................................................................................... 55
3.2.4 Paramétrage des expérimentations ................................................................................................ 57
3.2.4.1 CoŶĐeptioŶ des sigŶaudž d͛edžĐitatioŶ ...................................................................................................... 57
3.2.4.2 Séparation des mesures ......................................................................................................................... 58
3.3 RESULTATS EXPERIMENTAUX ....................................................................................................................... 59
3.3.1 Résultats des essais sur le circuit électrique de référence ............................................................... 59
3.3.1.1 ‘Ġsultats aǀeĐ la teĐhŶiƋue d͛analyse par harmonique ......................................................................... 59
3.3.1.2 ‘Ġsultats de la teĐhŶiƋue d͛ideŶtifiĐatioŶ laƌge ďaŶde .......................................................................... 60
3.3.1.3 ‘Ġsultats aǀeĐ l͛AH à ďase de signaux carrés périodiques ...................................................................... 62
3.3.1.4 Interprétation des résultats .................................................................................................................... 63
3.3.2 Test sur un accumulateur réel ......................................................................................................... 65
3.3.2.1 Etude dans la gamme de fréquence [Ͷ Hz-ͻ Hz]................................................................................. 65
a) Résultats avec la SBPA ................................................................................................................................. 65
b) Résultats avec un signal carré modulé en fréquence .................................................................................. 66
c) Résultats avec un signal carré périodique ................................................................................................... 67
d) Interprétation des résultats ........................................................................................................................ 68
3.3.2.2 Etude en basses fréquences [Ͳ,Ͳ͵͵ Hz-͵,͵͵ Hz]................................................................................... 69
3.4 CONCLUSION ........................................................................................................................................... 71
CHAPITRE 4 : L’IMPEDANCE ELECTRIQUE POUR LA SUPERVISION DES ACCUMULATEURS......................... 72
4.1 IMPEDANCE ELECTRIQUE ET CEE................................................................................................................. 72
4.1.1 Technologie DFRA/DFIS ................................................................................................................... 72
4.1.2 IdeŶtifiĐatioŶ paƌtielle d’uŶ CEE en utilisant une SBPA................................................................... 73
4.1.3 Principe de normalisation pour l’ideŶtifiĐatioŶ sous uŶ ĐouƌaŶt de polaƌisatioŶ foƌt [18]............. 74
4.1.4 Algoƌithŵe d’optiŵisatioŶ : aŵĠlioƌatioŶ des peƌfoƌŵaŶĐes ......................................................... 74
4.1.4.1 PƌiŶĐipe de l͛estiŵatioŶ paƌ optiŵisatioŶ ŶuŵĠƌiƋue............................................................................ 754.1.4.2 Application aux accumulateurs .............................................................................................................. 75
a) Approche classique ..................................................................................................................................... 77
b) Les approches alternatives .......................................................................................................................... 78
4.1.5 La nouvelle approche : estimation en deux étapes ......................................................................... 82
4.1.6 Résultats expérimentaux ................................................................................................................. 83
4.2 EXPLOITATION DE L͛IMPEDANCE ELECTRIQUE POUR LE SUIVI DES INDICES D͛ETAT.................................................... 84
4.2.1 Cahier des charges pour le SOH ...................................................................................................... 84
4.2.2 Cahier des charges pour le SOC....................................................................................................... 87
4.2.3 Etude de validitĠ de la teĐhŶiƋue d’identification large bande pour le suivi du SOH...................... 88
4.2.3.1 “igŶal d͛edžĐitatioŶ et ĐalĐul de la dispeƌsioŶ suƌ les ŵesuƌes ................................................................ 88
4.2.3.2 Interprétation des résultats .................................................................................................................... 89
4.2.4 ValiditĠ de la teĐhŶiƋue d’ideŶtifiĐatioŶ laƌge ďaŶde pouƌ le suivi du SOC..................................... 89
4.2.4.1 Essai de suivi du SOC .............................................................................................................................. 89
4.2.4.2 Interprétation des résultats .................................................................................................................... 90
4.3 CONCLUSION ........................................................................................................................................... 91
CONCLUSIONS ET PERSPECTIVES .................................................................................................................... 94
ANNEXE A. DERIVATION NON ENTIERE ET CPE ....................................................................................... 97
ANNEXE B. DATASHEET BATTERIE A123-SYSTEMS ................................................................................ 100
ANNEXE C. SIMULATEUR D’UN ACCUMULATEUR LIFEPOͶ .................................................................. 102
ANNEXE D. CARTE ELECTRONIQUE DE GENERATION DES SIGNAUX A MOTIFS CARRES ......................... 104
ANNEXE E. EXEMPLE D’UN DIAGRAMME DE NYQUIST TOTAL EXPERIMENTAL D’UN ACCUMULATEUR
LIFEPOͶ 106
REFERENCES ................................................................................................................................................. 107
TABLE DES FIGURES
FIGURE 1-1: EVOLUTION COMPAREE DE LA CONCENTRATION EN COʹ DANS L͛ATMOSPHERE ET DE LA TEMPERATURE MOYENNE DU
GLOBE TERRESTRE. ............................................................................................................................................... 6
FIGURE 1-2 : EMISSIONS DE GAZ A EFFET DE SERRE PAR SECTEUR EN FRANCE EN 2000 ET 2011 [4]. ........................................... 7
FIGURE 1-3 : EVOLUTION DE LA PRODUCTION EN AUTOMOBILE ET DE LA CONCENTRATION EN CO2 DANS L͛ATMOSPHERE................. 7
FIGURE 1-4 : EVOLUTION DU PRIX DE PETROLE DE 1987 A 2012 [6]. .................................................................................... 8
FIGURE 1-5 : DIAGRAMME DE RAGONE POUR DIFFERENTES TECHNOLOGIES D͛ACCUMULATEURS [9]. ......................................... 10
FIGURE 1-6 : PRINCIPE DE FONCTIONNEMENT D͛UN ACCUMULATEUR LI-ION [14]. ................................................................. 13
FIGURE 1-7 : SCHEMA DE COMPOSITION DE LA COUCHE DOUBLE [16]. ................................................................................. 15
FIGURE 1-8 : LIEN ENTRE ACCUMULATEURS ET BATTERIES – EXEMPLE D͛UNE BATTERIE COMPOSEE DE 10 MODULES EN SERIE, CHAQUE
MODULE CONTENANT 5 ACCUMULATEURS DE 2,3 AH CHACUN EN PARALLELE (5P) MIS EN SERIE 12 FOIS (12S). .................. 16
FIGURE 1-9 : CIRCUIT DE RANDLES. ............................................................................................................................... 21
FIGURE 1-10 : DIAGRAMME DE NYQUIST DE ZR//CPE POUR DIFFERENTES VALEURS DE P [47]. .............................................. 22
FIGURE 1-11 : TROIS TYPES D͛IMPEDANCE DE WARBURG [18]. .......................................................................................... 23
FIGURE 1-12 : MODELE DE BATTERIES LIFEPO4 [18]. ..................................................................................................... 23
FIGURE 2-1 : ESTIMATION DE LA RESISTANCE VIA LE RAPPORT DE ∆V∆I EN UTILISANT LE SIMULATEUR ET COMPARAISON AVEC LES
VALEURS DES PARAMETRES DU CEE IMPLANTE. ....................................................................................................... 28
FIGURE 2-2 : SYSTEME SISO. ....................................................................................................................................... 30
FIGURE 2-3 : IDENTIFICATION D͛UN SYSTEME. ................................................................................................................. 32
FIGURE 2-4 : EXEMPLE D͛UNE SBPA (TRACE TEMPOREL A GAUCHE, DENSITE SPECTRALE DE PUISSANCE EN DB A DROITE).............. 38
FIGURE 2-5 : EXEMPLE D͛UN CHIRP (TRACE TEMPOREL A GAUCHE, DENSITE SPECTRALE DE PUISSANCE EN DB A DROITE). ............... 39
FIGURE 2-6 : EXEMPLE D͛UN CARRE MODULE EN FREQUENCE (TRACE TEMPOREL A GAUCHE, DENSITE SPECTRALE DE PUISSANCE EN DB A
DROITE)........................................................................................................................................................... 40
FIGURE 2-7 : EXEMPLE D͛UN CARRE (TRACE TEMPOREL A GAUCHE, DENSITE SPECTRALE DE PUISSANCE EN DB A DROITE). ............... 40
FIGURE 2-8 : REPONSE EN TENSION A UN COURANT CONTINU IDC A ESTIMER PAR UN POLYNOME GRACE A LA REPONSE EN TENSION A
UN COURANT IDC+ SBPA. ............................................................................................................................... 42
FIGURE 2-9 : ERREUR MOYENNE ENTRE PT ET UDCሺTሻ EN FONCTION DU DEGRE DU POLYNOME PT. ........................................ 42
FIGURE 2-10 : DENSITE SPECTRALE DE PUISSANCE (EN DB) DES CINQ SIGNAUX D͛EXCITATION.................................................... 44
FIGURE 2-11 : COHERENCE SPECTRALE, CINQ SIGNAUX D͛EXCITATION DIFFERENTS, RSB=0DB, GAMME DE FREQUENCE [13 HZ-320
HZ]................................................................................................................................................................. 45
FIGURE 2-12 : INTERVALLES DE CONFIANCE EN HAUTE FREQUENCE POUR LES SIGNAUX ............................................................ 47
FIGURE 2-13 : NRMSE EN % POUR DIFFERENTS SIGNAUX D͛EXCITATION EN FONCTION DU RSB. .............................................. 48
FIGURE 3-1 : SCHEMA SIMPLIFIE DE LA CARTE ELECTRONIQUE UTILISEE POUR GENERER DES SIGNAUX A MOTIFS CARRES. ................. 51
FIGURE 3-2 : APPAREIL VMP-300 DE CHEZ BIOLOGIC. ..................................................................................................... 52
FIGURE 3-3 : SCHEMA DU CIRCUIT DE REFERENCE PASSIF ET DE SON DIAGRAMME DE NYQUIST. ................................................. 53
FIGURE 3-4 : SCHEMA DU CIRCUIT DE REFERENCE PASSIF ADAPTE AU PROTOCOLE DE MESURE. .................................................. 54
FIGURE 3-5 : AMPLITUDE D͛EXCITATION (AͲ) DE LA SBPA SELON LES DONNEES DU SIMULATEUR POUR DIFFERENTES VALEURS DU
COURANT DE POLARISATION. ................................................................................................................................ 56FIGURE 3-6 : VARIATION DE L͛AMPLITUDE DU SIGNAL D͛EXCITATION ENTRE LE DEBUT (BLEU) ET LA FIN (VERT) DES TESTS EFFECTUES
POUR DIFFERENTES VALEURS DU SOC INITIAL, POUR UN COURANT DE POLARISATION DE ͳͳͲ MA POUR UNE DUREE DE
ͷ MINUTES. ..................................................................................................................................................... 57
FIGURE 3-7 : PHOTO DU MONTAGE DE MESURE EN ALTERNANCE (CONNEXION SIMULTANEE DU VMP-300 ET DU SYSTEME
D͛IDENTIFICATION LARGE BANDE).......................................................................................................................... 58
FIGURE 3-8 : PHOTO DU MONTAGE DE MESURE ISOLEE AVEC LE VMP-300. ......................................................................... 59
FIGURE 3-9 : DIAGRAMME DE NYQUIST DE L͛IMPEDANCE OBTENUE PAR ANALYSE HARMONIQUE DANS LA GAMME DE FREQUENCE
[Ͷ HZ-ͻ HZ]. ................................................................................................................................................ 60
FIGURE 3-10 : TRACES TEMPORELS DU SIGNAL D͛EXCITATION DE 19 BLOCS DE SBPA POUR LA GAMME DE FREQUENCE
[Ͷ HZ-ͻ HZ] : (A) SIGNAL COMPLET (COURANT A GAUCHE, TENSION A DROITE, CAS ACCUMULATEUR EN PREMIERE LIGNE ET
ACCUMULATEUR + CIRCUIT ELECTRIQUE DE REFERENCE EN DEUXIEME LIGNE), (B) TRACE IDEM QUE (A) ZOOME SUR UN BLOC DE
COURANT ET DE LA REPONSE EN TENSION CORRESPONDANTE POUR LES DEUX CAS, (C) COHERENCES SPECTRALES ESTIMEES A
L͛AIDE DES DONNEES PRECEDENTES POUR LES DEUX CAS. ........................................................................................... 61
FIGURE 3-11 : DIAGRAMME DE NYQUIST DE L͛IMPEDANCE OBTENUE POUR LA SBPA DANS LA GAMME DE FREQUENCE [Ͷ HZ-ͻ HZ].
...................................................................................................................................................................... 61
FIGURE 3-12 : TRACES TEMPORELS DES SIGNAUX UTILISES POUR L͛AH A BASE DE SIGNAUX CARRES PERIODIQUES : (A) TRACES
COMPLETS DU COURANT A GAUCHE ET DE LA REPONSE EN TENSION A DROITE POUR LES CAS ACCUMULATEUR EN PREMIERE LIGNE
ET ACCUMULATEUR + CIRCUIT ELECTRIQUE DE REFERENCE EN DEUXIEME LIGNE, (B) EXEMPLE DE DECOUPAGE D͛UN SIGNAL. .... 62
FIGURE 3-13 : DIAGRAMME DE NYQUIST DES IMPEDANCES ELECTRIQUES OBTENUES PAR L͛AH A BASE DE SIGNAUX CARRES
PERIODIQUES DANS LA GAMME DE FREQUENCE [Ͷ HZ-ͻ HZ]. ................................................................................. 63
FIGURE 3-14 : DIAGRAMME DE NYQUIST DES IMPEDANCES ELECTRIQUES ESTIMEES A L͛AIDE DES DIFFERENTS SIGNAUX PAR
COMPARAISON AVEC L͛IMPEDANCE THEORIQUE DANS LA GAMME DE FREQUENCE [Ͷ HZ-ͻ HZ]. .................................... 63
FIGURE 3-15 : (A) CONTACT CARTE-CARTE DANS LE CAS D͛IDENTIFICATION LARGE BANDE. (B) DIAGRAMME DE NYQUIST MONTRANT
UNE IMPEDANCE NON REPRODUCTIBLE ET INCONTROLABLE QUI EN RESULTE. ................................................................. 64
FIGURE 3-16 : COHERENCE SPECTRALE: RESULTATS DE TROIS MESURES EXPERIMENTALES OBTENUES AVEC LA SBPA COMME SIGNAL
D͛EXCITATION DANS LA GAMME DE FREQUENCE [Ͷ HZ-ͻ HZ]. ................................................................................ 66
FIGURE 3-17 : DIAGRAMME DE NYQUIST : RESULTATS DE TROIS MESURES EXPERIMENTALES OBTENUES AVEC LA SBPA COMME SIGNAL
D͛EXCITATION DANS LA GAMME DE FREQUENCE [Ͷ HZ-ͻ HZ]. ................................................................................ 66
FIGURE 3-18 : COHERENCE SPECTRALE : RESULTATS DE TROIS MESURES EXPERIMENTALES OBTENUES AVEC LE CARRE MODULE EN
FREQUENCE COMME SIGNAL D͛EXCITATION DANS LA GAMME DE FREQUENCE [Ͷ HZ-ͻ HZ]. .......................................... 67
FIGURE 3-19 : DIAGRAMME DENYQUIST : RESULTATS DE TROIS MESURES EXPERIMENTALES OBTENUES AVEC LE CARRE MODULE EN
FREQUENCE COMME SIGNAL D͛EXCITATION DANS LA GAMME DE FREQUENCE [Ͷ HZ-ͻ HZ]. .......................................... 67
FIGURE 3-20 : COHERENCE SPECTRALE: RESULTATS DE TROIS MESURES EXPERIMENTALES OBTENUES AVEC UN CARRE DE FREQUENCE
FONDAMENTALE ͺHZ COMME SIGNAL D͛EXCITATION. .............................................................................................. 68
FIGURE 3-21 : DIAGRAMME DE NYQUIST : RESULTATS DE TROIS MESURES EXPERIMENTALES OBTENUES AVEC UN SIGNAL CARRE DE
FREQUENCE FONDAMENTALE ͺHZ COMME SIGNAL D͛EXCITATION. .............................................................................. 68FIGURE 3-22 : RESULTATS DES ESTIMATIONS EXPERIMENTALES OBTENUES AVEC LES DIFFERENTS SIGNAUX A MOTIFS CARRES COMME
SIGNAL D͛EXCITATION DANS LA GAMME DE FREQUENCE [Ͷ HZ-ͻ HZ]. ...................................................................... 69
FIGURE 3-23 : COHERENCE : RESULTATS DE TROIS MESURES EXPERIMENTALES AVEC LA SBPA COMME SIGNAL D͛EXCITATIONS DANS LA
GAMME DE FREQUENCE [Ͳ,Ͳ͵͵ HZ-͵,͵͵ HZ]. .................................................................................................... 70
FIGURE 3-24 : DIAGRAMME DE NYQUIST POUR LES MESURES SUR UN ACCUMULATEUR DANS LA GAMME DE
FREQUENCE [Ͳ,Ͳ͵͵ HZ-͵,͵͵ HZ]. .................................................................................................................... 70
FIGURE 4-1 : SCHEMA DU CIRCUIT ELECTRIQUE EQUIVALENT UTILISE DANS [80]. .................................................................... 73
FIGURE 4-2 : ALGORITHME D͛OPTIMISATION. .................................................................................................................. 76
FIGURE 4-3 : HISTOGRAMMES NORMALISES OBTENUS AVEC L͛APPROCHE CLASSIQUE : LIGNES VERTES REPRESENTENT LES VALEURS
THEORIQUES, LES JAUNES SONT LES VALEURS MOYENNES ESTIMEES SUR LES DIFFERENTES REALISATIONS EFFECTUEES. ............ 78
FIGURE 4-4 : TRACE DU MODULE DES IMPEDANCES PARTIELLES ET DE L͛IMPEDANCE TOTALE DE L͛ACCUMULATEUR. ....................... 79
FIGURE 4-5 : HISTOGRAMMES NORMALISES, APPROCHE PAR SEGMENTATION DE LA BANDE DE FREQUENCE CLASSIQUE : LIGNES VERTES
REPRESENTENT LES VALEURS THEORIQUES, LES JAUNES SONT LES VALEURS MOYENNES ESTIMEES SUR LES DIFFERENTES
REALISATIONS EFFECTUEES. .................................................................................................................................. 80
FIGURE 4-6 : HISTOGRAMMES NORMALISES, APPROCHE PAR EXTENSION DE BANDES DE FREQUENCE CLASSIQUE : LIGNES VERTES
REPRESENTENT LES VALEURS THEORIQUES, LES JAUNES SONT LES VALEURS MOYENNES ESTIMEES SUR LES DIFFERENTES
REALISATIONS EFFECTUEES. .................................................................................................................................. 81
FIGURE 4-7 : HISTOGRAMMES NORMALISES, APPROCHE D͛OPTIMISATION EN DEUX ETAPES CLASSIQUE : LIGNES VERTES REPRESENTENT
LES VALEURS THEORIQUES, LES JAUNES SONT LES VALEURS MOYENNES ESTIMEES SUR LES DIFFERENTES REALISATIONS EFFECTUEES.
...................................................................................................................................................................... 82
FIGURE 4-8 : EXEMPLE DE RESULTATS EXPERIMENTAUX A DIFFERENTS SOCS ET INTENSITES DE COURANT. ................................... 84
FIGURE 4-9 : MODELE D͛EVOLUTION DE R EN FONCTION DU SOH. ..................................................................................... 86
FIGURE 4-10 : ABAQUE DE PRECISION POUR SOH. .......................................................................................................... 86
FIGURE 4-11 : TRACE DE LA VARIATION ∆ZSOCሺFሻ SUR L͛IMPEDANCE ELECTRIQUE A SOCͲ = ͻͷ% ET IͲ = -Ͳ,ʹA ET CE POUR
ͷ% DE VARIATION SUR LE SOC. .......................................................................................................................... 88
FIGURE 4-12 : TRACE DE L͛ECART TYPE DE LA PARTIE REELLE DE L͛IMPEDANCE DE L͛ACCUMULATEUR CALCULE SUR LES M = ͵Ͳ ESSAIS
AVEC LA SBPA COMME SIGNAL D͛EXCITATION. ........................................................................................................ 89
FIGURE 4-13 : DIAGRAMME DE NYQUIST A DIFFERENTS SOCS DE L͛IMPEDANCE ELECTRIQUE DE L͛ACCUMULATEUR DANS LA BANDE DE
FREQUENCE [Ͳ,Ͳ͵͵ HZ-͵,͵͵ HZ]. ..................................................................................................................... 90
FIGURE 4-14 : EVALUATION DES RESULTATS D͛IDENTIFICATION LARGE BANDE PAR RAPPORT AU CAHIER DES CHARGES DU SOC. ....... 91
FIGURE A-1 : DIAGRAMME DE BODE DE L͛APPROXIMATION D͛UN CPE [18]. ......................................................................... 98
FIGURE A-2 : CIRCUIT ELECTRIQUE EQUIVALENT DE L͛OPERATEUR DE DERIVATION NON ENTIERE S-Υ [18]. .................................. 99
FIGURE C-1 : SCHEMA DU CIRCUIT IMPLANTE SOUS SIMULINK........................................................................................... 102
FIGURE E-1 : DIAGRAMME DE NYQUIST EXPERIMENTAL COMPLET DE L͛ACCUMULATEUR A UN SOC DE 83 % ET SOUS UN COURANT DE
POLARISATION DE DECHARGE DE 0,92 A. ............................................................................................................. 106Page | 1
Introduction
De Ŷos jouƌs, le ƌĠĐhauffeŵeŶt ĐliŵatiƋue est l͛uŶ des dileŵŵes Ƌui edžalte les effoƌts des paLJs afiŶ
d͛eŶ liŵiteƌ les ĐoŶsĠƋueŶĐes gƌaǀes. A la ďase, il s͛agit d͛uŶ phĠŶoŵğŶe Ŷatuƌel Ƌue le gloďe
teƌƌestƌe ĐoŶŶait depuis l͛auďe des teŵps. Les fluĐtuatioŶs Ŷatuƌelles de teŵpĠƌatuƌe soŶt audž
alentours de plus ou moins ͳ°� par millénaire. Or, les mesures terrestres de températures réalisées
au cours du ��
siècle montrent une élévation significative de la température moyenne, ce qui
traduit une situation alarmante. Le gƌoupe iŶteƌgouǀeƌŶeŵeŶtal suƌ l͛ĠǀolutioŶ du Đliŵat ;GIECͿ
fondé paƌ l͛ONU est chargé de réaliser une synthèse des études scientifiques sur ce sujet. Dans son
dernier rapport, le GIEC a présenté des projections des modèles climatiques indiquant que la
température à la surface du globe est susceptible d'augmenter de ͳ,ͳ à ,Ͷ °� supplémentaires au
cours du ���
siècle. La corrélation entre les relevés de ��ଶ et l͛augŵeŶtatioŶ des teŵpĠƌatuƌes
pƌouǀe la ƌespoŶsaďilitĠ de l͛aĐtiǀitĠ huŵaiŶe liĠe à la pƌoduĐtioŶ ŵassiǀe de gaz à effets de seƌƌe
;GE“Ϳ. BieŶ Ƌue l͛Ġtude soit liŵitĠe à la pĠƌiode allaŶt jusƋu͛à ʹͳͲͲ, le réchauffement devrait se
poursuivre au-delà de cette date, même si les émissions s'arrêtent, en raison de la grande capacité
calorifique des océans et de la durée de vie du ��ଶ et des autres GES dans l'atmosphère.
Les conséquences prévues théoriquement de ce réchauffement accéléré sont nombreuses et
difficiles à cerner. Cependant, on en citera plusieurs qui sont déjà visibles : la fréquence, l'intensité et
la durée des phénomènes extrêmes (canicules, inondations, sécheresses, cyclones...) se sont
accentuées ; les écarts thermiques entre les saisons et les continents sont de moins en moins
marqués ; le recul des glaciers et la fonte des calottes polaires augmentent le niveau des océans ; les
cycles de vie de certaines espèces animales et végétales sont modifiés et leur risque d'extinction
s͛aĐĐƌoît, etĐ…
Outƌe Đes iŵpaĐts suƌ l͛eŶǀiƌoŶŶeŵeŶt, tous les seĐteuƌs soĐio-économiques seront affectés. Ces
ĐoŶsĠƋueŶĐes iŵposeŶt la ŵise à jouƌ de l͛iŶfƌastƌuĐtuƌe phLJsiƋue et soĐiale, allaŶt d'uŶe
modification des pratiques de construction à une adaptation des systèmes de santé. Le secteur de
l͛agƌiĐultuƌe seŶsiďle au Đliŵat seƌa aussi touĐhĠ. Le ĐhaŶgeŵeŶt de teŵpĠƌatuƌe affeĐte la pĠƌiode
des récoltes ; les précipitations fortes provoquent de sérieux glissements de terrain ou de violentes
ĐoulĠes de ďoue d͛où le ďesoiŶ d͛adaptatioŶ de Đe seĐteuƌ pouƌ ƌĠsisteƌ audž Đatastƌophes Ŷatuƌelles
plus intenses et plus fréquentes.
L͛eŶseŵďle des Ġtudes et doŶŶĠes aŶŶoŶĐeŶt doŶĐ uŶ daŶgeƌ Ƌui ŵeŶaĐe la ǀie suƌ la Teƌƌe. Ce
problème planétaire touche le monde entier sans exception et nécessite donc un engagement au
Ŷiǀeau iŶteƌŶatioŶal afiŶ d͛eŶ liŵiteƌ les ĐoŶsĠƋueŶĐes et sauǀeƌ la plaŶğte.Page | 2
L͛aĐtiǀitĠ huŵaiŶe gĠŶğƌe des GE“ Ƌui soŶt uŶe des Đauses du ƌĠĐhauffeŵeŶt ĐliŵatiƋue. La
combustion des énergies fossiles est l'un des premiers facteurs qui augmentent la production des
GES. C'est pourquoi aujourd'hui il est nécessaire de trouver de nouvelles énergies propres pour, sans
même penser à baisser cette production, tenter au moins d'arrêter sa croissance. Actuellement, la
quasi-totalité des activités (industries, transport, habitat etc..) se base sur les dérivés du pétrole
(essence et gazole) dont les stocks sur la planète sont limités ce qui entraine un problème
économique et politique : la ƌaƌetĠ des ƌessouƌĐes liĠe à l͛augŵeŶtatioŶ iŶĐoŶtƌôlaďle de la deŵaŶde
cause la croissance ingérable des prix et implique une dépendance politique envers les pays
fouƌŶisseuƌs. Des solutioŶs doiǀeŶt doŶĐ ġtƌe ŵises eŶ œuǀƌe pouƌ liŵiteƌ la consommation du
pétrole tant dans l'industrie, que l'habitat ou les transports.
Dans le domaine des transports, l'hybridation des motorisations thermiques est une solution
provisoire qui prépare pour les motorisations tout électriques. En utilisant des sources d'énergie
électriques au lieu des dérivés du pétrole, l'efficacité énergétique du véhicule est améliorée et, en
même temps, les émissions du véhicule et la consommation des carburants à base de pétrole sont
réduites.
Depuis plusieurs années, les études sur ces nouvelles configurations de véhicules sont lancées.
DiffĠƌeŶts sujets soŶt ĠǀoƋuĠs, ŵais la ďatteƌie ƌeste l͛ĠlĠŵeŶt pƌiŵoƌdial ǀu Ƌue le ďoŶ
fonctionnement des véhicules hybrides et électriques est lié à la disponibilité du réseau de puissance
et donc par conséquent à la batterie.
DaŶs Đe geŶƌe d͛appliĐatioŶs où de foƌtes puissaŶĐe et teŶsioŶ soŶt ŶĠĐessaiƌes, les aĐĐuŵulateuƌs
;dits aussi ĐellulesͿ soŶt ďƌaŶĐhĠs eŶ paƌallğle pouƌ foƌŵeƌ Đe Ƌu͛oŶ appelle uŶ Ġtage. L͛assoĐiatioŶ
de plusieurs étages en série forme un module, et finalement un pack est constitué de plusieurs
modules en série.
Le marché des batteries ne cesse d'évoluer au cours des années et les thèmes de recherche peuvent
être divisés en deux groupes. Le premier porte sur la chimie et les processus de fabrication des
batteries, et vise à augmenter l'énergie, la puissance, la sécurité et la dimension des cellules, de
ŵaŶiğƌe à ġtƌe Đoŵpatiďle aǀeĐ les edžigeŶĐes de l'autoŵoďile. Le seĐoŶd s͛iŶtĠƌesse audž ŵodes
d͛utilisatioŶ des ďatteries et concerne le développement des modèles pour décrire leurs
comportements, des algorithmes pour estimer des variables non mesurables, des circuits
ĠleĐtƌoŶiƋues pouƌ gĠƌeƌ les ďatteƌies peŶdaŶt leuƌ foŶĐtioŶŶeŵeŶt, etĐ… Le pƌeŵieƌ thğŵe de
recherche appaƌaît daŶs Đe ŵaŶusĐƌit au tƌaǀeƌs du Đhoidž de la teĐhŶologie de l͛aĐĐuŵulateuƌ, aloƌs
Ƌue le Đœuƌ de l͛Ġtude appaƌtieŶt au deudžiğŵe.
La ďatteƌie est souǀeŶt aĐĐusĠe d͛ġtƌe le faĐteuƌ liŵitaŶt de Đes Ŷouǀelles ĐatĠgoƌies de ǀĠhiĐules.
Etant la partie la plus coûteuse (ͷͲ % du prix du véhicule), ni le constructeur, ni le consommateur ne
désirent assumer le coût financier du remplacement du pack batterie au cours de la vie du véhicule. Page | 3
Le dĠǀeloppeŵeŶt d͛uŶ ǀĠhiĐule pƌopƌe eŶgloďe paƌ ĐoŶsĠƋueŶt l͛optiŵisation de sa chaîne de
ŵotoƌisatioŶ du poiŶt de ǀue du Đoût et de l'autoŶoŵie, aiŶsi Ƌu͛uŶe ŵise eŶ adĠƋuatioŶ de la duƌĠe
de vie du pack batterie avec celle du véhicule.
Malheureusement, les performances des batteries déclinent au fil de leur utilisation, ce qui rend leur
gestion un enjeu essentiel pour la diffusion des véhicules propres dans des conditions de coûts
acceptables. Un système de management de batterie (BMS pour Battery Management system) à
bord d'un véhicule est nécessaire afin de protéger les batteries de tous les dommages éventuels, de
prolonger leur durée de vie, et de veiller à les maintenir à un niveau de fonctionnement optimal.
Pouƌ atteiŶdƌe Đes oďjeĐtifs, plusieuƌs iŶdiĐes d͛Ġtat soŶt pƌĠdĠfiŶis doŶt deudž soŶt pƌiŵoƌdiaudž pouƌ
une bonne gestion de l'énergie. Une bonne connaissance de l'état de charge (��� pour State Of
Charge) et de l'état de santé (��� pour State Of Health) permet de déterminer le niveau de
fonctionnement que peut assurer la batterie. Une bonne surveillance de la batterie permet
également d'assurer son fonctionnement en toute sécurité et prévenir tout risque de dégradation
des accumulateurs eux-mêmes (emballement thermique, explosion) et de leurs performances. Dans
la littĠƌatuƌe, oŶ ŵeŶtioŶŶe souǀeŶt la peƌtiŶeŶĐe de l͛iŵpĠdaŶĐe ĠleĐtƌiƋue pouƌ atteiŶdƌe Đes
objectifs. Sur la base d͛oďseƌǀatioŶs des ǀaƌiatioŶs de l͛alluƌe du speĐtƌe d͛iŵpĠdaŶĐe aǀeĐ les
conditions de mesures (courant, ���, ���, etĐ …Ϳ, oŶ suggğƌe uŶe ĐoƌƌĠlatioŶ iŵpliĐite ou edžpliĐite
de l͛iŵpĠdaŶĐe aǀeĐ Đes iŶdiĐes. DaŶs Đette optiƋue, le pƌojet de ƌeĐheƌĐhe pƌoposĠ daŶs Đe
ŵĠŵoiƌe ǀise à Ġtaďliƌ uŶ sLJstğŵe d͛estiŵatioŶ eŶ eŵďaƌƋuĠ de l͛iŵpĠdaŶĐe ĠleĐtƌiƋue des
accumulateurs et s'inscrit dans le cadre de l'amélioration des systèmes de gestion de batterie.
Toute l'étude portera sur un accumulateur de technologie Li-ion. En effet, cette technologie présente
uŶe edžĐelleŶte deŶsitĠ d͛ĠŶeƌgie, uŶe duƌĠe de ǀie iŵpoƌtaŶte et Ŷe possğde pas d͛effet ŵĠŵoiƌe.
Après des débuts plus ou moins satisfaisants sur des technologies nickel-cadmium (����) ou nickelhydrure
métallique (����), les batteries Li-ion semblent prometteuses pour une utilisation dans des
applications de puissance et donc représentent la prochaine génération de système de stockage
Ƌu͛iŶtĠgƌeƌoŶt les ǀĠhiĐules ĠleĐtƌiƋues.
Etant donné que cette étude a pour finalité l'implantation en temps réel dans des processeurs
embarqués sur véhicule, l'originalité de cette thèse par rapport aux travaux similaires, repose sur
l'utilisation des signaux large bande à motifs carrés. Malgré leur simplicité apparente, leur intérêt est
notable. Faciles à implanter en embarqué, ces signaux ont prouvé leurs performances pour
l͛ideŶtifiĐatioŶ de sLJstğŵes, et oŶ ǀa les appliƋueƌ au Đas de l͛iŵpĠdaŶĐe d͛uŶ aĐĐuŵulateuƌ.
Ce document est structuré en quatre chapitres.
Un premier chapitre permet de situer la problématique traitée dans cette thèse par rapport aux
enjeux sociétaux et environnementaux du développement des véhicules non polluants. Ensuite, les
ĐaƌaĐtĠƌistiƋues d͛uŶ aĐĐuŵulateuƌ aiŶsi que les différentes approches de modélisation sont Page | 4
présentées. A côté des modèles mathématiques et électrochimiques, les circuits électriques
équivalents sont détaillés ainsi que les liens possibles entre les principaux phénomènes chimiques qui
y prennent place et les composants électriques du modèle. Ce formalisme permettra une analyse
physique plus aisée des différentes réponses de l'accumulateur.
Les Đhapitƌes suiǀaŶts ĐoŶstitueŶt le Đœuƌ du tƌaǀail réalisé durant cette thèse.
Le chapitre 2 commence aveĐ uŶe pƌĠseŶtatioŶ de la thĠoƌie de l͛ideŶtifiĐatioŶ ŶoŶ paƌaŵĠtƌiƋue des
systèmes linéaires et invariants dans le temps en utilisant des signaux large bande en entrée. Sur la
ďase d͛uŶ ĐiƌĐuit ĠleĐtƌiƋue ĠƋuiǀaleŶt ;���) implanté sous Simulink, une étude en simulation des
performances de signaux large bande de différents types pouƌ l͛estiŵatioŶ de l͛iŵpĠdaŶĐe ĠleĐtƌiƋue
est pƌoposĠe afiŶ de ǀalideƌ l͛utilitĠ de tels sigŶaudž pouƌ Đette appliĐatioŶ. Plusieuƌs gƌaŶdeurs
ĐaƌaĐtĠƌistiƋues soŶt utilisĠes ;ĐohĠƌeŶĐe speĐtƌale, iŶteƌǀalle de ĐoŶfiaŶĐe…Ϳ afiŶ de ƋuaŶtifieƌ les
performances d͛estiŵatioŶ de Đes sigŶaudž d͛edžĐitatioŶ.
Ensuite, une étude expérimentale est présentée dans le chapitre 3. PuisƋue l͛iŵpĠdaŶĐe ƌĠelle de
l͛aĐĐuŵulateuƌ est iŶĐoŶŶue, la première partie de ce chapitre est consacrée à une étude effectuée
sur un circuit électrique de référence à impédance connue. En utilisant son expression analytique,
uŶe ĐoŵpaƌaisoŶ de peƌfoƌŵaŶĐes eŶtƌe la teĐhŶiƋue d͛identification large bande proposée et celles
de la méthode classique est établie. La seconde partie présente les résultats expérimentaux obtenus
sur un accumulateur réel.
Le Đhapitƌe ϰ ĐoŶstitue uŶe ĐoŶtiŶuitĠ Ŷatuƌelle de l͛Ġtude. Il dĠĐƌit deudž possiďilitĠs d͛edžploitatioŶ
de l͛iŵpĠdaŶĐe estiŵĠe ǀia la teĐhŶiƋue d͛ideŶtifiĐatioŶ laƌge ďaŶde. La pƌeŵiğƌe ĐoŶsiste à
l͛utilisatioŶ d͛uŶ algoƌithŵe d͛optiŵisatioŶ afiŶ de ƌeŵoŶteƌ audž ǀaleuƌs des ĐoŵposaŶts d͛uŶ ĐiƌĐuit
électrique équivalent. Dans cette optique, un algorithme double étape est élaboré. Celui-ci permet
d͛aŵĠliorer en termes de convergence, un algorithme classiquement utilisé. La seconde partie
pƌĠseŶte uŶe ĐoŵpaƌaisoŶ des peƌfoƌŵaŶĐes de la teĐhŶiƋue d͛ideŶtifiĐatioŶ laƌge ďaŶde pƌoposĠe
par rapport à uŶ Đahieƌ des Đhaƌges ĠlaďoƌĠ ǀia le siŵulateuƌ pouƌ le suiǀi des iŶdiĐes d͛Ġtat de
l͛aĐĐuŵulateuƌ : l͛Ġtat de Đhaƌge ;���) et l͛Ġtat de saŶtĠ ;���).
Page | 5
Chapitre 1 : Contexte général
1.1 Problèmes écologiques et économiques liés au transport
De nos jours, la quasi-totalitĠ des aĐtiǀitĠs huŵaiŶes s͛appuie suƌ la ĐoŶsoŵŵatioŶ des dĠƌiǀĠs du
pétrole (essence et gazole), ce qui est particulièrement vrai pour le secteur du transport. La
raréfaction de ces ressources et le réchauffement climatique que subit notre ère poussent à
l͛ĠŵeƌgeŶĐe de Ŷouǀelles ĠŶeƌgies alteƌŶatiǀes pƌopƌes et ƌeŶouǀelaďles. Le dĠǀeloppeŵeŶt de
véhicules hybrides et ĠleĐtƌiƋues s͛iŶsĐƌit daŶs Đette teŶdaŶĐe de foŶd. De tels ǀĠhiĐules peƌŵettƌoŶt
de ĐiƌĐuleƌ, d͛uŶe paƌt, eŶ ƌĠduisaŶt l͛ĠŵissioŶ des gaz à effet de seƌƌe ;GE“Ϳ ƌeĐoŶŶus ġtƌe les
pƌiŶĐipaudž ageŶts ƌespoŶsaďles du ƌĠĐhauffeŵeŶt ĐliŵatiƋue, et d͛autƌe paƌt, sans être menacés par
la raréfaction des ressources pétrolières.
1.1.1 Le transport en tant que principal émetteur de GES
Le terme GES regroupe plusieurs gaz émis par les activités humaines [1] :
le dioxyde de carbone (��ଶ
) qui provient de la combustion des énergies fossiles,
le méthane (��ସ
) qui provient de l’élevage des ruminants, de la culture du riz, des décharges
d'ordures, des exploitations pétrolières, gazières et charbonnières,
le protoxyde d'azote (�ଶ�) qui vient des engrais azotés et de divers procédés chimiques,
les gaz fluorés ou hydrofluorocarbures (���) qui sont des gaz propulseurs des bombes
aérosols, des gaz réfrigérants ou proviennent d'industries diverses,
les hydrocarbures perfluorés ( ��� ) qui sont émis notamment lors de la fabrication de
l'aluminium,
l'hexafluorure de soufre (��ሻ qui est un gaz inerte utilisé comme détecteur de fuite et isolant
électrique.
DaŶs soŶ ĐiŶƋuiğŵe ƌappoƌt sĐieŶtifiƋue de ϮϬϭϯ [Ϯ], le gƌoupe d͛edžpeƌts iŶteƌgouǀeƌŶeŵeŶtal suƌ
l͛ĠǀolutioŶ du climat (GIEC) confirme, avec plus de ͻͲ% de certitude, que le réchauffement observé
Đes ĐiŶƋuaŶte deƌŶiğƌes aŶŶĠes pƌoǀieŶt esseŶtielleŵeŶt de l͛augŵeŶtatioŶ des ĠŵissioŶs de GE“
par les activités humaines (chauffage, transports, industries, élevage intensif). La corrélation entre
l͛augŵeŶtatioŶ de la teŵpĠƌatuƌe et Đelle de la ĐoŶĐeŶtƌatioŶ des GE“ et plus paƌtiĐuliğƌeŵeŶt le
��ଶ (unité : parties par million en volume (����ͿͿ est uŶ des ĠlĠŵeŶts Ƌui peƌŵetteŶt d͛ĠtaLJeƌ
cette hypothèse [3] (Figure 1-11-1).Page | 6
Figure 1-1: Evolution comparée de la concentration en ��� dans l’atmosphère et de la
température moyenne du globe terrestre.
Les ĐoŶsĠƋueŶĐes gƌaǀes du ƌĠĐhauffeŵeŶt ĐliŵatiƋue soŶt saŶs ĠƋuiǀoƋue. L͛aĐĐƌoisseŵeŶt des
températuƌes ŵoLJeŶŶes ŵoŶdiales de l͛atŵosphğƌe et de l͛oĐĠaŶ, la foŶte gĠŶĠƌalisĠe de la Ŷeige et
de la glaĐe et l͛ĠlĠǀatioŶ du Ŷiǀeau ŵoLJeŶ ŵoŶdial de la ŵeƌ soŶt des oďseƌǀatioŶs Ƌu͛oŶ Ŷe peut
plus nier. Le réchauffement moyen constaté à la surface de la terre s͛Ġlğǀe de
Ͳ,ʹ℃ ሺͲ,Ͷͻ ° C à Ͳ,ͺͻ ° Cሻ sur la période ͳͻͷͳ − ʹͲͳʹ. Chacune des trois dernières décennies a
été beaucoup plus chaude que toutes les décennies précédentes, et la première décennie du ʹͳ�
siècle a été la plus chaude [1].
Pour toutes ces raisons, bon nomďƌe d͛Ġtats oŶt iŶǀesti daŶs des ƌeĐheƌĐhes ǀisaŶt à ƌĠduiƌe les
émissions de GES.
En France, plusieurs secteurs sont à l͛oƌigiŶe des ĠŵissioŶs de GE“ [ϰ]. Particulièrement, en ʹͲͳͳ et
aǀeĐ uŶ pouƌĐeŶtage d͛eŶǀiƌoŶ ͵%, le secteur des transports (regroupant la circulation automobile
et le transport routier) est le principal émetteur, en particulier pour le ��ଶ (Figure 1-21-2). Ce quota
pƌeŶd eŶ Đoŵpte la ĐoŶtƌiďutioŶ diƌeĐte de Đe seĐteuƌ à l͛ĠŵissioŶ de ��ଶ (combustion du gazole ou
de l'essence), de ��ସ (évaporation des carburants en stockage et combustions incomplètes) et de
��� (systèmes de climatisation), ainsi que sa contribution indirecte (émissions dues à l'exploitation
du pétrole). Page | 7
Figure 1-2 : Emissions de gaz à effet de serre par secteur en France en 2000 et 2011 [4].
DaŶs le seĐteuƌ du tƌaŶspoƌt, uŶe ĐoƌƌĠlatioŶ edžpliĐite est ŶotĠe eŶtƌe l͛ĠǀolutioŶ de la pƌoduĐtioŶ
automobile mondiale depuis ͳͺͺͲ et la concentration en ��ଶ daŶs l͛atŵosphère (Figure 1-31-3).
L͛oƌigiŶe de Đette augŵeŶtatioŶ peut ġtƌe attƌiďuĠe à deudž Đauses pƌiŶĐipales : l͛augŵeŶtatioŶ
ĐoŶtiŶue du Ŷoŵďƌe de ǀoituƌes eŶ ĐiƌĐulatioŶ d͛uŶe paƌt, et l͛edžigeŶĐe ĐoŶtiŶue des ĐlieŶts d͛aǀoiƌ
des voitures plus puissantes et donc émettant plus de ��ଶ d͛autƌe paƌt. EŶ ʹͲͲͷ, [5] annonce une
nouvelle inquiétante : selon une étude récente, la concentration en ��ଶ (͵ͺͲ ����) est ʹ % plus
élevée que le maximum atteint au cours de ces ͷͲ ͲͲͲ dernières années. En ʹͲͲ, le taux de
��ଶ est toujouƌs eŶ augŵeŶtatioŶ, l͛OƌgaŶisatioŶ MĠtĠoƌologiƋue MoŶdiale ;OMMͿ, eŶƌegistƌe uŶe
teneur de ͵ͺͳ,ʹ ����.
Figure 1-3 : Evolution de la production en automobile et de la concentration en CO2 dans
l’atmosphère.
Ces chiffres alarmants ont finalement abouti en ʹͲͲͷ à la ŵise eŶ plaĐe d͛uŶe Ŷoƌŵe aŶtipollutioŶ
réduisant les émissions de GES par la commission européenne. Elle a pour objectif de corriger
progressivement les tendances polluantes, et ses exigences sont réactualisées tous les quatre ans. Page | 8
1.1.2 Le pétrole : conflits économiques et politiques
De même que les préoccupations environnementales, les préoccupations économiques et politiques
impliquent également la mutation du secteur du transport. Les ressources en pétrole ne sont pas
illiŵitĠes aloƌs Ƌue les ďesoiŶs s͛aĐĐeŶtueŶt. Cette ƌaƌĠfaĐtioŶ a diƌeĐteŵeŶt iŶfluĠ suƌ le pƌidž de
l͛esseŶĐe Ƌui Ŷe Đesse d͛augŵeŶteƌ ;Figure 1-41-4Ϳ. L͛effoŶdƌeŵeŶt ŶotĠ eŶ ʹͲͲͺ est lié à la crise
financière qui a touché la planète. Cependant, la reprise à la hausse souligne une demande mondiale
importante.
Et Đe Ŷ͛est pas tout, les paLJs oĐĐideŶtaudž ŵaŶƋueŶt de ƌessouƌĐes pĠtƌoliğƌes. Ce sont les pays du
Moyen-Orient qui assurent les besoins des pays développés en pétrole. Cette dépendance
économique impacte profondément les relations politiques surtout avec les troubles politiques au
Moyen-OƌieŶt. L͛utilisatioŶ de pƌoduits pĠtƌoliers devient de moins en moins avantageuse face à
d͛autƌes alteƌŶatiǀes. Les ĐoŶstƌuĐteuƌs autoŵoďiles, eŶ paƌtiĐulieƌ, doiǀeŶt doŶĐ s'adapteƌ à Đe
ĐoŶtedžte eŶ dĠǀeloppaŶt des solutioŶs utilisaŶt des souƌĐes d͛ĠŶeƌgie ŵoiŶs Đoûteuses Ƌue le
pétrole.
Figure 1-4 : Evolution du prix de pétrole de 1987 à 2012 [6].
1.2 Vers l’électrification du véhicule
Face aux problèmes évoqués, les consommateurs désirent des véhicules de plus en plus propres et
les constructeurs automobiles doivent développer des solutions moins polluantes tout en utilisant
des ressources moins coûteuses que le pétrole.
Plusieurs possibilités sont envisageables. Utiliser le Gaz de Pétrole Liquéfié, le Gaz Naturel, le
ďiogazole eŶ soŶt des edžeŵples. CepeŶdaŶt, l͛ĠleĐtƌifiĐatioŶ du ǀĠhiĐule ĐoŶstitue ŶotaŵŵeŶt à
court terme une excellente solution alternative, et à moyen ou long terme, pourrait venir remplacer
les véhicules thermiques classiƋues. OŶ distiŶgue plusieuƌs degƌĠs d͛ĠleĐtƌifiĐatioŶ eŶ foŶĐtioŶ de
l͛iŵpoƌtaŶĐe du sLJstğŵe ĠleĐtƌiƋue daŶs la tƌaĐtioŶ du ǀĠhiĐule [ϳ] :
HEV : Véhicule Hybride Électrique (Hybrid Electric Vehicle). Ces véhicules disposent d’un
degré d’électrification plus ou moins important, allant de la simple aide au démarrage à un
mode tout électrique très limité. Le véhicule devient alors moins consommateur de carburant Page | 9
et moins polluant dans les villes. Il garde une autonomie et des performances dynamiques,
comparables à celles des véhicules thermiques classiques sur routes et autoroutes. Il se
distingue par l’impossibilité de se recharger sur une prise de courant [7].
PHEV : Véhicule Hybride Électrique Rechargeable (Plug-in Hybrid Electric Vehicle). Ces
hybrides rechargeables sont une variante du modèle hybride. Leur spécificité est de permettre
le rechargement de la batterie du véhicule à l’arrêt à l’aide d’une prise de courant. Le pack
batterie est, dans les faits, beaucoup plus important que pour un simple HEV. Le véhicule est
donc capable de fonctionner en mode tout électrique sur de petites distances (inférieures à
ͷͲ ��). Une fois la batterie déchargée, le véhicule se comporte alors comme un véhicule
hybride [7]. .
EV : Véhicule Électrique (Electric Vehicle). Les véhicules électriques ne sont pas des
véhicules hybrides, ils ont le plus haut degré d’électrification. On parle de véhicule « tout
électrique ». La seule source d’énergie utilisée, dans ces véhicules, est la batterie. Celle-ci se
recharge comme celle d’un PHEV sur une prise de courant (recharge classique ou rapide).
Les émissions sont alors nulles lors du roulage du véhicule, on parle également de véhicule
« Zéro Émission » [7].
Ces ǀĠhiĐules, eŶtƌe autƌes, foŶt l͛oďjet d͛Ġtudes ŵeŶĠes au CEA1
: en particulier, les instituts du LETI2
et du LITEN3
tƌaǀailleŶt daŶs le ďut de ǀaloƌiseƌ Đette teĐhŶologie. Il s͛aǀğƌe ĠǀideŶt Ƌue le ďoŶ
fonctionnement de ces véhicules dépend essentiellement des dispositifs de stockage d'énergie
électrique, en particulier des batteries. Par conséquent, le contrôle du système de stockage d'énergie
est primordial. Le principal obstacle est la difficulté d'une telle tâche. En effet, une batterie est un
système non-linéaire complexe influencé par plusieurs facteurs dont les principaux sont les profils
d͛utilisatioŶ, ĐaƌaĐtĠƌisĠs paƌ les ƌĠgiŵes de puissaŶĐe et les duƌĠes d͛iŶteƌƌuptioŶs, et la
température interne, dépendante de la température ambiante et du système de gestion thermique.
De plus, elle subit des modifications de ses propriétés en raison de processus de vieillissement. Dans
de nombreux cas, l'état de la batterie est évalué uniquement à partir de la tension, du courant et de
la température, ces paramètres étant accessibles à la plupart des systèmes de mesure embarqués
dans le véhicule.
Cette thèse est une contribution à la gestion embarquée des batteries, et plus particulièrement à la
dĠteƌŵiŶatioŶ de l'iŵpĠdaŶĐe ĠleĐtƌiƋue d͛uŶ aĐĐuŵulateuƌ ;ĠlĠŵeŶt de ďase d͛uŶe ďatteƌieͿ daŶs
un but de surveillance.
1 Commissariat à l’énergie atomique et aux énergies alternatives
2 Laboratoire d’Electronique et de Technologie de l’Information
3 Laboratoire d’Innovation pour les Technologies des Energies Nouvelles et les nanomatériauxPage | 10
1.3 Généralités sur les accumulateurs
Afin de situer la problématique de ce travail de thèse, cette section présente de manière générale,
les accumulateurs, les différentes technologies existantes et leur principe de fonctionnement. Elle
introduit aussi les grandeurs caractĠƌistiƋues d͛uŶ aĐĐuŵulateuƌ, Đe Ƌui peƌŵet de dĠfiŶiƌ les iŶdiĐes
d͛Ġtat.
1.3.1 Les technologies des accumulateurs
UŶ aĐĐuŵulateuƌ est uŶ ĠlĠŵeŶt de stoĐkage d͛ĠŶeƌgie ĠleĐtƌoĐhiŵiƋue pouǀaŶt foŶĐtioŶŶeƌ de
manière réversible. Un accumulateur est constitué de deux couples oxydoréducteurs, ��ଵ/���ଵ et
��ଶ/���ଶ, pƌĠseŶts suƌ deudž ĠleĐtƌodes diffĠƌeŶtes aLJaŶt des poteŶtiels d͛ĠƋuiliďƌe diffĠƌeŶts. C͛est
l͛ĠĐaƌt eŶtƌe les poteŶtiels Ƌui fait la teŶsioŶ à ǀide de l͛aĐĐuŵulateuƌ ;��� pour open circuit
voltage). Ce dernier doit ġtƌe Đapaďle de fouƌŶiƌ uŶ ŵadžiŵuŵ d͛ĠŶeƌgie et de puissaŶĐe pouƌ uŶ
minimum de volume et de masse.
UŶ Đƌitğƌe iŵpoƌtaŶt de ĐoŵpaƌaisoŶ des peƌfoƌŵaŶĐes de diffĠƌeŶts aĐĐuŵulateuƌs est l͛ĠǀaluatioŶ
du couple puissance/énergie spécifique qui est représenté par le diagramme de Ragone (Figure
1-51-5Ϳ. Ce Đouple tƌaduit l͛ĠŶeƌgie fouƌŶie pouƌ uŶe puissaŶĐe doŶŶĠe [ϴ]. La puissaŶĐe ;ƌesp.
l͛ĠŶeƌgieͿ spĠĐifiƋue est dĠfiŶie Đoŵŵe ĠtaŶt la puissaŶĐe ŵadžiŵale ;ƌesp. l͛ĠŶergie maximale) que
peut fouƌŶiƌ l͛aĐĐuŵulateuƌ paƌ uŶitĠ de poids. UŶe pƌeŵiğƌe estiŵatioŶ de l͛ĠŶeƌgie spĠĐifiƋue peut
ġtƌe oďteŶue eŶ utilisaŶt la ĐapaĐitĠ ŶoŵiŶale, la teŶsioŶ ŶoŵiŶale et le poids de l͛ĠlĠŵeŶt.
Figure 1-5 : Diagramme de Ragone pour différentes technologies d’accumulateurs [9].
Le choix des technologies des accumulateurs intégrés dans les véhicules hybrides et électriques a
évolué au cours du temps. Le Tableau 1-1 présente une comparaison de trois principales
technologies utilisĠes et peƌŵet d͛edžpliƋueƌ les ƌaisoŶs aďoutissaŶt au Đhoidž de la teĐhŶologie �� −
���. Page | 11
Tableau 1-1 : Comparaison des technologies d’accumulateurs [13].
Au dĠpaƌt, eŶ ƌaisoŶ de leuƌ faiďle Đoût et de leuƌ siŵpliĐitĠ de ŵise eŶ œuǀƌe, les aĐĐuŵulateuƌs
plomb à électrolyte acide étaient les plus utilisés. Toutefois, leurs faibles densités énergétiques ainsi
que leur courte durée de vie ont poussé les constructeurs à développer de nombreuses autres
technologies : nickel à électrolytes alcalins (����, ����, ����), lithium à électrolyte polymère solide
et anode de lithium métallique en film minces (�� − ���) ou à électrolyte organique liquide et
électrode négative à insertion (�� − ���), alcalins (��/��, ��/��) etc. Les technologies qui ont
précédé les accumulateurs �� − ��� souffraient de plusieurs problèmes. On peut citer comme simple
exemple le dépôt métallique sous forme de dendrite. Ce dépôt, inhérent à la nature même du métal,
peut, dans les accumulateurs lithium métal polymère par exemple, provoquer des problèmes de
sécurité. Cette poussée dendƌitiƋue est susĐeptiďle d͛eŶtƌaîŶeƌ uŶ Đouƌt-circuit interne à
l͛aĐĐuŵulateuƌ paƌ peƌĐĠe du sĠpaƌateuƌ ;ŵeŵďƌaŶe sĠpaƌaŶt les deudž feuillets d͛ĠleĐtƌodesͿ. De
plus, elle ĐoŶtƌiďue à la ĐoŶsoŵŵatioŶ de l͛ĠleĐtƌolLJte Ƌui ƌĠagit aǀeĐ le lithiuŵ fraîchement déposé
[10]. Actuellement les accumulateurs �� − ��� dominent le marché des accumulateurs pour plusieurs
raisons. On en cite quelques unes ci-dessous [11][12] :
- densité d’énergie élevée (ͳͲ ��ℎ. �ିଵ environ),
- matière brute peu coûteuse et disponible dans la nature (minérale de triphylite),
- facilité de synthèse,
- respect de l’environnement et de la sécurité,
- vie de cycle et calendaire plus longue,
- excellente stabilité de structure,
- stabilité thermique et stabilité électrochimique.
Malgré ces performances, leur coût reste encore élevé. Les travaux de recherche actuels portent sur
les ŵatĠƌiaudž ĐoŶstitutifs des ĠleĐtƌodes, et ŶotaŵŵeŶt la positiǀe, afiŶ d͛augŵeŶteƌ la teŶsioŶ de
fonctionnement et/ou la durée de vie. Page | 12
1.3.2 Grandeurs caractéristiques d’un accumulateur
UŶe teĐhŶologie d͛aĐĐuŵulateuƌ peut ġtƌe ĐaƌaĐtĠƌisĠe paƌ uŶe ŵultitude de gƌaŶdeuƌs [ϮϬ], doŶt oŶ
donne ici la définition.
1.3.2.1 La capacité de stockage � ሺ�ℎሻ
La capacité de stockage � [20] représente la quantité de charge qu'il est possible d'obtenir lors d'une
dĠĐhaƌge Đoŵplğte de l͛aĐĐuŵulateuƌ iŶitialeŵeŶt ĐhaƌgĠ aǀeĐ uŶ ĐouƌaŶt ĐoŶstaŶt. La
nomenclature utilisée pour désigner la capacité de stockage obtenue pour une décharge de � heures
est �. De manière générale, lorsque l'on parle d'une capacité �ହ, cela revient à évoquer la quantité
de charge obtenue lors d'une décharge de ͷ heures.
1.3.2.2 La capacité nominale � ሺ�ℎሻ
La capacité nominale [20] correspond à la capacité de stockage obtenue à un régime de décharge
nominal et respectant les critères initiaux et finaux du constructeur (température, intensité du
ĐouƌaŶt, etĐ…Ϳ. Coŵŵe la ĐapaĐitĠ de stoĐkage, la ĐapaĐitĠ ŶoŵiŶale dĠpeŶd de la teŵpĠƌatuƌe et de
l'Ġtat de l͛aĐĐuŵulateuƌ.
1.3.2.3 La capacité stockée �௦
ሺ�ℎሻ
La capacité stockée [20] est analogue à la capacité nominale définie au paragraphe précédent
edžĐeptĠe Ƌue l'Ġtat iŶitial Ŷe dĠsigŶe pas foƌĐĠŵeŶt l͛aĐĐuŵulateuƌ Đoŵŵe ĠtaŶt ĐoŵplğteŵeŶt
chargé.
1.3.2.4 Le rendement faradique (%)
Le rendement faradique [20] ƞ représente l'efficacité de la recharge. En effet, dans les
accumulateurs à électrolyte aqueux, les réactions aux électrodes sont concurrencées par des
réactions secondaires. Ces réactions secondaires représentent des courants de fuite importants
notamment lors des charges. Les accumulateurs Li-ion, dont l'électrolyte n'est pas aqueux,
présentent des rendements faradiques proches de ͳͲͲ %.
1.3.2.5 L’autodécharge (%)
Les phĠŶoŵğŶes d͛autodĠĐhaƌge [ϮϬ] se tƌaduiseŶt paƌ uŶe peƌte de l͛ĠŶeƌgie loƌs du stoĐkage de
l͛aĐĐuŵulateur. Ce phénomène provient des réactions secondaires intervenant aux deux électrodes
et dépend fortement de la température. Pour les accumulateurs plomb et ���� [Ϯϭ], l͛autodĠĐhaƌge
est de ʹ % par jour. Les accumulateurs Li-ion sont beaucoup moins sensibles à ce phénomène avec
une autodécharge de ͳͲ % par mois [21]. Page | 13
1.3.2.6 La tension à vide (��� pour Open Circuit Voltage)
La teŶsioŶ à ǀide dĠsigŶe la teŶsioŶ d͛ĠƋuiliďƌe de l͛aĐĐuŵulateuƌ au ƌepos. Elle est dĠfiŶie Đoŵŵe la
diffĠƌeŶĐe des poteŶtiels d͛ĠƋuilibre entre les deux électrodes. Après des temps de relaxation
suffisant, celle-Đi dĠpeŶd diƌeĐteŵeŶt, d͛apƌğs la loi de NeƌŶst [ϮϮ], des aĐtiǀitĠs des espğĐes aĐtiǀes
et de la teŵpĠƌatuƌe. L͛histoƌiƋue de l͛utilisatioŶ de l͛aĐĐuŵulateuƌ peut aǀoiƌ uŶ iŵpact sur la
teŶsioŶ à ǀide. OŶ paƌle aloƌs de phĠŶoŵğŶe d͛hLJstĠƌĠsis. Celui-ci est limité pour les accumulateurs
Li-ion [20].
1.3.2.7 La durée de vie en cyclage et calendaire
Les performances des accumulateurs décroissent avec le temps. Un accumulateur est considéré en
fiŶ de ǀie loƌsƋue ses peƌfoƌŵaŶĐes Ŷe ƌĠpoŶdeŶt plus à Đelles ŶĠĐessaiƌes pouƌ l͛appliĐatioŶ ǀisĠe. La
durée de vie en cyclage dépend de plusieurs paramètres tels que le mode du cyclage, la fenêtre
d͛Ġtat de Đhaƌge utilisĠe et de la teŵpĠƌatuƌe de ĐLJclage. Elle est exprimée en nombre de cycles ou
bien en quantité de charge fournie [20].
Paƌ ailleuƌs, uŶe autƌe duƌĠe de ǀie est doŶŶĠe à uŶ aĐĐuŵulateuƌ loƌs d͛uŶ stoĐkage pƌoloŶgĠ, oŶ
paƌle de la duƌĠe de ǀie ĐaleŶdaiƌe. Mġŵe daŶs le Đas où l͛aĐĐuŵulateuƌ Ŷ͛est pas utilisĠ, il est le
siège de réactions secondaires qui le détériorent. Cette grandeur dépend aussi de plusieurs
paƌaŵğtƌes tels Ƌue l͛Ġtat de Đhaƌge de l͛aĐĐuŵulateuƌ et la teŵpĠƌatuƌe de stoĐkage [ϮϬ].
1.3.3 Les accumulateurs Li-ion
1.3.3.1 Fonctionnement
DaŶs Đette Ġtude, l͛aĐĐuŵulateuƌ Li-ion utilisé est de type ������ସ. Son fonctionnement repose sur
le sĐhĠŵa d͛odžLJdo-réduction classique de la Figure 1-61-6 intervenant simultanément aux deux
pôles : l͛ĠleĐtƌode positiǀe ;��ଵି௫����ସ) (Equation 1-1) et la négative (��௫ �) (Equation 1-2). On
Ŷoŵŵe souǀeŶt Đe pƌiŶĐipe ŵĠĐaŶisŵe « ƌoĐkiŶg Đhaiƌ » Đaƌ le lithiuŵ s͛iŶsğƌe et se dĠsiŶsğƌe
alteƌŶatiǀeŵeŶt d͛uŶe ĠleĐtƌode à l͛autƌe loƌs des pƌoĐessus de Đhaƌge / dĠĐhaƌge.
Figure 1-6 : Principe de fonctionnement d’un accumulateur Li-ion [14].
- Réaction électrochimique à l’électrode positivePage | 14
������ସ ↔ ��ଵି௫����ସ + ���ା + ��ି Equation 1-1
- Réaction électrochimique à l’électrode négative
� + ���ା + ��ି ↔ ��௫� Equation 1-2
OŶ ĐoŶstate Ƌu͛au Đouƌs des pƌoĐessus ĠleĐtƌoĐhiŵiƋues, le lithiuŵ ĐoŶseƌǀe toujours un caractère
ionique, sans que jamais ne survienne le phénomène de dépôt métallique.
Les ŵatĠƌiaudž d͛ĠleĐtƌodes soŶt gĠŶĠƌaleŵeŶt des ŵatĠƌiaudž d͛iŶseƌtioŶ doŶt la ĐaƌaĐtĠƌistiƋue
principale est de pouvoir insérer ou désinsérer des ions ��ା de manière réversible. En
fonctionnement, les ions ��ା sont échangés entre les deux électrodes, à travers un électrolyte qui
joue le rôle de conducteur ionique. Les électrons transitent, quant à eux, par le circuit électrique
externe pour garantir la neutralité des électrodes. Pour assurer ces échanges, la polarisation doit
bien entendu être toujours maintenue par le circuit externe. Lors de la décharge, les réactions
d͛odžLJdoƌĠduĐtioŶ audž ĠleĐtƌodes soŶt spoŶtaŶĠes. Des ioŶs ��ା (respectivement électrons) sont
pƌoduits à l͛ĠleĐtƌode ŶĠgatiǀe et soŶt tƌaŶspoƌtĠs à tƌaǀeƌs l͛ĠleĐtƌolLJte ;ƌespeĐtiǀeŵeŶt ĐiƌĐuit
ĠleĐtƌiƋueͿ aǀaŶt d͛ġtƌe iŶsĠƌĠs daŶs l͛ĠleĐtƌode positiǀe. Cela ĐoŶduit à uŶe odžLJdatioŶ de l͛ĠleĐtƌode
ŶĠgatiǀe ;aŶodeͿ et à uŶe ƌĠduĐtioŶ de l͛ĠleĐtƌode positiǀe ;ĐathodeͿ, et doŶĐ à la pƌoduĐtioŶ d͛uŶ
courant électrique. Lors de la charge, un courant doit être fourni par le circuit externe pour inverser
les ƌĠaĐtioŶs et stoĐkeƌ uŶe ĠŶeƌgie sous foƌŵe d͛ĠŶeƌgie ĐhiŵiƋue. DaŶs Đe Đas, l͛ĠleĐtƌode ŶĠgative
et l͛ĠleĐtƌode positiǀe deǀieŶŶeŶt ƌespeĐtiǀeŵeŶt, la Đathode et l͛aŶode.
1.3.3.2 Phénomènes physico-chimiques
Les accumulateurs Li-ion sont le siège de différents phénomènes physico-chimiques. Cette partie
décrit brièvement quelques-uns de ces phénomènes.
a) L’effet de couche double
L͛effet de ĐouĐhe douďle est la ƌepƌĠseŶtatioŶ ĠleĐtƌiƋue de l͛iŶteƌfaĐe ĠleĐtƌode-électrolyte.
LoƌsƋu͛uŶ ŵĠtal est ploŶgĠ daŶs uŶe solutioŶ, il a teŶdaŶĐe à se Đhaƌgeƌ ŶĠgatiǀeŵeŶt eŶ suƌfaĐe à
Đause d͛uŶ edžĐğs d͛ĠleĐtƌoŶs. À soŶ tour, cette surface attire les ions positifs de son voisinage pour
ĐƌĠeƌ uŶe ĐouĐhe positiǀe ;iŶteƌŶeͿ. Paƌ ĠƋuiliďƌe, uŶe ĐouĐhe d͛ioŶs de sigŶe opposĠ ;edžteƌŶeͿ ǀa
également se former quasi-instantanément le long de la première couche (Figure 1-71-7) [15]. Ce
phĠŶoŵğŶe tƌaduit le ĐoŵpoƌteŵeŶt d͛uŶ ĐoŶdeŶsateuƌ �ௗ dont le diélectrique a une épaisseur
très faible. Page | 15
Figure 1-7 : Schéma de composition de la couche double [16].
b) Transfert de charge
Le phĠŶoŵğŶe de tƌaŶsfeƌt de Đhaƌge tƌaduit la ĐiŶĠtiƋue de la ƌĠaĐtioŶ d͛odžLJdo-réduction [15].Ce
phĠŶoŵğŶe est dĠpeŶdaŶt, eŶtƌe autƌes, de la suƌteŶsioŶ à l͛iŶteƌfaĐe et de l͛aĐtiǀitĠ des odžLJdaŶts et
ƌĠduĐteuƌs. L͛edžpƌessioŶ du ĐouƌaŶt faƌadiƋue est doŶŶĠe, sous forme réduite, par la formule de
Butler-Volmer [17]:
�ி = �ሺ�ିఈி − �ିሺଵିఈሻிሻ Equation 1-3
Avec � la constante réduite de Faraday, � le coefficient de transfert de charge, � la surtension à
l͛ĠleĐtƌode ou la suƌteŶsioŶ à tƌaǀeƌs la douďle ĐouĐhe ;�ௗ), et � le ĐouƌaŶt d͛ĠĐhaŶge.
c) La diffusion
Le tƌaŶspoƌt paƌ diffusioŶ ĐoŶĐeƌŶe le dĠplaĐeŵeŶt de ŵatiğƌe sous l͛effet du gƌadieŶt de poteŶtiel
chimique des milieux les plus concentrés vers les moins concentrés. Ce phénomène est le plus
compliqué à analLJseƌ daŶs l͛Ġtude de l͛aĐĐuŵulateuƌ et Ŷ͛est solliĐitĠ Ƌue pouƌ des foŶĐtioŶŶeŵeŶts
à très basse fréquence (� < ʹ ���) ou à fort courant [15][18].
d) Film de passivation
Lorsque le potentiel des électrodes négatives (resp. positives) est situé en dehors du domaine de
staďilitĠ ĠleĐtƌoĐhiŵiƋue, uŶe ƌĠduĐtioŶ ;ƌesp. dĠĐoŵpositioŶͿ paƌtielle de l͛ĠleĐtƌolLJte à la suƌfaĐe
des grains de matière active est alors observée [14][19]. Ce processus entraîne la consommation
d͛uŶe paƌtie du lithiuŵ et ĐƌĠe uŶe Đouche solide à la surface de ces électrodes, appelée « film de
passiǀatioŶ ». EŶ plus d͛uŶe diŵiŶutioŶ iƌƌĠǀeƌsiďle de la ĐapaĐitĠ de l͛aĐĐuŵulateuƌ, uŶe diŵiŶutioŶ
de la puissaŶĐe dispoŶiďle due à l͛augŵeŶtatioŶ de l͛iŵpĠdaŶĐe de l͛ĠleĐtƌode à Đause de la présence
de cette couche, est aussi observée. Ce film permet la migration des ions lithium lors de
l͛iŶseƌtioŶ/dĠsiŶseƌtioŶ daŶs le ŵatĠƌiau ĐaƌďoŶĠ, et empêche partiellement la réduction de
l͛ĠleĐtƌolLJte. Page | 16
e) Pertes ohmiques
Tout passage de courant dans l͛aĐĐuŵulateuƌ est aĐĐoŵpagŶĠ d͛uŶe Đhute de teŶsioŶ liĠe audž
ƌĠsistaŶĐes de l͛ĠleĐtƌolLJte, de l͛ĠleĐtƌode et des ĠlĠŵeŶts de ĐoŶŶedžioŶ. BieŶ Ƌue Đes ƌĠsistaŶĐes
soieŶt de faiďles ǀaleuƌs, elles soŶt la Đause pƌiŶĐipale des peƌtes paƌ effet Joule daŶs l͛accumulateur.
1.3.4 Des accumulateurs aux batteries
Toutes les technologies sont caractérisées par une faible tension nominale par rapport aux exigences
de la plupart des systèmes à alimenter et particulièrement des véhicules hybrides et électriques
(ͳ,ʹ � pour des accumulateurs de type ����, ͵,ʹ V pour une technologie Li-ion phosphate de fer
(������ସ), ͵, � pour une technologie de type Li-ioŶ à ďase d͛odžLJde de ĐoďaltͿ. Pouƌ oďteŶiƌ de
fortes capacités, on place plusieurs accumulateuƌs eŶ paƌallğle, Đe tLJpe d͛assoĐiatioŶ est dĠsigŶĠ
comme un étage. Pour obtenir le niveau de tension adéquat, on place en série plusieurs étages, on
paƌle aloƌs de ŵodules. L͛assoĐiatioŶ de plusieuƌs ŵodules est appelĠe uŶe ďatteƌie d͛aĐĐuŵulateuƌs
ou « pack batterie » ou plus couramment batterie (Figure 1-81-8).
Figure 1-8 : Lien entre accumulateurs et batteries – Exemple d’une batterie composée de 10
modules en série, chaque module contenant 5 accumulateurs de 2,3 Ah chacun en parallèle
(5p) mis en série 12 fois (12s).
1.4 Système de supervision de batterie
Le foŶĐtioŶŶeŵeŶt daŶs des ĐoŶditioŶs aŶoƌŵales d͛uŶ aĐĐuŵulateuƌ peut pƌoǀoƋueƌ des dĠgâts
ĐatastƌophiƋues. L͛eŵďalleŵeŶt theƌŵiƋue eŶ est uŶ edžeŵple. Ce phĠŶoŵğŶe se dĠĐleŶĐhe suƌtout
lors d͛uŶ Đouƌt-ĐiƌĐuit iŶteƌŶe ou uŶe suƌĐhaƌge. Assuƌeƌ la sûƌetĠ des ĠlĠŵeŶts d͛uŶ paĐk ďatteƌie
est donc indispensable pour le développement des HEVs et EVs.
Les ďatteƌies utilisĠes daŶs les ǀĠhiĐules soŶt souŵises à des pƌofils d͛usage Đoŵpledžes. EŶ effet, ces
pƌofils ƌeflğteŶt l͛utilisatioŶ ĐhaotiƋue de la tƌaĐtioŶ opĠƌĠe paƌ le ĐoŶduĐteuƌ loƌs de tƌajets et Ƌui se Page | 17
ĐaƌaĐtĠƌiseŶt paƌ des ǀitesses et puissaŶĐes ǀaƌiaďles et iƌƌĠguliğƌes. CoŶtƌaiƌeŵeŶt à l͛utilisatioŶ au
seiŶ d͛uŶ oƌdiŶateuƌ poƌtaďle ;paƌ exemple) constituée de charges et de décharges répétitives, les
profils automobiles peuvent être considérés comme aléatoires.
Un système de supervision, désigné comme le BMS (Battery Management system), est donc toujours
iŶtĠgƌĠ daŶs les HEVs et EVs afiŶ d͛assurer a minima la sûreté de fonctionnement des batteries.
1.4.1 Indices d’états
Paƌŵi les iŶdiĐateuƌs d͛Ġtat Ƌui s'aǀğƌeŶt iŵpoƌtaŶts pouƌ la gestioŶ de la ďatteƌie, oŶ peut Điteƌ
l'Ġtat de Đhaƌge et l͛Ġtat de saŶtĠ. DaŶs Đe paƌagƌaphe, oŶ s͛iŶtĠƌesse à leuƌ dĠfiŶitioŶ à l͛ĠĐhelle de
l͛aĐĐuŵulateuƌ, ŵais les ŵġŵes ŶotioŶs peuǀeŶt ġtƌe adaptĠes à l͛ĠĐhelle d͛uŶe ďatteƌie.
1.4.1.1 Etat de santé (���ሻ
Le ǀieillisseŵeŶt est la ŵodifiĐatioŶ, au fil du teŵps, des pƌopƌiĠtĠs de l͛aĐĐuŵulateuƌ. Il se tƌaduit
généralement par une baisse de la capacité nominale �ሺ�ℎሻ au fil de l͛utilisatioŶ ou du teŵps
[Ϯϱ][Ϯϲ]. L͛Ġtat de saŶtĠ ;��� pour « state of health ») est donc défini comme le rapport de la
ĐapaĐitĠ ŶoŵiŶale de l͛aĐĐuŵulateuƌ à l͛iŶstaŶt � paƌ ƌappoƌt à Đelle eŶ soƌtie d͛usiŶe à � :
��� = ,ሺ்ሻ
,బ
ሺ்ሻ
Equation 1-4
La capacité nominale variant avec la température, cet indice est généralement défini pour une
température de référence � donnée.
1.4.1.2 Etat de charge (���)
L͚Ġtat de Đhaƌge ou ��� (pour « state of charge ») représente le rapport des capacités stockée et
nominale à une température � donnée. Il est normalisé entre Ͳ et ͳͲͲ%.
��� =
�௦ሺ�ሻ
�ሺ�ሻ Equation 1-5
Le calcul par coulométrie permet de suivre facilement le ��� d͛uŶ aĐĐuŵulateuƌ. Il ĐoŶsiste à
calculer la quantité de charge retirée (décharge) ou injectée (charge) entre deux instants différents
loƌsƋue l͛aĐĐuŵulateuƌ est souŵis à uŶ ĐouƌaŶt � (Equation 1-6).
���ሺ�ଶ
ሻ− ���ሺ�ଵ
ሻ =
ͳ
͵ͲͲ�
ە
ۖ
۔
ۖ
ۓ− න ��� �� � < Ͳ ሺ�é�ℎ����ሻ
௧మ
௧భ
− න ƞ��� �� � > Ͳ ሺ�ℎ����ሻ
௧మ
௧భ
Equation 1-6
� est la capacité nominale en �ℎ, �ଵ et �ଶ sont les instants en � de dĠďut et fiŶ de l͛appliĐatioŶ du
courant �, ƞ est le ƌeŶdeŵeŶt faƌadiƋue Ƌui ƌepƌĠseŶte l͛effiĐaĐitĠ de ƌeĐhaƌge [ϮϬ].
DaŶs l͛appliĐatioŶ des ǀĠhiĐules hLJďƌides et ĠleĐtƌiƋues, le calĐul d͛iŶtĠgƌatioŶ s͛effeĐtue gƌâĐe à uŶe
valeur référence de temps et de la mesure du courant total du pack batterie ou de l͛aĐĐuŵulateuƌ. Page | 18
Les eƌƌeuƌs aĐĐuŵulĠes à Đause à l͛iŶtĠgƌatioŶ soŶt ĐoŵpeŶsĠes gƌâĐe au ƌeĐalage du ��� via une
mesure de tension lorsque celle-ci atteint les limites haute ou basse. Dans [52][88], plusieurs
méthodes de mesure du ��� sont détaillées.
1.4.2 Terminologie
Dans ce paragraphe, une définition est donnée pour la surveillance, le diagnostic et la supervision
des batteries. Cette terminologie est directement inspirée du domaine de la supervision des
systèmes complexes [23][24].
D͛uŶe ŵaŶiğƌe gĠŶĠƌale, la supeƌǀisioŶ d͛uŶ sLJstğŵe a pouƌ ďut de ƌĠagiƌ ĐoƌƌeĐteŵeŶt audž
ĐhaŶgeŵeŶts d͛Ġtats ĠǀeŶtuels de Đe sLJstğŵe ;dĠgƌadatioŶ, appaƌitioŶ de dĠfauts, …Ϳ afiŶ de
ŵaiŶteŶiƌ ses peƌfoƌŵaŶĐes et d͛assuƌeƌ la sĠĐuƌitĠ des ďieŶs et des personnes. Elle est constituée de
trois tâches principales :
l’étape de surveillance,
l’étape de diagnostic,
l’étape de décision.
L͛oďjeĐtif de la suƌǀeillaŶĐe ;ou « monitoring »Ϳ est la dĠteƌŵiŶatioŶ à ĐhaƋue iŶstaŶt de l͛Ġtat
ĐouƌaŶt du sLJstğŵe d͛iŶtĠƌêt. Cet état est constitué par un ensemble de symptômes dont il faut
détecter la présence et déterminer les caractéristiques. Il est important de noter que ces symptômes
ne sont pas des défauts, mais plutôt des indicateurs qui permettront la détection et la caractérisation
de défauts ou de défaillances dans une étape ultérieure. La tâche de monitoring est réalisée grâce
aux connaissances disponibles sur ce procédé, qui peuvent être de deux types :
- les connaissances a priori développées avant l’action de surveillance, constituées par
exemple par des modèles physiques du système,
- les connaissances en fonctionnement constituées par les observations faites sur le système
lors de son fonctionnement.
L͛Ġtape de diagŶostiĐ est l͛opĠƌatioŶ Ƌui ĐoŶsiste à ƌeŵoŶteƌ des symptômes et de leurs
ĐaƌaĐtĠƌistiƋues audž dĠfauts pƌĠseŶts daŶs le sLJstğŵe d͛iŶtĠƌġt. Cette Ġtape utilise doŶĐ les soƌties
de l͛Ġtape pƌĠĐĠdeŶte de suƌǀeillaŶĐe pouƌ fouƌŶiƌ uŶe liste de dĠfauts et de dĠfaillaŶĐes ĠǀeŶtuels
ainsi que leurs caractéristiques ;gƌaǀitĠ, loĐalisatioŶ…Ϳ.
EŶfiŶ, l͛Ġtape de dĠĐisioŶ ĐoŶsiste à ƌĠagiƌ ĐoƌƌeĐteŵeŶt à l͛appaƌitioŶ de dĠfauts et de dĠfaillaŶĐes
au seiŶ du sLJstğŵe, et à eŶtƌepƌeŶdƌe les aĐtioŶs ĐoƌƌeĐtes peƌŵettaŶt d͛assuƌeƌ la sûƌetĠ de
fonctionnement du procédé (changement de consigne, passage dans un mode dégradé de
foŶĐtioŶŶeŵeŶt, opĠƌatioŶ de ŵaiŶteŶaŶĐe, ƌĠpaƌatioŶ, ŵise hoƌs seƌǀiĐe…Ϳ.
Concernant les applications de gestion de batteries embarquées dans des HEVs et EVs, la
surveillance de la batterie (le système d͛iŶtĠƌġtͿ ĐoŶsiste à estiŵeƌ les iŶdiĐateuƌs d͛Ġtats ;les
symptômes) qui seront présentés dans le paragraphe suivant. Pour y parvenir, la tension et le Page | 19
courant sont le plus souvent observés (constituant les connaissances en fonctionnement). Des
connaissances a priori peuvent également être rajoutées en utilisant un modèle de batterie. Ensuite,
l͛Ġtape de diagŶostiĐ ĐoŶsiste eŶ gĠŶĠƌal à attƌiďueƌ uŶ seuil pouƌ ĐhaƋue iŶdiĐateuƌ. Paƌ edžeŵple uŶ
état de charge aux alentours de Ͳ% peut entrainer une surdéchaƌge si l͛aĐĐuŵulateuƌ ĐoŶtiŶue à
dĠďiteƌ du ĐouƌaŶt, ĐeĐi aLJaŶt des ĐoŶsĠƋueŶĐes ŶĠfastes suƌ l͛aĐĐuŵulateuƌ. L͛Ġtape de diagŶostiĐ
ĐoŶsisteƌa doŶĐ iĐi à Đoŵpaƌeƌ l͛Ġtat de Đhaƌge ĐouƌaŶt de l͛aĐĐuŵulateuƌ aǀeĐ uŶ seuil pƌĠdĠteƌŵiŶĠ
proche de Ͳ %. Une fois ce seuil franchi intervient la dernière étape du système de supervision : la
tâĐhe de dĠĐisioŶ. Pouƌ l͛edžeŵple pƌĠĐĠdeŶt de suƌdĠĐhaƌge, il s͛agiƌa de liŵiteƌ le ĐouƌaŶt puis
d͛ouǀƌiƌ le ĐoŶtaĐteuƌ de sĠĐuƌitĠ eŶ Đas de fƌaŶĐhisseŵeŶt du seuil afiŶ de ƌĠagir correctement à cet
événement particulier.
Les systèmes regroupant toutes ces fonctionnalités sont appelés systèmes de gestion ou de
supervision de batteries, ou plus communément « BMS » (pour Battery Management system).
1.5 L’accumulateur : objet de modélisation
AfiŶ d͛assuƌeƌ les diffĠƌeŶtes tâĐhes du BM“, la ŵodĠlisatioŶ des aĐĐuŵulateuƌs s͛aǀğƌe uŶ outil
essentiel pour comprendre et prédire leur fonctionnement dans un système aussi délicat que les
HEVs et EVs. Elle aide à développer des outils théoriques et pratiques nécessaires pour la
compréhension et la caractérisation des accumulateurs, siège de différents phénomènes
ĠleĐtƌoĐhiŵiƋues Đoŵpledžes. Ce ŵodğle doit s͛adapteƌ à Ŷ͛iŵpoƌte Ƌuel pƌofil de Đhaƌge suƌ uŶe
large variation du ��� de l͛aĐĐuŵulateur et à différentes températures de fonctionnement. Cette
seĐtioŶ est de Ŷatuƌe ďiďliogƌaphiƋue [Ϯϳ]. L͛oďjeĐtif Ŷ͛est pas de ƌeĐeŶseƌ tous les ŵodğles edžistaŶts
mais plutôt de se positionner par rapport aux travaux existants et souligner a posteriori les choix
adoptés dans cette thèse.
1.5.1 Boite Blanche
Il s͛agit des ŵodğles phLJsio-chimiques. Ce sont les modèles les plus précis et les plus utilisés par les
ĐoŶĐepteuƌs d͛aĐĐuŵulateuƌs pouƌ optiŵiseƌ les peƌfoƌŵaŶĐes d'uŶ aĐĐuŵulateuƌ [Ϯϳ]. Toutefois, ils
sont également les plus lents et les plus difficiles à configurer (paramètres basés sur la connaissance
de la structure, la chimie, la composition, la capacité, la température, et d'autres caractéristiques de
l͛aĐĐuŵulateuƌͿ. Paƌ edžeŵple, [Ϯϴ][Ϯϵ] oŶt dĠǀeloppé un modèle électrochimique isotherme qui
décrit la charge et la décharge d'un accumulateur au lithium pour un seul cycle. Ce modèle se base
suƌ la ƌĠsolutioŶ d͛ĠƋuatioŶs diffĠƌeŶtielles ŵettaŶt eŶ jeu les ĐoŶĐeŶtƌatioŶs des espğĐes eŶ
solution. Ces modèles peƌŵetteŶt de pƌĠdiƌe la teŶsioŶ de l͛aĐĐuŵulateuƌ eŶ foŶĐtioŶ du teŵps,
ŵais aussi les pƌofils de ĐoŶĐeŶtƌatioŶ au seiŶ des ĠleĐtƌodes et de l͛ĠleĐtƌolLJte [ϯϬ]. Ils peuǀeŶt aussi Page | 20
être utilisés pour définir les capacités disponibles à différents profils de sollicitation ou établir les
régimes optimaux de courant admissible.
1.5.2 Boite noire
Il s͛agit des modèles empiriques [27] consistant à établir une relation directe entre les conditions
d͛usage et les peƌfoƌŵaŶĐes de l͛aĐĐuŵulateuƌ ;ĐapaĐitĠ, ĠŶeƌgie, …Ϳ. Ces modèles sont les plus
faciles à configurer mais sont difficilement extrapolables. Les paramètres utilisés n'ont pas de
sigŶifiĐatioŶ phLJsiƋue, Đe Ƌui liŵite sĠƌieuseŵeŶt l͛aŶalLJse du ĐoŵpoƌteŵeŶt de l͛aĐĐuŵulateuƌ. La
loi de Peukert [14] est un exemple de ce genre de modèle. On peut aussi citer dans cette catégorie
les modèles basés sur la logique floue [31][32][33][34] ou ceux sur les réseaux de neurones
[35][36][37]. Bien que la précision, la vitesse et la complexité de ces modèles soient acceptables, le
ĐoŵpoƌteŵeŶt de l͛aĐĐuŵulateuƌ est dĠĐƌit paƌ des relations sans aucun lien direct avec les
phénomènes physico-ĐhiŵiƋues Ƌui s͛LJ dĠƌouleŶt. Paƌ ĐoŶsĠƋueŶt, l͛iŶteƌpƌĠtatioŶ phLJsiƋue des
résultats demeure difficile.
1.5.3 Boite grise
Au lieu de modéliser le ĐoŵpoƌteŵeŶt de l͛aĐĐuŵulateuƌ, soit eŶ dĠĐƌiǀaŶt les pƌoĐessus
électrochimiques, soit par approximation empirique, les modèles de type boite grise [27] tentent de
fournir une représentation équivalente du comportement d'un accumulateur. Bien que le nombre de
paramètres soit en général limité, ces modèles font appel à des tables qui nécessitent un effort de
configuration important.
Il s͛agit eŶ paƌtiĐulieƌ de la modélisation des accumulateurs par des circuits électriques équivalents
(���s) [38][39][40][41][42][43] qui constitue un outil essentiel pour les professionnels du génie
électrique. De tels circuits permettent de traduire le comportement électrique fréquentiel et
temporel des accumulateurs. Grâce à l'analogie entre les différents domaines de la physique-chimie
et le domaine de l'électricité, les circuits électriques peuvent, sous certaines conditions de linéarité,
approcher les différents phénomènes physico-chimiques présents dans un accumulateur au moyen
d͛ĠlĠŵeŶts passifs ;ƌĠsistaŶĐes, ĐapaĐités, inductances) et actifs (force électromotrice, source de
ĐouƌaŶt …Ϳ.
Il est important de distinguer les modèles statiques des modèles dynamiques. Les modèles statiques
ne prennent pas en compte les phénomènes transitoires et leur impédance est constituée
uniquement d'éléments résistifs, tandis que les modèles dynamiques sont capables de décrire les
phénomènes transitoires en utilisant des éléments dont les impédances sont complexes.
Suivant la gamme de validité du modèle, les paramètres de ces circuits peuǀeŶt iŶtĠgƌeƌ l͛iŶflueŶĐe
de diǀeƌs faĐteuƌs tels Ƌue la teŵpĠƌatuƌe, l͛Ġtat de Đhaƌge, le ĐouƌaŶt et l͛Ġtat de saŶtĠ. UŶe phase Page | 21
de ĐaƌaĐtĠƌisatioŶ pƌĠalaďle est aloƌs ƌĠalisĠe peƌŵettaŶt d͛Ġtaďliƌ le lieŶ eŶtƌe Đes paƌaŵğtƌes et les
différents facteurs.
Enfin, quelle que soit la complexité du modèle ��� utilisé, des modèles supplémentaires sont
ŶĠĐessaiƌes pouƌ pouǀoiƌ suiǀƌe l͛ĠǀolutioŶ du ��� ;ǀia le suiǀi de l͛��� par exemple), de la
température ;ǀia uŶ ŵodğle d͛ĠǀolutioŶ d͛uŶ ou plusieuƌs paƌaŵğtƌes du ���), et du ��� (via un
modèle d͛ĠǀolutioŶ d͛uŶ ou plusieuƌs paƌaŵğtƌes du ���).
1.5.3.1 Le modèle de Randles généralisé
L͛aĐĐuŵulateuƌ pƌĠseŶte des ĐoŵpoƌteŵeŶts ŵiĐƌosĐopiƋues tƌğs Đoŵpledžes et des phĠŶoŵğŶes
internes fortement couplés. Randles a proposé un circuit électrique équivalent (Figure 1-91-9) en les
traduisant avec des composants électriques [44].
Figure 1-9 : Circuit de Randles.
Une interprétation préalable des composants est possible. Le modèle (Figure 1-91-9) renferme une
résistance ohmique (�) et une inductance (�) en série modélisant les effets des électrodes, de
l͛ĠleĐtƌolLJte et de la ĐoŶŶeĐtiƋue. Le comportement de la double couche peut être associé à la
capacité �ௗ alors que la cinétique de la réaction électrochimique peut être décrite par la résistance
de transfert de charge (�௧Ϳ. “eloŶ soŶ ŵodğle, le poteŶtiel d͛ĠƋuiliďƌe est représenté par une source
de tension idéale (���). Enfin le phénomène de diffusion, connu pour être difficile à étudier, est
modélisé par une impédance de Warburg ( �� Ϳ. Tƌois Đas d͛iŵpĠdaŶĐe de Waƌďuƌg soŶt
gĠŶĠƌaleŵeŶt utilisĠs seloŶ l͛Ġpaisseuƌ de la couche de diffusion [18] : épaisseur semi-infinie,
Ġpaisseuƌ fiŶie eŶ pƌĠseŶĐe de la ĐoŶǀeĐtioŶ ou de l͛hLJpothğse de NeƌŶst, et Ġpaisseuƌ fiŶie à tƌaǀeƌs
un film mince. Ces impédances peuvent être généralisées en intégrant des exposants non entiers
dans leur expression.
Aussi, afiŶ de pƌĠseŶteƌ les ĠƋuatioŶs ĐoƌƌespoŶdaŶtes à ĐhaƋue Đas, il s͛aǀğƌe ŶĠĐessaiƌe
d͛iŶtƌoduiƌe ƌapideŵeŶt des ĐoŵposaŶts à iŵpĠdaŶĐe d͛oƌdƌe ŶoŶ eŶtieƌ appelĠs ĠlĠŵeŶts à phase
constante (��� pour « Constant Phase Element »Ϳ [ϰϱ][ϰϲ] et pƌĠseŶtĠs plus eŶ dĠtails daŶs l͛AŶŶedže
A de Đe ŵĠŵoiƌe. La foƌŵule gĠŶĠƌale de l͛iŵpĠdaŶĐe d͛uŶ ��� est donnée par :
�ாሺ�ሻ =
ͳ
�ሺ�ʹ��ሻ
Ͳ � ͳ Equation 1-7 Page | 22
�� ൜
� = ͳ: �������é ����
� = Ͳ: �é�������� ����
� est une constante et � est un complexe tel que �ଶ = −ͳ, � étant la fréquence, � ĠtaŶt l͛oƌdƌe ŶoŶ
entier du ���. Dans cette étude, un ��� va être connecté en parallèle à une résistance �. Afin de
clarifier la notion du ���, l͛iŵpĠdaŶĐe du ĐiƌĐuit �//��� est tracée à la Figure 1-101-10 pour
différentes valeurs de �.
Figure 1-10 : Diagramme de Nyquist de ��//��� pour différentes valeurs de � [47].
Normalement, un système réel dépend non seulement de son état actuel mais également de ses
états passés. La dériǀĠe d͛oƌdƌe ŶoŶ-eŶtieƌ d͛uŶe foŶĐtioŶ �ሺ�ሻ permet de prendre en compte les
valeurs de �ሺ�ሻ à tous les instants � < Ͳ gƌâĐe à l͛iŶtĠgƌatioŶ Ƌui appaƌaît ŶatuƌelleŵeŶt daŶs les
dĠfiŶitioŶs pƌĠseŶtĠes daŶs l͛aŶŶedže A. Elle fournit donc une caractérisation globale de �ሺ�ሻ. C͛est
cet effet mémoire qui fait de la dérivation non-entière un outil intéressant pour modéliser
ĐoƌƌeĐteŵeŶt les phĠŶoŵğŶes ĐapaĐitifs et diffusifs Ƌui oŶt lieu au seiŶ d͛uŶ aĐĐuŵulateuƌ.
EŶ foŶĐtioŶ du Đas ĐoŶsidĠƌĠ, l͛iŵpĠdaŶĐe de diffusion est exprimée de manière différente [18]
(Figure 1-111-11) :
la diffusion semi-infinie est correctement modélisée par un ��� [18],
la diffusion finie d’après l’hypothèse de Nernst [18] est modélisée par :
�ௐሺ�ሻ = �
���ℎሺ���ሻ
ሺ���ሻ
Equation 1-8
A tƌğs ďasses fƌĠƋueŶĐes, l͛iŵpĠdaŶĐe de Waƌďuƌg pƌĠseŶte le ĐoŵpoƌteŵeŶt d͛uŶe ƌĠsistaŶĐe. C͛est
pourquoi on parle de « circuit fermé ».
la diffusion finie à travers un film mince [18] est modélisée par :
�ௐሺ�ሻ = �
���ℎሺ���ሻ
ሺ���ሻ
Equation 1-9
La paƌtie iŵagiŶaiƌe teŶd ǀeƌs l͛iŶfiŶi pouƌ les fƌĠƋueŶĐes ďasses Đe Ƌui ĐoƌƌespoŶd à l͛iŵpĠdaŶĐe
d͛uŶe ĐapaĐitance ou à un état de « circuit ouvert ».
Ces phĠŶoŵğŶes diffusifs seƌoŶt ŶĠgligĠs daŶs la suite de la thğse ǀu Ƌu͛ils Ŷe soŶt solliĐitĠs Ƌue pouƌ
des fréquences extrêmement basses. Page | 23
Figure 1-11 : Trois types d’impédance de Warburg [18].
1.5.3.2 Application aux cellules LiFePO4
Le modèle classique de Randles donné à la Figure 1-91-9 et ďasĠ suƌ des iŵpĠdaŶĐes d͛oƌdƌe eŶtieƌ
Ŷ͛est pas approprié pour décrire finement le comportement macroscopique complexe de
l͛aĐĐuŵulateuƌ. AfiŶ de ŵodĠliseƌ ĐoƌƌeĐteŵeŶt uŶ aĐĐuŵulateuƌ, le ƌeĐouƌs à l͛utilisatioŶ des ����
s͛aǀğƌe iŶtĠƌessaŶt, et paƌtiĐuliğƌeŵeŶt pouƌ ŵodĠliseƌ l͛effet de ĐouĐhe douďle et du filŵ de
passiǀatioŶ. C͛est pouƌƋuoi le ŵodğle de ‘aŶdles gĠŶĠƌalisĠ ;Figure 1-121-12) consistant à introduire
dans le circuit classique deux de ces termes, ��� et ���ௗ, a été proposé dans K.DONG [18] pour
modéliser un accumulateur de type ������ସ.
Figure 1-12 : Modèle de batteries LiFePO4 [18].
L͛ĠƋuatioŶ aŶalLJtiƋue de l͛iŵpĠdaŶĐe totale de Đe ĐiƌĐuit où l͛iŵpĠdaŶĐe de Waƌďuƌg est ŶĠgligĠe est
donc finalement donnée par :
�௬௧௨ ሺ�ሻ = � + ʹπ��� +
�
ͳ + ��ሺʹπ��ሻ
+
�௧
ͳ + �௧�ௗሺʹπ��ሻ
Equation 1-10
Le Tableau 1-2 ƌĠĐapitule l͛eŶseŵďle des paƌaŵğtƌes de Đe ŵodğle aiŶsi Ƌue les phĠŶoŵğŶes Ƌue
[18] a essayé de leur associer.
� Résistance des électrodes, électrolytes et connexions
� Inductance de connexions
� Résistance du film de passivation
�, � Paramètres du ��� : effet du film de passivation Page | 24
�௧ Résistance de transfert de charge
�ௗ, �ௗ Paramètres du ���ௗ : effet de la double couche
Tableau 1-2 : Récapitulatif des paramètres du ��� de Randles amélioré.
Le simulateur associé (Annexe C), développé sous Matlab/Simulink à l͛INE“4
[18][20][48], a montré
de ďoŶŶes peƌfoƌŵaŶĐes loƌs d͛edžpĠƌiŵeŶtatioŶs ŵeŶĠes suƌ des aĐĐuŵulateuƌs gƌaphite ������ସ
de la compagnie A123 Systems Ltd, de capacité nominale ʹ,͵ �ℎ et de tension nominale de ͵,͵� (cf.
Annexe B). Le modèle présenté ici sera donc celui utilisé dans la suite de ce mémoire, et le
simulateur correspondant sera utilisé pour la réalisation des études en simulations, préliminaires à la
phase expérimentale.
1.6 Circuit électrique équivalent et notion d’impédance électrique
La validité des ���� précédents est basée sur les hypothèses suivantes :
Un ��� est défini et valable uniquement autour d’un point de fonctionnement donné.
L’amplitude des fluctuations de courant à l’entrée de l’accumulateur reste faible. Par
conséquent, l’accumulateur modélisé autour du point de fonctionnement choisi peut être
considéré comme linéaire.
Sous les hypothèses précédentes et pour un point de fonctionnement fixe, l’accumulateur
peut être considéré comme un système linéaire et invariant dans le temps (LIT) pour lequel
les notions de fonction de transfert et de réponse fréquentielle sont parfaitement définies,
comme il est montré dans le chapitre suivant.
Dans ce cas, l’impédance électrique définie par l’Equation 1-10 correspond à la réponse
fréquentielle du système LIT constitué par l’accumulateur au point de fonctionnement fixe
considéré, dont l’entrée est le courant parcourant cet accumulateur, et la sortie la tension à
ses bornes.
Cette impédance dépend des différents éléments du ��� choisi et contient donc la majeure partie
de l͛iŶfoƌŵatioŶ liĠe audž phĠŶoŵğŶes phLJsiƋues Ƌui pƌeŶŶeŶt plaĐe daŶs l͛aĐĐuŵulateuƌ. Elle est
doŶĐ iŵpoƌtaŶte à ĐalĐuleƌ pouƌ sa ĐaƌaĐtĠƌisatioŶ et/ou sa suƌǀeillaŶĐe. C͛est suƌ Đette deƌŶiğƌe
remarque que repose la démarche suivie dans les chapitres suivants.
4
Institut National de l’Energie SolairePage | 25
Chapitre 2 : Identification de l’impédance électrique d’un
accumulateur
L͛ideŶtifiĐatioŶ de sLJstğŵes est uŶ eŶseŵďle de ŵĠthodes ǀisaŶt à ŵodĠliseƌ les sLJstğŵes
dynamiques à partir de données expérimentales. Elle consiste à déterminer un modèle
mathématique du système en utilisant et en analysant ses entrées et ses sorties. Si ce modèle
mathématique repose sur un ensemble fini de paramètres, on parle d'identification
« paramétrique ». L͛ideŶtifiĐatioŶ paƌaŵĠtƌiƋue permet dans la plupart des cas de faciliter la
synthèse de lois de commande, ce qui en fait un outil très apprécié dans le domaine de
l͛autoŵatiƋue. “i le ŵodğle ŵathĠŵatiƋue ĐoŶsiste eŶ uŶe foŶĐtioŶ Ƌui ĐaƌaĐtĠƌise le sLJstğŵe à
identifier, comme la fonction de transfert ou les réponses impulsionnelle ou fréquentielle d'un
sLJstğŵe liŶĠaiƌe et iŶǀaƌiaŶt daŶs le teŵps, oŶ paƌle aloƌs d͛ideŶtifiĐatioŶ « non paramétrique ». De
plus, deux approches différentes de l'identification peuvent être envisagées. Si les entrées du
système sont imposées par l'utilisateur spécifiquement pour l'identification, on parle d'approche «
active ». Par contre, si on utilise les signaux d'entrée et de sortie du système en fonctionnement,
sans ajouter aucun signal supplémentaire pour l'identification, on parle d'approche « passive ».
DaŶs Đe Đhapitƌe, Đ͛est l͛ideŶtifiĐatioŶ ŶoŶ paƌaŵĠtƌiƋue aĐtiǀe Ƌui est Đhoisie. EŶ effet, uŶe fois
liŶĠaƌisĠ autouƌ d͛uŶ poiŶt de foŶĐtioŶŶeŵeŶt, le système peut être caractérisé par sa réponse
fréquentielle, autrement dit son impédance électrique. Cette grandeur constitue donc un modèle
non-paƌaŵĠtƌiƋue de l͛aĐĐuŵulateuƌ ǀalaďle autouƌ du poiŶt de foŶĐtioŶŶeŵeŶt ĐoŶsidĠƌĠ. L͛oďjeĐtif
des méthodes développées dans ce chapitre est de réaliser une estimatioŶ pƌĠĐise de l͛iŵpĠdaŶĐe
ĠleĐtƌiƋue d͛uŶ aĐĐuŵulateuƌ autouƌ d͛uŶ poiŶt de foŶĐtioŶŶeŵeŶt eŶ eŵploLJaŶt uŶ sigŶal d͛eŶtƌĠe
dĠdiĠ à l͛ideŶtifiĐatioŶ et eŶ ŵesuƌaŶt le sigŶal de soƌtie ĐoƌƌespoŶdaŶt. De plus, les ŵĠthodes
présentées devront permettre de suiǀƌe l͛ĠǀolutioŶ de Đette iŵpĠdaŶĐe au Đouƌs du teŵps.
Ce Đhapitƌe Ġtaďlit tout d͛aďoƌd les hLJpothğses de tƌaǀail Ƌui seƌoŶt ƌespeĐtĠes tout au loŶg de
l͛Ġtude. EŶsuite, uŶ Ġtat de l͛aƌt suƌ les ŵĠthodes ĐouƌaŵŵeŶt utilisĠes ;paƌaŵĠtƌiƋues et ŶoŶ
paramétriƋuesͿ pouƌ ideŶtifieƌ l͛iŵpĠdaŶĐe ĠleĐtƌiƋue d͛uŶ aĐĐuŵulateuƌ est pƌĠseŶtĠ. EŶfiŶ, la
possibilité d'employer des méthodes d'identification large-bande pour estimer cette impédance
ĠleĐtƌiƋue suƌ des ďaŶdes de fƌĠƋueŶĐe doŶŶĠes seƌa ĠtudiĠe. L͛iŶtĠƌġt ŵajeur de cette approche
seƌa la possiďilitĠ d͛ġtƌe iŵplaŶtĠe sous foƌŵe ƌĠĐuƌsiǀe et doŶĐ eŶ teŵps-réel, et embarqué dans les
véhicules. Page | 26
2.1 Hypothèses de travail
Le système en étude (accumulateur), ayant pour entrée le courant de polarisation �ௗ (courant
ĐoŶtiŶu appliƋuĠ à l͛aĐĐuŵulateuƌͿ auquel est superposée une composante alternative de faible
amplitude ∆�ሺ�ሻ , et pour sortie la réponse en tension correspondante, a en général un
ĐoŵpoƌteŵeŶt ŶoŶ liŶĠaiƌe [ϰϵ][ϱϬ]. CepeŶdaŶt, l͛ideŶtification non paramétrique proposée dans
Đette Ġtude est ƌestƌeiŶte audž sLJstğŵes liŶĠaiƌes et iŶǀaƌiaŶts daŶs le teŵps ;LITͿ. Pouƌ Ƌu͛elle
aboutisse à des résultats valables, il faut que les conditions expérimentales permettent une
linéarisation locale autouƌ d͛uŶ poiŶt de foŶĐtioŶŶeŵeŶt fidže. Ce deƌŶieƌ est assoĐiĠ à uŶ eŶseŵďle
de paramètres qui doivent tous pouvoir être considérés comme constants au cours de la mesure. Le
pƌeŵieƌ de Đes paƌaŵğtƌes est l͛iŶteŶsitĠ du ĐouƌaŶt de polaƌisatioŶ Ƌui est ďieŶ Đonstante. Les
autƌes paƌaŵğtƌes soŶt ƌelatifs à l͛Ġtat gloďal de l͛aĐĐuŵulateuƌ : son ���, son ��� et sa
température �. Tout d͛aďoƌd, le ��� est considéré naturellement constant étant donné sa
dLJŶaŵiƋue tƌğs leŶte. EŶsuite, l͛aĐĐuŵulateuƌ foŶĐtioŶne dans un régime stable établi à température
ambiante : sa température est donc également considérée constante. Finalement, le ��� est
effeĐtiǀeŵeŶt plus ou ŵoiŶs ǀaƌiaďle duƌaŶt la ŵesuƌe ;seloŶ l͛iŶteŶsitĠ du ĐouƌaŶt de polaƌisatioŶͿ.
Cependant, en respeĐtaŶt uŶ Đoŵpƌoŵis eŶtƌe la duƌĠe de ŵesuƌe et l͛iŶteŶsitĠ du ĐouƌaŶt de
polarisation, une variation de ��� limitée à ʹ% est considérée comme acceptable. Sous les
hLJpothğses pƌĠĐĠdeŶtes, le poiŶt de foŶĐtioŶŶeŵeŶt autouƌ duƋuel l͛aĐĐuŵulateuƌ foŶĐtionne peut
être considéré comme fixe. La composante alternative ��ሺ�ሻ superposée au courant de polarisation
doit ĠgaleŵeŶt ġtƌe d͛aŵplitude suffisaŵŵeŶt faiďle pouƌ peƌŵettƌe la liŶĠaƌisatioŶ du sLJstğŵe. OŶ
ĐoŶsidğƌe daŶs la suite Ƌu͛elle Ŷe doit pas pƌovoquer plus de ʹͲ à ͶͲ �� de variation sur la réponse
en tension [51], une amplitude de ͳͷͲ �� est alors admise (soit un régime de �/ͳͷ).
Pour récapituler, les hypothèses de travail se résument à :
une durée de mesure suffisamment faible pour que le ��� ne varie pas de plus de ʹ%.
une composante alternative ∆�ሺ�ሻ suffisamment faible, correspondant à une amplitude de
�/ͳͷ.
Sous ces conditions, l'accumulateur sera considéré comme un système LIT autour du point de
fonctionnement fixe, et donc pouvant être caractérisé par sa réponse fréquentielle. Cette dernière
ƌelie le ĐouƌaŶt d'eŶtƌĠe et la teŶsioŶ de soƌtie de l͛aĐĐuŵulateuƌ, il s'agit doŶĐ d'uŶe iŵpĠdaŶĐe
électrique.
2.2 Etat de l’art
Dans la littérature, on trouve plusieurs paramètres électriques dont la définition est plus ou moins
siŵpleŵeŶt ƌeliĠe à Đelle de l͛iŵpĠdaŶĐe ĠleĐtƌiƋue d͛uŶ aĐĐuŵulateuƌ. La teƌŵiŶologie est
changeante, ce qui rend parfois difficile la compréhension de la grandeur mesurée. Page | 27
2.2.1 Identification de la résistance interne
Le modğle ĠleĐtƌiƋue le plus siŵple d͛uŶ aĐĐuŵulateuƌ est uŶe souƌĐe de teŶsioŶ eŶ sĠƌie aǀeĐ uŶe
résistance. Cette dernière englobe les résistances dues aux processus électrochimiques ainsi que
Đelles des ĐoŶŶedžioŶs. Ce teƌŵe de ƌĠsistaŶĐe Ŷ͛est pas dĠfiŶi de façon claire définitive, chaque
définition dépendant de la technique de mesure utilisée [52].
2.2.1.1 Mesure par milliohmmètre
EŶ appliƋuaŶt uŶ sigŶal d͛edžĐitatioŶ siŶusoïdal à haute fƌĠƋueŶĐe ;tLJpiƋueŵeŶt ͳ ��� ), le
ŵilliohŵŵğtƌe doŶŶe diƌeĐteŵeŶt la paƌtie ƌĠelle de l͛iŵpĠdaŶĐe Đoŵpledže de l͛aĐĐuŵulateuƌ à
cette fréquence [52].
2.2.1.2 Temps de repos (period-of-rest)
Le ĐouƌaŶt de dĠĐhaƌge appliƋuĠ à l͛aĐĐuŵulateuƌ est iŶteƌƌoŵpu ďƌutaleŵeŶt Đe Ƌui Đause apƌğs
une certaine durée de repos �, une variation ∆� suƌ la teŶsioŶ de l͛aĐĐuŵulateuƌ. La ƌĠsistaŶĐe
iŶteƌŶe de l͛aĐĐuŵulateuƌ, dite aussi ƌĠsistaŶĐe dLJŶaŵiƋue [ϱϮ], est aloƌs dĠfiŶie paƌ :
�ௗሺ�ሻ =
∆�ሺ�ሻ
�
Equation 2-1
2.2.1.3 Impulsion de courant
Une impulsion de courant ∆� est appliquée après une période de repos ou ajoutée à un courant de
Đhaƌge ou de dĠĐhaƌge dĠjà appliƋuĠ à l͛aĐĐuŵulateuƌ. UŶe ǀaƌiatioŶ ∆� est ensuite observée après
une durée �. Une nouvelle définition de la résistance interne peut alors être établie [53] :
�ௗሺ�ሻ =
∆�ሺ�ሻ
∆�
Equation 2-2
2.2.1.4 Interprétation
Dans ces deux dernières techniques, la résistance interne dépend fortement du temps de repos
T [52]. [52] présente que sur les technologies de batterie au plomb et nickel-cadmium, on a :
si � < ͳͲ ��, �ௗ correspondra au terme � du circuit de Randles amélioré (Figure 1-12),
si � ~ ͳ �, les processus à constantes de temps supérieures à ͳ � influent sur la mesure et
�ௗ dépendra des termes � et �,
si � > ͳ ���, les processus lents s’ajoutent et �ௗ dépendra d’une relation entre �, � et �௧
du circuit de Randles amélioré.
Afin de comprendre la relation entre la grandeur résistive estimée par le simple rapport tension sur
courant et les termes résistifs du ��� de la Figure 1-12, une simulation a été réalisée en se référant
au circuit électrique paramétré sur des cellules A123 ʹ,͵ �ℎ tel que présenté au chapitre précédent
(paragraphe 1.5.3.2.). Un échelon de courant est appliqué en entrée du simulateur. Les valeurs du Page | 28
rapport tension sur courant calculées (�ௗ) apƌğs diffĠƌeŶts teŵps d͛atteŶte soŶt ĐoŵpaƌĠes audž
termes résistifs connus du ��� choisi (Figure 2-12-1). On observe que :
- le terme � associé à la résistance Joule (électrodes et électrolyte) est mesurable pour des durées
inférieures à Ͳ,ͳ �� ce qui nécessite des systèmes de métrologie à fréquences d’acquisition
élevées. Cette grandeur est intéressante vu qu’elle est souvent liée aux ��� et ��� [52] [53]
pour certaines technologies d’accumulateurs.
- une valeur de résistance peut correspondre à la somme des contributions des termes � et �, ce
qui peut s’observer notamment au niveau du coude formé par l’allure de la réponse en tension,
- un temps d’attente long sur la réponse en tension fournit une valeur de résistance plus grande
mais sans sens physique précis.
Figure 2-1 : Estimation de la résistance via le rapport de ∆�
∆�
en utilisant le simulateur et
comparaison avec les valeurs des paramètres du ��� implanté.
2.2.1.5 Exploitation
La ƌĠsistaŶĐe dLJŶaŵiƋue ŵesuƌĠe Ŷ͛est Ŷi uŶe ƌĠsistaŶĐe puƌe Ŷi le ŵodule de l͛iŵpĠdaŶĐe
électrique à une fréquence donnée [52]. Cependant, les deux dernières techniques (temps de repos
et impulsion de courant) citées ci-dessus sont généralement utilisées en raison de leur simplicité de
ŵise eŶ œuǀƌe. Elles ŶĠĐessiteŶt uŶe ǀaƌiatioŶ de ĐouƌaŶt eŶ eŶtƌĠe du sLJstğŵe. DaŶs ĐeƌtaiŶes
appliĐatioŶs ;ǀĠhiĐules ƌoulaŶtͿ Đette ǀaƌiatioŶ est ŶatuƌelleŵeŶt gĠŶĠƌĠe. DaŶs d͛autƌes ;ďatteƌies
des véhicules en charge ou UPS (Uninterruptible Power Supply) en mode de veille), on se permet de
générer une variation de durée juste suffisante pour effectuer les mesures [24].
La quantité obtenue �ௗ a fait l͛oďjet d͛Ġtudes pouƌ dĠteƌŵiŶeƌ uŶe possiďle ƌelatioŶ aǀec les indices
d͛Ġtat ��� et ��� de l͛aĐĐuŵulateuƌ, saŶs pouƌ autaŶt l͛assoĐieƌ à des pƌoĐessus ĠleĐtƌoĐhiŵiƋues
[52][54]. Notamment, il a été montré l͛utilitĠ de Đe paƌaŵğtƌe au diagŶostiĐ du ��� [52][55][56][57]. Page | 29
EtaŶt doŶŶĠes les ĐoŶtƌaiŶtes d͛ĠĐhaŶtilloŶŶage d͛uŶ sLJstğŵe eŵďaƌƋuĠ, Đette ŵĠthode Ŷe seŵďle
pas permettre de déterminer directement la valeur de la résistance � car il faudrait alors
échantillonner à haute fréquence. L͛ĠǀolutioŶ de la ŵesuƌe du teƌŵe � + � peut toutefois
peƌŵettƌe de suiǀƌe l͛ĠǀolutioŶ de Đet iŶdiĐateuƌ d͛Ġtat.
2.2.2 Spectroscopie d’impédance électrique (SIE)
La speĐtƌosĐopie d͛iŵpĠdaŶĐe ĠleĐtƌiƋue ;“IEͿ, appelĠe aussi teĐhŶiƋue d͛aŶalLJse paƌ haƌŵoŶiƋue
(AH) [58][51][59][60], est particulièrement utile et efficace pour étudier la dynamique des
processus électrochimiques et physiques aux interfaces électrode/électrolyte [60]. Elle a également
été utilisée pour caractériser l'impédance d'accumulateurs électriques [61]. Elle permet de
déconvoluer les phénomènes à constantes de temps différentes.
Cette méthode consiste à appliquer une excitation sinusoïdale et à mesurer la réponse de
l͛aĐĐuŵulateuƌ. La solliĐitatioŶ peut ġtƌe eŶ ĐouƌaŶt ou eŶ teŶsioŶ ; on parle alors respectivement
des modes galvanostatique ou potentiostatique.
DaŶs le Đas d͛uŶ essai galvanostatique, le courant continu (nommé aussi courant de polarisation) est
contrôlé et une composante alternative sinusoïdale
i(t) Imax sin(2Sft) lui est superposée. Le
sLJstğŵe ĠtaŶt liŶĠaƌisĠ autouƌ d͛uŶ poiŶt de foŶĐtioŶŶeŵeŶt, la ƌĠpoŶse eŶ teŶsioŶ de
l͛aĐĐuŵulateuƌ est ŵesuƌĠe et ĐoŶsidĠƌĠe de la foƌŵe suiǀaŶte :
v(t) Vmax sin(2Sft M). En utilisant
Đes deudž gƌaŶdeuƌs, l͛iŵpĠdaŶĐe Đoŵpledže de l͛aĐĐuŵulateur est donnée dans le domaine
fréquentiel par :
*exp( ( )) )(
)(
max
max fj
I
V f
Z f
est M Equation 2-3
Dans les deux modes, en balayant une gamme de fréquence donnée, fréquence par fréquence, une
bonne estimation de l'impédance complexe de l͛aĐĐuŵulateuƌ peut ġtƌe oďteŶue.
2.2.3 Vers une rupture inévitable des méthodes classiques
BieŶ Ƌu͛elles soieŶt siŵples et faĐiles à ŵettƌe eŶ œuǀƌe, les ŵĠthodes d͛ideŶtifiĐatioŶ paƌtielle de
l͛iŵpĠdaŶĐe ĠleĐtƌiƋue d͛uŶ aĐĐuŵulateuƌ Ŷ͛oŶt pas la ƌiĐhesse fƌéquentielle nécessaire pour
l͛aŶalLJse fiŶe de soŶ ĐoŵpoƌteŵeŶt.
EŶ Đe Ƌui ĐoŶĐeƌŶe l͛AH, elle ƌeste diffiĐile à utiliseƌ pouƌ des appliĐatioŶs eŵďaƌƋuĠes telles Ƌue
pouƌ les EVs et HEVs où le Đoût de l͛ĠleĐtƌoŶiƋue ŶĠĐessaiƌe à soŶ iŵplaŶtatioŶ ƌeste pƌohibitif.
UŶ autƌe poiŶt faiďle de Đes ŵĠthodes est à souligŶeƌ. EŶ effet, l͛iŵpĠdaŶĐe ĠleĐtƌiƋue est uŶe
gƌaŶdeuƌ iŶtĠƌessaŶte pouƌ oďteŶiƌ des iŶfoƌŵatioŶs suƌ les iŶdiĐes d͛Ġtats de l͛aĐĐuŵulateuƌ.
Toutefois, pour pouvoir suivre leur évolution dans le temps, elle doit être estimée à plusieurs dates
teŵpoƌelles ĐoŶsĠĐutiǀes. Oƌ, aǀeĐ l͛AH paƌ edžeŵple, ĐhaƋue Ŷouǀelle estiŵatioŶ de l͛iŵpĠdaŶĐe
https://hal.archives-ouvertes.fr/tel-01066805/document
G´en´eration de mod`eles num´eriques de surface et
d´etection de changements 3D `a partir d’imagerie
satellite st´er´eoscopique tr`es haute r´esolution
Cyrielle Gu´erin
To cite this version:
Cyrielle Gu´erin. G´en´eration de mod`eles num´eriques de surface et d´etection de changements
3D `a partir d’imagerie satellite st´er´eoscopique tr`es haute r´esolution. Other. Universit´e Ren´e
Descartes - Paris V, 2014. French. .
HAL Id: tel-00953485
https://tel.archives-ouvertes.fr/tel-00953485
Submitted on 28 Feb 2014
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of scientific
research documents, whether they are published
or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destin´ee au d´epˆot et `a la diffusion de documents
scientifiques de niveau recherche, publi´es ou non,
´emanant des ´etablissements d’enseignement et de
recherche fran¸cais ou ´etrangers, des laboratoires
publics ou priv´es.THESE DE DOCTORAT DE `
l’UNIVERSITE PARIS DESCARTES ´
Sp´ecialit´e : Informatique
Ecole doctorale Informatique, T´el´ecommunications et ´ Electronique (Paris) ´
Pr´esent´ee par
Cyrielle GUERIN
Pour obtenir le grade de
DOCTEUR de l’UNIVERSITE PARIS DESCARTES ´
G´en´eration de Mod`eles Num´eriques de Surface et D´etection de
Changements 3D `a Partir d’Imagerie Satellite St´er´eoscopique
Tr`es Haute R´esolution
soutenue le 18 f´evrier 2014
devant le jury compos´e de :
M. Pascal Monasse Rapporteur
M. Laurent Polidori Rapporteur
M. Andres Almansa Examinateur
M. Bruno Vallet Examinateur
Mme. Nicole Vincent Examinatrice
M. Renaud Binet Encadrant
M. Marc Pierrot-Deseilligny Directeur de th`ese2Remerciements
Avant tout, mes remerciements vont `a Renaud Binet et Marc Pierrot-Deseilligny, initiateurs
et encadrants de ce sujet de th`ese qui m’a captiv´e pendant ces trois ann´ees. Merci `a Marc de
m’avoir fait d´ecouvrir MicMac et la programmation dynamique que j’utilise maintenant partout !
Merci Renaud pour ton enthousiasme, tes nombreuses id´ees au cours de la th`ese et surtout pour
m’avoir beaucoup appris dans le domaine de l’imagerie optique.
Je tiens aussi `a remercier la DGA d’avoir financ´e ces travaux. Participer `a ce programme a ´et´e
tr`es motivant.
Merci `a Philippe Blanc, toujours de tr`es bon conseil et `a Bruno Vallet pour le travail tr`es enrichissant
que nous avons r´ealis´e ensemble.
Merci `a toute l’´equipe du CALTECH pour m’avoir invit´ee dans vos murs et fait d´ecouvrir
d’autres pistes de recherche ! Merci S´ebastien pour toute l’aide que tu m’as apport´ee durant
ce stage mais aussi pour m’avoir fait visiter ce petit bout des Etats–Unis ! J’esp`ere que notre ´
collaboration ne s’arrˆetera pas l`a.
Je tiens aussi `a remercier les enseignants du Master 2 de l’EGID et surtout Samia Boukir et
Nesrine Chehata. Merci de m’avoir incit´ee `a continuer dans la recherche quand je n’´etais qu’´etudiante
en master ! J’esp`ere Nesrine qu’on se retrouvera encore souvent pour des conf´erences,
IGARSS a ´et´e un tr`es bon moment.
Je n’oublie sˆurement pas tout le labo TSE avec lequel j’ai travaill´e pendant ces trois ann´ees.
Merci bien sˆur `a Philippe pour m’avoir accueillie dans ce labo et m’avoir encourag´ee tout au
long de la th`ese. Un grand bravo `a Adrien pour m’avoir cˆotoy´ee dans le mˆeme bureau pendant
plus de 2 ans ! Tu resteras mon irrempla¸cable coll`egue de bureau et ami.
Merci `a Thierry d’avoir toujours eu confiance en moi et de m’avoir soutenu tous les jours, bon
3ou moins bon...Merci `a B´eatrice pour nos collaborations sur divers projets. Merci `a Philippe,
Rodolphe et Eric pour avoir accept´e de relire cette th`ese. Finalement merci `a vous tous, ¸ca a ´et´e
un r´eel plaisir de travailler avec vous dans ce labo.
Merci aussi `a tous ceux que j’ai rencontr´ee durant cette th`ese. Merci `a Franck pour d’inoubliables
conversations et fous rires si d´ecompressants sur la ligne C3 ! Je te souhaite le meilleur pour ta
nouvelle carri`ere et j’esp`ere qu’on ne se perdra pas de vue. Bien sˆur, je remercie Boris, rencontr´e
de fa¸con si inopin´e et qui s’est r´ev´el´e ˆetre un ami tr`es pr´ecieux, merci d’avoir pass´e ces heures `a
m’´epauler pour mon article, tu m’as beaucoup apport´e. You rock !
Merci enfin `a mes parents et `a mes soeurs, vous m’avez soutenue durant toutes ces ann´ees
d’´etudes. J’ai pu compter sur votre soutien inflexible lors de mes plus grandes p´eriodes de stress.
Du fond du coeur, merci. C’est `a vous que je d´edie cette th`ese.
4R´esum´e
L’imagerie satellite permet aujourd’hui l’acquisition d’un nombre croissant de donn´ees dont
l’augmentation des r´esolutions spatiale et temporelle permet de caract´eriser de plus en plus finement
une sc`ene et son ´evolution. Dans ce contexte, les m´ethodes de d´etection des changements
apparus entre deux sc`enes sont particuli`erement ´etudi´ees. Elles sont g´en´eralement bas´ees sur
les diff´erences radiom´etriques entre les images. Cependant, ces m´ethodes s’av`erent souvent peu
robustes `a des changements radiom´etriques non pertinents tels que ceux induits par la variation
des conditions d’acquisition des images.
L’objectif de cette th`ese est ainsi de d´evelopper une m´ethode alternative, bas´ee sur la recherche
des changements d’´el´evation de la sc`ene. L’´el´evation repr´esente en effet une information pertinente
et adapt´ee, notamment dans un contexte de d´etection des changements de type urbain
(construction, destruction ou modification d’infrastructures).
Pour r´epondre `a des besoins en analyse d’image qui n´ecessitent des r´esultats rapides et fiables,
la m´ethode que nous proposons est une chaˆıne de traitements compl`ete et automatique bas´ee
sur l’exploitation de couples d’image satellites st´er´eoscopiques tr`es haute r´esolution permettant
la g´en´eration et la comparaison de Mod`eles Num´eriques de Surface (MNS). Afin de limiter les
fausses alarmes de changements dues aux erreurs li´ees `a la g´en´eration des MNS, une ´etape cl´e
de cette th`ese a consist´e `a augmenter la pr´ecision des MNS, notamment `a travers la prise en
compte des zones d’occlusions et de mauvaise corr´elation.
La m´ethode de g´en´eration des MNS `a ainsi ´et´e am´elior´ee et une technique innovante de fusion
des deux MNS provenant du mˆeme couple d’images a ´et´e d´evelopp´ee. La comparaison des MNS
g´en´er´es avec un MNS LiDAR montre que notre approche permet une nette augmentation de la
qualit´e des MNS, les erreurs de corr´elation sont r´eduites tandis que les zones d’occlusion sont
5pr´ecis´ement localis´ees.
La m´ethode de d´etection des changements d’´el´evation est, quant `a elle, bas´ee sur une labellisation
par optimisation des pixels du MNS diff´erentiel calcul´e `a partir des MNS produits `a chaque
date. Cette ´etape permet de mettre en ´evidence les vrais changements de la sc`ene parmi le bruit
r´esiduel des MNS.
Les r´esultats obtenus sur diff´erents sites test´es montrent que plus de 80% des changements de
taille sup´erieure `a 15 pixels x 15 pixels (ou 100 m2 avec des images tr`es haute r´esolution) sont
d´etect´es par notre m´ethode, avec moins de 20% d’erreurs. Nous montrons cependant que ces
r´esultats d´ependent principalement du param`etre de r´egularisation de la d´etection des changements,
qui contrˆole le taux de fausses alarmes par rapport au taux de bonnes d´etections du
r´esultat.
6Abstract
The growing amount of satellite data, increasingly resolved spatially and temporally, represents
a high potential of information allowing the accurate characterization of the evolution
of an area of interest. For this reason, automatic analysis techniques such as change detection
methods are widely investigated. Most of them are based on radiometric changes between
remote sensed optical images. These methods are however very sensitive to a significant number
of irrelevant changes such as those due to the variation of the geometrical conditions between
two different acquisitions.
The objective of this work is then to develop an alternative method based on the elevation
change detection. The advantage of using the elevation is that this information is particularly
relevant and well adapted in a context of urban monitoring where the elements of interest
correspond to buildings that can be constructed, modified or destroyed between two dates.
In order to satisfy new needs in image analysis which require quick and reliable results, our
method is a complete and automatic processing flow based on the analysis of high resolution
satellite stereoscopic couples and the generation of Digital Surface Models (DSM).
Stereoscopic DSMs, however, generally suffer from a high number of correlation errors leading
to false alarms in the final change detection map. One of the main contribution of this work
consisted in increasing the DSM accuracy, especially through a better handling of the occlusion
and miss-correlation areas. For this purpose, the image matching technique has been improved
and all DSMs computed from the same stereoscopic couple are then fusioned through a
new approach, based on an optimization method. The comparison between our DSM with a
LiDAR-based DSM indicates that our method largely improves the DSM quality, the amount
of correlation errors is decreased while the occlusion areas are accurately localized.
The change detection method itself is based on the labelization of the pixels of the differential
7DSM computed from the DSMs generated at each date of interest. This step, performed through
another optimization process, enables to bring forward the relevant changes among the residual
noise of the DSMs. The results, obtained for several experimental areas, show that more than
80% of the changes larger than 15 pixels x 15 pixels (100 m m2 with high resolution images) are
detected with our method, with less than 20% of false alarms. We also show that these results
mainly depend on the regularization parameter which controls the balance between the amount
of false alarms towards the amount of true detections in the final results.
8Table des mati`eres
Introduction G´en´erale 13
1 Etudes bibliographiques et strat´egie adopt´ee ´ 17
1.1 La d´etection de changements : ´etat de l’art . . . . . . . . . . . . . . . . . . . . . 18
1.1.1 M´ethodes de d´etection des changements radiom´etriques . . . . . . . . . . 18
1.1.2 M´ethodes alternatives : d´etection des changements d’´el´evation . . . . . . 19
1.2 M´ethodes de restitution 3D : ´etat de l’art . . . . . . . . . . . . . . . . . . . . . . 23
1.2.1 Mise en correspondance d’images par m´ethode d’optimisation . . . . . . . 25
1.2.2 Caract´eristiques des corr´elateurs . . . . . . . . . . . . . . . . . . . . . . . 27
1.2.3 Les strat´egies de mise en correspondance . . . . . . . . . . . . . . . . . . 29
1.2.4 Les outils de restitution 3D existants . . . . . . . . . . . . . . . . . . . . . 33
1.3 Description g´en´erale de la chaˆıne de traitements d´evelopp´ee . . . . . . . . . . . . 35
1.4 Capteurs utilis´es et donn´ees d’entr´ee . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2 Outils et m´ethodes n´ecessaires `a la chaˆıne de traitements 41
2.1 Co–localisation des images : utilisation d’un outil de spatio–triangulation . . . . 42
2.1.1 Contexte et objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.1.2 Principe de la spatio–triangulation . . . . . . . . . . . . . . . . . . . . . . 43
2.2 Outil pour la r´esolution de probl`emes de labellisation . . . . . . . . . . . . . . . . 47
2.2.1 Trois probl`emes de labellisation . . . . . . . . . . . . . . . . . . . . . . . . 47
2.2.2 Les m´ethodes d’optimisation existantes . . . . . . . . . . . . . . . . . . . 49
2.2.3 Description de l’algorithme s´electionn´e . . . . . . . . . . . . . . . . . . . . 55
2.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
9TABLE DES MATIERES `
3 G´en´eration de Mod`eles Num´eriques de Surface sur une grille r´eguli`ere `a partir
de couples st´er´eoscopiques 61
3.1 Description de la strat´egie de mise en correspondance adopt´ee . . . . . . . . . . . 62
3.1.1 Technique de mise en correspondance . . . . . . . . . . . . . . . . . . . . 62
3.1.2 Fonction d’optimisation et r´egularisation . . . . . . . . . . . . . . . . . . . 63
3.1.3 Prise en compte des zones d’occlusion . . . . . . . . . . . . . . . . . . . . 65
3.2 D´eveloppement d’une m´ethode de basculement des MNS sur une grille g´eographique
r´eguli`ere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.2.1 Interpolation des points de la grille r´eguli`ere . . . . . . . . . . . . . . . . . 66
3.2.2 Conditions au calcul de l’´el´evation d’un point . . . . . . . . . . . . . . . . 67
3.3 Am´elioration des MNS : d´eveloppement d’une m´ethode de fusion des MNS . . . 72
3.3.1 Erreurs des MNS asym´etriques . . . . . . . . . . . . . . . . . . . . . . . . 72
3.3.2 M´ethode de fusion des MNS asym´etriques . . . . . . . . . . . . . . . . . . 74
3.4 Qualit´e et pr´ecision des MNS obtenus . . . . . . . . . . . . . . . . . . . . . . . . 82
3.4.1 Co–localisation LiDAR et MNS . . . . . . . . . . . . . . . . . . . . . . . . 82
3.4.2 Crit`eres de qualit´e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.5 Application au cas de la multi–st´er´eoscopie . . . . . . . . . . . . . . . . . . . . . 87
3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4 D´eveloppement d’une m´ethode de d´etection des changements d’´el´evation 93
4.1 Calcul et analyse du MNS diff´erentiel . . . . . . . . . . . . . . . . . . . . . . . . 94
4.2 M´ethode de d´etection des changements . . . . . . . . . . . . . . . . . . . . . . . . 97
4.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5 Exp´erimentation et discussion des r´esultats de la m´ethode de d´etection des
changements d’´el´evation 101
5.1 Pr´esentation des zones de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.1.1 Phoenix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.1.2 Christchurch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
5.1.3 R´egion de Tohoku : analyse d’une zone catastroph´ee . . . . . . . . . . . . 105
5.2 M´etriques d’analyse des r´esultats de la d´etection de changements . . . . . . . . . 109
5.2.1 Variables calcul´ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
10TABLE DES MATIERES `
5.2.2 M´etriques d’analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.3 Analyse de sensibilit´e des r´esultats obtenus . . . . . . . . . . . . . . . . . . . . . 112
5.3.1 Influence des param`etres de la m´ethode sur les r´esultats . . . . . . . . . . 113
5.3.2 Impact de la qualit´e des donn´ees d’entr´ee . . . . . . . . . . . . . . . . . . 118
5.3.3 Int´erˆet d’une m´ethode globale : comparaison avec un filtrage local . . . . 121
5.3.4 Influence du paysage de la zone d’´etude . . . . . . . . . . . . . . . . . . . 124
5.4 Analyse des r´esultats sur la zone de Sendai . . . . . . . . . . . . . . . . . . . . . 127
5.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
6 Conclusion g´en´erale 133
6.1 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
6.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
Table des figures 139
Liste des tableaux 143
Bibliographie 145
11TABLE DES MATIERES `
12Introduction G´en´erale
Depuis le lancement des premiers satellites d´edi´es `a la t´el´ed´etection spatiale, leur nombre,
leur r´esolution et leur capacit´e d’acquisition n’ont de cesse d’augmenter. Aujourd’hui, Pl´eiades
1A et 1B fournissent des images `a 70 cm de r´esolution tandis que WorldView-3 est attendu
avec une r´esolution inf´erieure `a 50 cm. Ce nombre de donn´ees, d’une qualit´e toujours meilleure,
permet d’acc´eder `a une grande quantit´e d’informations pour caract´eriser et analyser une sc`ene
et son ´evolution `a de tr`es fines ´echelles spatiales et temporelles.
Pour traiter ces nouveaux flux de donn´ees, les m´ethodes permettant l’analyse de s´eries multi–
temporelles d’images sont alors particuli`erement int´eressantes et en fort d´eveloppement. Les
applications `a ces ´etudes sont tr`es nombreuses, `a commencer par l’agriculture, pour caract´eriser
l’´evolution des sols, jusqu’aux g´eosciences, pour l’observation des glaciers en termes de volume,
d’´etendue ou de vitesse [1], pour la surveillance des volcans [2] ou encore pour les mesures des
d´eformations tectoniques [3, 4].
L’augmentation drastique de la r´esolution des images permet aussi aujourd’hui une observation
beaucoup plus fine des milieux urbains pour une meilleure analyse g´eographique et d´emographique
des villes `a travers la mise `a jour des plans cadastraux ou autres bases de donn´ees [5]
mais aussi pour la cartographie de d´egˆats mat´eriels (en terme de bˆatiments ou d’infrastructures
d´etruits) apr`es une catastrophe majeure telle qu’un s´eisme, un tsunami, un glissement de
terrain, un ´ev´enement m´et´eorologique ou encore une guerre [6]. Dans ce contexte, les m´ethodes
de d´etection des changements, automatiques ou semi–automatiques, sont particuli`erement
avantageuses.
Les algorithmes de d´etection de changements sont traditionnellement bas´es sur l’´etude
13INTRODUCTION GEN´ ERALE ´
d’images radars ou optiques. En imagerie optique, la plupart des m´ethodes s’int´eressent aux
diff´erences de r´eflectances entre les donn´ees acquises `a des dates t1 et t2 [7]. Cependant, les
r´esultats montrent que, dans un contexte de suivi des infrastructures urbaines, de nombreuses
fausses alarmes ou changements non pertinents sont g´en´er´es par ces m´ethodes de d´etection
2D. Ces alarmes sont g´en´eralement dues aux diff´erentes conditions d’acquisition des images
(conditions d’´eclairement ou d’atmosph`ere, azimut solaire, saison ou encore angles d’acquisition
des images) lors des prises de vue ainsi qu’`a de nombreux changements radiom´etriques tels que
l’´evolution des sols, les r´enovations de toitures ou de revˆetement de sol.
Le travail de th`ese pr´esent´e ici s’inscrit dans cette probl´ematique de d´etection de changements.
Dans le but de s’affranchir des changements radiom´etriques, nous nous int´eressons
aux changements d’´el´evation de type urbain (directement reli´es au bˆati) et dans un contexte
de suivi temporel ou de crise majeure n´ecessitant des r´esultats fiables et rapides. Afin de
r´epondre au mieux `a cette probl´ematique, la technique propos´ee est bas´ee enti`erement sur les
diff´erences d’´el´evation de la sc`ene entre les deux dates d’int´erˆet. En effet, cette information,
dont la variation en milieu urbain est g´en´eralement li´ee `a des changements du bˆati, est robuste
`a la plupart des changements 2D et est donc particuli`erement adapt´ee `a cet objectif [8].
Aujourd’hui, diff´erents syst`emes d’acquisition permettent d’acc´eder `a l’information d’´el´evation
d’une sc`ene : les lasers a´eroport´es (Airborne Laser Scaning ou ALS), le LiDAR (Light Detection
And Ranging), les satellites radar ou encore l’imagerie st´er´eoscopique, a´erienne ou spatiale, `a
travers la g´en´eration de Mod`eles Num´eriques de Surface (MNS). Du fait de leur tr`es haute
r´esolution, leur large capacit´e d’acquisition et la rapidit´e de livraison et de traitement de ces
donn´ees, les satellites optiques produisant des images st´er´eoscopiques apparaissent comme la
meilleure r´eponse pour la d´etection des changements d’´el´evation. De plus, le coˆut de ces images
est relativement faible compar´e aux autres syst`emes d’acquisition, voire nulle lors d’une crise
majeure car ces images sont alors gratuitement mises `a disposition des agences cartographiques `a
travers la Charte Internationale Espace et Catastrophes Majeures, sign´ee par de nombreux pays.
L’objectif de ce travail est ainsi de d´evelopper et de tester, dans un contexte urbain, une
m´ethode de d´etection de changements innovante et bas´ee sur les changements d’´el´evation d’une
sc`ene entre deux dates. Afin de r´epondre de fa¸con adapt´ee `a la probl´ematique de quantification
14INTRODUCTION GEN´ ERALE ´
de d´egˆats apr`es une catastrophe, la technique de d´etection de changements d´evelopp´ee est une
chaˆıne de traitements compl`ete et automatique, d´ebutant par le recalage des donn´ees brutes et
fournissant, en sortie, une carte g´eor´ef´erenc´ee des changements d´etect´es.
Au cours de cette th`ese, nous d´etaillerons toutes les ´etapes de cette chaˆıne de traitements,
leurs objectifs et leurs r´esultats.
Dans une premi`ere partie, nous montrerons l’int´erˆet de la recherche des changements d’´el´evation
(ou 3D) par rapport aux changements radiom´etriques `a travers un ´etat de l’art de ces m´ethodes.
Nous ´etudierons aussi les m´ethodes de g´en´eration de MNS `a partir d’images st´er´eoscopiques
(chapitre 1), ´etape primordiale de la chaˆıne de traitements.
Dans une seconde partie, nous d´ecrirons les outils existants n´ecessaires `a notre chaˆıne de
traitements, qui consistent en un outil de recalage des images, ´etape indispensable `a tout
traitement g´eom´etrique des images et un outil de r´esolution de probl`emes de labellisation par
programmation dynamique (chapitre 2). Cet algorithme est en effet central pour trois ´etapes de
calcul de notre chaˆıne de traitements.
Puis, dans le chapitre 3, nous d´etaillerons la m´ethode compl`ete de g´en´eration des MNS. Cette
m´ethode, qui d´ebute par la mise en correspondance des images st´er´eoscopiques pr´esente ensuite
deux innovations majeures permettant d’am´eliorer la pr´ecision des MNS en vue de la d´etection
des changements.
La technique de d´etection de changements 3D, bas´ee sur une classification de la carte des
diff´erences d’´el´evation par une m´ethode de labellisation, sera finalement expos´ee dans le chapitre
4.
Enfin, la derni`ere partie aura pour objectif d’illustrer l’int´erˆet de la chaˆıne de traitements
d´evelopp´ee et d’analyser les r´esultats obtenus dans diff´erentes sc`enes urbaines, que ce soit dans
un contexte de mise `a jour des bases de donn´ees ou pour la caract´erisation et la quantification
rapide des d´egˆats apr`es une catastrophe majeure (chapitre 5).
15INTRODUCTION GEN´ ERALE ´
16Chapitre 1
Etudes bibliographiques et strat´egie
´
adopt´ee
Dans le domaine de la d´etection de changements par imagerie satellite, de nombreuses m´ethodes
existent mais elles sont principalement bas´ees sur l’exploitation de la radiom´etrie des
images tandis que tr`es peu de m´ethodes utilisent l’information 3D de la sc`ene. C’est cette approche
que nous avons choisi de d´evelopper dans notre chaˆıne de traitements car elle se r´ev`ele
particuli`erement pertinente pour la d´etection des changements de type bˆati, dans un contexte
urbain.
La chaˆıne de traitements propos´ee n´ecessite ainsi une ´etape de reconstruction 3D de la sc`ene.
Cependant, les contraintes li´ees aux acquisitions satellites rendent le calcul de la mise en correspondance
des images particuli`erement complexe et de multiples techniques ont ´et´e d´evelopp´ees
afin d’am´eliorer leur robustesse.
Dans une premi`ere partie de ce chapitre, nous pr´esenterons quelques unes des m´ethodes classiques
de d´etection de changements radiom´etriques. Nous d´etaillerons ensuite plus particuli`erement les
m´ethodes d´evelopp´ees pour la d´etection des changements d’´el´evation et nous montrerons leur
int´erˆet, notamment en milieu urbain. Puis, dans une seconde partie, nous analyserons les m´ethodes
de restitution 3D existantes et l’int´erˆet de certaines techniques pour notre chaˆıne de
traitements.
Enfin, dans une derni`ere partie, nous d´etaillerons toutes les ´etapes de notre chaˆıne de traitements
et les donn´ees utilis´ees lors des phases exp´erimentales.
171.1. LA DETECTION DE CHANGEMENTS : ´ ETAT DE L’ART ´
1.1 La d´etection de changements : ´etat de l’art
1.1.1 M´ethodes de d´etection des changements radiom´etriques
Les m´ethodes traditionnelles en d´etection de changements sont bas´ees sur la comparaison
temporelle des radiom´etries qui peut ˆetre effectu´ee directement `a l’´echelle du pixel. Un large
inventaire des m´ethodes les plus connues est fourni par Radke [7].
Les m´ethodes les plus simples et rapides `a impl´ementer sont celles utilisant les diff´erences
radiom´etriques ou les rapports (ratios) entre les pixels correspondant en t1 et t2 [7, 9, 10].
Cependant, ces m´ethodes n´ecessitent souvent des seuillages ou des r`egles de d´ecisions et restent
tr`es sensibles au bruit des images, aux erreurs de recalage et surtout aux conditions d’acquisition
des images, diff´erentes entre t1 et t2, qui g´en`erent de nombreuses alarmes de changements,
g´en´eralement non pertinentes.
D’autres m´ethodes, de type statistique, sont aussi employ´ees `a l’´echelle du pixel [7, 9]. Le
but est de d´ecider, pour chaque pixel, s’il correspond `a un changement ou non en fonction de
l’hypoth`ese changement ou non changement qui d´ecrit le mieux son intensit´e. Ces hypoth`eses
sont pos´ees `a partir des variations d’intensit´e des pixels dans la s´erie temporelle [7].
L’analyse par composantes principales (PCA) est aussi largement utilis´ee [10–12]. Elle permet
de r´eduire la dimension spectrale des images aux composantes les plus riches en information et
donc o`u les changements les plus importants ont la plus grande probabilit´e d’apparaˆıtre.
Cependant, les hypoth`eses, n´ecessaires pour la mise en oeuvre de ces m´ethodes, proviennent
souvent d’une premi`ere analyse des changements recherch´es et limitent ainsi l’automatisation
de ces m´ethodes.
Les m´ethodes de classification des pixels sont aussi tr`es d´evelopp´ees. Deux m´ethodes sont
principalement utilis´ees : la post classification et la classification directe multi–date [13].
La premi`ere consiste `a classer les pixels, de fa¸con supervis´ee ou non, sur chaque image ind´ependamment
puis `a comparer les classes. Le probl`eme de cette approche est l’impact important
d’une erreur de classe dans l’une des images sur le r´esultat final. Cette m´ethode est ainsi plutˆot
utilis´ee pour la d´etection de changements `a grande ´echelle comme pour l’occupation des sols
par exemple [7, 9, 10, 12].
18CHAPITRE 1. ETUDES BIBLIOGRAPHIQUES ET STRAT ´ EGIE ADOPT ´ EE´
La classification directe multi–dates n´ecessite la concat´enation des images, puis la classification,
souvent supervis´ee, des pixels selon leur valeur dans toutes les bandes afin de faire apparaˆıtre
les changements [11]. Enfin, les images multi–spectrales permettent aussi l’utilisation d’outils
tels que les Support Vector Machine (SVM) [14]. Les valeurs spectrales de chaque pixel sont
alors repr´esent´ees par un vecteur dans l’espace temporel, la magnitude et la direction de ces
vecteurs permettent le classement des pixels en changement ou non changement dans l’image.
Ces m´ethodes de classification s’av`erent souvent plus robustes aux erreurs de recalage ou au
bruit des images mais elle n´ecessitent souvent des processus supervis´es.
Aujourd’hui, avec l’augmentation de la r´esolution spatiale des images, l’int´egration d’informations
sur le voisinage des pixels devient indispensable car un objet est maintenant repr´esent´e
par plusieurs pixels dans l’espace image. L’image peut alors ˆetre analys´ee de fa¸con plus efficace
en consid´erant cette information spatiale [11, 12, 15]. Ainsi, Bruzzone [16] utilise une approche
bas´ee sur les Champs de Markov Al´eatoires (Markov Random Fields, MRF) afin de mod´eliser les
probabilit´es d’appartenance d’un pixel `a une classe en fonction de son voisinage. Al–Khudhairy
[15] se base sur la forme et l’homog´en´eit´e des objets afin de les classer.
Ces approches, de plus en plus r´epandues, am´eliorent la robustesse des algorithmes au bruit et
aux distorsions g´eom´etriques des images mais sans pour autant supprimer la sensibilit´e `a tous
les changements radiom´etriques non pertinents tels que les variations de r´eflectance des surfaces,
l’´evolution des sols ou des revˆetements d’infrastructures.
1.1.2 M´ethodes alternatives : d´etection des changements d’´el´evation
Derni`erement, de nouvelles approches, alternatives `a la d´etection de changements 2D, ont
´emerg´e. Leur but est de concentrer la d´etection sur les changements d’´el´evation de la sc`ene
tout en ´etant plus robuste aux conditions d’acquisition des images ou aux changements non
pertinents qui correspondent souvent `a des changements 2D. Dans le cadre d’une d´etection des
changements urbains de type bˆati, ces m´ethodes apparaissent donc particuli`erement appropri´ees.
Les donn´ees d’entr´ee utilis´ees pour obtenir cette information d’´el´evation proviennent alors
de campagnes LiDAR, de lasers a´eroport´es ou plus fr´equemment d’imagerie st´er´eoscopique,
spatiale ou a´erienne [17, 18].
Ces techniques de d´etection des changements 3D peuvent ˆetre divis´ees en deux cat´egories
191.1. LA DETECTION DE CHANGEMENTS : ´ ETAT DE L’ART ´
principales : les techniques image `a base de donn´ees et les techniques image `a image.
Les techniques dites image–base de donn´ees consistent g´en´eralement `a comparer une base
de donn´ees vecteur, contenant les empreintes de bˆatiments (telles que des donn´ees cadastrales)
et une image de l’´el´evation de tous les points de la sc`ene. Ces techniques sont les plus utilis´ees
en d´etection de changements car elles sont n´ecessaires pour la mise `a jour automatique ou
semi–automatique de bases de donn´ees d´ej`a existantes.
La strat´egie g´en´eralement adopt´ee dans ce cas est l’extraction des bˆatiments sur la carte
d’´el´evation et la comparaison des empreintes obtenues avec la base de donn´ees initiale afin de
constater la pr´esence ou non du bˆatiment `a la date de la base de donn´ees [5, 19, 20].
L’extraction des bˆatiments est alors le point sensible de la m´ethode et peut ˆetre effectu´ee, selon
le type de donn´ees d’entr´ee, par un algorithme d’extraction de structures dans un nuage de
points g´en´er´e par des donn´ees laser [18], par des m´ethodes de classification `a partir de MNS et
de donn´ees multispectrales [19, 21] ou bien par l’extraction des contours 2D des bˆatiments sur
un MNS afin de comparer les segments obtenus avec la base de donn´ees vecteur [5]. Cette ´etape
d’extraction est particuli`erement sensible car une erreur peut g´en´erer une fausse diff´erence entre
la base de donn´ees et les empreintes calcul´ees, notamment lorsque la carte des ´el´evations de la
sc`ene est g´en´er´ee `a partir d’images, plus bruit´ees que les donn´ees laser. De mˆeme, l’´etape de
comparaison n´ecessite g´en´eralement que les donn´ees vecteur et image soient tr`es pr´ecis´ement
recal´ees. Des post–filtrages sont souvent appliqu´es sur les extractions de bˆatiment afin de
compenser ce type d’erreur, mais ces filtrages peuvent alt´erer la d´etection des changements les
plus petits, tels que les modifications apport´ees `a un bˆatiment.
Enfin, l’inconv´enient majeur de ces techniques r´eside dans le fait que les bases de donn´ees
cadastrales sont tr`es rarement disponibles et mises `a jour, rendant ce type de m´ethode totalement
inadapt´e pour la quantification des d´egˆats apr`es une catastrophe majeure par exemple [19].
Les techniques image `a image repr´esentent alors la seule alternative lorsqu’aucune donn´ee
externe n’est disponible ou valide. Elles consistent `a calculer la diff´erence entre deux images
d’´el´evation acquises aux dates t1 et t2 afin de mettre en ´evidence les changements d’´el´evation
apparus.
Cette m´ethode est largement utilis´ee pour des probl´ematiques de g´eoscience telles que l’´etude
20CHAPITRE 1. ETUDES BIBLIOGRAPHIQUES ET STRAT ´ EGIE ADOPT ´ EE´
d’objets g´eologiques comme les volcans [2] ou les glaciers [1], la mesure des mouvements
topographiques ou des glissements de terrain [3, 4].
Dans ce contexte de surveillance des milieux, il est souvent n´ecessaire d’acqu´erir des s´eries
temporelles compos´ees de nombreuses images afin de suivre les variations sur une grande
p´eriode de temps. Les donn´ees employ´ees sont alors tr`es souvent des donn´ees satellitaires ou
a´eriennes qui permettent d’acqu´erir des sc`enes sur de vastes emprises terrain.
Pour des applications en g´eoscience, les variations recherch´ees sont typiquement de tr`es
basse fr´equence spatiale et de faible amplitude altim´etrique, visibles `a grande ´echelle et donc
facilement d´etectables par une simple diff´erence entre les cartes d’´el´evation, g´en´er´ees `a basse
ou moyenne r´esolution [3, 4]. Au contraire, dans le contexte urbain dans lequel se place ce
travail, les changements recherch´es sont g´en´eralement de tr`es haute fr´equence spatiale et de
forte amplitude, n´ecessitant une pr´ecision de d´etection qui ne peut ˆetre obtenue qu’avec des
images tr`es haute r´esolution. Les m´ethodes d´evelopp´ees pour la basse ou moyenne r´esolution
ne sont pas adapt´ees `a cette probl´ematique car il est alors n´ecessaire de mettre en ´evidence les
changements recherch´es parmi les nombreuses fausses alarmes g´en´er´ees `a haute ou tr`es haute
r´esolution spatiale [8, 22].
Parmi les m´ethodes de d´etection image–image `a tr`es haute r´esolution, deux types de techniques
sont appliqu´es : les techniques semi–automatiques, bas´ees sur l’utilisation d’informations
multi–spectrales ou contextuelles telles que la taille ou la forme des objets ou encore sur
l’utilisation de zones d’apprentissage et les techniques enti`erement automatiques.
Jung [23] propose une m´ethode semi–automatique qui utilise des MNS g´en´er´es par imagerie
st´er´eoscopique a´erienne. Dans une premi`ere ´etape, un algorithme de focusing permet de
rechercher les zones ayant probablement chang´e grˆace `a la comparaison des MNS de chaque
date. Puis une seconde ´etape permet, pour chaque date, de classer ces zones d’int´erˆet selon
les labels ”bˆatiment” ou ”non–bˆatiment” `a l’aide d’arbres de d´ecision g´en´er´es `a partir de zones
d’apprentissage. Les deux segmentations ainsi obtenues sont alors compar´ees pour retrouver les
changements du bˆati. Avec ce type de m´ethode, la qualit´e de la d´etection d´epend alors de chacune
des segmentations et ne permet pas de retrouver les modifications apport´ees `a un bˆatiment.
Aujourd’hui, peu d’´etudes portent sur la d´etection des changements d’´el´evation entre deux
211.1. LA DETECTION DE CHANGEMENTS : ´ ETAT DE L’ART ´
MNS g´en´er´es `a partir d’images satellites st´er´eoscopiques tr`es haute r´esolution.
En effet, malgr´e les avantages qu’apporte la haute r´esolution temporelle de ces images qui
sont aussi moins on´ereuses qu’une campagne d’acquisition a´erienne, leur r´esolution reste
beaucoup plus basse que celle des images a´eriennes (aujourd’hui WorldView–1 atteins 50 cm de
r´esolution nadir lorsque les images a´eriennes ont une r´esolution de l’ordre du d´ecim`etre). De
plus, les images a´eriennes sont plus contrast´ees que les images satellites permettant une mise
en correspondance plus efficace pour la g´en´eration de MNS pr´ecis. Enfin, leur acquisition quasi
nadir permet de limiter les zones d’occlusion dans les images.
Ainsi, les MNS produits `a partir de couples d’images satellites souffrent de plus nombreuses
erreurs de corr´elation et de zones d’occlusion par rapport `a ceux produits par l’a´erien, erreurs
se propageant souvent sous forme de fausses alarmes sur les cartes finales de d´etection de
changements.
Afin de r´eduire l’impact des erreurs de MNS dans le MNS diff´erentiel, Tian [8] propose
le calcul d’une diff´erence robuste entre les MNS des deux dates d’acquisition qui se traduit
par l’affectation, pour chaque pixel (i, j) de l’image des diff´erences, de la diff´erence minimale
obtenue entre le pixel du MNS `a t1 en (i, j) et un pixel du MNS t2 appartenant `a une fenˆetre de
taille d´efinie et centr´ee sur le pixel (i, j). Puis, dans une seconde ´etape, la carte des diff´erences
obtenue est analys´ee par une extraction de contours suivie par un affinage de formes par un
algorithme de box-fitting.
Dans une autre approche, Tian [24] propose, apr`es le calcul de la diff´erence robuste, l’application
d’un masque des zones d’ombre, bas´e sur l’exploitation des bandes multispectrales tel que
l’a impl´ement´ee Marchant [25]. Ce masque est alors combin´e `a un masque regroupant les
corr´elations de faible coefficient obtenues lors de la g´en´eration des MNS. La diff´erence masqu´ee
ainsi obtenue est alors segment´ee puis les ´el´ements mis en ´evidence sont filtr´es `a partir de
crit`eres de tailles et de formes d´ecrits par Chaabouni–Chouayakh [22], afin de mieux s´eparer les
changements appartenant au bˆati des fausses erreurs.
Cette approche permet la d´etection de 60% `a 80% des objets de plus de 100 m2
et de 2 m `a
3 m d’´el´evation diff´erentielle, respectivement et avec 50% `a 15% de fausses alarmes.
Plus r´ecemment, Tian [26] a am´elior´e cette approche grˆace `a l’ajout d’un indicateur de
changements calcul´e directement entre les images panchromatiques ayant permis la g´en´eration
22CHAPITRE 1. ETUDES BIBLIOGRAPHIQUES ET STRAT ´ EGIE ADOPT ´ EE´
des MNS. Cet indicateur de changements est bas´e sur l’analyse de l’´evolution des statistiques
locales d’une image entre deux dates. Le r´esultat de la fusion des informations obtenues par la
diff´erence robuste segment´ee et par les indicateurs de changements radiom´etriques est ensuite
filtr´e `a partir des mˆemes crit`eres de formes et de tailles. Les r´esultats montrent alors de 55% `a
93% des changements d´etect´es avec 45% `a 16% de fausses alarmes.
Cependant, si les r´esultats de ces m´ethodes apparaissent prometteurs, les nombreux seuils et
crit`eres n´ecessaires peuvent limiter les changements d´etectables `a certaines formes et tailles.
Enfin, Reinartz [6] effectue une segmentation des images aux dates t1 et t2 en utilisant une
m´ethode de classification bas´ee sur le IR–MAD (Iteratively Reweighted Multivariate Alteration)
d´evelopp´ee par Nielsen [27]. Les r´esultats de segmentation aux deux dates sont alors associ´es
avec le MNS diff´erentiel afin de d´ecider, pour chaque r´egion segment´ee, si elle correspond `a des
bˆatiments d´etruits ou nouveaux.
En conclusion de cette ´etude, nous noterons que, `a notre connaissance, aucune m´ethode
totalement automatique n’existe pour la d´etection des changements d’´el´evation `a partir d’imagerie
satellite seule, sans ajout d’informations externes ou contextuelles. Pourtant, la capacit´e
de r´eactivit´e des satellites face `a une crise, leur agilit´e pour la st´er´eoscopie ainsi que leur r´esolution
inf´erieure au m`etre sont des atouts majeurs pour des probl´ematiques de d´etection de
changements d’´el´evation, mˆeme si la g´en´eration de MNS pr´ecis `a partir de ces donn´ees demeure
difficile.
1.2 M´ethodes de restitution 3D : ´etat de l’art
Classiquement, la reconstruction 3D d’une sc`ene n´ecessite le calcul de la disparit´e entre tous
les pixels homologues des deux images d’un couple st´er´eoscopique.
Les pixels homologues correspondent `a des pixels repr´esentant un mˆeme point terrain, rep´er´es
sur chaque image du couple st´er´eoscopique. La disparit´e correspond au d´ecalage g´eom´etrique
(en pixels) mesur´e entre deux pixels homologues lorsque les angles de prise de vue des images
diff`erent. Cette valeur de disparit´e est reli´ee `a l’´el´evation de la sc`ene au pixel consid´er´e, elle est
donc calcul´ee pour tous les pixels d’une image par la mise en correspondance dense des images
231.2. METHODES DE RESTITUTION 3D : ´ ETAT DE L’ART ´
afin d’obtenir l’´el´evation de tous les points de la sc`ene.
Cependant, les contraintes li´ees aux acquisitions satellite rendent le calcul de la disparit´e particuli`erement
complexe car de nombreuses difficult´es se pr´esentent :
– les angles d’acquisition des images sont souvent importants (jusqu’`a 30◦ d’incidence) g´en´erant
des diff´erences radiom´etriques importantes,
– ces angles d’incidence g´en`erent d’importantes zones d’occlusion : c’est–`a–dire des zones
cach´ees dans l’image, typiquement les zones aux abords des bˆatiments. Dans ce cas il n’est
pas possible de trouver des pixels homologues dans ces zones,
– des d’objets peuvent ˆetre en mouvement : la mise en correspondance des images d’un
couple implique comme hypoth`ese que la sc`ene soit parfaitement immobile entre les deux
acquisitions, or, dans la r´ealit´e, cette hypoth`ese n’est pas r´ealisable,
– certaines zones sont trop homog`enes ou poss`edent une texture r´ep´etitive ou bien une
structure 3D tr`es complexe (c’est le cas pour la structure de la v´eg´etation), dans tous ces
cas il est tr`es difficile de d´eterminer pr´ecis´ement les pixels homologues,
– il existe des changements radiom´etriques entre les acquisitions : toutes les surfaces n’´etant
pas lambertiennes, c’est–`a–dire que la lumi`ere n’est pas forc´ement r´efl´echie de la mˆeme
fa¸con dans toutes les directions, une mˆeme surface peut pr´esenter diff´erentes radiom´etries
selon l’angle de l’acquisition et ainsi compliquer la mise en correspondance,
– certains d´efauts g´eom´etriques r´esiduels subsistent, mˆeme apr`es l’affinage, comme nous le
montrerons dans la section 2.1.
Depuis les 30 derni`eres ann´ees, de nombreux algorithmes ont ´et´e d´evelopp´es pour la
reconstruction 3D de sc`enes `a partir d’imagerie terrestre, a´erienne ou spatiale. Des inventaires
de ces techniques ont ´et´e r´ealis´es par Scharstein [28], Brown [29] puis plus r´ecemment par
Lazaros [30]. La base de donn´ees de Middlebury 1 a notamment ´et´e tr`es utilis´ee pour r´ealiser
ces inventaires. Ils permettent de comparer un grand nombre de ces techniques en termes
de performance et de m´ethodologie. Les techniques pr´esent´ees ne sont cependant pas toutes
transposables aux images satellites.
1. Ensemble de jeux de donn´ees correspondant `a des images st´er´eoscopiques accompagn´ees de v´erit´es terrain
mis `a disposition des utilisateurs pour tester des algorithmes de mise en correspondance. Le contexte et les images
sont cependant ´eloign´es de notre probl´ematique de reconstruction 3D par imagerie satellite en milieu urbain.
24CHAPITRE 1. ETUDES BIBLIOGRAPHIQUES ET STRAT ´ EGIE ADOPT ´ EE´
1.2.1 Mise en correspondance d’images par m´ethode d’optimisation
Pour de nombreux auteurs, la mise en correspondance d’images peut ˆetre vue comme un
probl`eme de labellisation [31],[32],[33],[34] : chaque valeur de disparit´e ou d’´el´evation (alors
consid´er´ee comme un label) affect´ee `a un pixel d’une image maˆıtre est d´eduite de la s´election du
pixel homologue parmi plusieurs candidats dans l’image esclave.
La mise en correspondance peut ainsi ˆetre r´esolue `a partir d’une m´ethode d’optimisation : l’objectif
est alors de retrouver, pour chacun des pixels d’une image maˆıtre, les pixels homologues
dans l’image esclave (ou dans toutes les autres images dans le cas de la multi–st´er´eoscopie).
La mise en correspondance peut alors ˆetre r´ealis´ee par des m´ethodes locales d’optimisation :
la recherche de primitives homologues (pixels, segments ou r´egions) est alors effectu´ee de fa¸con
locale uniquement, ou bien `a travers des m´ethodes globales (ou semi–globales) selon lesquelles
la mise en correspondance est r´esolue en recherchant la solution de disparit´e sur l’image enti`ere
(ou des subdivisions de l’image).
Ainsi, les m´ethodes de mise en correspondance peuvent ˆetre bas´ees sur les algorithmes d’optimisation
que nous verrons plus en d´etails dans le chapitre 2, section 2.2.2.
M´ethodes locales de mise en correspondance
Les m´ethodes locales peuvent ˆetre bas´ees sur la mise en correspondance des segments ou des
contours de l’image, tels que les contours de bˆatiments. Plusieurs auteurs utilisent ces contours
pour aider `a la mise en correspondance radiom´etrique des images.
La m´ethode propos´ee par Baillard [35] recherche les points de contours des bˆatiments sur des
images a´eriennes afin d’apporter une contrainte g´eom´etrique `a la corr´elation radiom´etrique des
pixels, effectu´ee dans une seconde ´etape.
Zhang [36] propose, sur des images satellites, une m´ethode hybride bas´ee sur la combinaison
de la mise en correspondance dense des pixels et celle des contours de l’image. Cette technique
permet d’imposer une forte contrainte de r´egularisation entre les contours d´etect´es afin de
garantir une surface r´eguli`ere tout en pr´eservant les discontinuit´es au niveau des contours.
Ces techniques montrent des r´esultats particuli`erement int´eressants, notamment pour les zones
homog`enes mais elles peuvent ˆetre sensibles `a la d´etection de contours. Les m´ethodes bas´ees
251.2. METHODES DE RESTITUTION 3D : ´ ETAT DE L’ART ´
sur les contours restent cependant peu utilis´ees `a cause des erreurs produites par la d´etection
de contours et la difficult´e de retrouver les plus petites structures.
Les m´ethodes les plus populaires de mise en correspondance sont g´en´eralement bas´ees sur
l’intensit´e des pixels des images et la mise en correspondance dense de tous les pixels de l’image,
souvent `a travers la m´ethode dite de block matching. Cette m´ethode est bas´ee sur la corr´elation
d’une fenˆetre de pixels d´efinie sur l’image maˆıtre avec une fenˆetre glissante sur l’image esclave
et le calcul d’un score de corr´elation. La disparit´e est ensuite ´evalu´ee `a partir du pixel ayant
engendr´e le meilleur score de corr´elation (technique du winner take all) [37].
La zone de recherche est alors souvent contrainte par la ligne ´epipolaire (ou pseudo–´epipolaire
dans le cas des images satellites). Ce type de m´ethode, tr`es rapide, est cependant particuli`erement
sensible au bruit des images, aux diff´erences radiom´etriques ou encore aux d´efauts
d’orientation r´esiduels des images lorsque la mise en correspondance est r´ealis´ee le long de
l’´epipolaire seulement.
R´ecemment, d’autres techniques ont ´emerg´e, bas´ees sur la mise en correspondance de zones
segment´ees d’une image [38] et l’assignement d’une valeur de disparit´e `a ces zones par m´ethode
d’optimisation. Ces techniques sont cependant sensibles `a toutes les erreurs de segmentation
qui sont alors susceptibles de provoquer des erreurs de reconstruction 3D.
M´ethodes globales ou semi–globales
Les m´ethodes de reconstruction 3D les plus populaires et les plus efficaces sont aujourd’hui
les m´ethodes bas´ees sur la mise en correspondance `a travers une optimisation sur l’image.
Ces m´ethodes fonctionnent par le calcul d’un coˆut de mise en correspondance li´e au score de
corr´elation obtenu entre les fenˆetres de pixels candidates sur chaque image (block matching),
auquel s’ajoute un terme de r´egularisation. Nous d´ecrirons en d´etail cette optimisation dans le
chapitre 3, section 3.1.
Les diff´erences entre les nombreuses m´ethodes bas´ees sur une optimisation sont li´ees `a la mesure
de similarit´e, `a la contrainte de r´egularisation et `a la m´ethode d’optimisation employ´ee.
Comme nous le verrons dans le chapitre 2, section 2.2.2, de nombreuses m´ethodes d’optimisation
ont ´et´e d´evelopp´ees et appliqu´ees au traitement d’images et plus particuli`erement `a la mise en
26CHAPITRE 1. ETUDES BIBLIOGRAPHIQUES ET STRAT ´ EGIE ADOPT ´ EE´
correspondance d’images.
On trouve notamment les m´ethodes globales telles que le belief propagation [39], [33], ou
les graph-cuts [40], [41], l’objectif est alors de retrouver, pour tous les pixels de l’image
simultan´ement, une solution qui minimise une fonctionnelle d’´energie globale sur l’image.
Les m´ethodes dites semi–globales [42] permettent de calculer une solution non plus sur toute
l’image simultan´ement mais sur des s´equences de pixels de l’image trait´ees ind´ependamment
[43]. Ces s´equences peuvent ˆetre form´ees par les lignes [34] de l’image ou bien par les lignes,
colonnes et toutes les directions interm´ediaires de l’image, selon la m´ethode de Hirschmuller [ ¨ 31]
ou Pierrot-Deseilligny [32] ou encore par un graphe s´electionn´e dans l’image comme le propose
Veksler [44]. Les r´esultats obtenus sur chaque s´equence de l’image sont ensuite fusionn´es afin
d’obtenir la solution semi–globale.
Nous verrons dans la section 2.2.3 que la m´ethode de reconstruction que nous avons s´electionn´ee
est bas´ee sur ce type d’optimisation semi–globale et r´esolue par programmation dynamique `a
l’image des m´ethodes propos´ees par Hirschmuller et Pierrot-Deseilligny [ ¨ 31], [32].
1.2.2 Caract´eristiques des corr´elateurs
Quelle que soit la m´ethode d’optimisation choisie, la mesure de similarit´e employ´ee pour calculer
la correspondance entre les pixels ou entre les fenˆetres de pixels de chaque image (matching
cost), est un point important pour s´electionner les pixels homologues.
Une ´etude des diff´erentes mesures de la litt´erature a ´et´e r´ealis´ee par Scharstein et Szeliski [28],
puis Hirschmuller [ ¨ 45].
Les mesures les plus utilis´ees sont :
– la somme des diff´erences radiom´etriques au carr´e (Sum of Absolute Differences ou SAD),
– la somme des diff´erences radiom´etriques absolues (Sum of Squared Differences ou SSD),
– le normalized cross correlation coefficient (ou NCC).
De nombreuses autres mesures de similarit´e sont propos´ees dans la litt´erature. Birchfield
[46] propose une mesure de ressemblance robuste `a l’´echantillonnage pixellique des images : au
lieu de comparer deux fenˆetres de pixels d´ecal´ees par un nombre entier de pixels, il compare
chaque pixel de l’image maˆıtre avec une interpolation lin´eaire d’une fenˆetre de pixels sur l’autre
271.2. METHODES DE RESTITUTION 3D : ´ ETAT DE L’ART ´
image.
Afin d’ˆetre le plus robuste possible aux diff´erences radiom´etriques provoqu´ees par la variation
d’angle de prise de vue, des m´ethodes dites ”non-param´etriques” sont aussi tr`es utilis´ees. Elles
consistent `a filtrer les donn´ees avant la corr´elation afin de r´eduire l’impact de ces diff´erences
[37]. Le filtrage de rank, par exemple, recherche dans une fenˆetre centr´ee sur un pixel, le nombre
de pixels dont la valeur est en dessous de celle du pixel consid´er´e puis remplace la valeur du
pixel central par cette valeur. La correlation (r´ealis´ee avec la mesure SAD) va alors d´ependre de
l’agencement des valeurs et non plus de l’intensit´e. Cependant, ce filtrage engendre une perte
d’information spatiale qui r´eduit le pouvoir discriminant de la m´ethode [29].
Une variation `a ce filtrage, nomm´e le filtre census, pr´eserve la distribution spatiale de la fenˆetre
en encodant le r´esultat du filtre de rank pour chaque pixel dans une chaˆıne de bytes [29].
D’autres filtrages de la fenˆetre de mise en correspondance sont utilis´es tels que le Laplacian
of Gaussian ou le filtrage moyen [45]. Tous ces filtres tentent d’am´eliorer la robustesse aux
conditions d’acquisition et aux erreurs de corr´elation des images car ils diminuent la sensibilit´e
aux outliers des images. Ils sont majoritairement suivis d’une corr´elation par SAD.
Hirschmuller [ ¨ 31] propose une mesure de similarit´e bas´ee sur la notion d’information mutuelle,
r´eput´ee moins sensible au recalage et aux conditions d’illumination des images. L’information
mutuelle entre deux fenˆetres de pixels est calcul´ee en additionnant l’entropie des histogrammes
de chaque image puis en soustrayant l’entropie de l’histogramme joint.
Hirschmuller et Szeliski [ ¨ 45] ont compar´e diff´erents coˆuts de corr´elation et leur efficacit´e pour
la mise en correspondance dense des images. Ils montrent d’abord que la performance d’une
fonction de coˆut d´epend avant tout de la m´ethode d’optimisation employ´ee indiquant que la
fonction de coˆut a finalement un impact mod´er´e sur le r´esultat final.
Cependant, ils observent que le filtrage de rank et l’information mutuelle semblent plus efficaces
au niveau des discontinuit´es car ils permettent notamment une meilleure robustesse `a l’effet
d’adh´erence qui conduit g´en´eralement `a la dilatation des objets de la sc`ene. Ce probl`eme,
inh´erent aux m´ethodes de block matching, apparaˆıt lorsqu’il y a un saut brutal de disparit´e dans
l’une des images qui ne peut ˆetre parfaitement localis´e `a l’int´erieur de la fenˆetre de corr´elation.
Finalement, bien que plus performants, le filtre de rank ou l’information mutuelle n´ecessitent
un temps de calcul 1,5 `a 5 fois plus important que le temps requis pour une mesure de type
SAD. Cette derni`ere est la mesure impl´ement´ee dans l’outil de mise en correspondance que
28CHAPITRE 1. ETUDES BIBLIOGRAPHIQUES ET STRAT ´ EGIE ADOPT ´ EE´
nous utilisons.
1.2.3 Les strat´egies de mise en correspondance
L’approche multi–r´esolution
Aujourd’hui, la plupart des auteurs utilisent une approche coarse to fine ou multi–´echelle
pour la g´en´eration des MNS. Cette m´ethode est bas´ee sur la corr´elation r´ealis´ee sur les images
r´e–´echantillonn´ees de l’´echelle la plus grande `a la plus petite. Le r´esultat obtenu pour une
certaine ´echelle sert alors d’initialisation pour la corr´elation `a ´echelle suivante. Le grand
avantage de cette technique est un important gain de temps [31], [32].
Cependant, Szintsev [40] montre que de tels algorithmes ont tendance `a flouter les bords de
bˆatiments car lors de l’agr´egation des pixels d’une fenˆetre de corr´elation, des pixels appartenant
`a deux surfaces diff´erentes sont m´elang´es aux ´echelles les plus grandes et les discontinuit´es
sont plus difficilement retrouv´ees. Des erreurs peuvent alors se propager `a toute la pyramide
d’images.
Certains auteurs proposent des fenˆetres de corr´elation adaptatives au niveau des zones de fortes
discontinuit´es [47]. Sizintsev [40] et Pierrot-Deseilligny [32] proposent l’´equivalent d’un filtrage
morphologique `a chaque niveau de la pyramide d’images en utilisant la fenˆetre de corr´elation
comme ´el´ement structurant afin de simuler une fenˆetre adaptative pouvant se d´eplacer autour de
la discontinuit´e qui a ´et´e calcul´ee au niveau sup´erieur de la pyramide, augmentant la pr´ecision
au niveau de ces zones de discontinuit´es. Cet algorithme est d´ecrit par P´enard et al.[48] et est
impl´ement´e dans l’outil de mise en correspondance que nous avons s´electionn´e.
La prise en compte des occlusions
L’un des points les plus sensibles de la mise en correspondance r´eside dans la pr´esence des
zones d’occlusion sur les images st´er´eoscopiques. Elles correspondent `a des zones observ´ees
sur une des deux images seulement et pour lesquelles il est impossible de retrouver les pixels
homologues (ces zones sont souvent appel´ees demi–occlusion ou half–occlusion dans la litt´erature
car l’occlusion n’est pr´esente que sur une des deux images). Ces zones se situent aux abords
291.2. METHODES DE RESTITUTION 3D : ´ ETAT DE L’ART ´
des bˆatiments et ont une taille variable en fonction de l’angle d’incidence de l’acquisition de
l’image. Or, pour la st´er´eoscopie, les angles d’incidence peuvent ˆetre tr`es importants (jusqu’`a
30˚pour les images WorldView) cr´eant des zones d’occlusion de taille importante dans l’image.
Ces derni`eres ann´ees, de nombreux auteurs se sont int´eress´es `a ce sujet. Brown [29] d´efinit
trois classes d’algorithmes prenant en compte les occlusions : ceux qui d´etectent les occlusions
(g´en´eralement apr`es le calcul de la disparit´e), ceux qui sont plus robustes aux zones d’occlusion
grˆace aux fonctions de coˆut impl´ement´ees et enfin ceux qui mod´elisent les zones d’occlusion lors
de la mise en correspondance.
Les m´ethodes les plus simples pour la d´etection des zones d’occlusion sont bas´ees sur la
d´etection des discontinuit´es dans l’image. Fua [49] et Qingxiong [33] calculent deux cartes de
disparit´e en inversant les rˆoles maˆıtre et esclave des images `a chaque fois. Les disparit´es dont
les valeurs sont trop ´eloign´ees entre elles pour le mˆeme point sont alors consid´er´ees comme des
occlusions. Cette m´ethode dite de back matching est aujourd’hui impl´ement´ee dans de nombreux
algorithmes [29]. Elle est cependant longue en temps de calcul et peut g´en´erer de tr`es
nombreuses zones dites d’occlusion qui sont en r´ealit´e dues `a des diff´erences d’illumination, des
zones homog`enes ou plus g´en´eralement des zones de mauvaise corr´elation sur l’une des deux
cartes de disparit´e.
Egnal [50] compare cinq approches de d´etection des zones d’occlusion bas´ees sur :
– l’analyse de l’histogramme des disparit´es dans une fenˆetre de disparit´e,
– les variations du coefficient de corr´elation,
– le double calcul de la disparit´e `a partir de chacune des images,
– l’analyse de la contrainte d’ordre des disparit´es (pas forc´ement respect´ee lors d’une occlusion),
– les discontinuit´es de la disparit´e.
Ce dernier algorithme, ainsi que l’algorithme de double calcul de disparit´e apparaissent comme
les plus prometteurs. Cependant, leur efficacit´e semble d´ependre du paysage en pr´esence (la
position de l’occlusion, la pr´esence d’objets fins, etc...). De plus, il n’y a pas eu d’´etude concernant
la performance de ces algorithmes en fonction de la m´ethode d’optimisation appliqu´ee.
Les m´ethodes r´eduisant la sensibilit´e aux zones d’occlusion correspondent souvent `a
30CHAPITRE 1. ETUDES BIBLIOGRAPHIQUES ET STRAT ´ EGIE ADOPT ´ EE´
l’adaptation de la mesure de similarit´e en fonction de ce probl`eme. Chambon [51] utilise deux
mesures combin´ees : le zero mean normalized cross correlation coefficient et le smooth median
absolute deviation, afin d’am´eliorer la robustesse envers ces zones. Les filtrages de rank et census
propos´es par Zabih [37] permettent aussi une certaine robustesse aux outliers et donc souvent
aux erreurs parfois ponctuelles g´en´er´ees par les zones d’occlusion (lorsque l’angle d’incidence
reste faible).
Enfin, d’autres m´ethodes passent par l’utilisation de fenˆetres adaptatives en fonction du degr´e
de confiance de la corr´elation, le but est d’optimiser les r´esultats de la corr´elation pr`es des zones
d’occlusion [29].
Les m´ethodes mod´elisant les zones d’occlusion, c’est–`a–dire permettant leur localisation
en fonction du voisinage, int`egrent les zones d’occlusion directement dans la recherche de la
disparit´e en cr´eant des fonctions de coˆut sp´ecifiques `a ces zones. Belhumeur [52] a impl´ement´e
un mod`ele complexe de fonction de coˆut incluant des termes pour les surfaces lisses, les limites
d’objets et les pentes. Bobick et Intille [34] associent un coˆut avec les zones d’occlusion qu’ils
r´eduisent ou augmentent en fonction de l’orientation des contours de bˆatiments et donc de celle
de la zone d’occlusion.
L’´etude comparative de Egnal [50] ne consid`ere que des m´ethodes de d´etection des zones d’occlusion.
A notre connaissance, aucune ´etude ne permet de comparer les diff´er ` entes techniques
cit´ees pour la prise en compte de ces zones (d´etection - sensibilit´e - mod´elisation). Cependant,
les m´ethodes les plus efficaces, rapides et faciles `a impl´ementer sont vraisemblablement les m´ethodes
de d´etection des occlusions, mˆeme si elles n´ecessitent g´en´eralement un double calcul de
la disparit´e ou un post–traitement des cartes de disparit´e g´en´er´ees.
Les m´ethodes r´eduisant la sensibilit´e aux occlusions montrent certaines performances mais ne
permettent pas la localisation des occlusions et peuvent donc engendrer des erreurs dans le MNS,
erreurs qui se propagent g´en´eralement ensuite dans la d´etection des changements de la sc`ene.
Au contraire, les m´ethodes de mod´elisation s’av`erent tr`es performantes pour la localisation mais
elles sont particuli`erement difficiles `a impl´ementer.
Dans la chaˆıne de traitements d´evelopp´ee, nous avons choisi une m´ethode de d´etection des zones
d’occlusion appliqu´ee apr`es le calcul des cartes d’´el´evation par mise en correspondance. Cet
311.2. METHODES DE RESTITUTION 3D : ´ ETAT DE L’ART ´
algorithme, bas´e sur des contraintes g´eom´etriques au niveau des discontinuit´es de l’image sera
d´ecrit dans le chapitre 3, section 3.2.
Les g´eom´etries de mise en correspondance
La g´eom´etrie de mise en correspondance correspond `a la technique choisie pour la recherche
des pixels homologues entre les images st´er´eoscopiques. Selon le nombre d’images disponibles et
leur pr´ecision d’orientation, plusieurs g´eom´etries sont possibles.
Classiquement, cette recherche est bas´ee sur la g´eom´etrie ´epipolaire (ou pseudo–´epipolaire dans
le cas des images satellites) comme repr´esent´e sur la figure 1.1(a). La recherche d’un pixel de
l’image maˆıtre est effectu´ee le long de la ligne ´epipolaire correspondante sur l’image esclave.
Une recherche bi–dimensionnelle (transversale `a l’´epipolaire) permet d’ˆetre plus robuste aux
erreurs r´esiduelles dans les mod`eles g´eom´etriques des images.
Cette technique, encore tr`es r´epandue, n´ecessite cependant un r´e–´echantillonnage ´epipolaire des
images.
La seconde g´eom´etrie, tr`es classique aujourd’hui, est la g´eom´etrie image (ou faisceaux),
illustr´ee en figure 1.1(b). Le principe est la recherche du pixel homologue d’une image maˆıtre
sur l’image esclave en localisant celui–ci grˆace aux mod`eles g´eom´etriques des images (affin´es
pr´ealablement) et pour chaque altitude d´efinie dans un rep`ere terrain [36], [32]. Une fois le pixel
localis´e sur l’image esclave, il est aussi possible d’effectuer la recherche selon une seconde dimension,
dans l’espace image afin d’ˆetre, l`a encore, plus robuste aux erreurs g´eom´etriques des images.
Enfin, la g´eom´etrie dite terrain, repr´esent´ee en figure 1.1(c), permet de retrouver, pour
chaque altitude z d’un point d´efini dans un rep`ere terrain, les pixels de chaque image qui
correspondent `a ce point terrain grˆace aux mod`eles g´eom´etriques des images. Un score de
corr´elation est alors calcul´e entre les fenˆetres de pixels d´efinies autour des pixels s´electionn´es.
L’altitude finale choisie est alors celle qui maximise le score de corr´elation entre les fenˆetres de
pixels s´electionn´ees.
Cette technique permet le calcul direct de la carte de profondeur sur une grille terrain r´eguli`ere,
quel que soit le nombre d’images utilis´e. De plus, toutes les images sont consid´er´ees ensemble,
sans notion de maˆıtre et esclave, permettant un processus sym´etrique. Si cette technique se
32CHAPITRE 1. ETUDES BIBLIOGRAPHIQUES ET STRAT ´ EGIE ADOPT ´ EE´
montre peu robuste aux erreurs g´eom´etriques des images ou aux occlusions lorsque seulement
deux images sont utilis´ees, elle s’av`ere tr`es avantageuse lorsque le nombre d’images augmente
car elle est alors plus pr´ecise (notamment pour la prise en compte des zones d’occlusion) et plus
rapide qu’une mise en correspondance d’images deux `a deux.
Ces diff´erentes g´eom´etries de mise en correspondance sont d´ecrites en d´etail, avec leurs
avantages et inconv´enients, dans l’article de P´enard et al [48]. Les auteurs montrent notamment
que la g´eom´etrie image pr´esente g´en´eralement de meilleurs r´esultats que la g´eom´etrie terrain,
c’est pourquoi cette derni`ere a ´et´e s´electionn´ee pour la mise en correspondance dans notre chaˆıne
de traitements.
1.2.4 Les outils de restitution 3D existants
Aujourd’hui, de nombreux outils de reconstruction 3D existent sous forme de packages
commerciaux ou open–source. On notera, parmi les packages commerciaux les plus populaires,
Socet–set de BAE Systems, Erdas Imagine de Intergraph, Sat–PP de 4D Ixplorer, OrthoEngine
de PCI Geomatics, Smart3DCapture de Acute3D ou encore Photo Modeler. Les performances
de ces outils sont g´en´eralement bonnes mais le param´etrage peut ˆetre difficile surtout lorsque les
codes sources ne sont pas accessibles, ce qui les rend peu exploitables dans un cadre de recherche.
D’autre outils existent tels que PMVS, de Furukawa et Ponce [53], OpenCV library
(contenant les librairies pour la mise en correspondance selon l’algorithme de Hirschmuller ¨
[31]) ou encore MicMac d´evelopp´e par l’IGN [32]. Ces outils sont libres de t´el´echargement mais
parmi eux, seul MicMac est un outil totalement open–source.
Le t´el´echargement des codes sources de MicMac permet en effet le contrˆole de tous les
param`etres et la maˆıtrise interne compl`ete du code. Ses diff´erentes options, qui autorisent
la mise en correspondance selon toutes les g´eom´etries cit´ees pr´ec´edemment, l’utilisation de
plusieurs m´ethodes d’optimisation et d’interpolation et l’option multi–´echelle en font un outil
particuli`erement adaptable `a tous les contextes (g´eologique ou urbain, en imagerie spatiale ou
terrestre).
C’est pourquoi l’outil MicMac est donc celui que nous avons s´electionn´e pour la mise en
correspondance des images st´er´eoscopiques.
331.2. METHODES DE RESTITUTION 3D : ´ ETAT DE L’ART ´
(a) Sch´ema de principe de la g´eom´etrie ´epipolaire
(b) Sch´ema de principe de la g´eom´etrie image
(c) Sch´ema de principe de la g´eom´etrie terrain
Figure 1.1 – Sch´ema de principe des diff´erentes g´eom´etries de mise en correspondance.
34CHAPITRE 1. ETUDES BIBLIOGRAPHIQUES ET STRAT ´ EGIE ADOPT ´ EE´
1.3 Description g´en´erale de la chaˆıne de traitements d´evelopp´ee
L’objectif fix´e lors du travail de th`ese est de d´evelopper une m´ethode totalement automatique
pour la d´etection des changements d’´el´evation `a partir d’images satellites st´er´eoscopiques.
Nous nous pla¸cons dans un contexte urbain, le but ´etant de retrouver tous les changements du
bˆati (construction, destruction ou modifications d’infrastructure). Les contraintes du syst`eme
sont alors les suivantes :
– le syst`eme doit ˆetre enti`erement automatique de l’acquisition des images `a la g´en´eration
des cartes de changements,
– la m´ethode doit ˆetre applicable quels que soient le ou les capteurs tr`es haute r´esolution
utilis´es, qu’ils soient satellites ou a´eriens,
– les param`etres doivent ˆetre suffisamment g´en´eriques afin que la m´ethode soit applicable
dans des contextes vari´es (milieu urbain, montagneux, d´esertique).
Afin de r´epondre au mieux `a ces contraintes, une chaˆıne compl`ete et innovante de traitements `a
´et´e d´evelopp´ee. Cette chaˆıne, illustr´ee en figure 1.2 comprend trois ´etapes majeures : la premi`ere
´etape (entour´ee en trait plein sur la figure) correspond `a la spatio–triangulation ou recalage
simultan´e de toutes les images disponibles, sans consid´eration de leur date d’acquisition. Cette
´etape, d´ecrite dans le chapitre 2, section 2.1, sera r´ealis´ee `a l’aide d’outils existants permettant
la recherche de points de liaison entre les images et l’affinage des mod`eles g´eom´etriques des
images.
La seconde ´etape (entour´ee en pointill´es fins) permet la g´en´eration de MNS pr´ecis pour chaque
date. Cette ´etape, d´ecrite dans le chapitre 3 consiste d’abord en une mise en correspondance
des images `a l’int´erieur de chaque couple, chaque image ´etant successivement maˆıtre et
esclave. Cette mise en correspondance, r´ealis´ee `a l’aide de l’outil MicMac et par une m´ethode
d’optimisation (voir section 3.1), est suivie par le basculement des MNS g´en´er´es sur une grille
r´eguli`ere commune (voir section 3.2) puis par la fusion de tous les MNS obtenus avec un
algorithme de labellisation par optimisation (voir section 3.3).
Ces deux derni`eres ´etapes sont issues de d´eveloppements r´ealis´es au cours de la th`ese et
351.3. DESCRIPTION GEN´ ERALE DE LA CHA ´ ˆINE DE TRAITEMENTS DEVELOPP ´ EE´
Figure 1.2 – Illustration des diff´erentes ´etapes de la chaˆıne globale de traitements.
permettent de prendre en compte toutes les contraintes et sources d’erreurs inh´erentes aux
images satellites afin de g´en´erer des MNS pr´ecis en vue de la d´etection des changements
d’´el´evation.
36CHAPITRE 1. ETUDES BIBLIOGRAPHIQUES ET STRAT ´ EGIE ADOPT ´ EE´
Ainsi, la derni`ere ´etape (entour´ee en pointill´es larges) a pour objectif l’analyse de la
diff´erence des MNS afin de mettre en ´evidence les changements d’´el´evation les plus pertinents
de la sc`ene selon une m´ethode que nous avons d´evelopp´ee. Cette m´ethode, d´ecrite dans le
chapitre 4, est bas´ee sur la classification des pixels du MNS diff´erentiel `a travers un algorithme
de labellisation par optimisation.
Nous noterons finalement que trois ´etapes de calcul r´ealis´ees dans cette chaˆıne de traitements
sont bas´ees sur une labellisation des pixels de l’image r´esolue par une m´ethode d’optimisation.
Un algorithme ”noyau” a ainsi ´et´e d´evelopp´e au cours de th`ese et a ´et´e adapt´e pour la r´esolution
de chacun de ces probl`emes. Cet algorithme est d´ecrit dans le chapitre 2, section 2.2.3.
1.4 Capteurs utilis´es et donn´ees d’entr´ee
Au cours de ce travail, de nombreux jeux de donn´ees ont ´et´e utilis´es afin d’exp´erimenter les
m´ethodes sur diff´erentes sc`enes et d’en analyser les r´esultats. Seules des images panchromatiques
provenant de capteurs tr`es haute r´esolution spatiale ont ´et´e employ´es : Ikonos, dont les images
obtenues ´etaient r´e–´echantillonn´ees `a 1 m de r´esolution spatiale, WorldView-1 et 2, produisant
des images `a environ 60 cm de r´esolution spatiale et Pl´eiades, produisant des images `a environ
70 cm de r´esolution spatiale. Le tableau 1.1 r´esume toutes les donn´ees utilis´ees.
Bien que les images multispectrales puissent apporter des informations permettant de filtrer
les cartes de d´etection de changements obtenues `a la mani`ere de Tian [8], nous avons choisi de
d´evelopper notre chaˆıne de traitements `a partir des images panchromatiques uniquement.
Tous ces capteurs sont de type push–broom : barrettes lin´eaires de d´etecteurs permettant
l’acquisition de chaque ligne de l’image successivement grˆace au d´efilement du paysage dans le
plan focal.
Quatre zones g´eographiques ont ´et´e ´etudi´ees pour les diff´erentes ´etapes de calcul de la m´ethode,
en fonction des donn´ees disponibles.
Pour l’illustration de la chaˆıne compl`ete, i.e. de la g´en´eration des MNS `a la d´etection de changements,
la ville de Phoenix, en Arizona (Etats-Unis) a ´et´e analys´ee entre les dates de 2008 et 2011. ´
Cette zone permet d’´evaluer les performances de la m´ethode lors de l’analyse de l’´evolution ty-
371.4. CAPTEURS UTILISES ET DONN ´ EES D’ENTR ´ EE´
Capteur Date R´esolution Angle Angle b/h
d’acquisition spatiale (m) d’azimut (◦
) d’´el´evation (◦
)
Donn´ees acquise sur la ville de Phoenix (Etats-Unis)
WorldView-1 2008-10-06 0,59 51,5 64,1
0,67
WorldView-1 2008-10-06 0,56 141,6 67,6
WorldView-1 2011-04-28 0,62 156,2 59,6
0,70
WorldView-1 2011-04-28 0,56 65,0 67,6
Donn´ees acquise sur la ville de Toulouse (France)
Pl´eiades 2012-05-07 0,70 115,5 64,7 0,54
Pl´eiades 2012-05-07 0,70 88,9 64,6 0,55
Pl´eiades 2012-05-07 0,70 102,2 65,2 0,54
Donn´ees acquise sur la ville de Chistchurch (Nouvelle Z´elande)
WorldView-1 2009-09-16 0,66 85,7 57,2
0,66
WorldView-1 2009-09-16 0,58 66,3 23,7
WorldView-2 2011-08-30 0,60 199,5 57,3
0,66
WorldView-2 2011-08-30 0,47 289,0 87,2
Donn´ees acquise sur la ville de Sendai (Japon)
Ikonos 2010-12-11 1 (reech.) 64,9 64,65
0,79
Ikonos 2010-12-11 1 (reech.) 149,15 60,66
Ikonos 2011-08-13 1 (reech.) 314,4 61,14
0,72
Ikonos 2011-08-13 1 (reech.) 250,96 56,66
Table 1.1 – M´etadonn´ees des images utilis´ees lors des diff´erentes ´etudes.
pique d’un milieu urbain. Dans ce mˆeme contexte, la ville de Christchurch, en Nouvelle Z´elande
a aussi ´et´e ´etudi´ee. L’int´erˆet de cette zone est la pr´esence de deux acquisitions LiDAR effectu´ees
au mˆeme endroit et `a des dates proches des acquisitions satellitaires. Cette zone permet ainsi
une quantification pr´ecise des performances des algorithmes mis en place.
Les donn´ees Pl´eiades, acquises sur la ville de Toulouse selon le mode tri–st´er´eoscopique, permettent
d’illustrer l’int´erˆet de l’algorithme de g´en´eration des MNS pour le traitement d’acquisitions
multi–st´er´eoscopiques.
38CHAPITRE 1. ETUDES BIBLIOGRAPHIQUES ET STRAT ´ EGIE ADOPT ´ EE´
La zone de Sendai (Japon), permet enfin de tester de la chaˆıne de traitements sur un cas concret
de catastrophe majeure. En effet, les donn´ees disponibles ont ´et´e acquises avant et apr`es le s´eisme
suivi par le tsunami qui a ravag´e la cˆote de Sendai le 11 mars 2011.
1.5 Conclusion
Ce chapitre pr´esente tout d’abord de nombreuses m´ethodes de d´etection de changements
`a partir d’images satellites ou a´eriennes. Cependant, si les m´ethodes classiques bas´ees sur la
comparaison radiom´etrique des images montrent de bonnes performances, elles ne s’av`erent
pas toujours efficaces du fait des nombreuses fausses alarmes qu’elles g´en`erent et sont souvent
difficilement automatisables car trop d’a priori sur les changements sont n´ecessaires.
Les m´ethodes bas´ees sur l’exploitation de l’information d’´el´evation de la sc`ene paraissent alors
mieux adapt´ees, notamment au contexte urbain. Bien que ces m´ethodes n´ecessitent aussi des
informations a priori ou contextuelles, l’analyse de la diff´erence entre deux cartes d’´el´evation
montre de tr`es bon r´esultats.
Dans cet objectif, de nombreuses m´ethodes de restitution 3D ont ´et´e ´etudi´ees afin de s´electionner
une strat´egie suffisamment robuste pour la mise en correspondance d’images satellites
et la g´en´eration de cartes d’´el´evation. Nous avons vu que de nombreuses techniques permettent
de prendre en compte les erreurs de recalage des images ou bien les zones d’occlusion, ces deux
points ´etant particuli`erement importants dans le cas des images satellites.
La chaˆıne de traitements r´ealis´ee lors de cette th`ese est ainsi bas´ee sur la g´en´eration de MNS
`a travers plusieurs ´etapes de calcul permettant d’am´eliorer leur pr´ecision grˆace `a une technique
de mise en correspondance s´electionn´ee pour ses performances et son adaptabilit´e, suivi par des
post–traitements permettant une meilleur prise en compte des erreurs d’occlusion.
La m´ethode de d´etection des changements d´evelopp´ee est, quant `a elle, une m´ethode innovante
car totalement automatique permettant la d´etection des changements pertinents du bˆati grˆace
`a la seule utilisation de l’information d’´el´evation produite aux dates d’int´erˆet.
391.5. CONCLUSION
40Chapitre 2
Outils et m´ethodes n´ecessaires `a la
chaˆıne de traitements
Ce chapitre pr´esente les outils de calcul, utilis´es en l’´etat ou bien impl´ement´es, n´ecessaires
`a la chaˆıne de traitements d´evelopp´ee.
La premi`ere ´etape de la chaˆıne de traitements consiste en un recalage simultan´e de toutes les
donn´ees disponibles aux dates t1 et t2. Cette ´etape est bas´ee sur des outils existants pour la
recherche de points de liaison entre les images et l’affinage des mod`eles g´eom´etriques des images
par ajustement de faisceaux. Cette ´etape est essentielle pour la g´en´eration des MNS et le calcul
des MNS diff´erentiels, calculs qui n´ecessitent une grande pr´ecision de recalage entre les images.
Apr`es un bref rappel de l’objectif et du principe de la spatio–triangulation des images, nous
verrons quelques r´esultats obtenus apr`es ce calcul et nous discuterons des erreurs r´esiduelles
g´en´er´ees.
Nous verrons ensuite dans ce chapitre l’outil central n´ecessaire aux ´etapes de calcul r´ealis´ees
dans notre chaˆıne de traitements. Cet outil est un algorithme d’optimisation semi-globale et
permettant la r´esolution de probl`emes de labellisation. Nous montrerons tout d’abord comment
cet algorithme a ´et´e s´electionn´e parmi les nombreux algorithmes d’optimisation existants puis
nous d´etaillerons son impl´ementation telle que nous l’avons r´ealis´ee.
412.1. CO–LOCALISATION DES IMAGES : UTILISATION D’UN OUTIL DE
SPATIO–TRIANGULATION
2.1 Co–localisation des images : utilisation d’un outil de spatio–
triangulation
2.1.1 Contexte et objectif
Les capteurs tr`es haute r´esolution tels que les capteurs Pl´eiades, WorldView, Ikonos,
GeoEye ou OrbView sont particuli`erement agiles, facilitant les acquisitions st´er´eoscopiques.
Les images peuvent alors ˆetre prises par vue lat´erale (across track) ou plus commun´ement en
mode avant–arri`ere le long de la trace du satellite (along track), permettant des acquisitions
quasi–simultan´ees. Ces diff´erentes conditions d’acquisition sont le point cl´e de la st´er´eoscopie.
Cependant, les mod`eles g´eom´etriques fournis avec les images et contenant les informations
sur la position du satellite, son orientation et sa direction de vis´ee lors de l’acquisition, ne sont
pas suffisamment pr´ecis. En effet, pour des satellites tr`es haute r´esolution tels que Pl´eiades,
il faudrait atteindre une pr´ecision de restitution des angles de vis´ee au microm`etre pour que
l’orientation du satellite soit connue `a l’´echelle du pixel. Ceci n’est aujourd’hui pas r´ealisable
par les syst`emes de contrˆole [54].
La figure 2.1 pr´esente les angles correspondant aux variations d’attitudes du satellite appel´es
roulis αR, tangage αT et lacet αL.
Ainsi, lorsque les mod`eles g´eom´etriques natifs associ´es aux images sont exploit´es, on observe
que les pixels homologues (ou points de liaison) appartenant `a diff´erentes images (du mˆeme
couple st´er´eoscopique ou non) et repr´esentant un mˆeme point physique ne correspondent pas
aux mˆemes coordonn´ees terrain.
On observe des biais variables selon les satellites et la pr´ecision de leurs mod`eles g´eom´etriques :
DigitalGlobe annonce une pr´ecision de localisation absolue au sol de 15 m pour QuickBird, 9 m
pour Ikonos et 5 m pour WorldView tandis que Pl´eiades est annonc´e `a 12 m de pr´ecision [54].
Or, la mise en correspondance des images n´ecessite une pr´ecision subpixellique (typiquement
inf´erieure `a 0,5 m) de localisation relative des images. En effet, la technique employ´ee, d´etaill´ee
au chapitre 3, est bas´ee sur le parcours des lignes de vis´ee de chacun des pixels. De mˆeme, lors
de l’´etape de d´etection de changements, d´ecrite dans le chapitre 4, le calcul de la diff´erence des
42CHAPITRE 2. OUTILS ET METHODES N ´ ECESSAIRES ´ A LA CHA ` ˆINE DE
TRAITEMENTS
MNS pixel `a pixel est particuli`erement sensible au recalage des MNS, lui–mˆeme directement li´e
au recalage des images d’origine.
Afin de s’assurer de la pr´ecision de co–localisation des images puis des MNS, nous avons
choisi de proc´eder, avant tout autre traitement, `a une spatio–triangulation [55] (plus connue
sous le nom d’a´ero–triangulation pour les images a´eriennes).
2.1.2 Principe de la spatio–triangulation
Le principe de la spatio–triangulation est de corriger les erreurs des mod`eles g´eom´etriques
des images afin que les lignes de vis´ee provenant des pixels homologues de chacune des images
se croisent au mieux sur les mˆemes coordonn´ees au sol [56]. Cet affinage des mod`eles peut ˆetre
r´ealis´e de fa¸con absolue au sol si des points d’appuis sont disponibles (points rep´er´es dans l’image
et de coordonn´ees terrain connues) ou relative, c’est–`a–dire que les images sont alors seulement
co–localis´ees entre elles.
Le principe de la spatio–triangulation est illustr´e dans les figures 2.2(a) et 2.2(b) qui pr´esentent
l’orientation des images avant et apr`es cette ´etape.
Figure 2.1 – Illustration du syst`eme d’acquisition en barrette push–broom et des angles d’attitude
du satellite.
432.1. CO–LOCALISATION DES IMAGES : UTILISATION D’UN OUTIL DE
SPATIO–TRIANGULATION
(a) Orientation et localisation des images avant spatio–
triangulation.
(b) Orientation et localisation des images apr`es spatio–
triangulation.
Figure 2.2 – Illustration du r´esultat de la spatio–triangulation pour le recalage des images.
Selon les donn´ees fournies avec les images satellites, les mod`eles g´eom´etriques peuvent
correspondre au mod`ele physique des images ou aux fractions rationnelles (RPC).
Le mod`ele physique est un mod`ele explicite, calcul´e en prenant en compte les param`etres de
prise de vue du syst`eme `a chaque instant et d´efini par les ´eph´em´erides du satellite (orbitographie,
attitude et orientation du satellite `a chaque instant).
Les fractions rationnelles permettent de mod´eliser la ligne de vis´ee de chacun des pixels afin
de retrouver les matrices de passage des coordonn´ees images aux coordonn´ees terrain pour
n’importe quelle altitude [56].
En g´eom´etrie image, on d´efinit par mod`ele direct, le mod`ele physique ou analytique, permettant
le calcul des coordonn´ees terrain d’un point `a partir de ses coordonn´ees image (et d’une
altitude). Le mod`ele inverse permet de calculer les coordonn´ees image d’un point `a partir de
ses coordonn´ees terrain.
Ainsi, la spatio–triangulation consiste `a affiner les mod`eles g´eom´etriques des images, et plus
particuli`erement les angles d’attitude : roulis, tangage et lacet, en leur introduisant un mod`ele
44CHAPITRE 2. OUTILS ET METHODES N ´ ECESSAIRES ´ A LA CHA ` ˆINE DE
TRAITEMENTS
d’erreur. L’objectif est de corriger ces mod`eles afin de garantir la crois´ee des faisceaux provenant
d’un jeu de points de liaison ou d’appuis. Cet objectif peut ˆetre atteint si les mod`eles d’erreurs
introduits, sur l’instrument, l’orientation ou l’attitude du satellite, sont en ad´equation avec la
r´ealit´e [55]. Lorsque seuls des points de liaison sont disponibles, des contraintes de localisation
absolue sont pos´ees grˆace `a des a priori afin d’´eviter que le mod`ele ne diverge.
Les points d’appuis ´etant des donn´ees rares voire inexistantes, toutes les images de la chaˆıne
de traitements propos´ee sont recal´ees entre elles de fa¸con relative.
Une premi`ere ´etape, avant l’affinage des mod`eles, consiste `a rechercher des points de liaison
entre les images. Cette ´etape est r´ealis´ee grˆace `a un outil de corr´elation d’images d´evelopp´e au
CEA 1
. Cet outil permet la corr´elation non dense des images deux `a deux afin de d´eterminer les
points homologues les plus fiables (c’est–`a–dire ceux montrant le meilleur score de corr´elation).
Seuls quelques centaines de points, bien r´epartis sur chaque image, sont n´ecessaires pour affiner
les mod`eles.
L’´etape d’ajustement de faisceaux est ensuite effectu´ee `a l’aide du logiciel Euclidium, d´evelopp´e
par le CNES et l’IGN.
Ces outils de corr´elation et d’ajustement de faisceaux, d´ej`a existants et valid´es, fonctionnent de
fa¸con totalement automatique pour tous type de capteurs.
Cependant, il apparaˆıt que mˆeme apr`es l’affinage des mod`eles g´eom´etriques des images, des
erreurs r´esiduelles persistent. Ces erreurs sont g´en´eralement dues `a des variations temporelles
d’orientation du capteur lors de la prise de vue, impossibles `a mod´eliser et `a corriger par la
spatio–triangulation du fait du faible nombre de degr´es de libert´e du mod`ele d’erreur (biais et
d´erive temporelle d’attitude).
Un autre d´efaut, inh´erent aux traitements sol, peut aussi repr´esenter une source d’erreur non
corrigeable par la spatio–triangulation : c’est le d´efaut provenant de la simulation en “capteur
parfait” des images. En effet, l’acquisition des images satellites est r´ealis´ee par segments,
illustr´es en figure 2.1. Lorsque l’image est produite, les segments de chaque ligne sont fusionn´es
afin de simuler un capteur lin´eaire monolitique. Or, des d´efauts de calibration sur les distances
inter–barrettes peuvent subsister et engendrer des erreurs dans les mod`eles g´eom´etriques des
images (RPC ou mod`eles physiques), erreurs qui ne peuvent ˆetre mod´elis´ees et corrig´ees par la
1. Cet outil a ´et´e d´evelopp´e en interne et aucune publication n’y fait r´ef´erence.
452.1. CO–LOCALISATION DES IMAGES : UTILISATION D’UN OUTIL DE
SPATIO–TRIANGULATION
(a) D´efauts r´esiduels d’une image OrbView-3
apr`es spatio–triangulation.
(b) D´efauts r´esiduels d’une image WorldView-1
apr`es spatio–triangulation.
Figure 2.3 – Illustration du r´esultat de la spatio–triangulation pour le recalage des images
(´echelle en pixels).
spatio–triangulation car elle n’autorise pas de degr´es de libert´e sur le plan focal.
Figure 2.4 – Illustration du calcul des r´esidus de la spatio–triangulation.
Dans le but de quantifier ces erreurs, les distances r´esiduelles entre les faisceaux provenant
de points homologues trouv´es entre les deux images d’un couple OrbView-3 et d’un couple
WorldView-1 ont ´et´e calcul´ees (figures 2.3(a) et 2.3(b)).
46CHAPITRE 2. OUTILS ET METHODES N ´ ECESSAIRES ´ A LA CHA ` ˆINE DE
TRAITEMENTS
La figure 2.4 permet d’illustrer le calcul de cette distance pour deux points homologues
M i1 et M i2, appartenant `a deux images diff´erentes I1 et I2. Le recalage des images n’´etant pas
parfait, les faisceaux provenant de ces points ne se croisent pas. La plus petite distance entre
ces faisceaux est repr´esent´ee par la distance entre les points M et M′ dans l’espace terrain.
Projet´ee en g´eom´etrie image, cette distance correspond `a la distance d entre les points M i2
(point homologue `a M i1) et M i′
2
(point retrouv´e par corr´elation ´epipolaire entre les deux
images). Cette distance, calcul´ee apr`es le recalage des images, repr´esente l’erreur r´esiduelle de
la spatio–triangulation.
Cette distance a ´et´e calcul´ee apr`es l’affinage des mod`eles g´eom´etriques d’un couple d’images
OrbView–3 et d’un couple d’images WorldView–1.
Les figures 2.3(a) et 2.3(b) illustrent les r´esultats obtenus pour ces deux capteurs. On observe
sur la figure 2.3(b) des artefacts lin´eaires tr`es marqu´es formant des discontinuit´es dans l’image
(rep´er´es par les fl`eches rouges en haut de la figure 2.3(b)), d’amplitude d’environ 0,7 pixel
pour les images WorldView-1. Ces d´efauts correspondent aux d´efauts capteurs non corrig´es des
images (ils ne sont pas visibles sur la figure 2.3(a)).
Les d´efauts d’attitude sont, quant `a eux, visibles sous formes d’ondulations quasi horizontales
et tr`es marqu´ees sur la figure 2.3(a) et horizontales sur la figure 2.3(b). Ces d´efauts sont rep´er´es
par les fl`eches noires `a gauche de chacune des figures.
Ces r´esidus, d’ordre pixellique pour les images OrbView-3 mettent en ´evidence des erreurs
d’orientation trop importantes sur ce capteur pour notre ´etude, tandis que les erreurs d’ordre
subpixelliques du capteur WorldView-1 sont acceptables et autorisent la mise en correspondance
des images pour la g´en´eration fiable de MNS.
2.2 Outil pour la r´esolution de probl`emes de labellisation
2.2.1 Trois probl`emes de labellisation
A l’int´erieur de cette chaˆıne de traitements, trois ´etapes d ` e calcul sont bas´ees sur la
r´esolution d’un probl`eme de labellisation (voir section 1.3). C’est–`a–dire qu’`a chacune de ces
472.2. OUTIL POUR LA RESOLUTION DE PROBL ´ EMES DE LABELLISATION `
´etapes de calcul, la valeur de chaque pixel de l’image de sortie r´esulte d’un choix r´ealis´e entre
plusieurs valeurs ou attributs possibles selon des crit`eres calcul´es appel´es attaches aux donn´ees.
Dans une premi`ere ´etape de calcul, lors de la mise en correspondance des images, le pixel
homologue `a un pixel de l’image maˆıtre est choisi parmi plusieurs candidats en fonction d’un
crit`ere de similarit´e. La s´election du pixel homologue permet alors de d´eduire l’´el´evation du
point terrain repr´esent´e par ces pixels homologues (voir chapitre 3, section 3.1).
Dans un second calcul, qui correspond `a la fusion des MNS, les pixels du MNS final r´esultent
du choix entre les diff´erentes valeurs d’´el´evation propos´ees par chacun des pixels des MNS `a
fusionner. Ce choix est r´ealis´e en fonction d’un crit`ere de confiance calcul´e pour chacun des
pixels des diff´erents MNS (voir chapitre 3, section 3.3).
Enfin, lors de la d´etection des changements, c’est en fonction de la valeur du pixel dans la
diff´erence de MNS qu’un label de changement (positif, n´egatif ou non changement) est attribu´e
au pixel de la carte finale des changements (voir chapitre 4).
Ces probl´ematiques, bien que tr`es diff´erentes en termes de labels et d’objectifs, ont pour
caract´eristique commune que toutes les solutions ne sont pas ´equiprobables. En effet, `a crit`eres
d’attache aux donn´ees identiques, on privil´egie les solutions r´eguli`eres. Cette r´egularit´e se
traduit par le fait que, dans une image, la valeur d’un pixel n’est pas ind´ependante des valeurs
des pixels qui l’entourent, de mˆeme, le label affect´e `a un pixel d´epend des labels affect´es aux
pixels voisins. L’ensemble des labels peut ainsi ˆetre consid´er´e comme un champ de Markov
al´eatoire [28, 42, 57, 58] et la probabilit´e d’affectation d’un label `a un pixel d´epend alors de la
probabilit´e conjointe de l’appartenance du label `a ce pixel et aux pixels de son voisinage. Le
probl`eme de labellisation n’est alors plus consid´er´e comme un probl`eme local mais peut ˆetre
r´esolu de fa¸con globale sur l’image.
Toutes les solutions de labellisation possibles sur l’image ne sont pas ´equiprobables. Cependant,
il existe une solution optimale qui correspond a priori `a une solution r´eguli`ere sur l’image qui
limite les variations de hautes fr´equences, correspondant g´en´eralement `a du bruit.
Cette formulation se traduit alors par l’introduction d’une contrainte de r´egularisation spatiale
dans le calcul de labellisation des pixels.
Chacune des labellisations rencontr´ees dans la chaˆıne de traitements est alors r´esolue `a
48CHAPITRE 2. OUTILS ET METHODES N ´ ECESSAIRES ´ A LA CHA ` ˆINE DE
TRAITEMENTS
partir d’une mˆeme m´ethode bas´ee sur la minimisation d’une fonctionnelle d’´energie globale E
sur l’ensemble des pixels x d’une image X et permettant d’assigner un label n
j appartenant au
jeu de labels N = {n
1
, n2
, ..., nz}, (z ´etant le nombre total de labels) `a chacun des pixels x ∈ X
selon la fonction suivante :
E(n) = X
x∈X
Cdata(n(x)) + X
(x′)∈V (x)
Creg(n(x), n(x
′
)). (2.1)
Cdata(n(x)) repr´esente le coˆut pour l’affectation du label n au pixel x en fonction d’un crit`ere
de probabilit´e d’appartenance `a ce label.
Creg(n(x), n(x
′
)) correspond au coˆut pour l’affectation d’un des labels n `a deux pixels voisins x
et x
′
. Ce terme traduit la contrainte de r´egularisation.
2.2.2 Les m´ethodes d’optimisation existantes
De nombreuses approches existent pour r´esoudre la minimisation d’une fonctionnelle
d’´energie sur une image. Ce sujet a notamment ´et´e largement ´etudi´e pour r´esoudre le probl`eme
de la mise en correspondance d’images [28], comme nous l’avons vu dans le chapitre 1, section
1.2, mais cette approche est aussi tr`es utilis´ee en restauration d’image ou en segmentation
[12, 58].
Nous rappelons que les algorithmes de minimisation d’´energie peuvent ˆetre divis´es en deux
cat´egories : les algorithmes permettant de retrouver une solution exacte ou approch´ee en
consid´erant toute l’image en une seule fois, et les algorithmes qui partitionnent l’image en
une s´erie de probl`emes plus simples `a r´esoudre (g´en´eralement en consid´erant l’image par
s´equences de pixels en une dimension) et qui permettent de retrouver des solutions minimales
localement qui sont ensuite fusionn´ees afin d’obtenir le r´esultat global [43]. Ce sont les m´ethodes
semi–globales [42].
Les m´ethodes globales
Les m´ethodes les plus populaires d’optimisation globale sont celles bas´ees sur les graph-cuts
[59], [58] et [41], ou encore le belief propagation [43, 60]. Ces m´ethodes sont parmi les plus
efficaces comme l’a d´emontr´e Scharstein [28], `a partir du benchmark Middelbury [61], puis
492.2. OUTIL POUR LA RESOLUTION DE PROBL ´ EMES DE LABELLISATION `
(a) Illustration de la construction des graph–cuts.
Figure provenant de l’article de Roy et Cox [59]
(b) Illustration du graphe 3D et de la surface
de disparit´e.
Figure 2.5 – Illustration de la m´ethode des graph–cuts appliqu´ee au calcul de la disparit´e.
Schindler [42] sur des probl`emes de classification d’images. D’autres m´ethodes, comme les
recuits–simul´es (simulated annealing), d´evelopp´es par Geman [57], sont souvent jug´ees moins
efficaces et trop lourdes en temps de calcul, notamment parce que les labels de chacun des
pixels sont recalcul´es `a chaque it´eration afin de retrouver un minimum global [58].
Formulation du probl`eme de mise en correspondance `a travers la th´eorie du
Maximum-flow. L’id´ee des graph–cuts est de ramener le probl`eme de minimisation d’´energie
`a un probl`eme de coupe minimale dans un graphe, ce qui, d’apr`es le th´eor`eme de Ford-Fulkerson
[62], revient `a trouver le flot maximal (ou MaxFlow) `a travers un graphe, probl`eme pour lequel
il existe des algorithmes de calcul exacts et efficaces.
Dans le cas d’un probl`eme de mise en correspondance, Roy et Cox [59] ont d´evelopp´e un
algorithme permettant de retrouver globalement et en une seule fois la surface de disparit´e (repr´esent´ee
en rouge sur la figure 2.5) pour un couple d’images st´er´eoscopiques.
Avec cet algorithme d’optimisation, et afin de satisfaire une contrainte de r´egularisation spatiale
dans toutes les directions, la mise en correspondance ne peut pas se faire selon une seule
dimension `a travers la mise en correspondance classique des lignes ´epipolaires.
50CHAPITRE 2. OUTILS ET METHODES N ´ ECESSAIRES ´ A LA CHA ` ˆINE DE
TRAITEMENTS
L’id´ee est alors de construire un graphe 3D (x, y, z), x et y repr´esentent la dimension image
(ligne,colonne) et z repr´esente les hypoth`eses d’´el´evation donn´ees par la recherche sur les parallaxes.
A ce graphe sont ajout´es une source ` S et un puits T permettant de former le graphe
G = (V, E) avec V l’ensemble des sommets du graphe, c’est `a dire la grille 3D form´ee entre S
et T, et E l’ensemble des arˆetes qui connectent tous les sommets de la grille (repr´esent´ee sur la
figure 2.5(b)).
A chaque arˆete est affect´e un coˆut (ou une capacit´e de flot) :
– les arrˆetes verticales (nomm´ees D sur la figure 2.5(b)) sont les arˆetes dites de disparit´e et
correspondent directement au coˆut de mise en correspondance : un coefficient de corr´elation
´elev´e entre deux pixels va permettre la saturation de l’arˆete correspondante par le flot
maximal et inversement,
– les arˆetes horizontales (nomm´ees O sur la figure 2.5(b)) sont les arˆetes d’occlusion (O) qui
contrˆolent la r´egularisation et permettent de limiter les variations de la surface de disparit´e
selon le poids de la r´egularisation,
– les arˆetes connect´ees `a la source ou au puits sont, quant `a elles, de capacit´e infinie.
Toute solution Z = f(x) repr´esente une coupe minimale qui divise le graphe selon deux ensembles
:
– Z > f(x), c’est l’ensemble appel´e background dans la figure 2.5(a),
– Z < f(x), c’est l’ensemble appel´e foreground dans la figure 2.5(a).
On montre que le coˆut de la coupe minimale d´efinie pr´ec´edemment est calcul´e exactement par
la formule pr´ec´edente (´equation 2.1).
Ce probl`eme peut donc ˆetre formul´e comme un probl`eme de flot maximum pour lequel Cox et
Roy proposent une solution optimis´ee [59].
Kolmogorov [63] a cependant montr´e que l’application des graph–cuts est soumise `a une
condition dite de “sous–modularit´e” de la fonction d’´energie de r´egularisation. En effet, les poids
des arˆetes du graphe doivent ˆetre forc´ement positifs de la source vers le puits afin que l’algorithme
converge, cette condition se traduit par l’´equation suivante :
Creg(0, 0) + Creg(1, 1) ≤ Creg(0, 1) + Creg(1, 0). (2.2)
Avec Creg le coˆut d’affectation de deux labels binaires (0 ou 1) `a deux pixels voisins. Si l’´energie
512.2. OUTIL POUR LA RESOLUTION DE PROBL ´ EMES DE LABELLISATION `
de r´egularisation ne satisfait pas ces contraintes, la solution optimale ne peut ˆetre garantie.
Cette contrainte peut limiter la gamme de fonctions de coˆut possible pour la r´esolution d’un
probl`eme d’optimisation par graph–cuts.
Autres approches d’optimisation globale Un autre algorithme, largement utilis´e pour
l’optimisation globale est le belief propagation [39], [33] ou la version loopy belief propagation
propos´ee par Felzenszwalb [43]. Cette m´ethode fonctionne par passage de “messages” entre le
graphe d´efini par les quatre connexes d’un pixel. Chaque message est un vecteur de dimension
´egale au nombre de labels en jeu et fonction du coˆut minimum obtenu pour chaque label,
consid´erant leurs probabilit´es sur les quatre connexes du pixel. Cependant, Kolmogorov montre
que la convergence de cet algorithme n’est pas toujours assur´ee [64, 65] et la solution trouv´ee
apparaˆıt souvent de plus haute ´energie que les graph–cuts et donc non optimale. De plus, le
temps de calcul n´ecessaire reste particuli`erement long [64], bien que la variante de Felzenszwalb
permette de r´eduire ce temps [43].
Une m´ethode proche du belief propagation a ´et´e r´ecemment introduite, le tree-reweighted message
passing [65]. Cette m´ethode apparaˆıt moins gourmande en ´energie puisque les ”messages” ne sont
plus pass´es entre un graphe form´e des quatre connexes mais `a travers un graphe form´e par un
arbre. Kolmogorov [65] et Szeliski [64] ont montr´e que cette m´ethode ´etait plus efficace que les
graph–cuts sur les jeux de test de Middelbury mais reste n´eanmoins plus lente que les graph–cuts.
De mani`ere g´en´erale, les graph–cuts et autres m´ethodes d’optimisation globales n´ecessitent
de tr`es grandes capacit´es m´emoire (notamment lorsque plusieurs labels sont en jeu) et sont
alors difficilement applicables sur des images compl`etes de grande emprise telles que les images
satellites tr`es haute r´esolution [42].
Les m´ethodes semi–globales
D’autres proc´ed´es permettent la r´esolution de probl`emes d’optimisation, non pas en recherchant
une solution exacte ou approch´ee au minimum global sur toute l’image simultan´ement
mais en fonctionnant it´erativement sur la recherche de minimas locaux sur l’image `a partir de
52CHAPITRE 2. OUTILS ET METHODES N ´ ECESSAIRES ´ A LA CHA ` ˆINE DE
TRAITEMENTS
Figure 2.6 – Illustration d’un effet de streaking le long des lignes d’une image trait´ee par
programmation dynamique.
fonctions qui permettent une approximation de la fonction globale. L’avantage de ces m´ethodes
est de r´eduire largement la complexit´e des probl`emes en les divisant en sous–probl`emes plus
faciles et rapides `a r´esoudre [43].
La m´ethode la plus populaire est la programmation dynamique. Cette m´ethode est aujourd’hui
appliqu´ee dans de nombreux domaines de traitement d’image [31, 34, 44, 66].
Appliqu´ee `a une image, l’id´ee de base de la programmation dynamique consiste `a optimiser
une fonction d’´energie sur chacune des lignes ind´ependamment [34]. L’inconv´enient majeur de
cette m´ethode est le manque de coh´erence entre chacune des lignes, cr´eant des effets de streaking
ou artefacts lin´eaires, le long des lignes dans le r´esultat lorsqu’un label a tendance `a se propager
le long de la ligne du fait de la r´egularisation spatiale.
Ce ph´enom`ene est illustr´e sur le MNS pr´esent´e en figure 2.6 o`u la propagation de valeurs d’´el´evation
le long des lignes, sans coh´erence avec les colonnes, est fortement marqu´ee.
Afin de limiter ce probl`eme, plusieurs approches ont ´et´e d´evelopp´ees : Bobick et Intille [34],
dans un contexte de mise en correspondance d’images, d´etectent pr´ealablement les contours de
l’image et adaptent les coˆuts le long de ces contours afin d’aligner les disparit´es dans l’image
finale. La difficult´e r´eside alors dans la d´etection pr´ecise des contours de l’image `a prendre en
532.2. OUTIL POUR LA RESOLUTION DE PROBL ´ EMES DE LABELLISATION `
compte.
Ohta [67] proc`ede d’abord `a une recherche des disparit´es selon les lignes puis utilise les r´esultats
obtenus afin de contraindre une recherche selon les colonnes de l’image. Les r´esultats obtenus
sont alors additionn´es pour s´electionner la disparit´e finale de chaque pixel.
Veksler [44] applique la programmation dynamique sur des structures en arbre, choisies en
fonction des contours les plus importants de l’image. Cet algorithme permet alors de minimiser
l’´energie selon deux dimensions afin de se rapprocher au mieux d’une optimisation globale.
L’inconv´enient de cette m´ethode r´eside ici dans le choix des structures d’arbre utilis´ees et de
leur initialisation.
Hirschmuller [ ¨ 31] applique la programmation dynamique selon plusieurs directions sur l’image,
ind´ependamment les unes des autres, puis additionne les coˆuts obtenus pour chaque label afin
de calculer le coˆut final de chaque disparit´e pour chacun des pixels de l’image. Cet algorithme
permet le calcul rapide de l’optimisation et prend en compte tout le voisinage des pixels puisque
toutes les directions de l’image sont calcul´ees. Cette optimisation quasi globale est appel´ee le
semi–global labelling [31, 42].
Schindler, [42] compare plusieurs m´ethodes de classification d’images bas´ees sur (i) un
algorithme de graph–cuts tel que celui propos´e par Boykov [58], (ii) un algorithme de semi–global
labelling bas´e sur la m´ethode de Hirschmuller [ ¨ 31] et (iii) des m´ethodes de classification locale,
sans contrainte spatiale.
Il apparaˆıt d’abord que les m´ethodes d’optimisation globales sont plus efficaces que les m´ethodes
de classification locales : les r´esultats obtenus montrent une pr´ecision g´en´erale de classification
de 70,5% `a 80% pour une m´ethode locale, 72% `a 80% pour une m´ethode semi-globale et
de 72,5% `a 85% pour une m´ethode de graph–cuts. Cependant, si les m´ethodes graph–cuts
pr´esentent la meilleure efficacit´e, Schindler observe que les m´ethodes de semi–global labelling
montrent des performances tr`es proches tout en maintenant un temps de calcul inf´erieur, ce
qui en fait une bonne alternative aux graph–cuts pour des labellisations sur de nombreuses
´etiquettes et une large emprise.
Le semi–global labelling apparaˆıt donc comme une m´ethode d’optimisation suffisamment
performante pour des questions de labellisation et tr`es adapt´ee dans un contexte de traitement
54CHAPITRE 2. OUTILS ET METHODES N ´ ECESSAIRES ´ A LA CHA ` ˆINE DE
TRAITEMENTS
rapide et automatique puisque ses performances en termes de temps de calcul et d’allocation m´emoire
sont sup´erieures `a celles des m´ethodes globales. Ce type de m´ethode a donc ´et´e s´electionn´e
pour la r´esolution des probl`emes de labellisation rencontr´es dans notre chaˆıne de traitements.
2.2.3 Description de l’algorithme s´electionn´e
L’algorithme de programmation dynamique utilis´e dans ce travail est bas´e sur la programmation
dynamique sur une s´equence, algorithme d´ecrit par Felzenszwalb [66]. Une s´equence
correspond alors `a un sous–ensemble de pixels de l’image.
Afin de r´eduire les effets de streaking de la programmation dynamique, les minimisations sont
effectu´ees ind´ependamment sur plusieurs directions de l’image : lignes, colonnes, diagonales et
directions interm´ediaires, telles que repr´esent´ees sur la figure 2.7 et selon la technique propos´ee
par Hirschmuller et Pierrot-Deseilligny [ ¨ 31, 32]. Tous les coˆuts, obtenus par label pour chaque
pixel et selon chaque direction sont ensuite fusionn´es afin d’obtenir la solution semi–globale sur
toute l’image. De cette fa¸con, et en parall´elisant les calculs dans chaque direction, l’optimisation
est effectu´ee efficacement selon un temps polynomial.
Figure 2.7 – Illustration du parcours des diff´erentes directions pour la programmation dynamique
afin de calculer le coˆut ”semi–global”.
552.2. OUTIL POUR LA RESOLUTION DE PROBL ´ EMES DE LABELLISATION `
Algorithme de minimisation selon une direction
Soit une s´equence lin´eaire de pixels X = {x0, x1, ..., xi
, ..., xf } le long d’une direction de
l’image. Le but est d’assigner `a chacun des pixels xi un label n(xi) appartenant au jeu de labels
N = {n
1
, n2
, ..., nz}, z ´etant le nombre total de labels.
La solution S de labellisation sur la s´equence de x0 `a xf correspond alors `a la solution qui
minimise les coˆuts de labellisation en chaque pixel de la s´equence, selon l’´equation :
S(n(x0), ..., n(xf )) = Xxf
x0
Cdata(x, n(xi)) + λ
xX
f−1
x0
Creg((xi
, n(xi)),(xi+1, n(xi+1)). (2.3)
Cdata(x, n(xi)) repr´esente la fonction d’attache au donn´ees, c’est la probabilit´e que le label n
corresponde au pixel xi de la s´equence.
Creg((xi
, n(xi)),(xi+1, n(xi+1)) repr´esente le coˆut de r´egularisation entre deux pixels cons´ecutifs
xi et xi+1 sur la s´equence et portant un label n.
Cette fonction de r´egularisation est souvent calcul´ee selon le mod`ele de Potts [68] dans lequel
le coˆut affect´e au label n est ´egal `a 0 si les deux labels cons´ecutifs sont identiques et 1 sinon
(´equation 2.4).
Creg((xi
, n(xi)),(xi+1, n(xi+1))) =
0 if n(xi) = n(xi+1),
1 if n(xi) 6= n(xi+1).
(2.4)
Ce mod`ele est utilis´e lors de l’´etape de d´etection des changements (chapitre 4) mais nous
verrons que les ´etapes de mise en correspondance (chapitre 3 section 3.1) et de fusion des MNS
(section 3.3) n´ecessitent des fonctions de r´egularisation plus complexes.
La variable scalaire λ repr´esente, quant `a elle, le poids accord´e `a la contrainte de r´egularisation
: plus cette valeur est importante, plus la contrainte spatiale sera renforc´ee, c’est–`a–dire
que le coˆut d’affectation d’un label, diff´erent du label pr´ec´edent, sera augment´e. En pratique,
nous verrons que cette variable est d´efinie en fonction du r´esultat recherch´e qui doit ˆetre plus
ou moins r´egulier selon le contexte.
Le principe de l’algorithme est de calculer le meilleur chemin passant par chaque couple
pixel–label (xi
, nj
), selon un parcours de la s´equence de pixels de x0 `a xf . L’objectif est de
56CHAPITRE 2. OUTILS ET METHODES N ´ ECESSAIRES ´ A LA CHA ` ˆINE DE
TRAITEMENTS
Figure 2.8 – Illustration du calcul des coˆuts obtenus pour chaque label et chaque pixel de la
s´equence selon l’´equation 2.5. Les fl`eches vertes repr´esentent chacun des coˆuts calcul´es, les fl`eches
rouges repr´esentent le coˆut le plus faible obtenu entre un label d’un pixel et tous les labels du
pixel pr´ec´edent.
calculer, pour un couple pixel–label (xi
, nj
), le coˆut pour le couple suivant (xi+1, nj
) (figure
2.8).
Soit A(x0, nj
) le coˆut initial du label n
j au pixel x0 de la position 0 est d´efini par :
A(x0, nj
) = Cdata(x0, n). (2.5)
A la position ` xi de la s´equence, le coˆut A(xi
, nj
) pour lui assigner un label n
j
se calcule selon
l’´equation suivante :
A(xi
, nj
) = Cdata(xi
, nj
) + min
nk
A(xi−1, nk
) + λCreg(n
j
, nk
)
, (2.6)
n
j
et n
k deux labels appartenant au jeu de labels N. Ainsi, pour chacun des labels n
j
(j ∈ [1 : z])
propos´es `a chacun des pixels xi
, le coˆut obtenu correspond `a tous les coˆuts cumul´es du chemin
de x0 `a xi qui minimisent le coˆut en n
j
.
Dans la figure 2.8, les fl`eches vertes repr´esentent tous les chemins possibles pour parvenir
`a chacun des labels. Le chemin amenant le coˆut minimal en chaque label de chaque pixel est
repr´esent´e par les fl`eches rouges.
Une fois tous ces coˆuts calcul´es, le meilleur chemin de x0 `a xf correspond au chemin ayant
572.2. OUTIL POUR LA RESOLUTION DE PROBL ´ EMES DE LABELLISATION `
amen´e le label de coˆut minimal n
j∗
xf
au dernier pixel xf , tel que :
n
∗
(xf ) = argmin
n
A(xf , n(xf ))). (2.7)
La matrice finale contenant la somme des coˆuts de chacun des labels et pour chaque pixel est
alors parcourue afin de retrouver le label amenant le coˆut minimal sur chaque pixel.
G´en´eralisation de l’algorithme `a plusieurs directions
Le coˆut semi–global est d´efini comme le coˆut de chaque label obtenu `a travers le sous–graphe
d´etermin´e par toutes les directions calcul´ees dans l’image.
Selon cette d´efinition, la minimisation est appliqu´ee sur des s´equences lin´eaires de pixels dans
toutes les directions impos´ees et de fa¸con ind´ependante entre les s´equences comme illustr´e sur
la figure 2.7. Les matrices de coˆuts, obtenues pour chaque pixel et selon chaque direction sont
ensuite fusionn´ees afin d’obtenir un coˆut final pour chaque label et pour chaque pixel, tel que
le d´ecrivent Hirschmuller et Pierrot-Deseilligny [ ¨ 31, 32].
Or, les coˆuts obtenus dans les matrices ne peuvent ˆetre directement comparables entre eux
puisque les coˆuts sont cumul´es lors des parcours de chaque s´equence de pixels qui ne poss`edent
pas forc´ement le mˆeme nombre de pixels. Afin de rendre possible cette comparaison de coˆut entre
les labels d’un mˆeme pixel sur les diff´erentes directions, il est n´ecessaire de les recalculer selon
une mˆeme ´echelle. Cette op´eration se traduit par le calcul de la distance `a la solution optimale
de labellisation, C(nx)
d
sur toutes les s´equences obtenues, selon la formule :
C(xi
, n(xi))d = C(xi
, n(xi)) − C(xi
, n∗
(xi)). (2.8)
Ces distances `a la solution optimale par label peuvent alors ˆetre additionn´ees pour chaque
label et selon chacune des directions. Le label final n
d∗
choisi pour chaque pixel xi et dans toutes
les directions est finalement celui ayant le coˆut minimal, tel que :
n
d∗
(xi) = argmin
n
X
dirs
C(xi
, n(xi))d
. (2.9)
Le nombre de directions peut avoir un impact important sur le r´esultat final. Cependant, `a
partir d’un certain nombre de directions trait´ees, les diff´erences entre les r´esultats diminuent
fortement, elles sont presque nulles au del`a de 12 directions. Or, le nombre de directions trait´ees
58CHAPITRE 2. OUTILS ET METHODES N ´ ECESSAIRES ´ A LA CHA ` ˆINE DE
TRAITEMENTS
augmente sensiblement le temps de calcul de la m´ethode, il est donc n´ecessaire de trouver
le nombre de directions ad´equat afin d’obtenir le meilleur ´equilibre entre temps de calcul et
pr´ecision du r´esultat.
Dans la plupart des probl`emes trait´es dans ces travaux, un nombre de 8 ou 12 directions sera
utilis´e. Une comparaison des r´esultats obtenus avec 1, 4, 8, 12 et 16 directions est pr´esent´ee
dans le chapitre 5.
2.3 Conclusion
La spatio–triangulation permet l’affinage des mod`eles g´eom´etriques des images afin de
corriger les erreurs d’orientation et d’attitude dues `a une restitution imparfaite des informations
sur la position du satellite, son orientation et sa direction de vis´ee lors de l’acquisition. L’objectif
de cette op´eration, r´ealis´ee simultan´ement sur toutes les images disponibles, est de permettre
un recalage relatif pr´ecis entre toutes ces donn´ees.
Cette ´etape est r´ealis´ee `a l’aide d’outils existants permettant la recherche fiable de points
homologues puis l’ajustement des faisceaux.
Cependant, nous avons montr´e que des d´efauts, de capteur ou d’attitude, persistent dans
les mod`eles affin´es. Ces erreurs peuvent n´eanmoins ˆetre acceptables lorsqu’elles restent sub–
pixelliques comme c’est le cas pour les images WorldView-1 que nous utilisons.
Le second outil que nous avons d´etaill´e, au cours de ce chapitre, est un algorithme de
programmation dynamique que nous avons impl´ement´e et adapt´e pour le calcul de trois des
traitements de la chaˆıne d´evelopp´ee au cours de cette th`ese : la mise en correspondance, la
fusion des MNS et la d´etection des changements d’´el´evation.
Cet algorithme de programmation dynamique a ´et´e s´electionn´e pour sa facilit´e d’impl´ementation
par rapport `a d’autres m´ethodes d’optimisation globales classiques telles que les graph–cuts
mais aussi et surtout pour la rapidit´e d’ex´ecution des calculs et son efficacit´e reconnue.
592.3. CONCLUSION
60Chapitre 3
G´en´eration de Mod`eles Num´eriques
de Surface sur une grille r´eguli`ere `a
partir de couples st´er´eoscopiques
Comme nous l’avons vu dans le chapitre 1, de nombreuses techniques existent pour la
g´en´eration de MNS en fonction des contraintes associ´ees aux donn´ees d’entr´ee et des sources
d’erreurs `a prendre en compte. La strat´egie que nous avons choisie est bas´ee sur trois ´etapes
de calcul. La premi`ere ´etape consiste en une mise en correspondance des images `a l’aide d’un
outil existant, MicMac, et dont les options que nous utilisons seront d´ecrites dans une premi`ere
partie de ce chapitre.
Puis nous d´etaillerons la m´ethode que nous avons d´evelopp´ee afin de basculer les MNS sur une
grille r´eguli`ere terrain tout en localisant et filtrant certaines erreurs de mise en correspondance.
Dans une troisi`eme partie, nous pr´esenterons certaines erreurs de mise en correspondance
non corrig´ees, notamment dues aux zones d’occlusion de l’image esclave et nous d´ecrirons la
m´ethode que nous avons d´evelopp´ee pour r´esoudre ce probl`eme et am´eliorer la pr´ecision des
MNS obtenus. Cette m´ethode est bas´ee sur la fusion des deux MNS g´en´er´es `a partir du mˆeme
couple d’images st´er´eoscopiques par inversion des rˆoles maˆıtre et esclave des images. Nous
d´etaillerons notamment l’algorithme permettant cette fusion `a travers la labellisation des pixels
du MNS final, contrˆol´ee par une contrainte de r´egularisation spatiale.
613.1. DESCRIPTION DE LA STRATEGIE DE MISE EN CORRESPONDANCE ADOPT ´ EE´
Puis, dans une derni`ere partie, nous analyserons les r´esultats obtenus `a travers la comparaison
des MNS g´en´er´es avec une v´erit´e LiDAR, acquise `a une date proche de nos donn´ees satellites,
sur la ville de Christchurch en Nouvelle-Z´elande.
3.1 Description de la strat´egie de mise en correspondance
adopt´ee
3.1.1 Technique de mise en correspondance
La m´ethode de mise en correspondance d’images que nous avons s´electionn´ee est bas´ee sur
la g´eom´etrie image (repr´esent´ee figure 1.1(b), p34). Comme cit´e dans le chapitre 1, section
1.2.3, cette g´eom´etrie ne n´ecessite pas le r´e–´echantillonnage complet de l’image en g´eom´etrie
´epipolaire et se montre plus robuste que la g´eom´etrie terrain aux erreurs g´eom´etriques des
images ainsi qu’aux zones d’occlusion lorsque seulement deux images sont en jeu [48]. Cette
robustesse est un avantage certain pour notre chaˆıne de traitements dans laquelle toute erreur
de MNS (planim´etrique ou altim´etrique) peut avoir des cons´equences sur la carte finale des
changements de la sc`ene.
Le principe de la g´eom´etrie image r´eside dans le parcours des lignes de vis´ee des pixels dont
la mod´elisation a ´et´e affin´ee lors de l’´etape de spatio-triangulation (chapitre 2,section 2.1).
Pour chacun des pixels de l’image maˆıtre (g´en´eralement l’image la plus au nadir) et de coordonn´ees
xM(lM, cM), la ligne de vis´ee est parcourue de fa¸con discr`ete avec un pas altim´etrique
d´etermin´e par l’utilisateur. Chaque pas d´efinit un point P dans l’espace, de coordonn´ees
(Px, Py, Pz). La ligne de vis´ee de l’image esclave passant par ce point de l’espace est alors
d´etermin´ee `a partir du mod`ele g´eom´etrique inverse de l’image esclave et le pixel correspondant
dans cette image, de coordonn´ee (lE, cE) est localis´e.
La corr´elation entre les pixels est alors effectu´ee `a travers des fenˆetres de corr´elation centr´ees sur
chacun des pixels de l’image maˆıtre et de l’image esclave et de taille sp´ecifi´ee par l’utilisateur
(ici une fenˆetre de rayon R = 2 pixels est utilis´ee). L’imagette de l’image esclave est alors
r´e–´echantillonn´ee dans la g´eom´etrie de l’imagette maˆıtre. Lorsque le pixel homologue est
s´electionn´e, on obtient alors, pour le pixel consid´er´e dans l’image maˆıtre, une valeur directe de
62CHAPITRE 3. GEN´ ERATION DE MOD ´ ELES NUM ` ERIQUES DE SURFACE SUR UNE ´
GRILLE REGULI ´ ERE ` A PARTIR DE COUPLES ST ` ER´ EOSCOPIQUES ´
l’altitude du point.
Toutefois, la g´en´eration de MNS dans la g´eom´etrie de l’image maˆıtre pr´esente un inconv´enient.
En effet, puisque la recherche de l’´el´evation est r´ealis´ee `a partir de l’image maˆıtre, la carte
des ´el´evations est g´en´er´ee dans la g´eom´etrie de l’image maˆıtre et il est alors n´ecessaire de les
r´e–´echantillonner dans une nouvelle grille g´eographique r´eguli`ere afin que les MNS produits `a
partir de diff´erentes images maˆıtre soient comparables entre eux pixel `a pixel.
3.1.2 Fonction d’optimisation et r´egularisation
Parmi les m´ethodes d’optimisation impl´ement´ees dans l’outil MicMac, nous avons choisi
une m´ethode bas´ee sur la programmation dynamique, notamment pour des raisons de temps de
calcul (cf. chapitre 2 section 2.2.2). L’´equation g´en´erale de cette optimisation est pr´esent´ee en
section 2.2.3
Lors de la mise en correspondance, les labels correspondent `a toutes les ´el´evations z test´ees et le
coˆut d’attache aux donn´ees Cdata(xMi
, z(xMi
)), c’est–`a–dire le coˆut pour assigner une ´el´evation
z `a un pixel xMi de l’image maˆıtre, est une fonction du score de corr´elation obtenu entre le
pixel de l’image maˆıtre xMi
et le pixel homologue trouv´e dans l’image esclave xE. Il est ici
calcul´e avec le NCC (´equation 3.1) :
Cdata(xMi
, z(xMi
)) = NCC(xMi
, xE). (3.1)
Soit deux vecteurs uM et uE constitu´es de l’ensemble des q valeurs des vignettes de corr´elation
centr´ees en xMi
et en xE, respectivement. p
ds
w est une fonction de pond´eration, w ∈ [1 : q]. Pour
chaque vecteur uM de valeurs Uw, on pose :
R(uM) =
Pq
w=1 p
ds
P w Uw
n
w=1 p
ds
w
(3.2)
La d´efinition est identique pour chaque vecteur VE de valeurs Vw.
Le coefficient de corr´elation s’´ecrit :
NCC(uM, vE) = R(uMvM) − R(uM)R(vE)
q
(R(u
2
M) − R(uM)
2) ∗ (R(v
2
E
) − R(vE)
2)
(3.3)
Lors de la g´en´eration de MNS, la r´egularisation a pour but de limiter les variations d’altitude.
Ainsi, cette fonction est calcul´ee `a partir de la diff´erence d’altitude obtenue entre deux pixels
633.1. DESCRIPTION DE LA STRATEGIE DE MISE EN CORRESPONDANCE ADOPT ´ EE´
cons´ecutifs de l’image maˆıtre xMi
et xMi−1
selon l’´equation suivante :
Creg((xMi
, z(xMi
)),(xMi−1
, z(xMi−1
))) = f(| z(xMi) − z(xMi−1)
|). (3.4)
(a) Carte des ´el´evations d’un couple WorldView-1, r´egularisation λ = 0.02.
(b) Carte des ´el´evations d’un couple WorldView-1, r´egularisation λ = 1.0.
Figure 3.1 – Illustration de l’impact de la r´egularisation pour la g´en´eration de MNS.
Le param`etre de r´egularisation est un param`etre particuli`erement important dans la g´en´e-
64CHAPITRE 3. GEN´ ERATION DE MOD ´ ELES NUM ` ERIQUES DE SURFACE SUR UNE ´
GRILLE REGULI ´ ERE ` A PARTIR DE COUPLES ST ` ER´ EOSCOPIQUES ´
ration des MNS puisqu’il contrˆole les variations d’altitudes des MNS g´en´er´es. En effet, plus sa
valeur est importante, plus le poids de la r´egularisation spatiale sera important, faisant disparaˆıtre
les structures les plus fines (et le bruit) du MNS et flouter les bords de bˆatiments.
Ce ph´enom`ene est bien repr´esent´e en figure 3.1(b). Inversement, une faible r´egularisation va
permettre d’observer les variations plus fines d’altitude (et ainsi de s´eparer les bˆatiments tr`es
proches les uns des autres), mais en augmentant la pr´esence de bruit (figure 3.1(a)).
Ainsi, en milieu urbain, milieu dans lequel les discontinuit´es et les variations fines d’´el´evation
doivent ˆetre respect´ees afin d’obtenir un MNS pr´ecis au niveau des bˆatiments, la r´egularisation
est d´efinie `a une valeur faible, de mˆeme pour un milieu fortement escarp´e. Inversement, en milieu
rural, d´esertique ou vallonn´e, la r´egularisation peut ˆetre largement augment´ee.
L’outil MicMac permet d’adapter ais´ement ce param`etre qui fait ainsi partie des param`etres de
notre chaˆıne de traitements.
3.1.3 Prise en compte des zones d’occlusion
La m´ethode choisie pour la prise en compte des zones d’occlusion est bas´ee sur une localisation
post–traitement, apr`es la g´en´eration de la carte d’´el´evation de la sc`ene en g´eom´etrie image.
En effet, lors du r´e–´echantillonnage de la carte des ´el´evations sur une grille r´eguli`ere, ´etape dite
de “basculement”, nous avons d´evelopp´e une m´ethode permettant de localiser ces zones en fonction
des angles d’acquisition de l’image maˆıtre et de la pr´esence de discontinuit´es.
Le basculement a ainsi un rˆole majeur dans la g´en´eration du MNS final.
3.2 D´eveloppement d’une m´ethode de basculement des MNS
sur une grille g´eographique r´eguli`ere
Comme pr´ecis´e pr´ec´edemment, selon cette technique de mise en correspondance, la carte
des ´el´evations est calcul´ee dans la g´eom´etrie de l’image maˆıtre. Afin de comparer des cartes
d’´el´evations obtenues sur une mˆeme zone selon diff´erentes dates, diff´erents capteurs ou mˆeme
selon diff´erentes techniques de g´en´eration de MNS, il est n´ecessaire de r´e–´echantillonner ces
cartes d’´el´evations selon une grille terrain r´eguli`ere et commune `a toutes les cartes produites.
C’est l’´etape de basculement.
G´en´eralement, ce r´e–´echantillonnage est effectu´e par interpolation des points de la grille
653.2. DEVELOPPEMENT D’UNE M ´ ETHODE DE BASCULEMENT DES MNS SUR UNE ´
GRILLE GEOGRAPHIQUE R ´ EGULI ´ ERE `
r´eguli`ere. Ainsi, l’´el´evation de chacun des points de cette grille r´eguli`ere est interpol´ee `a partir
des coordonn´ees terrain des trois points les plus proches de lui provenant de la carte des
´el´evations calcul´ee. Pour ce faire, les pixels de la grille image sont parcourus par triplets. Cette
technique d’interpolation est la plus commune, notamment parce que la maille d’origine est une
maille carr´ee.
Le basculement que nous proposons est aussi bas´e sur une interpolation des points de la
grille r´eguli`ere `a partir du nuage de points form´e par la carte des ´el´evations en g´eom´etrie image.
Mais, avant chaque interpolation d’un point de la grille `a partir des points les plus proches,
certaines conditions sont v´erifi´ees afin de d´eterminer si le point est valide et peut ˆetre calcul´e
ou non. Ces conditions reposent sur des contraintes g´eom´etriques permettant la d´etection des
fa¸cades et des zones d’occlusion et une contrainte qualitative sur le score de corr´elation obtenu
lors de la mise en correspondance. Elles ont pour but de limiter les erreurs sur le MNS final
produit.
3.2.1 Interpolation des points de la grille r´eguli`ere
L’´etape de basculement repose sur une interpolation de l’´el´evation de chacun des points
de la grille r´eguli`ere `a partir des trois points les plus proches formant un triangle autour du
pixel consid´er´e, le syst`eme est illustr´e en figure 3.2. Ce triplet de point provient du nuage de
points obtenu lors de la mise en correspondance et dont les coordonn´ees planim´etriques ont ´et´e
calcul´ees grˆace aux mod`eles g´eom´etriques des images.
Les pixels de l’espace image, consid´er´es par triplets, de coordonn´ees ligne l et colonne c tel que
P
I
1 = (l, c), P
I
2 = (l, c+ 1) et P
I
3 = (l + 1, c) correspondent alors `a des coordonn´ees x y et z dans
l’espace terrain T tel que P
E
1 = (x1, y1, z1), P
E
2 = (x2, y2, z2) et P
E
3 = (x3, y3, z3) (sommets des
triangles noirs sur la figure 3.2).
Si un point de la grille terrain r´eguli`ere (en rouge sur la figure 3.2) se situe `a l’int´erieur du
triangle, les points de coordonn´ees P = (xP , yP , zP ) sont alors interpol´es par une interpolation
lin´eaire `a partir des coordonn´ees des trois sommets du triangle P
E
1
, P
E
2
et P
E
3
.
66CHAPITRE 3. GEN´ ERATION DE MOD ´ ELES NUM ` ERIQUES DE SURFACE SUR UNE ´
GRILLE REGULI ´ ERE ` A PARTIR DE COUPLES ST ` ER´ EOSCOPIQUES ´
Figure 3.2 – Principe de parcours de la grille image maˆıtre pour l’interpolation des points de
la grille r´eguli`ere.
3.2.2 Conditions au calcul de l’´el´evation d’un point
Les images ayant ´et´e acquises avec un angle d’incidence pouvant ˆetre fort, deux difficult´es
doivent ˆetre consid´er´ees :
– les fa¸cades de bˆatiments, visibles sur l’image maˆıtre, g´en`erent plusieurs points d’´el´evations
diff´erentes mais avec les mˆemes coordonn´ees planim´etriques,
– les zones d’occlusion des images doivent ˆetre localis´ees afin de ne pas interpoler les points
correspondants.
Pour le premier cas, lors du calcul de l’´el´evation d’un point situ´e `a l’int´erieur d’un triangle
d’interpolation tel que le point P de la figure 3.2, si il apparaˆıt qu’une ´el´evation a d´ej`a ´et´e d´etermin´ee
`a ces mˆemes coordonn´ees planim´etriques, cela peut signifier que ce point appartient `a une
fa¸cade de bˆatiment. En effet, le long d’une fa¸cade, les points poss`edent les mˆemes coordonn´ees
planim´etriques mais des coordonn´ees altim´etriques diff´erentes.
Dans ce cas, seul le point correspondant `a l’´el´evation maximum trouv´e doit ˆetre pris en compte,
ceci afin de retrouver l’´el´evation la plus haute du bˆatiment (son toit). Cette technique de recherche
de la plus haute ´el´evation d’un objet est connue sous le nom de Z-Buffer dans la litt´erature
[69].
673.2. DEVELOPPEMENT D’UNE M ´ ETHODE DE BASCULEMENT DES MNS SUR UNE ´
GRILLE GEOGRAPHIQUE R ´ EGULI ´ ERE `
Pour le second cas, les zones d’occlusion doivent ˆetre localis´ees afin de ne pas interpoler les
points de ces zones ce qui entraˆınerait des erreurs.
Dans ce but, nous avons mis en place une technique de d´etection des zones d’occlusion bas´ee sur
leur localisation `a partir de l’analyse des angles d’acquisition (´el´evation et azimut) de l’image
maˆıtre. La figure 3.3 illustre le principe de localisation utilis´e.
Sur la figure 3.3, les points P
E
1
, P
E
2
et P
E
3
repr´esentent les points dans l’espace terrain
correspondant `a un triplet de pixels de l’image maˆıtre. Le point P correspond au point de la
grille r´eguli`ere `a interpoler.
Dans une premi`ere ´etape, les deux points du triplet de points correspondant `a l’´el´evation
maximum et minimum dans le triangle sont d´etermin´es, si la diff´erence d’´el´evation Dh obtenue
sur le triangle est inf´erieure `a 1 m (r´esolution altim´etrique des MNS), le point P de la grille
terrain situ´e dans le triangle peut ˆetre calcul´e directement car le terrain est consid´er´e comme
quasiment plat `a cet endroit.
Si une diff´erence d’´el´evation plus importante est relev´ee, il est alors n´ecessaire de d´efinir si
une zone d’occlusion est pr´esente `a cet endroit et quelle est son emprise afin de d´ecider si le
triangle est viable pour le calcul d’un point.
En premier lieu, on d´efinit le point le plus ´elev´e (P
E
1 dans la figure 3.3) et le plus bas (point
P
E
3
) du triplet de points.
La droite DM reliant la projection de P
E
1
, P
E′
1
sur le plan horizontal et le point P
E
3
est calcul´ee.
Cette droite repr´esente la distance au sol entre le point le plus haut et le point le plus bas.
Puis, les angles d’azimut a et d’incidence i sont d´efinis pour le point P
E
1
. On d´etermine alors
la droite Di
, projection sur le plan horizontal du vecteur d´efini dans l’espace par les angles
d’azimut et d’incidence au point P
E
1
. La droite Di repr´esente alors l’orientation et la longueur
au sol de la zone d’occlusion.
Le vecteur DM pr´ec´edemment obtenu est alors projet´e sur le vecteur Di en un vecteur Dx. Cette
projection permet de situer le triplet de points consid´er´es en fonction de la zone d’occlusion, i.e
si les vecteurs sont oppos´es le point peut ˆetre calcul´e car il n’y a pas de zone d’occlusion (sur
l’image maˆıtre). Si les vecteurs sont dans le mˆeme sens et que Dx est plus grand que Resplani
2
,
Resplani ´etant la r´esolution planim´etrique du MNS, alors le point ne peut pas ˆetre calcul´e car il
68CHAPITRE 3. GEN´ ERATION DE MOD ´ ELES NUM ` ERIQUES DE SURFACE SUR UNE ´
GRILLE REGULI ´ ERE ` A PARTIR DE COUPLES ST ` ER´ EOSCOPIQUES ´
Figure 3.3 – Illustration du principe de l’interpolation d’une grille r´eguli`ere terrain `a partir des
points obtenus dans la g´eom´etrie de l’image maˆıtre.
se situe dans la zone d’occlusion de l’image maˆıtre.
Ce principe permet la localisation rapide des zones d’occlusion qui pourront alors ˆetre prises en
compte dans la suite des calculs.
Enfin, une derni`ere contrainte sur le basculement consiste `a ne pas prendre en compte, dans le
calcul, les pixels de la carte des ´el´evations dont le score de corr´elation final, obtenu lors de la
mise en correspondance, est inf´erieur `a un certain seuil. L’objectif est ici de filtrer les points
pour lesquels la corr´elation a ´echou´e, toujours afin de limiter les erreurs sur le MNS final.
Ce seuil sur le score de corr´elation est d´efini ici `a 2σ, σ ´etant l’´ecart–type obtenu `a l’histogramme
des scores de corr´elation. Cette valeur est g´en´eralement proche de 0, 45.
La figure 3.4(b) illustre le r´esultat d’un basculement d’une carte des ´el´evations pr´esent´ee en
figure 3.4(a) obtenue `a partir d’un couple d’images WorldView-1 `a 60 cm de r´esolution spatiale.
Sur la carte bascul´ee, les pixels noirs repr´esentent les zones masqu´ees lors du basculement, que
693.2. DEVELOPPEMENT D’UNE M ´ ETHODE DE BASCULEMENT DES MNS SUR UNE ´
GRILLE GEOGRAPHIQUE R ´ EGULI ´ ERE `
(a) Carte des ´el´evations en g´eom´etrie image
(b) Carte des ´el´evations en g´eom´etrie terrain
Figure 3.4 – Illustration du r´esultat du basculement d’un MNS WorldView-1 `a partir de la carte
des ´el´evations en g´eom´etrie image.
70CHAPITRE 3. GEN´ ERATION DE MOD ´ ELES NUM ` ERIQUES DE SURFACE SUR UNE ´
GRILLE REGULI ´ ERE ` A PARTIR DE COUPLES ST ` ER´ EOSCOPIQUES ´
ce soit `a cause des zones d’occlusion de l’image maˆıtre ou d’un score de corr´elation trop faible.
Il faut noter que lors de toutes les ´etapes suivantes de notre chaˆıne de traitements, ces points
ne sont jamais interpol´es `a partir de leurs voisins. En effet, leur interpolation serait susceptible
de produire des erreurs dans le MNS, erreurs pouvant se r´epercuter dans la carte finale de
d´etection de changements.
Cette technique de localisation des zones d’occlusion est bas´ee uniquement sur une analyse
g´eom´etrique, post´erieure au calcul des ´el´evations par mise en correspondance. Son principal
inconv´enient est de produire de nombreuses fausses zones d’occlusion. Ces erreurs proviennent
le plus souvent d’erreurs de corr´elation dans la carte des ´el´evations originale. En effet, une
erreur de corr´elation g´en`ere, par d´efinition, une ´el´evation erron´ee et donc souvent une variation
d’´el´evation entre deux pixels voisins, qui ne repr´esente pas la r´ealit´e. Dans la m´ethode de
d´etection des zones d’occlusion, cette variation est assimil´ee `a la pr´esence d’un bˆatiment et la
zone `a proximit´e de la variation d’´el´evation est alors consid´er´ee comme une zone d’occlusion.
Ainsi, de nombreux pixels du MNS bascul´es peuvent ˆetre masqu´es sans pour autant faire partie
d’une zone d’occlusion.
Sur des zones homog`enes de l’image, toit de bˆatiment large et lisse par exemple tel que
celui du bˆatiment carr´e encercl´e dans la figure 3.4(a), on observe de nombreuses petites zones
noires masqu´ees. Ces zones masqu´ees proviennent tr`es probablement de pixels dont le score de
corr´elation se situait en dessous du seuil fix´e.
Dans les sections et chapitres suivants, ces zones d’occlusion et de mauvaise corr´elation
d´etect´ees et masqu´ees lors du basculement seront regroup´ees et cit´ees sous le terme de “masque
du MNS“.
Ce masque de MNS sera pris en compte lors de toutes les ´etapes suivantes de la chaˆıne de
traitements.
713.3. AMELIORATION DES MNS : D ´ EVELOPPEMENT D’UNE M ´ ETHODE DE FUSION ´
DES MNS
3.3 Am´elioration des MNS : d´eveloppement d’une m´ethode de
fusion des MNS
3.3.1 Erreurs des MNS asym´etriques
Les figures 3.5(a) et 3.5(c) pr´esentent les r´esultats de deux MNS calcul´es `a partir du mˆeme
couple st´er´eoscopique mais avec inversion des rˆoles maˆıtre et esclave de chaque image.
Sur ces images, les pixels noirs repr´esentent les zones masqu´ees car appartenant `a des zones
d’occlusion ou des zones de faible score de corr´elation, calcul´ees lors du basculement (section
3.2).
De fa¸con g´en´erale, les deux MNS produits `a partir du mˆeme couple st´er´eoscopique sont tr`es
similaires. On note, pour une zone de 2000 × 2000 pixels sur un couple d’image WorldView-1
acquis en 2008 sur la ville de Phoenix, une diff´erence moyenne de 0,004 m avec un ´ecart–type
de 1,76 m. Cet ´ecart-type r´esulte typiquement du bruit provenant de mauvaises corr´elations
ou de zones d’occlusion ayant g´en´er´e des erreurs lors de la mise en correspondance des images,
erreurs ensuite r´epercut´ees sur les MNS bascul´es.
On observe que, selon le MNS (et donc selon l’angle d’acquisition de l’image maˆıtre), les
zones d’occlusion sont g´er´ees et masqu´ees plutˆot au sud (figure 3.5(a)) ou au nord (figure 3.5(c))
des bˆatiments.
De plus, comme d´etaill´e pr´ec´edemment, certaines erreurs de corr´elation ont g´en´er´e des variations
d’´el´evation dans la carte des ´el´evations qui ont elles–mˆemes g´en´er´e des occlusions virtuelles lors
du basculement. Ces erreurs ´etant variables d’un MNS `a l’autre, les zones d’occlusion g´en´er´ees
sont aussi variables entre les MNS.
Enfin, des erreurs importantes de corr´elation sont visibles dans les MNS. Ces erreurs sont variables
en amplitude et en localisation selon le MNS, elles sont notamment visibles `a proximit´e
des bˆatiments et encercl´ees en rouge sur la figure 3.5(a).
Afin d’obtenir un MNS coh´erent et le plus pr´ecis possible, la solution propos´ee est de calculer les
deux cartes d’´el´evation provenant du mˆeme couple avec inversion des rˆoles maˆıtre et esclave des
images puis de fusionner ces MNS, pr´ealablement bascul´es dans la mˆeme g´eom´etrie. L’objectif
de cette fusion est de garder le maximum d’informations correctes provenant de l’un ou l’autre
des MNS.
72CHAPITRE 3. GEN´ ERATION DE MOD ´ ELES NUM ` ERIQUES DE SURFACE SUR UNE ´
GRILLE REGULI ´ ERE ` A PARTIR DE COUPLES ST ` ER´ EOSCOPIQUES ´
(a) MNS1, couple st´er´eoscopique WorldView-1 du 24/06/2008.
(c) MNS2, couple st´er´eoscopique WorldView-1 du 24/06/2008.
Figure 3.5 – MNS asym´etriques provenant du mˆeme couple d’images st´er´eoscopiques.
733.3. AMELIORATION DES MNS : D ´ EVELOPPEMENT D’UNE M ´ ETHODE DE FUSION ´
DES MNS
3.3.2 M´ethode de fusion des MNS asym´etriques
Plusieurs techniques peuvent ˆetre employ´ees pour la fusion des deux MNS.
Une technique consiste `a calculer, pour chaque pixel, la moyenne entre les deux valeurs obtenues.
Si l’une des deux valeurs appartient `a un des masques de MNS calcul´es lors du basculement,
alors le pixel du MNS final est lui–mˆeme enregistr´e dans le masque final du MNS. Ce masque
final repr´esente alors l’union des deux masques g´en´er´es pour chaque MNS.
Un r´esultat de cette fusion est pr´esent´e figure 3.6(c). Sur cette figure, les erreurs de corr´elation
encercl´ees pr´ec´edemment n’ont pas ´et´es corrig´ees, on observe mˆeme que le MNS fusionn´e
poss`ede toutes les erreurs provenant de chacun des MNS. De mˆeme, le masque final, union des
deux masques des MNS est plus cons´equent que les masques de chacun des MNS. Cette fusion
par la moyenne entraˆıne donc la perte qualitative et quantitative d’information par rapport `a
chacun des MNS source.
Afin de mieux prendre en compte les erreurs d’´el´evation de l’un ou l’autre des MNS tout en
utilisant toute l’information spatiale correcte de chacun des MNS (c’est–`a–dire en limitant les
erreurs et les zones masqu´ees), nous proposons de r´esoudre la fusion `a l’aide d’une contrainte
de r´egularisation spatiale.
La m´ethode propos´ee est bas´ee sur un probl`eme de labellisation permettant d’obtenir le MNS
final : `a chaque pixel xi du MNS final est attribu´e un label m provenant du jeu de label
M ∈ {MNS1, MNS2, Occlusion}. La valeur du pixel attribu´ee au MNS final est alors celle qui
correspond au label s´electionn´e. Les labels MNS1 et MNS2 correspondent, pour chaque pixel,
aux valeurs d’´el´evation calcul´ees lors de la g´en´eration de l’un ou l’autre MNS, tandis que le
label Occlusion correspond `a un label occlusion, attribu´e au pixel lorsque aucune valeur de
MNS ne paraˆıt coh´erente.
Le choix d’un label, pour chacun des pixels du MNS final est effectu´e `a partir des diff´erentes
donn´ees obtenues `a la g´en´eration des MNS. Ces donn´ees sont :
– le Normalized Cross Correlation Coefficient, NCC(pr´esent´e en section 3.1.2 et d’´equation
3.3) obtenu lors de la mise en correspondance des images pour chacun des pixels (et r´e–
´echantillonn´e dans la mˆeme g´eom´etrie que le MNS lors de l’´etape de basculement, section
74CHAPITRE 3. GEN´ ERATION DE MOD ´ ELES NUM ` ERIQUES DE SURFACE SUR UNE ´
GRILLE REGULI ´ ERE ` A PARTIR DE COUPLES ST ` ER´ EOSCOPIQUES ´
(a) MNS1. (b) MNS2.
(c) R´esultat de la fusion des MNS par une moyenne et l’intersection des
zones d’occlusion.
Figure 3.6 – MNS provenant du mˆeme couple st´er´eoscopique et r´esultat de leur fusion par la
moyenne.
753.3. AMELIORATION DES MNS : D ´ EVELOPPEMENT D’UNE M ´ ETHODE DE FUSION ´
DES MNS
3.2),
– la diff´erence d’´el´evation obtenue entre les deux MNS pour le mˆeme pixel,
– la r´egularisation spatiale qui d´epend de la variation d’altitude entre deux pixels cons´ecutifs
dans le MNS final.
Le NCC est une donn´ee importante qui permet ici de donner un indice de confiance `a
l’altitude d´elivr´ee par chaque pixel de chacun des MNS : plus le NCC est important, plus
la probabilit´e que la corr´elation soit correcte en ce pixel est ´elev´ee. La comparaison des
NCC provenant de chaque MNS permet alors d’indiquer quelle valeur de MNS paraˆıt la plus
pertinente.
De mˆeme, la diff´erence obtenue entre les valeurs de MNS sur un mˆeme pixel permet de localiser
des zones de mauvaise corr´elation ou d’occlusion. En effet, l’´el´evation obtenue en un pixel doit
ˆetre sensiblement la mˆeme pour les deux MNS, une diff´erence d’´el´evation correspond alors
g´en´eralement `a une erreur sur l’un ou les deux MNS. C’est le principe utilis´e par les techniques
de back matching pour la d´etection des zones d’occlusion [49], [33].
Enfin, la pr´esence d’une contrainte de r´egularisation spatiale permet de lisser le MNS final.
Comme d´etaill´e au chapitre 2, section 2.2.1, ce probl`eme de labellisation peut ˆetre r´esolu par
une minimisation d’´energie dont l’algorithme est d´ecrit en section 2.2.3 et l’´equation g´en´erale
est de type :
E(n) = X
x∈X
Cdata(n(x)) + X
(x′)∈V (x)
Creg(n(x), n(x
′
)). (3.5)
Nous rappelons que chaque MNS poss`ede d´ej`a son propre masque, calcul´e lors de l’´etape de
basculement d´ecrit en section 3.2. Les pixels appartenant `a ce masque doivent alors ˆetre pris en
compte lors du calcul du MNS final par fusion.
Ainsi, la valeur de tous les pixels de chaque MNS et correspondant `a un masque est d´efinie `a
−9999 lors de cette ´etape de fusion. Les valeurs correspondantes dans la carte des NCC sont,
elles, d´efinies `a 0. Nous d´etaillerons tout au long de cette section, comment ces pixels sont pris
en compte dans la fusion.
Dans cette ´etape de fusion, la fonction d’attache aux donn´ees, CData(xi
, m(xi)), pour les
labels MNS1 et MNS2 d´epend du coefficient de corr´elation (NCC) obtenu `a la g´en´eration des
76CHAPITRE 3. GEN´ ERATION DE MOD ´ ELES NUM ` ERIQUES DE SURFACE SUR UNE ´
GRILLE REGULI ´ ERE ` A PARTIR DE COUPLES ST ` ER´ EOSCOPIQUES ´
MNS : plus ce coefficient est important pour le label consid´er´e m au pixel xi
, plus la probabilit´e
du label est ´elev´ee en ce pixel.
Concernant le label Occlusion, la fonction d’attache aux donn´ees d´epend du NCC maximum
obtenu entre les deux NCC correspondant `a chacune des valeurs de MNS en pr´esence et de la
diff´erence calcul´ee entre les deux valeurs de MNS au pixel xi
.
Ainsi, lorsque l’un ou les deux MNS obtiennent un score de corr´elation important, leur coˆut
d’attache aux donn´ees est faible tandis que celui du label Occlusion est fort car il est calcul´e
comme ´etant l’inverse du maximum de corr´elation obtenu. La probabilit´e du label Occlusion
est donc faible au pixel xi
. Le choix entre les labels MNS1 et MNS2 d´epend alors de chacun de
leur coefficient de corr´elation et de la r´egularisation. Ce cas est repr´esent´e par un chemin de
fl`eches vertes en larges pointill´es sur la figure 3.7.
L’´equation 3.6 r´esume le calcul des attaches aux donn´ees pour chacun des labels :
CData(xi
, m(xi)) =
1 − NCC(xi
, m(xi)) si m ∈ {MNS1, MNS2},
max[NCC(xi
, MNS1), NCC(xi
, MNS2)] + F1(xi) si m ∈ {Occlusion}.
(3.6)
Dans la fonction d’attache aux donn´ees du label Occlusion, la fonction F1(xi) correspond `a
la valeur absolue de la diff´erence d’´el´evation relev´ee au pixel xi et normalis´ee entre 0 et 1 tel
que :
F1(xi) = 1
1 + e−L(|Z(xi,MNS1)−Z(xi,MNS2)|−t1)
. (3.7)
Le param`etre L est d´efini `a 1.
Cette fonction, non lin´eaire, permet d’affecter un coˆut suffisamment faible pour les diff´erences
sup´erieures `a un seuil t1 d´efini `a 5 m, diff´erences consid´er´ees ici comme importantes et donc
pouvant provenir d’une occlusion. Des diff´erences plus faibles peuvent en revanche provenir
d’une faible erreur sur l’un des MNS qui ne doit pas pour autant privil´egier le label Occlusion
mais plutˆot le label MNS le plus pertinent, en particulier si le NCC correspondant est
fort. C’est pourquoi le NCC maximum est int´egr´e dans la fonction d’attache aux donn´ees
du label Occlusion : plus le maximum NCC est fort, plus la probabilit´e d’une occlusion est faible.
Dans le cas o`u l’une des valeurs de MNS au pixel xi correspond au masque natif du MNS,
773.3. AMELIORATION DES MNS : D ´ EVELOPPEMENT D’UNE M ´ ETHODE DE FUSION ´
DES MNS
par exemple pour le MNS2, on obtient : NCC(xi
, MNS2) = 0 et MNS2(xi) = −9999, donc :
CData(xi
, MNS1) = 1 − NCC(x, MNS1),
CData(xi
, MNS2) = 1,
CData(xi
, Occlusion) = NCC(x, MNS1) + 0.
(3.8)
Le pixel xi peut alors ˆetre labellis´e MNS1 ou bien Occlusion selon la valeur de NCC obtenue en
xi pour le MNS1. C’est le chemin repr´esent´e en fl`eches violettes et en petits pointill´es dans la
figure 3.7.
Dans le cas o`u les valeurs des deux MNS en xi appartiennent aux masques d’occlusion on
obtient :
CData(xi
, MNS1) = 1,
CData(xi
, MNS2) = 1,
CData(xi
, Occlusion) = 1.
(3.9)
Dans ce cas particulier, la valeur du MNS final en xi est forc´ement ´egale `a 0 (puisque tous les
labels en pr´esence correspondent `a une valeur `a 0) et le label s´electionn´e d´epend alors seulement
du terme de r´egularisation. C’est le chemin repr´esent´e en fl`eches oranges et lignes pleines dans
la figure 3.7.
La fonction de r´egularisation est d´efinie telle que :
CReg((xi
, m(xi)),(xi+1, m(xi+1))) = C
R, (3.10)
avec C
R le terme de r´egularisation qui d´epend de la diff´erence absolue entre les valeurs d’´el´evations
Z(xi
, m(xi)) et Z(xi+1, m(xi+1)) obtenues par les labels m pour deux pixels cons´ecutifs xi
et xi+1. Ce terme est calcul´e ainsi :
C
R =
F2(| Z(xi
, m(xi)) − Z(xi+1, m(xi+1)) |) si m(xi) et m(xi+1) ∈ {MNS1, MNS2},
β si m(xi) ∈ {MNS1, MNS2} et m(xi+1) ∈ {Occlusion},
γ si m(xi) ∈ {Occlusion}.
(3.11)
avec F2 d´efinie par :
F2(| Z(xi
, m(xi)) − Z(xi+1, m(xi+1)) |) = 1
1 + e−L(|Z(xi,m(xi))−Z(xi+1,m(xi+1))|−t2)
. (3.12)
78CHAPITRE 3. GEN´ ERATION DE MOD ´ ELES NUM ` ERIQUES DE SURFACE SUR UNE ´
GRILLE REGULI ´ ERE ` A PARTIR DE COUPLES ST ` ER´ EOSCOPIQUES ´
Le param`etre L est d´efini `a 1. La valeur t2 de la fonction F2 est ici pos´ee `a 2.5 m (valeur
seuil utilis´ee dans la m´ethode de d´etection de changements). L’objectif de cette fonction est de
normaliser les diff´erences d’´el´evations entre 0 et 1 afin que les valeurs de coˆut obtenues pour
chaque label soient comparables entre elles.
F2 est une fonction de r´egularisation entre deux labels de pixels cons´ecutifs et permet ainsi de
lisser le MNS final car la valeur du label choisi est alors celle qui se rapproche le plus de la
valeur voisine.
L’utilisation d’une fonction sigmo¨ıde permet de donner des coˆuts similaires aux labels amenant
des variations d’´el´evation proches et ainsi ´eviter une fonction seuil qui attribuerait des coˆuts
´egaux `a 0 ou 1 et orienterait alors trop fortement le choix final du label.
Lors du calcul de la fonction de r´egularisation :
– lorsque l’une des deux valeurs cons´ecutives appartient `a l’un des masques natifs des MNS,
le coˆut calcul´e par la fonction F2 est alors proche de 1, coˆut ´elev´e permettant de limiter
la probabilit´e de ce label,
– lorsque les deux valeurs de pixels correspondent aux masques natifs des MNS, F2 est alors
´egal `a 0. Les coˆuts de labellisation sont alors similaires en ce pixel pour les deux MNS.
Les variables β et γ correspondent `a des valeurs fix´ees `a une valeur moyenne de coˆut (β = 0.5
et γ = 0.5). Ces valeurs, tr`es lˆaches, permettent d’attribuer des coˆuts neutres aux labels
consid´er´es, le coˆut final du label d´epend alors principalement de l’attache aux donn´ees.
La figure 3.7 pr´esente un sch´ema r´ecapitulatif qui illustre l’orientation du choix de chacun
des labels en fonction des donn´ees d’entr´ee (NCC et valeur de MNS) et des fonctions d’attache
aux donn´ees utilis´ees. Sur la figure 3.7, les carr´es bleus clair indiquent les labels gagnants
pour lesquels le coˆut attribu´e est le plus faible en fonction du calcul de l’attache aux donn´ees
mais aussi en fonction de la r´egularisation. Les labels entour´es en rouge repr´esentent les labels
impossibles pour chacun des cas d´ecrits.
En pratique, il est `a noter que les fonctions d’attache aux donn´ees, de mˆeme que la
r´egularisation, ne privil´egient que rarement le label Occlusion. Cette caract´eristique n’est
cependant pas un inconv´enient puisque l’objectif est de diminuer les occlusions, et notamment
793.3. AMELIORATION DES MNS : D ´ EVELOPPEMENT D’UNE M ´ ETHODE DE FUSION ´
DES MNS
les fausses occlusions provenant d’erreurs de corr´elation, et les pixels de faible NCC afin de
privil´egier les valeurs correctes de chacun des MNS.
De mˆeme, on note que des coˆuts tr`es similaires peuvent ˆetre affect´es aux deux labels MNS. Or,
comme pr´ecis´e pr´ec´edemment, en de nombreux pixels des MNS, les ´el´evations calcul´ees sont
tr`es proches car il n’y avait pas d’ambigu¨ıt´es dans la mise en correspondance. Dans ce cas,
l’affectation de l’une ou l’autre valeur des MNS n’a pas d’impact r´eel sur le MNS final.
La figure 3.8(c) pr´esente le r´esultat obtenu par la fusion par labellisation des deux MNS produits
`a partir du mˆeme couple st´er´eoscopique. Bien que toujours globalement similaire aux MNS,
ce r´esultat ne pr´esente plus les erreurs importantes de corr´elation encercl´ees pr´ec´edemment.
Figure 3.7 – Sch´ema r´ecapitulatif de la proc´edure de fusion des MNS en fonction des valeurs
initiales et de l’attache aux donn´ees.
80CHAPITRE 3. GEN´ ERATION DE MOD ´ ELES NUM ` ERIQUES DE SURFACE SUR UNE ´
GRILLE REGULI ´ ERE ` A PARTIR DE COUPLES ST ` ER´ EOSCOPIQUES ´
(a) MNS1 (b) MNS2
(c) R´esultat de la fusion par optimisation avec r´egularisation spatiale.
Figure 3.8 – 3.8(a) et 3.8(b) : MNS calcul´es `a partir du mˆeme couple st´er´eoscopique et r´esultats
de leur fusion par optimisation globale 3.8(c).
813.4. QUALITE ET PR ´ ECISION DES MNS OBTENUS ´
Elles ont pu ˆetre supprim´ees grˆace `a cette m´ethode de fusion. De plus, les zones masqu´ees
sont r´eduites par rapport `a la fusion par la moyenne pr´esent´ee en figure 3.6(c), permettant
d’obtenir un r´esultat contenant une plus grande quantit´e d’informations car c’est la somme des
informations pertinentes des MNS1 et MNS2.
Enfin, il est `a noter que, bien que ces zones masqu´ees puissent ˆetre interpol´ees `a partir des
valeurs qui les entourent, nous avons choisi de ne pas le faire afin de ne pas g´en´erer d’erreurs
d’interpolation qui pourraient engendrer des erreurs dans la carte finale des changements
d’´el´evation. Ces zones sont alors consid´er´ees comme des zones de “non–information” et prises
en compte lors de la d´etection des changements d’´el´evation.
3.4 Qualit´e et pr´ecision des MNS obtenus
Afin d’observer l’apport de la m´ethode de g´en´eration des MNS par fusion par rapport `a la
g´en´eration de MNS asym´etriques par mise en correspondance simple, le MNS g´en´er´e sur la ville
de Christchurch (Nouvelle-Z´elande) est compar´e avec une v´erit´e terrain obtenue avec un LiDAR.
Ce LiDAR 1 a ´et´e acquis en 2011, ann´ee d’acquisition des images WorldView-2 sur la mˆeme zone
(voir tableau 1.1, chapitre 1, section 1.4).
La comparaison a ´et´e effectu´ee sur une zone commune entre le LiDAR et les MNS d’environ
2300 × 2600 pixels.
3.4.1 Co–localisation LiDAR et MNS
Le LiDAR dont nous disposons a ´et´e r´e–´echantillonn´e `a 1 m de r´esolution spatiale.
Comme discut´e dans le chapitre 2, section 2.1, les images ayant permis la g´en´eration des MNS
ont ´et´e affin´ees simultan´ement permettant leur co–localisation pr´ecise entre elles et ainsi, la
co–localisation pr´ecise entre les MNS. Cependant, cette co–localisation est effectu´ee en relatif
et la localisation absolue des mod`eles n’est pas garantie.
Ainsi, les MNS et le LiDAR ne peuvent ˆetre nativement co–localis´es (on observe des biais
1. Pour des raisons de confidentialit´e, le LiDAR et les informations associ´ees ne peuvent ˆetre pr´esent´es dans
ce manuscrit. Nous nous excusons pour cette restriction aupr`es des lecteurs.
82CHAPITRE 3. GEN´ ERATION DE MOD ´ ELES NUM ` ERIQUES DE SURFACE SUR UNE ´
GRILLE REGULI ´ ERE ` A PARTIR DE COUPLES ST ` ER´ EOSCOPIQUES ´
jusqu’`a 12 m en longitude et 25 m en latitude entre le MNS et le LiDAR).
Afin de permettre la comparaison pr´ecise entre le LiDAR et les MNS, il est alors n´ecessaire de
recaler ces donn´ees entre elles. Cette op´eration est effectu´ee de fa¸con classique, en prenant des
points de liaison entre les donn´ees (ces points sont s´electionn´es au milieu des toits afin d’obtenir
une meilleure pr´ecision). L’erreur r´esiduelle sur ces points est d’environ 0,7 pixels RMS (erreur
moyenne quadratique). Puis, un mod`ele de d´eformation affine du MNS est calcul´e en fonction
de ces points de liaison afin d’obtenir un MNS recal´e (au pixel pr`es) sur le LiDAR.
3.4.2 Crit`eres de qualit´e
La comparaison entre le LiDAR et les MNS a ´et´e effectu´ee `a plusieurs niveaux : une
diff´erence globale a ´et´e r´ealis´ee entre les donn´ees afin d’observer le bruit de ces derni`eres.
Puis, une comparaison a ´et´e effectu´ee entre les zones masqu´ees des MNS afin d’observer les
erreurs r´esiduelles sur ces zones et leurs diff´erences entre le MNS asym´etrique et le MNS
fusionn´e. Enfin, la comparaison de profils s´electionn´es sur les diff´erentes donn´ees va permettre
d’observer comment les structures telles que les bords de bˆatiments, les toits mais aussi les
zones homog`enes sont g´er´ees dans les MNS.
Diff´erence globale
Dans un premier temps, l’image des diff´erences entre le LiDAR et le MNS asym´etrique
(MNS obtenu `a partir de la g´eom´etrie image puis bascul´e dans un espace terrain)a ´et´e
calcul´ee. La moyenne des diff´erences obtenue est d’environ −0, 4 m avec un ´ecart–type d’environ
3, 1 m. Cet ´ecart–type est particuli`erement important et illustre le bruit pr´esent dans le MNS.
La diff´erence calcul´ee entre le MNS fusionn´e (par la technique d´ecrite en section 3.3)
montre, elle, une moyenne d’environ −0, 25 m avec un ´ecart–type d’environ 2, 4 m. Ces valeurs,
largement plus faibles que les r´esultats obtenus avec le MNS asym´etrique attestent que la
proportion d’erreur a diminu´e sur le MNS fusionn´e.
833.4. QUALITE ET PR ´ ECISION DES MNS OBTENUS ´
Diff´erences entre les masques des MNS asym´etrique et fusionn´e
Les zones masqu´ees sur le MNS asym´etrique et pas sur le MNS fusionn´e, ou inversement,
repr´esentent les zones o`u la probabilit´e d’erreur est la plus forte.
Dans la section 3.3, nous expliquons que la fusion de deux MNS g´en´er´es `a partir du mˆeme
couple st´er´eoscopique, mais avec inversion des rˆoles maˆıtre et esclave, permet de prendre en
compte les zones d’occlusion situ´ees sur les deux images du couple st´er´eoscopique.
Cependant, nous avons pu noter, dans la section 3.2, que les erreurs de corr´elation g´en´er´ees lors
de la mise en correspondance peuvent engendrer des fausses zones d’occlusion. Ainsi, le masque
du MNS fusionn´e peut contenir des pixels faussement enregistr´es comme occlusion.
La comparaison de la taille de ces masques donne une premi`ere id´ee sur la qualit´e des MNS
et la pr´ecision des masques : en effet, on observe que 19,3% des pixels appartenant au MNS
asym´etrique sont enregistr´es dans le masque, tandis que cette quantit´e baisse `a 15,5% pour le
MNS fusionn´e. Cette diff´erence indique qu’une plus petite quantit´e de pixels a ´et´e enregistr´ee
dans le masque du MNS fusionn´e.
Ce ph´enom`ene est paradoxal puisque le MNS fusionn´e permet d’enregistrer les occlusions
appartenant aux deux images du couple st´er´eoscopique au contraire du MNS asym´etrique. On
peut donc en d´eduire que le masque du MNS fusionn´e est plus pr´ecis sur les zones d’occlusion
et limite le nombre de pixels masqu´es.
De plus, les masques des MNS prennent aussi en compte les scores de corr´elation les plus faibles
obtenus lors de la mise en correspondance. Or, nous avons vu que la fusion des MNS permet de
r´eduire le nombre de pixels masqu´es `a cause de ce seuil. En effet, lorsqu’un pixel est masqu´e
dans l’un des MNS mais poss`ede un score de corr´elation suffisamment ´elev´e dans l’autre MNS
tout en r´epondant `a la contrainte de r´egularisation, cette valeur de pixel est alors privil´egi´ee
dans le MNS final plutˆot que la valeur masqu´ee. Ces contraintes de calcul sur le MNS final
permettent ainsi de r´eduire les zones masqu´ees.
Afin de comparer la qualit´e des masques des MNS asym´etrique et fusionn´e, tous les pixels
enregistr´es dans un masque pour l’un des MNS et ayant une valeur d´efinie dans l’autre MNS,
sont compar´es avec la v´erit´e LiDAR.
84CHAPITRE 3. GEN´ ERATION DE MOD ´ ELES NUM ` ERIQUES DE SURFACE SUR UNE ´
GRILLE REGULI ´ ERE ` A PARTIR DE COUPLES ST ` ER´ EOSCOPIQUES ´
(a) Histogramme des diff´erences entre le LiDAR
et les pixels masqu´es dans le MNS fusionn´e mais
d´efinis dans le MNS asym´etrique
(b) Histogramme des diff´erences entre le LiDAR et
les pixels masqu´es dans le MNS asym´etrique mais
d´efinis dans le MNS fusionn´e
Figure 3.9 – 3.9(a) et 3.9(b) : Histogrammes des cartes de diff´erences calcul´ees entre le liDAR
et le MNS asym´etrique et MNS fusionn´e, respectivement.
L’histogramme pr´esent´e en figure 3.9(a) int`egre les pixels masqu´es dans le MNS fusionn´e et
ayant une valeur d’´el´evation d´efinie dans le MNS asym´etrique.
Ces pixels repr´esentent 11,9% de l’image. On observe une moyenne des diff´erences entre ces
valeurs dans le MNS asym´etrique et le LiDAR de −2, 32 m avec un ´ecart–type de 6, 14 m.
L’histogramme confirme cette tendance de fortes diff´erences entre ces valeurs et le LiDAR.
Nous pouvons ainsi en d´eduire que ces valeurs d´efinies dans le MNS asym´etrique mais pas dans
le MNS fusionn´e repr´esentent principalement des erreurs d’´el´evation du MNS asym´etrique.
L’histogramme pr´esent´e en figure 3.9(b) correspond aux pixels masqu´es dans le MNS
asym´etrique mais ayant une valeur d´efinie dans le MNS fusionn´e.
On recense 8% des pixels de l’image appartenant `a cette cat´egorie. La diff´erence calcul´ee entre
ces pixels appartenant au MNS fusionn´e et la v´erit´e LiDAR est en moyenne de −1, 1 m avec un
´ecart–type de 3, 9 m. Ces chiffres montrent un r´esultat bien meilleur sur ces pixels bien que des
erreurs subsistent.
Ce r´esultat indique qu’un grand nombre de ces pixels, recens´es dans le masque du MNS
asym´etrique, poss´edaient en r´ealit´e une altitude d´efinie et correcte, car proche du LiDAR, dans
l’autre MNS asym´etrique. Ces valeurs sont donc maintenant des valeurs correctes dans le MNS
853.4. QUALITE ET PR ´ ECISION DES MNS OBTENUS ´
fusionn´e. Cependant, certaines erreurs r´esiduelles pourraient ˆetre corrig´ees, par exemple, grˆace
`a l’utilisation de plus de deux images st´er´eoscopiques afin d’am´eliorer la pr´ecision de ce masque.
Comparaison de profils d’´el´evation
Les figures 3.10(a) et 3.10(b) permettent de comparer des profils d’´el´evation obtenus entre
le LiDAR, le MNS asym´etrique et le MNS fusionn´e.
Ce profil, qui s’´etend sur une distance de 1000 m (la r´esolution spatiale des pixels ´etant de 1 m),
montre de nombreux bˆatiments, de hauteurs variables entre 4 et 9 m environ.
Globalement, les profils des MNS asym´etrique et fusionn´e suivent la tendance du profil LiDAR,
on observe cependant un biais entre le LiDAR et les MNS, ces derniers pr´esentent en effet une
altitude plus faible de plusieurs dizaine de centim`etres d’apr`es la zone basse entre 1900 m et
2100 m. Ce biais est aussi visible sur les bˆatiments situ´es entre 1800 m et 1900 m. Ce biais reste
n´eanmoins dans la r´esolution altim´etrique donn´ee pour les MNS qui est de 1 m.
On observe, malgr´e le bruit pr´esent sur les MNS, que le toit gondol´e du bˆatiment situ´e entre
2100 m et 2200 m est particuli`erement bien rendu dans les deux MNS. De mˆeme, les bˆatiments,
pourtant proches les uns des autres entre 1700 m et 1800 m apparaissent tr`es bien d´emarqu´es.
On note que le MNS asym´etrique semble g´en´erer un bruit plus important, avec de plus
fortes variations d’´el´evations, que celui g´en´er´e par le MNS fusionn´e. Les bords de bˆatiment
(correspondant `a des zones d’occlusion) sont aussi mieux g´er´es par le MNS fusionn´e. En effet,
on observe, notamment pour les bˆatiments entre 2100 m et 2300 m, que le MNS asym´etrique a
tendance `a ´elargir les bˆatiments et `a g´en´erer des ´el´evations tr`es fortes aux abords des bˆatiments.
Ce ph´enom`ene est corrig´e dans le MNS fusionn´e dans lequel tous les bords de bˆatiments sont
supprim´es car consid´er´es comme des zones d’occlusion.
Ce comportement montre l’int´erˆet de g´erer les zones d’occlusion dans les MNS puisque des
bords de bˆatiments ´elargis sont de fortes sources de fausses alarmes dans la carte finale des
changements.
86CHAPITRE 3. GEN´ ERATION DE MOD ´ ELES NUM ` ERIQUES DE SURFACE SUR UNE ´
GRILLE REGULI ´ ERE ` A PARTIR DE COUPLES ST ` ER´ EOSCOPIQUES ´
(a) Comparaison des profils LiDAR et MNS asym´etrique.
(b) Comparaison des profils LiDAR et MNS fusionn´e.
Figure 3.10 – Profils d’´el´evation compar´es entre le MNS asym´etrique (en vert), le MNS fusionn´e
(en bleu) et le Lidar (en rouge).
3.5 Application au cas de la multi–st´er´eoscopie
L’algorithme que nous avons d´evelopp´e pr´ec´edemment permet le calcul d’un MNS pr´ecis
`a partir d’un couple st´er´eoscopique. Or, les nouveaux satellites tels que Pl´eiades permettent
aujourd’hui l’acquisition d’images en n–uplet st´er´eoscopiques, avec n ∈ [2 : 25] pour Pl´eiades.
Chaque image est alors acquise avec un angle d’incidence et d’azimut diff´erent. Dans ce cas, il
est n´ecessaire de prendre en compte tout ou partie des images produites pour le calcul d’un MNS.
L’algorithme de fusion des MNS est alors une solution int´eressante pour g´erer les n-uplets
st´er´eoscopiques.
873.5. APPLICATION AU CAS DE LA MULTI–STER´ EOSCOPIE ´
Dans ce contexte, la solution propos´ee est la cr´eation de tous les MNS possibles provenant de la
mise en correspondance de toutes les images 2 `a 2 avec inversion des rˆoles maˆıtre et esclave et la
fusion de tous les MNS obtenus afin de calculer un MNS final. Pour un n–uplet st´er´eoscopique,
le nombre de MNS `a g´en´erer est alors de NMNS = n ∗ (n − 1). Le nombre de labels pr´esents
dans la fusion est ensuite ´egal au nombre total des MNS g´en´er´es, additionn´e du label Occlusion.
Dans le calcul de la fusion, effectu´e selon l’algorithme d´ecrit pr´ec´edemment, la seule
diff´erence notable est le calcul de l’attache aux donn´ees pour le label Occlusion (´equation 3.6).
Dans le cas de la st´er´eoscopie simple, il est n´ecessaire de calculer la diff´erence entre les deux
valeurs de MNS obtenues au mˆeme pixel xi
. Dans le cas de la multi–st´er´eoscopie, le nombre
de MNS en jeu ´etant sup´erieur `a 2, toutes les diff´erences entre les MNS g´en´er´es sont calcul´ees
et l’attache aux donn´ees est alors fonction de la diff´erence minimale obtenue (en dehors des
diff´erences ´egales `a 0 qui proviennent de la diff´erence entre deux masques de MNS).
Ce choix d’utiliser la diff´erence minimum est orient´e par le fait qu’en un pixel, les valeurs de
MNS doivent ˆetre similaires. Ainsi, plus des valeurs seront proches, plus la probabilit´e que les
valeurs de MNS soient pertinentes est ´elev´ee.
La figure 3.12 pr´esente le r´esultat du calcul d’un MNS `a partir de deux images d’un triplet
st´er´eoscopique 3.12(a) et des trois images du triplet 3.12(b). Ce triplet d’images Pl´eiades a ´et´e
acquis sur la ville de Toulouse en mai 2012 (figure 3.11(a)).
La figure 3.11(b) permet de montrer les conditions d’acquisition de ce triplet. Dans cette figure,
la position d’un point sur le p´erim`etre du cercle repr´esente l’angle d’azimut de l’acquisition de
l’image consid´er´ee tandis que la position sur le rayon du cercle repr´esente l’angle d’incidence de
l’acquisition.
Selon cette figure, on observe que le triplet st´er´eoscopique a ´et´e acquis avec un angle d’incidence
assez ´elev´e (environ 25˚) et selon un seul passage du satellite. Ce syst`eme d’acquisition n’apparaˆıt
pas id´eal pour limiter les zones d’occlusion puisque les angles azimutaux des trois images
sont particuli`erement proches entre eux.
En effet, le MNS calcul´e `a partir de deux images contient de nombreuses zones masqu´ees `a cause
des nombreuses zones d’occlusion, particuli`erement importantes du fait des angles d’acquisition
des images, mais aussi des erreurs de corr´elation (sur les toits de bˆatiments, par exemple). Tandis
88CHAPITRE 3. GEN´ ERATION DE MOD ´ ELES NUM ` ERIQUES DE SURFACE SUR UNE ´
GRILLE REGULI ´ ERE ` A PARTIR DE COUPLES ST ` ER´ EOSCOPIQUES ´
(a) Partie d’une image panchromatique du triplet st´er´eoscopique Pl´eiades acquis sur
la ville de Toulouse le 07/05/2012.
(b) Illustration de la g´eom´etrie d’acquisition du triplet st´er´eoscopique.
Figure 3.11 – Illustration du triplet st´er´eoscopique Pl´eiades acquis sur la ville de Toulouse.
893.5. APPLICATION AU CAS DE LA MULTI–STER´ EOSCOPIE ´
(a) Toulouse, MNS fusionn´e `a partir d’un couple st´er´eoscopique.
(b) Toulouse, MNS fusionn´e `a partir d’un triplet st´er´eoscopique.
Figure 3.12 – MNS calcul´es `a partir de 2 images puis 3 images du mˆeme uplet st´er´eoscopique.
90CHAPITRE 3. GEN´ ERATION DE MOD ´ ELES NUM ` ERIQUES DE SURFACE SUR UNE ´
GRILLE REGULI ´ ERE ` A PARTIR DE COUPLES ST ` ER´ EOSCOPIQUES ´
que le MNS tri-st´er´eoscopiques apparaˆıt beaucoup plus lisse et seules les vraies zones d’occlusion
(zones vues par aucune des images), situ´ees, comme attendues, au nord–ouest des bˆatiments,
sont masqu´ees.
De fa¸con quantitative, on observe que sur le MNS form´e `a partir de deux images st´er´eoscopiques,
19,2% des valeurs du MNS appartiennent au masque tandis que sur le MNS obtenu avec le triplet
st´er´eoscopique complet, seule 8,3% des valeurs appartiennent au masque.
Ce r´esultat montre l’apport de la multi–st´er´eoscopie pour la g´en´eration des MNS, mˆeme lorsque
les conditions d’acquisition st´er´eoscopiques ne sont pas id´eales, c’est–`a–dire que les images ne
sont pas acquises selon des angles d’azimut tr`es diff´erents. Cette comparaison permet de d´emontrer
non seulement la capacit´e de la m´ethode pour la multi–st´er´eoscopie mais aussi le fort
int´erˆet de la multi-st´er´eoscopie pour la pr´ecision des MNS.
3.6 Conclusion
La m´ethode de g´en´eration d´evelopp´ee dans notre chaˆıne de traitements est bas´ee sur trois
´etapes de calcul. La premi`ere est la mise en correspondance des images, selon une g´eom´etrie image
et donc bas´ee sur le calcul de l’´el´evation de tous les points d’une image maˆıtre, calcul effectu´e
par l’outil MicMac. La seconde ´etape est le basculement des ´el´evations, de la g´eom´etrie image
`a une g´eom´etrie terrain d´efinie. Cette op´eration, d´evelopp´ee au cours de cette th`ese, a permis
de mettre en place une meilleure gestion des points terrain situ´es dans des zones d’occlusion de
l’image maˆıtre, et de filtrer les points dont le score de corr´elation est particuli`erement bas.
Cette technique de mise en correspondance ´etant asym´etrique, les erreurs dues notamment aux
zones d’occlusion de l’image esclave ne sont pas prises en compte. La troisi`eme ´etape de calcul a
donc pour objectif de g´en´erer un MNS final dans lequel les zones d’occlusion appartenant `a l’une
ou l’autre des images du couple sont prises en compte tout en limitant les erreurs ponctuelles
de corr´elation pr´esentes sur l’un des MNS seulement. Pour cela, la mise en correspondance est
r´ealis´ee deux fois, avec inversion des images maˆıtre et esclave et les MNS obtenus sont fusionn´es
selon une technique formul´ee comme un probl`eme de labellisation dans lequel les labels de chaque
pixel correspondent aux valeurs de chacun des MNS en pr´esence ou `a un label occlusion. Ce
probl`eme est alors r´esolu `a partir de l’algorithme de programmation dynamique impl´ement´e, dont
les fonctions de coˆuts ont ´et´e adapt´ees afin de privil´egier les meilleurs coefficients de corr´elation
913.6. CONCLUSION
obtenus et les valeurs permettant de lisser les variations du MNS final.
Tous les param`etres et seuils de la m´ethode compl`ete de g´en´eration des MNS sont r´esum´es dans
le tableau 3.1.
La comparaison des MNS r´esultats avec un LiDAR acquis sur la mˆeme zone a permis de pr´esenter
l’apport de cette fusion de MNS par rapport `a un MNS asym´etrique, notamment envers les zones
d’occlusion ou les zones de mauvaise corr´elation.
Enfin, nous avons montr´e que cette m´ethode et l’algorithme d´evelopp´e ´etaient parfaitement
adaptables au cas de la multi–st´er´eoscopie quels que soient les angles d’acquisition des images.
Etape Param`etre impact sur le r´esultat Valeur recommand´ee MicMac
R´egularisation Impact important D´epend de la zone trait´ee :
des MNS sur les variations du MNS en milieu urbain λ = 0.02
Nombre de direction Impact mod´er´e d`es 12 directions
de calcul 12 directions
Basculement
R´esolution de la grille Impact sur la r´esolution 2 fois la r´esolution
terrain du MNS du r´esultat native des images
Seuil sur le score de Impact sur la qualit´e du 2σ
corr´elation MNS r´esultat
Fusion
Seuil t1 Impact sur la quantit´e D´epend des scores de corr´elation
de pixels d´efinis en label occlusion obtenus t1 5 m
Seuil t2 Impact faible D´efini `a 2,5 m
sur la r´egularisation du MNS
β et γ Impact faible D´efinies arbitrairement `a 0,5
Nombre de directions Impact tr`es mod´er´e G´en´eralement pos´e `a 12
de calcul sur le r´esultat
R´egularisation Impact mod´er´e D´efini exp´erimentalement `a 5,0
sur la r´egularisation du MNS
Table 3.1 – Tableau de synth`ese des param`etres de la m´ethode compl`ete de g´en´eration des MNS.
92Chapitre 4
D´eveloppement d’une m´ethode de
d´etection des changements
d’´el´evation
La derni`ere ´etape de la chaˆıne de traitements, d´evelopp´ee au cours de cette th`ese, consiste
`a d´etecter les changements d’´el´evation r´eels et pertinents de la sc`ene. Dans un contexte urbain,
ces changements correspondent `a toutes les constructions, destructions ou modifications de
bˆatiments ou d’infrastructures apparues entre les deux dates d’int´erˆet.
La m´ethode employ´ee pour la d´etection de changement est bas´ee sur l’analyse de la diff´erence
des MNS obtenus pour les dates t1 et t2. Cependant, `a la diff´erence de Tian [26] qui filtre
le MNS diff´erentiel `a partir d’op´erations morphologiques et de connaissances a priori sur les
tailles et formes des objets recherch´es, notre analyse est bas´ee sur une classification par une
m´ethode d’optimisation semi–globale des pixels de l’image.
Dans cette section, nous pr´esenterons tout d’abord l’int´erˆet du filtrage du MNS diff´erentiel
pour la mise en ´evidence des changements d’´el´evation puis nous d´etaillerons la m´ethode que
nous avons d´evelopp´ee afin de mettre en ´evidence les changements les plus pertinents.
934.1. CALCUL ET ANALYSE DU MNS DIFFERENTIEL ´
4.1 Calcul et analyse du MNS diff´erentiel
Comme d´ecrit dans le sch´ema global de la chaˆıne de traitements (chapitre 1, section 1.3,
figure 1.2), une fois les MNS g´en´er´es pour les dates t1 et t2, leur diff´erence dMNS est calcul´ee
telle que :
dMNS = MNSt2 − MNSt1
. (4.1)
Ainsi, les constructions apparues entre t1 et t2 apparaissent avec des pixels de valeurs positives
sur le MNS diff´erentiel tandis que les destructions correspondent `a des valeurs n´egatives.
L’union des zones masqu´ees de chacun des MNS, sont, quant `a elles d´efinies `a z´ero dans le MNS
diff´erentiel.
Cependant, certaines erreurs r´esiduelles de corr´elation restent attach´ees `a chacun des MNS,
comme nous l’avons illustr´e dans le chapitre 3, section 3.4 lors de la comparaison avec la v´erit´e
LiDAR et ce, malgr´e l’am´elioration de la pr´ecision des MNS.
Ces erreurs de corr´elation proviennent le plus souvent de la mise en correspondance sur des zones
difficiles telles que :
– les structures 3D complexes comme celles de la v´eg´etation,
– les zones homog`enes ou tr`es p´eriodiques,
– les bords de bˆatiments,
– les cibles mobiles,
– les zones d’occlusion.
Or, toute erreur dans un des MNS peut g´en´erer une diff´erence d’´el´evation potentiellement importante
dans le MNS diff´erentiel et ainsi provoquer une fausse d´etection dans la carte finale des
changements. La seule segmentation du MNS diff´erentiel ne permet donc pas de mettre en ´evidence
les changements pertinents d’´el´evation dans le bˆati car le nombre d’alarmes de d´etection
provenant des erreurs du MNS est alors trop grand.
Les figures 4.1(a) et 4.1(b) repr´esentent les MNS obtenus sur la ville de Phoenix aux dates
t1 = 2008 et t2 = 2011. La figure 4.2(a) montre le MNS diff´erentiel calcul´e `a partir de ces
deux MNS. Enfin, la figure 4.2(b) pr´esente un exemple de seuillage du MNS diff´erentiel. Sur cet
exemple toutes les diff´erences d’´el´evation inf´erieures `a -2,5 m sont repr´esent´ees en rouge et celle
sup´erieures `a 2,5 m, en bleu.
94CHAPITRE 4. DEVELOPPEMENT D’UNE M ´ ETHODE DE D ´ ETECTION DES ´
CHANGEMENTS D’EL´ EVATION ´
(a) MNS ombr´e calcul´e `a partir des images WorldView-1 de 2008.
(b) MNS ombr´e calcul´e `a partir des images WorldView-1 de 2011.
Figure 4.1 – 4.1(a) et 4.1(b) MNS de 2008 et 2011 calcul´es sur la zone 1 d´efinie sur la ville de
Phoenix.
954.1. CALCUL ET ANALYSE DU MNS DIFFERENTIEL ´
(a) MNS diff´erentiel calcul´e `a partir des MNS 2008 et 2011.
(b) MNS diff´erentiel segment´e `a 2,5 m (changements positifs en bleus)
et `a -2,5 m (changements n´egatifs en rouge).
Figure 4.2 – 4.2(a) MNS diff´erentiel. 4.2(b) MNS diff´erentiel seuill´e.
96CHAPITRE 4. DEVELOPPEMENT D’UNE M ´ ETHODE DE D ´ ETECTION DES ´
CHANGEMENTS D’EL´ EVATION ´
Notons que ce seuil `a 2,5 m repr´esente le seuil que nous utiliserons pour toutes les d´etections
de changements effectu´ees `a partir des MNS calcul´es `a 1 m de r´esolution altim´etrique et
planim´etrique. Ce seuil correspond `a la hauteur standard d’un ´etage de bˆatiment et paraˆıt tout
`a fait adapt´e pour la r´esolution des MNS (1 m de r´esolution altim´etrique et planim´etrique).
Sur cette figure, de tr`es nombreuses alarmes de changements sont visibles. Ces alarmes de
changements, souvent repr´esent´ees par quelques pixels, sont r´eparties sur toute l’image.
Les changements r´eels et pertinents du bˆati sont pourtant ais´ement rep´erables (pour les
plus importants) sur la carte seuill´ee. En effet, ces changements sont g´en´eralement repr´esent´es
par des amas de pixels, homog`enes spatialement et bien d´elimit´es contrairement au bruit.
C’est pourquoi, nous avons choisi de mettre en ´evidence ces changements pertinents `a partir
d’une technique de classification r´esolue `a travers une optimisation globale du MNS diff´erentiel,
associ´ee `a une contrainte de r´egularisation spatiale. Cette technique permet en effet de prendre
en compte la coh´erence locale du MNS diff´erentiel afin d’´eliminer le bruit tout en conservant les
changements coh´erents du bˆati.
4.2 M´ethode de d´etection des changements
La m´ethode choisie pour la d´etection des changements d’´el´evation consiste en une
classification des pixels du MNS diff´erentiel. A chaque pixel est attribu´e un label ` r provenant
du jeu de labels R et qui correspond `a un changement positif (construction), `a
un changement n´egatif (destruction) ou `a un non–changement, en fonction de sa valeur
mais aussi de celle des ses voisins afin de satisfaire la contrainte de r´egularisation spatiale
(R ∈ {Changementpositif, Changementngatif, Nonchangement}).
Ce probl`eme s’apparente alors aux probl`emes d’optimisations globales, introduits dans le
chapitre 2.2, et r´esolus `a partir de l’´equation g´en´erale 2.2.3.
La fonction d’attache aux donn´ees utilis´ee dans cette optimisation, CData(xi
, r(xi)), correspond
au coˆut pour attribuer un label r au pixel xi du MNS diff´erentiel, i ´etant la valeur de
974.2. METHODE DE D ´ ETECTION DES CHANGEMENTS ´
diff´erence d’´el´evation au pixel xi
. Ce coˆut, pour chaque label, d´epend de la valeur de diff´erence
d’´el´evation obtenue dans le MNS diff´erentiel et normalis´ee par une fonction sigmo¨ıde (repr´esent´ee
en figure 4.3).
Il est d´efini par :
CData(xi
, r(xi)) =
1
1+exp−L(|i|−T )
si r(xi) = {non changement},
1 −
1
1+exp−L(i−T )
si r(xi) = {changement positif},
1 −
1
1+exp−L(−i−T )
si r(xi) = {changement n´egatif}.
(4.2)
Dans l’´equation 4.2, le param`etre T est fix´e `a 2,5 m, seuil de la d´etection de changements d´efini
pr´ec´edemment.
La normalisation des valeurs du MNS diff´erentiel dans la fonction d’attache aux donn´ees permet
de rendre comparable entre eux les coˆuts obtenus par un pixel et pour chaque label. Si de
nombreuses techniques permettent la normalisation des valeurs, nous avons choisi une fonction
sigmo¨ıde qui permet un seuillage ”flexible” des coˆuts de chacun des labels selon la valeur du
pixel.
En effet, une fonction concave (ou “marche”) calculerait un coˆut `a 0 ou `a 1 sans aucun
interm´ediaire pour chaque label, une fonction lin´eaire, au contraire, ne serait pas suffisamment
d´eterminante pour des valeurs de pixels trop diff´erentes du seuil fix´e. Tandis que la fonction
sigmo¨ıde permet un seuillage plus doux.
Le param`etre L est li´e `a la courbure de la fonction sigmo¨ıde.
La figure 4.3 pr´esente diff´erentes sigmo¨ıdes calcul´ees avec des valeurs de L allant de L = 1, 0 `a
L = 4, 0. D’apr`es cette figure, on observe que la valeur de L s´electionn´ee permet d’obtenir des
coˆuts diff´erents de 0 et 1 pour des valeurs de diff´erence d’´el´evation situ´ees entre 0,5 m et 4,5 m
tandis qu’une valeur de L plus forte telle que L = 4, 0 restreint ce seuillage `a des valeurs de
diff´erences entre 1,0 m et 4,0 m. Au contraire, une valeur de L plus faible n’est pas suffisamment
restrictive car on observe alors des valeurs de coˆut encore importantes (et donc une probabilit´e
plus faible de changements positifs) pour une diff´erence d’´el´evation de 4,0 m qui est pourtant
une diff´erence d’´el´evation non n´egligeable.
Le param`etre L a ainsi ´et´e choisi `a L = 3, 0, cette valeur paraˆıt plus adapt´ee aux diff´erences
d’´el´evation recherch´ees.
98CHAPITRE 4. DEVELOPPEMENT D’UNE M ´ ETHODE DE D ´ ETECTION DES ´
CHANGEMENTS D’EL´ EVATION ´
Figure 4.3 – Fonction sigmo¨ıde permettant le calcul des coˆuts d’attache aux donn´ees pour le
label changement positif. Les quatre courbes illustrent les r´esultats pour diff´erentes valeurs de L
utilis´ees.
Il faut noter cependant que l’impact de L sur le r´esultat final est plutˆot faible.
Nous rappelons que tous les pixels appartenant `a l’un ou l’autre des masques des MNS g´en´er´es
`a t1 et t2 sont d´efinis `a z´ero dans le MNS diff´erentiel. Leur probabilit´e de changement est donc
fix´ee `a z´ero tandis que leur probabilit´e de non–changement est tr`es ´elev´ee. Le label de ces pixels
n’est cependant pas fix´e de fa¸con d´efinitive, ainsi, selon la r´egularisation employ´ee et le voisinage
de ces pixels, leur labellisation en changement est autoris´ee si les conditions sont favorables.
Le terme de r´egularisation, CReg((xi
, r(xi)),(xi+1, r(xi+1))) correspond `a un coˆut de transition
seulement et calcul´e selon le mod`ele de Potts [68]. Ce terme d´epend ainsi de la variation de
labels entre deux pixels cons´ecutifs xi et xi+1 de la s´equence. Il est d´efini par :
C
T
((xi
, r(xi)),(xi+1, r(xi+1))) =
0 si r(xi) = r(xi+1)
1 si r(xi) 6= r(xi+1)
(4.3)
Enfin, le param`etre λ repr´esente, dans ce contexte, une variable particuli`erement importante
puisqu’elle d´efinit le poids accord´e `a la fonction de r´egularisation par rapport `a celui de la
994.3. CONCLUSION
fonction d’attache aux donn´ees. Plus cette valeur est ´elev´ee, plus la contrainte de r´egularisation
sera importante et aura tendance `a supprimer les variations fines de labels et donc les alarmes
de changements les plus petites spatialement et inversement. Le param`etre λ permet alors le
contrˆole de l’´equilibre entre la pr´ecision de la d´etection et la sensibilit´e aux changements r´eels
de la sc`ene.
4.3 Conclusion
La m´ethode d’analyse du MNS diff´erentiel que nous avons d´evelopp´ee est bas´ee sur
la classification des pixels selon des labels changements positifs, changements n´egatifs ou
non–changement en fonction de la valeur du pixel et de son voisinage, pris en compte `a travers
une contrainte de r´egularisation spatiale.
Les param`etres de la m´ethode sont d´ecrits dans le tableau 4.1.
Cette m´ethode de filtrage global permet ainsi le contrˆole de la pr´ecision et de la sensibilit´e
du r´esultat grˆace au param`etre de r´egularisation λ, contrˆole d’autant plus important qu’il va
permettre `a l’utilisateur de moduler le r´esultat en fonction des changements recherch´es.
Les r´esultats obtenus par cette m´ethode de d´etection des changements d’´el´evation et selon
diff´erents param`etres seront analys´es dans la section 5
Param`etre impact Valeur
Seuil T Impact important D´epend de la r´esolution alti. du MNS
sur la hauteur des changements d´etect´es pour 1 m : seuil = 2,5 m
R´egularisation Impact important sur la pr´ecision D´epend des r´esultats recherch´es
et sensibilit´e du r´esultat g´en´eralement entre 2 et 7
Directions Impact mod´er´e sur le r´esultat G´en´eralement pos´ee `a 12
Courbure L Impact n´egligeable D´epend du seuil en ´el´evation des
changements recherch´es
Table 4.1 – Tableau de synth`ese des param`etres n´ecessaires `a la m´ethode de d´etection des
changements d’´el´evation.
100Chapitre 5
Exp´erimentation et discussion des
r´esultats de la m´ethode de d´etection
des changements d’´el´evation
Afin d’analyser les performances de la m´ethode de d´etection des changements, trois sites
sont analys´es `a travers la pr´ecision de la m´ethode (quantit´e de fausses alarmes d´etect´ees par
rapport au nombre total de d´etections) et sa sensibilit´e, aussi appel´ee rappel, (quantit´e de
bonnes d´etections retrouv´ees par rapport au nombre total de changements de la sc`ene).
Les deux premiers sites sont repr´esent´es par plusieurs zones choisies sur les villes de Phoenix
(Arizona, USA) et de Christchurch (Nouvelle–Z´elande), villes dynamiques `a d´eveloppement
continu.
Le troisi`eme site se trouve dans la r´egion de Tohoku (Japon), et plus particuli`erement sur la
ville de Sendai. Cette zone, qui a ´et´e d´evast´ee par une catastrophe majeure, permet en effet
d’analyser les r´esultats de la m´ethode dans un contexte de crise.
1015.1. PRESENTATION DES ZONES DE TEST ´
5.1 Pr´esentation des zones de test
5.1.1 Phoenix
Sur la ville de Phoenix, deux couples st´er´eoscopiques ont ´et´e acquis en 2008 et 2011 par le
capteur WorldView-1 (cf. tableau 1.1, chapitre 1, section 1.4).
Trois zones d’´etudes ont ´et´e d´efinies `a partir de ces images. Ces zones, d’une taille de
2000 × 2000 pixels ont ´et´e s´electionn´ees sur l’image en fonction du nombre de changements qui
ont ´et´e retrouv´es mais aussi en fonction de la vari´et´e de bˆatiments et infrastructures qu’elles
contiennent. Les figures 5.1(a), 5.1(b) et 5.1(c) repr´esentent ces diff´erentes zones.
La zone 1 (figure 5.1(a)) comprend de petits pavillons r´esidentiels, de nombreux parcs ainsi
que des quartiers d’affaires. La zone 2 (figure 5.1(b)) contient plutˆot des quartiers d’affaires
avec quelques tr`es hauts bˆatiments. Enfin, la zone 3 (figure 5.1(c)) pr´esente plutˆot des zones
industrielles.
Sur ces zones, on note aussi la pr´esence d’autoroutes avec de nombreux v´ehicules mobiles,
de la v´eg´etation, ou encore des pavillons tr`es proches les uns des autres. Tous ces ´el´ements
repr´esentent des sources d’erreurs potentiellement importantes pour les MNS, qui se r´epercutent
dans la d´etection de changements. Ces diff´erentes difficult´es permettent ainsi de tester au mieux
les performances de notre chaˆıne de traitements.
Aucune v´erit´e terrain de type cadastrale n’´etant disponible sur la ville de Phoenix, une carte
de r´ef´erence a ´et´e g´en´er´ee manuellement pour chacune des trois zones d’´etude. Plus pr´ecis´ement,
cette carte a ´et´e cr´e´ee par comparaison visuelle entre les images acquises aux dates t1 et t2.
Tous les changements du bˆati visibles ont ´et´e rep´er´es et localis´es dans cette carte de r´ef´erence,
qu’ils soient de quelques m`etres carr´es (taille d’un conteneur) ou de plusieurs centaines de m`etres
carr´es (bˆatiment industriel).
Cependant, afin de mieux analyser les r´esultats, les changements ont ´et´e divis´es en deux cat´egories
: les changements sup´erieurs ou ´egaux `a 15×15 pixels, soit 100 m2 pour des images `a
60 cm de r´esolution, et tous les changements de l’image. Ce seuil repr´esente la taille g´en´eralement
d´etectable par les m´ethodes de d´etection de changements sur des images tr`es haute r´esolution
d´ecrites par ailleurs [26]. Or, l’analyse des performances de la m´ethode lorsque toutes les tailles
102CHAPITRE 5. EXPERIMENTATION ET DISCUSSION DES R ´ ESULTATS DE LA ´
METHODE DE D ´ ETECTION DES CHANGEMENTS D’ ´ EL´ EVATION ´
(a) Illustration de la zone #1 de Phoenix. (b) Illustration de la zone #2 de Phoenix.
(c) Illustration de la zone #3 de Phoenix. (d) Illustration de la zone de Christchurch.
Figure 5.1 – Orthoimages provenant des images panchromatiques WorldView–1 repr´esentant
les trois zones test´ees sur la ville de Phoenix et la zone de Christchurch.
1035.1. PRESENTATION DES ZONES DE TEST ´
(a) Orthoimage WorldView-1, 2008, Phoenix zone
1.
(b) Donn´ee de r´ef´erence. En vert les changements
de taille > 100 m2
, en noir les changements inf´erieurs
`a 100 m2
Figure 5.2 – 5.2(a)Orthoimage calcul´ee et 5.2(b) donn´ee de r´ef´erence des changements de la
zone 1 de Phoenix.
de changements sont recherch´ees permet de mieux appr´ehender les limites de la m´ethode.
Au cours de ces analyses de sensibilit´e, nous parlerons plutˆot de ce seuil `a 100 m2 mais nous
pr´ecisons que ce seuil d´epend avant tout de la r´esolution des images native. Pour des images
haute r´esolution `a 2 m, ce seuil serait calcul´e `a 15×15 pixels soit 300m2
.
Finalement, sur la zone 1 de Phoenix, 126 changements de toutes tailles ont ´et´e recens´es dont
55 changements sup´erieurs `a 100 m2
(figure 5.2(b)). Sur la zone 2 de Phoenix, 71 changements
ont ´et´e recens´es dont 22 larges changements. Enfin, sur la zone 3, 138 changements ont ´et´e
retrouv´es dont 34 sup´erieurs `a 100 m2
.
5.1.2 Christchurch
Sur la ville de Christchurch, en Nouvelle-Z´elande, nous disposons de deux acquisitions
st´er´eoscopiques de 2009 et 2011 (cf. tableau 1.1, chapitre 1, section 1.4). A ces donn´ees
s’ajoutent deux acquisitions LiDAR de 2010 et 2011.
La zone commune aux donn´ees optiques et LiDAR a ´et´e s´electionn´ee pour tester la m´ethode de
d´etection de changement. Cette zone, d’une superficie de 1200 km2
environ, est repr´esent´ee en
figure 5.1(d).
104CHAPITRE 5. EXPERIMENTATION ET DISCUSSION DES R ´ ESULTATS DE LA ´
METHODE DE D ´ ETECTION DES CHANGEMENTS D’ ´ EL´ EVATION ´
Le LiDAR a ´et´e pr´ealablement r´e–´echantillonn´e `a une r´esolution planim´etrique identique `a
celle des MNS (1 m). Cependant, la pr´ecision d’acquisition du LiDAR est largement meilleure
que celle des MNS g´en´er´es. Les petites structures, les bˆatiments et tous les objets de la sc`ene
sont donc plus nets 1
.
Une d´etection des changements d’´el´evation entre les deux acquisitions LiDAR a donc ´et´e r´ealis´ee
avec une r´egularisation faible (λ = 2, 0) et un seuil classique `a 2,5 m. L’objectif est de faire
ressortir tous les changements de la sc`ene.
Ainsi, les changements d´etect´es entre les deux acquisitions LiDAR sont consid´er´es comme
suffisamment pr´ecis et exhaustifs pour repr´esenter une v´erit´e terrain qui permettra l’analyse des
r´esultats obtenus sur cette zone par la d´etection de changements appliqu´ee entre les MNS g´en´er´es.
Cependant, les LiDAR ayant ´et´e acquis `a des saisons diff´erentes, une faible r´egularisation
a aussi fait ressortir tous les changements li´es `a la v´eg´etation. Ces changements ont dˆu ˆetre
manuellement supprim´es de la v´erit´e terrain g´en´er´ee.
De plus, une ann´ee s´epare la premi`ere acquisition satellite st´er´eoscopique de la premi`ere
acquisition LiDAR (cf tableau 1.1, section 1.4). Afin de prendre en compte cet ´ecart et les
changements ayant eu lieu entre ces acquisitions, ces derniers ont ´et´e d´etect´es en appliquant
la m´ethode de d´etection entre l’acquisition satellite de 2009 et LiDAR de 2010, `a faible
r´egularisation spatiale. Puis, ces changements ont ´et´e manuellement filtr´es des fausses alarmes
telles que celles provenant de la v´eg´etation. La carte des changements ainsi obtenue a ensuite
´et´e additionn´ee `a la v´erit´e terrain.
Tout comme pour les trois zones de Phoenix, les changements rep´er´es ont ´et´e divis´es selon
les deux cat´egories : ceux de taille sup´erieure `a 100 m2
et tous les changements. Finalement, 43
changements de toutes tailles ont ´et´es rep´er´es sur la zone, dont 35 de taille sup´erieure `a 100 m2
.
5.1.3 R´egion de Tohoku : analyse d’une zone catastroph´ee
La r´egion de Tohoku est situ´ee au Nord Est du Japon, sur la pr´efecture de Miyagi.
1. Nous rappelons que pour des raisons de confidentialit´e des donnn´ees, les donn´ees LiDAR ne peuvent ˆetre
pr´esent´ees ici.
1055.1. PRESENTATION DES ZONES DE TEST ´
(a) Orthoimage Ikonos de 2010, Sendai. (b) Orthoimage Ikonos de 2011, Sendai.
(c) MNS obtenu `a partir du couple Ikonos
2010.
(d) MNS obtenu `a partir du couple Ikonos
2011.
Figure 5.3 – Ortho images et MNS calcul´es avant et apr`es la catastrophe de Sendai du
11/03/2011. 106CHAPITRE 5. EXPERIMENTATION ET DISCUSSION DES R ´ ESULTATS DE LA ´
METHODE DE D ´ ETECTION DES CHANGEMENTS D’ ´ EL´ EVATION ´
Cette r´egion a ´et´e frapp´ee le 11 mars 2011 par un s´eisme de magnitude 9 qui a ´et´e suivi par
l’un des plus puissants tsunamis jamais connus au Japon puisque la vague a atteint 7,6 m de
haut pr`es de la pr´efecture de Miyagi et plus de 40 m plus au Nord [70].
Un rapport de police fait ´etat de plus de 15 000 personnes d´ec´ed´ees et 2800 disparus. Le
tsunami a aussi g´en´er´e de tr`es importants d´egˆats avec pr`es de 240 000 bˆatiments d´etruits et
224 000 partiellement endommag´es.
Les images pr´esent´ees en figures 5.3(a) et 5.3(b) montrent une partie de la r´egion touch´ee
par cette catastrophe, avant et apr`es le 11 mars 2011. Ces images proviennent de couples
st´er´eoscopiques acquis par le capteur Ikonos le 11 d´ecembre 2010 et le 13 aoˆut 2011 (cf. tableau
1.1, chapitre 1, section 1.4).
Contrairement aux zones de Phoenix et Christchurch pr´ec´edemment pr´esent´ees, la zone de
Sendai montre un paysage totalement diff´erent entre les acquisitions avant et apr`es le passage
du tsunami. La zone habitable a ´et´e presque totalement d´etruite de mˆeme que tous les terrains
agricoles aux alentours. Ce type de paysage rendrait totalement impossible une d´etection de
changements radiom´etriques qui g´en`ererait alors un tr`es grand nombre de fausses alarmes.
Les MNS pr´esent´es en figures 5.3(c) et 5.3(d) font ´etat de l’ampleur de la catastrophe et des
destructions g´en´er´ees.
Afin de tester les performances du syst`eme pour la d´etection des d´egˆats, une large zone,
d’environ 360 km2 a ´et´e s´electionn´ee parmi les zones les plus touch´ees (repr´esent´ee par le
rectangle rouge dans les figures 5.3(a) et 5.3(b). Cette zone ainsi que la carte de r´ef´erence des
changements sont illustr´ees en figure 5.4.
On peut observer sur cette zone la destruction totale de la partie la plus proche de la cˆote, puis,
plus au nord–ouest, des bˆatiments qui semblent avoir r´esist´e. Le nombre de bˆatiments chang´es
est alors largement sup´erieur `a celui des bˆatiments inchang´es.
L’objectif est donc de tester notre chaˆıne de traitements sur une zone sinistr´ee afin d’observer
les r´esultats obtenus en d´etection de changements du bˆati.
Comme pour les zones urbaines pr´ec´edentes, une carte de r´ef´erence des changements a
´et´e r´ealis´ee sur la zone. Cependant, les d´egˆats importants et donc les changements massifs
rendent difficile la quantification des r´esultats, notamment par le coefficient Kappa (que nous
1075.1. PRESENTATION DES ZONES DE TEST ´
expliquerons section 5.2.2).
Pour r´esoudre ce probl`eme et quantifier pr´ecis´ement les performances de la m´ethode, la carte
de r´ef´erence contient tous les changements (bˆatiments d´etruits) mais aussi les non–changements
(bˆatiments intacts) de la sc`ene. Au total, 220 bˆatiments d´etruits ont ´et´e r´epertori´es et 76
bˆatiments intacts.
Nous pr´ecisons cependant que cette carte de r´ef´erence, r´ealis´ee manuellement `a partir des images
panchromatiques avant et apr`es la catastrophe, regroupe parfois plusieurs bˆatiments adoss´es les
uns aux autres en un seul ´el´ement (d´etruit ou non), ce qui entraˆıne une diminution de sa pr´ecision.
(a) Orthoimage Ikonos de 2010, Sendai. (b) Orthoimage Ikonos de 2011, Sendai.
(c) Carte de r´ef´erence des bˆatiments d´etruits (en rouge) et
intacts(en vert).
Figure 5.4 – Zone partiellement d´etruite par le Tsunami et quantifi´ee `a travers la carte de
r´ef´erence des bˆatiments d´etruits et intacts.
108CHAPITRE 5. EXPERIMENTATION ET DISCUSSION DES R ´ ESULTATS DE LA ´
METHODE DE D ´ ETECTION DES CHANGEMENTS D’ ´ EL´ EVATION ´
5.2 M´etriques d’analyse des r´esultats de la d´etection de
changements
5.2.1 Variables calcul´ees
Afin d’analyser les performances de la m´ethode, les alarmes, vraies ou fausses, d´etect´ees
par la m´ethode sont compt´ees `a l’´echelle de l’objet et non du pixel. En effet, la qualit´e de nos
donn´ees de r´ef´erence, et notamment le d´etourage des changements dans les cartes de r´ef´erence
g´en´er´ees manuellement, ne permet pas une correspondance au pixel pr`es entre les d´etections
sur la carte des changements d´etect´es et les changements d´etour´es sur la carte de r´ef´erence. De
plus, la m´ethode de d´etection des changements mise en place est bas´ee sur une r´egularisation
spatiale ce qui tend `a ´eroder les bords des alarmes de changements dans la carte r´esultat.
Le d´ecompte des pixels bien ou mal class´es ne repr´esenterait alors pas la r´ealit´e de la d´etection.
Le d´ecompte des vraies et fausses d´etections est donc effectu´e au niveau objet, c’est–`a–dire
que tout pixel isol´e ou amas de pixels connexes (avec 8 connexes consid´er´es autour de chaque
pixel) rencontr´e dans la carte des changements r´esultante est compt´e comme une alarme de
changement.
Ainsi, une vraie d´etection est confirm´ee d´es lors qu’un, ou plusieurs pixels, labellis´es en
changement dans la carte des changements, correspondent `a un changement r´eel dans la carte
de r´ef´erence. Inversement, si un pixel isol´e, ou un amas de pixels, labellis´e changement dans
la carte des changements, ne correspond `a aucun changement de la carte de r´ef´erence, cette
d´etection est consid´er´ee comme une fausse alarme.
Nous noterons enfin que dans la carte de r´ef´erence des changements, les changements r´eels
sont marqu´es sans consid´eration de leur sens (changement positif ou n´egatif). Le d´ecompte des
changements r´eels bien d´etect´es par la m´ethode se fait donc sans cette consid´eration (on parlera
des classes changement et non–changement). En effet, le d´ecompte s´epar´e des changements
positifs et n´egatifs n’apporte pas d’indice sur les performances de la m´ethode.
La d´etection distincte de ces changements lors du calcul de la carte des changements est
n´ecessaire au fonctionnement de la m´ethode de d´etection mais pas `a l’analyse des r´esultats.
La quantification des r´esultats est effectu´ee `a travers le calcul de plusieurs variables :
1095.2. METRIQUES D’ANALYSE DES R ´ ESULTATS DE LA D ´ ETECTION DE ´
CHANGEMENTS
– TP (True Positives ou vrai positifs) : nombre de changements r´eels bien d´etect´es,
– TN (True Negatives ou vrai n´egatifs) : nombre de non–changements bien d´etect´es,
– FP (False Positives ou faux positifs) : nombre de non–changements d´etect´es comme changement
(aussi appel´e fausse alarme),
– FN (False Negatives ou faux n´egatifs) : nombre de changements r´eels omis (ou omissions).
Le calcul de la quantit´e TN est difficile et n’a jamais ´et´e r´ealis´e, `a notre connaissance, `a
l’´echelle objet dans la litt´erature. Pourtant cette variable est essentielle pour le calcul d’une de
nos m´etriques d’analyse, le coefficient Kappa.
Lors de ce travail, nous avons choisi de calculer cette valeur selon une d´efinition empirique, bas´ee
sur le nombre de pixels total de l’image divis´e par la taille moyenne d’un objet (´equation 5.1). De
cette fa¸con, l’image est consid´er´ee comme si elle ´etait totalement constitu´ee d’objets `a d´etecter.
T N =
(l × c)
moyenneobjet
− T P − F N − F P. (5.1)
Dans l’´equation 5.1, l et c repr´esentent le nombre de lignes et de colonnes de l’image
respectivement, moyenneobjet repr´esente la taille moyenne d’un objet d’une sc`ene urbaine. Il
est d´etermin´e ici `a environ 15 × 15 pixels, valeur consid´er´ee comme une taille moyenne de
d´etections si toutes les d´etections (vraies et fausses) sont compt´ees `a faible r´egularisation.
Avec cette d´efinition particuli`ere de TN, toute l’emprise de l’image est alors prise en compte,
quelle que soit la densit´e des habitations. En effet, si le TN devait ˆetre repr´esent´e par le nombre
de bˆatiment uniquement, alors, dans une sc`ene contenant moins de 10 bˆatiments mais de
nombreuses sources de fausses alarmes, le nombre de fausses alarmes serait particuli`erement
´elev´e et le TN tr`es faible, diminuant la pr´ecision de la m´ethode sans pour autant repr´esenter
la r´ealit´e de la d´etection. La consid´eration de la sc`ene comme recouverte d’objets permet ainsi
d’am´eliorer la pr´ecision du calcul des performances de la m´ethode.
Il est cependant `a noter que cette variable TN sera utilis´ee dans une m´etrique particuli`ere
permettant la comparaison, entre elles, des classifications r´ealis´ees dans ce travail et la recherche
des param`etres de la m´ethode les plus adapt´es. La d´efinition de TN est alors la mˆeme pour
tous les r´esultats de classification qui seront compar´es lors de ce travail.
110CHAPITRE 5. EXPERIMENTATION ET DISCUSSION DES R ´ ESULTATS DE LA ´
METHODE DE D ´ ETECTION DES CHANGEMENTS D’ ´ EL´ EVATION ´
5.2.2 M´etriques d’analyse
Les m´etriques d’analyse des r´esultats utilis´ees sont des m´etriques standards qui permettent
l’´evaluation des performances de la d´etection de changements par rapport aux donn´ees de
r´ef´erence.
Les m´etriques les plus classiques correspondent aux taux de bonnes d´etections (ou True
Positive Rate, TPR) et de fausses d´etections (ou False Positive Rate, FPR), calcul´ees selon les
´equations 5.2.
T P R =
T P
T P + F N
× 100, F P R =
F P
F P + T P
× 100. (5.2)
Une autre m´etrique importante est repr´esent´ee par le coefficient Kappa (´equation 5.3) qui
correspond au calcul de l’accord entre la v´erit´e terrain et le r´esultat de classification obtenu.
La premi`ere description et utilisation de ce coefficient provient de Cohen [71] et a permis de
calculer le degr´e de coh´erence entre deux jugements psychiatriques ind´ependants.
Plus r´ecemment et dans notre domaine d’´etude, ce coefficient a ´et´e employ´e notamment par
Wilkinson [72] pour l’analyse et l’inter–comparaison des r´esultats de diff´erentes m´ethodes
de classification d’images recens´es sur 15 ans. L’objectif de cette analyse ´etait l’´evaluation
des performances de nombreuses m´ethodes de classification supervis´ees ou non, utilisant des
donn´ees externes ou non et quel que soit le nombre de classes ou la r´esolution initiale de l’image.
Dans ce contexte, l’utilisation du coefficient Kappa, dont les donn´ees d’entr´ees correspondent
au nombre de classes et aux variables TP, TN, FP et FN d´ecrites pr´ec´edemment, apparaˆıt alors
particuli`erement adapt´ee.
Ce coefficient est calcul´e selon l’´equation suivante :
K =
OA − Pe
1 − Pe
, (5.3)
OA =
T P
T P + F P + F N
, (5.4)
Pe =
M
(T P + F P + T N + F N)
2
, (5.5)
M = (T P + F P) × (T P + F N) + (F N + T N) × (F P + T N). (5.6)
1115.3. ANALYSE DE SENSIBILITE DES R ´ ESULTATS OBTENUS ´
OA correspond `a la pr´ecision g´en´erale de la classification (Overall Accuracy). Pe est d´ecrit
comme le taux de concordance al´eatoire. Cette valeur est ´egale `a 1 si la correspondance entre
la v´erit´e terrain et le r´esultat de classification obtenu est uniquement le fait du hasard et `a 0 sinon.
L’avantage de cette m´etrique est d’ˆetre particuli`erement adapt´ee lorsque les classes en
pr´esence sont d´es´equilibr´ees, c’est–`a–dire, dans notre contexte, lorsque la classe des non–
changements est tr`es grande par rapport `a la classe changement.
De plus, les taux de vraies et de fausses d´etections ne permettent pas de d´efinir la r´egularisation
qui entraˆınera le meilleur ´equilibre entre fausses alarmes et bonnes d´etections. En effet, ces
m´etriques, ind´ependantes l’une de l’autre, indiquent le meilleur param´etrage de l’algorithme en
fonction du taux de bonnes d´etections recherch´ees ou bien du taux de fausses alarmes maximum
accept´e.
Le coefficient Kappa prend en compte tous les termes de la matrice de confusion de la d´etection
de changement (TP, TN, FP, FN). Cette m´etrique permet ainsi la comparaison pr´ecise de plusieurs
classifications tout en mettant en ´evidence le param´etrage de l’algorithme le plus adapt´e,
qui correspond alors `a la meilleure correspondance entre la carte de r´ef´erence des changements
et la carte calcul´ee et donc au meilleur ´equilibre entre bonnes d´etections et fausses alarmes.
Le calcul du coefficient Kappa est donc particuli`erement important pour l’analyse compl`ete des
r´esultats obtenus par la m´ethode de d´etection tandis que l’analyse des diff´erents taux de bonne
ou fausse d´etection est importante pour expliquer le comportement du Kappa.
Ces deux m´etriques sont tr`es compl´ementaires entre elles.
5.3 Analyse de sensibilit´e des r´esultats obtenus
Dans cette section, plusieurs analyses de sensibilit´e sont effectu´ees. Elles concernent les
diff´erents param`etres de la m´ethode et leur impact sur les r´esultats mais aussi l’analyse de
l’impact de la qualit´e des donn´ees d’entr´ee (MNS) ou des changements recherch´es ou encore
l’analyse des performances en fonction des caract´eristiques de la zone ´etudi´ee.
Les cartes de d´etections de changements calcul´ees en vue de ces analyses de sensibilit´e ont,
112CHAPITRE 5. EXPERIMENTATION ET DISCUSSION DES R ´ ESULTATS DE LA ´
METHODE DE D ´ ETECTION DES CHANGEMENTS D’ ´ EL´ EVATION ´
pour la plupart, ´et´e g´en´er´ees `a partir de la zone 1 de Phoenix. Cette zone pr´esente en effet de
tr`es nombreux changements et des sources r´eduites de fausses alarmes ce qui en fait une zone
test int´eressante pour la mesure de l’influence des param`etres ou des donn´ees d’entr´ee.
5.3.1 Influence des param`etres de la m´ethode sur les r´esultats
Nombre de directions de la programmation dynamique
Le premier param`etre de la d´etection de changements que nous ´etudions est le nombre
de directions utilis´ees dans le calcul. En effet, comme d´ecrit dans le chapitre 2, section 2.2.3,
l’algorithme de programmation dynamique, con¸cu au cours de cette th`ese, n´ecessite le calcul des
coˆuts de labellisation selon plusieurs directions dans l’image, coˆuts calcul´es ind´ependamment
pour chaque direction puis fusionn´es afin de retrouver la solution finale de labellisation. Nous
avons montr´e en effet que l’utilisation de nombreuses directions permet de limiter les effets de
streaking sur le r´esultat final.
Les figures 5.5(c), 5.5(d), 5.5(e) et 5.5(f) illustrent les r´esultats obtenus avec 1, 8, 12 et 16
directions respectivement et une r´egularisation moyenne λ = 3, 0.
On observe que lorsqu’une seule direction est calcul´ee, les effets de streaking sont particuli`erement
importants (visible le long des lignes de l’image 5.5(c)). D’apr`es la figure 5.5(d), le calcul de 8
directions r´eduit l’effet de streaking. Puis, de 12 `a 16 directions, le r´esultat est globalement
identique et l’effet de streaking est quasi nul.
La figure 5.6 pr´esente les taux de bonnes et fausses d´etections obtenues avec une r´egularisation
fix´ee `a λ = 3, 0 et un nombre variable de directions de calcul, de 1 `a 16 directions.
La r´egularisation a ´et´e fix´ee `a une valeur relativement faible afin de bien observer l’impact de
ce nombre de directions sur un grand nombre de d´etections.
Comme attendu d’apr`es les figures pr´ec´edentes, on observe une tr`es forte diminution des fausses
alarmes (mais aussi des bonnes d´etections) entre 1 et 4 directions de calcul. A partir de 4 `
directions, les taux diminuent de fa¸con moins flagrante puis ils semblent se stabiliser entre 12
et 16 directions.
1135.3. ANALYSE DE SENSIBILITE DES R ´ ESULTATS OBTENUS ´
(a) Orthoimage WorldView-1, 2008. (b) Orthoimage WorldView-1, 2011.
(c) Carte des changements calcul´ee avec 1 direction
de calcul.
(d) Carte des changements calcul´ee avec 8
directions de calcul.
(e) Carte des changements calcul´ee avec 12
directions de calcul.
(f) Carte des changements calcul´ee avec 16
directions de calcul.
Figure 5.5 – Cartes de d´etection de changements obtenues `a partir d’un nombre variable de
directions de calcul et une r´egularisation λ = 3, 0. R´esultats calcul´es sur la zone 1 de Phoenix.
114CHAPITRE 5. EXPERIMENTATION ET DISCUSSION DES R ´ ESULTATS DE LA ´
METHODE DE D ´ ETECTION DES CHANGEMENTS D’ ´ EL´ EVATION ´
Figure 5.6 – Illustration de l’impact du nombre de directions de calcul sur les taux de bonnes et
fausses d´etections. R´esultats calcul´es sur la zone 1 de Phoenix avec une r´egularisation λ = 3, 0.
La d´etection de changements est donc g´en´eralement calcul´ee avec 12 directions. Le calcul `a
16 directions n’apportant pas de diff´erences significative au r´esultat mais augmente le temps de
traitement.
Param`etre de r´egularisation
Le param`etre λ est le param`etre ayant le plus d’influence sur le r´esultat de d´etection de
changements.
Les figures 5.7(c), 5.7(d), 5.7(e) et 5.7(f) illustrent qualitativement l’effet de ce param`etre. Chacune
de ces figures repr´esente une carte de d´etection de changements obtenue `a partir d’un λ
´egal `a 2,0, 3,0, 4,5 et 6,0, respectivement. D’apr`es ces figures, les alarmes de changements disparaissent
en fonction de leur taille, que ce soit les fausses alarmes (situ´ees principalement dans
la carte obtenue avec une tr`es faible r´egularisation) ou les vrais changements, et ce, de la plus
faible `a la plus forte r´egularisation. On note, par exemple, que de nombreux changements r´eels
marqu´es dans la carte de r´ef´erence ne sont pas d´etect´es `a λ = 6, 0.
Afin d’observer les effets de la r´egularisation sur les r´esultats de d´etection de changement, les
taux de bonnes d´etections (TPR) et de fausses alarmes (FPR) ont ´et´e trac´es en fonction du
1155.3. ANALYSE DE SENSIBILITE DES R ´ ESULTATS OBTENUS ´
param`etre de r´egularisation sur les figures 5.8(a) `a 5.8(d).
(a) Orthoimage WorldView-1 de 2008, Phoenix
zone #1.
(b) Orthoimage WorldView-1 de 2011, Phoenix
zone #1.
(c) Carte des d´etections obtenue avec λ = 2. (d) Carte des d´etections obtenue avec λ = 3.
(e) Carte des d´etections obtenue avec λ = 5. (f) Carte des d´etections obtenue avec λ = 6.
Figure 5.7 – Cartes des d´etections calcul´ee avec diff´erentes valeurs de λ et 12 directions. R´esultats
calcul´es sur la zone 1 de Phoenix avec une r´egularisation λ = 3, 0
116CHAPITRE 5. EXPERIMENTATION ET DISCUSSION DES R ´ ESULTATS DE LA ´
METHODE DE D ´ ETECTION DES CHANGEMENTS D’ ´ EL´ EVATION ´
Ces figures pr´esentent le comportement des m´etriques avec l’augmentation de la r´egularisation.
Dans un premier temps, les TPR (figures 5.8(a) et 5.8(c)) marquent un palier proche de 100%
de bonnes d´etections tandis que les taux de FPR, d’abord tout aussi haut, diminuent de fa¸con
presque lin´eaire. Puis, pour des λ entre 2,5 et 3,5, le taux de bonnes d´etections commence `a
d´ecroˆıtre mais plus faiblement que le taux de fausses alarmes qui baisse drastiquement. Puis la
courbe des fausses alarmes atteint un pallier vers λ = 4, 0 de mˆeme que celle des TPR qui ne
d´ecroit que faiblement.
Ce comportement r´esulte en fait de la suppression des petites fausses alarmes, souvent tr`es nombreuses
`a faible r´egularisation, ce qui entraˆıne une tr`es forte baisse des taux FPR. Les petits
changements pertinents, eux aussi supprim´es, sont cependant moins nombreux, expliquant la
d´ecroissance moins rapide de la courbe des TPR.
Lorsque toutes ces petites d´etections sont supprim´ees, les d´etections restantes sont alors des
fausses alarmes ou des vraies d´etections de taille importante et donc tr`es difficiles `a supprimer `a
moins d’augmenter tr`es fortement la r´egularisation, ceci explique le palier `a la fin des courbes.
Autres param`etres de la m´ethode
Nous avons vu, dans la section 4, que d’autres param`etres interviennent dans la m´ethode de
d´etection de changements d´evelopp´ee. Ces param`etres sont notamment le seuil T, fix´e `a 2,5 m
et la courbure L, fix´ee `a 3,0.
Des analyses de sensibilit´e pourraient ˆetre r´ealis´ees pour observer les performances de la
m´ethode en fonction de ces deux param`etres. Cependant, le seuil a ´et´e fix´e ici d’apr`es une valeur
standard et en consid´erant la r´esolution altim´etrique obtenue pour les MNS. C’est pourquoi
aucune ´etude n’a ´et´e men´ee quant `a la sensibilit´e de ce param`etre.
La courbure L permet, comme nous l’avons montr´e, de contrˆoler les coˆuts pour chaque label
en fonction de la proximit´e entre la valeur du pixel et le seuil. Ce param`etre n’a cependant
que peu d’impact d’apr`es les quelques tests que nous avons r´ealis´es cependant aucune analyse
compl`ete n’a encore ´et´e effectu´ee.
1175.3. ANALYSE DE SENSIBILITE DES R ´ ESULTATS OBTENUS ´
5.3.2 Impact de la qualit´e des donn´ees d’entr´ee
Influence de la qualit´e des MNS
Afin d’observer la sensibilit´e de la m´ethode de d´etection des changements envers les donn´ees
d’entr´ee qui lui sont inject´ees, c’est–`a–dire les MNS utilis´es, l’algorithme a ´et´e test´e sur des MNS
de qualit´e diff´erente : les MNS obtenus apr`es une mise en correspondance asym´etrique simple
et les MNS obtenus apr`es fusion de MNS asym´etriques (technique d´ecrite dans le chapitre 3,
section 3.3). La qualit´e de ces MNS a ´et´e discut´ee dans section 3.4.
Les figures 5.8 pr´esentent les r´esultats obtenus pour la zone 1 de Phoenix, dont les
changements ont ´et´e d´etect´es `a partir des MNS asym´etriques (courbes vertes et turquoises
pointill´ees) et des MNS fusionn´es (courbes bleues et rouges pleines).
Les r´esultats ont ´et´e calcul´es sur la zone 1 de Phoenix puis trac´es en fonction du param`etre λ
utilis´e.
Les figures 5.8(a) et 5.8(c) pr´esentent les taux de bonnes et de fausses d´etections lorsque
seuls les changements sup´erieurs `a 100 m2
sont consid´er´es et lorsque tous les changements sont
consid´er´es.
D’apr`es ces figures, les taux de bonnes d´etections obtenues avec les MNS fusionn´es apparaissent
sensiblement plus ´elev´es que ceux obtenus avec les MNS asym´etriques : une diff´erence de 5% `a
20% est not´ee. De mˆeme, les taux de fausses alarmes d´etect´ees `a partir des MNS fusionn´es sont
plus faibles que ceux obtenus avec les MNS asym´etriques. L’´ecart constat´e est de 0 `a plus de 10%.
Les figures 5.8(b) et 5.8(d) pr´esentent les coefficients Kappa obtenus pour tous les changements
ou les changements sup´erieurs `a 100 m2 uniquement, pour le MNS fusionn´e et pour le
MNS asym´etrique pr´esent´es. D’apr`es ces figures, le Kappa apparaˆıt fortement corr´el´e aux taux
de fausses et bonnes d´etections : plus les taux de vraies d´etections et de fausses d´etections sont
proches l’un de l’autre (c’est–`a–dire autant de bonnes d´etections que de fausses alarmes) plus
le Kappa est faible, indiquant une mauvaise classification et inversement un taux de bonnes
d´etections tr`es sup´erieur `a un taux de fausses alarmes entraine un fort coefficient Kappa et
donc une bonne classification.
118CHAPITRE 5. EXPERIMENTATION ET DISCUSSION DES R ´ ESULTATS DE LA ´
METHODE DE D ´ ETECTION DES CHANGEMENTS D’ ´ EL´ EVATION ´
(a) Taux de vrais et faux positifs calcul´es pour les
changements sup´erieurs `a 100 m2
.
(b) Coefficient Kappa calcul´e pour les changements
sup´erieurs `a 100 m2
.
(c) Taux de vrais et faux positifs calcul´es pour
tous les changements de la sc`ene.
(d) Coefficient Kappa calcul´e pour tous les changements
de la sc`ene.
Figure 5.8 – 5.8(a) et 5.8(c) variation des taux de fausses et vraies d´etection en fonction
de la r´egularisation λ. 5.8(b) et 5.8(d) : Variations du coefficient Kappa en fonction de la
r´egularisation λ. R´esultats calcul´es pour la zone 1 de Phoenix.
Comme attendu ici, les valeurs de Kappa obtenues `a partir des MNS fusionn´es sont
largement plus hautes que celles provenant des r´esultats de MNS asym´etriques, quelle que soit
la taille des changements recherch´es.
D’apr`es les diff´erents taux TPR et FPR calcul´es, cela s’explique par le nombre important
1195.3. ANALYSE DE SENSIBILITE DES R ´ ESULTATS OBTENUS ´
des fausses alarmes par rapport au nombre total de d´etections lorsque les MNS utilis´es sont
asym´etriques. En effet, les MNS fusionn´es pr´esentent une meilleure pr´ecision sur les fines
structures de la sc`ene et moins d’erreurs de corr´elation, entraˆınant un taux de fausses alarmes
plus faible. Cette diff´erence a n´eanmoins tendance `a disparaˆıtre avec des r´egularisations plus
importantes puisque ce param`etre agit comme un filtre qui supprime les plus fines erreurs des
MNS. Le r´esultat final `a haute r´egularisation est alors tr`es similaire que ce soit pour les MNS
fusionn´es ou pour les MNS asym´etriques.
Influence de la taille de changements recherch´ee
Les figures 5.8 pr´esentent les r´esultats obtenus pour la zone 1 de Phoenix lorsque l’on
consid`ere les changements sup´erieurs `a 100 m2
(figures 5.8(a) et 5.8(b)). Dans ce cas, le taux
de bonnes d´etections observ´e est de 100% `a plus de 75% pour des r´egularisations de 1 `a 6,5.
A la valeur de Kappa maximum (soit `a une r´egularisation `a ` λ = 5, 0 d’apr`es la figure 5.8(b)), le
taux de bonnes d´etections est de 90%, avec moins de 10% de fausses alarmes.
Lorsque les changements de toutes tailles sont consid´er´es, la valeur maximale du kappa
atteint seulement 0,76 pour une r´egularisation `a λ = 3, 0. D’apr`es la figure 5.8(c), cela
correspond `a environ 80% des changements bien d´etect´es et 35% de fausses alarmes.
En effet, les changements inf´erieurs `a 100 m2
repr´esentent les deux tiers de tous les changements
mais sont tr`es difficiles `a d´etecter et ont tendance `a ˆetre supprim´es rapidement lorsque la
r´egularisation augmente. Une plus faible r´egularisation est donc n´ecessaire pour les rep´erer ce
qui implique alors un taux de fausses alarmes r´esiduelles plus important et donc un coefficient
Kappa plus faible.
Nous rappelons que la taille des changements recherch´es d´epend en premier lieu de la
r´esolution des images (puis des MNS) en entr´ee de la chaˆıne de traitements. En effet, la taille
de 100 m2
(soit 15 × 15 pixels) est adapt´ee pour des images acquises `a 60 cm de r´esolution
permettant la g´en´eration de MNS `a 1 m de r´esolution spatiale. Cette taille doit ˆetre red´efinie
en fonction de la r´esolution des images d’entr´ee du syst`eme.
120CHAPITRE 5. EXPERIMENTATION ET DISCUSSION DES R ´ ESULTATS DE LA ´
METHODE DE D ´ ETECTION DES CHANGEMENTS D’ ´ EL´ EVATION ´
5.3.3 Int´erˆet d’une m´ethode globale : comparaison avec un filtrage local
Cette section pr´esente la comparaison de la m´ethode de classification des changements
employ´ee avec une m´ethode plus classique, repr´esent´ee par un filtrage morphologique. Ce type
de filtrage local est en effet souvent utilis´e dans la litt´erature et plus particuli`erement par
Tian [26] et Chaabouni [22] pour l’analyse de MNS diff´erentiels en vue de la d´etection des
changements d’´el´evation.
Le filtrage local test´e est appliqu´e sur le r´esultat d’une segmentation (`a +2,5 m et -2,5 m,
valeur de seuil identique `a celle utilis´ee dans le filtrage global) du MNS diff´erentiel. Ce filtrage est
bas´e sur l’application d’une op´eration morphologique sur l’image segment´ee, sous forme d’une
ouverture.
Pour rappel, une ouverture (binaire), en morphologie math´ematique, correspond `a l’´erosion des
amas de pixels connexes portant une valeur ´egale `a 1 (donc un label changement dans notre
cas) `a l’aide d’un ´el´ement structurant, suivi par la dilatation de ces mˆemes amas avec le mˆeme
´el´ement [73].
Cette op´eration permet de supprimer les d´etections (vraies ou fausses) de taille inf´erieure `a
l’objet structurant. Ainsi, la variation de la taille de l’objet structurant permet de contrˆoler le
nombre de fausses d´etections mais aussi celui des vraies d´etections en fonction de leur taille.
Cette technique se rapproche ainsi du filtrage global dont le param`etre de r´egularisation permet
aussi le contrˆole des taux de fausses alarmes et de vrais positifs.
Les r´esultats de ce filtrage morphologique sont pr´esent´es dans les figures 5.9 et compar´es
aux r´esultats obtenus avec le filtrage global.
Sur les figures, les courbes noires repr´esentent les r´esultats obtenus avec le filtrage morphologique.
Les courbes bleues et rouges pr´esentent les r´esultats obtenus avec le filtrage global pour
les changements sup´erieurs `a 100 m2
et tous les changements, respectivement.
Lorsque seuls les changements importants (sup´erieurs `a 100 m2
) sont consid´er´es, les taux de
bonnes d´etections des deux types de filtrage atteignent tous les deux les 100% (`a faible r´egularisation)
mais avec des taux de fausses alarmes de 78% environ pour le filtrage morphologique
et de 50% pour le filtrage optimis´e (figure 5.9(a)).
1215.3. ANALYSE DE SENSIBILITE DES R ´ ESULTATS OBTENUS ´
(a) Taux de vrais et faux positifs calcul´es pour les
changements sup´erieurs `a 100 m2
.
(b) Coefficient Kappa calcul´e pour les changements
sup´erieurs 100 m2
.
(c) Taux de vrais et faux positifs calcul´es pour tous
les changements de la sc`ene.
(d) Coefficient Kappa calcul´e pour tous les changements
de la sc`ene.
Figure 5.9 – 5.9(a) et 5.9(c) : Variations des taux de fausses et vraies d´etections en fonction
de la r´egularisation λ ou de la taille de l’´el´ement structurant. 5.9(b) et 5.9(d) : Variations du
coefficient Kappa en fonction de la r´egularisation λ ou de la taille de l’´el´ement structurant.
R´esultats calcul´es sur la zone 1 de Phoenix
Si un faible taux de fausses alarmes est recherch´e (moins de 10%), le taux de bonnes d´etections
descend alors `a 58% pour le filtrage morphologique tandis qu’il se maintient au–dessus
des 90% pour le filtrage optimis´e.
Les courbes Kappa (figure 5.9(b)) confirment une diff´erence importante entre les r´esultats des
122CHAPITRE 5. EXPERIMENTATION ET DISCUSSION DES R ´ ESULTATS DE LA ´
METHODE DE D ´ ETECTION DES CHANGEMENTS D’ ´ EL´ EVATION ´
filtrages puisque la valeur maximale du Kappa atteint par le filtrage optimis´e est de 0,92 tandis
qu’elle atteint seulement 0,72 pour le filtrage morphologique.
Lorsque tous les changements sont consid´er´es, le taux de bonnes d´etections du filtrage
morphologique apparaˆıt globalement plus ´elev´e que celui du filtrage optimis´e mais le taux de
fausses alarmes est plutˆot ´elev´e par rapport `a celui du filtrage optimis´e (figure 5.9(c)).
Les courbes Kappa montrent en effet que certains r´esultats des filtrages optimal et morphologique
sont comparables lorsqu’une r´egularisation de λ = 4, 0 est utilis´ee pour le filtrage
optimis´e et un ´el´ement structurant de taille 5 × 5 est utilis´e pour le filtrage morphologique.
Avec ces param`etres, le filtrage optimis´e pr´esente un TPR d’environ 58% et un FPR d’environ
10% tandis que le filtrage morphologique pr´esente un TPR d’environ 61% pour un taux FPR
d’environ 20%, entraˆınant une valeur de Kappa de 0,68.
Cependant, pour une r´egularisation `a λ = 3, 5, r´egularisation donnant les meilleurs r´esultats
pour le filtrage optimis´e d’apr`es les courbes Kappa en figure 5.9(d), le TPR obtenu est d’environ
72% pour un FPR de moins de 30% et une valeur de kappa `a 0,71, l´eg`erement meilleure que
celle obtenu par filtrage morphologique.
Les r´esultats obtenus pour le filtrage morphologique apparaissent ainsi d’une qualit´e presque
semblable `a celle du filtrage optimis´e lorsque tous les changements sont recherch´es mais tr`es en
dessous des r´esultats du filtrage optimis´e lorsque la d´etection se concentre sur les changements
les plus larges uniquement. Les taux de bonnes d´etections et de fausses alarmes ´etant `a chaque
fois inf´erieurs en qualit´e `a ceux du filtrage optimis´e.
Si nous ne r´efutons pas que les r´esultats obtenus, particuli`erement pour les changements larges,
peuvent ˆetre dus `a l’utilisation non optimale des op´erations morphologiques, nous montrons
cependant ici que le filtrage optimis´e et son param´etrage peuvent ˆetre utilis´es de fa¸con tr`es
simple et efficacement pour la recherche des changements quelle que soit leur taille. Tandis que
les op´erations morphologiques peuvent ˆetre complexes `a param´etrer afin d’ˆetre adapt´ees aux
changements recherch´es et montrer des performances ´equivalentes.
1235.3. ANALYSE DE SENSIBILITE DES R ´ ESULTATS OBTENUS ´
5.3.4 Influence du paysage de la zone d’´etude
Dans cette section, les performances obtenues sur les diff´erentes zones tests pr´esent´ees au
d´ebut de ce chapitre seront compar´ees entre elles afin d’analyser les r´esultats en fonction des
zones, des difficult´es qu’elles pr´esentent et du nombre de fausses alarmes qu’elles g´en`erent.
Phoenix
Les r´esultats obtenus sur les trois zones de Phoenix sont pr´esent´es en figure 5.10 avec,
comme pr´ec´edemment le calcul des taux de bonnes (TPR) et fausses (FPR) d´etections et le calcul
du coefficient Kappa pour tous les changements et pour les changements sup´erieurs `a 100 m2
.
Lorsque seuls les grands changements sont pris en compte, globalement et selon les zones,
les taux de bonnes d´etections se situent entre 100% et 75%, avec un taux de fausses alarmes
variant alors de 100% `a moins de 5%.
Malgr´e les variations de paysage de ces zones, la r´egularisation optimale pour ces changements
se situe toujours approximativement `a λ = 5, 0, d’apr`es les courbes Kappa pr´esent´ees dans les
figures 5.10(b), 5.10(d) et 5.10(f).
Ainsi, `a cette r´egularisation, la valeur du Kappa est alors ´egale `a 0,93 pour la zone 1, avec 90%
de bonnes d´etections et 5,6% de fausses alarmes. Pour la zone 2, on obtient une valeur de Kappa
´egale `a 0,82 pour λ = 5, 0 pour des taux de 81% de bonnes d´etections et de 18% de fausses
alarmes. Enfin, concernant la zone 3, la valeur du Kappa est `a 0,87 pour λ = 5, 0 et les taux de
bonnes et fausses d´etections atteignent 79,5% et 3,57%, respectivement.
Lorsque tous les changements sont consid´er´es, en revanche, la r´egularisation optimale est d’environ
λ = 3, 5. Les coefficients Kappa, calcul´es pour chacune des zones sont alors de 0,72, 0,50
et 0,59, respectivement pour les zones 1, 2 et 3. Les taux de bonnes d´etections atteignent alors
72% pour les zones 1 et 2 et 53% pour la zone 3 tandis que les taux de fausses alarmes sont de
28,3% pour la zone 1, 62% pour la zone 2 et 34% pour la zone 3.
D’apr`es tous ces r´esultats, la zone 1 semble pr´esenter les meilleurs taux de bonnes et fausses
d´etections. Cette zone contient en fait de tr`es nombreux changements (126) dont pr`es de la
moiti´e sont des changements de grande taille.
124CHAPITRE 5. EXPERIMENTATION ET DISCUSSION DES R ´ ESULTATS DE LA ´
METHODE DE D ´ ETECTION DES CHANGEMENTS D’ ´ EL´ EVATION ´
(a) Taux de vrais et faux positifs pour la zone #1. (b) Coefficient Kappa calcul´e pour la zone #1.
(c) Taux de vrais et faux positifs pour la zone #2. (d) Coefficient Kappa calcul´e pour la zone #2.
(e) Taux de vrais et faux positifs pour la zone #3. (f) Coefficient Kappa calcul´e pour la zone #3.
Figure 5.10 – 5.10(a), 5.10(c) et 5.10(e) Variations des taux de bonnes et fausses d´etections
en fonction du λ. 5.10(b), 5.10(d) et 5.10(f ) Variations du coefficient Kappa. R´esultats calcul´es
pour chacune des zones de Phoenix 1255.3. ANALYSE DE SENSIBILITE DES R ´ ESULTATS OBTENUS ´
De plus, les sources de fausses alarmes sont assez r´eduites par rapport aux autres zones.
La zone 2 de Phoenix pr´esente des r´esultats de moins bonne qualit´e. Ceci s’explique par le fait
que cette zone contient de nombreux bˆatiments particuli`erement hauts. Ces bˆatiments g´en`erent
de grandes zones d’occlusion et donc de nombreuses erreurs qui ne sont pas totalement filtr´ees
lors de la g´en´eration des MNS. De plus, cette zone contient plusieurs zones de v´eg´etation qui
entraˆınent de nombreuses fausses alarmes. Enfin, seulement 71 changements sont recens´es dans
cette zone dont moins d’un tiers sont de grands changements bien d´etectables.
Finalement, la zone 3 pr´esente des r´esultats situ´es qualitativement entre la zone 1 et la zone 2.
Cette zone contient de nombreux changements (138) mais seul un quart correspond `a des changements
larges, ce qui explique les taux plus faibles de bonnes d´etections. Cette zone contient aussi
une voie express avec de nombreux v´ehicules g´en´erant un certain nombre de fausses alarmes.
Cependant, `a forte r´egularisation, les nombreuses fausses alarmes g´en´er´ees, (qui sont de petite
taille) sont supprim´ees permettant d’atteindre un tr`es faible taux de fausses alarmes `a λ = 5.
Christchurch
Les r´esultats obtenus pour la zone de Christchurch sont pr´esent´es en figure 5.11. Comme
pr´ec´edemment, les changements de taille sup´erieure `a 100 m2
sont repr´esent´es par la courbe
bleue et les changements toutes tailles confondues par la courbe rouge. Au vu du tr`es faible
nombre de changements inf´erieurs `a 100 m2
(8 seulement), les courbes sont tr`es proches, que ce
soit les courbes de bonnes d´etections ou de fausses alarmes.
Dans les deux cas, le coefficient Kappa atteint plus de 0,8 (0,8 pour tous les changements et
0,85 pour les changements sup´erieurs `a 100 m2
). Lorsque tous les changements sont consid´er´es,
ce coefficient apparaˆıt tr`es haut par rapport `a celui obtenu sur les zones de Phoenix (il est de
0,72 dans le meilleur r´esultat de Phoenix). Ceci s’explique par le faible nombre de changements
de petite taille. Lorsque seuls les grands changements sont consid´er´es, le coefficient Kappa est
de 0,85, coefficient proche des meilleurs r´esultats de Phoenix.
Cependant, d’apr`es la figure 5.11(a), si le taux de bonne d´etection est haut (il va de 100% `a
80% pour les changements larges), on observe un taux de fausses alarmes assez haut.
126CHAPITRE 5. EXPERIMENTATION ET DISCUSSION DES R ´ ESULTATS DE LA ´
METHODE DE D ´ ETECTION DES CHANGEMENTS D’ ´ EL´ EVATION ´
(a) Taux de vrais et faux positifs calcul´es
pour la zone de Christchurch.
(b) Coefficient Kappa calcul´es pour la zone
de Christchurch.
Figure 5.11 – 5.11(a) : Variations des taux de bonnes et fausses d´etections en fonction du λ.
5.11(b) : Variation du coefficient Kappa. R´esultats calcul´es pour la zone de Christchurch.
En effet, la zone s´electionn´ee dans Christchurch contient beaucoup de v´eg´etation sous la
forme d’arbres imposants et tr`es proches des habitations. Cet ´el´ement est souvent source de
fausses alarmes, notamment lorsque des arbres sont coup´es ou des haies sont plant´ees entre
deux acquisitions.
Cette zone, assez diff´erente en terme de paysage et contenant des d´efauts plus prononc´es
que les zones de Phoenix, montre tout de mˆeme une r´egularisation optimale aux environs d’un
λ = 5, 0 pour des changements sup´erieurs `a 100 m2
. Cette valeur de r´egularisation, identique `a
celle trouv´ee pour les 3 zones de Phoenix apparaˆıt ainsi bien adapt´ee au contexte urbain.
5.4 Analyse des r´esultats sur la zone de Sendai
Les r´esultats obtenus sur la zone de Sendai sont pr´esent´es en figure 5.12. Sur cette figure, la
courbe des bonnes d´etections est trac´ee en bleue, la courbe des fausses alarmes en rouge et la
courbe du coefficient Kappa en vert.
Contrairement aux zones pr´esent´ees pr´ec´edemment, la courbe des bonnes d´etections d´ecroˆıt
doucement, de fa¸con presque lin´eaire, tandis que la courbe des fausses alarmes, tr`es basse mˆeme
`a faible r´egularisation, ne d´ecroˆıt que tr`es peu puis semble se stabiliser `a moins de 10% de
fausses alarmes.
1275.4. ANALYSE DES RESULTATS SUR LA ZONE DE SENDAI ´
La courbe Kappa, quant `a elle, pr´esente un maximum `a environ 6,5 pour une r´egularisation `a
λ = 3, 0.
Le fort taux de bonnes d´etections, mˆeme `a haute r´egularisation, s’explique par le nombre
tr`es important de changements contigus de la sc`ene. En effet, pr`es de 300 bˆatiments ont ´et´e
recens´es sur une zone de 270 km2
soit une densit´e d’habitation de plus d’un bˆatiment pour
1 000 m2
. Densit´e indiquant des bˆatiments tr`es proches entre eux.
De plus, ces bˆatiments sont tr`es peu ´elev´es par rapport `a ceux des villes pr´ec´edemment ´etudi´ees
puisque leur hauteur n’exc`ede pas 5 m.
Or, la m´ethode d´evelopp´ee, bas´ee sur la notion de coh´erence locale traduite par l’utilisation
d’une r´egularisation spatiale, a tendance `a lisser les variations de labels hautes fr´equences. Dans
le cas du suivi urbain, cette caract´eristique permet de supprimer les fines variations de labels
qui repr´esentent alors g´en´eralement des fausses alarmes puisque la grande majorit´e de l’image
est labellis´ee non–changement.
Dans le cas de Sendai, au contraire, la majorit´e de l’image est labellis´ee en changement. Ainsi,
`a l’int´erieur de la zone d´etruite, ce sont les pixels labellis´es non–changements qui apparaissent
comme des variations fines de labels et qui auront donc tendance `a ˆetre supprim´es.
Ce ph´enom`ene tend `a limiter la pr´esence de fausses alarmes de changements sous forme d’amas
de pixels isol´es et `a maintenir un taux de bonnes d´etections tr`es haut.
Ainsi, la m´ethode d´evelopp´ee ne permet pas de discriminer chacun des bˆatiments d´etruits
dans la zone totalement sinistr´ee mais elle va plutˆot d´elimiter cette zone sinistr´ee. Toutefois,
la m´ethode peut s’av´erer tr`es int´eressante pour localiser les bˆatiments d´etruits isol´es et
plus difficiles `a retrouver visuellement car noy´es au milieu des tr`es nombreux changements
radiom´etriques.
La courbe Kappa pr´esente une forte augmentation partant d’une r´egularisation λ = 1, 0
`a λ = 3, 5, augmentation due `a la baisse du nombre de fausses alarmes et au maintien
des bonnes d´etections `a un taux ´elev´e. Puis, entre λ = 3, 5 et λ = 5, 0, le kappa montre
une diminution qui s’explique par un palier et mˆeme une l´eg`ere augmentation du nombre
de fausses alarmes (ph´enom`ene qui apparait lorsque la r´egularisation va diviser une alarme
importante de changement en deux alarmes distinctes) et la baisse du taux de bonnes d´etections.
128CHAPITRE 5. EXPERIMENTATION ET DISCUSSION DES R ´ ESULTATS DE LA ´
METHODE DE D ´ ETECTION DES CHANGEMENTS D’ ´ EL´ EVATION ´
Figure 5.12 – Courbes des taux de bonnes d´etections, fausses alarmes et coefficient Kappa.
Enfin, lorsque la r´egularisation atteint λ = 5, 0, le Kappa baisse de fa¸con quasi lin´eaire en
suivant la tendance du taux de bonnes d´etections.
Finalement, les courbes pr´esent´ees montrent de nouveau une r´egularisation optimale proche
de λ = 3, 0 lorsque des changements de toutes les tailles (mais majoritairement inf´erieurs `a
100 m2
) sont recherch´es, mˆeme dans un contexte aussi particulier que celui d’une destruction
massive du bˆati et surtout avec des images provenant d’un capteur tr`es haute r´esolution diff´erent
de celui utilis´e pour les zones exp´erimentales pr´ec´edentes.
La figure 5.13 pr´esente la carte des changements obtenue sur une emprise importante de
la r´egion de Sendai. Cette carte a ´et´e obtenue avec une r´egularisation λ = 3, 0, r´egularisation
optimale d´efinie pr´ec´edemment. L’ampleur de la destruction est particuli`erement visible sur cette
carte qui laisse pourtant apparaˆıtre des zones en changements positifs. Ces zones ne sont pas
des erreurs mais correspondent en fait `a des amas, tr`es probablement de d´ebris, apparus entre
les acquisitions avant et apr`es la catastrophe.
Nous rappelons que l’image post–´ev`enement a ´et´e acquise 5 mois apr`es la catastrophe. La zone
d´etruite a donc ´et´e en grande partie d´eblay´ee durant ces 5 mois. Cet intervalle d’acquisition
peut alors repr´esenter un inconv´enient pour la mesure de la performance de notre m´ethode, le
r´esultat de la carte de changement serait peut ˆetre diff´erent si la zone n’avait pas ´et´e d´eblay´ee.
1295.4. ANALYSE DES RESULTATS SUR LA ZONE DE SENDAI ´
(a) Ortho image Ikonos de 2010. (b) Ortho image Ikonos de 2011.
(c) Carte des changements d’´el´evation obtenue avec λ = 3.
Figure 5.13 – Images ortho rectifi´ees de la r´egion de Tohoku et carte des changements r´esultante.
130CHAPITRE 5. EXPERIMENTATION ET DISCUSSION DES R ´ ESULTATS DE LA ´
METHODE DE D ´ ETECTION DES CHANGEMENTS D’ ´ EL´ EVATION ´
Cette carte de changements met aussi clairement en ´evidence les destructions apparues dans
la v´eg´etation, notamment sur la partie sud de l’image o`u une forˆet enti`ere a ´et´e d´evast´ee par
le tsunami. Bien que les changements sur la v´eg´etation soient g´en´eralement compt´es en fausses
alarmes, ceux–ci apparaissent pertinents puisque les d´egˆats environnementaux peuvent aussi
avoir un fort impact ´economique pour une r´egion et n´ecessiter une ´evaluation.
5.5 Conclusion
Ce chapitre a permis de tester les performances de la m´ethode d´evelopp´ee pour la d´etection
des changements d’´el´evation ainsi que sa sensibilit´e envers les param`etres utilis´es ou les donn´ees
d’entr´ee.
Ces ´evaluations ont ´et´e r´ealis´ees grˆace `a la comparaison des cartes de changements obtenues
avec des cartes de r´ef´erences g´en´er´ees manuellement (ou `a l’aide d’un LiDAR) et `a travers
l’utilisation de plusieurs m´etriques classiques de la litt´erature : les taux de bonnes d´etections et
de fausses alarmes ainsi que le coefficient Kappa.
Comme attendu, la r´egularisation est le param`etre ayant la plus forte influence sur le r´esultat.
Les diff´erents cas test pr´esent´es (Phoenix, Christchurch et Sendai) ont permis de montrer que
lorsque des changements de toutes tailles sont recherch´es, la r´egularisation optimale se situe `a
environ λ = 3, 0 et permet d’obtenir 100% des changements d´etect´es pour 70% `a 80% de fausses
alarmes.
Lorsque seuls les changements sup´erieurs `a 100 m2
sont cibl´es, une r´egularisation λ = 5, 0 est
recommand´e et permet d’obtenir plus de 80% de bonnes d´etections et moins de 20% de fausses
alarmes.
Nous avons aussi pu observer que la qualit´e du MNS avait un impact important sur la qualit´e
du r´esultat, notamment `a faible r´egularisation lorsque les changements de petite taille sont
consid´er´es et que le taux de fausses alarmes g´en´er´ees par les erreurs des MNS est ´elev´e.
Enfin, dans le cas d’une sc`ene pr´esentant des changements tr`es important dus `a une catastrophe
majeure, nous avons pu montrer les performances de la m´ethode en termes de bonnes d´etections
et de fausses alarmes tout en confirmant une r´egularisation optimale `a λ = 3, 0 lorsque les
changements de toutes les tailles sont recherch´es. Si ces analyses permettent d´ej`a une bonne
´evaluation des performances de la m´ethode envers diff´erents param`etres, elles pourraient
1315.5. CONCLUSION
cependant ˆetre compl´et´ees par des analyses portant sur l’impact de la r´esolution native et la
qualit´e (contraste et piqu´e) des images d’entr´ee sur la taille des changements d´etectables et leur
taux de d´etection.
132Chapitre 6
Conclusion g´en´erale
6.1 Conclusion
Nous pr´esentons, dans ce travail de th`ese, une chaˆıne de traitements automatique, non
supervis´ee et efficace pour la recherche des changements d’´el´evation apparus entre deux dates
d’int´erˆet. Cette chaˆıne est bas´ee sur la g´en´eration de MNS `a chaque date `a partir de couples
d’images satellites st´er´eoscopiques tr`es haute r´esolution puis sur l’analyse de leur diff´erences.
L’un des avantages de cette chaˆıne est d’ˆetre totalement automatique, c’est–`a–dire qu’aucune
information externe n’est n´ecessaire. Cet avantage permet de garantir l’efficacit´e de la m´ethode
sur n’importe quelle zone du globe, pourvu que des couples st´er´eoscopiques soient pr´esents aux
dates d’int´erˆet.
Nous avons montr´e au cours de cette th`ese que l’un des ´el´ements les plus sensibles de la
m´ethode est la qualit´e du MNS, c’est pourquoi une grande partie de ce travail est d´edi´ee `a
l’am´elioration de la pr´ecision des MNS produits par imagerie spatiale.
Une technique innovante, bas´ee sur la fusion de tous les MNS asym´etriques r´ealisables `a partir
d’un mˆeme couple st´er´eoscopique a ´et´e d´evelopp´ee dans cet objectif. Cette m´ethode s’est av´er´ee
particuli`erement efficace pour diminuer les erreurs de corr´elations dans le MNS final, qu’elles
proviennent de la mise en correspondance sur des objets difficiles de la sc`ene ou des zones
d’occlusion de l’une ou l’autre image du couple. Enfin, nous avons montr´e que cette m´ethode
´etait aussi avantageuse pour traiter la multi–st´er´eoscopie.
1336.1. CONCLUSION
La m´ethode de d´etection des changements d’´el´evation d´evelopp´ee dans la chaˆıne de
traitements est bas´ee sur une classification optimis´ee de tous les pixels du MNS diff´erentiel,
classification qui d´epend de la valeur de diff´erence d’´el´evation des pixels mais aussi d’une
contrainte spatiale permettant de limiter les variations de labels affect´es `a des pixels connexes.
Cette m´ethode de classification permet ainsi de mettre en avant les changements coh´erents de
la sc`ene tout en supprimant le bruit de corr´elation tandis que l’´equilibre fausses alarmes et
bonnes d´etections est alors contrˆol´e par le param`etre de r´egularisation λ.
Cette m´ethode a ´et´e test´ee sur plusieurs zones diff´erentes et dans un contexte de recherche
des changements urbains typiques d’une ville. Ces zones ont ´et´e s´electionn´ees dans les villes de
Phoenix (Arizona, Etats-Unis) et de Christchurch (Nouvelle-Z´elande). ´
Les r´esultats montrent que, lorsque un taux de d´etection de plus de 80% est attendu et pour
des changements de taille sup´erieure `a 15×15 pixels, les taux de fausses alarmes varient alors
de 20% `a 35% seulement et avec une r´egularisation optimale d´efinie `a λ = 5, 0.
Lorsque des changements de toutes tailles sont recherch´es, la r´egularisation optimale est alors
abaiss´ee `a environ λ = 3, 0 et permet la d´etection de 60% `a 80% des changements avec de 40%
`a 60% de fausses alarmes.
Ces r´esultats sont cependant particuli`erement sensibles aux sources d’erreurs de corr´elation
pr´esentes dans la sc`ene.
Dans un contexte plus particulier de destruction urbaine importante, apr`es une catastrophe
majeure, nous montrons que les mˆemes r´egularisations peuvent s’appliquer et entraˆınent un
taux de plus de 95% de bonnes d´etections et moins de 10% de fausses alarmes, valeurs obtenues
pour la r´egion de Tohoku, touch´ee par un tsunami le 11 mars 2011.
La chaˆıne de traitement d´evelopp´ee n´ecessite cependant l’utilisation de nombreux param`etres,
que ce soit pour la g´en´eration des MNS ou la d´etection des changements. On montre
pourtant que, quel que soit le contexte ou le capteur tr`es haute r´esolution (ville de Phoenix
en image WorldView-1 ou r´egion d´etruite de Sendai en images Ikonos) les mˆeme param`etres
peuvent ˆetre utilis´es. Nous montrons ainsi que seule la r´esolution du capteur ou le contexte de
la zone d’´etude (urbaine ou rurale vallonn´ee) doivent ˆetre pris en compte pour la g´en´eration des
MNS tandis que la r´esolution des images, la taille des changements ou la pr´ecision recherch´ee
134CHAPITRE 6. CONCLUSION GEN´ ERALE ´
sont les seules v´eritables contraintes du syst`eme de d´etection de changements.
Enfin, le syst`eme fonctionne sur un seul et mˆeme “noyau” algorithmique, noyau que nous
avons r´ealis´e de fa¸con `a le rendre adaptable `a de nombreux probl`emes de labellisation tandis
que les probl`emes rencontr´es dans la chaˆıne de traitements sont eux–mˆemes tous formul´es
en termes de labellisation des pixels d’une image selon des contraintes de probabilit´e et une
contrainte de r´egularisation spatiale.
6.2 Perspectives
Nous pouvons mettre en ´evidence trois perspectives d’´evolution `a fort int´erˆet pour la chaˆıne
de traitements d´evelopp´ee.
La premi`ere consiste en la cr´eation d’un masque de v´eg´etation. En effet, nous avons montr´e,
lors des ´etapes de g´en´eration de MNS, que la mise en correspondance avait une forte tendance
`a produire des erreurs sur des textures 3D aussi complexes que la v´eg´etation. Dans l’´etape
de basculement des MNS, la v´eg´etation est partiellement supprim´ee grˆace aux contraintes sur
le score de corr´elation et dans l’´etape suivante de fusion des MNS, d’autres erreurs dues `a la
v´eg´etation peuvent ˆetre ´elimin´ees grˆace `a la r´egularisation sur le MNS.
Mais ces erreurs restent n´eanmoins une des sources principales de fausses alarmes dans la
d´etection des changements, notamment lorsque les couples ou n-uplets st´er´eoscopiques n’ont
pas ´et´e acquis `a la mˆeme saison et que la v´eg´etation est alors plus ou moins d´evelopp´ee entre
les images.
Ce ph´enom`ene a notamment ´et´e illustr´e sur les cartes de changements obtenues sur la zone de
Christchurch. Cependant, nous avons aussi pu montrer les d´egˆats importants sur la v´eg´etation
apr`es la catastrophe de Sendai grˆace aux changements d´etect´es sur la v´eg´etation. Les changements
apparus sur la v´eg´etation peuvent ainsi, selon le contexte ou l’application demand´ee, ˆetre
recherch´es ou ˆetre consid´er´es en fausses alarmes.
C’est pourquoi une perspective int´eressante `a ce travail est la cr´eation de masques de v´eg´etation
afin de diminuer les fausses alarmes g´en´er´ees ou bien afin de mettre en ´evidence les alarmes de
changements que la v´eg´etation produit.
1356.2. PERSPECTIVES
Afin d’´eviter les cas o`u une zone de v´eg´etation serait transform´ee en zone bˆatie ou inversement,
il serait alors n´ecessaire de g´en´erer des masques de v´eg´etation correspondant `a chacune des
dates d’´etude.
Deux solutions pourraient ensuite ˆetre envisag´ees pour la prise en compte de ces masques dans
la d´etection des changements. Une premi`ere approche serait le filtrage post–traitement des
alarmes de changements lorsque qu’une alarme correspond, `a chacune des dates, `a une zone
de v´eg´etation. Une seconde approche, certainement plus pr´ecise, consisterait `a consid´erer la
v´eg´etation comme un label `a part enti`ere lors de la classification des pixels.
Une autre perspective d’am´elioration de la pr´ecision des r´esultats peut ˆetre repr´esent´ee par
le couplage de la m´ethode de d´etection des changements d’´el´evation, telle que nous l’avons
con¸cue, avec une m´ethode de d´etection des changements radiom´etriques.
Nous avons pr´ecis´e, au d´ebut de ce travail, que les m´ethodes de d´etection des changements
radiom´etriques ´etaient tr`es sensibles aux conditions d’acquisitions des images et d´etectaient
ainsi des changements d’illumination non pertinents pour notre contexte. Cependant, nous
avons aussi montr´e que notre m´ethode peut aussi g´en´erer des fausses alarmes mais sur des zones
trop homog`enes ou trop p´eriodiques qui sont une gˆene pour la mise en correspondance. Ainsi,
le filtrage, par exemple, des alarmes de changements 3D par une m´ethode de d´etection des
changements radiom´etriques pourrait s’av´erer tr`es avantageux pour la pr´ecision des r´esultats
finaux.
Enfin, une derni`ere perspective `a ce travail est la g´en´eration de MNS `a partir d’images
satellites monososcopiques, n’ayant pas ´et´e acquises simultan´ement. En effet, la chaˆıne de
traitements d´evelopp´ee est bas´ee sur l’utilisation de couple ou uplets st´er´eoscopiques n´ecessaires
pour les deux dates t1 et t2. Cette condition, requise pour tout traitement, n’est pourtant pas
toujours satisfaite sur toutes les r´egions du globe car si les satellites aujourd’hui font preuve
d’une grande r´eactivit´e et peuvent acqu´erir des images st´er´eoscopiques dans un court d´elai et
n’importe o`u, les archives st´er´eoscopiques ne sont, elles, pas toujours disponibles.
Une piste importante consisterait donc `a d´evelopper une m´ethode capable de g´en´erer des MNS
`a partir de nombreuses images monoscopiques acquises dans les mois qui entourent la date
d’int´erˆet t1 et avec n’importe quel capteur tr`es haute r´esolution. La mise en correspondance de
136CHAPITRE 6. CONCLUSION GEN´ ERALE ´
toutes les images n´ecessiterait alors la prise en compte de leurs diff´erences qu’elles soient dues
`a l’acquisition des images comme les diff´erences d’illumination ou aux changements survenus
entre les acquisitions.
Cette piste pr´esente ainsi un fort int´erˆet dans de nombreux domaines n´ecessitant la cr´eation de
MNS.
1376.2. PERSPECTIVES
138Table des figures
1.1 Sch´ema de principe des diff´erentes g´eom´etries de mise en correspondance. . . . . 34
1.2 Illustration des diff´erentes ´etapes de la chaˆıne globale de traitements. . . . . . . . 36
2.1 Illustration du syst`eme d’acquisition en barrette push–broom et des angles d’attitude
du satellite. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.2 Illustration du r´esultat de la spatio–triangulation pour le recalage des images. . . 44
2.3 Illustration du r´esultat de la spatio–triangulation pour le recalage des images
(´echelle en pixels). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.4 Illustration du calcul des r´esidus de la spatio–triangulation. . . . . . . . . . . . . 46
2.5 Illustration de la m´ethode des graph–cuts appliqu´ee `a une image. . . . . . . . . . 50
2.6 Illustration d’un effet de streaking le long des lignes d’une image trait´ee par programmation
dynamique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.7 Illustration du parcours des diff´erentes directions pour la programmation dynamique
afin de calculer le coˆut ”semi–global”. . . . . . . . . . . . . . . . . . . . . . 55
2.8 Illustration du calcul des coˆuts obtenus pour chaque label et chaque pixel de la
s´equence selon l’´equation 2.5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.1 Illustration de l’impact de la r´egularisation pour la g´en´eration de MNS. . . . . . 64
3.2 Principe de parcours de la grille image maˆıtre pour l’interpolation des points de
la grille r´eguli`ere. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.3 Illustration du principe de l’interpolation d’une grille r´eguli`ere terrain `a partir des
points obtenus dans la g´eom´etrie de l’image maˆıtre. . . . . . . . . . . . . . . . . . 69
3.4 Illustration du r´esultat du basculement d’un MNS WorldView-1 `a partir de la
carte des ´el´evations en g´eom´etrie image. . . . . . . . . . . . . . . . . . . . . . . . 70
139TABLE DES FIGURES
3.5 MNS asym´etriques provenant du mˆeme couple d’images st´er´eoscopiques. . . . . . 73
3.6 MNS provenant du mˆeme couple st´er´eoscopique et r´esultat de leur fusion par la
moyenne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.7 Sch´ema r´ecapitulatif de la proc´edure de fusion des MNS en fonction des valeurs
initiales et de l’attache aux donn´ees. . . . . . . . . . . . . . . . . . . . . . . . . . 80
3.8 3.8(a) et 3.8(b) : MNS calcul´es `a partir du mˆeme couple st´er´eoscopique et r´esultats
de leur fusion par optimisation globale 3.8(c). . . . . . . . . . . . . . . . . . . . . 81
3.9 3.9(a) et 3.9(b) : Histogrammes des cartes de diff´erences calcul´ees entre le liDAR
et le MNS asym´etrique et MNS fusionn´e, respectivement. . . . . . . . . . . . . . . 85
3.10 Profils d’´el´evation compar´es entre le MNS asym´etrique (en vert), le MNS fusionn´e
(en bleu) et le Lidar (en rouge). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
3.11 Illustration du triplet st´er´eoscopique Pl´eiades acquis sur la ville de Toulouse. . . 89
3.12 MNS calcul´es `a partir de 2 images puis 3 images du mˆeme uplet st´er´eoscopique. . 90
4.1 4.1(a) et 4.1(b) MNS de 2008 et 2011 calcul´es sur la zone 1 d´efinie sur la ville
de Phoenix. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.2 4.2(a) MNS diff´erentiel. 4.2(b) MNS diff´erentiel seuill´e. . . . . . . . . . . . . . . 96
4.3 Fonction sigmo¨ıdale permettant le calcul des coˆuts d’attache aux donn´ees pour le
label changement positif. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.1 Orthoimages provenant des images panchromatiques WorldView–1 repr´esentant
les trois zones test´ees sur la ville de Phoenix et la zone de Christchurch. . . . . . 103
5.2 5.2(a)Orthoimage calcul´ee et 5.2(b) donn´ee de r´ef´erence des changements de la
zone 1 de Phoenix. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
5.3 Ortho images et MNS calcul´es avant et apr`es la catastrophe de Sendai du
11/03/2011. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
5.4 Zone partiellement d´etruite par le Tsunami et quantifi´ee `a travers la carte de
r´ef´erence des bˆatiments d´etruits et intacts. . . . . . . . . . . . . . . . . . . . . . 108
5.5 Cartes de d´etection de changement obtenues `a partir d’un nombre variable de
directions de calcul et une r´egularisation λ = 3, 0. . . . . . . . . . . . . . . . . . . 114
5.6 Illustration de l’impact du nombre de directions de calcul sur les taux de bonnes
et fausses d´etections. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
140TABLE DES FIGURES
5.7 Cartes des d´etections calcul´ee avec diff´erentes valeurs de λ et 12 directions. . . . 116
5.8 5.8(a) et 5.8(c) : Variations des taux de fausses et vraies d´etections en fonction de
la r´egularisation λ. 5.8(b) et 5.8(d) : Variation du coefficient Kappa en fonction
de la r´egularisation λ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.9 5.9(a) et 5.9(c) : Variations des taux de fausses et vraies d´etections en fonction
de la r´egularisation λ ou de la taille de l’´el´ement structurant. 5.9(b) et 5.9(d) :
Variations du coefficient Kappa en fonction de la r´egularisation λ ou de la taille
de l’´el´ement structurant. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
5.10 5.10(a), 5.10(c) et 5.10(e) Variations des taux de bonnes et fausses d´etections en
fonction du λ ; 5.10(b), 5.10(d) et 5.10(f ) Variations du coefficient Kappa pour
chacune des zones test de Phoenix. . . . . . . . . . . . . . . . . . . . . . . . . . . 125
5.11 5.11(a) : Variations des taux de bonnes et fausses d´etections en fonction du λ.
5.11(b) : Variation du coefficient Kappa. R´esultats calcul´es pour la zone de Christchurch.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
5.12 Courbes des taux de bonnes d´etections, fausses alarmes et coefficient Kappa. . . . 129
5.13 Images ortho rectifi´ees de la r´egion de Tohoku et carte des changements r´esultante. 130
141TABLE DES FIGURES
142Liste des tableaux
1.1 M´etadonn´ees des images utilis´ees lors des diff´erentes ´etudes. . . . . . . . . . . . . 38
3.1 Tableau de synth`ese des param`etres de la m´ethode compl`ete de g´en´eration des MNS. 92
4.1 Tableau de synth`ese des param`etres n´ecessaires `a la m´ethode de d´etection des
changements d’´el´evation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
143LISTE DES TABLEAUX
144Bibliographie
[1] E. Berthier, Y. Arnaud, R. Kumar, S. Ahmad, P. Wagnon, and P. Chevallier. Remote
sensing estimates of glacier mass balances in the Himachal Pradesh (Western Himalaya,
India). In Remote Sensing of Environment, vol. 108 no. 3 pp. 327–338, 2007.
[2] P. Baldi, M. Fabris, M. Marsella, and R. Monticelli. Monitoring the morphological evolution
of the sciara del fuoco during the 2002 – 2003 Stromboli eruption using multi–temporal
photogrammetry. In ISPRS Journal of Photogrammetry and Remote Sensing, vol. 59 no. 4
pp. 199–211, 2005.
[3] M. Koga and A. Iwasaki. Improving the measurement accuracy of three-dimensional topography
changes using optical satellite stereo image data. In IEEE Transactions on Geoscience
and Remote Sensing, vol. 49 no. 8 pp. 2918–2923, Aug. 2011.
[4] K. Tsutsui, S. Rokugawa, H. Nakagawa, S. Miyazaki, C. Cheng, T. Shiraishi, and Shiun-Der
Yang. Detection and volume estimation of large-scale landslides based on elevation–change
analysis using DEMs extracted from high–resolution satellite stereo imagery. In IEEE
Transactions on Geoscience and Remote Sensing , vol. 45 no. 6 pp. 1681–1696, Jun. 2007.
[5] N. Champion, D. Boldo, M. Pierrot-Deseilligny, and G. Stamon. 2D Change detection
from satellite imagery : performance analysis and impact of the spatial resolution of input
images. In IEEE International Geoscience and Remote Sensing Symposium (IGARSS), pp.
1421–1424, Jul. 2011.
[6] P. Reinartz, J. Tian, and A.A. Nielsen. Building damage assessment after the earthquake
in Haiti using two post–event satellite stereo imagery and dsms. In Joint Urban Remote
Sensing Event (JURSE), pp. 057–060, 2013.
145BIBLIOGRAPHIE
[7] R.J. Radke, S. Andra, O. Al-Kofahi, and B. Roysam. Image change detection algorithms : a
systematic survey. In IEEE Transactions on Image Processing, vol. 14, no. 3, pp. 294–307,
Mar. 2005.
[8] J. Tian, H. Chaabouni-Chouayakh, P. Reinartz, T. Krauss, and P. d Angelo. Automatic 3D
change detection based on optical satellite stereo imagery. In ISPRS TC VII Symposium,
Vienna, 2010.
[9] P. J. Deer. Digital change detection techniques : Civilian and military applications. In
International Symposium on Spectral Sensing Research, 1995.
[10] A. Singh. Review article digital change detection techniques using remotely–sensed data.
In International Journal of Remote Sensing, vol. 10, no. 6, pp. 989–1003, 1989.
[11] M. Volpi, D. Tuia, M. Kanevski, F. Bovolo, and L. Bruzzone. Supervised change detection
in VHR images : a comparative analysis. In IEEE International Workshop on Machine
Learning for Signal Processing, pp. 1–6, Sept. 2009.
[12] L. Bruzzone and F. Bovolo. A conceptual framework for change detection in very high
resolution remote sensing images. In IEEE International Geoscience and Remote Sensing
Symposium (IGARSS), pp. 2555–2558, Jul. 2010.
[13] P.L. Rosin and E. Ioannidis. Evaluation of global image thresholding for change detection.
In Pattern Recognition Letters, vol. 24, no. 14, pp. 2345–2356, 2003.
[14] F. Bovolo, L. Bruzzone, and M. Marconcini. A novel approach to unsupervised change
detection based on a semi–supervised SVM and similarity measure. In IEEE Transaction
on Geoscience and Remote Sensing Letters, vol. 46, no. 7, pp. 2070–2082, 2008.
[15] D.H.A. Al-Khudhairy, I. Caravaggi, and S. Clada. Structural damage assessments from Ikonos
data using change detection, object–oriented segmentation and classification techniques.
In Photogrammetric Engineering and Remote Sensing, vol. 71, pp. 825–837, 2005.
[16] L. Bruzzone and D.F. Prieto. Automatic analysis of the difference image for unsupervised
change detection. In IEEE Transactions on Geoscience and Remote Sensing, vol. 38, no. 3,
pp. 1171–1182, May 2000.
146BIBLIOGRAPHIE
[17] T.T. Vu, M. Matsuoka, and F. Yamazaki. Lidar–based change detection of buildings in
dense urban areas. In IEEE International Geoscience and Remote Sensing Symposium
(IGARSS), vol. 5, pp. 3413–3416, Sep. 2004.
[18] G. Sithole and G. Vosselman. Automatic structure detection in a point–cloud of an urban
landscape. In 2nd GRSS/ISPRS Joint Workshop on Remote Sensing and Data Fusion over
Urban Areas, pp 67–71, May 2003.
[19] F. Rottensteiner. Automated updating of building data bases from digital surface models
and multi–spectral images : Potential and limitations. In ISPRS Congress, Beijing, China,
vol. 37, pp. 265–270, Dec. 2008.
[20] G. Vosselman, B. G. H. Gorte, and G. Sithole. Change detection for updating medium scale
maps using laser altimetry. In Proceedings of the 20th ISPRS Congress, pp. 12–23, 2004.
[21] L. Matikainen, J. Hyyppa, E. Ahokas, L. Markelin, and H. Kaartinen. Automatic detection
of buildings and changes in buildings for updating of maps. In Remote Sensing, vol. 2, no.
5, pp. 1217–1248, 2010.
[22] H. Chaabouni-Chouayakh, P. d’Angelo, T. Krauss, and P. Reinartz. Automatic urban area
monitoring using digital surface models and shape features. In Joint Urban Remote Sensing
Event (JURSE), pp. 85–88, Apr. 2011.
[23] F. Jung. Detecting building changes from multitemporal aerial stereopairs. In ISPRS
Journal of Photogrammetry and Remote Sensing, vol. 58, no. 4, pp. 187–201, 2004.
[24] J. Tian, H. Chaabouni-Chouayakh, and P. Reinartz. 3D Building change detection from high
resolution spaceborne stereo imagery. In International Workshop on Multi-Platform/MultiSensor
Remote Sensing and Mapping (M2RSM), pp. 1–7, 2011.
[25] J. A. Marchant and C. M. Onyango. Shadow-invariant classification for scenes illuminated
by daylight. In Journal of the Optical Society of America A, vol. 17, no. 11, pp. 1952–1961,
Nov. 2000.
[26] J. Tian, S. Cui, and P. Reinartz. Building change detection based on satellite stereo imagery
and digital surface models. In IEEE Transactions on Geoscience and Remote Sensing, pp.
1–12, 2013.
147BIBLIOGRAPHIE
[27] A.A. Nielsen. The regularized iteratively reweighted mad method for change detection in
multi- and hyperspectral data. In IEEE Transactions on Image Processing, vol. 16, no. 2,
pp. 463–478, 2007.
[28] D. Scharstein and R. Szeliski. A taxonomy and evaluation of dense two–frame stereo correspondence
algorithms. In International Journal of Computer Vision, vol. 47, pp. 7–42,
2002.
[29] M.Z. Brown, D. Burschka, and G.D. Hager. Advances in computational stereo. In IEEE
Transactions on Pattern Analysis and Machine Intelligence, vol. 25, no. 8, pp. 993–1008,
2003.
[30] N. Lazaros, G.C. Sirakoulis, and A. Gasteratos. Review of stereo vision algorithms : from
software to hardware. In International Journal of Optomechatronics, vol. 2, no. 4, pp.
435–462, 2008.
[31] H. Hirschmuller. Accurate and efficient stereo processing by semi–global matching and mutual
information. In IEEE Computer Society Conference on Computer Vision and Pattern
Recognition (CVPR), vol. 2, pp. 807–814, Jun. 2005.
[32] M. Pierrot-Deseilligny and N. Paparoditis. A multiresolution and optimization–based image
matching approach : an application to surface reconstruction from SPOT5-HRS stereo imagery.
In Internationales Archives of Photogrammetry and Remote Sensing, 2006.
[33] Q. Yang, L. Wang, R. Yang, H. Stewenius, and D. Nister. Stereo matching with colorweighted
correlation, hierarchical belief propagation, and occlusion handling. In IEEE
Transactions on Pattern Analysis and Machine Intelligence, vol. 31, no. 3, pp. 492–504,
2009.
[34] A.F. Bobick and S.S. Intille. Large occlusion stereo. In International Journal of Computer
Vision, pp. 181–200, 1999.
[35] C. Baillard and A. Zisserman. Automatic reconstruction of piecewise planar models from
multiple views. In IEEE Computer Society Conference on Computer Vision and Pattern
Recognition (CVPR), vol. 2, pp. 559–65, Jun. 1999.
148BIBLIOGRAPHIE
[36] L. Zhang and A. Gruen. Multi–image matching for dsm generation from ikonos imagery. In
ISPRS Journal of Photogrammetry and Remote Sensing, vol. 60, no. 3, pp. 195–211, 2006.
[37] R. Zabih and J. Woodfill. Non–parametric local transforms for computing visual correspondence.
In Computer Vision ECCV’94, pp. 151–158, 1994.
[38] A. Klaus, M. Sormann, and K. Karner. Segment-based stereo matching using belief propagation
and a self–adapting dissimilarity measure. In IEEE Computer Society Conference
on Computer Vision and Pattern Recognition (CPVR), vol. 2, Jun. 2006.
[39] J. Sun, Y. Li, S.B. Kang, and H.Y. Shum. Symmetric stereo matching for occlusion handling.
In IEEE Computer Society Conference on Computer Vision and Pattern Recognition
(CVPR), vol. 2, pp. 399–406, 2005.
[40] M. Sizintsev and R.P. Wildes. Coarse-to-fine stereo vision with accurate 3d boundaries. In
Image and Vision Computing, vol. 28, no. 3, pp. 352–366, 2010.
[41] Y. Boykov and V. Kolmogorov. An experimental comparison of min-cut/max- flow algorithms
for energy minimization in vision. In IEEE Transactions on Pattern Analysis and
Machine Intelligence, vol. 26, no. 9, pp. 1124–1137, Sep. 2004.
[42] K Schindler. An overview and comparison of smooth labeling methods for land–cover
classification. In IEEE Transactions on Geoscience and Remote Sensing, vol. 50, no. 11,
pp. 4534–4545, Nov. 2012.
[43] P.F. Felzenszwalb and D.R. Huttenlocher. Efficient belief propagation for early vision. In
IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR),
vol. 1, pp. 261–268, Jul. 2004.
[44] O. Veksler. Stereo correspondence by dynamic programming on a tree. In IEEE Computer
Society Conference on Computer Vision and Pattern Recognition (CPVR), vol. 2, pp. 384–
390, Jun. 2005.
[45] H. Hirschmuller and D. Scharstein. Evaluation of cost functions for stereo matching. In
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1–8, Jun.
2007.
149BIBLIOGRAPHIE
[46] S. Birchfield and C. Tomasi. Depth discontinuities by pixel–to–pixel stereo. In International
Journal of Computer Vision, vol. 35, pp. 269–293, 1999.
[47] H. Hirschmuller, P. R Innocent, and J. Garibaldi. Real–time correlation based stereo vision
with reduced border errors. In International Journal of Computer Vision, vol. 47, no. 3,
pp. 229–246, 2002.
[48] M. Pierrot-Deseilligny L. Penard, N. Paparoditis. 3d building facade reconstruction under
mesh form from multiple wide angle views. In Proceedings of the 20th ISPRS Congress,
2005.
[49] P. Fua. A parallel stereo algorithm that produces dense depth maps and preserves image
features. In Machine Vision and Applications, vol. 6, pp. 35–49, 1993.
[50] G. Egnal and R.P. Wildes. Detecting binocular half-occlusions : empirical comparisons of
five approaches. In IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.
24, no. 8, pp. 1127–1133, 2002.
[51] S. Chambon and A. Crouzil. Towards correlation-based matching algorithms that are robust
near occlusions. In Proceedings of the 17th International Conference on Pattern Recognition
(ICPR), vol. 3, pp. 20–23, 2004.
[52] P. N. Belhumeur. A bayesian approach to binocular steropsis. In International Journal of
Computer Vision, vol. 19, no. 3, pp. 237–260, 1996.
[53] Y. Furukawa and J. Ponce. Accurate dense and robust multi–view stereopsis. In IEEE
Transactions Pattern Analysis and Machine Intelligence, vol. 32, pp. 1362–1376, 2010.
[54] F De Lussy, D. Greslou, C Dechoz, V. Amberg, J. M. Delvit, L. Lebegue, G. Blanchet,
and S. Fourest. Pleiades HR in flight geometrical calibration : location and mapping of the
focal plane. In ISPRS International Archives of the Photogrammetry, Remote Sensing and
Spatial Information Sciences, vol. 39, pp. 519–523, 2012.
[55] J. Grodecki and G. Dial. Block adjustment of high-resolution satellite images by rational
polynomials. In Photogrammetric Engineering and Remote Sensing, vol. 69, pp. 59–68,
2003.
150BIBLIOGRAPHIE
[56] C.S. Fraser, G. Dial, and J. Grodecki. Sensor orientation via RPCs. In ISPRS Journal of
Photogrammetry and Remote Sensing, vol. 60, pp. 182–194, 2006.
[57] S. Geman and D. Geman. Stochastic relaxation, gibbs distributions, and the bayesian
restoration of images. In IEEE Transactions on Pattern Analysis and Machine Intelligence,
vol. 6, no. 6, pp. 721–741, Nov. 1984.
[58] Y. Boykov, O. Veksler, and R. Zabih. Fast approximate energy minimization via graph–
cuts. In IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 23, no. 11,
pp. 1222–1239, Nov. 2001.
[59] S. Roy and I.J. Cox. A maximum–flow formulation of the n-camera stereo correspondence
problem. In Sixth International Conference on Computer Vision, pp. 492–499, Jan. 1998.
[60] Y. Weiss and W.T. Freeman. On the optimaly of solutions of the max-product belief
propagation algorithm in arbitrary graphs. In IEEE Transactions Information Theory, vol.
47, pp. 723–735, 2001.
[61] Daniel Scharstein and Richard Szeliski. vision.middlebury, 2012.
[62] L. Randolph Ford and D.R. Fulkerson. A simple algorithm for finding maximal network
flows and an application to the Hitchcock problem. Rand Corporation, 1955.
[63] V. Kolmogorov and R. Zabih. What energy functions can be minimized via graph–cuts. In
IEEE Transactions Pattern Analysis and Machine Intelligence, vol. 26, pp. 147–159, 2004.
[64] R. Szeliski, R. Zabih, D. Scharstein, O Veksler, V Kolmogorov, A. Agarwala, and C. Rother.
A comparative study of energy minimization methods for markov random fields. In
Computer Vision-ECCV, pp. 16–29, 2006.
[65] V. Kolmogorov. Convergent tree–reweighted message passing for energy minimization. In
IEEE Transactions Pattern Analysis and Machine Intelligence, vol. 28, pp. 1568–1583, 2006.
[66] P.F. Felzenszwalb and R. Zabih. Dynamic programming and graph algorithms in computer
vision. In IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 33, no. 4,
pp. 721–740, Apr. 2011.
151BIBLIOGRAPHIE
[67] Y. Otha and T. Kanade. Stereo by intra- and inter–scanline search using dynamic programming.
In IEEE Transactions Pattern Analysis and Machine Intelligence, vol. 2, pp.
139–154, 1985.
[68] R. B. Potts. Some generalized order–disorder transformations. Cambridge Philos. Soc.
Math. Proc., vol. 48, pp. 106–109, 1952.
[69] A. Fahmi, J. Jansa, C. Ries, et al. The generation of true orthophotos using a 3D building
model in conjunction with conventional DTM. In International Archives of Photogrammetry
and Remote Sensing, vol. 32, 1998.
[70] G. Singh, Y. Yamaguchi, W.-M. Boerner, and Sang-Eun Park. Monitoring of the March
11, 2011, off-tohoku 9.0 earthquake with super–tsunami disaster by implementing fully
polarimetric high–resolution polsar techniques. In Proceedings of the IEEE, vol. 101, no. 3,
pp. 831–846, 2013.
[71] J. Cohen. A coefficient of agreement for nominal scales. In Educational and psychological
measurement, vol. 20, no. 1, pp. 37–46, 1960.
[72] G.G. Wilkinson. Results and implications of a study of fifteen years of satellite image
classification experiments. In IEEE Transactions on Geoscience and Remote Sensing, vol.
43, no. 3, pp. 433–440, Mar. 2005.
[73] R.M. Haralick, S.R. Sternberg, and X. Zhuang. Image analysis using mathematical morphology.
In IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 9, no.
4, pp. 532–550, 1987.
152
Une approche d’alignement `a la probl´ematique de la
d´etection des activit´es habituelles
Rick Moritz
To cite this version:
Rick Moritz. Une approche d’alignement `a la probl´ematique de la d´etection des activit´es
habituelles. Computers and Society. INSA de Rouen, 2014. French. .
HAL Id: tel-00944105
https://tel.archives-ouvertes.fr/tel-00944105
Submitted on 10 Feb 2014
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of scientific
research documents, whether they are published
or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destin´ee au d´epˆot et `a la diffusion de documents
scientifiques de niveau recherche, publi´es ou non,
´emanant des ´etablissements d’enseignement et de
recherche fran¸cais ou ´etrangers, des laboratoires
publics ou priv´es.THESE
Pr´esent´ee `a :
L’Institut National des Sciences Appliqu´ees de Rouen
En vue de l’obtention du grade de :
Docteur en Informatique
Par
Rick P. C. MORITZ
Routine Activity Extraction from Local Alignments
in Mobile Phone Context Data
Soutenance le 05/02/2014
Devant le jury compos´e de :
Pr´esident Christophe Garcia Professeur des Universit´es LIRIS, INSA Lyon
Rapporteurs Bruno Cr´emilleux Professeur des Universit´es GREYC, Universit´e de Caen
Philippe Leray Professeur des Universit´es LINA, Universit´e de Nantes
Directeur de Th`ese Michel Mainguenaud Professeur des Universit´es LITIS, INSA de Rouen
Co-Encadrants Alexandre Pauchet Maˆıtre de Conf´erences LITIS, INSA de Rouen
Gr´egoire Lefebvre Ing´enieur R&D, Docteur Orange Labs MeylanAbstract
Humans are creatures of habit, often developing a routine for their day-to-day life.
We propose a way to identify routine as regularities extracted from the context data
of mobile phones. Mobile phones have become the de facto wearable sensor device,
used and carried on person over most of the day. We study existing approaches to
this problem, and deem past results not satisfactory, with regard to the ever richer
context data available, that is not being exploited. Subsequently, we choose Lecroq
et al.’s existing state of the art algorithm as basis for a set of modifications that render
it suitable for the task, foremostly addressing performance issues. This algorithm is
itself an evolution of a dynamic programming based local alignment algorithm, which
is frequently used in biological sequence analysis. Our approach searches alignments in
sequences of n-tuples of context data, which correspond to the user traces of routine
activity. Our key enhancements to this algorithm are exploiting the sequential nature of
the data to reduce algorithmic complexity by a factor equal to the number of data sources
available, and using an early maximisation approach to reject non-optimal alignments
in favour of optimal alignments.
We develop a generator of context-like data to allow us to evaluate our approach
automatically, without relying on manual annotation of ground truth. Additionally, we
collect and manually annotate a mobile phone context dataset to facilitate the evaluation
of our algorithm. The results are promising, allowing us to prove the concept of our
approach, while also outlining the limitations. Our contribution can be used as a filter
for a domain expert (e.g. the user of the mobile phone himself) to determine whether
a certain interval of data corresponds to an actual activity based habit, reducing the
workload compared to a pure manual approach. The configurability of the algorithm
allows the expert to have control over which patterns are filtered or retained.Contents
Nomenclature . . . . . . . . . . . . . . . . . . . . . . . . . . . . xii
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2 State of the Art . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1 Context Datasets . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.1 Reality Mining Dataset . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.2 Lausanne Data Collection Campaign . . . . . . . . . . . . . . . . . 7
2.1.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2 Machine Learning and Statistical Analysis . . . . . . . . . . . . . . 9
2.2.1 Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.2 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.3 Probabilistic State Machines . . . . . . . . . . . . . . . . . . . . . 12
2.2.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3 Sequence Mining . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3.1 Itemset Mining and Sequential Pattern Mining . . . . . . . . . . . 14
2.3.2 String Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.3 Comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.4 Conclusion and Direction . . . . . . . . . . . . . . . . . . . . . 46
3 Alignment of Sequences of n-Tuples . . . . . . . . . . . . . . . . . . . 47
3.1 Context Model . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.1.1 Sequence of n-tuples . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.1.2 Blocking and Sampling . . . . . . . . . . . . . . . . . . . . . . . . 49
3.1.3 Meta-data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2 Alignment Algorithm. . . . . . . . . . . . . . . . . . . . . . . 55
iv3.2.1 Contribution I: Reduction to n-tuple Problem . . . . . . . . . . . . 57
3.2.2 Contribution II: Locally Optimal Alignments . . . . . . . . . . . . 63
3.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4 Experimental Validation and Results . . . . . . . . . . . . . . . . . . 69
4.1 Synthetic Data Evaluation. . . . . . . . . . . . . . . . . . . . . 69
4.1.1 Synthetic Data Generator and Dataset . . . . . . . . . . . . . . . . 69
4.1.2 Synthetic Data Pattern Extraction Evaluation . . . . . . . . . . . 89
4.1.3 Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.2 Real World Data Evaluation . . . . . . . . . . . . . . . . . . . . 96
4.2.1 Data Collection Campaign . . . . . . . . . . . . . . . . . . . . . . . 96
4.2.2 Evaluation of Alignment Approach on Real Data . . . . . . . . . . 102
4.2.3 Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
5 Conclusions and Future Work . . . . . . . . . . . . . . . . . . . . . 109
Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
A Benchmarks of Supervised Classification Algorithms for Next Place Prediction . . 130
A.1 The Next Place Prediction Problem . . . . . . . . . . . . . . . . . 130
A.2 Dataset Analysis . . . . . . . . . . . . . . . . . . . . . . . . 130
A.3 Next Visit Prediction. . . . . . . . . . . . . . . . . . . . . . . 132
A.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
B Details on the evaluation processes . . . . . . . . . . . . . . . . . . . 138
B.1 Real world data . . . . . . . . . . . . . . . . . . . . . . . . . 138
B.1.1 Similarity score tables . . . . . . . . . . . . . . . . . . . . . . . . . 138
B.1.2 Detailed results of the alignment algorithm evaluation on synthetic
data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
B.1.3 Expert annotated patterns . . . . . . . . . . . . . . . . . . . . . . 145
vList of Figures
2.3.1 A WAP-tree and conditional WAP-trees for two subsequences c and ac
(Source: Pei et al. [2000]) . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.2 Examples of different types of repeat-related features in a string. . . . . . 26
2.3.3 Construction of a suffix tree from abcbcabc%. The numbers indicate both
the order and the index of the current suffix being added. New leaves and
nodes at each step are shaded. . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3.4 Identification of longest repeats using Baker’s algorithm in the complete
suffix tree from Fig. 2.3.3. Steps 7, 8 and 9 of the tree construction are
performed, adding the three shaded leaves. The order in which the leaves
are added is given by the nodes and indicated by the superscripts of the
vertex labels. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3.5 Original Needleman-Wunsch algorithm, as introduced by Needleman and
Wunsch [1970]. The left table is filled with incrementation markers (“1”)
at each location where a pair of values match. In the right table, the values
for all the cells have been determined, and the alignment highlighted by
arrows and bold values. The alignment (arrows) starts at the maximum
value and then follows the maximum values, upwards and to the left in
the table. The “skips” between values 5 and 4, and 3 and 2 are indicative
of deletions in the row-string. . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.6 Calculation of the local similarity using the dynamic programming approach.
The preceding values in the table are either incremented by the
substitution score, in the case of the diagonal predecessor, or decremented
by the indel penalty. The maximum value is carried over for all successive
operations. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
vi2.3.7 Dynamic programming version of the Needleman-Wunsch algorithm. Nonmatching
substitutions have no penalty, matching substitutions score a
value of 1 and insertions and deletions are penalised with a value of -
1. The left table shows how a particular cell value is calculated from
three predecessor values, the right table shows the complete table and
highlights the series of maximal values which indicate the alignment operations.
Note that the traceback follows substitutions over indels in cases
of ambiguity (e.g. the 4→3 transition marked in the right table), as the
value that was used to calculate the current value defines the path for the
traceback, and not necessarily the maximum value. . . . . . . . . . . . . . 36
2.3.8 Two accumulated similarity tables obtained using the Smith-Waterman
algorithm. The left has been calculated using a similarity score of 1 for
matches, and dissimilarity penalties of -2 for non-matching substitutions
and indels. The right table has this penalty reduced to -1. In each case,
the alignments with a similarity score of at least 3 have been highlighted.
Note how the higher penalty leads to smaller, more local alignments. . . . 38
2.3.9 Row and column prefixes, and accompanying notation. . . . . . . . . . . 40
2.3.10Three different ways of modelling context for different sequence mining
approaches. “Data synchronisation” refers to the need to have a full set
of sensor readings available at every time step, irrespective of different
sampling frequencies of the actual sensors. . . . . . . . . . . . . . . . . . . 42
3.1.1 The transformation of continuous context C(t) into context data in a
sequential model. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.1.2 Linking w- and z-axes into a single dimension, due to translational symmetry
(i.e.: every set of discrete steps taken along the z-axis is replicated
identically in the w-axis). . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.1.3 Splitting a long sequence of context data into blocks of roughly equal (but
not necessarily equal) lengths. . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.1.4 The reduction of the size of individual accumulated similarity score tables
which can be obtained by blocking. a and b are two sequences, with the
local similarity scores contained in the volume spanned between them. . . 51
3.1.5 A sample substitution similarity score table from the set of n tables. . . . 52
3.1.6 Two intervals of identical values but different lengths can be aligned by
assigning positive similarity score to insertions and deletions of identical
values. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
vii3.2.1 Two example context sequences, the resulting context data sequences and
an alignment (cells underlaid in grey) that corresponds to two similar
subsequences. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.2.2 Alignment of two context sequences a and b from a corpus. . . . . . . . . 56
3.2.3 Selection of tuple elements in a sequence using reverse addressing. The
origin of the coordinate system used here is in the lower right end of the
sequence. From there the first coordinate is incremented when moving
one element to left, and the second when moving one element upwards. . 58
3.2.4 Example of the •i,,j operator. If the operator is used on the same sequence
of n-tuples, with one pair of indices being higher than the other, the
smaller result is a subset of the larger one. In this case the result underlaid
in black is a subset of the result underlaid in grey. . . . . . . . . . . . . . 59
3.2.5 Selection of a column and row using the ↑ and ← operators. . . . . . . . . 60
3.2.6 Calculation of a column similarity score. Two columns are extracted from
two sequences, then aligned in inverse order, up to the point where the
similarity score reaches zero. The maximum similarity from this interval
is the similarity value we assign these two columns. . . . . . . . . . . . . . 61
3.2.7 The local dependencies of the calculation of a local similarity value. To
the left in the three-dimensional table of accumulated similarity scores T
and to the right the equivalent representation in the domain of the two
sequences a and b. Operations V and VI – insertion and deletion – are
one-dimensional operations and therefore appear only either in a or on b. 63
3.2.8 The rightmost (n-th) z-slice of a table T. The axes of the plane correspond
to the temporal axes of the sequences. The height and colour are
representations of the accumulated similarity value in the cell in T. The
white profile line denotes the plane of an arbitrarily chosen MASS. The
highest value is denoted by an X. . . . . . . . . . . . . . . . . . . . . . . . 64
3.2.9 The local neighbourhood of a node (in the centre of the shown cube) in
the accumulated score table T. The shown cube consists of 27 sub cubes,
the one at the centre being the “home node”. The other 26 surrounding
it, are the direct neighbours. A partial spatial subdivision is shown in the
lower left corner to illustrate the notion of “radius”. . . . . . . . . . . . . 66
viii3.2.10Accumulated similarity score table for the alignment operations of the
context data corresponding to two consecutive days. Each graph represents
one of the five slices (n = 5) of the z-axis, starting at one at the top,
incrementing to five at the bottom right. Height and colour correspond to
local similarity values. The x - y plane is spanned by the temporal axes
of the sequences. Note multiple peaks at different heights. . . . . . . . . . 67
4.1.1 Stream, pattern and cell for a simulated 4-tuple dataset. The stream
consists of patterns (coloured) and random data (light grey). Each pattern
consists of defined values (blue) and undefined values (white). . . . . . . . 71
4.1.2 Four alphabets A1, A2, A3, A4 with respective spectra 5, 6, 4 and 2. N.B.:
Different symbols across different sensors (e.g. “A”, “1”, “a”, “0”) are
used here for illustration purposes only, symbols are actually represented
by their indices (i.e. as in A2). . . . . . . . . . . . . . . . . . . . . . . . . 72
4.1.3 A set of patterns, P = {X1, . . . , Xm}, with n data sources and lengths
l1, . . . , lm, and a pattern element x = Xm,n,1 ∈ An. . . . . . . . . . . . . . 74
4.1.4 Illustration of dependence coefficient determination during creation of
similar patterns. The right vectors are created from the values of the
left vectors, through linear interpolation and scaling. . . . . . . . . . . . . 79
4.1.5 Noise is applied to symbol x from alphabet A1 using transition cost matrix
T1 and transition cost vectors ~b1,
~d1, ~e1. The resulting value is y = 4.
This example uses integer values for easier reading and comprehension, in
general the random values are real values. The process starts with value
x2,1,1 = 2 from pattern X2, extracts the corresponding row from T1 and
selects the smallest absolute value in the sum of the extracted row and a
random vector, to determine the index of the element to replace x. . . . . 84
4.1.6 Extract of a possible resulting stream with n = 4 and m = 3 different
patterns (blue, yellow and green) and noise (red). I and D indicate cells
in which insertions or deletions have happened. y is the symbol that has
been generated in Fig. 4.1.5. . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.1.7 Evaluation scoring example. . . . . . . . . . . . . . . . . . . . . . . . . . . 90
ix4.1.8 The ratios of the number of alignments to the combinatorially expected
number of identical pairs of patterns in two different files, for all five
datasets and all 27 experiments. As the number of patterns rises, the
expected number of pairs gets lower, and the rate of alignments gets
closer to the number of pairs.
*Note: The values for dataset 3 are on another scale than the others. . . . 93
4.2.1 Clustering of locations into places of the data gathered by one subject
over a one week timespan. Artificial jitter has been introduced to the
data, to better visualise data density. Note how nine incidences in the
top left are clustered together with the other points towards the top left.
The low number of incidences renders this error negligible. . . . . . . . . . 100
4.2.2 Visualisation of an extract of the captured data, with similar intervals
marked. This extract covers the morning period of two consecutive days.
The y-axis represents the different discretised context values. The values
shown in this extract are light intensity on a logarithmic scale (loglux),
the state of the proximity sensor (prox), the location cluster id (place),
the battery level (batt) and the orientation of the phone (ori). . . . . . . . 101
4.2.3 Alignment of three pre-selected patterns with campaign data in 58 slices
corresponding to 24-hour periods of 5-tuples. . . . . . . . . . . . . . . . . 103
4.2.4 Mean precision and recall for the instances in the corpus (“B” - part
of the alignment) for the 24 test configurations. From left to right are
the different values of MASS used. With rising MASS, both precision and
recall increase. The rightmost bars are fewer, as no alignments were made
with MASS values 1,700 and above for pattern 3, and no alignments were
made with MASS values 3,000 for pattern 1. Due to the smaller number
of elements contained in pattern 3, it has higher values than patterns 1
and 2 for the same MASS. . . . . . . . . . . . . . . . . . . . . . . . . . . 107
A.3.1Results for the Naive Bayes Classification Algorithm . . . . . . . . . . . . 134
A.3.2Results for the LogitBoost Adaptive Decision Tree Classification Algorithm135
A.3.3Results for the SMO Classification Algorithm without Feature Selection
Filters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
A.3.4Results for the SMO Classification Algorithm with Feature Selection Filters136
B.1.1Reference pattern 1 - evening and night at the week-end home. . . . . . . 146
B.1.2Reference pattern 2 - morning and transit to work on a week-day. . . . . . 147
B.1.3Reference pattern 3 - at work, telephone stored or turned over. . . . . . . 148
xList of Tables
2.1 Comparison of SPM and string mining . . . . . . . . . . . . . . . . . . . . 45
4.1 Configuration of the five datasets. . . . . . . . . . . . . . . . . . . . . . . 87
4.2 Configuration values for the 27 experiments making up a dataset. . . . . . 88
4.3 Transition matrix T used for the generation of the test datasets. . . . . . 88
4.4 Key results: averages and standard deviations across all configurations. . 91
4.5 Average Pattern Size for Dataset One . . . . . . . . . . . . . . . . . . . . 92
4.6 Key results: averages and standard deviations across all configurations
for the state of the art algorithm . . . . . . . . . . . . . . . . . . . . . . . 95
4.7 Evaluation results. A is the search pattern, B is the instance in the corpus.105
A.1 Classifier and Filter Configurations Tested . . . . . . . . . . . . . . . . . . . . 133
B.1 Similarity score table for luminance . . . . . . . . . . . . . . . . . . . . . . 139
B.2 Similarity score table for proximity . . . . . . . . . . . . . . . . . . . . . . 139
B.3 Similarity score table for places . . . . . . . . . . . . . . . . . . . . . . . . 139
B.4 Similarity score table for battery levels . . . . . . . . . . . . . . . . . . . . 140
B.5 Similarity score table for orientation values . . . . . . . . . . . . . . . . . 140
xiNomenclature
API Application Programming Interface. A set of exposed functions available to
programmers to make use of an established software platform.
BIDE BI-Directional Extension based frequent closed sequence mining. A closed
sequential pattern mining algorithm by Wang and Han (2004)
BLAST Basic Local Alignment Search Tool. An approximative but fast local alignment
algorithm by Altschul et al. (1990).
BLOSUM BLOcks SUbstitution Matrix - A substitution scoring matrix for the alignment
of proteins. The matrix entries are determined by statistical analysis
of a database of evolutionary observations.
BT Backtrack - Second step of a dynamic programming algorithm; in our case
a trace along elements in a score table, marking the operations required to
convert one sequence into another.
DNA Desoxyribonucleic acid. A molecule that encodes genetic information in a
sequence.
FASTA fast - All. A sequence mining software suite developed by Lipman and Pearson
(1985).
FP-growth Frequent Pattern; Introduced with the FP-growth algorithm by Han et al.
(2000).
GPS Global Positioning System – Satellite based time-of-flight positioning system
xiiGSM Global System for Mobile communication – European standard for second
generation digital cellular networks for mobile phones.
GSP Generalized Sequential Patterns. An Apriori-type sequential pattern mining
algorithm developed by Agrawal and Srikant (1996)
indel Insertions and deletions in sequences. A single term is sufficient to describe
both these inverse operations, due to the symmetry of the alignment operation
with respect to the order of the input sequences.
LAN Local Area Network - a computer network with scope limited to a small
geographic entity and using local addressing.
LZ A set of compression algorithms proposed by Ziv and Lempel in 1977 and
1978.
MASS Minimum Accumulated Similarity Score. This value is the criterium whether
two sequences are to be considered similar or not.
MDC Nokia Mobile Data Challenge. A data mining and visualisation competition
held over the first half of 2012, on a mobile phone dataset gathered by Nokia.
The dataset is explained in Subsection 2.1.2, and one of the competition tasks
is presented in Annex A.
RMD Reality Mining Dataset. See subsection 2.1.1.
RNA Ribonucleic acid. A functional molecule that encodes genetic information in
a sequence.
sensor In this work: a source of discrete context data. This can be anything from
a Boolean indicator to a fusion of multiple semantically linked context data
readings, such as orientation, linking the data of an accelerometer and magnetometer.
SPADE Sequential PAttern Discovery using Equivalence classes. A sequential pattern
mining algorithm proposed by Zaki (1998)
SPAM Sequential PAttern Mining. An algorithm proposed by Ayres et al. (2002)
for finding all frequent sequences within a transactional database.
SPM Sequential Pattern Mining
xiiiWAP Web Access Pattern. A user’s trace when navigating across websites.
WLAN Wireless Local Area Network. A term encompassing networking as defined
in IEEE standards group 802.11.
xivIntroduction
Multiple studies have shown that humans are creatures of habit – from Heidegger’s
musings in “Sein und Zeit” to the more concrete works of Gonzalez et al. [2008] and
Eagle and Pentland [2009]. Although routine is not universal, for those that adhere to
it, it provides a stable framework of activities. If a computer system can be made to be
aware of this routine, then it can be proactive and anticipatory in nature, preparing for
commonly encountered situations, or even alerting the user when routine is unexpectedly
broken at some point. Routine can also be used to enhance a computing system which
adapts itself to current events. When historical data can be linked to the present state,
activities and contexts can be recognised with increased certainty. All this is beneficial,
when developing ubiquitous computing systems – specifically with regard to ambient,
passive interfaces.
We assume that habits (i.e. activity patterns indicating routine) can be derived from
user context data. “Context” classically refers to the entirety of the environment of
a human-computer interaction – slightly varying definitions have been proposed by
Schmidt et al. [1999], Chalmers [2004] and Dourish [2004]. Examples of context data
are factors such as physical environment (e.g. place, light, noise), social environment,
system status and simultaneous tasks. For the purpose of determining routine, we are
primarily interested in specific aspects of context, that are characteristic to an activity.
This does not necessarily imply that the context data allows one to infer the actual
activity, but it is sufficient to identify recurrences. One theme of this thesis is in fact
that of the title of Schmidt et al. [1999] “There is more to context than location”: there
exists a large body of work on spatio-temporal routine detection, but our aim is to go
further, and include other context data to obtain a model of routine that is richer in
information and higher in resolution.
1Currently, the most widespread device in use with the capability to observe a reasonable
amount of context, is the mobile phone. These phones are equipped with a number
of sensors and an almost constant network connectivity which allows queries to nearby
fixed sensors. For many people, their mobile phone is a constant companion allowing the
capture of context data for a large number of activities. Furthermore, as multi-purpose
mobile computing terminals, these same phones also form the interface to the computing
system that benefits the most from having access to routine information. With regard
to the definitions of context previously given, there is one further remark to make: context
is defined as being linked to an interaction. At first glance, capturing data over
the course of a day, to observe routine, is a passive process and does not fall under the
traditional view of an interaction. But – within the concept of ambient interfaces – even
just carrying a mobile phone (or in fact, even not carrying it) becomes an interaction,
because we instrument the phone. Therefore, this implicit interaction happens within a
context, which is duly recorded.
Routine conveys important information all by itself, but can also be used to enhance
current context information. A key use of context data is directly on mobile devices,
which are situated within a certain context, used within a certain context and thus
ideally exploit this data to better fulfil their purpose, as well as adapt and respond
to changes in context. One pertinent example for such a mobile application that uses
routine and current context data, is the Magitti leisure guide [Bellotti et al., 2008].
Similar applications in the domain of prediction and recommendation are presented by
Anand and Mobasher [2007]. Wesson et al. [2010] discuss the benefits of adapting the
mobile user interface of a computing system to the current context. Baldauf et al. [2007]’s
survey of context aware systems essentially covers many more examples, where having
additional context information based on a routine model can improve the user experience.
The spectrum of approaches covers safety, security, entertainment and education. Mobile
guidance and navigation systems can also be made to be context sensitive and routine
dependent [Brush et al., 2010, Li and Willis, 2006].
Our technical goal is to detect patterns in the context data of a mobile phone user, with
the expectation that patterns in the data correspond to routine activities. Raw context
data can be understood to be a number of time series of physical values. Based on
this representation, there exist multiple ways to analyse the data: Statistical approaches
based on state transition probabilities (e.g. Ashbrook and Starner [2002]), database
oriented approaches based on sequential apparition frequency (e.g. Giannotti et al.
[2007]) and sequence based approaches based on edit distances and similarity measures
(e.g. Sigg et al. [2010]). As the title of the work suggests, we ultimately pursue an
2approach that performs approximate string matching by aligning pairs of sequences.
This algorithm determines local similarity scores for sequences of context data – we
suppose that highly similar sequences of context data correspond to similar contexts
and thus to actions of the same type. But we must also consider potential shortcomings
of the data on which we base our study: sensor noise may render an activity difficult
to recognise, and an activity is not repeated identically every time, leading to potential
variations in duration and values in the corresponding context data, which must also be
accounted for.
Our alignment algorithm – an adapted version of the algorithm introduced by Lecroq
et al. [2012] – is based on a representation of context data as a sequence of n-tuples. In
this structure we calculate local alignments. To determine if these alignments correspond
to context patterns, we devise an evaluation procedure. This procedure is in one case
applied to synthetic data, generated according to predefined parameters, and in another
to real world data which we gathered during a data collection campaign. The results
from a large spectrum of test conditions allows us to characterise the suitability of our
algorithm for the routine activity detection problem. The final results indicate that the
algorithm reliably performs as a filter for context data, to limit the function of a domain
expert to approving or rejecting the extracted data as being correspondent to a routine
activity. Conversely, there are limitations to using it as a general, fully automated
routine extraction approach.
This work is structured as follows:
❼ In the second chapter, we examine the state of the art for both available context
datasets and pattern detection approaches. We study the datasets for their suitability
for routine context extraction and their data collection methods. The pattern
detection approaches are divided into statistical and sequence mining approaches.
We briefly discuss statistical approaches, and explore the various sequence mining
approaches in more detail. We split the latter field into sequential pattern mining
approaches, which take a database oriented view on sequences, and on string
mining, which is focused on comparing long, individual sequences. We conclude
this chapter with a direct comparison of the most promising approaches and an
argumentation for our choice of approach, as well as identifying the limitations
upon which our solution has to improve.
❼ The third chapter introduces our context model and algorithmic contributions.
The context model defines a similarity measure for a pair of context sequences,
which the alignment algorithm then uses to find maximally similar subsequences
3from a pair of sequences. Our algorithmic contribution is divided into two parts.
The first part reduces algorithmic complexity by simplifying the state of the art approach,
the second part details our local maximisation approach to further increase
performance.
❼ The fourth chapter is dedicated to the experimental evaluation of our approach, on
synthetic and real world data. It describes a data generator we developed with the
goal of creating well-understood data with context-data-like characteristics and a
high degree of configurability to allow the reproduction of a variety of scenarios.
We also document our results obtained on five different such scenarios. A set
of variable parameters for each scenario allows us to gain a further insight on the
theoretical performance of our algorithm and its behaviour under varied conditions.
We also present our data collection campaign in some detail. We used part of that
data for a second evaluation, which is also described in this chapter.
❼ The final section gives a summary of our contributions and results, presents our
conclusions and discusses limitations to our approach as well as potential future
work to address these limitations and propose extensions.
4State of the Art
As we laid out in the introduction, our approach to identifying routine activities is to
find patterns in time series of context data. In this section we present and discuss
different possible approaches, which should theoretically reveal such temporal patterns.
We briefly revisit the notion of “context” and examine how context data is represented
in actual context datasets. By class of approach, we present existing routine activity
detection solutions.
We examine the varying approaches for a number of criteria, relevant to our task.
These criteria are:
1. The ability to process data that has the volumetric characteristics of context data,
regarding both algorithmic complexity and real world constraints;
2. The degree of pre-treatment of context data required;
3. The flexibility of the underlying model, to accept situation-specific tuning;
4. The resilience of the approach against the inherent noise and unreliability in sensors
and slight variations in how activities are repeated;
5. The impact of temporal effects, such as desynchronisation of data and dilation or
contraction of the time-scale of an activity;
6. The effort required to parametrize the underlying model and
7. The suitability to a (partial) deployment on mobile platforms.
We will refer to these criteria by their number in the following sections, whenever a
relevant bit of information is touched upon.
5Our examination of the state of the art is split into three sections. First, we take a
look at existing context datasets, to situate our goal with regard to available data. Then,
we survey the state of the art for relevant methods that allow us to match, compare or
extract patterns in time series data, by studying two fields of specific interest: Statistical
approaches to pattern mining and sequence mining based approaches. Finally, we crosscompare
the most suitable approaches and datasets, to determine the course for this
work.
2.1 Context Datasets
When examining user behaviour over the long term, a large dataset of context data is
crucial to verify our hypothesis. In this section, we look at a number of different context
datasets to learn more about available context data, and the utility of this data for our
task.
A small dataset, that can be understood to be a pioneering precursor, is that of Raento
[2004]. Another early dataset by M¨antyj¨arvi et al. [2004] was limited to a strict set of
scenarios, and did not actually consist of a recording of real world data. Kotz and Essien
[2005] present a simple location-focused dataset, obtained by studying the movement of
wireless network users of Dartmouth college.
Two specific context data sets have caught our attention, the reality mining dataset
(RMD [Eagle and Pentland, 2005]), and the Nokia mobile data challenge (MDC [Kiukkonen
et al., 2010]) dataset. They represent, respectively, the first large scale mobile
phone dataset ever published as well as the largest and most complete dataset currently
available.
2.1.1 Reality Mining Dataset
The RMD is the first large scale mobile phone context data set that has been collected.
Due to its public availability, it stands as a reference dataset when it comes to the
detection of routine user behaviour. It was designed with this goal in mind and used in
the work of Eagle and Pentland [2009] to determine behavioural routines.
The dataset is the result of a broad (100 participants) mobile phone data acquisition
campaign the data from which was made available to the scientific community. The
RMD was established using the Context Phone application developed by Raento et al.
[2005]. It contains primarily finely grained location information, but also application
and communication use logs and relative proximity indicators among study subjects.
6The specific protocol was established as follows: One hundred MIT students and
members of faculty staff were given Nokia smart phones, pre-installed with several applications
that track context. This context data comprises call meta data, the set of
Bluetooth devices in range, the ID of the connected cellular radio tower, application
usage and some phone status variables, such as whether the phone is idling or charging.
This data was collected over an academic year, aggregating 450,000 hours of data,
with Bluetooth data being logged in five minute intervals. The researchers report some
data loss (around 15%) due to some subjects deactivating their phones during the night,
and also due to some data corruption events. Finally, there are incidents of forgotten
phones, where the phone records data, which has no association with the actual activities
of the test subject.
In addition to the context data, there is data from surveys of subsets of the test
group to establish some meta-data (relationships between study participants and social
activities) to the main data gathered by the phones. Some subjects also kept more
detailed activity diaries over part of the data gathering period.
2.1.2 Lausanne Data Collection Campaign
This dataset [Kiukkonen et al., 2010] includes data from 200 users from the Lake Geneva
region in Switzerland and consists of the data from around 80 different smart phone
context data sources, recorded over a period of over one year. This data was made
available to researchers within the framework of the Mobile Data Challenge [Laurila
et al., 2012], but is not readily available to the public.
The gathered data can be divided into four groups: Location data, media-related
data, social interaction data and behavioural data. The central physical data present in
the set are 3D accelerometer readings, location and sound measurements. Additionally
logs of applications, communications and the operating system are kept, alongside the
agenda and contact list.
A key distinction of this dataset is the heterogeneous study group. Where the RMD
only studied students and faculty staff members from the Media Lab, as well as students
of one other lab, this campaign stretches much wider. By consequence, the social graph
among the participants is much less dense.
Another difference lies in the precision of the location data. Cell tower data is notoriously
imprecise, discriminating at around the city block level, whereas more powerful
modern phones are equipped with GPS which can reduce this to roughly the street address
level, even without further augmentation with wireless networks. Using WLAN
access points – as done for this study – increases this precision further, especially in
7urban zones. In comparison, the Bluetooth augmentation chosen for the RMD only
works in select installations outfitted with a beacon.
This much higher fidelity of the data leads to a much larger challenge, when distributing
this data, as pure anonymisation no longer suffices to protect the identity of the
subjects.
Furthermore, the higher potential fidelity also implies a potential higher use of the
battery. Non-intrusiveness in the routine usage of the phone is a key requirement, as
otherwise the impact of adapting to the measuring device would create behaviours and
data not corresponding to the reality of the test subject’s day to day life. In an attempt
to mitigate these effects, each data source has its own update frequency, in an adaptive
event-based system. This allows the sampling to run throughout the day.
To minimise data losses, collected data is transmitted to a database server via wireless
networks twice a day.
With regard to ground truth, an initial questionnaire establishes some demographic
and social information, but no further information is acquired.
2.1.3 Discussion
A key limitation to the present datasets, is that none of the bases contains any ground
truth regarding context routine. Most do not include any manual annotation with semantic
data at all. In fact, the large scale nature is somewhat at odds with such demands,
as the effort to manually annotate a large dataset by someone other than the subject
is immense. Conversely, asking a subject to annotate his or her own data introduces a
higher level of effort required to take part in such a campaign and decreases the number
of participants.
Another problem is that most datasets are limited to location data, and lack many of
the physical sensors present in more modern phones, that we presume to capture physical
context more accurately. Although the Nokia MDC-dataset does provide accelerometric
data and some sound samples, modern smart phones are also equipped with gyroscopes,
compasses, light meters and proximity sensors. Conversely, the approach taken by Nokia
for the Lausanne data collection campaign includes a vast number of sensors, some of
which are not necessarily of interest for the routine activity detection task, increasing
the complexity of the required pre-treatment (2). The asynchronous nature of data
collection preserves relative temporal structures in high detail (5).
Finally, the acquisition platforms used for these two previous datasets have been obsoleted
by the development of the mobile phone market. Therefore, if a new dataset would
be a requirement, this would entail a new development of the data collection software
8suite.
The creation of a new mobile context dataset that contains at least sufficient physical
sensor values therefore appears possible and necessary. Many of the paradigms put
forward for the different collection campaigns remain valid, such as the principle of nonintrusiveness
and the need to assure data integrity. Alternatively, it is common to use
synthetic data to verify the behaviour of an algorithm. For this type of data, ground
truth of the generation step can be used to address the lack of ground truth in real
context datasets.
Once a solution to gather the required physical context data is achieved, the next
challenge is to find routine data within it.
2.2 Machine Learning and Statistical Analysis
Classic statistical machine learning approaches are a mainstay of much of the work of
context data analysis. We focus on three key categories: classification as a means of
context and activity recognition and prediction, clustering to determine similarities in
data and probabilistic state machines – specifically (hidden) Markov models – as a means
of modelling routine.
2.2.1 Classification
Classification algorithms are a class of algorithms that use a set of examples to learn rules
that are then applied to determine which label is to be associated to a measurement.
Typically, this is represented by the determination of a characteristic vector over the
feature space of the observed events.
We discuss two different usages of these types of algorithm, within the scope of the
routine activity detection problem: in activity recognition, a current set of measurements
of context data are used to determine the current activity; in activity or place prediction,
the current state of system is used as a characteristic vector for predicting a future state.
2.2.1.1 Activity Recognition
Supervised classification is the principal component in most activity recognition systems.
They function by assigning a characteristic vector to each element of a set of activities,
and then estimating from actual measurements the current activity.
In the field of mobile device based activity recognition, supervised classification has
been used (for example) in the works of Choudhury et al. [2008], Lester et al. [2006],
9Berchtold et al. [2010] and Sigg et al. [2010]. Activity recognition by itself does not
solve the routine activity detection problem, but a well functioning activity detector can
reduce the complexity of the problem by orders of magnitude by transforming it from a
multi-dimensional problem into a uni-dimensional one (1,2). We can nonetheless state a
limitation to this approach, in that a supervised activity detection requires knowledge of
each of the activities that are to be discerned (6). This renders this approach of limited
use, when trying to solve a general version of the routine activity detection problem.
Furthermore, feature vectors are understood as a unit, therefore algorithms based on
them cannot work around desynchronized data (4,5).
2.2.1.2 Activity and Place Prediction
Another potential application of supervised classification is in the field of predicting future
activities. The approach is similar to activity detection, with the difference that
characteristic vectors are assigned to subsequent activities or places. This type of approach
was frequently chosen by entries for the MDC “next location prediction” task
[Etter et al., 2012, Wang and Prabhala, 2012, Gao et al., 2012], as for that task the
known data was restricted to the context data obtained during the “visit” to the directly
preceding place. The most successful approaches relies on heuristics which reject
certain subsets of the data by declaring it out-of-date information with regard to the
prediction task. The benchmarks of three state of the art algorithms – naive Bayes
[John and Langley, 1995], alternating decision trees [Holmes et al., 2002] and a sequential
minimal optimization based approach [Platt, 1999] – on the MDC prediction task
are available in Annex A.
The Magitti [Bellotti et al., 2008] recommendation system predicts next activities using
a supervised classification approach [Partridge and Price, 2009]. The system is based on
the assignment of a leisure activity (e.g. “eat” or “watch”) to corresponding locations in
town instead of having a location specific activity model. This meta-activity approach
avoids the problem of being limited to recognising specific activities, but consequently
the result is too general for many applications outside the activity adviser use case they
target (3).
2.2.2 Clustering
Where classification assigns one of a pre-defined set of labels to a sample of data, clustering
attempts to group a set of data points via a pre-defined distance metric. There are
three aspects to clustering that are of relevance to the routine activity detection prob-
10lem: Using clustering to segment sensor data, using clustering to segment sequences and
clustering entire sequences. The first is an important step towards obtaining a discrete
context model, the second helps identifying atomic activities, and the third is a routine
activity extraction approach.
2.2.2.1 Context Data Clustering
Context data clustering is a useful first pre-treatment step to reduce the complexity
of the routine activity detection problem (1), by transforming the problem from one
on continuous data (and essentially a signal processing problem) into a problem over
discrete data (2,4). This has been used by Ashbrook and Starner [2002] to derive semantically
relevant places from a user’s spatio-temporal positioning data, which then
allows the construction of a state-based predictor on the transformed data. Their choice
of clustering algorithm was the k-means clustering algorithm. In their article they also
meet one of the limitations inherent to clustering algorithms: the results often have to
be manually verified, or selected from a number of different configurations (3,6).
2.2.2.2 Sequence Segmentation
Sequence clustering can be performed to segment long sequences of context data into
locally self-similar subsequences [Clarkson and Pentland, 1999, Himberg et al., 2001].
This can be used as a semi-automatic pre-treatment step to address (1,2,6,7) in routine
activity detection approaches, at some potential disadvantage to (4,5). In general, sequence
clustering with a simple Euclidean distance does not produce meaningful results
[Keogh et al., 2003], requiring the choice of a meaningful metric, before implementation.
2.2.2.3 Sequence Clustering
Clustering can also be used to group subsequences by inter-similarity and thus identify
patterns. This has been shown by Laasonen [2005] to be a potential avenue of establishing
a routine based user model and subsequently recognising and predicting a mobile user’s
routes. This works by classifying some of the locations visited by a user as bases, which
are locations where a user rests, and others as transient points. In this case, a place
corresponds to the currently connected network cell. An edit distance and item similarity
measure serves as basis for the clustering model. Katsaros et al. [2003] have shown a
similar sequence clustering solution to predict locations, but without the distinction of
location classes. The distance measure for the hierarchical clustering which they employ,
is a weighted edit distance. This can have good performance with regard to (4,5) at some
11cost to (6). As a statistical approach, there is also a limitation with regard to (1), in
that a certain minimal amount of data is required to obtain clusters with acceptable
confidence values.
2.2.3 Probabilistic State Machines
In the third type of approach, we look at different kinds of probabilistic state machines,
which are relevant for user activity recognition and prediction.
A relevant example of using hidden Markov models [Baum et al., 1970] to find routine
in context is the work of Clarkson [2003], who studied video streams taken from two
worn cameras, with the goal of identifying context recurrences. They use an alignment
based approach, similar to dynamic time warping [Myers and Rabiner, 1981]. Ashbrook
and Starner [2002] use second order Markov models to predict next locations. This
required clustering of geolocation data into discrete locations, which where then studied
for transition probabilities.
In the work of Song et al. [2004], multiple predictors based on probabilistic state
machines (Markov models and LZ compression [Ziv and Lempel, 1978]) are evaluated
on a common dataset from the Dartmouth campus wireless network [Kotz and Essien,
2005]. A state machine approach requires a sequence segmentation to be viable (6).
This means that activities are identified either based on supervised activity recognition
or based on sequence segmentation. A common drawback to all approaches outlined in
this subsection, is that they are not truly suited to treating multiple data sources in
parallel (1,5).
2.2.4 Discussion
Within the frame of the routine activity detection problem, statistical approaches can be
divided into two categories of application: on the one hand there are data pre-treatment
approaches, that reduce the complexity of the actual routine extraction process, and on
the other hand there are statistical models that encode routine activity.
The former can be used at different levels of granularity, and comprise classification,
clustering and segmentation. A high abstraction approach – as often chosen in the
literature we presented – can simplify the routine activity detection problem to the
point where it is merely the extraction of frequent state transitions. While in theory
this is advantageous with regard to (1), (6) and (7), it invariably has drawbacks, when
applying criteria (2), (3) and (5). A low abstraction level has the inverse consequences.
Therefore, the choice of abstraction level has to be carefully weighed, when developing
12a discrete model.
The routine activity detection approaches – using sequence clustering or probabilistic
state machines – are relatively simple propositions (1) which depend heavily on accurate
preprocessing (2). The central weakness of these approaches – when used on rich
context data – is that they use a simple model derived from data that has been heavily
preprocessed and abstracted, which results in abstract routine models. These are easy
to interpret but hard to validate against the actual data.
Furthermore, there is a whole host of limitations to automatic context data abstraction
that essentially make this class of approaches not suitable for context data that has
multiple independent data sources. When working at a finely grained level, with less
abstraction, the models become harder to interpret, and lose their appealing simplicity.
This downside leads us to examine approaches that are more suited to this kind of data
representation: sequence mining algorithms.
2.3 Sequence Mining
Context data is inherently of sequential nature: for each aspect of context, one state
follows another and each activity is followed by another. Sequence mining is a subset of
data mining, which consists of approaches specifically targeted at sequential data.
The field of sequence mining offers a variety of algorithms designed to discover all
kinds of features in sequences of discrete elements. As laid out in the introduction, our
primary interest is pattern detection. There are two schools of thought, with regard to
this problem:
1. Sequential pattern mining (SPM) takes an itemset mining and association rule
learning approach to finding such patterns, by looking at the frequency of occurrence
of subsequences in a corpus.
2. String mining is an approach that has its roots in bioinformatics, and can be seen
as a generalisation of Hamming and Levenshtein distances. We are particularly
interested in alignment problems, where the goal is the identification of similar
sequences.
In the following two sections, we will present different approaches and applications of
sequential pattern mining and string mining. In the third subsection we will compare
the particular advantages and challenges of each class of approach, and evaluate them
against our set of criteria.
132.3.1 Itemset Mining and Sequential Pattern Mining
The aim of sequential pattern mining (SPM) is to find within a database of sequences
of itemsets (i.e. sets of discrete elements) a subset of interesting sequences. Within
the context of the routine activity detection problem, this criterion of interest is that
the sequences appear frequently. Sequences in this case are not limited to consecutive
elements, but are based on the notion “event Y occurs after event X, within an interval
window δ”. There are several ways to formulate the routine activity detection problem
in terms of an SPM problem, each suited to a specific group of algorithms from the field.
First, context could be abstracted to fit the “sequence of itemsets” paradigm. There
is a wealth of classic approaches that find potentially non-consecutive exact sequential
patterns. A first challenge in adapting the problem to this formulation lies in finding
a useful time-discretisation and temporal splitting interval. The former is achieved by
having each sensor value discretised into an item, and by grouping measurements during
a predefined time interval into itemsets. The latter requires study of how gravely nonconsecutive
patterns impact the results. By shortening the sequences, such patterns
become less of an issue, but other, larger patterns may disappear. Additionally, there is
the question of which level of support is desired as basis for the result.
An early review of examination of patterns in sequential data was performed by Laird
[1993]. At this stage, the focus of research was mainly on prediction, extrapolation and
modelling of time series.
In the same year, itemset mining was introduced by Agrawal et al. [1993]. This forms
the basis for all of the following SPM approaches, which is why we take a closer look at
the key approaches of the field. The following classification of the approaches is based
on the taxonomies proposed by Mabroukeh and Ezeife [2010] and Mooney and Roddick
[2013]. We assign the following classes to differentiate between approaches:
❼ Apriori-based (including variants for closed patterns or hierarchical data),
❼ Pattern-growth (including variants for closed patterns),
❼ Vertical data structures,
❼ Early-Pruning and
❼ Hybrid;
and then we also discuss variations of these which take into account hierarchical metadata,
specifically and exclusively mine closed or maximal frequent patterns, or mine multidi-
14mensional or approximate patterns. All algorithms and challenges identified in the field
of itemset mining can be transferred almost exactly to sequential pattern mining.
2.3.1.1 Itemset Mining
Itemset mining has as prerequisite the presence of a database which is partitioned according
to a primary criterion (e.g. a user ID or a calendar day). The goal is to find
subsets of data that occur multiple times among the sets of data points connected to
each instance of the criterion. An example relevant to the field of mobile and context
sensitive computing is a database consisting of entries that have been generated by
logging discretised context data of a user over time. Splitting the database to obtain
individual data per hour, and then searching for co-occurrences of certain context values
in these sets across different hours, shall determine which context states are frequently
encountered together in temporal proximity.
Once the frequency of appearance of such an item combination is above a certain
threshold, the set is considered to be significant. Furthermore, there is an interest in
maximising these sets: a single element that appears across multiple sets is of little
interest, whereas large sets carry more information. Once these sets are identified,
association rules can be created among them.
Association rules can be understood as a way to encode the conditional probability of
the presence of an element in an itemset, given a set of elements already present in that
set. For example, let there be three context states a, b and c(e.g. loud noise, bright light
and medium movement speed) that were recorded during one hour. Furthermore, let
the set (a, b, c) appear frequently (and maximally) in a database. Then, it is possible to
predict that if a and c are present in one set, that b might also be present in this set (e.g.
because all three are present when the user rides his motorcycle on a sunny day) based
on the support of the set (a, b, c) (i.e. how often the elements appear together, relative
to the overall number of sets created by splitting the database along the key criterion).
In terms of context prediction, this means that it is possible to predict context event b
as a function of the presence of context events a and c. Clearly, this is limited in scope
with regard to the routine activity detection problem, but the close link to sequential
pattern mining makes it deserving of a study, to introduce the concepts used further on.
Apriori-Based Algorithms The itemset mining problem has first been approached
by means of the Apriori-class of algorithms [Agrawal and Srikant, 1994, Mannila et al.,
1994]. The key property on which the Apriori-class algorithms are built is the downward
closure: the fact that each frequent itemset consists of sub-itemsets that are all frequent,
15and inversely, extending a non-frequent itemset by any item results in another infrequent
itemset. This can be exploited to first find frequent elements, and then iteratively extend
these candidates to sets, element by element, until the support frequency-threshold is
no longer attained. Han et al. [2007] offer an extensive list of further improvements to
this approach, with regard to distributed and parallel approaches, as well as general
efficiency improvements. The key limitation to this approach lies in the high number of
database scans – one for each growth operation – that are necessary to determine the
support value for each of the valid candidates that have been generated. Compared to
the naive approach, the Apriori property enables the rejection of all subsets which are an
extension of subsets that by themselves do not have sufficient support in the database.
Pattern-Growth Algorithms Another class of approaches avoids the expensive candidate
generation aspect of the Aprior-type algorithms. FP-growth is one such algorithm,
introduced by Han et al. [2000b]. This approach uses a divide-and-conquer technique.
First, the database is transformed into a list of frequent ordered according to of descending
support, and by key-criterion. From this list, a tree is constructed: a node is created
for each frequent element, and they are arranged in the tree by their direct prefix item.
If an element with an existing identical prefix is found, it is merged into the existing
node and the frequency counter of that node is incremented.
From every node in this tree, it is then possible to identify frequent itemsets, by
following a path of nodes toward the root, from each leaf corresponding to an item. Each
such leaf defines a specific sub-itemset. The support of the itemsets are represented by
the support of each leaf. A similar tree-based algorithm has been presented by Agarwal
et al. [2001].
Vertical Data Structure Algorithms A third way to approach the problem of
frequent itemset mining, is to take an orthogonal view at the database [Zaki, 2000]:
Instead of assigning to each key criterion a set of items, assign to each item a set of
elements from the key criterion. In an example, this would mean that instead of having
a set of activities (items) assigned to each day (criterion), to instead assign to each
activity the list of days where they occurred. Using this representation, the Apriori
property can still be used to generate set extension candidates. Support for a candidate
is determined by intersecting the sets that are created by the inversion of the database
table. A key advantage is that determining support is as easy as counting the number
of elements that are assigned to an item.
What is notable about this approach, is that the corresponding sequential pattern
16mining algorithm SPADE [Zaki, 1998] was developed before this idea was ported to
itemset mining.
Concept Hierarchy-Aware Algorithms An important extension to itemset mining
is the acknowledgement that items may be related, and that at times it is useful to mine
sets not only of items, but of classes of items. By using concept hierarchies, these
classes can be established and (hierarchically) interrelated. One approach to mining
such itemsets is a top-down specialisation approach, where first top-level general sets
are mined, and then their specialisations are examined for sufficient frequency/support.
This is possible if the minimal support threshold is constant across all abstraction levels
of the concept hierarchy [Han and Fu, 1995, Srikant and Agrawal, 1995]. Han et al.
[2006] present a variation of this approach to problems where minimal support varies by
level.
Closed and Maximal Frequent Patterns Two further important concepts that
restrict the scope of the problem to obtain more expressive results are the concepts of
closed frequent patterns and maximal frequent patterns.
The former are patterns for which no pattern exists that encompasses it, where both
have the same support. This eliminates from the results the most trivial subsets of
frequent patterns, without reducing the overall information contained in the results
compared to mining all frequent patterns. Any two patterns with different support
remain separate.
Maximal frequent patterns on the other hand restrict this even further: all frequent
itemsets that are subsets of another pattern that is frequent, are discarded. This means
that the frequency information for these sub-patterns is lost. There exist Apriori-type
algorithms optimised for closed itemsets (e.g. A-Close by Pasquier et al. [1999]) as well
as FP-based algorithms (e.g. FPClose by Grahne and Zhu [2003]). Yang [2004] showed
that enumerating maximal patterns is an NP-hard problem.
2.3.1.2 Sequential Pattern Mining
Sequential pattern mining, when compared to itemset mining, adds the additional dimension
of (temporal) order to the problem. Itemset mining examines merely the co-presence
of items with respect to the key criterion, whereas sequential pattern mining respects
the order of appearance of the itemsets in the data.
A naive approach to pattern mining is to count the number of instances of every
imaginable subsequence of a database (database being used synonymous with databank,
17i.e. restricted to the physical storage of data). A subsequence in the context of sequence
mining consists of itemsets, therefore the presence of multiple items in such an itemset
produces ever more possible subsequences to test against the database. Therefore, much
as for itemset mining, the goal remains to reduce the number of subsequences to test
and the complexity of counting support.
Sequential pattern mining has relatively frequently been the subject of extensive surveys.
Zhao and Bhowmick [2003] present some of the earlier developments in the field,
Mabroukeh and Ezeife [2010] have established a taxonomy and cross-comparison of the
key approaches to sequential pattern mining and more recently Mooney and Roddick
[2013] have proposed a slightly differing classification and comparison on the same subject.
Han et al. [2007] present a survey of approaches to the more general frequent pattern
mining problem. All four surveys discuss in more detail what has been introduced here.
The following are the main approaches to sequential pattern mining, for the most part
mirroring the concepts used in itemset mining:
Apriori-Based Algorithms On the base of the Apriori property, Agrawal and Srikant
[1995] developed an Apriori-type SPM-algorithm, which has then been extended into the
“Generalized Sequential Patterns” (GSP) algorithm in Srikant and Agrawal [1996]. This
approach uses a similar minimal starting point, and then iterative growth of candidates,
but with a fixed and predefined order for the sequential aspect.
An approach that integrates ideas from other algorithms is SPAM by Ayres et al.
[2002]. SPAM generates a lexicographic tree and descends along the nodes in depth-first
order. The Apriori property determines that any children of a node that does not have
minimum support can be discarded from the search. Support is determined by counting
incidences in a vertical data structure, which consists of a binary bit map of the sequence,
upon which a binary and operation is executed.
Pattern-Growth Algorithms The divide and conquer approach has also been applied
to sequence mining in the PrefixSpan algorithm [Pei et al., 2001, 2004]. PrefixSpan
first determines the set of frequent patterns of length one, and then extends the patterns
by determining possible prefixes from within this set, in a similar approach to FP-growth.
To do this efficiently, the database is transformed into a more suitable representation.
In the case of PrefixSpan, this is a projected database, as introduced in FreeSpan [Han
et al., 2000a]. The projection mechanism for sequences and subsequences functions as
follows: A sequence S
0
is a projection of its supersequence S with respect to a prefix P
if there exists no other supersequence of S
0
that is also a subsequence of S which shares
18the prefix P. This means that the extension of S
0
to S is done purely by extending the
prefix P.
The database is rearranged according to the prefixes (which are the frequent items in
the first step), where each prefix is assigned all occurrences of its postfixes by projection.
By matching all postfixes with possible extensions of the prefix – to find frequent patterns
– it is possible to determine a new set of prefixes upon which to project the database.
A new scan if the database is not necessary, as the relevant sequences to project are
already assigned to the prefix used in the previous step. This makes PrefixSpan fast,
but the construction of the projected database becomes a major influence on the overall
complexity of the algorithm.
Another Pattern-Growth approach uses tree projection instead of database projection.
One representative from this group is WAP-mine Pei et al. [2000]. Similarly to the
database projection approach, there are very few scans of the database - in this case
two. The first determines the frequent items, the second builds the tree of frequent
subsequences related to these items. The initial tree consists of an empty root, to which
the frequent elements are added as nodes. The first element to be added is the first
frequent item of the first sequence in the database. The second frequent item is added
as a child. This is followed through for all frequent elements in their order of appearance
in the first sequence. The same is done for the other sequences, but whenever an element
is already present in the correct order in the tree, the existing element is used instead.
In parallel, a header link table is established. It links each occurrence of an itemset to
the next occurrences of the same itemset within the tree, beginning with the first.
To mine this tree, the least frequent item in the tree is chosen, and set as a conditional
suffix. Based on this suffix, an intermediate tree is constructed, which consists of those
branches that end (whether on a leaf or a node) on this suffix. These are identified by
following the header links previously established. The new conditional tree therefore
consists of the old tree, minus all the nodes header-linked to the corresponding suffix,
and minus the branches that do not contain the suffix at all. For the next step, the
suffix is grown by the least frequent item of the new tree, and the process repeated,
until only a suffix and the root node are left. Each suffix generated this way is a frequent
sequential pattern. This process is demonstrated in Fig. 2.3.1, with the sequences
abdac, eaebcac, babf aec and af bacfc, using the example from Pei et al. [2000].
Hybrid Algorithms SPADE [Zaki, 2001] can be considered as a hybrid approach,
combining Apriori-based and Pattern-Growth characteristics. It uses an orthogonal view
approach to itemset mining for sequential pattern mining. Similarly to Apriori-based
19Figure 2.3.1.: A WAP-tree and conditional WAP-trees for two subsequences c and ac
(Source: Pei et al. [2000])
approaches, this approach generates a large amount of candidate sequences that are
then reduced by growing the length of the sequences progressively. SPADE transforms
a database into a set of key-value pairs, where a list of pairs of sequences (in which it
appears) and partition IDs of the key distinction criterion (e.g. a day) is assigned to
each itemset (element of a sequence). The algorithm consists of three steps: first, the
frequent sequences of length one are identified, then these sequences are extended to
frequent sequences of length two. These are arranged in a lattice1
structure, which is
traversed in the third step, to count support and enumerate frequent sequences. This
lattice structure can grow very large, as it defines an order across all frequent patterns.
The authors propose to partition the lattice into smaller subsets, that are sufficiently self
contained to be given the term equivalence classes. The strength of SPADE is mining
maximal sequences, as when mining all frequent sequential patterns the performance is
no better than GSP [Mabroukeh and Ezeife, 2010].
Early-Pruning Techniques This class of approaches exploits the sequential nature
of the data, by tracking the positions of items that appear in the sequence. Specifically, if
the (absolute) last position of an item is smaller than the position of the current sequence
under consideration, then that item cannot occur behind this current sequence [Yang
and Kitsuregawa, 2005]. LAPIN [Yang et al., 2007] maintains both a list of the last
positions of frequent items, as well as a set of prefix border positions for each frequent
item to achieve this. The former is a straight forward table, assigning each sequence a
1A lattice is a specific way to represent a (partially) ordered set, with operations defined to determine
infima and suprema for pairs of set elements. See Davey and Priestley [2002] for a complete
introduction.
20list of indices corresponding to items that are frequent over all the database; the latter is
generated from this list, and consists of all occurrences that have last appearances after
the first instance of the item they are related to. By counting the elements in the second
set – and determining whether they have sufficient support – it is possible to find the
frequent patterns without searching the database.
Notable about this approach is that the data structure used is relatively static and
has to be regenerated whenever new entries are added to the database. This makes
determining the update frequency an engineering challenge when used in conjunction
with high frequency data sources.
Closed Sequential Pattern Mining These basic approaches return all frequent patterns,
particularly including all single elements that are frequent. In most applications
this is undesirable, hence closed sequential pattern mining algorithms such as CloSpan
[Yan et al., 2003] and BIDE [Wang and Han, 2004] have been developed. CloSpan exploits
the property that when projecting a database of sequences with respect to two
sequence prefixes, where one prefix is a subsequence of the other, the resulting two projected
databases are equivalent if and only if the number of items of each of the projected
databases is equal. This allows CloSpan to determine whether extending a sequence by
an additional item creates an equivalent sequence or a sequence with different support.
This permits the algorithm to distinguish between redundant candidate sequences and
those that form a separate result. BIDE is an extension to this approach, that uses
projections in two directions to remove non-closed frequent patterns.
This covers the most basic approaches to sequential pattern mining. With regard to
the routine activity mining problem, there are two further characteristics of interest:
multi-dimensional approaches and approximate approaches.
Multi-dimensional Sequential Pattern Mining The previously presented notion
of “sequence” covers sequences of itemsets, which could comprise the information from
multiple context data streams in parallel. Adding a clear notion of orthogonality between
the different types of data allows for a more discerning treatment. By assigning each
context data source its own dimension, there is no interaction between different states
of different sensors.
The first “multi-dimensional” sequential pattern mining approach by Pinto et al. [2001]
was so only with regard to allowing multiple key criteria according to which support is
calculated. This allowed a multi-dimensional notion of support, but the actual itemsets
where still restrained to consist of elements of a single dimension. This work has
21been extended with an optimisation for closed multidimensional patterns in the work of
Songram et al. [2006] and Boonjing and Songram [2007].
Plantevit et al. [2010] undertook the next logical effort, to treat sequences of multidimensional,
multi-level data. They develop the bottom-up approach described by Beyer
and Ramakrishnan [1999] to mine maximally atomic frequent sequences, which are sequences
consisting of a single (hence atomic) multi-dimensional item. This item must
be the most specific – with regard to the concept hierarchy model – item that is still
frequent in the database. From this point, the sequences of length one are built up to
longer sequences using the SPADE algorithm [Zaki, 2001].
Approximate Sequential Pattern Mining The realisation that exact pattern mining
is too restrictive for real world problems has been reached by Wang et al. [2000]. The
first approach to mining long sequential patterns from noisy data by Yang et al. [2002]
uses a probabilistic model to account for the noise: a compatibility matrix consisting of
the conditional probabilities, that x is the real value, given that y has been observed,
gives a notion of relative proximity of values, with regard to the measurement (or data
generation) process. The notion of support is adapted to become noise-tolerant. The
actual significance criterion under noisy influences on the data is termed match, and is
defined as the maximum conditional probability of an occurrence of a pattern, given
any one subsequence of a sequence, averaged across the database. A slightly modified
Apriori-property holds for the match measure as it does for support, if subpatterns are
defined as a pattern that lacks some symbols present in the respective superpattern.
Although theoretically it is possible to use classical algorithm with this model, the
large number of candidates and database scans generated using Apriori-/support-based
approaches makes them impractical. Instead, the authors propose a statistical filtering
approach to reduce the number of passes, which is based on two criteria: First the additive
Chernoff bound [Hoeffding, 1963, Domingos and Hulten, 2000] is used to estimate
the size of a pattern (i.e. the points beyond which extending a subsequence reduces its
match below the relevance threshold) based on the results of random sampling. This
divides the set of candidates into three (probable) classes: frequent, infrequent and ambiguous
patterns. The second optimisation deals with the ambiguous patterns – which
require further attention – to determine the frequent and infrequent patterns contained
within. The specific approach refines the borders (left and right limits of the end of the
ambiguously frequent subsequence) obtained during the random sampling approach by
collapsing them down to the actual borders. This is done using a hierarchical division
of the two estimated borders, which takes at worst O(log(n)) steps to find the correct
22border, where a classic linear algorithm would take n steps. Overall performance of the
approach depends very much on the data and the number of ambiguous patterns that
cannot be identified during the first probabilistic step.
ApproxMAP [Kum et al., 2003] – another approximate method – borrows some notions
from string mining. This algorithm mines consensus patterns (i.e. short patterns that
appear in similar fashion across many of the examined sequences) through multiple
pattern alignment. It uses a hierarchical edit distance as a similarity measure for pairs
of sequences, and thus determines clusters of similar sequences. In a second step, a
representative for each cluster is selected. A consensus pattern is determined to be
present whenever a sufficient number of sequences in the cluster share this representative
to achieve a strength threshold – a notion similar to “minimum support”.
Applications in Context Pattern Mining The main application to context data
mining is the field of trajectory mining and more generally spatio-temporal data mining.
Due to the limited scope of this problem, compared to the routine activity detection
problem, we only briefly introduce a few key approaches.
Rashad et al. [2007b] developed a multi-dimensional PrefixSpan [Pei et al., 2001]
specialisation called MobilePrefixSpan (based on the work of Pinto et al. [2001]), to
mine movement patterns of mobile users. Their database consists of entries, describing
which user was present in which mobile phone network cell, at which time. Using the
generated movement profiles, they try to predict future positions of users, with the goal
of providing better resource management in the wireless network itself. Compared to
the original PrefixSpan, they restrict sequences to consecutive sequences, as they argue
that the exact order in which cells are visited is more important than the more global
trends that traditional sequence mining detects.
Giannotti et al. [2007] also perform pattern mining on GSM or GPS location data.
They extend the basic SPM model with annotations indicating the typical transition
times between elements (see also the previous work of Yoshida et al. [2000]) and replace
itemsets by spatial points. The calculation of support is not done by exact matching, but
instead by an error tolerant neighbourhood function. One of the key problems of this
approach, is that of determining Regions-of-Interest – i.e. semantically similar regions,
to determine the neighbourhood function – for which they provide a seed-and-growth
approach, using popular spatial points as starting points. The actual mining algorithm
is introduced in Giannotti et al. [2006] and uses prefix projection (like PrefixSpan [Pei
et al., 2001]), but modified to accept time-stamped sequences.
Further work in this field can be found in the works of Kang and Yong [2010], Lei and
23Wong [2009], Nanni et al. [2010], Zhao et al. [2013], Zheng et al. [2011].
2.3.1.3 Discussion
SPM, at first glance, presents a suitable approach to the routine activity detection problem.
The blocking metaphor (selecting sequences from a database by a key criterion)
works well with the notion of days and weeks structuring human activity. The performance
is compatible with the volumetry of context data (1). Although actual algorithmic
complexity largely depends on the data, the sample data presented usually scales up to
hundreds of thousands of itemsets in the sequences. The notion of closed patterns and
maximal patterns allow refining the result to those patterns that should be the most
interesting.
The traditional SPM is limited, in that it can only identify exact patterns. Semantic
hierarchical models can help with this (3,6). In this case, similar sensor values are
grouped under a more general label, to allow for more general patterns to be mined.
Additionally, approximative approaches exist, that are able to find patters in noisy
data, or use string mining approaches to identify similar sequences, thus addressing
criterion (4).
Although these hierarchical approaches are more realistically employed to solve the
routine activity detection problem, there still persists one problem. Treating each sensor
merely as one source of items that are all fundamentally equivalent, in that in theory
each item can be replaced by any other, leads to a large number of comparisons that
can be prevented, if from the start the data is considered multidimensional. Plantevit
et al. [2010]’s multilevel and multi-dimensional approach is capable of eliminating these
ambiguities, which should in theory allow an optimized treatment of such truly parallel
data. On the other hand, this approach is limited to exact matches, which puts higher
demands on the preprocessing of the context data. As with the other approaches, the
non-consecutive sequences that do not make sense need to be removed from the results.
Lastly, tuples (i.e. multi-dimensional datasets) are treated as a unit, so desynchronised
context data would prove problematic (5).
A notable drawback then, across almost all SPM algorithms – when dealing with
context data – is that in the classical retail shopping scenario, items are numerous and
sequences are short, but for the context scenario, sequences are long, and “items” are
relatively few. This is the foremost limitation, as non-consecutive patterns can appear by
coincidence much more easily in these conditions, without actually indicating a recurring
activity. The consecutive approach by Rashad et al. [2007b] provides a solution to this,
but inversely the increased requirement for exactness (as now erroneous values are not
24skipped) requires more intense preprocessing, which renders an adoption problematic.
The time-interval supporting approaches by Yoshida et al. [2000] and Giannotti et al.
[2006] allow to quantify these intervals between items and use them to determine patterns
that take these intervals into account.
Compared to SPM, string mining addresses approximate approaches much more comprehensively,
and with less inherent complexity.
2.3.2 String Mining
Strings are finite length character sequences. By assigning to each state of a context or
sensor a specific character, it is possible to represent context data sequences with strings.
String mining, as a discipline, is closely linked to bioinformatics and computational
biology. With the discovery of the structure of DNA, RNA and protein structure, and
the ability to obtain base pair sequences and amino acid sequences from cells, the search
for meaning in these sequences became a major research topic. This so-called “biological
revolution” has motivated a large parallel effort in the development of effective and
efficient sequence analysis (i.e. string mining) algorithms.
In their survey of string mining in bioinformatics, Abouelhoda and Ghanem [2010]
provide a taxonomy of the field, discerning principally between repeat-related problems
and string comparison problems.
Repeat-related problems try to find repeated or otherwise interesting subsequences
within larger sequences, whereas string comparison problems are based on comparisons
between two separate strings, and often inspired by a need to determine a similarity
metric. Each of these two categories is explored in the following, with a closer look at
approaches that are of relevance to our routine activity detection problem.
2.3.2.1 Repeat-Related Problem
Repeat-related problems can be divided into the following subclasses (c.f. Fig. 2.3.2):
Dispersed Repeats i.e. finding repeats through a sequence. These repeats can be either
approximate or exact, with fixed or variable length.
Tandem Repeats i.e. repeats that occur in an adjacent manner. These repeats can also
be either exact or approximate in nature.
Unique Subsequences i.e subsequences that do not have repeats and appear only once
in a sequence.
25Absent Words i.e. subsequences that do not exist at all in the original sequence. Only
the shortest absent words are of interest, as generally there is an infinite number
of subsequences not contained within a sequence.
With regard to the class of repeat-related problems, our task falls within the scope
of a dispersed longest repeat problem: Find a pair of sub-strings that match, where
neither the pairs of preceding elements nor the pairs of succeeding elements match.
Alternatively, if a sufficiently powerful classifier were to exist, which could consistently
assign a correct activity label to a set of sensor readings, the routine activity detection
task could be expressed as an exact repeat problem; otherwise it would be a more
general approximate repeat problem. The approximate repeat problem is solved by
a local alignment algorithm in O(n
2
) [Smith and Waterman, 1981], which technically
belongs to the class of comparison problems, and is described in the corresponding –
next – subsection.
A naive, brute-force approach to finding (longest) pairs of exact repeats would be to
create a scatter plot, and scan along its diagonals for series of matches. Given n lines of
input, this type of approach would use O(n
2
) time and O(n) space.
a b c c a d c d a c a b d b c c c b a d a a c a c d d c b b b b c c d b b a c
a b c c a d c d a c a b d b c c c b a d a a c a c d d c b b b b c c d b b a c
a b c c a d c d a c a b d b c c c b a d a a c a c d d c b b b b c c d b b a c
a b c c a d c d a c a b d b c c c b a d a a c a c d d c b b b b c c d b b a c
{aaa,aab,aad,aba,abb,acb,acc,adb,add,baa,bab,bba,bbd,bca,bcb,bcd,
bda,bdc,bdd,caa,cbc,cbd,cdc,dab,dad,dba, dbd,dca,dcc}
dispersed exact repeats of size 3
tandem exact repeats of size 2
unique subsequences of size 2
absent words of size 3:
a b c c a d c d a c a b d b c c c b a d a a c a c d d c b b b b c c d b b a c
dispersed approximate repeats of size ~5
a b c c a d c d a c a b d b c c c b a d a a c a c d d c b b b b c c d b b a c
tandem approximate repeats of size ~3
Figure 2.3.2.: Examples of different types of repeat-related features in a string.
26Suffix Tree Approach A suffix tree [McCreight, 1976] based approach appears more
suited for large volumes of data. Baker [1992] proposes an exact matching algorithm
using the suffix tree structure, that finds pairs of maximal repeats in a sequence of length
n and m repeats in O(n + m) time. It follows a description of this approach and an
illustration on the example input string abcbcabc% (% is the string termination symbol).
The algorithm consists of four steps:
1. A suffix tree is generated, as follows:
a) An empty tree is generated (as in Fig. 2.3.3-0);
b) A leaf containing the entire string (appended with a termination symbol “%”)
is created (as in Fig. 2.3.3-1);
c) A new leaf containing the first suffix (comprising all but the first element) is
created (as in Fig. 2.3.3-2 to -6, and Fig. 2.3.4 for the final three leaves);
d) If the head (i.e. the first elements of this suffix) is present in an existing leaf,
a new node representing this head is created, and two leaves representing each
of the possible suffixes to this head are added to it (e.g. in Fig. 2.3.3-4 for
bc, when the suffix bcabc% is added to the tree which already contains a leaf
bcbcabc%);
e) Repeat (c) and (d) with the first suffix of the remaining string (as in Fig. 2.3.3-
3 to -6 and Fig. 2.3.4 for the final three leaves, 7, 8 and 9). Each newly added
leaf representing a new suffix is assigned the index of its first element in the
original string.
2. In the suffix tree, identify head nodes (circular nodes in Fig. 2.3.4) which satisfy a
minimum length condition (≥ 2 for this example). They correspond to repeating
sub-strings, with differing right elements (as otherwise the head node would already
comprise this right element). The left element may still be identical. In the example
these are the nodes bc and abc.
3. Build a list of suffixes, grouped by left elements: For each possible element to
the left of the node “head” element, a list is created. Each leaf is added to the
corresponding list. In the example, this is shown for node bc in Fig. 2.3.4, with
the left elements a (in the case ∗abc∗, leaves 2 and 7) and c (in the case ∗cbc∗, leaf
4). The leaves are emphasised by being enclosed within the dashed ellipses, and
labelled with the prefixes.
27root
0
root
abcbcabc%
1
root
abcbcabc%
2
bcbcabc%
root
abcbcabc%
bcbcabc%
cbcabc%
3
root
cbcabc%
4
root
5
abcbcabc%
c bc bc
root
6
c
bc
% abc
Figure 2.3.3.: Construction of a suffix tree from abcbcabc%. The numbers indicate both
the order and the index of the current suffix being added. New leaves and
nodes at each step are shaded.
4. Form the cross-product of each distinct pair of lists for all nodes. In the example
this is the cross-product of the lists (2, 7) × (4) = (2, 4),(7, 4) for the node bc,
meaning that bc is the longest repeat for the instances of bc in the fourth position
in the string, with the instances in the second and seventh position.
The pair of leaves 2 and 7 of the node bc in the example are not longest matches, as the
preceding character is an a each time. Therefore the actual longest match is to be found
elsewhere: in the node abc and the pair of leaves 1 and 6.
Applications to User Modelling Within the context of routine activity detection,
this approach has been used by Pitkow and Pirolli [1999] to mine users’ web access logs,
with the goal of predicting websites that a user will visit in the near future. After extraction
of the longest matching subsequences, these subsequences are split, and Markov
models (of different orders) are used to obtain transition probabilities. The key use of
the longest repeat problem in this case was to optimize performance over a previous
approach, by limiting the generation of Markov models to the data contained within
longest matching subsequences, while maintaining similar prediction performance.
Similarly, Pauchet et al. [2009] use suffix-tree based repeat-mining to identify recurring
28root
7 + 8 + 9
%
c
bc
%(7)
%(8)
abc
%(9)
1 6
2
4
7
8 5
9
3
example for node bc:
2
7
x 4
bc in position 4 has
longest match with bc
in positions 2 and 7
left prefix leaves
a 2,7
c 4
prefix a
prefix c
Figure 2.3.4.: Identification of longest repeats using Baker’s algorithm in the complete
suffix tree from Fig. 2.3.3. Steps 7, 8 and 9 of the tree construction are
performed, adding the three shaded leaves. The order in which the leaves
are added is given by the nodes and indicated by the superscripts of the
vertex labels.
behaviour of users of medical catalogues. This information is then used to present
a subset of works from the catalogue to the user, which contains elements which are
expected to be part of the desired search result.
In the field of pervasive and mobile computing, Katsaros and Manolopoulos [2005]
propose an approach to – for example – track the location of a client in a wireless
cellular network. They describe a prediction task, and also use a suffix tree to find
longest exact matches, from which they construct a probabilistic model of transitions.
Sigg et al. [2010] use exact (or approximate) repeat search as the first stage of their
context prediction algorithm. This stage is used to determine “typical” contexts. Suffixes
of the observed context are then aligned with these typical contexts, to find the best
match. They then predict the next context to be the continuation of the identified
typical context.
2.3.2.2 String Comparison Problem
String comparison problems can be categorized as follows:
global i.e. compare entire strings;
29semi-global i.e. search problems – finding short strings within a larger one;
local i.e. problems on sets of sub-strings. Local problems can further be subdivided
into problems with variable length and fixed length of these sub-strings.
Furthermore, each of these problems has exact and approximate variations.
When approaching the task of identifying routine activities from context data as a comparison
problem, then this problem should be interpreted as local comparison problem,
either of exact or approximate nature, and of variable length. Additionally, a dispersed
approximate repeat problem can be reformulated in terms of an equivalent comparison
problem: comparing pairs of subsequences of the sequence in which approximate repeats
are sought.
Exact Matching Local exact matches (i.e. identical sub-strings within two larger
strings) can be found in a brute force way: Pair all sub-strings of one string of length
n and the other, and check for identity. Due to the identical length requirement, this
implies O(n
3
) string comparisons. Search space reduction to strings of length l further
reduces this to O(n
2
l).
To render the problem more tractable, it is possible to limit the search to maximal
exact matches. In this case, Baker’s suffix tree algorithm for finding maximal repeats
(see subsubsection 2.3.2.1) can be modified to find maximal exact matches instead.
The modifications are the following: The lists of positions (shown in the right part of
Fig. 2.3.4) are split into two subsets, one containing those suffixes belonging to the first
of the input strings, the other containing those that belong to the second input string.
The result is then obtained by forming the Cartesian product of each pair of lists, where
both the input string and the left element are distinct. This minimal modification has
no effect on algorithmic time and space complexity.
A complete survey of a large number of both recent and early approaches to exact
on-line string matching (i.e. finding a known pattern in a string) can be found in a
review of the field by Faro and Lecroq [2013]. Each of the algorithms in the survey
has been tested against a battery of synthetic and real world data, and characterised
in how well it suits two problem characteristics, pattern size and alphabet size. We
voluntarily omit detailed study of these approaches, as expressing the routine activity
detection problem as a search problem is highly inefficient, due to the combinatorial
scale of the possible, unknown, patterns. The identification problem (“Is the current
context a known context?”), which these algorithms address, is much less complex than
the routine mining problem, and even a worst case O(n) algorithm [Knuth et al., 1977]
30has little impact on the overall performance.
Applications to User Modelling One application of this algorithm in the field of
context data, is the SHIP algorithm by Cook et al. [2003], which uses exact matching to
determine frequencies of following activities, with the goal of predicting future context
from recognising frequent sequences. This approach can also be classified as a sequential
pattern mining approach, given the fact that the exact matching is used to extract a
frequency measure for a part of a sequence. The approach requires permanent access to
a history of past activities, in order to perform a matching of the current subsequence
with historic data. SHIP is one of multiple algorithms of the MavHome smart home
architecture. This is an agent-based multilayer architecture, which uses a predefined
set of concepts to transform physical sensor data (“lowest” layer) into abstract, discrete
context data, before it is treated by the learning and decision-making modules (“highest”
layer).
String matching algorithms have also been adapted to two- or multidimensional data.
This is possible through an extension of the string-matching paradigm to “wider” data
structures (i.e. where each string element itself is a string of length greater than one)
which has been proposed by Baker [1978]. The problem is reduced back to a string
matching problem, which allows the use of efficient, well known algorithms. First rows
from the search pattern are matched with rows from the subject array, then a table of
matches annotated with a row ID is created. In this table, the row IDs are matched
with the order of row IDs in the pattern array, column-wise. Therefore, the algorithm
effectively represents the problem as the concatenation of two string matching problems.
A similar approach is taken by Zhu and Takaoka [1989]. They use the hashing pattern
matching approach of Karp and Rabin [1987] on the columns of the input data to first
reduce the array problem to a string problem, and then use the algorithm of Knuth et al.
[1977] row by row to find the array patterns.
To the best of our knowledge, these approaches have not been used within the field of
context data mining or applied to related fields, but could be considered as candidates,
given a suitable framework.
The k-Error Problem The k-error problem (explored in depth in the work of Navarro
[2001]) is a quite specific approximate string comparison problem, where the goal is to
match a pattern to a string, without incurring more than a fixed number of modifications,
and the more general alignment problem, in either global or local flavour. A global
alignment of two strings is the ideal ordered set of operations to transform one string to
31another, whereas local alignments are based on the same principle, but look instead to
find maximally similar sub-strings within the pair of input strings.
The k-error problem is too limited in scope, to be of use in the simple string case, as it
is restricted to a search functionality, and the constraints of the fixed number of changes
make no sense when dealing with context data. Nonetheless, further on we cover some
variants of this approach, that generalize it to two dimensions, where the reasonable
complexity of the solutions has some more interest. The class of alignment problems on
the other hand is more flexible, and thus more interesting of analysis, and can also be
used to solve the k-error problem.
Global Alignment The first foray into the field was led by two biologists, Needleman
and Wunsch [1970]. They propose a method to find the largest similar subsequence
of a pair of amino acid sequences. More specifically, their algorithm finds similar subsequences
of maximum length. Their original algorithm – which has largely been surpassed
by a dynamic programming version – is illustrated for an example in Fig. 2.3.5.
Two input strings are orthogonally arranged, so that a table can be spanned between
them. In this version, every match of two symbols is given a score (1) in a table – as
shown in the left table in Fig. 2.3.5. This value is added to the largest value in the
top left sub-table – the empty table is assumed to contain the score 0 – this process
is detailed in the right table of Fig. 2.3.5 . Following the increases in score across the
table, gives the operations required to perform an alignment (denoted by arrows in the
example).
Non-deterministic configurations can be encountered, for example when one string
contains a sub-string in inverse order as the other string (e.g. abcd and acbd). In that
case, the following value can be based on either of the two previous rows of the table.
This is because the incremented value for the b-b-match is not in the sub-table from
which the maximum is chosen when examining the c-c-match. This leads to two equal
values, one in each row of the table, and a common value in the following table. Because
the top-most of the equal values is to the right of the lower-most, it is not possible to
traverse both values, leading to the non-deterministic situation, where one of the two
equally valid paths (deletion of b or deletion of c) has to be chosen.
Dynamic Programming Algorithm The formalisation of the dynamic programming
algorithm for global sequence alignment [Sankoff, 1972], requires the definition
of a few terms. Let Σ be an alphabet of characters and let Σ∗ be the set of all possible
combinations of characters into sequences. Let ε be the empty word. Let a ∈ Σ
32A
C
G
T
C
G
A
C
G
A
1
0
0
0
0
0
1
0
0
C
0
2
1
1
2
1
1
2
1
T
0
1
2
3
2
2
2
2
2
C
0
2
2
2
4
3
3
4
3
A
1
1
2
2
3
4
5
4
4
C
0
2
2
2
4
4
4
6
5
G
0
1
3
2
3
5
4
5
7
A
C
G
T
C
G
A
C
G
A
1
1
C
1
1
1
T
1
C
1
1
1
A
1
1
C
1
1
1
G
1
1
1
Figure 2.3.5.: Original Needleman-Wunsch algorithm, as introduced by Needleman and Wunsch [1970]. The left table is filled
with incrementation markers (“1”) at each location where a pair of values match. In the right table, the values
for all the cells have been determined, and the alignment highlighted by arrows and bold values. The alignment
(arrows) starts at the maximum value and then follows the maximum values, upwards and to the left in the
table. The “skips” between values 5 and 4, and 3 and 2 are indicative of deletions in the row-string.
333 3
2
3 2
1
insertion
-1
-1 ±0
deletion
Figure 2.3.6.: Calculation of the local similarity using the dynamic programming approach.
The preceding values in the table are either incremented by the
substitution score, in the case of the diagonal predecessor, or decremented
by the indel penalty. The maximum value is carried over for all successive
operations.
and b ∈ Σ (a 6= b) be two such characters. For each pair of (a, b), define an elementwise
replacement edit distance or substitution distance sub(a, b) ∈ R where it holds
sub(a, a) 6= sub(a, b). In the original paper, the proposed values were 1 for a match and
0 for a mismatch. An alignment can comprise insertions and deletions (indels). These
operations are assigned a penalty value indel ∈ R (= −1 in the original paper).
The next step is the accumulation of these values in an array (“accumulated similarity
score table”) spanned by the two input sequences. Row by row, the array is filled. Each
cell in the array is calculated as the maximum of the sum of values in the directly adjacent
cells with already determined values and the indel penalty, and the sum of the value in the
diagonally adjacent cell with already determined value and the appropriate substitution
score for the position of the cell (cf. Fig. 2.3.6 ). Formally: For two sequences S1 and
S2 with last elements a and b respectively, the similarity score sim(S1, S2) is recursively
defined as:
sim(S1, S2) := max
sim(S
−1
1
, S−1
2
) + sub(a, b)
sim(S
−1
1
, S2) + indel
sim(S1, S−1
2
) + indel
(2.3.1)
34where S
−1
is the prefix of length |S| − 1 of a sequence S. The initial condition is
sim(S, ε) = sim(ε, S) = 0. Once the array has been completely populated, the maximum
value in the last row or column is selected as origin. From this point, a trace
of maximum values in the array is followed in the opposite direction of its generation.
The direction taken at each step corresponds to an alignment operation. A diagonal
movement corresponds to a substitution, whereas a movement into a directly adjacent
cell corresponds to an indel. The sequence of operations that is returned this way is the
sequence of operations required to align one of the input strings with the other.
Using a dynamic programming approach, the algorithm can be implemented within
the constraints of O(n
2
) time and space. When comparing k sequences (of average length
n), the complexity is of the order of O(n
k
).
Optimal Global Alignment Hirschberg [1975] proposes a linear space algorithm,
which computes only the optimal score, and returns only the optimal sequence of alignment
operations. This is achieved through a divide and conquer approach. Let S
i be
the suffix consisting of the last i elements of a sequence S and S
−i be the corresponding
prefix.
Given sequences S1, S2 ∈ Σ
∗
, with |S1| = n and |S2| = m, it holds:
∀0≤i≤n : M(i) := max
0≤j≤m
{sim(S
−i
1
, S−j)
2
) + sim(S
i
1
, Sj
2
)} → M(i) = sim(S1, S2)
This means that, for each position i in S1, there exists a position j in S2 such that the sum
of similarity values of the pair of prefixes and the pair for suffixes from these positions is
equal to the similarity value of the pair of sequences. Splitting S1 approximately in half
(at index i) therefore implies an optimal split of S2 at the j where the minimum M(i) is
calculated. Repeat this process on the pairs of first and second subsequences generated
by the split until only a trivial problem (such as S2 being empty, or S1 containing only
a single symbol and S2 being not empty) remains.
The dynamic programming approach is illustrated – for the same pair of strings as
in the previous example – in Fig. 2.3.7. Note how the value in each cell depends only
on the three neighbouring values (as indicated in equation 2.3.1), which is crucial to
Hirschberg’s approach.
Local Alignment Global alignments are of interest, when a corpus of known interesting
subsequences exists. As referenced above, Sigg et al. [2010] use global alignment
35A
C
G
T
C
G
A
C
G
A
1
0
-
1
-
2
-
3
-
4
-
5
-
6
-
7
C
0
2
1
0
-
1
-
2
-
3
-
4
-
5
T
-
1
1
2
2
1
0
-
1
-
2
-
3
C
-
2
0
1
2
3
2
1
0
-
1
A
-
3
-
1
0
1
2
3
3
2
1
C
-
4
-
2
-
1
0
2
2
3
4
3
G
-
5
-
3
-
1
-
1
1
3
2
3
5
A
C
G
T
C
G
A
C
G
A
1
0
-
1
-
2
-
3
-
4
-
5
-
6
-
7
C
0
2
1
0
-
1
-
2
-
3
-
4
-
5
T
-
1
1
2
2
1
0
-
1
-
2
-
3
C
-
2
0
1
2
3
2
1
0
-
1
A
-
3
-
1
0
1
2
GC
-
1
-
1
±
0
Figure 2.3.7.:
Note that the traceback follows substitutions over indels in cases of ambiguity (e.g. the 4
shows the complete table and highlights the series of maximal values which indicate the alignment operations.
-1. The left table shows how a particular cell value is calculated from three predecessor values, the right table
penalty, matching substitutions score a value of 1 and insertions and deletions are penalised with a value of
Dynamic programming version of the Needleman-Wunsch algorithm. Non-matching substitutions have no
→3 transition marked
and not necessarily the maximum value.
in the right table), as the value that was used to calculate the current value defines the path for the traceback,
36to identify known context sequences in a stream of real-time context data. In order to
actually identify such repeating patterns in sequences, local alignments need to be found.
The reference local alignment algorithm is Smith and Waterman’s algorithm [Smith
and Waterman, 1981], a variation on the dynamic programming Needleman-Wunsch
optimal matching algorithm described earlier. The key differences are that negative
values are used to represent the similarity of different values, and that in the accumulated
similarity score table all negative values are truncated to zero. The similarity function
above is modified to:
sim(S1, S2) := max
0
sim(S
−1
1
, S−1
2
) + sub(a, b)
sim(S
−1
1
, S2) + indel
sim(S1, S−1
2
) + indel
(2.3.2)
and furthermore, a backtrack halts when a zero value is encountered. The result is
that – in the accumulated similarity score table – the score rises along pairs of local
subsequences that are similar, then drops as they become dissimilar further on, and
finally reaches zero. This zero value then serves as a delimiter: any similarity elsewhere
is not impacted by the previous values, and thus locality is introduced. The degree of
locality is directly dependent on how quickly similarity scores are accumulated to reach
zero, from the point that the two subsequences diverge. This means: the dissimilarity
of a pair of intervals between two pairs of similar intervals determines whether the two
intervals are treated as a single pair of similar sub-strings containing the dissimilar substrings,
or as two separate pairs.
An example of this is given in Fig. 2.3.8, with two different penalties (-2 and -1 for
left and right tables respectively) used to calculate the two tables. The result is that the
smaller alignments are each time reset (to a zero score) in the left table, before they can
form a larger alignment.
Although Myers and Miller [1988] showed that it is possible to apply Hirschberg’s
approach to local alignments, this is not always desirable, as reducing the result to the
optimal alignment, discards all other local alignments present in the data.
Fast Search Algorithms In bioinformatics, one of the key challenges is to check
for the presence of medium length sequences within a genome. This is best achieved
by algorithms that are optimized for search, such as FASTA by Lipman and Pearson
[1985] and BLAST by Altschul et al. [1990]. These algorithms use heuristics to achieve
37A C G T C G A C G
A 1 0 0 0 0 0 1 0 0
C 0 2 1 0 1 0 0 2 1
T 0 1 2 2 1 1 0 1 2
C 0 1 1 2 3 2 1 1 1
A 1 0 1 1 2 3 3 2 1
C 0 2 1 1 2 2 3 4 3
G 0 1 3 2 1 3 2 3 5
A C G T C G A C G
A 1 0 0 0 0 0 1 0 0
C 0 2 0 0 1 0 0 2 0
T 0 0 0 1 0 0 0 0 0
C 0 1 0 0 2 0 0 1 0
A 1 0 0 0 0 0 1 0 0
C 0 2 0 0 1 0 0 2 0
G 0 0 3 1 0 2 0 0 3
Figure 2.3.8.: Two accumulated similarity tables obtained using the Smith-Waterman
algorithm. The left has been calculated using a similarity score of 1 for
matches, and dissimilarity penalties of -2 for non-matching substitutions
and indels. The right table has this penalty reduced to -1. In each case,
the alignments with a similarity score of at least 3 have been highlighted.
Note how the higher penalty leads to smaller, more local alignments.
much better search performance than exact methods, at the cost of a guarantee that the
obtained results are correct. By being limited to search, these approaches do not offer
themselves to the more exploratory nature of the routine activity detection problem pursued
in this work. A further number of approximate on-line string matching algorithms
is exposed in a survey by Navarro [2001], which introduces algorithms that are also
based on statistical approaches, automata based approaches, filtering approaches and
bit-parallelism based approaches.
Two-Dimensional Pattern Matching Approximate pattern matching approaches
for multiple dimensions can be divided into two classes: error-tolerance-based approaches
and alignment-based approaches.
The former use a simple model, that merely counts the number of modifications required
to transform one structure into the pattern that is being sought. If the number of
operations required exceeds a limit, a mismatch between data and pattern is assumed,
similar to the k-mismatch approach for strings. Krithivasan and Sitalakshmi [1987]
present a row-based approach to this problem, and a simple generalisation of the dynamic
programming algorithm. Their model of a pattern is rectangular. The algorithm
consists of two steps: first patterns are represented in an optimized fashion, by reducing
rows that are identical or similar to a differential representation. Then, the data
is searched for occurrences of the first row of the pattern, and for each occurrence it is
38verified whether the second row of the pattern follows. The number of required modi-
fications is tracked for the set of occurrences, and whenever the error-limit is exceeded,
the occurrence is discarded.
Amir and Farach [1991] present an early algorithm that takes into account general
structures, as opposed to merely rectangular ones. To achieve reasonable run time,
they use numerical convolutions to perform the approximate matching. Baeza-Yates
and Navarro [1998] present an approach of identical optimal complexity, that consists of
a filtering step, discarding all rows in the text that cannot possibly contain a pattern,
before using a standard dynamic programming algorithm for the final matching.
Two-Dimensional Motif Extraction The previously introduced two-dimensional
matching approaches do not allow the extraction of patterns from data, but instead
solve the problem of finding a known pattern within data. As in the one-dimensional
case, matching alone is not the key issue of the routine activity detection problem.
Instead, the identification of common patterns in input data, is the key problem of the
routine activity detection problem. Such extraction algorithms have first been proposed
by Apostolico et al. [2008]. The notion of a pattern in their work is still essentially
rectangular, but through the use of “don’t care”-symbols (symbols in patterns that match
any symbol in the input data) the actual informational content of a pattern can take
arbitrary shapes. Their approach primarily searches for autocorrelations of a single input
array. An autocorrelation in their nomenclature is a similarity between the array and
its transposed array. They propose an incremental combinatoric approach to detecting
a base of patterns. A base is a set of maximally sized and maximally dense patterns,
which comprises all patterns of an autocorrelation. Within the framework of the routine
activity detection problem, such a base would correspond to a set of recurring contexts
of maximal length and specificity, that describes all recurring contexts in a specified time
frame.
The incremental algorithm functions as follows: iterating over the cells of the array,
in a row-major order, from the lower right corner to the upper right, a base is found for
each sub-set of elements contained up to the current position. During the iteration step,
new base element patterns are generated, through inclusion of the new symbol. Some
of these patterns are novel – i.e. have not been generated previously – and render some
old patterns obsolete, either by rendering them more specific, or by extending them in
size. New patterns can be not novel, for example when a novel pattern removes an old
pattern through extension from the base, but a previously removed pattern does then
again become a valid base element, through this removal. Iterating this process across
39data of size N = m × n requires O(N3
) time. By reducing the alphabet to a binary
alphabet, complexity can be reduced to O(N2
) [Rombo, 2009].
Two-Dimensional Local Alignment A generalizations of the local alignment by
dynamic programming paradigm to two dimensions is presented in Lecroq et al. [2012].
This approach can be seen as an extension of the Smith-Waterman algorithm. It computes
similarity scores for each pair of “prefixes” (in the two-dimensional case, this is
the array to the top and left of the chosen position) in a table, that has now gained
four dimensions. Two of these dimensions correspond to the widths and the other two
dimensions correspond to the lengths of the two arrays being locally aligned.
S 1 2 .. i .. n-1 n
1 C1 A2 Ai Bn-1 An
2 C1 A2 Bi Cn-1 An
3 A1 B2 Ci Bn-1 Cn
4 A1 A2 Ai Bn-1 Cn
…
…
…
…
…
…
…
j A1 A2
…
Ci
…
Bn-1 Cn …
…
…
…
…
…
…
l-4 C1 C2 Ai An-1 Bn
l-3 B1 B2 Ci An-1 Cn
l-2 C1 B2 Ai An-1 An
l-1 C1 B2 Ci An-1 Bn
l C1 A2 Ai An-1 Cn
S
S
Figure 2.3.9.: Row and column prefixes, and
accompanying notation.
The similarity value in the table entry
is computed as a function of the preceding
values, much as in the Smith-Waterman
dynamic programming algorithm. The
difference in the two-dimensional case is
that the preceding values now number
eight instead of three. First of all, the
number of possible deletion and insertion
operations has doubled (lines V to VIII in
equation 2.3.3), as they can be either in
vertical (VII, VIII) or horizontal (V,VI)
direction, and furthermore substitutions
can be accompanied by different movements
in the top-left direction. These
directions are either top (IV), left (III)
or top-left (in both arrays simultaneously
- I and II). Finally, in the case of the
top-left movement, the order of the submovements
(top-left (II) or left-top (I))
influences the score. This is the case, because
row prefix and column prefix similarities play a role in the calculation of the
substitution scores, taking the place of the per-element substitution scores used in the
one-dimensional case. In the following, let S ← and S ↑ denote the row prefix and
column prefix of the bottom-right element of a sequence S (cf. Fig. 2.3.9)
Column-prefix similarities are added to the similarity score, when doing an in-row
substitution movement, and row prefix similarities are added, when doing an in-column
40substitution movement. In the case of the combined diagonal movement, the order then
impacts which row prefix and which column prefix is considered.
Let the upper index in S
−i,−j denote which array prefix is used: S
−1,0
is S without
the last row, S
0,−1
is S without the last (rightmost) column, and S
−1,−1
is S without
both last row and column. indel(S) is the indel score of the bottom right element of S.
To formalize (compare with equation 2.3.2), the similarity of two arrays S1 and S2 is
defined as:
sim(S1, S2) :=
max
0
sim(S
−1,−1
1
, S−1,−1
2
) + sim(S1 ↑, S2 ↑) + sim(S
0,−1
1 ←, S0,−1
2 ←) (I)
sim(S
−1,−1
1
, S−1,−1
2
) + sim(S
−1,0
1
↑, S−1,0
2
↑) + sim(S1 ←, S2 ←) (II)
sim(S
0,−1
1
, S0,−1
2
) + sim(S1 ↑, S2 ↑) (III)
sim(S
−1,0
1
, S−1,0
2
) + sim(S1 ←, S2 ←) (IV)
sim(S1, S−1,0
2
) + indel(S2) (V)
sim(S1, S0,−1
2
) + indel(S2) (VI)
sim(S
−1,0
1
, S2) + indel(S1) (VII)
sim(S
0,−1
1
, S2) + indel(S1) (VIII)
(2.3.3)
This similarity is then implemented in the same way as the standard Smith-Waterman
approach, with time complexity in O(N × M), where N is the number of elements in S1
and M is the number of elements in S2. Although this algorithm is generally designed
to detect patterns in arrays, the actual use in Lecroq et al. [2012] is to identify similar
passages of annotated conversations. This kind of data is notably sequential only in the
time dimension, whereas the annotation dimension is fixed, and each column has its own
alphabet. Therefore, the application is to a problem of finding similar subsequences in
sequences of tuples.
With these different approaches having been exposed, we can now compare their
suitability for the routine activity detection problem.
2.3.2.3 Discussion
Our look at string mining is focused on alignment techniques, as this class of approaches
returns pairs of similar subsequences from two input sequences of symbols and thus
allows us to extract information from the data. There are three identifiable ways how to
apply this to our routine activity detection problem:
41❼ reduce the sensor data to discrete context states, and obtain a single sequence
of such states – each similar pair of subsequences should correspond to a routine
activity;
❼ formulate the task as a multi-sequence task (to remain coherent with multiple
sources of context data) and seek alignments on each sequence – merged similar
subsequences should correspond to routine activities;
or
❼ consider context to be a sequence of n-tuples, with each tuple corresponding to
a context state, consisting of multiple discrete context factors – pairwise locally
similar subsets should correspond to routine activities.
These three different conceptual approaches are illustrated in Fig. 2.3.10.
In each case, it is required that the context is represented in a discrete format. The
difference between the first and following two approaches lies in the alphabet size and
tolerance to desynchronisation. A single value that encodes multiple values cannot encode
certain intricacies in context data, such as one sensor reading leading or lagging
the same sensor reading in another instance (5), with regard to the other sensor data.
This restricts the appeal of the single string approach.
t
sensor data
context state abstraction
sensor state abstraction
sensor state abstraction
data synchronisation
Pattern-mining a
single sequence
Pattern-mining multiple
sequences and merging
Pattern-mining an
n-dimensional sequence
Figure 2.3.10.: Three different ways of modelling context for different sequence mining
approaches. “Data synchronisation” refers to the need to have a full set
of sensor readings available at every time step, irrespective of different
sampling frequencies of the actual sensors.
42The multi-sequence approach is excellent with regard to desynchronisations, as each
sensor is studied at an independent temporal time scale from the others, to find patterns.
On the other hand, this complete uncoupling means that coupling effects only get
introduced after the first pattern mining pass, introducing additional model parameters
(6) to characterise the merge operations.
The multi-dimensional approach is limited, in that there are no efficient ways of mining
such patterns. On the other hand – as the illustration makes readily apparent – it is
possible to project the data into the plane, which induces “neighbourhood artefacts”
where the link between neighbouring sensors is stronger than between those that are
projected into areas that are further apart. The Smith-Waterman based two-dimensional
local alignment algorithm can find patterns in this data, but at the cost of relatively
high complexity (1).
The exact motif-extraction approach of Apostolico et al. [2008] is also capable of
extracting information from such projected context data, but the time complexity of
its combinatorial approach is even higher (1). Additionally, it will only extract exact
patterns, having only the freedom of the don’t care symbol, but not permitting structural
variation between pattern instances (5). Although the exact approach means that
initial parametrisation is not required, by consequence it is not possible to obtain an
intrinsic distance between two patterns, or to allow for substituted elements outside of
replacements with the don’t care symbol, which removes all information of the subset of
symbols that can appear in those positions. With sufficient pre-treatment of the context
data, in theory it could be possible to reliably extract patterns, of flexible shapes. In
comparison to the alignment approach the complexity is too limiting, and the amount
of pre-treatment too vast, for this approach to be considered suitable for the routine
activity detection problem.
Similarly, although the suffix-tree solution to the dispersed repeat problem has efficient
solutions (1,7), the fact that it merely covers exact repeats, means that the pre-treatment
has to deliver a sequence of activities as input (2,3). Otherwise the variations which one
can expect in context data, render the approach unsuitable (4,5). Such a pre-treatment
is difficult to obtain in a sufficiently general manner, which renders exact repeat solutions
more difficult to apply to the routine activity detection problem than alignment solutions.
2.3.3 Comparison
For each of the two approaches, we have presented similar classes of approaches. Looking
back at the list of seven criteria we initially defined, we can rank features of classes of
approaches for each one:
43Complexity (1) The first criterion favours approaches which have low algorithmic
complexity and also an inherent capacity to deal with multidimensional data. Whereas
the former is an obvious implication, the latter judgement is based on the fact that
any other approach would either require a merging post-processing step or projecting
pre-processing, both of which may have unexpected implications on complexity.
Preprocessing (2) The second criterion similarly favours multi-dimensional approaches,
as pre-treatment can be reduced to the per-element level and possibly a simple synchronisation.
Adaptability (3) The third criterion is somewhat in opposition with criteria (2) and
(6). Complex models are able to closer match the actual data, and give a richer representation.
Approaches using multi-level hierarchical or substitution score based models
have advantages under this criterion.
Noise (4) Extraction from noisy data is best performed by approximate approaches.
Exact approaches require additional pre-treatment to fulfil this criterion.
Time Effects (5) This criterion also favours approximate approaches, specifically
those that allow skipping or ignoring individual entries when mining for patterns, as
well as treating each sensor with a certain amount of individuality.
Parametrisation Effort (6) The parametrisation effort is lower for substitution
based models compared to hierarchical models, as there is no need to define cross-sensor
relations.
Partial Mobile Deployment (7) This final criterion mostly an engineering challenge,
as all sequence mining based approaches require a large off-line component, that
does not need to be based on the mobile device. On the other hand, a recognition or
prediction algorithm based on an established model can be deployed on a mobile device
with little worry about platform constraints.
For both string mining and SPM, we can at this stage discard the exact one-dimensional
approaches – exact repeat mining and the standard sequential pattern mining algorithms
– as the demands this would put on the pre-treatment of the data cannot reasonably
expected to be met.
44Table 2.1.: Comparison of SPM and string mining
sequential pattern mining string mining
approximative Y N Y N
multi-dimensional Y N Y N Y2 N Y N
(1) complexity
X
high med. low high med. high low
(2) preprocessing high med. high low high med. high
(3) adaptability med. med. low high med. low low
(4) noise tolerance high med. low high med. med. low
(5) time effects tolerance low med. low high low low low
(6) parametrisation effort med. high low high med. low low
(7) mobile deployment no no yes no yes no yes
The approximate methods of string mining have a larger maturity compared to the
approximate approaches of sequential pattern mining, or in the case of the approach by
Kum et al. [2003] is even based on a string mining paradigm. Additionally, there remains
a drawback of sequential pattern mining, in that there is no consecutivity criterion
present in most algorithms.
Plantevit et al. [2010]’s multi-dimensional approach based on the M3SP algorithm
is the only true multi-dimensional algorithm in both fields. To some degree, it shares
the drawbacks of the exact sequential pattern mining approaches, but due to the multidimensionality,
the pre-treatment of the data becomes much less of an issue, and the
underlying hierarchical model can be used to give a semblance of an approximate approach.
A way to render it more suitable to the routine activity detection, would be
to add a consecutivity criterion, as has been done with the algorithm of Pinto et al.
[2001] by Rashad et al. [2007a] or take into account temporal data [Giannotti et al.,
2006, Yoshida et al., 2000]. The two-dimensional approach by Lecroq et al. [2012] appears
to be similarly suitable. The key drawback lies in the required projection of the
multi-dimensional context data into the plane in which the algorithm operates, but it
takes into account desynchronisations across different sensors, and could be reduced to a
lower complexity by taking into account the projection, and thus the incompatibility of
data that is adjacent in the sensor-dimension. A side-by-side comparison of the general
approaches with regard to the seven criteria is presented in Table 2.1.
2This is an estimate based on a naive extension of the approach of [Lecroq et al., 2012] to multiple
dimensions.
452.4 Conclusion and Direction
Our survey of available context datasets has shown that none of them is truly suitable
to quantifiably verify that detected patterns correspond to routine activity. The lack of
ground truth is the prime limitation, but there is also only a small subset of physical
context data present in the existing datasets. This leads us to pursue two strategies to
address – separately – each of the shortcomings: A generation algorithm can give us
true ground truth knowledge, whereas our own data collection campaign would provide
us with as much physical information as required. We also need to annotate some of the
real world data with routine activities, to quantitatively verify our claims.
With regard to the algorithms and approaches we studied, none matches our task
directly. All require either modification or extensive adaptation to a specific dataset.
A common drawback is the substantial effort required to prepare context data for the
data model used in conjunction with the algorithms; alignment based approaches minimise
this aspect, by only requiring tables of similarity scores, which can be determined
using statistical analysis. Alignment approaches are also uniquely tolerant to desynchronisations
between sensor streams. In the above comparison to SPM, the alignment
approaches win out, barely. Compared to a clustering or a probabilistic state machine
approach, the simpler pre-processing of the alignment approach is the deciding factor in
its favour.
This leads us to pursue an approach based on n-tuple sequence alignment.
46Alignment of Sequences of n-Tuples
Overview
This chapter presents our algorithmic contributions towards an answer to the routine
activity detection problem. First we introduce a model that presents context in a way
that an alignment algorithm can use. Next we cover our algorithmic contributions to
the alignment algorithms of the state of the art, and finally we discuss the implications
of our approach.
3.1 Context Model
Fundamentally, context data is the set of values of a number of context factors, at a
specific moment in time. Assuming there are n context factors, this is most accurately
reflected as a vector-valued function over time, of the type C(t) = (c1(t), c2(t), . . . , cn(t)).
Of course, a digital computer can impossibly treat continuous data of any kind, and a
digital sensor can never capture data in a continuous manner. Any context data therefore
is a discrete valued time series, unless different context factors are sampled at different
rates, in which case the data is in the form of multiple time series. We adhere closely to
this natural representation in the following.
3.1.1 Sequence of n-tuples
We postulated in the introduction that routine activities correspond to recurrent motives
in context data. The state of the art approaches to finding such motives favour the use of
a sequence based approach. Consequently, we adopt a model that represents context as
a sequence of context states. In specific, we structure context as a sequence of n-tuples.
471.1 0.3 0.2 0.8
0.7 0.2
0.4 0.5 0.3
0.4 0.6 0.4
0.6 0.5 0.5
0.8 0.3 0.2
0.5 0.6 0.2
C = C(t)
ℝ ℝn
t
discretisation
t
synchronisation
and classification
t
A1 A2
A3 A4
B1
A2
A3 A4
C1
B2
A3 A4
C1
B2
B3 A4
B1
B2 B3 B4
B1
A2 A3 B4
C1
B2
A3 B4
C = (c1
(t1
), c2
(t2
),…, cn
(tn
))
ℕn ℕ n
C = (c1
, c2
,…, cn)(t)
ℕ ℕ n
Figure 3.1.1.: The transformation of continuous context C(t) into context data in a sequential
model.
With regard to the natural time series representation, this requires that our context data
sources are synchronized and sampled at constant and equal intervals. Each position in a
tuple contains a (coarsely – e.g. at a semantically relevant level) discretised or classified
reading from one of n context data sources. These context data sources each measure
one context factor and are referred to as sensors in the following. Each tuple represents
context at a moment in time, which we assume to be valid over the constant interval of
time, until the next set of values becomes available.
In Fig. 3.1.1 the process of transformation from physical context into context data
and finally into a synchronized and coarsely discretised n-tuple representation is illustrated.
Discretisation (at the physical digital sensor level) transforms context from the
continuous function over time into a number of time series. This is then synchronised
into a single time series, and the values are replaced with abstract representative class
IDs, column by column. In the example, we excluded possible expansions or contractions
in the “width”, due to a single sensor measuring multiple physical properties, or data
from multiple sensor being used to determine a class based on multidimensional data.
This is merely to aid comprehension — in reality these characteristics may appear in
the process chain.
By choosing an n-tuple approach to alignment, over a 2D-approach, we can eliminate
a degree of freedom from the latter. The fact that each sensor has its own, separate set
of values, allows us to fuse the two in-tuple dimensions into a single one, by requiring
that any operation performed along one axis has to be equally performed along the
other. This enforced translational (across sequences) symmetry not only prevents us
from having to define similarity values for nonsensical configurations (e.g.: How similar
48x y
z w
z
C C
determine
local
similarities
fuse
dimensions
T∈ℕ4
3
Figure 3.1.2.: Linking w- and z-axes into a single dimension, due to translational symmetry
(i.e.: every set of discrete steps taken along the z-axis is replicated
identically in the w-axis).
is a bright light to an upside down mobile device?) but also reduces complexity of
the alignment algorithm. The specific consequences are discussed in subsection 3.2.1.
Fig. 3.1.2 shows how the four-dimensional alignment problem has been reduced to a
three-dimensional one, by linking the in-tuple dimensions.
3.1.2 Blocking and Sampling
Although it is generally possible to find pairs of similar subsequences by searching for
local alignments of a sequence with itself, the time and memory required to do so grow
by the square of the length of the sequence (cf. paragraph Local Alignment on page 35).
There exists a limit from which on it is no longer possible to calculate local alignments,
because no computer system has sufficient memory available to perform the computation.
We have identified two means of managing the issues that arise from an increased
volume of data:
❼ A first variable that we can control a priori is the sampling frequency of context
data. Depending on the granularity of context patterns we wish to identify, we
can reduce or increase the sampling frequency. This also reduces or increases the
sequence length, for a given time interval of context data.
49…
…
l
i
l
i+1
≠
corpus context C
Figure 3.1.3.: Splitting a long sequence of context data into blocks of roughly equal (but
not necessarily equal) lengths.
❼ Another way to address this problem is by splitting the sequence along regular
(time-)intervals into subsequences of n-tuples. It is often sensible to do this along
semantically relevant lines, for example by choosing 24 hour intervals or seven
day intervals. This is illustrated in Fig. 3.1.3 where a long sequence of context
data is divided into a set of subsequences with potentially different lengths. The
different lengths are artefacts of the data collection, and do not affect the alignment
calculation.
Memory constrained situations are defused by using this approach, as the accumulated
score tables for each pair of subsequences are much smaller. Fig. 3.1.4 shows how the
large table spanned between two long sequences a and b is reduced to many smaller tables,
when the long sequences are divided into blocks. The impact on total computation time
is negligible, due to high number of alignment operations that result, which also scales
to the square of the number of segments. On the other hand, it is trivial to parallelise
across pairs of blocks, which reduces the real duration (i.e. wall time) of performing an
alignment when more than one processor is available.
50Blocking into
N Blocks
Volume = N2 small volumes
a
b
Figure 3.1.4.: The reduction of the size of individual accumulated similarity score tables
which can be obtained by blocking. a and b are two sequences, with the
local similarity scores contained in the volume spanned between them.
Another advantage to blocking, lies in that fact that blocks are crucial for a sequence
mining approach. Conversely, a downside is that there is an accuracy penalty, even when
choosing “convenient” intervals (i.e. such that periods of interest are well away from the
beginning or end of a block). Notably, patterns that fall across these boundaries could
be represented as two separate alignments, or not at all, because each half might be
too short to meet an imposed similarity criterion. One possible means of addressing this
shortcoming, is to allow overlaps between adjacent blocks. This practice introduces some
overhead, when alignments that can be found in the overlap are “stitched together”.
3.1.3 Meta-data
As we pursue a local alignment-based approach, we need to be able to determine local
similarities of subsequences. A key requirement is that we define the relation between
each pair of discrete states of each sensor by means of a set of similarity scores. These
similarity scores are by nature positive, when describing the similarity of identical values,
and negative when describing the similarity of non-identical values. We chose to represent
these values in the form of n (one for each element of an n-tuple) symmetrical tables,
containing positive values in the main diagonal, and negative values elsewhere. A small
example is given in Fig. 3.1.5.
513 -1 -1 -2 -2
-1 3 -1 -2 -2
-1 -1 3 -2 -2
-2 -2 -2 5 1
-2 -2 -2 1 5
n
A B C D E
A
B
C
D
E
S
Figure 3.1.5.: A sample substitution similarity score table from the set of n tables.
We can imagine four ways, how such a set of meta-data can be obtained. The first two
are based on statistical analysis of an existing dataset: transition frequencies between
sensor states are a possible indicator to an underlying system, but the same can be
claimed of substitution probabilities between sensor states for hand-selected patterns. A
third approach is to base the values on the physical distances of the underlying classes.
In the case of two places, the distance of the shortest route between the two, or the time
required to cover that distance, could be such physical pointers. Finally, in absence of
such data, a simple model that does not assign different scores at all, except one positive
and one negative score to differentiate between same and different values can be used.
Each approach requires expert supervision, and of course it is also possible for an expert
to project his own view of the problem onto a manually crafted set of meta data that
does not directly reference any of the above approaches, or mixes them.
Besides these substitution scores, an alignment-oriented model also requires insertion
and deletion scores. Contrary to the affine (for length) and constant (for deleted/inserted
value) approach chosen in bioinformatics (cf. BLOSUM-type block transition score tables
by Henikoff and Henikoff [1992] and the work of Altschul and Erickson [1986]), we decide
to use scores which are a fixed offset of the substitution similarity score.
Our reasoning behind this choice is as follows: in context data it is common for context
sources to return a constant value, for a different length of time. Particularly, periods
of inactivity (with regard to the mobile device) show this characteristic. An example:
52constant
value
constant
value
locally
optimal
alignment
with negative
deletion score
desired
locally
optimal
alignment
aligns if insertion/deletion
of constant values has
positive similarity
Figure 3.1.6.: Two intervals of identical values but different lengths can be aligned by
assigning positive similarity score to insertions and deletions of identical
values.
a user sleeps for different lengths of time during two different nights in a week. Our
goal in this case is to align the entirety of both instances of “user sleeps”, instead of
just the closest matching sub-sequence of the longer interval. The score offset gives a
high similarity score for alignments of a subsequence of constant values with another
subsequence of identical values but different length, while also penalising non-identical
deletions and insertions over substitutions.
This concept is illustrated in Fig. 3.1.6, where two intervals of constant values but
different lengths are shown side by side, with two possible ways of defining similarity
being shown: To the right, the state-of-the-art approach of assigning negative scores to
all deletions and insertions, and to the left an example where the sum of deletion score
and substitution score of the two constant values is positive. This allows the inclusion
of the entire interval. In practice, a positive score would usually be undesirable, as
problems of scale might arise. Often it is sufficient to allow a similarity score to bridge
across such intervals without penalizing the accumulated score too much, as activities
following longer series of constant values are usually also similar, if the constant values
are part of the trace of a significant routine activity. In this case a lightly negative
score-sum is preferred.
533.1.4 Discussion
This model – and particularly the definition of a similarity measure – is specific to
alignment approaches. Data that is presented according to this model can be transformed
to conform to another model, as long as the granularity of the discretisation is not too
coarse, and the classification key which is used to map raw values to abstract context
values is available. Of specific interest to us, is the transformation to a model that is
compatible to a sequential pattern mining approach, because it would enable a direct
comparison. Such a conversion would require that the similarity tables are transformed
into a similarity hierarchy.
We consider the absence of semantic and physical information in data that conforms
to this model to be an advantage: it protects the privacy of the user whose data is
being treated. Despite it being possible to infer some semantic information (e.g. which
location IDs correspond to home and work) from a stream of data formatted according
to this model, there is very little risk of physical information (i.e. where the previously
mentioned places are located) to become compromised. This makes our model suitable
for data storage and processing on distributed systems, that are not necessarily under
direct control of the user, with little risk of a breach of privacy. This hypothesis is
reinforced by the evaluation of Voigtmann et al. [2012] of different context analysis
approaches and models.
The adaptation of raw data to our model requires some amount of intervention by
an expert, but automation is possible to a degree. The influence of this expert in the
creation of the model is pivotal. Assuming that an expert has derived a perfect context
model, we cannot guarantee that he can transform this model with perfect accuracy into
a set of meta-data. This limitation is due to the fact that similarity values are limited
in precision and difficult to scale across multiple sensors.
Anecdotally, in the field of biological sequence alignment, research showed that incorrectly
obtained substitution score tables (Styczynski et al. [2008]) can in fact increase
the accuracy of the used alignment algorithm. In this case an error in the statistical
determination of similarity values from a reference dataset was present. We therefore
theorise that our similar model would display similar resilience to slight inaccuracies
in the similarity value tables. We also have to emphasise that the parametrisation of
a model that performs exactly as expected is far from a well understood or intuitive
practice.
With this model in place, we examine in more detail our approach to process this data
for routine context.
541 2 .. n-1 n
A1 B2 An-1 Bn
B1 C2 An-1 Cn
C1 C2 Cn-1 An
A1 A2 Bn-1 An
A1 A2
…
Bn-1 Cn
C1 C2 Bn-1 Bn
C1 B2 Cn-1 Cn
B1 B2 An-1 Cn
B1 A2 Cn-1 Bn
A1 C2 Bn-1 An
1 2 .. n-1 n
C1 A2 Bn-1 An
C1 A2 Cn-1 An
A1 B2 Bn-1 Cn
A1 A2 Bn-1 Cn
A1 A2
…
Bn-1 Cn
C1 C2 An-1 Bn
B1 B2 An-1 Cn
C1 B2 An-1 An
C1 B2 An-1 Bn
C1 A2 An-1 Cn
alignment
Figure 3.2.1.: Two example context sequences, the resulting context data sequences and
an alignment (cells underlaid in grey) that corresponds to two similar
subsequences.
3.2 Alignment Algorithm
It is our declared goal to find patterns in context data. As we have laid out in our
survey of the state of the art (cf. section 2.4 on page 46), the search for local alignments
appears to be the most suitable approach to this task. Any such alignment (i.e. a pair
of similar subsequences of two sequences from a corpus of context data) corresponds to
two instances of similar activities or contexts. Fig. 3.2.1 reprises how context sequences
correspond to alignments. Two similar sequences of activities (being at home, working
at the hospital in the morning and the laboratory in the afternoon, before playing hockey
on one hand and the same activities in a different order on the other) result in two similar
sets of context data. A subset of this data attains a locally optimal similarity score and
is therefore considered to be in alignment. This alignment then serves as pointer for the
original similarity in the activities.
Fig. 3.2.2 illustrates how pairs of context sequences from a corpus (i.e. an established
set of subsequences of context data - cf. subsection 3.1.2 on page 49) are generally
aligned. This is the key operation to find frequently appearing similar subsequences in
55x y
z w
z
a b
determine local
similarities
Figure 3.2.2.: Alignment of two context sequences a and b from a corpus.
this corpus, which we then understand to be representatives of routine activities.
Before we continue, we briefly discuss the two key terms that we use so frequently in
this work: alignment and similarity. An alignment is defined as a result of an alignment
algorithm with a specific configuration. More generally, it is a subsequence and the associated
operations to transform it into another similar subsequence (cf. subsection 2.3.2
on page 25).
On the other hand, the – rather abstract – notion of similarity is less obvious. With
regard to sequences, we can define four key criteria of similarity: Substitution similarity
at the elemental level is the most atomic criterion. It stems from the pair-wise similarity
values defined beforehand (cf. subsection 3.1.3 on page 51). Another similarity criterion
is the density of positive substitution similarities. A high density means a high similarity
of a set of values. A third similarity criterion is size: at the same density, a larger
set of values can be considered to be more similar, than a smaller one. Finally, we
impose a synchronicity criterion. The less gaps need to be opened or filled in a pair of
subsequences, given the same size and density, the higher the similarity score for the
overall sequence.
In the following, we implement this notion of similarity with a recursively accumulated
similarity measure. Basically, we call a sequence “similar” to another, if the last row
and column of both sequences are similar, and the remaining sequence is also similar
56(cf. subsection 2.3.2 on page 25 and the next subsection for formal descriptions), while
using a standard one-dimensional similarity measure for rows and columns. This measure
allows us to describe a very precise notion of what similarity is. By parametrising
the context model appropriately, we can craft a measure that corresponds to specific
expectations. An expert – who defines a set of rules that effectively links certain kinds
of patterns in the data to routine activities – can therefore tune the parameters on a
case-by-case basis.
A similarity measure based on this concept lies at the heart of the work of Lecroq
et al. [2012] on aligning annotated dialogues to find similar structures. We extend and
adapt this approach for use on context data and our context model. Our modifications to
their algorithm, which primarily address significant performance issues that arise when
attempting to use their approach on long sequences of context data, are detailed in the
following.
3.2.1 Contribution I: Reduction to n-tuple Problem
Our first angle of approach lies in the elimination of unnecessary size of the table of
accumulated scores. In the original approach, this table spans four dimensions, to take
into account insertions and deletions in horizontal and vertical directions in the plane.
As our context model does not allow for any interaction between different elements of the
same tuple, we restrict permitted operations from the 2D approach (cf. subsection 3.1.1
on page 47 and Fig. 3.2.2 on the preceding page).
When determining the similarity of a pair of tuples we now only allow substitutions
between elements with identical indices. This brings our approach closer to a true ntuple
approach. As a consequence, insertion and deletion operations are restricted to the
sequence dimension, but are not limited to entire n-tuples at a time. This optimisation
reduces the local similarity score table T to three dimensions, and thereby each cell only
depends upon five “predecessor cells”. Each of these cells corresponds to a vertex in the
cube marked T in Fig. 3.2.7.
This step also simplifies and thereby optimises some ancillary calculations. It is often
required to calculate row and column similarity scores locally; for the row case, only
substitutions are of interest. The local column alignments also mean that the algorithm
retains full flexibility when working with data that has a tendency to de-synchronise, by
being able to “break up” tuples to form alignments.
As the calculation of the score table is naturally defined in a recursive manner, we
will first define ways of selecting individual tuple elements in a sequence with a reference
point in the bottom right. For the following, let s be a sequence of n-tuples of length l.
57Definition 1. s [i, j] , i < l ∈ N, j < n ∈ N is the element in the j-th position from the
end of the n-tuple in the i-th position from the rear (l-th row) of the sequence s.
In Fig. 3.2.3, we present three examples (one general, and two similar to the common
usage in the following) of how this inverted addressing of elements of a sequence works.
s 1 2 .. i .. n-1 n
1 C1 A2 Ai Bn-1 An
2 C1 A2 Bi Cn-1 An
3 A1 B2 Ci Bn-1 Cn
4 A1 A2 Ai Bn-1 Cn
…
…
…
…
…
…
…
j A1 A2
…
Ci
…
Bn-1 Cn …
…
…
…
…
…
…
l-4 C1 C2 Ai An-1 Bn
l-3 B1 B2 Ci An-1 Cn
l-2 C1 B2 Ai An-1 An
l-1 C1 B2 Ci An-1 Bn
l C1 A2 Ai An-1 Cn
s[n-i,l-j]
s[1,1]
s[0,1]
Figure 3.2.3.: Selection of tuple elements in a sequence using reverse addressing. The
origin of the coordinate system used here is in the lower right end of the
sequence. From there the first coordinate is incremented when moving one
element to left, and the second when moving one element upwards.
Next, we define a way to express the recursive reduction of the sequence:
Definition 2. The •i,,j operator represents the sub-sequence consisting of the original
sequence, minus the last i tuples and the last j tuple elements. If we understand s to be
an ordered set of coordinate-value pairs, this can be expressed as si,,j := s \ s [x, y] ∀x <
i ∨ y < j.
This operator is illustrated in Fig. 3.2.4, where both a general case is shown, and the
58usage that is most common in the following, with indices in the [0,1] range.
s 1 2 .. i .. n-1 n
1 C1 A2 Ai Bn-1 An
2 C1 A2 Bi Cn-1 An
3 A1 B2 Ci Bn-1 Cn
4 A1 A2 Ai Bn-1 Cn
…
…
…
…
…
…
…
j A1 A2
…
Ci
…
Bn-1 Cn …
…
…
…
…
…
…
l-4 C1 C2 Ai An-1 Bn
l-3 B1 B2 Ci An-1 Cn
l-2 C1 B2 Ai An-1 An
l-1 C1 B2 Ci An-1 Bn
l C1 A2 Ai An-1 Cn
sn-i,l-j
s1,1
Figure 3.2.4.: Example of the •i,,j operator. If the operator is used on the same sequence
of n-tuples, with one pair of indices being higher than the other, the smaller
result is a subset of the larger one. In this case the result underlaid in black
is a subset of the result underlaid in grey.
To calculate in-tuple and in-column similarity values, we define two operators:
Definition 3.
s [i, j]← := {s [i, j + 1] , s [i, j + 2] , . . . , s [i, n]}
is the right-to-left sequence of elements to the left of a position in a tuple, and
s [i, j]↑ := {s [i + 1, j] , s [i + 2, j] , . . . , s [l, j]}
is the bottom-to-top sequence of all prior elements in a column (i.e. all elements with
the same tuple index).
One example of each of these operations is illustrated in Fig. 3.2.5.
59s 1 2 .. i .. n-1 n
1 C1 A2 Ai Bn-1 An
2 C1 A2 Bi Cn-1 An
3 A1 B2 Ci Bn-1 Cn
4 A1 A2 Ai Bn-1 Cn
…
…
…
…
…
…
…
j A1 A2
…
Ci
…
Bn-1 Cn …
…
…
…
…
…
…
l-4 C1 C2 Ai An-1 Bn
l-3 B1 B2 Ci An-1 Cn
l-2 C1 B2 Ai An-1 An
l-1 C1 B2 Ci An-1 Bn
l C1 A2 Ai An-1 Cn
s[2,1]
s[1,0]
Figure 3.2.5.: Selection of a column and row using the ↑ and ← operators.
Lastly, we require a uni-dimensional similarity measure, to determine what used to be
row and column scores:
Definition 4. For two sequences x, y of single elements, sim(x, y) is the
❼ locally (i.e. before the similarity reaches a zero value) maximum similarity score
of the Smith-Waterman algorithm on the reversed column sequences, if x and y
are both sequences generated with the ↑ operator.
❼ maximum accumulated value of substitution similarity scores, if x and y are sequences
generated by the ← operator.
Fig. 3.2.6 shows an example to illustrate this, based on 4 steps: First a pair of columns is
extracted from a sequence of n-tuples, then reversely aligned, one with the other. Once
the similarity score reaches zero, the alignment is aborted, and the local maximum in
the aligned interval is the score returned by the sim operator.
60s 1 2 .. i .. n-1 n
1 C1 A2 Ai Bn-1 An
2 C1 A2 Bi Cn-1 An
3 A1 B2 Ci Bn-1 Cn
4 A1 A2 Ai Bn-1 Cn …
…
…
…
…
…
…
j A1 A2
…
Ci
…
Bn-1 Cn …
…
…
…
…
…
…
l-4 C1 C2 Ai An-1 Bn
l-3 B1 B2 Ci An-1 Cn
l-2 C1 B2 Ai An-1 An
l-1 C1 B2 Ci An-1 Bn
l C1 A2 Ai An-1 Cn
Bn-1
Cn-1
Bn-1
Bn-1
…
Bn-1 …
An-1
An-1
An-1
An-1
An-1
Cn-1
Bn-1
…
Bn-1
…
Bn-1
Cn-1
An-1
2 - align
3 - accumulated
similarity
reaches 0
1- extract
4 – sim is the maximum accumulated
similarity score in this interval
Figure 3.2.6.: Calculation of a column similarity score. Two columns are extracted from
two sequences, then aligned in inverse order, up to the point where the
similarity score reaches zero. The maximum similarity from this interval
is the similarity value we assign these two columns.
With these prerequisites in place, we can express the accumulated similarity score for
two subsequences a and b recursively as follows:
Definition 5. For two sequences of n-tuples a, b and the accumulated similarity score
is:
sim(a, b) =
max
0
sim(a1,1, b1,1) + sim(a [0, 0] ↑, b [0, 0] ↑) + sim(a [0, 1] ←, b [0, 1] ←) (I)
sim(a1,1, b1,1) + sim(a [1, 0] ↑, b [1, 0] ↑) + sim(a [0, 0] ←, b [0, 0] ←) (II)
sim(a0,1, b0,1) + sim(a [0, 0] ↑, b [0, 0] ↑) (III)
sim(a1,0, b1,0) + sim(a [0, 0] ←, b [0, 0] ←) (IV)
sim(a0,0, b1,0) + indel(b[0, 0]) + sim(a[0, 0] ←, b[1, 0] ←) (V)
sim(a1,0, b0,0) + indel(b[0, 0]) + sim(a[1, 0] ←, b[0, 0] ←) (VI)
(3.2.1)
The similarity score sim(a, b) is 0, if a = ∅ ∨ b = ∅.
61In the domain of the accumulated local similarity score table T, each cell contains
the similarity values of the subsequences (of sub-tuples) defined by the coordinates (cf.
subsection 2.3.2). The iterative algorithm of determining each value in T is started by
initialising the first plane in each dimension of the table with zeroes, to satisfy the end
condition of the recursive definition of the similarity scoring function. The other cells
are calculated as illustrated in Fig. 3.2.7: Each arrow (labelled I-VI) corresponds to an
operation in equation 3.2.1, excluding the column and row similarities. These are the
operations that are performed in each case, before choosing the maximum value amongst
them:
(I) Substitution and movement to the left (column-row-order): The space diagonal
predecessor value is added to the column similarity of the predecessor and the row
similarity of the current rows.
(II) Substitution and movement to the left (row-column-order): The space diagonal
predecessor value is added to the column similarity of the current columns and the
row similarity of the predecessor.
(III) Movement to the left: The z-axis predecessor value is added to the column similarity
of the current columns.
(IV) Substitution: The x-y-diagonal predecessor value is added to the row similarity of
the current rows.
(V) Insertion: The y-axis predecessor value is added to the row similarity of the current
row and preceding row.
(VI) Deletion: The x-axis predecessor value is added to the row similarity of the preceding
row and current row.
The dynamic programming paradigm of the approach is therefore maintained, despite
our recursive definition of local similarity.
62a b
z z
z
x y
x
y
i-1 plane
j-1 plane
k-1 plane
i,j,k
i,k j,k
I,II
III
IV
V
VI
i lies on the x-axis
j lies on the y-axis
k lies on the z-axis
T
Figure 3.2.7.: The local dependencies of the calculation of a local similarity value. To
the left in the three-dimensional table of accumulated similarity scores T
and to the right the equivalent representation in the domain of the two
sequences a and b. Operations V and VI – insertion and deletion – are
one-dimensional operations and therefore appear only either in a or on b.
3.2.2 Contribution II: Locally Optimal Alignments
The state-of-the-art approach selects every position in the accumulated score table where
the score is above a minimum similarity threshold as a candidate for a backtrack (BT)
– and by extension as an alignment. This leads to a large number of alignments being
calculated, especially if high-scoring alignments (i.e. large alignments with a high
similarity density) are present in the data.
In such a high-scoring alignment, the minimal score is reached long before the end of
the alignment. Each cell with a similarity score above this minimum generates a new BT
and eventually the corresponding alignment, none of which are in any way meaningful.
Alignments can branch in three (four, in the original algorithm) dimensions, which results
in a very large number of BTs, as large volumes of cells containing high similarity values
exist in the 3D scoring table. Whereas an individual BT operation is not extremely costly
from a computational point of view, this high number of BTs effectively – and severely –
limits either the usable problem size or the usable minimal accumulated similarity score
(MASS).
63Figure 3.2.8.: The rightmost (n-th) z-slice of a table T. The axes of the plane correspond to the temporal axes of the sequences.
line denotes the plane of an arbitrarily chosen MASS. The highest value is denoted by an X.
The height and colour are representations of the accumulated similarity value in the cell in T. The white profile
64In Fig. 3.2.8, we look at an extract of the n-th slice of the table T, where typically
accumulated scores are highest compared to other z-slices. Any point above the reference
plane at MASS-level is a potential candidate for a BT. This volume is visibly of
considerable size.
To alleviate this problem, we retain only the most meaningful alignments. The inspiration
for this choice can be found in bioinformatics, where the algorithm of Smith
and Waterman [1981] is often used to identify only the optimum local alignment (Myers
and Miller [1988]). This goes so far, that many evolutionary optimisations have focused
exclusively on this problem. In fact, in Lecroq et al. [2012], reference is also made to a
maximal element for the BT, but also in a global sense. Although this approach is too
radical for our problem, we still perform a similar optimisation, but on a local scale.
We calculate BTs exclusively from the locally highest accumulated scores– as opposed
to from every score higher than the MASS. This corresponds to the peak in Fig. 3.2.8.
A simple check whether any one of the 26 adjacent values is higher than the value in
the current position determines if the current position in the accumulated score table is
retained as a candidate for a BT. The number 26 stems from the fact that each cell has
six directly neighbouring cells (one per surface of a cube), as well as three times four
in-plane diagonal neighbours (one per vertex) and eight “node diagonal” neighbours (one
per node), in the 3D table.
Although this introduces a large number of branches into the execution, it reduces the
number of candidates (and therefore of expensive BTs) drastically. All of the removed
backtracks are in essence redundant: The higher scoring alignment includes all elements
a smaller alignment would include, and a larger alignment with a lower score would have
an overall lower similarity, and therefore the added elements are not similar. We restrict
ourselves to a maximum search radius of 1 (√
2 for in-plane diagonals and √
3 for space
diagonals). Fig. 3.2.9 visualises how we obtain the number of 26 neighbours, and what
these distances mean in the 3D geometry of the accumulated score table.
Though there is a benefit to extending the search radius, in that “double peaks”
would no longer lead to twin alignments of largely similar nature, the added cost of
extending the search radius would quadratically (surface of a sphere) increase the number
of branches, and the additional reduction in candidates would be comparatively small.
On the other hand, the number 26 is also the minimal number of checks required for
this approach to be functional, as otherwise for large accumulated similarity values there
would always be greater-than-MASS values in one of the adjacent positions.
For an illustration of the scale of this issue, Fig. 3.2.10 shows an example similarity
score table. It shows that selecting a small MASS is necessary to detect smaller similar
653
3=27 cubes
26 neighbours to
central cube
l = 1 l
2 = 2
l
2 = 3
Figure 3.2.9.: The local neighbourhood of a node (in the centre of the shown cube) in
the accumulated score table T. The shown cube consists of 27 sub cubes,
the one at the centre being the “home node”. The other 26 surrounding
it, are the direct neighbours. A partial spatial subdivision is shown in the
lower left corner to illustrate the notion of “radius”.
structures (values above 1500 in this case are of significant interest), but large similar
structures generate huge amounts of potential candidates at this smaller value. We
reduce the volume of BTs from the volume around each of the peaks to just the number
of peaks themselves. The side-by-side representation of the third dimension obscures
somewhat that the 5 surfaces in the figure actually form a volume, but each point in a
surface is neighbouring to the point in the same coordinates in a neighbouring surface,
and they are all considered for the selection of final candidates for a BT.
3.3 Discussion
Reducing the degrees of freedom from the two-dimensional approach leads to a lowered
complexity. Where originally the accumulated score table required O(lmn2
) (where l
and m are the sequence lengths, n the number of elements in a tuple) space (and time
to calculate), this has now been reduced to O(lmn), without any reduction in relevant
capability. This means that we can now work with sequences that are n-times longer
than previously, within the same system constraints.
The two-dimensional basis for the algorithm means that the order of columns still has
66Figure 3.2.10.: Accumulated similarity score table for the alignment operations of the
context data corresponding to two consecutive days. Each graph represents
one of the five slices (n = 5) of the z-axis, starting at one at the top,
incrementing to five at the bottom right. Height and colour correspond
to local similarity values. The x - y plane is spanned by the temporal
axes of the sequences. Note multiple peaks at different heights.
67an impact on the accumulated similarity scores. A notion of single-step cursor movement
is still present in our approach (cf. equation 3.2.1), and thus accumulated scores depend
only and directly on the scores of the left tuple neighbour and the accumulated similarity
score of the sequences to the left of the elements under consideration.
Reducing the number of BT candidates by local optimization can drastically increase
performance, especially when the MASS is a small fraction of maximum accumulated
similarity scores. If the neighbourhood of every peak consists of 5 cells in each direction
of each of the three dimensions where the score is above MASS, this reduces the number
of BTs by a factor of around 1000.
The average worst case (i.e. in an infinitely large table where cells with values higher
than MASS are surrounded by exactly one layer of cells with value 0) improvement is
by a factor of 7. This optimisation does remove some granularity, as possibly semantically
atomic routine elements can be included within larger scale alignments, and thus
disappear from view. On the other hand, they would be lost in the noise of meaningless
alignments, if the classic approach were to be retained. A way to recover such smaller
scale patterns, could be by iteratively locally aligning intervals of interest, with ever
decreasing MASS.
Beyond this theoretical evaluation, we also performed an experimental validation.
There we address whether the alignment approach is valid for context data, as opposed
to just general sequential data.
68Experimental Validation and Results
Overview
This part is dedicated to the evaluation of the alignment-based approach on both automatically
annotated synthetic data and manually annotated real-world data. Before
getting to the actual evaluation, we first examine the provenance of our test data. Consequently,
we detail the synthetic data generation procedure. Additionally, we present
the real world data collection campaign and the pre-treatment process required by our
context data model. The evaluation of the algorithm on synthetic data is detailed in the
following section, and the evaluation on real world data in the subsequent one.
4.1 Synthetic Data Evaluation
Testing on “real” data is crucial to being able to judge the “in the wild”-performance
of an algorithm, but there are several limitations when solely relying on it. The manual
annotation of ground truth is often labour intensive and error-prone. This limits the
scope of possible evaluation. Conversely, an evaluation on synthetic data allows us to
complement the results we can obtain from real world data, particularly by giving better
control over the results and a wider variety of testing conditions.
4.1.1 Synthetic Data Generator and Dataset
In the following, we introduce a model and an algorithm that simulates parallel data
from multiple sources containing cross-source repetitive patterns. Due to the many
parameters that can be set, and the multiple random influences, the overall model for
the generator is complex. For this reason, the description is split in five sub-sections,
69of which the first lays out the requirements and design choices, the second some key
definitions and terms used in the context of the description of the generation model
and algorithm; the third and fourth sub-section detail each of the major sub-routines of
generating data. An illustratory example is used throughout this subsection.
4.1.1.1 Data Generation Context Model
It is our goal to give the experimenter the greatest possible freedom with regard to
the characteristics of the generated data. Some general expectations of what makes up
context data guide us in the design of our generator. The basic structure of context is
a sequence of n-tuples, when n context data sources are present. Within this sequence,
we encounter two different states of context. Either the current context is part of a set
of routine contexts, or it is not. A routine context influences a specific subset of context
measurements, reproducibly each time it is present in the data. Per sensor, different
amounts of data may be relevant to a pattern.
How much influence a routine context has on the context data is determined by how
much variation there is between different instances of the context. This variation can be
expressed as a random process. This random process modifies values between different
instances of routine context, or leads to desynchronisation effects when elements are
skipped or extended. It is inherent to each routine context. Furthermore, non-routine
contexts may also lead to desynchronisation of following routine contexts, due to the
global continuity of context. A separate random process determines these effects, and
the amount of value modifications in the non-routine data, if a baseline has been defined.
A model of probabilistic distances determines how likely it is for a certain value to be
modified to another one, or to be extended or skipped.
The order of appearance of the routine contexts is usually regular as well, but can also
vary under random influences. A real world example could be a person oversleeping,
and skipping an entire morning activity, on their way to work. These varying orders can
also be modelled by a random process.
Finally, different context sources may have interactions. As an example, location
and radio signal strength are often correlated. Such correlations need to be taken into
account when evaluating the random process which determines the ultimate values of a
context. and may also be interesting when defining a set of routine contexts.
70data 1
pattern
time
pattern
cell
data 2
data 3
data 4
stream
Figure 4.1.1.: Stream, pattern and cell for a simulated 4-tuple dataset. The stream
consists of patterns (coloured) and random data (light grey). Each pattern
consists of defined values (blue) and undefined values (white).
4.1.1.2 Definitions
The model used during the generation process consists of two key structures: the stream
is a concept which represents data from multiple independent sensors evolving over
time. In terms of the context model, it represents the sequence of n-tuples of sensordata.
Patterns are two-dimensional arrangements of data symbols in a rectangular grid
(cf. the example in Fig. 4.1.1). The stream is created by alternating intervals of n-tuples
of random data and randomly modified instances of these patterns. The output of the
data is a direct representation of the stream.
The atomic unit of data – the individual grid element – is called a cell. Each cell is
specific to a moment in time (horizontal) and a data source (vertical). Data sources in
this context are discrete random variables, with a limited set of states (“alphabet”), each
element of which is a symbol. The number of different attainable symbols - the cardinality
of the alphabet - is called the spectrum of a data source (cf. Fig. 4.1.2). The real-world
counter part to these data sources are filtered sensors producing discrete measurement
values. Each cell of a pattern contains either a symbol from the corresponding alphabet
or is a place holder asterisk “*” value indicating an entry that is not defined by the
pattern.
71Figure 4.1.2.: Four alphabets A1, A2, A3, A4 with respective spectra 5, 6, 4 and 2. N.B.:
Different symbols across different sensors (e.g. “A”, “1”, “a”, “0”) are
used here for illustration purposes only, symbols are actually represented
by their indices (i.e. as in A2).
Random effects – termed noise in the following – are a key factor in the generation of
patterns and the stream. This noise is based on random variables, which are sampled,
and the resulting values then transformed into length variations or symbol substitutions.
All random variables that are used to generate noise are considered to be normally distributed
(except in the limit-case of infinite variance, which is transformed into uniform
distribution over an interval).
The effect of noise is derived from user defined transition cost matrices (one for each
alphabet) with the number of rows and columns equal to the size of the alphabet, and
correlation matrices (one for each pattern, and one for non-pattern intervals).
The transition cost matrices contain the cost of substitution between symbols. The
costs of transitions for the following special symbols
* place holder for empty cells in patterns;
del delete a cell from the stream;
ins add an additional value to the stream.
make up a further four vectors:
1. A vector containing the cost of conversion of any symbol to the * value;
2. A vector containing the cost of conversion from * to an alphabet value;
723. A vector associated to ins, which contains the cost of converting any alphabet
value or * to an insertion;
4. A vector associated to del, which contains the cost of converting any alphabet
value or * to a deletion.
These symbols form a global (i.e. across all data sources) alphabet of control-characters
Ag = {*, del, ins}. Of these, * can appear in patterns (hence there being both a “to”
and “from” vector of transition costs), but none of these symbols appears in the stream.
The operations linked to these symbols represent two different kind of noise effects:
Temporal noise (del and ins) causes relative shifts in the time domain of data sources
by inserting or deleting values, as well as local extension or compression of periods of
data. Data noise (values replacing *) introduces random values in predefined areas,
which corresponds to variable parts of otherwise fixed patterns and permits us to use
rectangular patterns with little loss of generality.
The correlation matrices are lower triangular matrices with one line and column for
each data source. Each line corresponds to the relative weights given to the calculation of
a value by other values in the previous rows. A positive correlation value means that the
influence of the random values used to determine the content of the respective cell have a
quasi-linear effect on the determination of the current value. A negative correlation value
conversely has an inverse quasi-linear effects. Zero values mark independent data sources.
In this context “quasi-linearity” is an artificial effect to transform multi-dimensional
random values from one space to another. This may not hold up to a comparison to
real world data, but provides a reasonably simple model which avoids having to define
correlations per pattern and per symbol individually.
The following naming conventions are used henceforth: Z>0 = {1, 2, 3, . . .} the natural
numbers excluding zero and R≥0 =
S
x∈R,x≥0
{x} all non-negative real values. The
notation xi,h,k represents the element in the h-th line of the k-th column of a matrix (or
table) Xi
.
Let n ∈ Z>0 be the number of data sources, m ∈ Z>0 be the number of patterns,
Ai = {x ∈ Z>0|x ≤ si},(1 ≤ i ≤ n) be the (abstracted) alphabet of the i-th data source
and lj ∈ Z>0 be the length of the j-th pattern Xj ∈ P ⊂
Sm
j=1×
n
i=1(Ai ∪ {∗})
lj of the
indexed set of patterns (cf. Fig 4.1.3 for a complete set of patterns, with empty cells,
a sample elements and corresponding dimensions.). Let ~s ∈ N
n
>0 with components si
be the spectra-vector where ∀1≤i≤n : si = |Ai
|, with | · | being the cardinality and let
lstream ∈ Z>0 be the number of total grid columns of the stream.
In the following, x, y ∈ Ai ∪ Ag,(1 ≤ i ≤ n) stand for symbols.
73X1
X2
X3
Xm -1
Xm
n
lm
l1
lm-1
empty cell
cell
element
x
Figure 4.1.3.: A set of patterns, P = {X1, . . . , Xm}, with n data sources and lengths
l1, . . . , lm, and a pattern element x = Xm,n,1 ∈ An.
N (ση), η ∈ {o, p, q, r, u} are Gaussian distributions with variance σ
2
η
serving as sources
of random values for
o value variety of noise intervals between two instances of patterns in the stream,
random variable o;
p noise applied to pattern-defined values during the instantiation of patterns in
the stream, random variable p;
q variations in length – unless lengths are predefined for each pattern – and
values between two different patterns, random variable q;
r variations of the interval length between two instances of the same pattern in
the stream, random variable r;
u variations of the length of noise intervals in the stream, random variable u.
The transition cost matrices are Ti = [ti,h,k],(1 ≤ i ≤ n) ∈ R
si×si
≥0
and form the set
T := Sn
i=1,
{Ti}. The entries ti,h,k are the positive real-valued costs of transforming the
74h-th symbol of Ai
into the k-th symbol. The costs of transition relative to the elements
of Ag are the pattern insertion and deletion cost vectors ~bi
, ~ci ∈ R
si
for the transitions
from and to *, and the stream insertion and deletion cost vectors ~di
, ~ei ∈ R
(si+1) for
transitions to del and ins.
Transition cost tables are related to the substitution score tables of the algorithms used
to align pattern instances. In the alignment algorithm, they indicate similarity based on
the way the model is configured. In this generator, they define the probability of random
transformations of symbols. An important feature of transition cost tables is that they
do not necessarily need to be symmetric, even though a naive approach considering the
value spaces as Euclidean spaces with distances would indicate this. Yet, when using
probabilities of transition in example data as basis for the cost of state-transitions, the
assumption of symmetry is rendered invalid, as the resulting graph of transitions is not
necessarily symmetric. For the values in the table to have the expected effect, they need
to be scaled in consideration of the variances of p and q.
A gappiness vector ~g ∈ R
n
≥0
, with ∀
n
i=1~gi ≤ 1 contains the ratio of pattern entries to
empty cells for each data source, and simulates effects of limited data source availability
and information significance and density.
Let lower triangular matrices ξi ∈ R
n×n
, i = {1, .., m} be the correlation matrices
for patterns Xi and let ξ0 be the correlation matrix for non-patterned values. These
matrices are lower triangular, as each new value can only ever be correlated to values
that have already been generated. The entries are normalized so that each row-sum is
equal to one.
Let ~w ∈ Z
m
>0 be a representation of the frequency of pattern apparition in the stream.
Each value corresponds roughly to the relative period of apparition of a pattern in the
stream. Finally, let lnoise ∈ R be the average length and let ¯lnoise ∈ Z>0 be the maximum
length of a non-pattern-interval in the stream.
For our running example, let n = 4, m = 3, ~s> = (5, 6, 4, 2) and ~l
> = (10, 6, 7). Let
the corresponding gappiness vector be ~g = (0.1, 0.1, 0.3, 0.3), and let the first of four
transition tables be
T1 =
0 7 5 4 8
7 0 2 5 3
5 2 0 1 2
4 5 1 0 3
8 3 2 3 0
∈ T .
75Furthermore, let
~b1 =
3
9
5
9
2
, ~c1 =
4
8
3
4
9
,
~d1 =
5
2
3
9
7
4
, ~e1 =
5
2
4
7
6
6
and the correlation matrices
ξ0 = ξ1 =
1 0 0 0
0 1 0 0
1 0 0 0
0.5 0 0 0.5
.
Finally, let ~w
> = (45,30, 50), lnoise = 4.8 and ¯lnoise = 15.
We use these values to demonstrate how to generate pattern values and pattern instances
in the stream.
4.1.1.3 Pattern Generation
The first step R1 of the algorithm is to generate m different patterns according to the
parameters given:
X1 = R1(n, l1, ~s, T , ξ1, ~g)
Xj = R1(n, lj , ~s, X1, σq, T , ξj ), j = 2, . . . , m
A reference pattern X1 is generated first, consisting of randomly selected entries based
on vectors ~γl ∈ ×i 1 are then modified to reflect the
correlations dictated by ξ1:
ψ
0
i,l := X
i
k=1
ξ1,i,k
si + 1
sk + 1
d
l(sk+1)
si+1
X
e
j=b
(l−1)(sk+1)
si+1 c+1
ψ~
k,jωi,j,k (4.1.1)
where
ωi,j,k :=
j −
(l−1)(sk+1)
si+1 if j < (l−1)(sk+1)
si+1 + 1 ∧ sk > si
l(sk+1)
si+1 − j + 1 if j > l(sk+1)
si+1 ∧ sk > si
1 if (l−1)(sk+1)
si+1 + 1 ≤ j ≤
l(sk+1)
si+1
l(sk+1)
si+1 − j + 1 if j > (l−1)(sk+1)
si+1 + 1 ∧ sk < si
j −
(l−1)(sk+1)
si+1 if j < l(sk+1)
si+1 ∧ sk < si
sk+1
si+1 if l(sk+1)
si+1 ≤ j ≤
(l−1)(sk+1)
si+1 + 1
which corresponds to a constant resampling, linearising across vector dimensions by
treating them as intervals. An example is given in Fig. 4.1.4. The values on each arrow
correspond to the scaled value that is used to determine the value at the end of the
arrow. In the left case, the values in the left vector are scaled up (by 5/3) and in the
right case, the values are scaled down (by 3/5). Then, these scaled values are spread
according to the coverage they have on the corresponding parts of the vector. In the
case of the middle value (2 - marked with red dashed line) in the left example, this is
1/5 for the second value of the right vector, 1 for the third value, and 1/5 for the fourth
value. Scaling is applied accordingly, hence (2 · 5/3 · 1/5) = 2/3 is the influence on the
top value of the three values that are marked in the right vector.
Let x = x1,i,l be the value of the i-th row and l-th column of X1 and the k-th element
of Ai
. Let vx ∈ R
si+1 be a vector whose components are the l-th of Ti and the l-th
element of ~c:
vx :=
ti,1,k
ti,2,k
.
.
.
ti,si,k
ci,k
78s+1=3 s+1=5 s+1=5 s+1=3
1
2
3
1
4/3
2
8/3
3
1
2
3
4
5
1.4
3
4.6
0.6
0.8
0.4
1.8
0.8
1.6
3.0
1
2/3
2/3
2
2/3
2
3
Figure 4.1.4.: Illustration of dependence coefficient determination during creation of similar
patterns. The right vectors are created from the values of the left
vectors, through linear interpolation and scaling.
or, in the case of x = *:
v* :=
b1
b2
.
.
.
bk
0
The index y of the minimal component of |vx − ψ~0
i
|,
y = min
]
|vx − ψ~0
i
|
(here | · | is the component-wise absolute value) is the value that takes the place of x in
Xj , unless y = si+1 in which case * is inserted into the pattern at this position. This is
repeated for all n × lj entries of the pattern.
Furthermore, the length lj of the j-th pattern – if not specifically set to a certain value
beforehand – is calculated by obtaining a random real value ∆lj from N (σq), adding it
to l1 and rounding to the closest integer:
79lj :=
b∆lj + l1 + 0.5c ∆lj + l1 > 0
0 ∆lj + l1 = 0
d∆lj + l1 − 0.5e ∆lj + l1 < 0
Addition or removal of elements is done column-wise: for every column, a random check
is performed against |∆lj |
max(lj ,l1)
(until the lj -th column is reached) to determine whether
the current column of X1 is skipped or a column of equally distributed randomly selected
symbols inserted.
To compute x2,1,1 of the pattern X2 ∈ Z
4×6
>0
of our running example, given σ
2
q = 2 as
the variance of the distribution of q, we first determine whether the first line is skipped
to make up for the difference in length to X1. This is done by obtaining a random
value from the interval [0, 1] and testing whether it is smaller than 10−7
max(10,7) = 0.3.
We assume – for the sake of this example – that this is not the case, and instead
x2,1,1 is derived from x1,1,1. We obtain a vector ψ~
1 ∈ R
6 by repeatedly sampling q:
ψ
>
1 = (0.1, 0.5, −1.6, 1.1, −0.8, 0.3). Then
x2,1,1 = min
]
|vx1,1,1 − ψ~0
1
| = min
]
|v2 − ψ~
1|
= min
]
t1,1,2
t1,2,2
t1,3,2
t1,4,2
t1,5,2
c1,2
− ψ~
1
= min
]
7 − 0.1
0 − 0.5
2 + 1.6
5 − 1.6
3 + 0.8
8 − 0.3
= 2
The values x2,k,l,(k > 1), are calculated by taking into account the correlation matrix.
Let ψ~>
4 = (−1.5, 0.8, −0.3). We determine ψ~0
4 using equation 4.1.1, and the resampling
of ψ~
1 shown in Figure 4.1.4:
ψ~0
4 = 0.5
0.3
−0.25
−0.5
+ . . . + 0.5
−1.5
0.8
−0.3
=
−0.6
0.275
−0.4
This allows us to calculate
x2,4,1 = | min
]
ψ~0
4 − vx1,4,1
|
as above.
80These steps are repeated until m patterns have been created. These patterns are then
integrated into the stream.
4.1.1.4 Stream Generation
Streams are generated by interposing modified instances of patterns with blocks of random
values. The generation of streams can be considered as a relation
R2(n, T , P, σp, σo, σr, σu, ~w, lnoise,
¯lnoise, ξ0) :
Z>0 × R
n×si×si ×
[m
j=1
n
×
i=1
(A
lj
i ∪ {∗}) × R
n
≥0 × R
n
≥0 × R≥0 × R≥0 × Z
m
>0 × R × Z>0
→
n
×
i=1
(Zsi+1 \ {0})
lstream
This is a projection of the configuration space (dimensions, transition model, patterns,
randomness, correlations) into a stream. There are three main tasks to consider:
Scheduling Each pattern has a predefined frequency of instantiation, which can be understood
as an m-vector ~w ∈ R
m. σp determines how much the appearance intervals
vary.
Noise Noise duration and variety are defined by lnoise,
¯lnoise, σu and σo.
Modifications The variance between instances of the same pattern is defined by σr ∈ R
n
.
Scheduling is managed in the following way:
1. During the first run, ~w
0 = ~w is created in order to track changes to ~w without
losing the original information.
2. The pattern Xmin]( ~w0)
is selected and inserted into the stream, where min]( ~w
0
) is
the index of the minimal component of ~w
0
:
min
]
( ~w
0
) = i|∀| ~w0
|
j=1 : w
0
i ≤ w
0
j
.
If multiple components share the same smallest value, the value of min]
is picked
at random from the corresponding indices.
3. The vector ~w
0
is updated by adding ~wmin]( ~w0) + r to the component pertaining to
Xmin]( ~w0)
: w
0
min]( ~w0) = w
0
min]( ~w0) + wmin]( ~w0) + r
81Algorithm 4.1 Scheduling pattern instances
input : The scheduling vector ~w ∈ R
m
output: A scheduled stream
~w
0 ← ~w;
l ← 0;
while l < lstream do
jins ← min]( ~w
0
) = i|∀| ~w0
|
j=1 : w
0
i ≤ w
0
j
;
append pattern Xjins to stream;
increment l by the length of Xjins ;
w
0
jins ← w
0
jins
+ wjins + r; // update minimal value in ~w
0
for j ← 1 to m do // update other values in ~w
0
if j 6= jins then
w
0
j ← w
0
j −
wjins
m−1
end
end
append noise interval of length min((lnoise + u),
¯lnoise) to stream;
l ← l + min((lnoise + u),
¯lnoise)
end
4. ∀j=1,...,m,j6=min]( ~w0)
: w
0
j = w
0
j −
wmin]
( ~w0)
m−1
, which avoids under- and overflows due to
incrementation and decrementation, as the decrement of each step is equal to its
increment, and E(r) = 0.
5. A noise interval of the length of min((lnoise + u),
¯lnoise) is injected into the stream,
containing random values that adhere to the dependencies defined by ξ0.
This is also formulated in pseudocode in algorithm 4.1.
Within the frame of our example, this has the following effects: First, an interval of
noise of length 5 is appended to the stream based on the assumption that the average
value of 4.8 is not significantly impacted by the random effects of u. Then, pattern X2
is appended to the stream, as the smallest value in ~w
> (30), is in the second position.
~w
0
is then updated as follows:
~w
0 =
w
0
1 −
w2
2
w
0
2 + w2 + r
w
0
3 −
w2
3
=
45 − 15
30 + 30 + r
50 − 15
=
30
60 + r
35
The contents of a noise interval cell are generated by determining the index of the
smallest component of the distance ∆o,i = |φi − vˆ0|, where φi ∈ R
si+2 is a set of vectors
of subsequent results of the event at the base of o, modified according to the method
82proposed in equation 4.1.1 (replacing ξ1 with ξ0 and adjusting sizes) and ˆv0 ∈ R
si+2 is
~b appended by the last entries of ~d and ~e respectively:
vˆ0 =
b1
b2
.
.
.
bsi
dsi+1
esi+1
Thus, the symbol added to the stream is:
y = min]
|φ − vˆ0|
In the case of y = si + 2, the control value ins is generated: a new φ is randomly
obtained, ∆o,i re-evaluated, and a new value is inserted after the current position using
this very same algorithm. If the minimum index obtained is si + 1, a del control value
is generated and no value is written into the i-th row of the stream during this iteration.
For all other indices, the resulting index corresponds directly to the symbol of the
corresponding alphabet to be written into the stream. Once this is done, the algorithm
continues, by performing the same actions on the symbol in the cell to the right, for all
columns that are to be generated.
The modifications applied to instances of patterns in the stream are calculated in
the same way for non-defined cells. For cells of patterns containing symbols, the above
algorithm is adapted by calculating min] ∆p,i = min]
|ρ − vˆx|, with ρ ∈ R
si+2 a vector
of random values obtained by sampling p (si + 2)-times, and x being the value in the
pattern cell and hence ˆvx being the x-th column of Ti appended by the x-th elements of
~d and ~e:
vˆx :=
ti,1,x
ti,2,x
.
.
.
ti,si,x
dx
ex
In Figure 4.1.5, we show how the element x2,1,1 = 2 is instantiated into the stream,
modified by noise to become the sensor value 4.
83pattern element x = 2 є A1 1 2 3 4
5 ins del
*
3
9
5
9
2
5
5
1
0
7
5
4
8
2
2
2
7
0
2
5
3
3
4
3
5
2
0
1
2
9
7
4
4
5
1
0
3
7
6
5
8
3
2
3
0
4
6
4335207
1-204-423
35316-24
output symbol y = 4
T1
0
zero mean
noise
Gaussian
d
e
b
Figure 4.1.5.: Noise is applied to symbol x from alphabet A1 using transition cost matrix T1 and transition cost vectors
b
~
1, d
~
1, ~e1. The resulting value is y = 4. This example uses integer values for easier reading and comprehension,
in general the random values are real values. The process starts with value x2,1,1 = 2 from pattern X2, extracts
the corresponding row from T1 and selects the smallest absolute value in the sum of the extracted row and a
random vector, to determine the index of the element to replace x.
84I D
D I
I
I
I I D I
time
Figure 4.1.6.: Extract of a possible resulting stream with n = 4 and m = 3 different
patterns (blue, yellow and green) and noise (red). I and D indicate cells
in which insertions or deletions have happened. y is the symbol that has
been generated in Fig. 4.1.5.
This process (schedule - noise - pattern) is repeated until the sum over all noiseinterval-lengths
and pattern-instance-lengths is equal or larger than lstream. A schematic
example of a resulting stream is given in Fig. 4.1.6.
With regard to our initially targeted model, this allows us to control most variables
precisely. We can generate data that locally or progressively desynchronises, data that
has controlled amounts of noisy variation and in any size or shape desirable. To help
this latter fact, we also permit the handcrafting and loading of pre-defined patterns.
We currently identify the following weaknesses to our approach: we limit ourselves to
normally distributed noise for all random aspects of the generation process. We consider
this as a safe default choice, especially to model sensor measurement noise, but it may
not be an accurate model for variations caused by human actions. In the absence of a
better model for this kind of variation, we restricted ourself to Gaussian distributions.
Our correlation algorithm between two data sources with different numbers of symbols
is not correct, in the sense that we linearise across dimensions which have no actual linear
relationship. On the other hand, we see this as the only way to implement correlation.
Due to the difficult nature of this feature, we do not use it for the generation of our
data, based on the assumption that strongly correlated data is unified to a single sensor
reading in real world context data.
85A final problematic issue is that of our multidimensional noise issue, which makes the
link between a chosen variance value and the actual effect on value transitions rather
unintuitive. Although a probability interval based approach may have had more predictable
results, it would be more complex to integrate with the notion of data source
correlation, and would require a rather complex calculation of interval limits for each of
the possible transitions.
Taking into account these limitations, we feel nonetheless confident that it allows us
to generate a number of well understood datasets. The ability to retain the information
of which pattern is instantiated in which cells of the output stream allows us to evaluate
our alignment algorithm against this ground truth.
4.1.1.5 Dataset Generation
For the evaluation procedure, we generate 135 datasets, which can be characterised
by five different scenarios, each of which has 27 different variations by adjusting three
variables. Each scenario serves to link a configuration of the data generator, to a specific
type of behaviour of a simulated human exhibiting a certain way of life. These five
scenarios are:
1. A scenario without random influences, outside the order of pattern instantiation.
This corresponds to a human who reproduces the exact same set of context data
every time a certain activity is performed, and always performs activities that are
repeated eventually.
2. A scenario with an interval (of length 10) of random data between each two pattern
instances. This could represent a person that performs some activities exactly the
same way, between which there are intervals of irregular activity.
3. A scenario where each pattern instance is heavily treated with noise. This correspond
to a person that acts with regularity, but is insufficiently instrumented to
give trustworthy data, or does the same activity in a different way.
4. A scenario where each pattern is instantiated in varying intervals. A user profile
exhibiting this behaviour would be a from a person performing activities identically
each time, but not in the same order or at the same frequency.
5. A scenario where 75% of the cells of each pattern are undefined. These sparse patterns
represent a faulty sensor suite or someone who only has a few key detectable
regularities in their daily activities.
86These configurations are summarised in Table 4.1.
A number of other configurations parameters are equal across all configurations and
scenarios:
❼ All patterns have length 10;
❼ Each simulated sensor has an alphabet size of 10 – a realistic compromise between
separation and resolution;
❼ Transition costs are equal for all configurations;
❼ The inter-pattern variance is infinite across all configurations – each pattern is
generated independently from the others.
Furthermore, we vary three properties in three ways each:
❼ Number of patterns: 2, 5 or 10;
❼ Number of rows: 2, 5 or 10;
❼ Number of columns: 100, 200 or 500 (cf. Table 4.2).
In Table 4.2, advancing a column increments from the base index given in the first
column. For example, the 15th configuration can be found in the column denoted +5 in
the row denoted 10.
These latter give us the 27 variations of each of the five principal scenarios and thus
we obtain the number of 135 configurations. For each scenario, a set of ten patterns is
defined, of which suitable subsets are used for each of the configurations.
We define the transition costs for the generator such that the identity transition is
assigned a zero cost, whereas a substitution with any other symbol is assigned a cost of
one. Substituting a symbol with an insertion or a deletion is given a cost of two (using
the classic model of fixed indel scores), and substituting a don’t care symbol with any
alphabet symbol is given a cost of one as well. Table 4.3 contains the entire transition
cost matrix.
Table 4.1.: Configuration of the five datasets.
Dataset 1 2 3 4 5
noise interval length (count) 0 10 0 0 0
pattern noise distribution (σ
2
) 0 0 9 0 0
pattern repetition distribution (σ
2
) 0 0 0 9 0
gappiness (ratio) 0 0 0 0 0.75
87Table 4.2.: Configuration values for the 27 experiments making up a dataset.
index +0 +1 +2 +3 +4 +5 +6 +7 +8
2 5 10 2 5 10 2 5 10 num. of patterns (m)
1 2 2 2 5 5 5 10 10 10 num. of rows (n)
100 100 100 100 100 100 100 100 100 num. of columns (l)
2 5 10 2 5 10 2 5 10 num. of patterns (m)
10 2 2 2 5 5 5 10 10 10 num. of rows (n)
200 200 200 200 200 200 200 200 200 num. of columns (l)
2 5 10 2 5 10 2 5 10 num. of patterns (m)
19 2 2 2 5 5 5 10 10 10 num. of rows (n)
500 500 500 500 500 500 500 500 500 num. of columns (l)
Table 4.3.: Transition matrix T used for the generation of the test datasets.
ins del 0 1 2 3 4 5 6 7 8 9 *
* 2 2 1 1 1 1 1 1 1 1 1 1 0
0 2 2 0 1 1 1 1 1 1 1 1 1 1
1 2 2 1 0 1 1 1 1 1 1 1 1 1
2 2 2 1 1 0 1 1 1 1 1 1 1 1
3 2 2 1 1 1 0 1 1 1 1 1 1 1
4 2 2 1 1 1 1 0 1 1 1 1 1 1
5 2 2 1 1 1 1 1 0 1 1 1 1 1
6 2 2 1 1 1 1 1 1 0 1 1 1 1
7 2 2 1 1 1 1 1 1 1 0 1 1 1
8 2 2 1 1 1 1 1 1 1 1 0 1 1
9 2 2 1 1 1 1 1 1 1 1 1 0 1
The similarity score table for the local alignment algorithm is derived from these
values. The identity score is set to 10. The substitution of one symbol with a different
one is assigned a penalty of -15. This value is chosen as an optimisation for scenario 2,
based on the following consideration:
The chance of a random match is 1/10 for each cell. In the two row case, completely
bridging the noise interval between two patterns requires an alignment of the 20 cells
between two patterns. The expected value of random matches in this interval is two. To
improve pattern separation, the penalty value is chosen to prevent over-alignment even
for four instances of matches in the interval of noise. This covers 95% of all cases in the
two-row configuration.
The insertion and deletion penalty are chosen twice as high (-30) as the substitution
penalty, mirroring the generation configuration.
88For each one of the 135 configurations, a dataset consisting of ten sequences is generated.
Next, we evaluate our alignment approach on this generated data.
4.1.2 Synthetic Data Pattern Extraction Evaluation
This subsection presents the results obtained from using our local alignment algorithm
(as introduced in Chapter 3) on synthetic data generated according to a number of
different scenarios. We have generated a total of 135 different datasets, and use the
alignment approach to extract patterns, which are then compared to the actual patterns
– as generated – in the test data. We decided to limit ourselves to 135 datasets, as we
assume this to be a good compromise between covering some of the breadth of possible
configurations, and also allowing us to present all the results.
4.1.2.1 Evaluation Criteria
We evaluate the alignments on four criteria.
Number How many alignments are made, with regard to the expected number of possible
pairings of patterns between the two sequences?
Precision How much of an alignment actually covers a pattern?
Recall What part of a pattern is covered by an alignment?
Alignment size How big are the alignments that are found, compared to the size of the
patterns present?
We average precision and recall across all alignments for a configuration. If an alignment
covers multiple patterns, we only consider the best-covered pattern. In Fig. 4.1.7, the
precision and recall measures are presented on an example.
4.1.2.2 Hypotheses
With regard to the five scenarios characterising each dataset laid out in the previous
section, we can expect the following results:
1. The first dataset, especially in conjunction with low numbers of patterns, should
develop “macro-pattern” artefacts (i.e. series of patterns with the same order of
individual patterns) and few, but overly large alignments can be expected.
89Aligned cells outside pattern
Unaligned pattern cells
Total pattern cells: 24
Total aligned cells: 20
Aligned pattern cells = 16
Precision = 16/20 = 4/5
Recall = 16/24 = 2/3
Size ratio = 20/24 = 5/6
Unaligned non-pattern cells
Aligned pattern cells
Figure 4.1.7.: Evaluation scoring example.
2. The second dataset should have a low incidence rate for complete over-alignments.
These occur when two patterns appear in the same order in two input matrices
and the random values between patterns are sufficiently similar. Patterns should
otherwise be well discerned. Single-row over-alignments can be expected to be more
common (over one third for configurations with only two patterns), especially for
larger row numbers.
3. Dataset three can be expected to be a case where the algorithm would not be able
to identify most of the patterns. The selected configuration means that almost 80%
of all values are changed during instantiation. This makes alignable patterns rare.
Despite a minimal admissible score of only 60% compared to datasets one, three
and four, complete and correct alignments of patterns are unlikely to be made.
The contiguous characteristics of the alignments mean that some changed cells of
patterns can be included in the alignments.
4. Results on dataset four should also be similar to those on dataset one, but with –
on average – shorter alignments, as macro-patterns should be less likely to emerge,
when the order of pattern instantiation is less regular. The impact of this is expected
to be more noticeable with configurations with a higher number of patterns.
Alignments are more likely to match well with patterns.
905. In the fifth dataset finally, the scoring system in place and the extreme gappiness
should have a large percentage of false positives among very few, partial alignments
of actual patterns. It can be seen to serve as a negative control experiment. In
contrast to set three, the alignments should be more likely to span non-pattern
cells.
4.1.2.3 Results
The average evaluation results for each scenario are contained within Table 4.4. This
table contains the ratio of detected alignments to expected number of pairs of patterns
in the data, the average precision and recall values across all 27 configurations (which are
themselves the averages across all alignments for each configuration) and the size ratio.
The values for Dataset 3 and Dataset 5 are not directly comparable to the others, as we
used a different MASS base score, to account for the noise in Dataset 3 and the missing
data in the case of Dataset 5. MASS in these cases have been reduced to 0.6 (a value we
consider to be similar to what may pass as a real world noise tolerance value) and 0.25
(three-quarters of the cells of a pattern are undefined) respectively of the corresponding
MASS in the other configurations. For these, MASS is equal to the size of the pattern,
as we assign a similarity score of one per identical cell.
Table 4.4.: Key results: averages and standard deviations across all configurations.
Measure Dataset 1 Dataset 2 Dataset 31 Dataset 4 Dataset 52
#alignments
#pairs of pat. 0.31 ± 0.26 0.69 ± 0.29 0.041 ± 0.054 0.31 ± 0.26 0.22 ± 0.32
precision 0.54 ± 0.22 0.77 ± 0.20 0.13 ± 0.06 0.52 ± 0.24 0.54 ± 0.18
recall 1.00 ± 0.00 1.00 ± 0.00 0.56 ± 0.19 1.00 ± 0.01 0.20 ± 0.06
alignment size
pattern size 5.66 ± 4.48 2.45 ± 2.51 6.72 ± 3.96 6.65 ± 6.08 1.60 ± 0.24
The runtime for the complete set of alignments is around 4 minutes of real time on
a pair of Intel➤ Xeon➤ E5-2560. Across all 135 configurations, we obtained 214,963
alignments.
In Fig. 4.1.8, we present the ratios of alignments to expected pairs of patterns per
configuration. The most striking trend is that datasets 1 and 4, and to a lesser extent
dataset 2, show a series of this measure rising in patterns of three. This can
be directly attributed to the macro-patterns that are created, which are obviously
more numerous when the number of patterns in the data is low, and simultaneously
1The results for Sets 3 have been obtained with a MASS of 60% of those of Sets 1,2 and 4.
2The results for Sets 5 have been obtained with a MASS of 25% of those of Sets 1,2 and 4.
91the lack of noise does not allow segmentation of the patterns into their components.
Table 4.5.: Average Pattern Size
for Dataset One
config. mean error
0 4.13 ±2.73
1 1.32 ±0.93
2 1.82 ±1.99
3 1.29 ±0.81
4 5.86 ±5.50
5 5.25 ±5.31
6 2.81 ±3.25
7 8.92 ±5.61
8 8.99 ±5.64
9 4.69 ±5.07
10 1.53 ±1.27
11 1.23 ±0.73
12 3.70 ±2.86
13 3.09 ±2.53
14 1.89 ±1.60
15 4.35 ±2.68
16 3.72 ±2.75
17 2.98 ±2.22
18 8.68 ±10.54
19 2.22 ±3.11
20 11.26 ±12.35
21 8.45 ±11.74
22 4.50 ±8.19
23 17.55 ±14.69
24 17.89 ±14.89
25 8.88 ±12.30
26 5.83 ±4.86
A more subtle trend lies in the reduced number
of alignments made, when there are more sensors
in the data. This can possibly be ascribed to the
higher MASS in use for those scenarios.
For dataset one, almost all patterns are covered
by alignments and average alignment size is 5.66
times the pattern size (validating our macropattern
hypothesis), two outlier configurations (16
and 17) reach an average pattern size over 17 times
larger than patterns, with very large deviations in
the samples (cf. detailed results in Annex B.1.2
and an extract in Table 4.5). Mean precision across
all configurations is 0.55 (standard deviation across
means of each configuration: 0.22).
Dataset two benefits from the fact that it is the
reference for the score matrix. This means good
separation of patterns due to the noise between
them (alignment size on average 2.45 times the pattern
size). The average number of alignments is
0.69 times the number of pairs of patterns. Precision
is relatively high, and almost all patterns
are completely covered by at least one alignment.
Problems with over-alignment arise when a low
number of patterns is combined with a high number
of sensors. Here the score obtained by aligning
a pattern with another is high, and the chance
that the following patterns match is also high;
this means that an alignment stretches over multiple
patterns when the score penalty incurred by
the noise interval is not sufficient to prevent overalignment.
Dataset three highlights the detrimental effects
of noise on alignment quality and quantity. Especially
with the equidistant layout of the value
space, there are very few alignments made with the provided score matrix. The preci-
920
0,2
0,4
0,6
0,8
1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
Dataset 1
0
0,2
0,4
0,6
0,8
1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
Dataset 2
0
0,05
0,1
0,15
0,2
0,25
0,3
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
Dataset 3*
0
0,2
0,4
0,6
0,8
1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
Dataset4
0
0,2
0,4
0,6
0,8
1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
Dataset 5
Figure 4.1.8.: The ratios of the number of alignments to the combinatorially expected
number of identical pairs of patterns in two different files, for all five
datasets and all 27 experiments. As the number of patterns rises, the
expected number of pairs gets lower, and the rate of alignments gets closer
to the number of pairs.
*Note: The values for dataset 3 are on another scale than the others.
93sion score is very low, alignment size varies wildly, but is on average very large, despite
a 40% reduction in minimal admissible scores, which should favour smaller alignments.
The pattern coverage metric is no longer accurate for this case, as its implementation
depends on the simultaneous start of a pattern which is no longer guaranteed once insertions
and deletions appear. Notably, some patterns were found in all configurations.
The results from dataset four are in most aspects very similar to those from dataset
one. In comparison, the average size of patterns is higher; recall and precision are lower,
and show a slight increase in variability.
Dataset five – serving as negative control – has the minimal admissible score of the
alignments reduced to one quarter of those of dataset one, to offset the three-quarter
loss of information induced by the gappiness value. This visibly does not even out the
loss of information due to gappy patterns. The score matrix punishes inequality too
heavily for but a few chance alignments to arise, if any at all. Precision is no lower
than for datasets one and four, as the low scores of the alignments do not allow the
inclusion of a large number of non-matching values in alignments. The average recall for
patterns covered by alignments is very low. Alignment sizes reflect the reduced scores and
are similar across all configurations (0.05 standard deviation, excluding configurations
without alignments).
4.1.2.4 Performance Comparison
Our key contributions having as goal performance improvements of an existing algorithm,
we compare these results with those obtained with the original algorithm. Where the
previous results – with the new algorithm – were obtained in just over 4 minutes, the
original algorithm (as described by Lecroq et al., 2012) gave most results after around
10 hours, but eight configurations with large alignments (particularly configurations of
datasets 1 and 3 with long sequence lengths and few different patterns) took over a week
to give results, under the same testing configuration.
To verify that this drastic increase in performance did not negatively influence our
performance metrics, they are presented in Table 4.6. Even if initially the values appear
better (especially precision for datasets one and four) than what we obtained from the
faster algorithm, we argue that this is possibly due to an undesired effect. The key
difference in results, is that a total of 291,858 alignments are made using the slower
approach. Since these alignments can be assumed to be smaller than the ones we obtain
using the fast variant (due to the score maximisation effort), they reduce the impact of
macro-patterns on the evaluation scores. On the other hand, they are also likely to be
redundant, as they should be covered by or similar to another alignment of the same pair
94Table 4.6.: Key results: averages and standard deviations across all configurations for
the state of the art algorithm
Measure Dataset 1 Dataset 2 Dataset 33 Dataset 4 Dataset 54
#alignments
#pairs of pat. 0.57 ± 0.27 0.867 ± 0.15 0.022 ± 0.024 0.55 ± 0.27 0.15 ± 0.23
precision 0.70 ± 0.24 0.93 ± 0.06 0.22 ± 0.10 0.69 ± 0.26 0.64 ± 0.21
recall 0.98 ± 0.03 1.00 ± 0.00 0.72 ± 0.32 0.95 ± 0.14 0.20 ± 0.05
alignment size
pattern size 2.82 ± 2.20 1.12 ± 0.11 6.48 ± 4.21 3.19 ± 3.37 1.40 ± 0.16
of input sequences. The improved average recall values of our new algorithm compared
to the older one also are indicative of this. Additionally, our results for the more difficult
datasets (three and five) actually show an improvement with regard to the number of
alignments found using our new approach over the state of the art algorithm.
We therefore claim that the reduction in results and much decreased time required for
the calculation make the resulting reduction in average precision an acceptable trade off,
especially because there is evidence that the decrease is due to additional, non-maximal
patterns in the data, which are of less interest.
4.1.3 Analysis
Overall, this evaluation shows that the algorithm works largely as expected, and allows
us to judge system constraints. Our optimisations on the state of the art algorithm have
reduced run time massively. This renders it capable of realistically dealing with data
that has a much larger scale than previously possible. On the dataset for which the
algorithm was tuned, the results are acceptable, especially when the presence of many
patterns inhibits the formation of macro patterns. Recall values in particular indicate
that most of the time an alignment corresponds to a pattern.
The results also show the limits of our approach. Although in the ideal case we
observe many perfect fits of alignments to patterns, we also observe the tendency of
the current configuration to extend alignments beyond pattern boundaries, if identical
pattern sequences are present. In sparse data or in noisy data, the simple model we use
here prevents reliable extraction of patterns, because all substitutions are equiprobable.
This is especially characterised by the low recall values, indicating that most alignments
are made from data that is randomly similar to other data.
One of the key observations on these results is that the length of the sequence has
a detrimental effect on almost all performance measures. This is due to combinatorial
3The results for Sets 3 have been obtained with a MASS of 60% of those of Sets 1,2 and 4.
4The results for Sets 5 have been obtained with a MASS of 25% of those of Sets 1,2 and 4.
95effects which create macro-patterns in a higher number in these long sequences. Minimising
length – so that only a few patterns are included in a sequence – allows for
better precision. Especially in real world data, when examining data from people with a
routine-heavy lifestyle, one would expect to find larger patterns if the search window is
sufficiently large. This is reinforced by the number of different patterns countering this
combinatorial effect.
Another observation is that the wider the dataset, the worse the impact of macropatterns.
This is due to the higher accumulated similarity score after each block of
identical data, and therefore increased tendency to bridge the gaps between identical
blocks. Although this is a problem with ideally replicated pattern instances, in noisy data
this increased resiliency might be beneficial. The effect can be controlled by adjusting
the similarity scores for the various edit operations.
On the other hand, the actual behaviour on context data can only be determined by
testing the approach on real world data. This is explored in the next section.
4.2 Real World Data Evaluation
The previous synthetic data based evaluation of our algorithm allowed us to determine
the runtime of our algorithm under specific, controlled conditions, as well as gain some
initial insights on how it performs with regard to our accuracy measures. To truly
validate our approach, further evaluation on real data is required. In the following we
describe how we obtained the real data we use, present our results and then analyse
them for potential conclusions.
4.2.1 Data Collection Campaign
The validation of our approach on real world data is a key part of this work. After an
examination of available context datasets (cf. section 2.4 on page 46), we come to the
conclusion that none of these is suitable for the specific aims of this work. Hence, we
designed a specific data collection protocol and launched a data collection campaign in
late 2011. This section documents the process of this campaign from conception to an
annotated dataset that is in a suitable format for the alignment approach introduced in
the previous chapters.
964.2.1.1 Motivation
The key limitations we identified in existing datasets, were the absence of ground truth
data and the limited scope of the available context data. Our key goal therefore was to
address these shortcomings, by including more physical context data and simultaneously
maintaining a reasonable volume of data – so that manual annotation with ground truth
data would be possible.
The key design imperative is a small footprint, in the sense of the context data capture
mechanism not impeding the daily routine of the test subjects. Additionally, it is
important for the data collection mechanism to maximize the amount of data available,
both by implementing safeguards to prevent the loss of already recorded data, and by
allowing the subjects to selectively disable individual sensors. The latter follows our
reasoning that users would be more open to gathering data if they could selectively
disable sensors. It is better to lose some data for an interval, than to lose all of it, in
case a user wants to disable tracking. This approach – coupled with visible feedback of
the current sensor values – aligns our data capture philosophy with the one proposed by
K¨arkk¨ainen et al. [2010].
4.2.1.2 Data Collection Campaign
We decided to use an Android application as mobile segment of our data collection
software. This application regularly records sensor data and transmits this data in
aggregated batches to a storage database server. The following values are being recorded
every ten seconds:
❼ Local time and date,
❼ Geolocation (via the Android Location API: Based on GPS and radio network
fingerprints),
❼ Linear acceleration forces (3D Accelerometer),
❼ Angular velocity (3-axis gyroscope),
❼ Magnetic field (3-axis magnetometer),
❼ Luminance,
❼ State of the handset proximity sensor,
❼ Type of data network currently available,
97❼ Signal strength of cellular network and
❼ Remaining battery charge.
These values are first written to a local database on each of the phones, and then automatically
sent to a central database server every 24 hours, if a wireless LAN connection
is available. Otherwise a retransmission is attempted every six hours. A participant
in the data collection campaign can also manually trigger a transmission of the locally
stored data.
Our campaign was centred around Rouen (a major regional town in northern France)
and Grenoble (a university town in south-eastern France). We recruited a total of 20
test subjects, from 5 of which we obtained useful amounts of data. The other test
subjects did not participate over the entire term of the campaign, possibly due to lack of
incentive or usability issues caused by the increased battery drain of their phones. The
campaign ran for a duration of two months, from November 2011 until January 2012.
The total amount of data we accumulated was around 430 MB, most of which was from
3 of these 5 users, with the remaining users contributing much less data. Most of this
variation is either due to early termination of participation in our campaign, or because
many sensors were either disabled by the participant or not available on the participant’s
hardware.
Besides the obvious privacy concerns of such a campaign, one other issue that presented
itself to participants was the high battery usage, particularly of the GPS and microelectromechanical
sensors (e.g. accelerometer, gyroscope, magnetometer). This reduced
the battery run time of most of the handsets used in the campaign to significantly less
than 24 hours, meaning that recharging the device every night was recommended and
necessary.
With regard to the design goals, this was the principal concession we had to make. Using
the smart phone as capture platform for the context data, allowed for less disruption
in the daily lives than a separate device would have generated. Our other criterion, of
capturing a wide variety of physical context data, has been mostly met. Unfortunately
many phones lacked gyroscopes and some device specific issues when using the microphone
prevented us from reliably capturing environmental noise levels, which ultimately
prevented us from including this in our data. Meteorological information also appeared
as a promising aspect of context data to us, but at the time of development, thermometers,
barometers and hygrometers were not available on phone platforms, and using real
time data from a nearby weather station is both unreliable and difficult to implement.
Getting this data after the end of the campaign was also an option, but historical data is
98only available at low temporal resolutions and from services implementing strict quotas
on queries.
4.2.1.3 Data Preparation
The data we collected requires some amount of pre-treatment to fit to the model we
have laid out earlier. Although the ten-second acquisition interval gave us a regular
time-discrete source of data, most values were still quasi-continuous.
Due to the amount of manual intervention required at this stage, we reduce our test
dataset to the data of the test subject which contributed the largest amount of data.
Examination of this data reveals that this participant’s device lacked a gyroscope, so
no angular velocity data is available. Other sensors contain obviously “troublesome”
(false readings, singleton outliers) values, which we eliminate. We also discard network
type and signal strength data, as they are highly correlated with geolocation. To further
reduce the amount of data present – to facilitate manual annotation of patterns – we
fuse magnetic and accelerometric orientation data into one single 6-axis sensor. This
leaves us with five context data sources:
1. light intensity on a logarithmic scale
2. state of the proximity sensor
3. location
4. battery charge level
5. orientation with regard to the magnetic North Pole and the gravitational centre of
the earth.
The next step is the actual discretisation, which is performed manually. Clustering
algorithms (such as k-means and X-means [Pelleg and Moore, 2000]) serve as an aid to
assign 14 place-IDs to all pairs of longitude and latitude values (see Fig. 4.2.1 for an
example), 8 orientation IDs to all 6-tuples of accelerometer and magnetometer readings
and 8 discrete battery charge levels. The luxmeter only gives 10 different levels of
luminance, which are used directly and the proximity sensor returns a binary reading.
We then reduce the sampling frequency to one measurement every one hundred seconds,
and cut the data into 24-hour segments, from 4 a.m. to 4 a.m. the following day. These
segments are around 850 5-tuples long, which renders them tractable both for the alignment
algorithm (cf. the runtime of our initial experiments in subsection 4.1.2.4) and –
to a much larger degree – manual annotation. The latter is a necessary step to allow
99Figure 4.2.1.: Clustering of locations into places of the data gathered by one subject over
a one week timespan. Artificial jitter has been introduced to the data, to
better visualise data density. Note how nine incidences in the top left are
clustered together with the other points towards the top left. The low
number of incidences renders this error negligible.
proper evaluation of discovered alignments: Three key patterns (cf. Annex B.1.3) have
been selected by visual analysis of graphs of the sensor data (cf. Fig. 4.2.2), and then
each occurrence has been labelled by hand, by annotating the raw data with a pattern
ID for the sensors and intervals that visually resembled one another.
Although this is an inaccurate practice, it does allow us to roughly label some of the
features we expect the algorithm to correctly identify and inter-align. As the choice
of “ground truth” is somewhat arbitrary, especially with regard to the vast amount of
data present even after the sweeping reductions in data volume, it cannot be understood
to be a truly ideal measure. Nonetheless, it is the best measure available under the
circumstances, especially considering that the envisioned application is as a decision aid.
Being able to detect these key features is a good benchmark of whether this capability
of the algorithm also persists for similar data.
4.2.1.4 Post Processing
Once the discretised data is available, the next step is to determine the additional information
required to obtain the metadata information (substitution score tables and
indel penalties). We assign each pair of states for each sensor a similarity value, using
10086420
12
10
5:38 5:47 5:57 6:06 6:17 6:28 6:37 6:48 7:01 7:10 7:20 7:31 7:42 9:42 9:53 10:04 10:13
86420
12
10
6:33 6:44 6:55 7:03 7:14 7:23 7:36 7:45 7:56 8:07 8:15 8:26 8:37 8:46 8:57 9:06 9:17
loglux
prox
place
batt
ori
time
Figure 4.2.2.: Visualisation of an extract of the captured data, with similar intervals marked. This extract covers the morning
period of two consecutive days. The y-axis represents the different discretised context values. The values shown
in this extract are light intensity on a logarithmic scale (loglux), the state of the proximity sensor (prox), the
location cluster id (place), the battery level (batt) and the orientation of the phone (ori).
101the approach laid out in the following.
For this evaluation, we create a set of similarity scores derived from both external
knowledge of the data sources and transition probabilities between each of the different
values. Specifically: In the case of the battery level, we used a linear distance function
between the discrete levels, and for everything else we based the similarity measure
on the transition probability, and then symmetrised these values. The negative values
in the latter case correspond to a projection of the transition probabilities onto a
quasi-logarithmic scale, with a score of -10 penalizing less than one transition in 10,000
observations, and a score of -4 corresponding to one transition in five observations. The
positive values are around 5 times the transition probability. The special case of the missing
reading is dealt with, by assigning a weak malus to any substitution of this value
with another and a weak bonus when matched, as we do not consider sensor malfunction
and deactivation to be a reliable context information, despite the potential significance.
For this data, we expect many temporal extensions and compressions of patterns, and
therefore wish to align constant similar sections of different length. Due to the combined
insertion/deletion+substitution approach, we set a relatively low negative supplement
score for insertion and deletion of -2, compared to the maximum negative score of -10
for transition probabilities smaller than 10−5
. The full substitution score tables can be
found in Appendix B.1.1.
One key relationship in these tables is that of positive scores to negative scores, as it
defines the tolerance of alignments to differences in data. Due to the weakly positive to
weakly negative effect of “constant” insertions and deletions, as well as the width of the
data we are using and the long periods of constant values in the data, it is preferable to
penalize non-identical substitutions heavily. This also shapes more compact alignments,
preventing “over-alignment”.
With the dataset now laid out, we can use it for the evaluation process.
4.2.2 Evaluation of Alignment Approach on Real Data
This section quantifies how well the alignment approach works to match the manually
selected patterns to the instances of these patterns in the dataset. The key parameters
are the substitution score tables, as well as the insertion and deletion scores, and finally
the minimal accumulated similarity score (MASS, cf. section 3.2). The generation of
the tables is described in the previous section, and the choice of MASS is discussed in
the following section. Thereupon follow the results we have obtained.
1021 2 3
campaign data
patterns
find local alignments
for each pairing with
different MASS
#58
Figure 4.2.3.: Alignment of three pre-selected patterns with campaign data in 58 slices
corresponding to 24-hour periods of 5-tuples.
4.2.2.1 Experimental Setup
Besides the model parametrisation, the other parameter that we can control is the minimal
accumulated similarity score. This has a key impact in this context, as it affects the
minimum size of alignments and the tolerance to differences between two aligned pieces
of data. To show the effect of different MASS values, in the following we perform an
alignment of the three identified patterns (cf. Annex B.1.3) with all 58 days worth of data
from the campaign participant we isolated in the previous subsection, with eight different
values for MASS. This process is illustrated in Fig. 4.2.3. The number of manually
annotated instances per pattern is as follows:
❼ Pattern 1: 13 instances,
❼ Pattern 2: 18 instances,
❼ Pattern 3: 27 instances.
As a starting point, we examine the three patterns, and expected accumulated similarity
scores. The first pattern is 190 5-tuples in size. By analysing the representing
sample that is used for searching instances in the remaining data, we can obtain the
103score of a perfect match with itself, which gives an upper bound. This score is 2,962 for
the first pattern, 3,271 for the second (199 5-tuples) and 1,441 for the third (197 2-tuples
– this pattern only covers proximity and location data).
Our choice of a useful lower bound is based on the assumption that an hour of similar
values is the minimum scale of interest. As one hour corresponds to 36 5-tuples, and
assuming that we require perfect matches during this hour to meet our minimal criterion
of similarity, then the target value is around 500, which corresponds to an average
similarity row score of ∼ 2.78; the average score per row – assuming uniform distribution
of all symbols – is ∼ 2.65.
Using these two extrema as starting points, we select the following values as our
reference points: 500 as lower bound, 700, 850, 1000, as a range that should give expected
results for the smaller pattern, and 1,300, 1,700 and 2,200 as a spread more useful for
the larger patterns; finally, we choose 3,000 as the upper boundary, which can only be
expected to give a single alignment – namely the alignment of the extracted pattern 2
with itself in the corpus.
4.2.2.2 Results
We use precision and recall (i.e. the ratio of cells correctly aligned in an alignment and
ratio of cells of an annotated pattern covered by an alignment) for each of the pair of
5-tuple sequences to be aligned, similarly to the evaluation of the synthetic data results.
Additionally we determine the number of alignments made, and for each pattern the
number of instances we have manually annotated. For the four values of precision and
recall, we calculate mean and standard deviation across all alignments for each MASSconfiguration.
These values can be found in table 4.7.
An alignment consists of two elements: one in the predefined pattern, and one in one
of the 58 day-slices of the campaign data. In this table, “A” identifies the part of the
alignment in the search sequence, and “B” represents the corresponding aligned part in
a sequence from the corpus. Fig. 4.2.4 visualises these results, by plotting recall and
precision across each MASS-value and the B-parts of each pattern. When looking at
“B” recall values, it is important to note, that alignments of non-annotated data result
in a zero value, which then impacts the mean recall and precision for a result. This is
reflected in the high standard error for these values.
104Table 4.7.: Evaluation results. A is the search pattern, B is the instance in the corpus.
Dataset Pattern 1
Measure prec. A. rec. A. prec. B. rec. B num.
MASS = 500 1 0.277±0.158 0.024±0.114 0.013±0.083 5011
MASS = 700 1 0.397±0.158 0.072±0.208 0.050±0.171 1049
MASS = 850 1 0.440±0.163 0.100±0.242 0.071±0.200 734
MASS = 1000 1 0.514±0.151 0.138±0.290 0.107±0.245 462
MASS = 1300 1 0.585±0.128 0.201±0.332 0.158±0.285 306
MASS = 1700 1 0.657±0.104 0.329±0.379 0.267±0.336 171
MASS = 2200 1 0.802±0.071 0.712±0.247 0.633±0.288 38
MASS = 3000 X X X X 0
5
Dataset Pattern 2
Measure prec. A. rec. A. prec. B. rec. B num.
MASS = 500 1 0.358±0.157 0.045±0.184 0.031±0.129 5201
MASS = 700 1 0.432±0.149 0.070±0.227 0.048±0.160 3206
MASS = 850 1 0.486±0.131 0.078±0.245 0.057±0.176 2240
MASS = 1000 1 0.524±0.125 0.085±0.268 0.064±0.195 1516
MASS = 1300 1 0.566±0.138 0.190±0.385 0.137±0.281 563
MASS = 1700 1 0.605±0.138 0.277±0.442 0.193±0.321 286
MASS = 2200 1 1 1 1 1
MASS = 3000 1 1 1 1 1
Dataset Pattern 3
Measure prec. A. rec. A. prec. B. rec. B num.
MASS = 500 0.965±0.059 0.574±0.189 0.596±0.387 0.380±0.324 387
MASS = 700 0.955±0.067 0.680±0.146 0.602±0.376 0.357±0.253 248
MASS = 850 0.966±0.054 0.750±0.060 0.744±0.283 0.433±0.209 185
MASS = 1000 0.992±0.014 0.774±0.046 0.820±0.239 0.505±0.216 46
MASS = 1300 1 1 1 1 1
MASS = 1700 X X X X 0
5
MASS = 2200 X X X X 0
5
MASS = 3000 X X X X 0
5
Across all 7,771 alignments made in search for pattern 1 in the corpus, 6,891 alignments
are false positives (i.e. with not even partial coverage of the instances). For pattern 2 this
is 11,504 out of 13,014 total, and for the third pattern 186 out of 867 alignments do not
even partially cover an annotated instance. This allows us to determine an upper bound
for the number of partial false positives (880, 1510, 681) – alignments that intersect with
annotated pattern instances, consist of subsequences of such instances or are partially
5X denotes the absence of data
105covered by other alignments. These numbers also include the alignments that best cover
a pattern, which can not exceed eight times the number of instances per pattern (104,
144, 216) due to the accumulation of the values across all repetitions of the experiment,
and the perfectly matching alignments, which number 20 in total (7, 8, 5).
Even when the MASS is set to 1,700, we still find 205 alignments of pattern 2 within the
corpus, that in fact do not correspond to an annotated instance. Some of the excess can
be explained by multiple locally optimal alignments, that partially cover a ground-truth
annotated interval, other is in sequences that are simply sufficiently similar according to
our measure, but in non-annotated parts of the corpus.
The “A” part of the results is less interesting, as the precision values for the first two
patterns are necessarily equal to one, due to every element in the search sequence being
part of the pattern. In the third pattern, this value indicates how much of the alignment
covers the undetermined part of the pattern. Recall values for the first two patterns are
directly the ratio of alignment size to pattern size. For the third pattern, this does not
hold true, as the alignment can cover non-determined cells.
An additional factor to consider is that some of the alignments might qualify as patterns
to an expert, when they are discovered by alignment, despite not having been
selected in the non-aided, manual annotation process, due to the fuzzy nature of the
latter.
4.2.3 Analysis
The initial observation on these results is that finding pre-identified patterns by means of
aligning n-tuples requires extensive pre-analysis by the expert user to formulate a reasonable
expectation of MASS and number of pattern instances in the corpus, based on the
scoring tables, size of the pattern and variability between pattern instances. Nonetheless,
given the reasonable time of execution for our example (6 minutes for the sequential
execution of the 24 samples of this experiment, on an Intel➤ Xeon➤ E5-2650), it is
possible to quickly perform a number of alignment processes with different MASS, and
discard those that appear to be too inclusive or too restrictive. If the parameters are
chosen fortuitously, then the alignments closely match the expert’s expectation of what
constitutes a pattern instance, or at the very least point to areas of interest.
We also note that although pattern one and pattern two share almost the same amount
of alignments made at the base score of 500, the elimination of false positives with
increasing MASS differs greatly between them. The number of alignments for pattern
one drops drastically at the step from 500 to 700 and then is reduced more gradually,
whereas for pattern two the number of alignments drops more evenly at the lower MASS
1060
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,11
500 700 850 1000 1300 1700 2200 3000
prec 1
rec 1
prec 2
rec 2
prec 3
rec 3
MASS
score
Figure 4.2.4.: Mean precision and recall for the instances in the corpus (“B” - part of the alignment) for the 24 test configurations.
From left to right are the different values of MASS used. With rising MASS, both precision and recall
increase. The rightmost bars are fewer, as no alignments were made with MASS values 1,700 and above for
pattern 3, and no alignments were made with MASS values 3,000 for pattern 1. Due to the smaller number of
elements contained in pattern 3, it has higher values than patterns 1 and 2 for the same MASS.
107samples, but then very abruptly at a higher score level. And even though the maximum
score is higher for pattern two, at MASS 1,700 there are fewer alignments made than
for pattern one. This observation suggests that the larger instances of pattern two are
also more varied. The consequence is, that as similarity values are accumulated by the
alignment algorithm, they stay lower due to constant penalties. Conversely, instances
of pattern one have higher local similarity, leading to a better separation of patterns
from lower scoring false positives, as penalty scores are fewer and further between. The
similarity based approach can therefore also be used to make qualitative observations
on sensor data, especially when using a denser sampling of MASS values, for added
precision.
Although this evaluation does not cover the alignment of entire day sequences with one
another, together with the synthetic evaluation it gives a clear notion of the characteristics
of our proposed alignment algorithm, when it is applied on context data. The main
challenge to evaluating the algorithm on real data is that this evaluation cannot be done
with objective measures, as the notion of what constitutes a “pattern” in context data is
not universal, and determining whether an actual routine activity is taking place requires
activity diary data in parallel to the data collection campaign, which is unrealistic at
relevant scales. Therefore we limit our experimentation to these two aspects.
108Conclusions and Future Work
The aim of this work is to determine whether it is possible to detect routine in the dayto-day
lives of mobile phone users. We come to the conclusion, that indeed it is possible
– if such routine elements are present. We consider this result an extension, refinement
and affirmation of existing approaches that detect routine in context data, such as the
works of Clarkson [2003] and Eagle and Pentland [2009]. Our results align themselves
particularly well with Clarkson’s work, in that our approach uses high resolution data,
but is only validated against a single person’s real world data. What we present is to be
seen as a proof of concept, as it lacks additional evaluation against a broader dataset.
Before we continue to discuss the advantages and limitations to our approach, we
briefly resume our contribution and results.
We presented in this work an alignment algorithm for sequences of context data, that
has been derived from an existing two-dimensional alignment approach, but optimised
to take advantage of the characteristics of the data and the desired results, to decrease
total calculation time by several orders of magnitude in some cases. To achieve this
increased performance, we took into account the structure of context data as a sequence
of n-tuples, which allowed us to decrease the original alignment problem complexity by
one dimension, and gave a theoretical speed-up of n. Additionally, we used an early
discard approach to finding locally optimal alignments in the data, greatly increasing
real-wold performance by reducing the amount of backtracking operations required for
the dynamic programming algorithm.
This algorithm is then evaluated against two types of datasets, one generated by a
specially developed simulator, the other an annotated subset of data recorded during a
collection campaign. The results on the former show that our approach works largely as
expected, with a weakness when attempting to segment patterns that appear in the same
109sequential order in two different input files. On the real world dataset, we used a different
evaluation approach to account for the difficulty of obtaining a ground truth reference.
The algorithm was used to align known routines with sequences that contained the data
of one day each. This result showed that the quality of the results depends directly
on the choice of the minimal admissible similarity score, which needs to be optimised
to within a small fraction of the ideal value, to obtain results that closely match one’s
expectations.
One of the main advantages of our approach, is that it can point out from a dataset
some candidate intervals that should correspond to pairs of routine elements in context.
Our evaluation on synthetic data shows that – if naively configured – the algorithm
has a strong tendency to cover multiple patterns, if they appear in the same sequence.
It is disputable whether this is always desirable – as it reduces the segmentation of the
results – but it follows from our choice to search optimal alignments to reduce the overall
number of patterns extracted. An example of where this could be problematic, is when a
person frequently does two activities in sequence, but occasionally only one individually.
Then – numerically – one routine activity happens more often than the other, but this is
not reflected in the result: when aligning two samples that contain the sequence of pairs,
the result is a single alignment, with no direct relation to other alignments comprising
only one activity.
Our real data evaluation was limited in that we only checked for a set of pre-determined
patterns – primarily due to the challenge of manually determining a desirable evaluation
target, without a specific target application. Nonetheless, we were able to display how
the minimal accumulated similarity score is related to the results. Good accuracy can
be expected, if one is capable of expressing one’s expectation of what constitutes an
alignment in the terms of individual per-element similarity scores and lower accumulated
similarity score limits.
In the introduction, we listed a wide variety of applications. When comparing the
breadth of requirements different applications may have with regards to models of activity
routine with our algorithmic results, we realise that our approach is not an all-in
one solution to providing a better understanding of context. This is mostly due to the
genericness of our approach, linked with the lack of a common, inherent understanding
of what truly makes up a routine activity. What we provide then, is primarily an exploratory
tool, enabling domain experts – for example application developers – to gauge
across large datasets where there is detectable routine in sensor logs and what the general
characteristics of the present routine activities are. They can then iteratively adapt
110and parametrise our approach, until they can accurately express their notion of what
makes up a routine activity within the design space the alignment paradigm provides.
Other potential interest groups include the people generating the data themselves (as a
means of introspection and reflection) and researchers in social sciences. Usage in the
advertisement industry or intelligence field could also be imagined.
Although such a usage entails some preparation of the context data, the process is relatively
straightforward: the first step is synchronisation of the different context streams.
Next, the data is discretised, which often requires some manual intervention, to estimate
a good number of clusters in the data, or determine a set of criteria to evaluate a
clustering result. Based on this step, the meta-data (in the form of substitution score
tables) is generated. A statistical approach to this can be mostly automated, a semantic
approach requires direct intervention, and may provide better results. In each case, subsequent
refinements may be necessary, depending on the first alignment results which
reveal some consistency characteristics of the data. This iterative approach can provide
a flexible – but complex – tool to extract specifically the patterns a user is interested
in. False positives are a frequent occurrence which may have to be rejected by hand.
Considering the scale of the raw data, this reduction of the problem of finding routine
is a significant step forward, even despite the setup complexity.
We already touched upon three limitations: the iterative, supervised approach is not
completely automatable; there may be unexpected alignments among the results, which
are classified as false positives; alignments are always maximised and may not extract
discrete smaller patterns. Additionally, there are some limitations on the algorithmic
level. Currently, our algorithm produces results which are dependent on the order in
which the sensor data is arranged; an artefact carried over from the algorithm upon
which we developed our adapted approach. We are also faced with a similar “multilevel”-problematic
as Clarkson encountered, in that a single accumulated similarity value
may be insufficient to characterise all kinds of patterns as alignments. The value may for
example be equal for a large alignment with some errors and a small perfect alignment
– no qualitative information, besides the number of aligned symbols and maximum
similarity score, is retained.
The future work we suggest is threefold. Firstly, there are some ways of modifying the
algorithm to improve results and enhance performance. Secondly, there are some means
of evaluation that can still be explored to gain an even better understanding of how our
approach interacts with context data. Finally, we point to some pre- and post-treatment
methods that could render this approach more powerful and simpler to use.
111Although we did improve and adapt the algorithm to our use case from a time and
space performance standpoint, a weakness still persists: the in-tuple order of elements
remains a factor in the alignments found. Correcting this by calculating and memorising
the order in which each tuple element is accessed would result in order-independent
alignments, at the cost of increased time and space requirements.
A possible solution to the issue of large patterns obscuring smaller ones, can be approached
by performing a further pattern extraction step on the results of the first extraction,
using a lower MASS. This should reveal whether smaller patterns are present
within the larger ones.
The algorithm can be parallelised in its implementation in many ways, which can
provide great speed-ups. The one-dimensional string alignment approaches exist in versions
optimised for stream processing, porting the ideas of these implementations to
our methods could increase performance on specialised hardware, such as graphics processors
and processors with streaming extensions. Ultimately, the memory limitation
will persist.
We currently lack evaluation of actual pattern extraction on real world data, due the
reasons we stated earlier in this chapter. A possible way to evaluate our approach, as a
decision aid, would be to undertake user studies, to see how potential users – interested
in finding patterns in context data – would be able to parametrise a model that enables
them to do just that.
Furthermore, a comparative evaluation against the approach of Plantevit et al. [2010]
would be of interest, to see how the ultimate parametrisation efforts compare, as well as
to be able to judge the results against a similar approach.
Lastly, evaluating the extraction performance against a dataset supported with diary
entries would be able to provide further insights – but ultimately be limited by the flexible
notion of what makes up a routine activity. Each test subject providing a diary may have
a different notion of routine from the other test subjects, or the experimenter ultimately
constructing a model, which can lead to data that is nearly impossible to correctly
interpret. As a result, either a naive model would be used, with results probably similar
to those we obtained on synthetic data, or a properly developed, supervised model, which
would again only demonstrate how well the model can be parametrised to correspond
to a consistent but arbitrary notion of routine.
We have already proposed some pre-treatment methods, to obtain a model that is
partly automatically generated from a corpus of known data. Using advanced clustering
algorithms, and defining a set of heuristics for the permissible error rates for specific
sensors, as well as filtering rules, would further simplify the pre-treatment. From a post-
112treatment perspective, it is interesting to reduce the vast amount of pairs of results into
representatives of actual routine activities. This has been done in the work of Pauchet
et al. [2013], using a clustering approach. This approach can be extended, by using
a variation of Hirschberg’s algorithm [Hirschberg, 1975] to obtain a local cumulative
edit distance function across the different aligned elements. This would allow us to
cluster multiple inter-similar context episodes to clusters of routine contexts, while also
finding similar subsegments. Alternatively, a global alignment can be used, if the further
segmentation has already been performed separately.
113Bibliography
Mohamed Abouelhoda and Moustafa Ghanem. String Mining in Bioinformatics. In
Mohamed Medhat Gaber, editor, Scientific Data Mining and Knowledge Discovery:
Principles and Foundations, pages 207–247. Springer Berlin Heidelberg, Berlin,
Heidelberg, 2010. ISBN 978-3-642-02787-1. doi: 10.1007/978-3-642-02788-8. URL
http://www.springerlink.com/index/10.1007/978-3-642-02788-8.
Ramesh C. Agarwal, Charu C. Aggarwal, and V. V. V. Prasad. A Tree Projection
Algorithm for Generation of Frequent Item Sets. Journal of Parallel
and Distributed Computing, 61(3):350–371, March 2001. ISSN 0743-7315. doi:
10.1006/jpdc.2000.1693. URL http://www.sciencedirect.com/science/article/
pii/S0743731500916939.
Rakesh Agrawal and Ramakrishnan Srikant. Fast Algorithms for Mining Association
Rules. In Jorge B. Bocca, Matthias Jarke, and Carlo Zaniolo, editors, Int’l Conf. Very
Large Databases (VLDB ’94), pages 487–499, Santiago de Chile, Chile, 1994. Morgan
Kaufmann Publishers Inc. San Francisco, CA, USA.
Rakesh Agrawal and Ramakrishnan Srikant. Mining sequential patterns. In Proceedings
of the Eleventh International Conference on Data Engineering, pages 3–14. IEEE
Comput. Soc. Press, 1995. ISBN 0-8186-6910-1. doi: 10.1109/ICDE.1995.380415.
Rakesh Agrawal, Tomasz Imielinski, and Arun Swami. Mining association rules between
sets of items in large databases. In Proceedings of the 1993 ACM SIGMOD international
conference on Management of data, pages 207–216, Washington, D.C., 1993.
ACM New York, NY, USA.
Stephen F. Altschul and Bruce W Erickson. Optimal sequence alignment using af-
114fine gap costs. Bulletin of Mathematical Biology, 48(5-6):603–616, 1986. ISSN 0092-
8240. doi: 10.1016/S0092-8240(86)90010-8. URL http://www.sciencedirect.com/
science/article/pii/S0092824086900108.
Stephen F. Altschul, Warren Gish, Webb Miller, Eugene W. Myers, and David J. Lipman.
Basic local alignment search tool. Journal of Molecular Biology, 215:403–410,
1990. URL http://www.cmu.edu/bio/education/courses/03510/LectureNotes/
Altschul1990.pdf.
Amihood Amir and Martin Farach. Efficient 2-dimensional approximate matching of
non-rectangular figures. In SODA ’91 Proceedings of the second annual ACM-SIAM
symposium on Discrete algorithms, number 908, pages 212–223. Society for Industrial
and Applied Mathematics Philadelphia, PA, USA, 1991. URL http://dl.acm.org/
citation.cfm?id=127829.
Sarabjot Singh Anand and Bamshad Mobasher. Contextual Recommendation. In Bettina
Berendt, Andreas Hotho, Dunja Mladenic, and Giovanni Semeraro, editors, From
Web to Social Web Discovering and Deploying User and Content Profiles, volume
4737 of Lecture Notes in Computer Science, chapter 8, pages 142–160. Springer Berlin
Heidelberg, 2007. ISBN 9783540749509. doi: 10.1007/978-3-540-74951-6 8. URL
http://www.springerlink.com/content/r28874294253q051.
Alberto Apostolico, Laxmi Parida, and Simona E. Rombo. Motif patterns in 2D.
Theoretical Computer Science, 390(1):40–55, January 2008. ISSN 0304-3975. URL
http://www.sciencedirect.com/science/article/pii/S0304397507007645.
Daniel Ashbrook and Thad Starner. Learning significant locations and predicting
user movement with GPS. In Proceedings of the 6th IEEE International Symposium
on Wearable Computers, pages 101–108, Seattle, WA, USA, 2002. IEEE Computer
Society, Washington, DC, USA. ISBN 0-7695-1816-8. doi: 10.1109/ISWC.
2002.1167224. URL http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?
arnumber=1167224.
Jay Ayres, Jason Flannick, Johannes Gehrke, and Tomi Yiu. Sequential Pattern mining
using a bitmap representation. In Proceedings of the eighth ACM SIGKDD international
conference on Knowledge discovery and data mining - KDD ’02, page 429, New
York, New York, USA, 2002. ACM Press. ISBN 158113567X. doi: 10.1145/775107.
775109. URL http://portal.acm.org/citation.cfm?doid=775047.775109.
115Ricardo A. Baeza-Yates and Gonzalo Navarro. Fast two-dimensional approximate pattern
matching. In Claudio L. Lucchsei and Arnaldo V. Moura, editors, LATIN’98
Proceedings of the Third Latin American Symposium on Theoretical Informatics,
pages 341–351, Campinas, Brazil, 1998. Springer-Verlag London, UK. URL http:
//link.springer.com/chapter/10.1007/BFb0054334.
Brenda S. Baker. A program for identifying duplicated code. In Computing Science and
Statistics, pages 24:49–57, College Station, TX, USA, 1992.
Theodore P. Baker. A Technique for Extending Rapid Exact-Match String Matching
to Arrays of More than One Dimension. SIAM Journal on Computing, 7(4):533–541,
November 1978. ISSN 0097-5397. doi: 10.1137/0207043. URL http://dx.doi.org/
10.1137/0207043.
Matthias Baldauf, Schahram Dustdar, and Florian Rosenberg. A survey on contextaware
systems. International Journal of Ad Hoc and Ubiquitous Computing, 2(4):
263–277, 2007.
Leonard E. Baum, Ted Petrie, George Soules, and Norman Weiss. A maximization
technique occurring in the statistical analysis of probabilistic functions of Markov
chains. The annals of mathematical statistics, 41(1):164–171, 1970.
Victoria Bellotti, Bo Begole, Ed H. Chi, Nicolas Ducheneaut, Ji Fang, Ellen Isaacs,
Tracy King, Mark W. Newman, Kurt Partridge, Bob Price, Paul Rasmussen, Michael
Roberts, Diane J. Schiano, and Alan Walendowski. Activity-based serendipitous
recommendations with the Magitti mobile leisure guide. In Proceeding of the
twenty-sixth annual SIGCHI conference on Human factors in computing systems,
pages 1157–1166, New York, NY, USA, 2008. ACM. ISBN 9781605580111. doi:
10.1145/1357054.1357237.
Martin Berchtold, Matthias Budde, Hedda R. Schmidtke, and Michael Beigl. An extensible
modular recognition concept that makes activity recognition practical. In R¨udiger
Dillmann, J¨urgen Beyerer, Uwe Hanebeck, and Tanja Schultz, editors, Proceedings of
the 33rd annual German conference on Advances in artificial intelligence, pages 400–
409. Springer-Verlag Berlin, Heidelberg, 2010. ISBN 3-642-16110-3 978-3-642-16110-0.
doi: 10.1007/978-3-642-16111-7 46.
Kevin Beyer and Raghu Ramakrishnan. Bottom-up computation of sparse and Iceberg
CUBEs. In SIGMOD ’99 Proceedings of the 1999 ACM SIGMOD international con-
116ference on Management of data, pages 359–370, Philadelphia, PA, 1999. ACM New
York, NY, USA.
V Boonjing and P Songram. Efficient Algorithms for Mining Closed Multidimensional
Sequential Patterns, 2007.
A. J. Bernheim Brush, Amy K. Karlson, James Scott, Raman Sarin, Andy Jacobs, Barry
Bond, Oscar Murillo, Galen Hunt, Mike Sinclair, Kerry Hammil, and Steven Levi. User
experiences with activity-based navigation on mobile devices. In Proceedings of the
12th international conference on Human computer interaction with mobile devices and
services, pages 73–82, 2010. doi: 10.1145/1851600.1851616. URL http://portal.
acm.org/citation.cfm?id=1851616.
Matthew Chalmers. A Historical View of Context. Computer Supported Cooperative
Work (CSCW), 13(3-4):223–247, August 2004. ISSN 0925-9724. doi:
10.1007/s10606-004-2802-8. URL http://www.springerlink.com/index/10.1007/
s10606-004-2802-8.
Tanzeem Choudhury, Gaetano Borriello, Sunny Consolvo, Dirk Haehnel, Beverly Harrison,
Bruce Hemingway, Jeffrey Hightower, Predrag ”Pedja” Klasnja, Karl Koscher,
Anthony Lamarca, James A. Landay, Louis LeGrand, Jonathan Lester, Ali Rahimi,
Adam Rea, and Denny Wyatt. The mobile sensing platform: An embedded activity
recognition system. Pervasive Computing, 7(2):32–41, 2008.
Brian Clarkson and Alex (Sandy) Pentland. Unsupervised clustering of ambulatory audio
and video. In Proceedings of the 1999 International Conference on Acoustics,
Speech, and Signal Processing, pages 3037–3040 vol. 6, Phoenix, Arizona, United
States, 1999. IEEE. doi: 10.1109/ICASSP.1999.757481. URL http://ieeexplore.
ieee.org/xpls/abs_all.jsp?arnumber=757481.
Brian Patrick Clarkson. Life Patterns : structure from wearable sensors. PhD thesis,
MIT, 2003.
Diane J. Cook, Michael Youngblood, Edwin O. Heierman, Karthik Gopalratnam, Sira
Rao, Andrey Litvin, and Farhan Khawaja. MavHome : An Agent-Based Smart Home.
In Proceedings of the First IEEE International Conference on Pervasive Computing
and Communications (PerCom 2003), pages 521–5244, Fort Worth, TX, 2003. IEEE.
ISBN 0769518931.
Brian A. Davey and Hilary A. Priestley. Introduction to Lattices and Order (2. ed.).
Cambridge University Press, 2002. ISBN 978-0-521-78451-1.
117Pedro Domingos and Geoff Hulten. Mining high-speed data streams. In Proceedings of
the sixth ACM SIGKDD international conference on Knowledge discovery and data
mining, KDD ’00, pages 71–80, New York, NY, USA, 2000. ACM. ISBN 1-58113-233-6.
doi: 10.1145/347090.347107. URL http://doi.acm.org/10.1145/347090.347107.
Paul Dourish. What we talk about when we talk about context. Personal
and Ubiquitous Computing, 8(1):19–30, February 2004. ISSN 1617-4909. doi:
10.1007/s00779-003-0253-8. URL http://www.springerlink.com/openurl.asp?
genre=article&id=doi:10.1007/s00779-003-0253-8.
Nathan Eagle and Alex (Sandy) Pentland. Reality mining: sensing complex social systems.
Personal and Ubiquitous Computing, 10(4):255–268, November 2005. ISSN
1617-4909. doi: 10.1007/s00779-005-0046-3. URL http://link.springer.com/10.
1007/s00779-005-0046-3.
Nathan Eagle and Alex (Sandy) Pentland. Eigenbehaviors: identifying structure in
routine. Behavioral Ecology and Sociobiology, 63(7):1057–1066, April 2009. ISSN
0340-5443. doi: 10.1007/s00265-009-0739-0. URL http://www.springerlink.com/
index/10.1007/s00265-009-0739-0.
Vincent Etter, Mohamed Kafsi, and Ehzan Kazemi. Been There, Done That : What
Your Mobility Traces Reveal about Your Behavior. In Nokia Mobile Data Challenge
- Next Place Prediction, 2012.
Simone Faro and Thierry Lecroq. The Exact Online String Matching Problem : a Review
of the Most Recent Results. ACM Computing Surveys (CSUR), 45(2):Article No. 13,
2013. doi: 10.1145/0000000.0000000.
Huiji Gao, Jiliang Tang, and Huan Liu. Mobile Location Prediction in Spatio-Temporal
Context. In Nokia Mobile Data Challenge - Next Place Prediction, number 2, 2012.
Fosca Giannotti, Mirco Nanni, and Dino Pedreschi. Efficient mining of temporally annotated
sequences. In In Proc. SDM’06, pages 348–359, 2006.
Fosca Giannotti, Mirco Nanni, Dino Pedreschi, and Fabio Pinelli. Trajectory pattern
mining. In Proceedings of the International Conference on Knowledge Discovery and
Data Mining (KDD), pages 330–339, San Jose, CA, 2007. ISBN 9781595936097.
Marta C. Gonzalez, Cesar A. Hidalgo, and Albert-Laszlo Barabasi. Understanding individual
human mobility patterns. Nature, 453(7196):779–782, June 2008. ISSN 0028-
0836.
118G¨osta Grahne and Jianfei Zhu. Efficiently Using Prefix-trees in Mining Frequent
Itemsets. In Proceedings of the ICDM’03 international workshop on requent itemset
mining implementations (FIMI ’03), volume 15, pages 123–132, Melbourne,
FL, 2003. URL http://ftp.informatik.rwth-aachen.de/Publications/CEUR-WS/
Vol-90/grahne.pdf.
M A Hall. Correlation-based feature selection for machine learning. PhD thesis, The
University of Waikato, 1999.
Mark Hall, Eibe Frank, Geoffrey Hilmes, Bernhard Pfahringer, Peter Reutemann, and
Ian H Witten. The WEKA Data Mining Software: An Update. SIGKDD Explorations,
11(1), 2009.
Jiawei Han and Yongjian Fu. Discovery of multiple-level association rules from large
databases. In Proceeding of the 21st international conference on very large data bases
(VLDB’95), pages 420–431, Zurich, Switzerland, 1995.
Jiawei Han, Jian Pei, Behzad Mortazavi-Asl, Qiming Chen, Umeshwar Dayal, and MeiChun
Hsu. FreeSpan: frequent pattern-projected sequential pattern mining. In KDD
’00 Proceedings of the sixth ACM SIGKDD international conference on Knowledge
discovery and data mining, pages 355–259. ACM New York, NY, USA, 2000a.
Jiawei Han, Jian Pei, and Yiwen Yin. Mining frequent patterns without candidate
generation. In SIGMOD ’00 Proceedings of the 2000 ACM SIGMOD international
conference on Management of data, pages 1–12, Dallas, TX, 2000b. ISBN 1581132182.
doi: 10.1145/335191.335372.
Jiawei Han, Micheline Kamber, and Jian Pei. Data mining: concepts and techniques.
Morgan kaufmann, 2006. ISBN 0080475582.
Jiawei Han, Hong Cheng, Dong Xin, and Xifeng Yan. Frequent pattern mining: current
status and future directions. Data Mining and Knowledge Discovery, 15(1):55–86,
January 2007. ISSN 1384-5810. doi: 10.1007/s10618-006-0059-1. URL http://link.
springer.com/10.1007/s10618-006-0059-1.
Martin Heidegger. Sein und Zeit. Max Niemayer Verlag, T¨ubingen, 10 (1963) edition,
1927.
Steven Henikoff and Jorja G. Henikoff. Amino acid substitution matrices from protein
blocks. Proceedings of the National Academy of Sciences of the United States of
America, 89(22):10915–10919, November 1992. ISSN 0027-8424.
119Johan Himberg, Kalle Korpiaho, Heikki Mannila, Johanna Tikanm¨aki, and Hannu T. T.
Toivonen. Time series segmentation for context recognition in mobile devices. In
Proceedings 2001 IEEE International Conference on Data Mining, volume c, pages
203–210. IEEE Comput. Soc, 2001. ISBN 0-7695-1119-8. doi: 10.1109/ICDM.
2001.989520. URL http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?
arnumber=989520.
Daniel S. Hirschberg. A Linear Space Algorithm for Computing Maximal Common
Subsequences. Communications of the ACM, 18(6):341–343, 1975.
Wassily Hoeffding. Probability Inequalities for Sums of Bounded Random Variables.
Journal of the American Statistical Association, 58(301):13–30, March 1963.
ISSN 0162-1459. doi: 10.1080/01621459.1963.10500830. URL http://amstat.
tandfonline.com/doi/abs/10.1080/01621459.1963.10500830.
Geoffrey Holmes, Bernhard Pfahringer, Richard Kirkby, Eibe Frank, and Mark Hall.
Multiclass alternating decision trees. In ECML, pages 161–172. Springer, 2001.
Geoffrey Holmes, Bernhard Pfahringer, Richard Kirkby, Eibe Frank, and Mark Hall.
Multiclass Alternating Decision Trees. In Proceedings of the 13th European Conference
on Machine Learning, ECML ’02, pages 161–172, London, UK, UK, 2002. SpringerVerlag.
ISBN 3-540-44036-4. URL http://dl.acm.org/citation.cfm?id=645329.
650070.
George H. John and Pat Langley. Estimating Continuous Distributions in Bayesian
Classifiers. In Eleventh Conference on Uncertainty in Artificial Intelligence, pages
338–345, San Mateo, 1995. Morgan Kaufmann.
Juyoung Kang and Hwan-Seung Yong. Mining spatio-temporal patterns in trajectory
data. Journal of Information Processing Systems, 6(4):521–536, 2010.
Tuula K¨arkk¨ainen, Tuomas Vaittinen, and Kaisa V¨a¨an¨anen-Vainio-Mattila. I Don’t
Mind Being Logged, but Want to Remain in Control: A Field Study of Mobile Activity
and Context Logging. In Proceedings of the 28th international conference on Human
factors in computing systems - CHI ’10, pages 163–172, Atlanta, GA, USA, 2010.
ACM New York, NY, USA. ISBN 9781605589299.
Richard M Karp and M O Rabin. Efficient randomized pattern-matching algorithms,
1987.
120Dimitrios Katsaros and Yannis Manolopoulos. A Suffix Tree Based Prediction Scheme
for Pervasive Computing Environments. In Panayiotis Bozanis and Elias N. Houstis,
editors, 10th Panhellenic Conference on Informatics, PCI 2005, pages 267–277, Volos,
Greece, 2005.
Dimitrios Katsaros, Alexandros Nanopoulos, Murat Karakaya, Gokhan Yavas, Ozg ur
Ulusoy, and Yannis Manolopoulos. Clustering mobile trajectories for resource allocation
in mobile environments. In Proceedings of the 5th International Symposium on
Intelligent Data Analysis, IDA 2003, number 102, pages 319–329, Berlin, Germany,
2003. Springer Berlin Heidelberg.
Eamonn Keogh, Jessica Lin, and Wagner Truppel. Clustering of time-series subsequences
is meaningless: implications for previous and future research. In Proceedings of the
Third IEEE International Conference on Data Mining (ICDM’03), pages 115–122,
2003. ISBN 0769519784.
Niko Kiukkonen, Jan Blom, Olivier Dousse, Daniel Gatica-Perez, and Juha K. Laurila.
Towards rich mobile phone datasets: Lausanne data collection campaign. In Proceedings
of ACM international conference on pervasive services (ICPS), Berlin, 2010.
Donald E. Knuth, James H. Morris, Jr, and Vaughan R. Pratt. Fast pattern matching in
strings. SIAM journal on computing, 6(2):323–350, 1977. URL http://epubs.siam.
org/doi/abs/10.1137/0206024.
David Kotz and Kobby Essien. Analysis of a campus-wide wireless network. Wireless
Networks, 11(1-2):115–133, 2005. ISSN 1022-0038.
Kamala Krithivasan and R Sitalakshmi. Efficient two-dimensional pattern matching in
the presence of errors. Information Sciences, 43(3):169–184, December 1987. ISSN
0020-0255. doi: 10.1016/0020-0255(87)90037-5. URL http://www.sciencedirect.
com/science/article/pii/0020025587900375.
Hye-Chun Kum, Jian Pei, Wei Wang, and Dean Duncan. ApproxMAP: Approximate
mining of consensus sequential patterns. In Third SIAM International Conference on
Data Mining (SIAM-DM), pages 311–315, San Francisco, CA, 2003.
Kari Laasonen. Clustering and prediction of mobile user routes from cellular data. In
Knowledge Discovery in Databases: PKDD 2005, pages 569–576, Porto, Portugal,
2005.
121Philip Laird. Identifying and using patterns in sequential data. In KlausP. Jantke,
Shigenobu Kobayashi, Etsuji Tomita, and Takashi Yokomori, editors, Algorithmic
Learning Theory SE - 1, volume 744 of Lecture Notes in Computer Science, pages
1–18. Springer Berlin Heidelberg, 1993. ISBN 978-3-540-57370-8. doi: 10.1007/
3-540-57370-4 33.
Juha K. Laurila, Daniel Gatica-Perez, Imad Aad, Jan Blom, Olivier Bornet, TrinhMinh-Tri
Do, Olivier Dousse, Julien Eberle, and Markus Miettinen. The mobile data
challenge: Big data for mobile computing research. In Mobile Data Challenge by Nokia
Workshop in Conjunction with Int. Conf. on Pervasive Computing, Newcastle, UK,
2012.
Thierry Lecroq, Alexandre Pauchet, Emilie Chanoni, and Gerardo Solano Ayala. Pattern ´
discovery in annotated dialogues using dynamic programming. International Journal
of Intelligent Information and Database Systems, 6(6):603–618, 2012.
Philip I. S. Lei and Angus K. Y. Wong. The Multiple-Touch User Interface Revolution.
IT Professional, 11(February):42–49, 2009.
Jonathan Lester, Tanzeem Choudhury, and Gaetano Borriello. A practical approach to
recognizing physical activities. Pervasive Computing, pages 1–16, 2006. doi: 10.1.1.
138.6972.
Chao Li and Katharine Willis. Modeling context aware interaction for wayfinding using
mobile devices. In Proceedings of the 8th conference on Human-computer interaction
with mobile devices and services - MobileHCI ’06, page 97, New York, New York,
USA, 2006. ACM. ISBN 1595933905. doi: 10.1145/1152215.1152235. URL http:
//portal.acm.org/citation.cfm?doid=1152215.1152235.
David J. Lipman and William R. Pearson. Rapid and sensitive protein similarity
searches. Science, 227(4693):1435–1441, March 1985. doi: 10.1126/science.2983426.
URL http://www.sciencemag.org/content/227/4693/1435.abstract.
H Liu and R Setiono. A probabilistic approach to feature selection - A filter solution.
In 13th International Conference on Machine Learning, pages 319–327, 1996.
Nizar R. Mabroukeh and C. I. Ezeife. A taxonomy of sequential pattern mining algorithms.
ACM Computing Surveys, 43(1):3:1–3:41, November 2010. ISSN 03600300.
doi: 10.1145/1824795.1824798. URL http://portal.acm.org/citation.cfm?doid=
1824795.1824798.
122Heikki Mannila, Hannu Toivonen, and A. Inkeri Verkamo. Efficient Algorithms for Discovering
Association Rules. In AAAI Workshop on Knowledge Discovery in Databases
(KDD-94), number July, pages 181–192. AAAI Press, 1994.
Jani M¨antyj¨arvi, Johan Himberg, Petri Kangas, Urpo Tuomela, and Pertti Huuskonen.
Sensor Signal Data Set for Exploring Context Recognition of Mobile Devices. In
Workshop ”Benchmarks and a database for context recognition” in conjuction with the
2nd Int. Conf. on Pervasive Computing (PERVASIVE 2004), Linz/Vienna, Austria,
2004.
Edward M. McCreight. A space-economical suffix tree construction algorithm. Journal of
the ACM (JACM), 23(2):262–272, 1976. URL http://dl.acm.org/citation.cfm?
id=321946.
Carl H. Mooney and John F. Roddick. Sequential Pattern Mining - Approaches and
Algorithms. ACM Computing Surveys (CSUR), 45(2):19:1–19:39, 2013. doi: 10.1145/
2431211.2431218.
Cory S. Myers and Lawrence R. Rabiner. A Comparative Study of Several Dynamic
Time-Warping Algorithms for Connected-Word. Bell System Technical Journal, 60
(7):1389–1409, 1981.
Eugene W. Myers and Webb Miller. Optimal alignments in linear space. Computer
applications in the biosciences : CABIOS, 4(1):11–17, March 1988. doi: 10.
1093/bioinformatics/4.1.11. URL http://bioinformatics.oxfordjournals.org/
content/4/1/11.abstract.
Mirco Nanni, Roberto Trasarti, Chiara Renso, Fosca Giannotti, and Dino Pedreschi.
Advanced Knowledge Discovery on Movement Data with the GeoPKDD system. In
Proceedings of the 13th International Conference on Extending Database Technology
EDBT ’10, pages 693–696. ACM New York, NY, USA, 2010. ISBN 9781605589459.
Gonzalo Navarro. A guided tour to approximate string matching. ACM Computing
Surveys, 33(1):31–88, March 2001. ISSN 03600300. doi: 10.1145/375360.375365. URL
http://portal.acm.org/citation.cfm?doid=375360.375365.
Saul B. Needleman and Christian D. Wunsch. A general method applicable to the search
for similarities in the amino acid sequence of two proteins. Journal of molecular biology,
48(3):443–453, 1970.
123Kurt Partridge and Bob Price. Enhancing Mobile Recommender Systems with Activity
Inference. User Modeling, Adaptation, and Personalization, pages 307–318, 2009.
Nicolas Pasquier, Yves Bastide, Rafik Taouil, and Lotfi Lakhal. Discovering Frequent
Closed Itemsets for Association Rules. In Catriel Beeri and Peter Buneman, editors,
Database Theory – ICDT ’99 SE - 25, volume 1540 of Lecture Notes in Computer Science,
pages 398–416. Springer Berlin Heidelberg, 1999. ISBN 978-3-540-65452-0. doi:
10.1007/3-540-49257-7\ 25. URL http://dx.doi.org/10.1007/3-540-49257-7_25.
Alexandre Pauchet, Abed Mohamad El, Tayeb Merabti, Elise Prieur, Thierry Lecroq, ´
and St´efan Darmoni. Identification de r´ep´etitions dans les navigations au sein d’un
catalogue de sant´e. Revue d Intelligence Artificielle, 23(1):113–132, 2009. URL http:
//hal.archives-ouvertes.fr/hal-00450114.
Alexandre Pauchet, Fran¸cois Rioult, Emilie Chanoni, Zacharie Ales, and Ovidiou Serban. ´
Advances on Dialogue Modelling Interactive Narration Requires Prominent Interaction
and Emotion. In International Conference on Agents and Artificial Intelligence, pages
527–530, Barcelona, Spain, 2013.
Jian Pei, Jiawei Han, Behzad Mortazavi-asl, and Hua Zhu. Mining Access Patterns Ef-
ficiently from Web Logs. In Proceedings of the 4th Pacific-Asia Conference on Knowledge
Discovery and Data Mining, PAKDD 2000, volume 0, pages 396–407, Kyoto,
Japan, 2000. Springer Berlin Heidelberg.
Jian Pei, Jiawei Han, Behzad Mortazavi-Asl, Helen Pinto, Qiming Chen, Umeshwar
Dayal, and Mei-Chun Hsu. Prefixspan: Mining sequential patterns efficiently by prefixprojected
pattern growth. In Proceeding of the 2001 international conference on data
engineering (ICDE’01), pages 215–224, Heidelberg, Germany, 2001.
Jian Pei, Jiawei Han, Behzad Mortazavi-Asl, Jianyong Wang, Helen Pinto, Qiming Chen,
Umeshwar Dayal, and Mei-Chun Hsu. Mining Sequential Patterns by Pattern-Growth
: The PrefixSpan Approach. IEEE Transactions on Knowledge and Data Engineering,
16(10):1424–1440, 2004.
Dan Pelleg and Andrew Moore. X-means: Extending k-means with efficient estimation
of the number of clusters. In Proceedings of the Seventeenth International Conference
on Machine Learning, pages 727–734, 2000.
Helen Pinto, Jiawei Han, Jian Pei, Ke Wang, Qiming Chen, and Umeshwar Dayal.
Multi-dimensional sequential pattern mining. In Proceedings of the tenth international
124conference on Information and knowledge management - CIKM’01, pages 81–88, New
York, New York, USA, 2001. ACM. ISBN 1581134363. doi: 10.1145/502598.502600.
James Pitkow and Peter Pirolli. Mining longest repeating subsequences to predict world
wide web surfing. In Proceedings of USITS ’99: The 2nd USENIX Symposium on
Internet Technologies & Systems, pages 139–150, 1999.
Marc Plantevit, Anne Laurent, Dominique Laurent, Maguelonne Teisseire, and Yeow Wei
Choong. Mining multidimensional and multilevel sequential patterns. ACM Transactions
on Knowledge Discovery from Data, 4:4:0–4:37, 2010. doi: 10.1145/1644873.
1644877. URL http://dl.acm.org/citation.cfm?id=1644877.
John C. Platt. Advances in kernel methods. chapter Fast train, pages 185–208. MIT
Press, Cambridge, MA, USA, 1999. ISBN 0-262-19416-3. URL http://dl.acm.org/
citation.cfm?id=299094.299105.
Mika Raento. Mobile communication and context dataset. In Proceedings of the Workshop
towards Benchmarks and a Database for Context Recognition, International Conference
on Pervasive Computing, Vienna, Austria, 2004.
Mika Raento, Antti Oulasvirta, Renaud Petit, and Hannu Toivonen. ContextPhone:
A Prototyping Platform for Context-Aware Mobile Applications. IEEE Pervasive
Computing, 4(2):51–59, 2005. ISSN 1536-1268. doi: 10.1109/MPRV.2005.29.
Sherif Rashad, Mehmed Kantardzic, and Anup Kumar. PAC-WHN: Predictive Admission
Control for Wireless Heterogeneous Networks. In 2007 IEEE Symposium
on Computers and Communications, pages 139–144. Ieee, July 2007a. ISBN 978-1-
4244-1520-5. doi: 10.1109/ISCC.2007.4381633. URL http://ieeexplore.ieee.org/
lpdocs/epic03/wrapper.htm?arnumber=4381633.
Sherif Rashad, Mehmed Kantardzic, and Anup Kumar. MSP-CACRR: Multidimensional
Sequential Patterns Based Call Admission Control and Resource Reservation
for Next-Generation Wireless Cellular Networks. 2007 IEEE Symposium on Computational
Intelligence and Data Mining, (Cidm):552–559, 2007b. doi: 10.1109/
CIDM.2007.368924. URL http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.
htm?arnumber=4221348.
Simona E. Rombo. Optimal extraction of motif patterns in 2D. Information Processing
Letters, 109(17):1015–1020, August 2009. ISSN 0020-0190. URL http:
//www.sciencedirect.com/science/article/pii/S0020019009001926.
125D Sankoff. Matching sequences under deletion-insertion constraints. Proceedings of the
National Academy of Sciences of the United States of America, 69(1):4–6, January
1972. ISSN 0027-8424. URL http://www.pubmedcentral.nih.gov/articlerender.
fcgi?artid=427531&tool=pmcentrez&rendertype=abstract.
Albrecht Schmidt, Michael Beigl, and Hans-W. Gellersen. There is more to context
than location. Computers & Graphics, 23(6):893–901, December 1999. doi: 10.1016/
S0097-8493(99)00120-X.
Stephan Sigg, Sandra Haseloff, and Klaus David. An Alignment Approach for Context
Prediction Tasks in UbiComp Environments. IEEE Pervasive Computing, 9(4):90–
97, 2010. ISSN 1536-1268. doi: 10.1109/MPRV.2010.23. URL http://ieeexplore.
ieee.org/lpdocs/epic03/wrapper.htm?arnumber=5406495.
Temple F. Smith and Michael S. Waterman. Identification of common molecular subsequences.
Journal of Molecular Biology, 147(1):195–197, 1981. ISSN 0022-2836.
Libo Song, David Kotz, Ravi Jain, and Xiaoning He. Evaluating location predictors
with extensive Wi-Fi mobility data. In INFOCOM 2004. Twenty-third AnnualJoint
Conference of the IEEE Computer and Communications Societies, volume 00, pages
1414–1424 vol. 2, Hong Kong, China, 2004. ISBN 0780383567.
P. Songram, V. Boonjing, and S. Intakosum. Closed Multidimensional Sequential Pattern
Mining. In Third International Conference on Information Technology: New Generations
(ITNG’06), pages 512–517, Las Vegas, NV, USA, 2006. Ieee. ISBN 0-7695-
2497-4. doi: 10.1109/ITNG.2006.41. URL http://ieeexplore.ieee.org/lpdocs/
epic03/wrapper.htm?arnumber=1611644.
Ramakrishnan Srikant and Rakesh Agrawal. Mining generalized association rules. In
Proceeding of the 21st international conference on very large data bases (VLDB’95),
pages 407–419, Zurich, Switzerland, 1995.
Ramakrishnan Srikant and Rakesh Agrawal. Mining sequential patterns: Generalizations
and performance improvements. In EDBT’96 Proceeding of the 5th international conference
on extending database technology: Advances in Database Technology, pages
3–17, Avignon, France, 1996. Springer-Verlag London, UK.
Mark P. Styczynski, Kyle L. Jensen, Isidore Rigoutsos, and Gregory Stephanopoulos.
BLOSUM62 miscalculations improve search performance. Nat Biotech, 26(3):274–275,
March 2008. ISSN 1087-0156. doi: 10.1038/nbt0308-274.
126Christian Voigtmann, Klaus David, Hendrik Skistims, and Alexander Roßnagel.
Legal assessment of context prediction techniques. 2012 IEEE Vehicular Technology
Conference (VTC Fall), pages 1–5, September 2012. doi: 10.1109/VTCFall.
2012.6399381. URL http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?
arnumber=6399381.
Jianyong Wang and Jiawei Han. BIDE: efficient mining of frequent closed sequences. In
Proceedings of the 20th International Conference on Data Engineering, 2004., pages
79–90, 2004. ISBN 1063-6382 VO -. doi: 10.1109/ICDE.2004.1319986.
Jingjing Wang and Bhaskar Prabhala. Periodicity Based Next Place Prediction. In
Nokia Mobile Data Challenge - Next Place Prediction, 2012.
Wei Wang, Jiong Yang, and Philip S. Yu. Mining patterns in long sequential data with
noise. ACM SIGKDD Explorations Newsletter, 2(2):28–33, December 2000. ISSN
19310145. doi: 10.1145/380995.381008. URL http://portal.acm.org/citation.
cfm?doid=380995.381008.
Janet L. Wesson, Akash Singh, and Bradley van Tonder. Can Adaptive Interfaces Improve
the Usability of Mobile Applications? Human-Computer Interaction, pages
187–198, 2010.
Xifeng Yan, Jiawei Han, and Ramin Afshar. CloSpan: Mining closed sequential patterns
in large datasets. In Proc. 2003 SIAM Int’l Conf. Data Mining (SDM’03), pages
166–177, 2003.
Guizhen Yang. The complexity of mining maximal frequent itemsets and maximal
frequent patterns. In Proceedings of the tenth ACM SIGKDD international conference
on Knowledge discovery and data mining, KDD ’04, pages 344–353, New York,
NY, USA, 2004. ACM. ISBN 1-58113-888-1. doi: 10.1145/1014052.1014091. URL
http://doi.acm.org/10.1145/1014052.1014091.
Jiong Yang, Wei Wang, Philip S. Yu, and Jiawei Han. Mining long sequential patterns in
a noisy environment. Proceedings of the 2002 ACM SIGMOD international conference
on Management of data - SIGMOD ’02, 4(d):406, 2002. doi: 10.1145/564736.564738.
URL http://portal.acm.org/citation.cfm?doid=564691.564738.
Zhenglu Yang and Masaru Kitsuregawa. LAPIN-SPAM: An Improved Algorithm for
Mining Sequential Pattern. In 21st International Conference on Data Engineering
Workshops (ICDEW’05), pages 1222–1222. Ieee, 2005. ISBN 0-7695-2657-8.
127doi: 10.1109/ICDE.2005.235. URL http://ieeexplore.ieee.org/lpdocs/epic03/
wrapper.htm?arnumber=1647839.
Zhenglu Yang, Yitong Wang, and M Kitsuregawa. LAPIN: effective sequential pattern
mining algorithms by last position induction for dense databases. In R. Kotagirim,
P. R. Krishna, M. Mohania, and E. Nantajeewarawat, editors, 12th International
Conference on Database Systems for Advanced Applications, DASFAA 2007, volume 1,
pages 1020–1023, Bangkok, Thailand, 2007. Springer Berlin Heidelberg. URL http:
//link.springer.com/chapter/10.1007/978-3-540-71703-4_95.
Mariko Yoshida, Tetsuya Iizuka, Hisako Shiohara, and Masanori Ishiguro. Mining sequential
patterns including time intervals. volume 4057, pages 213–220, 2000. URL
http://dx.doi.org/10.1117/12.381735.
Mohammed J. Zaki. Efficient enumeration of frequent sequences. In Proceedings of the
seventh international conference on Information and knowledge management, pages
68–75. ACM, 1998. URL http://dl.acm.org/citation.cfm?id=288643.
Mohammed J. Zaki. Scalable algorithms for association mining. IEEE Transactions on
Knowledge and Data Engineering, 12(3):372–390, 2000. URL http://ieeexplore.
ieee.org/xpls/abs_all.jsp?arnumber=846291.
Mohammed J. Zaki. SPADE: An Efficient Algorithm for Mining Frequent Sequences. Machine
Learning, 42(1-2):31–60, 2001. ISSN 0885-6125. doi: 10.1023/A:1007652502315.
URL http://dx.doi.org/10.1023/A:1007652502315.
Qiankun Zhao and Sourav S. Bhowmick. Sequential pattern mining: A survey. Technical
Report 2003118, CAIS Nayang Technological University Singapore, 2003. URL http:
//www.textedu.ru/tw_files2/urls_6/147/d-146938/7z-docs/5.pdf.
Zhou Zhao, Da Yan, and Wilfred Ng. Mining Probabilistically Frequent Sequential
Patterns in Large Uncertain Databases. IEEE Transactions on Knowledge and Data
Engineering, 99(PrePrints):1, July 2013. ISSN 1041-4347. doi: 10.1109/TKDE.2013.
124. URL http://doi.ieeecomputersociety.org/10.1109/TKDE.2013.124.
Yu Zheng, Lizhu Zhang, Zhengxin Ma, Xing Xie, and Wei-Ying Ma. Recommending
friends and locations based on individual location history. ACM Transactions on the
Web, 5(1):1–44, February 2011. ISSN 15591131. doi: 10.1145/1921591.1921596. URL
http://portal.acm.org/citation.cfm?doid=1921591.1921596.
128Rui Feng Zhu and Tadao Takaoka. A technique for two-dimensional pattern matching.
Communications of the ACM, 32(9):1110–1120, 1989. URL http://dl.acm.org/
citation.cfm?id=66459.
Jacob Ziv and Abraham Lempel. Compression of individual sequences via variablerate
coding. Information Theory, IEEE Transactions on, 24(5):530–536, 1978. ISSN
0018-9448.
129Benchmarks of Supervised Classification
Algorithms for Next Place Prediction
A.1 The Next Place Prediction Problem
This annex illustrates our efforts undertaken in the context of the Nokia Mobile Data
Challenge (MDC, Laurila et al. [2012]) task 2 “Next Place Prediction”. Our aim is to
assess the performance of some well explored statistical algorithms chosen according to
our expectations of their suitability, as well as classic “benchmark” approaches. This
allows the selection of the most accurate algorithm for the prediction task, and a general
judgement on the suitability of the approaches for this task.
A step of pre-treatment of the MDC dataset is required to generate a subset of data
that is suitable for training a statistical model using the algorithms explored. This
treatment consists of a combination of two global – being applied equally to all users
– filters, the first of which is an a priori “2D” feature selection, and the second a
projection of these values into a 1D feature vector. Subsequently two statistical methods
of feature selection are evaluated on this vector on per user basis. This pre-processing
step is documented in the second section. The third section contains a brief presentation
of the algorithms examined and their respective evaluation results. The final section
summarizes the results and contains our conclusions.
A.2 Dataset Analysis
The MDC dataset [Laurila et al., 2012] is highly heterogeneous in nature. This stems
both from the peculiarities of the group providing the data, and from the challenges of
leading a large scale acquisition campaign. The most obvious heterogeneity lies in the
130difference of sizes of the per-user data sets: around 620 MB±320 MB in human readable,
tabulator separated value format. Additionally, different users have made different use
of the phone capabilities, leading to different distributions of useful data, e.g. some
users not using the calendar functionality of their phone, and others using it extensively.
The size of the dataset is also an important quantity: the “width” – i.e. the number of
different data sources – is large (around 75 features), but the actual number of training
cases (per individual) for the next place prediction task is fairly small (between 100 and
1500). This means that statistical analysis is more likely to be influenced by outliers,
potentially leading to inadvertent overfitting of models and in general a higher error for
the smaller sub-datasets. The data itself can also be unreliable: there are intervals of
missing data and occasionally the data does not pass basic sanity tests, e.g. a time zone
changing by many hours, during a single visit. The hardware homogenity at least allows
for some transversal coherency of the gathered data, but this is of little consequence for
the next place prediction.
We propose a three-step approach for the preparation of this data, that consists of
two a priori selection, and a final statistic filtering, using either the consistency criterion
proposed by Liu and Setiono [1996] or a correlation-based feature selector (Cfs, [Hall,
1999]). In the first step we select twelve features, that should influence or indicate the
decision which location is going to be visited next, according to our global conceptual
model. From the 75 features available, this is the subset used as base of the model:
❼ hour of the day and day of the week – based on the assumption that certain visits
will have a regularity in time, which is the case in non-shift workers and students;
❼ place id – based on the assumption, that some places are visited exclusively after
a visit of another place;
❼ bluetooth devices – can link to sub-locations of a visit, transportation choice or
the social environment;
❼ applications used – a mapping application may strongly correlate with first-time
visits, the messaging application may provide information on a social link;
❼ call / message type – an outgoing or incoming phone call or message influence the
choice of next location;
❼ call duration – the length of a phone call is expected to be an indicator of the
social link between call participants;
❼ call / message contact – the contact can be an indicator of the next destination;
131❼ movement of the phone – is an indicator of physical activity, which could indicate
a destination;
❼ charging state – if the phone is charged at a place, it can be expected that the next
place is less likely to have charging facilities available, or that a long transition will
follow;
❼ battery level – if the battery level at departure is low, the next location is likely
to be a place with charging facilities, and close by;
❼ calendar event titles – both the knowledge that a calendar event is linked to the
current place and visit, as well as the next known calendar event are clearly hints
at the following destination.
As most of these values are time dependant during a visit, the next step is to project the
key information of these twelve features into a single characteristic vector. Here again
the choices were made based on expected utility and with the goal of minimizing the
features to limit noise and computational effort required.
Per visit, the hour of day and day of week values were retained for both the beginning
and end of the visit. The two most frequently encountered bluetooth addresses were
recorded, as well as the two most frequently used phone applications. The details of the
last communication (incoming/outgoing, message/call and contact ID), the sum of all
acceleration values with a log weighting favouring the end of the visit, the portion of
the visit that the phone was connected to the charger, the mean battery level as well as
the battery level at the end of the visit and any calendar event during the following 24
hours and the first calendar event planned for the current visit.
On average 59.6% (±14.3) of recorded visits were to the two most visited locations.
More than one third of visits, 37.2% (±11.2), were to the most visited location. This
value represents a lower boundary for prediction precision, when using the training set
for evaluation. Around one sixth of the visits were to places that had an incidence rate
below one percent. These were grouped as a single location, which, when predicted, are
considered to be a new location.
A.3 Next Visit Prediction
It is currently beyond the scale of physical and logical modelling to emulate the decisionmaking
process of a person, even if their complete context and history are known. In
addition our knowledge of users and their context are imperfect. Even logical links
132Table A.1.: Classifier and Filter Configurations Tested
Classifier Classifier Explicit Multiclass
Settings Schemes
NaiveBayes [John and Langley, 1995] Kernel estimator none
(“NB”) 1-1 (“M3”)
1-all (“M0”)
LADTree [Holmes et al., 2001] 10 or 20 Boosts none
(“LAD”) 1-1 (“M3”)
1-all (“M0”)
SMO [Platt, 1999] Complexity parameter none
C = 0.5 or 10 1-1 (“M3”)
Polynomial Kernel 1-all (“M0”)
with exponent
E = 1.0 or 2.0
between a decision and known context cannot be certainly established; at best different
correlation measures could be calculated. As a result, there is no clear a priori indication
which statistical classification model is best applicable to this process. Hence an
empirical, iterative approach is the way we choose to obtain a predictor with optimal
accuracy. A common evaluation scenario similar to the test scenario was chosen, dividing
the training set along a 90%/10% split. The first 90% were used as training set, which
was then evaluated on the other 10%. The evaluation metric is the ratio and number of
correct predictions.
Our interpretation of the problem as a multi-class classification problem, with asymmetrically
sized classes and a mixed characteristic vector, containing both numerical and
nominal values, permitted us to evaluate the naive Bayesian approach [John and Langley,
1995], the LogitBoost alternating decision (LAD, [Holmes et al., 2001]) tree classifier and
a support vector machine based classifier, the sequential minimal optimization (SMO,
[Platt, 1999]) algorithm. These methods represent three different approaches to statistical
modelling and are all flexible enough to accept our dataset without modification.
The specific configurations are referenced in Table 1. Additionally we tested four
configurations of the feature vector, a basic vector using just the time and location
information of the previous visit (time of day and day of week of both beginning and
end of the visit and location), the extended vector (labeled “full” in the graphs) including
the context data mentioned above, and two reduced vectors, using the features selected
by either the correlation based feature selection filter (labelled “Cfs”) or consistency
based feature selection [Liu and Setiono, 1996] filter (labelled “Consist”). For each filter
13330
35
40
45
50
55
Mean
Number of
Correct
Predictions
Relative
Accuracy
(%)
Figure A.3.1.: Results for the Naive Bayes Classification Algorithm
we were able to use an exhaustive search algorithm, due to our limited feature set size.
These four variants allow us to show the impact of the availability of additional context
information as well as what can be achieved by filtering on a per user level.
To cater to the multi-class nature of the task, we used each algorithm’s natural multiclass
approach, and also put in place two variants that forced the classifiers to function
in 1-against-all (labelled M0 in the graphs) and 1-against-1 (labelled M3) mode. For our
experiments, we used the Weka statistics suite [Hall et al., 2009].
In the following we present the results of our evaluation of a total of 84 different con-
figurations. We constrain ourself to two evaluation scores: mean absolute accuracy, i.e.
the average number of correct predictions, and mean relative accuracy, i.e. the average
percentage of correct predictions. The former is a closer indicator of the algorithm’s
performance for the challenge, the latter is a better measure of overall user experience.
Significantly larger numbers of boost iterations for the LADtree could not be used, as
the data set for some users is too small. The partial results we did obtain were not
indicative of precision enhancements. Similarly, our attempts to run exhaustive error
correction multiclass classifiers were foiled by the large size of other user’s data sets,
which required more than 4GB of memory.
Looking at the results of the naive Bayes classifier (see Fig. A.3.1), it becomes obvious,
that it is negatively impacted (losing around 5 percent points of average accuracy) by the
additional context information, unless it is filtered. Otherwise, results vary very little:
mean accuracy is between 49% and 52%, the average number of correct predictions
varies between 30 and 31 for the full feature vector and between 32.5 and 35 in the other
configurations. Specifically, the minimalist dataset has the same average accuracy as the
feature selection filtered variants of the full dataset.
134Figure A.3.2.: Results for the LogitBoost Adaptive Decision Tree Classification Algorithm
Figure A.3.3.: Results for the SMO Classification Algorithm without Feature Selection
Filters
The LADtree (see Fig. A.3.2) model is the most stable of all tested algorithms, and
appears to perform almost independently of the additional data. Mean accuracy is consistently
between 49 and 52 percent and there are between 33 and 35 (one outlier at
31.4) average correct predictions. Two configurations (10x Boosting on the full dataset
and 10x Boosting on the minimal dataset in a 1 - 1 multiclass classifier) exceed a
mean correct prediction count of 35, equivalent to over 2800 correct predictions on our
test dataset. Overall, LADtree performs the most consistent manner and is the most
accurate, but only barely exceeds the results from the Naive Bayesian approach.
Most of the results of our evaluations of the SMO algorithm (see Figs. A.3.3 and A.3.4)
are disappointing, especially when using any of the two tested feature selection filters.
Also, using a 1 - all multi-class approach decreased accuracy noticeably, leading to some
135Figure A.3.4.: Results for the SMO Classification Algorithm with Feature Selection Filters
of the weakest results of our evaluation. Nonetheless, without feature selection filters,
on the reduced dataset, and either forced 1 - 1 multi-class classification or the native 1 -
1 multi-class approach of SMO, results exceeding 50% mean accuracy could be achieved.
Any additional data in the training set decreased accuracy.
A.4 Conclusion
The approaches we examined here only show marginal differences in performance, when
only the most accurate configurations are taken into account. Nonetheless, the overall
best algorithm in our testing set of three is the LADtree classifier. Regarding the feature
selection, correlation based feature selection appears to perform consistently better than
consistency based filtering. Also, a LogitBoost decision tree model performs slightly
better with 10 boosting iterations, than with 20 iterations - in the majority of cases.
The around 50% accuracy of the predictions observed during our evaluations, lead us
to believe that a dedicated hybrid modelling approach, optimised just to predict the
two most frequently visited locations, may achieve higher accuracies than we obtained
during our series of evaluations. Given the constrained time resources given by the
challenge, and the complexity and heterogeneity of the dataset, we decided to first
examine the necessity of following a dedicated modelling approach. One example of a
possible adaptation, would be the development of dedicated estimators for each feature,
when using a naive Bayes classifier. For example the cyclic nature of the temporal
136features are currently not being correctly taken into account.
Another important observation is the fact that adding what appeared to be – from
an a priori stand point – a useful set of features extracted from the context to the
classification process has little to no value in all three prediction models we examined.
The relatively low number of training instances makes observation of strong correlations
unlikely, which in turn reduces the predictive capability of any model based on this
data. While our examination was by no means exhaustive, we see no basis to expect
major gains using a similar approach, with more extensive, iterative tuning. It therefore
appears that the extended conceptual model we based our feature extraction process on,
was not matched by any of the statistical models we evaluated during this work.
137Details on the evaluation processes
B.1 Real world data
B.1.1 Similarity score tables
These are the similarity scores used for the alignment of our real world dataset. The
value 0 in each table represents the place holder value, if a sensor had no (valid) reading
at this point in time.
138Table B.1.: Similarity score table for luminance
0 1 2 3 4 5 6 7 8 9 10
0 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
1 -1 4 -9 -8 -9 -9 -10 -9 -10 -10 -10
2 -1 -9 3 -7 -8 -9 -9 -9 -9 -9 -9
3 -1 -8 -7 3 -8 -9 -10 -9 -9 -9 -10
4 -1 -9 -8 -8 3 -9 -10 -9 -9 -10 -10
5 -1 -9 -9 -9 -9 3 -9 -9 -9 -9 -8
6 -1 -10 -9 -10 -10 -9 1 -10 -7 -10 -7
7 -1 -9 -9 -9 -9 -9 -10 1 -7 -10 -8
8 -1 -10 -9 -9 -9 -9 -7 -7 3 -10 -10
9 -1 -10 -9 -9 -10 -9 -10 -10 -10 2 -7
10 -1 -10 -9 -10 -10 -8 -7 -8 -10 -7 2
Table B.2.: Similarity score table for proximity
0 1 2
0 1 -1 -1
1 -1 2 -5
2 -1 -5 2
Table B.3.: Similarity score table for places
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
0 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
1 -1 6 -9 -10 -9 -9 -10 -10 -9 -10 -10 -10 -9 -9 -10
2 -1 -9 3 -9 -8 -9 -10 -9 -9 -10 -9 -10 -8 -9 -10
3 -1 -10 -9 2 -10 -9 -10 -9 -7 -10 -10 -10 -8 -9 -10
4 -1 -9 -8 -10 3 -8 -9 -9 -8 -10 -10 -10 -8 -9 -10
5 -1 -9 -9 -9 -8 5 -9 -8 -10 -10 -9 -10 -9 -8 -10
6 -1 -10 -10 -10 -9 -9 5 -8 -9 -10 -9 -10 -9 -9 -10
7 -1 -10 -9 -9 -9 -8 -8 5 -9 -10 -10 -10 -10 -9 -10
8 -1 -9 -9 -7 -8 -10 -9 -9 6 -9 -9 -10 -9 -9 -9
9 -1 -10 -10 -10 -10 -10 -10 -10 -9 5 -8 -10 -10 -8 -10
10 -1 -10 -9 -10 -10 -9 -9 -10 -9 -8 6 -10 -10 -8 -10
11 -1 -10 -10 -10 -10 -10 -10 -10 -10 -10 -10 7 -10 -9 -10
12 -1 -9 -9 -8 -8 -9 -9 -10 -9 -10 -10 -10 2 -8 -10
13 -1 -9 -9 -9 -9 -8 -9 -9 -9 -8 -8 -9 -8 5 -9
14 -1 -10 -10 -10 -10 -10 -10 -10 -9 -10 -10 -10 -10 -9 7
139Table B.4.: Similarity score table for battery levels
0 1 2 3 4 5 6 7 8
0 1 -1 -1 -1 -1 -1 -1 -1 -1
1 -1 1 -1 -4 -3 -5 -1 -6 -2
2 -1 -1 1 -5 -4 -6 -2 -7 -3
3 -1 -4 -5 1 -1 -1 -3 -2 -2
4 -1 -3 -4 -1 1 -3 -2 -4 -1
5 -1 -5 -6 -1 -3 1 -4 -1 -2
6 -1 -1 -2 -3 -2 -4 1 -5 -1
7 -1 -6 -7 -2 -4 -1 -5 1 -3
8 -1 -2 -3 -2 -1 -2 -1 -3 1
Table B.5.: Similarity score table for orientation values
0 1 2 3 4 5 6 7 8
0 1 -1 -1 -1 -1 -1 -1 -1 -1
1 -1 2 -8 -7 -8 -4 -7 -7 -9
2 -1 -8 4 -7 -9 -7 -9 -8 -9
3 -1 -7 -7 2 -8 -4 -7 -7 -9
4 -1 -8 -9 -8 4 -8 -9 -9 -8
5 -1 -4 -7 -4 -8 4 -9 -8 -9
6 -1 -7 -9 -7 -9 -9 3 -5 -9
7 -1 -7 -8 -7 -9 -8 -5 4 -9
8 -1 -9 -9 -9 -8 -9 -9 -9 4
140B.1.2 Detailed results of the alignment algorithm evaluation on synthetic
data
These are the detailed result for the 5 datasets and 27 configurations used for the synthetic
evaluation, for the three metrics which have thus far only been presented in
aggregated form.
141d-set 1 d-set 2
precision size ratio recall precision size ratio recall
index mean err mean err mean err mean err mean err mean err
0 0.42 0.32 4.13 2.73 1.00 0.00 0.91 0.20 1.23 0.65 1.00 0.00
1 0.89 0.21 1.32 0.93 1.00 0.00 0.96 0.10 1.06 0.25 1.00 0.00
2 0.82 0.30 1.82 1.99 1.00 0.00 0.95 0.13 1.09 0.34 1.00 0.00
3 0.89 0.21 1.29 0.81 1.00 0.00 0.97 0.09 1.06 0.24 1.00 0.00
4 0.45 0.39 5.86 5.50 1.00 0.00 0.55 0.33 3.03 2.61 1.00 0.00
5 0.50 0.39 5.25 5.31 1.00 0.04 0.88 0.23 1.38 1.02 1.00 0.00
6 0.68 0.36 2.81 3.25 1.00 0.00 0.92 0.18 1.18 0.55 1.00 0.00
7 0.23 0.26 8.92 5.61 1.00 0.00 0.42 0.33 4.43 3.24 0.98 0.07
8 0.23 0.26 8.99 5.64 1.00 0.00 0.63 0.37 2.97 2.75 0.99 0.06
9 0.54 0.39 4.69 5.07 0.99 0.07 0.79 0.30 1.74 1.46 1.00 0.02
10 0.85 0.27 1.53 1.27 1.00 0.04 0.94 0.15 1.13 0.42 1.00 0.00
11 0.91 0.19 1.23 0.73 1.00 0.00 0.95 0.12 1.08 0.29 1.00 0.00
12 0.51 0.36 3.70 2.86 1.00 0.00 0.70 0.32 1.95 1.24 1.00 0.00
13 0.58 0.37 3.09 2.53 1.00 0.06 0.90 0.20 1.24 0.64 1.00 0.00
14 0.77 0.32 1.89 1.60 1.00 0.00 0.93 0.16 1.16 0.47 1.00 0.00
15 0.39 0.31 4.35 2.68 1.00 0.00 0.58 0.34 2.50 1.51 0.99 0.04
16 0.49 0.36 3.72 2.75 1.00 0.07 0.71 0.32 1.92 1.22 1.00 0.00
17 0.57 0.36 2.98 2.22 1.00 0.02 0.85 0.25 1.41 0.78 1.00 0.01
18 0.39 0.37 8.68 10.54 1.00 0.00 0.89 0.22 1.30 0.77 1.00 0.00
19 0.79 0.32 2.22 3.11 1.00 0.01 0.94 0.14 1.12 0.40 1.00 0.00
20 0.36 0.39 11.26 12.35 1.00 0.00 0.49 0.35 5.38 6.90 1.00 0.00
21 0.48 0.40 8.45 11.74 1.00 0.00 0.86 0.25 1.43 1.14 1.00 0.00
22 0.70 0.38 4.50 8.19 1.00 0.00 0.93 0.17 1.16 0.52 1.00 0.00
23 0.26 0.34 17.55 14.69 1.00 0.00 0.29 0.34 10.44 8.49 0.98 0.08
24 0.26 0.34 17.89 14.89 1.00 0.00 0.30 0.34 10.29 8.45 0.98 0.07
25 0.47 0.40 8.88 12.30 0.99 0.08 0.76 0.32 2.17 2.84 1.00 0.02
26 0.37 0.33 5.83 4.86 1.00 0.00 0.91 0.20 1.24 0.67 1.00 0.00
d-set 3 d-set 4
0 0.17 0.10 6.96 2.66 0.96 0.13 0.45 0.32 3.66 2.56 1.00 0.00
1 0.04 0.06 6.13 7.33 0.21 0.26 0.90 0.22 1.33 1.02 1.00 0.00
2 0.15 0.16 6.52 5.70 0.63 0.37 0.77 0.32 2.11 2.39 1.00 0.02
3 0.08 0.11 5.28 4.58 0.34 0.35 0.91 0.21 1.27 0.81 1.00 0.00
4 0.11 0.10 6.93 4.86 0.68 0.42 0.30 0.33 8.03 5.72 1.00 0.00
5 0.16 0.20 4.17 4.20 0.48 0.44 0.49 0.38 5.33 5.42 0.99 0.10
6 0.13 0.15 4.40 3.29 0.52 0.44 0.70 0.36 2.77 3.16 1.00 0.02
7 0.10 0.05 10.07 6.50 0.78 0.31 0.30 0.31 7.36 5.34 1.00 0.00
8 0.10 0.06 10.34 6.51 0.81 0.28 0.31 0.32 7.34 5.37 1.00 0.009 0.20 0.31 2.80 1.56 0.41 0.47 0.50 0.38 4.97 5.14 0.99 0.09
10 0.09 0.09 4.22 2.58 0.42 0.42 0.82 0.28 1.58 1.22 1.00 0.00
11 0.06 0.12 3.59 2.24 0.25 0.39 0.91 0.21 1.24 0.69 1.00 0.00
12 0.15 0.10 4.33 2.22 0.71 0.43 0.43 0.32 3.98 2.72 1.00 0.00
13 0.23 0.18 3.41 2.15 0.69 0.40 0.60 0.37 2.93 2.35 0.99 0.12
14 0.16 0.20 3.27 2.01 0.46 0.45 0.75 0.32 1.92 1.59 1.00 0.00
15 0.13 0.06 5.94 2.48 0.78 0.33 0.49 0.34 3.60 2.60 1.00 0.00
16 0.23 0.18 2.95 1.49 0.63 0.40 0.50 0.36 3.71 2.75 0.98 0.13
17 0.26 0.28 2.97 1.71 0.60 0.42 0.62 0.37 2.87 2.39 1.00 0.00
18 0.05 0.05 12.08 7.45 0.51 0.18 0.16 0.20 17.17 14.66 1.00 0.00
19 0.06 0.08 7.89 8.96 0.27 0.26 0.73 0.35 2.92 4.75 1.00 0.03
20 0.09 0.09 11.88 11.49 0.64 0.39 0.20 0.29 18.45 14.15 1.00 0.00
21 0.12 0.15 5.31 5.28 0.44 0.41 0.44 0.40 9.92 12.32 1.00 0.04
22 0.10 0.13 5.72 5.24 0.41 0.41 0.67 0.39 5.05 8.81 1.00 0.04
23 0.10 0.09 17.29 16.14 0.83 0.23 0.15 0.24 21.38 14.20 1.00 0.00
24 0.14 0.18 16.43 16.20 0.80 0.26 0.15 0.24 21.37 14.21 1.00 0.00
25 0.17 0.24 3.09 1.96 0.44 0.44 0.44 0.39 9.77 12.88 0.99 0.08
26 0.08 0.07 7.55 3.85 0.56 0.25 0.27 0.28 7.52 5.27 1.00 0.00
d-set 5
0 0.82 0.24 0.33 0.14 0.25 0.06
1 0.48 0.11 0.39 0.12 0.18 0.04
2 0.67 0.34 0.36 0.13 0.24 0.13
3 0.42 0.12 0.41 0.13 0.16 0.04
4 0.46 0.11 0.41 0.14 0.18 0.04
5 0.52 0.10 0.39 0.11 0.19 0.04
6 0.37 0.10 0.48 0.09 0.17 0.03
7
8
9 0.29 0.03 0.49 0.09 0.14 0.02
10 0.77 0.26 0.38 0.16 0.28 0.10
11 0.65 0.36 0.36 0.12 0.24 0.14
12 0.44 0.10 0.38 0.12 0.16 0.04
13 0.46 0.13 0.46 0.15 0.20 0.04
14 0.44 0.10 0.34 0.10 0.15 0.04
15 0.42 0.14 0.48 0.14 0.18 0.01
16 0.81 0.24 0.34 0.17 0.25 0.06
17 0.75 0.26 0.40 0.18 0.28 0.10
18 0.66 0.35 0.36 0.14 0.24 0.13
19 0.43 0.11 0.40 0.13 0.16 0.04
20 0.51 0.11 0.35 0.10 0.17 0.0321 0.33 0.09 0.49 0.13 0.16 0.03
22 0.31 0.11 0.55 0.18 0.15 0.03
23 0.39 0.04 0.36 0.05 0.14 0.03
24 0.82 0.24 0.34 0.16 0.25 0.06
25 0.75 0.27 0.39 0.17 0.28 0.10
26B.1.3 Expert annotated patterns
These are the reference patterns identified through visual examination of the dataset of
one participant of our data collection campaign. They were selected through side by
side comparison of data for all days, and identifying similar visual structures in the bar
diagrammes. Pattern 1 (Fig. B.1.1) corresponds to the campaign participant spending
a weekend evening and night at the out-of-town second home. Pattern 2 (Fig. B.1.2) is
one of the instances of the campaign participant getting up in the morning and going
to work. Pattern 3 (Fig. B.1.3) is slightly more tenuous: it covers only the proximity
sensor and location, and corresponds to the campaign participant being at work and
busy, hence the phone is stored away, with the screen covered.
14502468
10
12
14
23:02
23:08
23:15
23:21
23:28
23:35
23:41
23:48
23:54
0:01
0:09
0:16
0:23
0:29
0:36
0:42
0:49
0:55
1:02
1:11
1:15
1:22
1:28
1:35
1:41
1:50
1:57
2:03
2:10
2:16
2:23
2:29
2:36
2:42
2:49
2:56
3:02
3:09
3:15
3:22
3:28
3:37
3:41
3:50
3:57
Ori
Batt
Geo
prox
loglux
date